A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas Sandra Maria Aluísio Fórum de Conhecimento e Tecnologia da Informação.

Apresentações semelhantes


Apresentação em tema: "Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas Sandra Maria Aluísio Fórum de Conhecimento e Tecnologia da Informação."— Transcrição da apresentação:

1 Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas Sandra Maria Aluísio Fórum de Conhecimento e Tecnologia da Informação 9/12/ Unicamp

2 2 Prefácio do Livro Lingüística de Corpus – Tony Sardinha, 2004 Está em curso uma verdadeira revolução no pensamento lingüístico, com implicações sérias sobre como respondemos a questões fundamentais, tais como o que é língua, como ela é organizada, como deve ser estudada, como deve ser ensinada. A mola propulsora dessa revolução é a tecnologia, mais especificamente o computador.... Para entender essa revolução, é preciso acompanhar a Lingüística de Corpus, uma área que trata do uso de corpora computadorizados (coletâneas de textos, escritos ou de transcrições de fala, mantidas em arquivo de computador). Ao revelar uma quantidade surpreendente de evidências lingüísticas provindas de corpora eletrônicos, a Lingüística de Corpus questiona os paradigmas estabelecidos dos estudos lingüísticos e mostra novos caminhos para o lingüista, o tradutor, o lexicógrafo, e muitos outros profissionais.

3 3 Há 15 anos atrás... A comunidade internacional que trabalha com Lingüística Computacional e Processamento de Língua Natural (PLN) teve o mesmo entusiasmo com métodos empíricos e estatísticos para análise da linguagem. Entretanto, esse interesse em métodos estatísticos baseado em córpus reacendeu todas as velhas controvérsias: filosofias racionalistas vs. empiristas, metodologias baseadas em teoria vs. dirigidas por dados, técnicas simbólicas vs. estatísticas.

4 4 Com uma análise histórica do que aconteceu no eixo Estados Unidos – Europa podemos aprender e encurtar caminhos para colocar o processamento e o estudo da língua portuguesa do Brasil mais próximos dos avanços de outras, principalmente o inglês. Além disso, quanto a criação de córpus, podemos aproveitar para aprender com os erros no desenvolvimento do BNC discussões, ferramentas e padrões que estão sendo utilizados atualmente no desenvolvimento do ANC e alavancar o Português do Brasil, trazendo-o para o cenário mundial das pesquisas em Lingüística de Córpus

5 5 Continuando no prefácio... A influência mais visível no mundo contemporâneo está na preparação de dicionários. Hoje, todos os grandes dicionários da língua inglesa (de Oxford até Cambridge, Collins, Longman) são feitos com base em Lingüística de Corpus.

6 6 Para o português do Brasil... Temos também um dicionário com ocorrências reais: o Dicionário de Usos do Português do Brasil (DUP), do Prof. Borba e equipe, lançado em Entretanto, o córpus que deu base ao dicionário: diferentemente dos para a língua inglesa, não foi construído como um consórcio entre editoras e/ou empresas de software, governo e academia possui somente textos escritos não está livremente e extensivamente disponível (ou a um baixo custo) para consulta/pesquisa, agora que o dicionário está pronto.

7 7 Estrutura da Apresentação Um pouco de História Exemplos de trabalhos e forma de trabalho no NILC Lácio-Web Mestrado em Estudos Lingüísticos na UFSCar com três linhas de pesquisa (submetido à Capes): Linguagem e Discurso, Ensino e Aprendizagem de Língua e Linguagem Humana e Tecnologia

8 8 Algumas definições... Divisão histórica: Lingüística Computacional na Lingüística, Processamento de Língua Natural na Computação, Reconhecimento/Tratamento da Fala (TF) na Engenharia Elétrica, Psico-lingüística Computacional* (psicologia cognitiva) na Psicologia Lingüística Computacional é o estudo científico da linguagem a partir de uma perspectiva computacional. Interesse em modelos computacionais de vários tipos de fenômenos lingüísticos. Processamento de Língua Natural (PLN) é uma ciência da computação que usa computadores para processar linguagem escrita e falada para aplicações práticas. Inclui métodos e teorias para as fases de processamento, como é o caso da tradução de língua natural: análise fonético-fonológica, morfológica, sintática, semântica, pragmático-discursiva. Linguagem Humana e Tecnologia abarca pesquisas em PLN e Lingüística Computacional.

9 9 Análises empíricas e estatísticas da LN eram populares Havia uma grande comunidade de lingüistas trabalhando com dados quantitativos nos EUA e Europa, estudando métodos para aprender informações léxicas e sintáticas de córpus Depois da II Guerra Mundial Gramática Gerativa: fins dos 50s inicio dos 60s A ênfase em julgamentos intuitivos sobre a gramaticalidade de textos ocasionou um confronto com os lingüistas quantitativos Primeiro, Chomsky defendeu que lingüistas não deveriam ser meramente descritivos, mas sim Segundo, Chomsky argumentou contra o aprendizado de uma língua a partir de córpus, pois acreditava que partes principais da linguagem são inatas e não aprendidas A abordagem empirista também postula que existe alguma habilidade cognitiva presente no cérebro. A diferença entre as abordagens não é absoluta mas de grau Polarização de opiniões; nenhuma interação produtiva

10 10 70s e 80s Poucos grupos de PLN persistiram na abordagem probabilística A abordagem baseada em regras dominou o campo, mesmo nas equipes industriais que trabalhavam com PLN A comunidade de TF amadureceu e deu ênfase para a indução de modelos estatísticos da língua a partir de dados de treinamento Fim dos 80s e começo dos 90s O campo de PLN deu um giro radical devido a duas razões: incentivo da DARPA para a união das 2 abordagens o aumento da disponibilidade de textos eletrônicos Os problemas da comunidade de lingüistas computacionais estavam sendo resolvidos com sucesso pela comunidade de TF que utilizava aprendizado a partir de córpus em vez de construir manualmente regras para tratar estes problemas A princípio, o interesse por métodos estatísticos baseados em corpus esquentou as controvérsias entre racionalismo vs. empirismo; as técnicas simbólicas vs. estatísticas

11 : The Balancing Act Workshop nos EUA Foi planejado quando havia grande alvoroço nas duas comunidades: mesmo que partes das comunidades estivessem trabalhando nas mesmas bases, não havia entrosamento para mostrarem os resultados. Começou a busca pela combinação de abordagens. Fillmore 1992 in Svartvik (ed), p.35 I dont think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore; all that I have seen are inadequate Every corpus that I've had a chance to examine, however small, has taught me facts that I couldn't imagine finding out about in any other way My conclusion is that the two kinds of linguists need each other. Or better, that the two kinds of linguists, wherever possible, should exist in the same body.

12 12 Por que as coisas mudaram??? Cada comunidade precisa da experiência da outra: abordagens quantitativas facilitam a aquisição automatizada ou semi-automatizada de conhecimento, somam robustez e cobertura a sistemas de PLN restritos, e permitem a extensão ou transporte para um novo conjunto de dados, nova tarefa ou domínio abordagens quantitativas são dependentes da natureza dos dados utilizados e assim precisam também de conhecimento lingüístico; métodos indutivos tem melhor desempenho quando guarnecidos com conhecimento inicial preciso Computadores mais rápidos, armazenagem mais barata e iniciativas para a construção de córpus se tornaram regra e não exceção.

13 13 Necessidade da construção de sistemas que trabalham no mundo real e não mais os tradicionais sistemas de PLN que trabalhavam em domínios restritos. Esta virada pede as vantagens de métodos quantitativos, pois essas aplicações trabalham com dados incorretos e, ao mesmo tempo os usuários estão se ajustando para aceitar resultados menos perfeitos. Com as mudanças políticas e econômicas ocorridas no mundo, há uma grande ênfase em resultados e avaliações caso das avaliações conjuntas e da disponibilização na Web de dados de treinamento para comparação de abordagens. O próprio pêndulo intelectual, mesmo em outras áreas de pesquisa, está voltando para o empirismo, procurando a construção de modelos da língua que levem em conta a incerteza e a variabilidade.

14 14 E a Lingüística de Córpus? O que ela pode oferecer aos lingüistas tradicionais? Começo dos anos 90´s: utilizava-se os termos abordagem baseada em córpus ou Análise Textual Atualmente, existem várias conferências, incluindo a bianual Corpus Linguistics nas quais o público alvo é diverso: tanto da computação como lingüística; livros; córpus em várias línguas e ferramentas disponíveis na Web. Essa área oferece uma oportunidade para: Lingüistas tradicionais trabalharem de uma nova forma com as velhas disciplinas (como faz o lingüista computacional) e juntamente com pesquisadores de PLN em outras tarefas que provavelmente nunca pensou em trabalhar! Áreas de Pesquisa: compilação de córpus (crus ou anotados); desenvolvimento de ferramentas; descrição da linguagem; aplicação de córpus (ensino de línguas, reconhecimento de voz, tradução, etc.) É uma área onde todos tem muito a aprender – pode ser a melhor chance que temos de começar a trabalhar de forma diferente

15 15 Bibliografia Brill, E. and Mooney, R. An Overview of Empirical Natural Language Processing, AI Magazine, Winter 1997, p Klavans, J. and Resnik, P. The Balancing Act - Combining Symbolic and Statistical Approaches to Language, The MIT Press, Church, K. and Mercer, R. Introduction to the Special Issue on Computational Linguistics Using Large Corpora, Computational Linguistics 19, p. 1-24, Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May Daniel Jurafsky & James H. Martin. Speech and Language Processing. Prentice-Hall, 2000.

16 16 Exemplos de trabalhos e forma de trabalho no NILC The Núcleo Interinstitucional de Lingüística Computacional (NILC) was created in 1993 to foster research and development projects in Computational Linguistics and Natural Language Processing, such as Corpus and Lexicon Development, Automatic Summarization, Machine Translation, Writing Supporting Tools. Though it was originally conceived by scientists from the Department of Computer Science and Institute of Physics from the Universidade de São Paulo (USP) in São Carlos, it now includes computer scientists, linguists and research fellows from Universidade Federal de São Carlos (UFSCar), Universidade Estadual Paulista (UNESP) of Araraquara. O ReGra foi a aplicação que deu origem ao NILC, em 1993, com financiamento da ITAUTEC-Philco e agências do governo

17 17 ReGra Treinamento de Etiquetadores Morfossintáticos (taggers) a partir de grandes córpus Extração Automática de Terminologia Aprendizado Automático dos elementos da Estrutura Esquemática de Artigos Científicos Todos os trabalhos acima utilizaram córpus de formas diferentes: controlar a intuição lingüística; avaliação; anotar características manualmente, semi-automaticamente e automaticamente; treinamento de classificadores; extração de informação. Comentários sobre os trabalhos

18 18 ReGra Corretor gramatical (baseado na gramática normativa) inserido no Office Criado um córpus (o Córpus NILC com 35 milhões de ocorrências) com uma organização especial em 3 conjuntos: textos corrigidos textos semicorrigidos textos não-corrigidos Gramática do ReGra: criada manualmente segundo a abordagem simbólica (regras). A gramática do ReGra será usada em uma ferramenta para criação de um córpus de desvio para anotar automaticamente os erros e permitir a sub-classificação manual deles e assim diminuir o tempo de anotação. É usada na ferramenta de suporte à escrita SCIPO Córpus: usado para levantamento de padrões e avaliação do desempenho

19 19 Taggers do Lácio-Web Anotam automaticamente as sentenças de um texto com categorias gramaticais. Certos algoritmos de treinamento exigem grande quantidade de palavras anotadas manualmente, cerca de 1 milhão. O Mac-Morpho (Lácio-Web) possui ~ 1,2 milhões de palavras Treinados 3 taggers que usam modelos diferentes para futuramente criar um outro seguindo o modelo de combinação de classificadores para salientar os acertos dos 3 e evitar os seus erros. Um dos modelos é simbólico (Brill), pois usa regras para representar o conhecimento aprendido ( vantagem de ser legível por humanos, comparado com grandes matrizes de probabilidades) Córpus: usado para treinar classificadores segundo um aprendizado supervisionado que exigiu a anotação manual de cada palavra do córpus de treinamento (80%) Não foi feita nenhuma inclusão de conhecimento lingüístico para pós- processamento ou melhorar a marcação de palavras desconhecidas

20 20 Extração automática de terminologia Extração de listas de candidatos a termos de um dado córpus de textos técnicos/científicos. Existem 3 tipos de métodos: estatísticos, lingüísticos e híbridos (combinação dos 2 primeiros) Projeto ExPorTer avaliou algoritmos dos 3 métodos; híbrido teve melhor desempenho em 2 córpus diferentes. Córpus: usado como fonte da extração. Não há aprendizado da tarefa. No método estatístico, há o cálculo de medidas estatísticas de associação para n-gramas (informação mútua, log-like, etc.) No método lingüístico, há a aplicação de taggers, uso de padrões lingüísticos (subs-adj, subs-prep-subs) e padrões de definição/descrição para localizar o ponto de extração

21 21 Classificador da estrutura esquemática de artigos Anota automaticamente uma seção de um artigo com os elementos de uma estrutura esquemática pré-definida Dada uma estrutura esquemática de uma seção do artigo, por exemplo o Resumo: Contexto, Lacuna, Propósito, Metodologia, Resultado, Conclusão, Estrutura o classificador utiliza um córpus com suas sentenças manualmente anotadas com os elementos acima, mas não trabalha com as sentenças diretamente e sim com vetores de atributos dessas sentenças: Tamanho, localização, presença de citações, presença de expressões formulaicas, tempo, voz, presença de auxiliar modal, histórico Córpus: usado para treinar o modelo de anotação com um aprendizado supervisionado; as sentenças são também processadas para criação dos atributos e nessa fase são utilizadas várias fontes de conhecimento lingüístico como taggers, regras sintáticas, listas de expressões padrões, etc.

22 22 O Projeto Lácio-Web (LW) (1) Objetivos: Desenvolvimento e distribuição gratuita na Web de vários tipos de córpus; Elaboração de ferramentas de análise de lingüística: Análise Qualitativa: construção de dicionários, descrição da língua, etc.; Análise Quantitativa: estatísticas dos dados para etiquetadores, extratores, corretores, etc.; Principais características: Tipologia ortogonal e quadripartida de classificação de textos: privilegia o Gênero, Tipo de Texto, Domínio e Meio de Distribuição; Autorização de uso dos textos; Interfaces de pesquisa e montagem de subcórpus via Web. Projeto de 30 meses, financiado pelo CNPq e concluído em junho/ 2004

23 23 O Projeto Lácio-Web (LW) (2) Lácio-RefMac-MorphoPar-CComp-CLácio-SintLácio-Dev LW – 6 córpus aberto, sincrônico, PB contemporâneo fechado, anotado morfossintaticamente (manualmente) aberto, paralelo (inglês-português) aberto, comparável (textos jurídicos inglês-português) fechado, etiquetado aut. com lemas, etiquetas morfossintáticas e sintáticas. aberto, textos não revisados em relação à norma culta Todos implementados com cabeçalhos em XML com classificações tipológicas e bibliográficas e informações sobre o conjunto de caracteres. Não implementados. Futuras pesquisas de mestrado e doutorado Lácio-SintLácio-Dev fechado, etiquetado aut. com lemas, etiquetas morfossintáticas e sintáticas. aberto, textos não revisados em relação à norma culta

24 24 O Projeto Lácio-Web (LW) (3) Interfaces de Pesquisa e Montagem de Subcórpus: Pesquisa Simples: é a mais genérica e considera apenas 3 campos de pesquisa (Meio de Distribuição, Supergenêro e Gênero) ; Pesquisa Avançada: é a intermediária e permite um refinamento dos campos de pesquisa; Pode apresentar até 6 campos; Pesquisa Personalizada: é a mais refinada e permite um recorte específico do subcórpus. Pode apresentar até 15 campos;

25 25 O Projeto Lácio-Web (LW) (4) Interfaces de Ferramentas para aplicação nos subcórpus montados: Contadores de Freqüência: Padrão e Por Palavra: tratamento de lexia complexa (nomes próprios e palavras compostas); Concordanciadores; Etiquetadores Morfossintáticos: TreeTagger, Bril e MXPost;

26 26 Material do LW e Disponibilizações Públicas Material Institucional: Fundação Victor Civita - Editora Abril, Fapesp, Associação Brasileira de Cerâmica, Folha de São Paulo, USP, Editora Guanabara Koogan, and Revista Brasil de Literatura Editora. Material Individual: teses e dissertações - site SABER Pesquisadores do NILC (com artigos, teses e relatórios técnicos). Primeira disponibilização em 20/1/2004; segunda em 30/6/2004; anúncio em várias listas relacionadas a córpus, por exemplo Existe ainda material autorizado para ser disponibilizado.

27 27 Página Principal do Portal (em Português)

28 28 Os corpora disponíveis

29 29 Tipos de Pesquisa e Arquivos Disponíveis

30 30 Pesquisa Simples

31 31 Informações adicionais

32 32 Montagem de um subcorpus

33 33 Finalizando o subcorpus

34 34 Download e Ferramentas

35 35 Contadores de Freqüência

36 36 Tela de resultado dos Contadores de Freqüência Estou coletando a fala de seis crianças com idades entre 1 e 3 anos, num intervalo de aproximadamente quinze dias. O objetivo é formar um banco de dados longitudinal para descrever aspectos da aquisição lexical, tais como freqüência, vizinhança, essas coisas, que poderão ser utilizadas em outros trabalhos. A minha tese especificamente vai estar centrada em... Paralelo a isto, porém, estou fazendo uma descrição do vocabulário das crianças em termos de freqüência, campo semântico, classe gramatical, tonicidade, número de sílabas e tipo de sílabas. É nesses aspectos que gostaria de utilizar os dados que acho que vcs dispõe, a fim de comparar a aquisição lexical infantil com dados do português como um todo. Ou seja: gostaria de saber se vcs. tem dados como: que classe gramatical é mais freqüente? Existem mais palavras dissílabas ou trissílabas? Qual a porcentagem de paroxítonas? essas coisas.

37 37 O Concordanciador

38 38 Resultado do Concordanciador

39 39 Contexto ampliado do Concordanciador

40 40 LW em Números Lácio-Ref – pretende ser um grande córpus de Referência do PB, funcionando, por exemplo, como córpus de controle para comparação com um dado córpus de estudo. 4,278 arquivos 8,291,818 ocorrências Par-C (córpus paralelo) 646 arquivos em inglês e 646 in Português da Revista Pesquisa Fapesp 893,283 ocorrências Comp-C (gerador de córpus comparáveis) Textos originais em Inglês e Português – obtidos com uma ferramenta de busca Córpus de Referencia de Textos em Inglês (Ref-Ig) para o domínio jurídico 29 arquivos e 61,149 ocorrências No total, LW tem 5,708 files e 10,413,524 ocorrências

41 41 Distribuição Final dos Textos no LW

42 42 O Lácio-Web é hoje: gratuitamente um Portal de acesso a córpus que disponibiliza gratuitamente: 4 tipos distintos de córpus; ferramentas lingüístico-computacionais para aplicação em subcórpus; 3 tipos de interfaces de pesquisa e montagem de subcórpus; ambiente de navegação dinâmica e didática que incentiva o uso de córpus Futuramente, o Lácio-Web receberá ferramentas desenvolvidas em projetos do NILC como alinhadores de sentença, extratores de termos etc. Será que precisamos de um Córpus Nacional do Português Brasileiro, seguindo os moldes dos megacórpus BNC e ANC?

43 43 Contribuem para: Descrição e ensino da língua Desenvolvimento de Ferramentas de PLN Criação de recursos (gramáticas e dicionários) Como o custo de criar e anotar córpus é muito alto tanto em recursos financeiros como em demanda de pessoal especializado, agências finnaciadoras e pesquisadores esperam amortizar esse custo pelo reuso desse recurso em mais de um projeto e por mais de um grupo de pesquisa, incluindo sua distribuição mundial. O alto custo também força o desenvolvimento de arquiteturas de dados, formatos de codificação e formalismos de anotação para os recursos de língua que possibilitarão o intercâmbio Um exemplo é o padrão XCES, (usa XML) que está sendo desenvolvido pelo grupo do projeto ANC ao mesmo tempo da criação do megacórpus Projetos de Megacórpus

44 44 Tipos de informações relevantes para codificação 1 – Documentation (header): bibliographic description of the document, character set, description of encoding convention, etc. 2 – Primary data 1.1 – Gross structure: volume, chapter, paragraph, footnotes, titles, tables, figures, etc. 1.2 – Sub-paragraph structures: sentences, quotations, words, abbreviations, dates, highligted words, etc. 3 – Linguistic annotation: linguistic information about segments e.g., POS and syntactic tagging, alignment of parallel texts. CES XCES valida a arquitetura de dados CES, na qual anotação lingüística (incluindo o cabeçalho) são mantidas em documentos separados que apontam o original, gerando um hiperdocumento composto do texto origina e todas as anotações

45 45 Codificação dos Córpus do LW Lácio-RefMac-MorphoPar-CComp-C Córpus do LW fechado, anotado morfossintaticamente (manualmente) aberto, paralelo (inglês-português) aberto, comparável (textos jurídicos inglês-português) Lácio-Ref, Par-C e Comp-C: cabeçalho XML com info bibliográfica e tipologias, conjunto de carcateres e codificação. Inserido manualmente Mac-Morpho: 2 formatos: 1) buscas --- etiquetas XML para nome do arquivo, título, subtítulo, parágrafo, sentença; 2) treinamento de taggers --- pares palavra–tag separados por linhas Aberto, síncrono, PB contemporâneo Fechado, anotado manualmente com etiquetas POS Aberto, paralelo (Inglês-Português) aberto, comparável (textos jurídicos P-I) Lácio-ref + Ref-Ig

46 46 Cabeçalho de classificação em XML: Informações Tipológicas: Supergênero, Gênero, Subgênero, Tipo de Texto, Meio de Distribuição, Domínio, Subdomínio; Informações Bibliográficas: Nome do Autor, Editor, Local de Publicação, Data, Titulo, Subtítulo, Língua, Número de Páginas, Número de Palavras etc.; <>... RE-IF-F-ci-ago02_01.txt Referência Íntegra <>... Informativo Jornalístico Notícia Científico/Ciências Biológicas Ecologia Científico/Ciências Agrárias Medicina Veterinária Revista Cabeçalho do LW Conjunto de caracteres e codificação Parte da Descrição Bibliográfica Gênero e Sub-gênero Tipo de Texto Meio de Distribuição Domínio e Sub-domínio

47 47 <>... RE-IF-F-ci-ago02_01.txt Referência Íntegra <>... Informativo Jornalístico Notícia Científico/Ciências Biológicas Ecologia Científico/Ciências Agrárias Medicina Veterinária Revista X Y Z K C N X... Genre Y... Subgenre Z... Text type K... Dist. N... Domain C... Subdomain Text Base de Dados Cabeçalho do LW

48 48 Corpo do Texto - LW Texto e cabeçalho estão juntos em um arquivo Não estamos seguindo a arquitetura de dados usada no XCES. Não anotamos em XML vários elementos da gross structure, por exemplo, capítulos, parágrafos, sub-parágrafos, notas de rodapé Esses elementos estão formatados e padronizados para permitir visualização fácil com quebra de linhas, caixa-alta, etc. Somente a anotação de elementos gráficos, bibliografia, palavras-chave e resumo foram feitas em XML Palavras com ênfase foram perdidas quando o texto foi convertido no formato txt (foi uma opção de projeto)

49 49 Mestrado em Estudos Lingüísticos na UFSCar Em julgamento pela CAPES; resposta no próximo dia 21/12 A linha Linguagem Humana e Tecnologia, começa com 3 pesquisadoras do NILC (Gladis Maria de Barcellos Almeida, Lúcia Helena Machado Rino e Sandra Maria Aluísio) e foi pré-avaliada com elogios por trazer um diferencial. Aceitará alunos da Computação e da Lingüística trabalhando com as abordagens baseada em córpus e simbólica e, principalmente, com a combinação dessas Disciplinas Iniciais: Introdução a Metodologias Baseadas em Conhecimento Lingüística de Corpus Introdução ao Processamento de Línguas Naturais (PLN) Terminologia e Ferramentas Computacionais Sumarização Automática (SA) Seminários de Linguagem Humana e Tecnologia

50 50 Links interessantes Site do NILC: Arquivo das mensagen das lista corpora: Site da Linguateca – córpus e ferramentas: Obrigada!


Carregar ppt "Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas Sandra Maria Aluísio Fórum de Conhecimento e Tecnologia da Informação."

Apresentações semelhantes


Anúncios Google