Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas Sandra Maria Aluísio Estou usando a forma aportuguesada (ou abrasileirada)

Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas
Sandra Maria Aluísio Estou usando a forma aportuguesada (ou abrasileirada) da palavra corpus/corpora que segue lápis. Fórum de Conhecimento e Tecnologia da Informação 9/12/ Unicamp

Prefácio do Livro “Lingüística de Corpus” – Tony Sardinha, 2004
Está em curso uma verdadeira revolução no pensamento lingüístico, com implicações sérias sobre como respondemos a questões fundamentais, tais como o que é língua, como ela é organizada, como deve ser estudada, como deve ser ensinada. A mola propulsora dessa revolução é a tecnologia, mais especificamente o computador. ... Para entender essa revolução, é preciso acompanhar a Lingüística de Corpus, uma área que trata do uso de corpora computadorizados (coletâneas de textos, escritos ou de transcrições de fala, mantidas em arquivo de computador). Ao revelar uma quantidade surpreendente de evidências lingüísticas provindas de corpora eletrônicos, a Lingüística de Corpus questiona os paradigmas estabelecidos dos estudos lingüísticos e mostra novos caminhos para o lingüista, o tradutor, o lexicógrafo, e muitos outros profissionais. O livro é o primeiro a ser lançado em língua portuguesa sobre o tema e possui uma excelente seleção de tópicos, sendo bastante didático. Esperamos que muitos outros sigam esse e, na verdade, já há mais dois no prelo que relatam a experiência de vários grupos que trabalham com o português tanto no Brasil como em Portugal: SARDINHA,Tony Berber. (Org.). A língua portuguesa no computador. - SANTOS, Diana. (Org.). Avaliação conjunta:um novo paradigma no processamento computacional da língua portuguesa. Embora seja comum que o prefácio e a contracapa sejam bastante otimistas com relação ao assunto tratado, esse fala de uma revolução no pensamento lingüístico, com novos caminhos para os profissionais da área.

Há 15 anos atrás ... A comunidade internacional que trabalha com Lingüística Computacional e Processamento de Língua Natural (PLN) teve o mesmo entusiasmo com métodos empíricos e estatísticos para análise da linguagem. Entretanto, esse interesse em métodos estatísticos baseado em córpus reacendeu todas as velhas controvérsias: filosofias racionalistas vs. empiristas, metodologias baseadas em teoria vs. dirigidas por dados, técnicas simbólicas vs. estatísticas. Vejam que nesse tempo ainda não se falava da área de L Córpus e cujo nome só foi aparecer numa obra em 1991; a primeira revista internacional em 1996; a primeira conferência internacional (bianual) a levar o nome no título (Corpus Linguistics) em 2001.

Com uma análise histórica do que aconteceu no eixo Estados Unidos – Europa podemos aprender e encurtar caminhos para colocar o processamento e o estudo da língua portuguesa do Brasil mais próximos dos avanços de outras, principalmente o inglês. Além disso, quanto a criação de córpus, podemos aproveitar para aprender com os erros no desenvolvimento do BNC discussões, ferramentas e padrões que estão sendo utilizados atualmente no desenvolvimento do ANC e alavancar o Português do Brasil, trazendo-o para o cenário mundial das pesquisas em Lingüística de Córpus No Brasil, há um atraso de pelo menos 10 anos para as pesquisas em L Córpus, L Computacional e PLN. E assim não sei se temos tempo de repetir a história. Hoje, vários pesquisadores dos departamentos de Letras e Lingüística (UNESP, UFSCar, FFLCH, IEL) estão apreensivos para trabalhar nessas áreas mas ainda não está claro qual o papel deles na parceria com cientistas da computação, estatísticos, matemáticos e outros pesquisadores da L Córpus e L Computacionais que já trabalham na área com o inglês, por exemplo. Gostaria de trazer para vocês a forma de trabalhar num núcleo de pesquisa interdisciplinar que é NILC que há 10 anos une as duas comunidades, principalmente computação e lingüística, numa histórias de alguns sucessos e .... muito aprendizado.

Continuando no prefácio...
A influência mais visível no mundo contemporâneo está na preparação de dicionários. Hoje, todos os grandes dicionários da língua inglesa (de Oxford até Cambridge, Collins, Longman) são feitos com base em Lingüística de Corpus.

Para o português do Brasil ...
Temos também um dicionário com ocorrências reais: o “Dicionário de Usos do Português do Brasil” (DUP), do Prof. Borba e equipe, lançado em 2002. Entretanto, o córpus que deu base ao dicionário: diferentemente dos para a língua inglesa, não foi construído como um consórcio entre editoras e/ou empresas de software, governo e academia possui somente textos escritos não está livremente e extensivamente disponível (ou a um baixo custo) para consulta/pesquisa, agora que o dicionário está pronto. a) Aqui não faço uma crítica a forma de construção do córpus, muito pelo contrário, quero somente deixar claro que é muito difícil construir um córpus grande ou nacional, seguindo os preceitos da Lingüística de Corpus, sem as parcerias que podem autorizar o uso de seus textos como editoras com seus livros e empresas de software com seus manuais, por exemplo. b) Há a necessidade urgente de termos corpus de fala para embasar pesquisas lexicográficas e de outros tipos. c) Geralmente, quando se privilegia a representatividade de uma língua acabamos com um córpus estático e balanceado como o BNC e, futuramente, como o ANC virá a ser. Por outro lado, se privilegiamos grandes córpus podermos ter um córpus dinâmico, como o Bank of English (Collins) (que também é monitor) e o Banco de Português (da PUC/SP) que crescem constantemente. Para esses nenhum esforço é feito de se conseguir a autorização de uso de seus textos e, portanto, não podem ser disponibilizados “como um todo” para pesquisa. Geralmente o que se faz é uma interface para busca de concordancias e colocações como é o caso do Collins que traz um número de resultados limitado. Existe um grande debate sobre o uso de amostragens grandes vs. representativas da língua. A posição de John Sinclair, pai da LC, é a de que um córpus não precisa ser balanceado, pois esses são difíceis de se construir. A de Biber é a de que devemos usar as mesmas técnicas de amostragens que estatísticos usam quando estudam economia, eleições, etc. Um requisito simples e mais realístico pode ajudar a montar um grande córpus: Exige-se apenas que as peculiaridades dos sub-córpus (alta freqüência de frases locais aos córpus, e.g. “Folha de São Paulo” em um sub-córpus de 1 ano da Folha) não sejam correlacionadas

Estrutura da Apresentação
Um pouco de História Exemplos de trabalhos e forma de trabalho no NILC Lácio-Web Mestrado em Estudos Lingüísticos na UFSCar com três linhas de pesquisa (submetido à Capes): Linguagem e Discurso, Ensino e Aprendizagem de Língua e Linguagem Humana e Tecnologia

Algumas definições ... Divisão histórica: Lingüística Computacional
Lingüística Computacional na Lingüística, Processamento de Língua Natural na Computação, Reconhecimento/Tratamento da Fala (TF) na Engenharia Elétrica, Psico-lingüística Computacional* (psicologia cognitiva) na Psicologia Lingüística Computacional é o estudo científico da linguagem a partir de uma perspectiva computacional. Interesse em modelos computacionais de vários tipos de fenômenos lingüísticos. Processamento de Língua Natural (PLN) é uma ciência da computação que usa computadores para processar linguagem escrita e falada para aplicações práticas. Inclui métodos e teorias para as fases de processamento, como é o caso da tradução de língua natural: análise fonético-fonológica , morfológica, sintática, semântica, pragmático-discursiva. Linguagem Humana e Tecnologia abarca pesquisas em PLN e Lingüística Computacional. Historicamente, o processamento de fala e de língua escrita tem sido tratado de forma diferente e alocado em departamentos diferentes. *arquitetura da mente e operações lingüísticas que se realizam sob essa arquitetura

Depois da II Guerra Mundial
Análises empíricas e estatísticas da LN eram populares Havia uma grande comunidade de lingüistas trabalhando com dados quantitativos nos EUA e Europa, estudando métodos para aprender informações léxicas e sintáticas de córpus Gramática Gerativa: fins dos 50’s inicio dos 60’s A ênfase em julgamentos intuitivos sobre a gramaticalidade de textos ocasionou um confronto com os lingüistas quantitativos Primeiro, Chomsky defendeu que lingüistas não deveriam ser meramente descritivos, mas sim Segundo, Chomsky argumentou contra o aprendizado de uma língua a partir de córpus, pois acreditava que partes principais da linguagem são inatas e não aprendidas A abordagem empirista também postula que existe alguma habilidade cognitiva presente no cérebro. A diferença entre as abordagens não é absoluta mas de grau Polarização de opiniões; nenhuma interação produtiva

Fim dos 80’s e começo dos 90’s
70’s e 80’s Poucos grupos de PLN persistiram na abordagem probabilística A abordagem baseada em regras dominou o campo, mesmo nas equipes industriais que trabalhavam com PLN A comunidade de TF amadureceu e deu ênfase para a indução de modelos estatísticos da língua a partir de dados de treinamento Fim dos 80’s e começo dos 90’s O campo de PLN deu um giro radical devido a duas razões: incentivo da DARPA para a união das 2 abordagens o aumento da disponibilidade de textos eletrônicos Os problemas da comunidade de lingüistas computacionais estavam sendo resolvidos com sucesso pela comunidade de TF que utilizava aprendizado a partir de córpus em vez de construir manualmente regras para tratar estes problemas A princípio, o interesse por métodos estatísticos baseados em corpus esquentou as controvérsias entre racionalismo vs. empirismo; as técnicas simbólicas vs. estatísticas

1994: The Balancing Act Workshop nos EUA
Foi planejado quando havia grande alvoroço nas duas comunidades: mesmo que partes das comunidades estivessem trabalhando nas mesmas bases, não havia entrosamento para mostrarem os resultados. Começou a busca pela combinação de abordagens. Fillmore 1992 in Svartvik (ed), p.35 I don’t think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore; all that I have seen are inadequate Every corpus that I've had a chance to examine, however small, has taught me facts that I couldn't imagine finding out about in any other way My conclusion is that the two kinds of linguists need each other. Or better, that the two kinds of linguists, wherever possible, should exist in the same body.

Por que as coisas mudaram???
Cada comunidade precisa da experiência da outra: abordagens quantitativas facilitam a aquisição automatizada ou semi-automatizada de conhecimento, somam robustez e cobertura a sistemas de PLN restritos, e permitem a extensão ou transporte para um novo conjunto de dados, nova tarefa ou domínio abordagens quantitativas são dependentes da natureza dos dados utilizados e assim precisam também de conhecimento lingüístico; métodos indutivos tem melhor desempenho quando guarnecidos com conhecimento inicial preciso Computadores mais rápidos, armazenagem mais barata e iniciativas para a construção de córpus se tornaram regra e não exceção.

Necessidade da construção de sistemas que trabalham no mundo real e não mais os tradicionais sistemas de PLN que trabalhavam em domínios restritos. Esta virada pede as vantagens de métodos quantitativos, pois essas aplicações trabalham com dados incorretos e, ao mesmo tempo os usuários estão se ajustando para aceitar resultados menos perfeitos. Com as mudanças políticas e econômicas ocorridas no mundo, há uma grande ênfase em resultados e avaliações caso das avaliações conjuntas e da disponibilização na Web de dados de treinamento para comparação de abordagens. O próprio pêndulo intelectual, mesmo em outras áreas de pesquisa, está voltando para o empirismo, procurando a construção de modelos da língua que levem em conta a incerteza e a variabilidade.

E a Lingüística de Córpus
E a Lingüística de Córpus? O que ela pode oferecer aos lingüistas tradicionais? Começo dos anos 90´s: utilizava-se os termos “abordagem baseada em córpus” ou Análise Textual Atualmente, existem várias conferências, incluindo a bianual “Corpus Linguistics” nas quais o público alvo é diverso: tanto da computação como lingüística; livros; córpus em várias línguas e ferramentas disponíveis na Web. Essa área oferece uma oportunidade para: Lingüistas tradicionais trabalharem de uma nova forma com as velhas disciplinas (como faz o lingüista computacional) e juntamente com pesquisadores de PLN em outras tarefas que provavelmente nunca pensou em trabalhar! Áreas de Pesquisa: compilação de córpus (crus ou anotados); desenvolvimento de ferramentas; descrição da linguagem; aplicação de córpus (ensino de línguas, reconhecimento de voz, tradução, etc.) É uma área onde todos tem muito a aprender – pode ser a melhor chance que temos de começar a trabalhar de forma diferente

Bibliografia Brill, E. and Mooney, R. An Overview of Empirical Natural Language Processing, AI Magazine, Winter 1997, p Klavans, J. and Resnik, P. The Balancing Act - Combining Symbolic and Statistical Approaches to Language, The MIT Press, 1996. Church, K. and Mercer, R. Introduction to the Special Issue on Computational Linguistics Using Large Corpora, Computational Linguistics 19, p. 1-24, 1993. Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999. Daniel Jurafsky & James H. Martin. Speech and Language Processing. Prentice-Hall, 2000.

Exemplos de trabalhos e forma de trabalho no NILC
The Núcleo Interinstitucional de Lingüística Computacional (NILC) was created in 1993 to foster research and development projects in Computational Linguistics and Natural Language Processing, such as Corpus and Lexicon Development, Automatic Summarization, Machine Translation, Writing Supporting Tools. Though it was originally conceived by scientists from the Department of Computer Science and Institute of Physics from the Universidade de São Paulo (USP) in São Carlos, it now includes computer scientists, linguists and research fellows from Universidade Federal de São Carlos (UFSCar), Universidade Estadual Paulista (UNESP) of Araraquara. O ReGra foi a aplicação que deu origem ao NILC, em 1993, com financiamento da ITAUTEC-Philco e agências do governo

Comentários sobre os trabalhos
ReGra Treinamento de Etiquetadores Morfossintáticos (taggers) a partir de grandes córpus Extração Automática de Terminologia Aprendizado Automático dos elementos da Estrutura Esquemática de Artigos Científicos Todos os trabalhos acima utilizaram córpus de formas diferentes: controlar a intuição lingüística; avaliação; anotar características manualmente, semi-automaticamente e automaticamente; treinamento de classificadores; extração de informação.

ReGra Corretor gramatical (baseado na gramática normativa) inserido no Office Criado um córpus (o Córpus NILC com 35 milhões de ocorrências) com uma organização especial em 3 conjuntos: textos corrigidos textos semicorrigidos textos não-corrigidos Gramática do ReGra: criada manualmente segundo a abordagem simbólica (regras). A gramática do ReGra será usada em uma ferramenta para criação de um córpus de desvio para anotar automaticamente os erros e permitir a sub-classificação manual deles e assim diminuir o tempo de anotação. É usada na ferramenta de suporte à escrita SCIPO Córpus: usado para levantamento de padrões e avaliação do desempenho

Taggers do Lácio-Web Anotam automaticamente as sentenças de um texto com categorias gramaticais. Certos algoritmos de treinamento exigem grande quantidade de palavras anotadas manualmente, cerca de 1 milhão. O Mac-Morpho (Lácio-Web) possui ~ 1,2 milhões de palavras Treinados 3 taggers que usam modelos diferentes para futuramente criar um outro seguindo o modelo de combinação de classificadores para salientar os acertos dos 3 e evitar os seus erros. Um dos modelos é simbólico (Brill), pois usa regras para representar o conhecimento aprendido ( vantagem de ser legível por humanos, comparado com grandes matrizes de probabilidades) Córpus: usado para treinar classificadores segundo um aprendizado supervisionado que exigiu a anotação manual de cada palavra do córpus de treinamento (80%) Não foi feita nenhuma inclusão de conhecimento lingüístico para pós-processamento ou melhorar a marcação de palavras desconhecidas

Extração automática de terminologia
Extração de listas de candidatos a termos de um dado córpus de textos técnicos/científicos. Existem 3 tipos de métodos: estatísticos, lingüísticos e híbridos (combinação dos 2 primeiros) Projeto ExPorTer avaliou algoritmos dos 3 métodos; híbrido teve melhor desempenho em 2 córpus diferentes. Córpus: usado como fonte da extração. Não há aprendizado da tarefa. No método estatístico, há o cálculo de medidas estatísticas de associação para n-gramas (informação mútua, log-like, etc.) No método lingüístico, há a aplicação de taggers, uso de padrões lingüísticos (subs-adj, subs-prep-subs) e padrões de definição/descrição para localizar o ponto de extração

Classificador da estrutura esquemática de artigos
Anota automaticamente uma seção de um artigo com os elementos de uma estrutura esquemática pré-definida Dada uma estrutura esquemática de uma seção do artigo, por exemplo o Resumo: Contexto, Lacuna, Propósito, Metodologia, Resultado, Conclusão, Estrutura o classificador utiliza um córpus com suas sentenças manualmente anotadas com os elementos acima, mas não trabalha com as sentenças diretamente e sim com vetores de atributos dessas sentenças: Tamanho, localização, presença de citações, presença de expressões formulaicas, tempo, voz, presença de auxiliar modal, histórico Córpus: usado para treinar o modelo de anotação com um aprendizado supervisionado; as sentenças são também processadas para criação dos atributos e nessa fase são utilizadas várias fontes de conhecimento lingüístico como taggers, regras sintáticas, listas de expressões padrões, etc.

O Projeto Lácio-Web (LW) (1)
Projeto de 30 meses, financiado pelo CNPq e concluído em junho/ 2004 Objetivos: Desenvolvimento e distribuição gratuita na Web de vários tipos de córpus; Elaboração de ferramentas de análise de lingüística: Análise Qualitativa: construção de dicionários, descrição da língua, etc.; Análise Quantitativa: estatísticas dos dados para etiquetadores, extratores, corretores, etc.; Principais características: Tipologia ortogonal e quadripartida de classificação de textos: privilegia o Gênero, Tipo de Texto, Domínio e Meio de Distribuição; Autorização de uso dos textos; Interfaces de pesquisa e montagem de subcórpus via Web. 1 - Através do Projeto LW: a) propusemos uma tipologia ortogonal de textos, que privilegia criteriosamente o gênero e o tipo de texto, o domínio e o meio de distribuição; b) obtivemos a autorização de uso dos textos, possibilitando acesso livre desse material via Web; c) criamos uma interface Web de pesquisa e montagem de subcórpus, de modo a atender a maioria dos dados armazenados no cabeçalho das amostras; d) associamos a cada córpus (o LW possui seis tipos diferentes de córpus) um conjunto de ferramentas de processamento lingüístico, muitas das quais já utilizadas em outros projetos do Núcleo Interinstitucional de Lingüística Computacional (NILC); e e) adequamos o acesso aos córpus, a fim de torná-los de fácil interação entre os usuários especialista e leigos;

Não implementados. Futuras pesquisas de mestrado e doutorado LW – 6 córpus Lácio-Ref Mac-Morpho Par-C Comp-C Lácio-Sint Lácio-Dev Lácio-Sint Lácio-Dev fechado, etiquetado aut. com lemas, etiquetas morfossintáticas e sintáticas. aberto, textos não revisados em relação à norma culta aberto, sincrônico, PB contemporâneo fechado, anotado morfossintaticamente (manualmente) aberto, paralelo (inglês-português) aberto, comparável (textos jurídicos inglês-português) fechado, etiquetado aut. com lemas, etiquetas morfossintáticas e sintáticas. aberto, textos não revisados em relação à norma culta Todos implementados com cabeçalhos em XML com classificações tipológicas e bibliográficas e informações sobre o conjunto de caracteres.

Interfaces de Pesquisa e Montagem de Subcórpus: Pesquisa Simples: é a mais genérica e considera apenas 3 campos de pesquisa (Meio de Distribuição, Supergenêro e Gênero) ; Pesquisa Avançada: é a intermediária e permite um refinamento dos campos de pesquisa; Pode apresentar até 6 campos; Pesquisa Personalizada: é a mais refinada e permite um recorte específico do subcórpus. Pode apresentar até 15 campos;

Interfaces de Ferramentas para aplicação nos subcórpus montados: Contadores de Freqüência: “Padrão” e “Por Palavra”: tratamento de lexia complexa (nomes próprios e palavras compostas); Concordanciadores; Etiquetadores Morfossintáticos: TreeTagger, Bril e MXPost;

Material do LW e Disponibilizações Públicas
Material Institucional: Fundação Victor Civita - Editora Abril, Fapesp, Associação Brasileira de Cerâmica, Folha de São Paulo, USP, Editora Guanabara Koogan, and Revista Brasil de Literatura Editora. Material Individual: teses e dissertações - site SABER Pesquisadores do NILC (com artigos, teses e relatórios técnicos). Primeira disponibilização em 20/1/2004; segunda em 30/6/2004; anúncio em várias listas relacionadas a córpus, por exemplo Existe ainda material autorizado para ser disponibilizado.

Página Principal do Portal (em Português)

Os corpora disponíveis

Tipos de Pesquisa e Arquivos Disponíveis

Pesquisa Simples

Informações adicionais

Montagem de um subcorpus

Finalizando o subcorpus

Download e Ferramentas

Contadores de Freqüência

Tela de resultado dos Contadores de Freqüência
Estou coletando a fala de seis crianças com idades entre 1 e 3 anos, num intervalo de aproximadamente quinze dias. O objetivo é formar um banco de dados longitudinal para descrever aspectos da aquisição lexical, tais como freqüência, vizinhança, essas coisas, que poderão ser utilizadas em outros trabalhos. A minha tese especificamente vai estar centrada em ... Paralelo a isto, porém, estou fazendo uma descrição do vocabulário das crianças em termos de freqüência, campo semântico, classe gramatical, tonicidade, número de sílabas e tipo de sílabas. É nesses aspectos que gostaria de utilizar os dados que acho que vcs dispõe, a fim de comparar a aquisição lexical infantil com dados do português como um todo. Ou seja: gostaria de saber se vcs. tem dados como: que classe gramatical é mais freqüente? Existem mais palavras dissílabas ou trissílabas? Qual a porcentagem de paroxítonas? essas coisas.

O Concordanciador

Resultado do Concordanciador

Contexto ampliado do Concordanciador

LW em Números Lácio-Ref – pretende ser um grande córpus de Referência do PB, funcionando, por exemplo, como córpus de controle para comparação com um dado córpus de estudo. 4,278 arquivos 8,291,818 ocorrências Par-C (córpus paralelo) 646 arquivos em inglês e 646 in Português da Revista Pesquisa Fapesp 893,283 ocorrências Comp-C (gerador de córpus comparáveis) Textos originais em Inglês e Português – obtidos com uma ferramenta de busca Córpus de Referencia de Textos em Inglês (Ref-Ig) para o domínio jurídico 29 arquivos e 61,149 ocorrências No total, LW tem 5,708 files e 10,413,524 ocorrências

Distribuição Final dos Textos no LW

O Lácio-Web é hoje: um Portal de acesso a córpus que disponibiliza gratuitamente: 4 tipos distintos de córpus; ferramentas lingüístico-computacionais para aplicação em subcórpus; 3 tipos de interfaces de pesquisa e montagem de subcórpus; ambiente de navegação dinâmica e didática que incentiva o uso de córpus Futuramente, o Lácio-Web receberá ferramentas desenvolvidas em projetos do NILC como alinhadores de sentença, extratores de termos etc. Será que precisamos de um Córpus Nacional do Português Brasileiro, seguindo os moldes dos megacórpus BNC e ANC?

Projetos de Megacórpus
Contribuem para: Descrição e ensino da língua Desenvolvimento de Ferramentas de PLN Criação de recursos (gramáticas e dicionários) Como o custo de criar e anotar córpus é muito alto tanto em recursos financeiros como em demanda de pessoal especializado, agências finnaciadoras e pesquisadores esperam amortizar esse custo pelo reuso desse recurso em mais de um projeto e por mais de um grupo de pesquisa, incluindo sua distribuição mundial. O alto custo também força o desenvolvimento de arquiteturas de dados, formatos de codificação e formalismos de anotação para os recursos de língua que possibilitarão o intercâmbio Um exemplo é o padrão XCES, (usa XML) que está sendo desenvolvido pelo grupo do projeto ANC ao mesmo tempo da criação do megacórpus 1 - BNC e ANC são megacorpus balanceados; 2 – Impulsionam o desenvolvimento de formatos padrões de anotação e codificação, além de arquitetura de dados e ferramentas de manipulação de córpus. São esses padrões internacionais que ajudam a criar grandes córpus de sejam intensivamente reusáveis. 3 – Aspectos a serem considerados em projetos de córpus (Reutilizável e Extensível).

Tipos de informações relevantes para codificação
CES 1 – Documentation (header): bibliographic description of the document, character set, description of encoding convention, etc. 2 – Primary data 1.1 – Gross structure: volume, chapter, paragraph, footnotes, titles, tables, figures, etc. 1.2 – Sub-paragraph structures: sentences, quotations, words, abbreviations, dates, highligted words, etc. 3 – Linguistic annotation: linguistic information about segments e.g., POS and syntactic tagging, alignment of parallel texts. 1 – As ferramentas dependem da escolha da representação escolhida e deveriam ser livremente disponíveis e reusáveis para evitar o processo caro de reimplementação de software a cada novo projeto de córpus 2 - Distingue-se a anotação de segmentação da anotação lingüística. Na anotação de segmentação do texto cru, tem-se: a) marcação da estrutura geral – capítulos, parágrafos, títulos e subtítulos, notas de rodapé e elementos gráficos como tabelas e figuras, e b) marcação da estrutura de subparágrafos – elementos que são de interesse lingüístico, tais como sentenças, citações, palavras, abreviações, nomes, datas e ênfase. Já na anotação lingüística é fornecida a informação lingüística sobre segmentos como etiquetação morfossintática e sintática. XCES valida a arquitetura de dados CES, na qual anotação lingüística (incluindo o cabeçalho) são mantidas em documentos separados que apontam o original, gerando um “hiperdocumento” composto do texto origina e todas as anotações

Codificação dos Córpus do LW
Lácio-Ref Mac-Morpho Par-C Comp-C Aberto, síncrono, PB contemporâneo Aberto, paralelo (Inglês-Português) aberto, paralelo (inglês-português) aberto, comparável (textos jurídicos P-I) Lácio-ref + Ref-Ig Fechado, anotado manualmente com etiquetas POS fechado, anotado morfossintaticamente (manualmente) aberto, comparável (textos jurídicos inglês-português) Lácio-Ref, Par-C e Comp-C: cabeçalho XML com info bibliográfica e tipologias, conjunto de carcateres e codificação. Inserido manualmente Mac-Morpho: 2 formatos: 1) buscas --- etiquetas XML para nome do arquivo, título, subtítulo, parágrafo, sentença; 2) treinamento de taggers --- pares palavra–tag separados por linhas

Cabeçalho do LW Cabeçalho de classificação em XML:
<?xml version="1.0" encoding="ISO "?> <header> <>...</> <title> <fileName>RE-IF-F-ci-ago02_01.txt</fileName> <corpus>Referência</corpus> <nPages>1</nPages> <nWords>311</nWords> <sample>Íntegra</sample> </title> <textClassification> <textGenre> <genre>Informativo</genre> <subgenre>Jornalístico</subgenre> </textGenre> <textType>Notícia</textType> <domain> <generalDomain defined="annotador-def">Científico/Ciências Biológicas</generalDomain> <specificDomain>Ecologia</specificDomain> <generalSecondaryDomain defined="annotador-def">Científico/Ciências Agrárias</generalSecondaryDomain> <specificSecondaryDomain>Medicina Veterinária</specificSecondaryDomain> </domain> <distribution>Revista</distribution> </textClassification> </header> Conjunto de caracteres e codificação Cabeçalho de classificação em XML: Informações Tipológicas: Supergênero, Gênero, Subgênero, Tipo de Texto, Meio de Distribuição, Domínio, Subdomínio; Informações Bibliográficas: Nome do Autor, Editor, Local de Publicação, Data, Titulo, Subtítulo, Língua, Número de Páginas, Número de Palavras etc.; Parte da Descrição Bibliográfica Gênero e Sub-gênero Tipo de Texto Domínio e Sub-domínio Meio de Distribuição

Cabeçalho do LW Base de Dados X Y Z K C N ... ... X ... Genre Y ...
Subgenre Z ... Text type K ... Dist. N ... Domain C ... Subdomain Text Base de Dados <?xml version="1.0" encoding="ISO "?> <header> <>...</> <title> <fileName>RE-IF-F-ci-ago02_01.txt</fileName> <corpus>Referência</corpus> <nPages>1</nPages> <nWords>311</nWords> <sample>Íntegra</sample> </title> <textClassification> <textGenre> <genre>Informativo</genre> <subgenre>Jornalístico</subgenre> </textGenre> <textType>Notícia</textType> <domain> <generalDomain defined="annotador-def">Científico/Ciências Biológicas</generalDomain> <specificDomain>Ecologia</specificDomain> <generalSecondaryDomain defined="annotador-def">Científico/Ciências Agrárias</generalSecondaryDomain> <specificSecondaryDomain>Medicina Veterinária</specificSecondaryDomain> </domain> <distribution>Revista</distribution> </textClassification> </header>

Corpo do Texto - LW Texto e cabeçalho estão juntos em um arquivo
Não estamos seguindo a arquitetura de dados usada no XCES. Não anotamos em XML vários elementos da gross structure, por exemplo, capítulos, parágrafos, sub-parágrafos, notas de rodapé Esses elementos estão formatados e padronizados para permitir visualização fácil com quebra de linhas, caixa-alta, etc. Somente a anotação de elementos gráficos, bibliografia, palavras-chave e resumo foram feitas em XML Palavras com ênfase foram perdidas quando o texto foi convertido no formato txt (foi uma opção de projeto)

Mestrado em Estudos Lingüísticos na UFSCar
Em julgamento pela CAPES; resposta no próximo dia 21/12 A linha “Linguagem Humana e Tecnologia”, começa com 3 pesquisadoras do NILC (Gladis Maria de Barcellos Almeida, Lúcia Helena Machado Rino e Sandra Maria Aluísio) e foi pré-avaliada com elogios por trazer um diferencial. Aceitará alunos da Computação e da Lingüística trabalhando com as abordagens baseada em córpus e simbólica e, principalmente, com a combinação dessas Disciplinas Iniciais: Introdução a Metodologias Baseadas em Conhecimento Lingüística de Corpus Introdução ao Processamento de Línguas Naturais (PLN) Terminologia e Ferramentas Computacionais Sumarização Automática (SA) Seminários de Linguagem Humana e Tecnologia Vários alunos formados em Letras trabalharam no NILC desde a sua formação, em Alguns desses que atualmente trabalharam no Projeto Lácio-Web estão interessados pelo mestrado. A idéia é continuar o projeto LW com trabalhos de mestrado e desenvolver o mestrado no NILC, um ambiente rico devido a interação das duas comunidades: lingüistas e cientistas da computação trabalhando em aplicações reais financiadas por empresas e projetos financiados pelas agências governamentais.

Links interessantes Site do NILC:
Arquivo das mensagen das lista corpora: Site da Linguateca – córpus e ferramentas: Obrigada!

Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas Sandra Maria Aluísio Estou usando a forma aportuguesada (ou abrasileirada)

Apresentações semelhantes

Apresentação em tema: "Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas Sandra Maria Aluísio Estou usando a forma aportuguesada (ou abrasileirada)"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas Sandra Maria Aluísio Estou usando a forma aportuguesada (ou abrasileirada)

Apresentações semelhantes

Apresentação em tema: "Linguagem e tecnologia: construção de grandes córpus e suas ferramentas associadas Sandra Maria Aluísio Estou usando a forma aportuguesada (ou abrasileirada)"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback