A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Processamento de Linguagem Natural: Identificação de Expressões Multipalavra Vítor De Araújo Prof. Edson Prestes e Silva Jr. Profª Aline Villavicencio.

Apresentações semelhantes


Apresentação em tema: "Processamento de Linguagem Natural: Identificação de Expressões Multipalavra Vítor De Araújo Prof. Edson Prestes e Silva Jr. Profª Aline Villavicencio."— Transcrição da apresentação:

1 Processamento de Linguagem Natural: Identificação de Expressões Multipalavra Vítor De Araújo Prof. Edson Prestes e Silva Jr. Profª Aline Villavicencio Carlos Ramisch

2 Expressões Multipalavra Combinações de palavras que apresentam idiossincrasias lingüísticas ou estatísticas ● Verbos frasais: carry up, consist of ● Verbos de suporte: tomar um banho ● Compostos: carro de polícia, bode expiatório ● Expressões idiomáticas: engolir o sapo, dar para trás mwetoolkit (mwetoolkit.sf.net): ferramenta automatizada para a identificação e extração de EMs a partir de corpora utilizando métodos estatísticos.

3 Motivação Fenômeno ubíquo em linguagem natural Significados e comportamentos imprevisíveis Problemas para processamento humano e computacional E.g., bater as botas →*kick the boots

4 Motivação Flexibilidade sintática (jogar fora, jogar tudo fora, jogar aquele monte de lixo fora) Arbitrariedade (Olimpíadas de inverno, *olimpíadas invernais) Recorrência (bom dia, tudo bem?) Não-composicionalidade (chutar o balde/o pau da barraca, dedo duro) Especificidade a um domínio (binary tree, angiosperm tree) Heterogeneidade Lexicalização variável Por que EMs são um desafio para sistemas de PLN? (Sag et al., 2001)

5 Como funciona? Corpus Padrões 1 Lista de candidatos 3 Medidas de associação 4 Candidatos filtrados 2 Índice Web 5 Saída final

6 Como funciona? Corpus Padrões 1 Lista de candidatos 3 Medidas de associação 4 Candidatos filtrados 2 Índice Web 5 Saída final

7 Como funciona? Corpus Padrões 1 Lista de candidatos 3 Medidas de associação 4 Candidatos filtrados 2 Índice Web 5 Saída final

8 Como funciona? Corpus Padrões 1 Lista de candidatos 3 Medidas de associação 4 Candidatos filtrados 2 Índice Web 5 Saída final

9 Como funciona? Corpus Padrões 1 Lista de candidatos 3 Medidas de associação 4 Candidatos filtrados 2 Índice Web 5 Saída final...

10 Como funciona? Corpus Padrões 1 Lista de candidatos 3 Medidas de associação 4 Candidatos filtrados 2 Índice Web 5 Saída final

11 Contribuições – padrões Suporte a expressões regulares Repetições, itens opcionais Backreferences E.g., day after day, step by step, hand in hand

12 Contribuições – padrões Suporte a EMs não-contíguas Suporte a dependências sintáticas E.g., verbo e respectivo objeto E.g. throw whatever away

13 Contribuições – indexação Rotinas de indexação mais eficientes Fusão automática de atributos Reescritas em C British National Corpus 110 milhões de palavras ~5min por atributo (lemma, surface, pos) ~1GB de memória E.g., contagem por lemma+pos Índice gerado on-the-fly a partir de lemma e pos

14 Contribuições – outras Uso do Web 1 Trillion 5-gram como fonte de freqüências Algoritmo LocalMaxs: extração independente de filtragem Avaliação preliminar: Extração de EMs na linguagem de crianças para estudo de aquisição de linguagem (CHILDES) Interface de comandos unificada

15 Conclusões Demo paper V. de Araújo, C. Ramisch, A. Villavicencio. Fast and Flexible MWE Candidate Generation with the mwetoolkit. In Proceedings of the Workshop on Multiword Expressions: from Parsing and Generation to the Real World (MWE 2011), pages 134–136, Portland, Oregon, USA, 23 June 2011. http://aclweb.org/anthology-new/W/W11/W11-0822.pdf Trabalho de melhoria, otimização e avaliação de uma ferramenta de extração de EMs: desafio para PLN Dificuldade de identificação de EMs → Padrões flexíveis, informação sintática → Novos algoritmos de identificação Consumo de recursos computacionais → Algoritmos mais eficientes

16 Trabalhos futuros Tratamento de EMs aninhadas Melhorar o desempenho da extração de candidatos Comparar o mwetoolkit com outras ferramentas E.g., [inverse [kappa B [transcription factor]]]


Carregar ppt "Processamento de Linguagem Natural: Identificação de Expressões Multipalavra Vítor De Araújo Prof. Edson Prestes e Silva Jr. Profª Aline Villavicencio."

Apresentações semelhantes


Anúncios Google