Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouAyrton Ramalho Caldas Alterado mais de 7 anos atrás
1
Processamento de Linguagem Natural: Identificação de Expressões Multipalavra Vítor De Araújo Prof. Edson Prestes e Silva Jr. Profª Aline Villavicencio Carlos Ramisch
2
Expressões Multipalavra Combinações de palavras que apresentam idiossincrasias lingüísticas ou estatísticas ● Verbos frasais: carry up, consist of ● Verbos de suporte: tomar um banho ● Compostos: carro de polícia, bode expiatório ● Expressões idiomáticas: engolir o sapo, dar para trás mwetoolkit (mwetoolkit.sf.net): ferramenta automatizada para a identificação e extração de EMs a partir de corpora utilizando métodos estatísticos.
3
Motivação Fenômeno ubíquo em linguagem natural Significados e comportamentos imprevisíveis Problemas para processamento humano e computacional E.g., bater as botas →*kick the boots
4
Motivação Flexibilidade sintática (jogar fora, jogar tudo fora, jogar aquele monte de lixo fora) Arbitrariedade (Olimpíadas de inverno, *olimpíadas invernais) Recorrência (bom dia, tudo bem?) Não-composicionalidade (chutar o balde/o pau da barraca, dedo duro) Especificidade a um domínio (binary tree, angiosperm tree) Heterogeneidade Lexicalização variável Por que EMs são um desafio para sistemas de PLN? (Sag et al., 2001)
5
Como funciona? Corpus Padrões 1 Lista de candidatos 3 Medidas de associação 4 Candidatos filtrados 2 Índice Web 5 Saída final
6
Como funciona? Corpus Padrões 1 Lista de candidatos 3 Medidas de associação 4 Candidatos filtrados 2 Índice Web 5 Saída final
7
Como funciona? Corpus Padrões 1 Lista de candidatos 3 Medidas de associação 4 Candidatos filtrados 2 Índice Web 5 Saída final
8
Como funciona? Corpus Padrões 1 Lista de candidatos 3 Medidas de associação 4 Candidatos filtrados 2 Índice Web 5 Saída final
9
Como funciona? Corpus Padrões 1 Lista de candidatos 3 Medidas de associação 4 Candidatos filtrados 2 Índice Web 5 Saída final...
10
Como funciona? Corpus Padrões 1 Lista de candidatos 3 Medidas de associação 4 Candidatos filtrados 2 Índice Web 5 Saída final
11
Contribuições – padrões Suporte a expressões regulares Repetições, itens opcionais Backreferences E.g., day after day, step by step, hand in hand
12
Contribuições – padrões Suporte a EMs não-contíguas Suporte a dependências sintáticas E.g., verbo e respectivo objeto E.g. throw whatever away
13
Contribuições – indexação Rotinas de indexação mais eficientes Fusão automática de atributos Reescritas em C British National Corpus 110 milhões de palavras ~5min por atributo (lemma, surface, pos) ~1GB de memória E.g., contagem por lemma+pos Índice gerado on-the-fly a partir de lemma e pos
14
Contribuições – outras Uso do Web 1 Trillion 5-gram como fonte de freqüências Algoritmo LocalMaxs: extração independente de filtragem Avaliação preliminar: Extração de EMs na linguagem de crianças para estudo de aquisição de linguagem (CHILDES) Interface de comandos unificada
15
Conclusões Demo paper V. de Araújo, C. Ramisch, A. Villavicencio. Fast and Flexible MWE Candidate Generation with the mwetoolkit. In Proceedings of the Workshop on Multiword Expressions: from Parsing and Generation to the Real World (MWE 2011), pages 134–136, Portland, Oregon, USA, 23 June 2011. http://aclweb.org/anthology-new/W/W11/W11-0822.pdf Trabalho de melhoria, otimização e avaliação de uma ferramenta de extração de EMs: desafio para PLN Dificuldade de identificação de EMs → Padrões flexíveis, informação sintática → Novos algoritmos de identificação Consumo de recursos computacionais → Algoritmos mais eficientes
16
Trabalhos futuros Tratamento de EMs aninhadas Melhorar o desempenho da extração de candidatos Comparar o mwetoolkit com outras ferramentas E.g., [inverse [kappa B [transcription factor]]]
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.