A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Reconhecimento de Entidades Mencionadas Usando Aprendizado de Transformações Guiado por Entropia (ETL) Cícero Nogueira dos Santos Ruy Luiz Milidiú Pontifícia.

Apresentações semelhantes


Apresentação em tema: "Reconhecimento de Entidades Mencionadas Usando Aprendizado de Transformações Guiado por Entropia (ETL) Cícero Nogueira dos Santos Ruy Luiz Milidiú Pontifícia."— Transcrição da apresentação:

1 Reconhecimento de Entidades Mencionadas Usando Aprendizado de Transformações Guiado por Entropia (ETL) Cícero Nogueira dos Santos Ruy Luiz Milidiú Pontifícia Universidade Católica do Rio de Janeiro – PUC-Rio Departamento de Informática Laboratório de Engenharia de Algoritmos e Redes Neurais - LEARN

2 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal 2 Sumário Reconhecimento de Entidades Mencionadas Aprendizado Baseado em Transformações – Templates de regra Aprendizado de Transformações guiado por Entropia – Extração de templates a partir de árvores de decisão Experimentos e resultados Conclusões

3 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal 3 Reconhecimento de EMs (REM) Identificar e classificar entidades mencionadas em um texto escrito em linguagem natural REM baseado em aprendizado de máquina – Inglês CONLL 2002 CONLL 2003 Etc. – Português 2 sistemas participaram do primeiro HAREM (Milidiú et al, 2006) HMM, SVM, TBL

4 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal 4 O algoritmo TBL Corpus de Treino não etiquetado Classificador Inicial Corpus de Treino atual Derivar e avaliar regras candidatas Selecionar regra com maior saldo: acertos - erros Aplicar regra selecionada ao corpus de treino Corpus de Treino etiquetado corretamente Templates Seqüência de regras aprendidas

5 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal 5 O jovem esqueceu a caneta ART N V ART N ART ADJ V ART N Templates pos[-1] pos[0] word[0] pos[1] SE pos[-1]=ART E pos[0]=ADJ E Word[0]=jovem E pos[1]=V ENTÃO pos[0]=N Regra: Interpretação: pos[-1]=ART pos[0]=ADJ word[0]=jovem pos[1]=V-> pos[0]=N

6 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal 6 – Combinação de features relevantes – Construídos manualmente – Construção depende de um especialista no domínio – Trabalho intensivo – Adaptações podem ser necessárias quando mudamos de uma língua p/ outra. Templates

7 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal 7 Aprendizado de regras de transformação sem a necessidade de gabaritos feitos à mão ETL = Decision Trees (DT) + TBL – ETL combina as vantagens de DT e TBL – Treinar uma árvore de decisão e decompô-la para extrair gabaritos – Especialista no domínio torna-se desnecessário – Regras geradas são mais eficazes do que DT – Regras geradas são tão boas quanto as geradas com gabaritos criados manualmente Aprendizado de Transformações guiado por Entropia (ETL)

8 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal 8 Corpus de Treino Não rotulado Algoritmo ETL (Santos & Milidiú, 2007) Aprender Árvore de Decisão Aprender Regras com TBL Corpus de Treino Rotulado Regras Aprendidas Decompor Árvore de Decisão e extrair Templates Templates Corpus de Treino Rotulado Classificador Inicial

9 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal 9 Aprendizado de árvores de decisão Corpus de Treino Indução da DT (C4.5) NE_0 NE_-1POS_0 WRD_-1CAP_0 POS_0 LOC O ORGO PER O PREPORGLOC AFUC ADVART

10 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal 10 Extração de templates a partir de DTs NE_0 NE_-1POS_0 WRD_-1CAP_0 POS_0 LOC O ORGO PER O PREPORGLOC AFUC ADVART NE_0 NE_0 NE_-1 NE_0 NE_-1 CAP_0 NE_0 NE_-1 CAP_0 POS_0 NE_0 NE_-1 WRD_-1 NE_0 POS_0

11 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal 11 Evolução de templates TBL-1 NE_0 NE_-1 NE_0 POS_0 TBL-2 NE_0 NE_-1 CAP_0 NE_0 NE_-1 WRD_-1 TBL-3 NE_0 NE_-1 CAP_0 POS_0 Evolução de templates Training NE_0 NE_-1POS_0 WRD_-1CAP_0 POS_0 LOC O ORGO PER O PREPORGLOC AFUC ADVART

12 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal EXPERIMENTOS

13 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal Corpora Coleção Dourada HAREM I Coleção Dourada MiniHAREM Coleção Dourada HAREM II LearnNEC06 (usado apenas no treinamento)

14 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal Experimental setup Preprocessamento – Geração de novas features com uso de modelos ETL Etiquetagem morfossintática Identificação de sintagmas nominais Classificador Inicial (Baseline System - BLS) – Algumas seções / subseções do almanaque REPENTINO: Seres (Humano), Local (Terrestre, Cidades, Região, etc.), Organização (Companhias) TBL – Usamos os mesmos templates de Milidiú et al (2006) ETL – DT checa combinação das features palavra, pos tag, etiqueta de sintagma nominal e capitalização. DT – Usamos apenas as 100 palavras mais frequentes

15 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal Tarefa de Identificação Tarefa de classificação semântica (categorias) Cross-validation HAREM I + MiniHarem 70% - speedup

16 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal Classificação semântica – Res. por categoria Comparação com estado da arte (Class. Sem.) Cross-validation HAREM I + MiniHarem

17 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal Tarefa de Identificação Tarefa de classificação semântica (categorias) CD MiniHarem como corpus de teste

18 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal Conjunto de treino: CD HAREM I + CD MiniHAREM Conjunto de teste: CD HAREM II CD HAREM II como corpus de teste

19 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal 19 Conclusões Reconhecimento de EMs usando ETL – Efetiva criação de templates – Resultados melhores do que os do TBL com templates manualmente construídos – Resultados estado da arte – Significante redução do tempo de treinamento usando Evolução de Templates

20 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 8 de junho de 2014 – Aveiro, Portugal 20 Referências bibliográficas BRILL, E. Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging. Computational Linguistics, 21(4):543–565, CURRAN, J. R. and WONG, R. K. Formalisation of transformation-based learning. ACSC MILIDIÚ et al. Tbl template selection: An evolutionary approach. CAEPIA 2007 SANTOS, C. N. e MILIDIÚ, R. L. Probabilistic classifications with tbl. CICLING 2007a SANTOS, C. N. e MILIDIÚ, R. L. Entropy Guided Transformation Learning. MCC DI/PUC-Rio. 2007b


Carregar ppt "Reconhecimento de Entidades Mencionadas Usando Aprendizado de Transformações Guiado por Entropia (ETL) Cícero Nogueira dos Santos Ruy Luiz Milidiú Pontifícia."

Apresentações semelhantes


Anúncios Google