A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Cícero Nogueira dos Santos Ruy Luiz Milidiú

Apresentações semelhantes


Apresentação em tema: "Cícero Nogueira dos Santos Ruy Luiz Milidiú"— Transcrição da apresentação:

1 Cícero Nogueira dos Santos Ruy Luiz Milidiú
Pontifícia Universidade Católica do Rio de Janeiro – PUC-Rio Departamento de Informática Laboratório de Engenharia de Algoritmos e Redes Neurais - LEARN Reconhecimento de Entidades Mencionadas Usando Aprendizado de Transformações Guiado por Entropia (ETL) Cícero Nogueira dos Santos Ruy Luiz Milidiú

2 Sumário Reconhecimento de Entidades Mencionadas
Aprendizado Baseado em Transformações Templates de regra Aprendizado de Transformações guiado por Entropia Extração de templates a partir de árvores de decisão Experimentos e resultados Conclusões Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

3 Reconhecimento de EMs (REM)
Identificar e classificar entidades mencionadas em um texto escrito em linguagem natural REM baseado em aprendizado de máquina Inglês CONLL 2002 CONLL 2003 Etc. Português 2 sistemas participaram do primeiro HAREM (Milidiú et al, 2006) HMM, SVM, TBL Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

4 O algoritmo TBL Corpus de Treino não etiquetado
Corpus de Treino etiquetado corretamente Templates Corpus de Treino atual Derivar e avaliar regras candidatas Selecionar regra com maior saldo: acertos - erros Classificador Inicial Aplicar regra selecionada ao corpus de treino Seqüência de regras aprendidas Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

5 pos[-1] pos[0] word[0] pos[1]
Templates pos[-1] pos[0] word[0] pos[1] O jovem esqueceu a caneta ART N V ART N ART ADJ V ART N Regra: pos[-1]=ART pos[0]=ADJ word[0]=jovem pos[1]=V -> pos[0]=N Interpretação: SE pos[-1]=ART E pos[0]=ADJ E Word[0]=jovem E pos[1]=V ENTÃO pos[0]=N Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

6 Templates Combinação de features relevantes Construídos manualmente
Construção depende de um especialista no domínio Trabalho intensivo Adaptações podem ser necessárias quando mudamos de uma língua p/ outra. Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

7 Aprendizado de Transformações guiado por Entropia (ETL)
Aprendizado de regras de transformação sem a necessidade de gabaritos feitos à mão ETL = Decision Trees (DT) + TBL ETL combina as vantagens de DT e TBL Treinar uma árvore de decisão e decompô-la para extrair gabaritos Especialista no domínio torna-se desnecessário Regras geradas são mais eficazes do que DT Regras geradas são tão boas quanto as geradas com gabaritos criados manualmente Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

8 Algoritmo ETL (Santos & Milidiú, 2007)
Classificador Inicial Corpus de Treino Rotulado Corpus de Treino Rotulado Corpus de Treino Não rotulado Decompor Árvore de Decisão e extrair Templates Aprender Regras com TBL Aprender Árvore de Decisão Templates Regras Aprendidas Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

9 Aprendizado de árvores de decisão
NE_0 NE_-1 POS_0 WRD_-1 CAP_0 LOC O ORG PER PREP A FUC ADV ART Indução da DT (C4.5) Corpus de Treino Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

10 Extração de templates a partir de DTs
NE_0 NE_-1 POS_0 WRD_-1 CAP_0 LOC O ORG PER PREP A FUC ADV ART NE_0 NE_0 NE_-1 NE_0 NE_-1 CAP_0 NE_0 NE_-1 CAP_0 POS_0 NE_0 NE_-1 WRD_-1 NE_0 POS_0 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

11 Evolução de templates Evolução de templates TBL-1 NE_0 NE_-1
NE_0 POS_0 TBL-2 NE_0 NE_-1 CAP_0 NE_0 NE_-1 WRD_-1 TBL-3 NE_0 NE_-1 CAP_0 POS_0 NE_0 NE_-1 POS_0 WRD_-1 CAP_0 LOC O ORG PER PREP A FUC ADV ART Training Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

12 EXPERIMENTOS Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 1 de abril de 2017 – Aveiro, Portugal

13 Corpora Coleção Dourada HAREM I Coleção Dourada MiniHAREM
Coleção Dourada HAREM II LearnNEC06 (usado apenas no treinamento) Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

14 Experimental setup Preprocessamento
Geração de novas features com uso de modelos ETL Etiquetagem morfossintática Identificação de sintagmas nominais Classificador Inicial (Baseline System - BLS) Algumas seções / subseções do almanaque REPENTINO: Seres (Humano), Local (Terrestre, Cidades, Região, etc.), Organização (Companhias) TBL Usamos os mesmos templates de Milidiú et al (2006) ETL DT checa combinação das features palavra, pos tag, etiqueta de sintagma nominal e capitalização. DT Usamos apenas as 100 palavras mais frequentes Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

15 Cross-validation HAREM I + MiniHarem
Tarefa de Identificação Tarefa de classificação semântica (categorias) 70% - speedup Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

16 Cross-validation HAREM I + MiniHarem
Classificação semântica – Res. por categoria Comparação com estado da arte (Class. Sem.) Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

17 CD MiniHarem como corpus de teste
Tarefa de Identificação Tarefa de classificação semântica (categorias) Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

18 CD HAREM II como corpus de teste
Conjunto de treino: CD HAREM I + CD MiniHAREM Conjunto de teste: CD HAREM II Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

19 Conclusões Reconhecimento de EMs usando ETL
Efetiva criação de templates Resultados melhores do que os do TBL com templates manualmente construídos Resultados estado da arte Significante redução do tempo de treinamento usando Evolução de Templates Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal

20 Referências bibliográficas
BRILL, E. Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging. Computational Linguistics, 21(4):543–565, 1995. CURRAN, J. R. and WONG, R. K. Formalisation of transformation-based learning. ACSC 2000. MILIDIÚ et al. Tbl template selection: An evolutionary approach. CAEPIA 2007 SANTOS, C. N. e MILIDIÚ, R. L. Probabilistic classifications with tbl. CICLING 2007a SANTOS, C. N. e MILIDIÚ, R. L. Entropy Guided Transformation Learning. MCC DI/PUC-Rio. 2007b Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 1 de abril de 2017 – Aveiro, Portugal


Carregar ppt "Cícero Nogueira dos Santos Ruy Luiz Milidiú"

Apresentações semelhantes


Anúncios Google