Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouMicaela Mendonça Anjos Alterado mais de 8 anos atrás
1
1 Mixture Model For Named Entities Alunos: Carlos Eduardo Portela Susana R. S. Velloso
2
2 Motivação Comparar os resultados obtidos com as outras técnicas (TBL, SVM, HMM) de Extração de Entidades Nomeadas do Português.
3
3 Metodologia O Corpus utilizado será o LearnNmd06. Os indicadores utilizados serão: Precisão: Total de relações corretamente classificadas / Total de relações classificadas Abrangência: Total de relações corretamente classificadas / Total de relações existentes F1: Média harmônica entre a precisão e a abrangência
4
4 Plano inicial Análise do Corpus Algoritmo para geração do modelo Adicionar amostras não classificadas Comparação dos valores calculados com uma base já classificada para encontrar os parâmetros: precisão, abrangência e F1.
5
5 Documento X Token Aplicação natural do modelo de misturas Objetivo: classificação do documento Documentos Palavras que ocorrem nos documentos (Léxico) Contagem de ocorrência de cada palavra em cada documento Caso de Entidades Nomeadas Objetivo: classificação do Token Documentos contendo diversos tokens (Palavras) Token inserido em um texto
6
6 Solução adotada Documentos divididos em sentenças Cada sentença tem diversas palavras e apenas uma entidade nomeada (NPROP) A classificação da sentença será igual a classificação deste token
7
7 Formato inicial do Corpus [features = word, pos, np, ne] #0 - 0:0 De_PREP_O_O seus_PROADJ_I_O 111_NUM_I_O municípios_N_I_O,_,_O_O 94_NUM_O_O são_VAUX_O_O considerados_PCP_O_O de_PREP_O_O "_"_O_O alta_ADJ_I_O marginalização_N_I_O "_"_O_O,_,_O_O de=acordo=com_PREP_O_O um_ART_I_O informe_N_I_O de_PREP_I_O o_ART_I_O Conselho=Nacional=da=População_NPROP_I_COM._._O_O #1 - 1:1 A_ART_I_O programação_N_I_O de_PREP_I_O vendas_N_I_O foi_VAUX_O_O aberta_PCP_O_O em_PREP_O_O o_ART_I_O dia_N_I_O 26_N_I_O de_PREP_I_O agosto_N_I_O,_,_O_O em_PREP_O_O o_ART_I_O Parque=da=Água=Branca_NPROP_I_PLA,_,_O_O em_PREP_O_O São=Paulo_NPROP_I_PLA com_PREP_O_O o_ART_I_O leilão_N_I_O Marcas=Nobres_NPROP_I_O._._O_O
8
8 Análise do corpus Importação para uma tabela de banco utilizando separador de coluna ‘_’ Coluna ‘Linha’ contador Acrescentadas as colunas ‘Sentenca’ e ‘neSentenca’
9
9 Análise do corpus Ex: Linha PalavraPosnpneSentencaneSentenca 1#0 - 0:0NULLNULLNULL 2DePREPOO 3seusPROADJIO 4111NUMIO 5municípiosNIO 6,,OO 794NUMOO 8sãoVAUXOO 9consideradosPCPOO 10dePREPOO 11_OONULL 12altaADJIO 13marginalizaçãoNIO 14_OONULL 15,,OO 16de=acordo=comPREPOO 17umARTIO 18informeNIO 19dePREPIO 20oARTIO 21Conselho=Nacional=daNPROPICOM 22..OO
10
10 Análise Corpus Separação em Sentenças com apenas uma entidade nomeada Ex: Linha PalavraPosnpneSentencaneSentenca 384#16 - 16:16NULLNULLNULLNULLNULL 385OARTIO#16 - 16:161PER 386premiêNIO#16 - 16:161PER 387MurayamaNPROPIPER#16 - 16:161PER 388manifestouVOO#16 - 16:161PER 389otimismoNIO#16 - 16:161PER 390quanto=aPREPIO#16 - 16:161PER 391asARTIO#16 - 16:161PER 392conversaçõesNIO#16 - 16:161PER 393comPREPIO#16 - 16:161PER 394osARTIO#16 - 16:162PLA 395EUANPROPIPLA#16 - 16:162PLA 396sobrePREPIO#16 - 16:162PLA 397comércioNIO#16 - 16:162PLA 398..OO#16 - 16:162PLA
11
11 Análise Corpus Criação das tabelas: Classes PER PLA COM O Pos Palavras
12
12 Algoritmo EM Expectation Step p =quantidade de palavras i =quantidade de sentenças j=quantidade de classes n ip = número de vezes que aparece a palavra p na sentença i ij t = 1 ou 0 dependendo da classe do exemplo ij t = j t.f j (x i | j1 t,…, jp t ) / l l t.f l (x i | l1 t,…, lp t ) f j (n 1, n 2, …, n p | j1,…, jp ) = (N!/n 1 ! … n p !). j1 n1. …. jp np Após simplificações: ij t = j t. j1 ni1. …. jp nip / l l t. l1 ni1. …. lp nip
13
13 Algoritmo EM Maximization Step Loop j = 0 até j j = i ij t / n Loop p = 0 até p jp = i ij t. n ip / l i ij t. n il
14
14 Resultados obtidos - Pos Mesmo utilizando apenas exemplos a convergência dos parâmetros do modelo só ocorreu após a 50a iteração; Os pesos das classes se alteraram durante as iterações; Adicionando amostras a precisão era degradada;
15
15 Gráfico de convergência Classes - 4 Componentes – 39 pos Exemplos – 1000 Recálculo da classificação dos exemplos
16
16 Propostas Criação de novos componentes com o objetivo de obter resultados mais satisfatórios: Palavras Revisão do algoritmo – Teste de convergência
17
17 Precisão Abrangência e F1 Classes - 4 Componentes – 931 palavras Exemplos – 251 Recálculo da classificação dos exemplos
18
18 Resultados Obtidos Adicionando amostras a precisão era degradada; Convergência lenta Limitação da quantidade de exemplos e componentes Foram utilizados vários grupos de exemplos e a convergência variou muito.
19
19 Amostras não classificadas Classes – 4 Componentes – 8500 palavras Sentenças sem classificações em O Recálculo da classificação dos exemplos
20
20 Exemplos X Amostras Quando acrescentamos amostras incluímos novas componentes que não têm ainda seus parâmetros no modelo. Se estamos trabalhando com palavras isso acontecerá sempre. Muitas palavras tem o jp zerado para mais de uma classe. Acabamos por zerar a classificação de sentenças. Foi necessário o uso da suavização de Laplace. Passamos a não recalcular os exemplos.
21
21 Algoritmo EM Maximization Step com suavização de Laplace Loop j = 0 até j j = 1 + i ij t / n + j Loop p = 0 até p jp = 1 + i ij t. n ip / l i ij t. n il + | W |
22
22 Grafico de Convergência Suavização em j e jp Classes – 4 Componentes 8500 palavras Suavização em j e jp Não recalcula exemplos
23
23 Precisão - Suavização em j e jp
24
24 Resultados Obtidos Suavização em j e jp Convergência mais rápida Não houve troca de pesos das classes O peso das classes variou muito Precisão decresce muito
25
25 Suavização na classificação de sentenças Convergência muito mais rápida Não houve troca de pesos das classes O peso das classes varia muito menos Precisão melhora
26
26 Precisão - Todas as suavizações Classes – 4 Componentes - 931 palavras Com 1800 exemplos precisão aumenta com inclusão de amostras
27
27 Conclusões Pelo que pudemos observar, dados os baixos índices de Precisão, Abrangência e Média Harmônica obtidos, uma implementação direta do Modelo de Misturas não é uma ferramenta eficiente para tratar a extração de Entidades Nomeadas. É necessário acrescentar outros recursos que forneçam maiores informações.
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.