Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouLuiz Felipe Cerveira Almeida Alterado mais de 8 anos atrás
1
Classificação Probabilística com TBL Cícero Nogueira dos Santos Pontifícia Universidade Católica do Rio de Janeiro – PUC-Rio Departamento de Informática / Pos-Graduação
2
Classificação Probabilística com TBL 2 Sumário Introdução O algoritmo TBL Estimando probabilidades Método proposto Método de Florian et. al (2000) Particionando classes de equivalência Suavização Experimentos e resultados English Text Chunking English Base-Noun Phrase Identification Conclusões
3
Classificação Probabilística com TBL 3 Introdução Transformation Based Learning (TBL) Desenvolvido por Eric Brill (1995) para etiquetagem morfossintática Aprendizado supervisionado Gera uma lista ordenada de regras Usado para várias tarefas de PLN, geralmente tratadas como problemas de classificação Algoritmo guloso
4
Classificação Probabilística com TBL 4 Introdução TBL já foi usado para várias tarefas de PLN English text chunking (Ramshaw and Marcus, 1995; Florian et al., 2000; Megyesi, 2002) análise sintática (Brill, 1996) reconhecimento de entidades nomeadas (Day et al., 1997) correção ortográfica (Mangu, 1997) etiquetagem de atos de fala (Samuel, 1998) etiquetagem de papéis semânticos (Higgins, 2004; Williams et al., 2004) identificação de sintagmas nominais de textos em português (Santos, 2005)
5
Classificação Probabilística com TBL 5 Introdução Desvantagem: não gera probabilidades na classificação Por que estimar probabilidades? Medida de confiança Aprendizado ativo Aprendizado semi-supervisionado
6
Classificação Probabilística com TBL 6 O algoritmo TBL Corpus de Treino não etiquetado Classificador Inicial Corpus de Treino atual Derivação e avaliação das regras candidatas Seleção da regra a ser aplicada Aplicação da regra ao corpus de treino. Corpus de Treino etiquetado corretamente Templates de Regras Seqüência de regras aprendidas.
7
Classificação Probabilística com TBL 7 Aplicação das regras aprendidas Texto não etiquetado Classificador Inicial Texto com classif. inicial Aplicação (em sequência) das regras aprendidas Sequência de regras aprendidas. Texto etiquetado
8
Classificação Probabilística com TBL Estimando probabilidades com TBL Objetivo De t <- Etiqueta y Para t <- (Etiqueta y, P(Y|t))
9
Classificação Probabilística com TBL Método proposto Y={ A, B, C} (conj. etiquetas de classe) Corpus de Treino: (20 exemplos) 8 exemplos da classe A 6 exemplos da classe B 6 exemplos da classe C Classes de Equivalência E Estimando as probabilidades 1. P(A|R1) = 0 P(B|R1) = 1 P(C|R1) = 0 2. P(A|R1,R2) = 0P(B|R1,R2) =.5 P(C|R1,R2) =.5 3. P(A|R1,R3) = 0P(B|R1,R3) = 0 P(C|R1,R3) = 1 4. P(A|R2) = 0P(B|R2) =.33 P(C|R2) =.67 5. P(A|A) =.78P(B|A) =.11 P(C|A) =.11 Estimar a distribuição de máxima verossimilhança em cada classe de equivalência e E Modelo Classif. Inicial: tag <= A R1: EC1 tag <= B R2: EC2 tag <= C R3: EC3 tag <= C Aplicando o modelo Cls. Eq.Exemplos modif. 1. R14 – {4B} 2. R1, R22 – {1B, 1C} 3. R1, R32 – {2C} 4. R23 – {1A, 2C} 5. A 9 – {7A, 1B, 1C} onde: count(e, y) = # de exemplos em e com etiqueta y count(e) = # de exemplos em e
10
Classificação Probabilística com TBL Aplicando o modelo Cls. Eq.Exemplos modificados 1. R14 – {4B} 2. R1, R22 – {1B, 1C} 3. R1, R32 – {2C} 4. R23 – {1A, 2C} 5. A 9 – {7A, 1B, 1C} Y={ A, B, C} (conj. etiquetas de classes) Corpus de Treino: (20 exemplos) 8 exemplos da classe A 6 exemplos da classe B 6 exemplos da classe C Modelo Classif. Inicial: tag <= A R1: EC1 tag <= B R2: EC2 tag <= C R3: EC3 tag <= C R1AR2 R3 * Método proposto 3 8 2 2 9 94 2 2 3 20
11
Classificação Probabilística com TBL Algoritmo Entrada Conjunto de regras TBL Corpus de treino Processamento Aplicar conjunto de regras – guardar, para cada exemplo, a seqüência de regras que o modificou Criar classes de equivalência Computar a distribuição de probabilidades para cada classe de equivalência Saída: Modelo de probabilidades associado ao conjunto de regras TBL
12
Classificação Probabilística com TBL Usando o modelo de probabilidades Procedimento Aplicar conjunto de regras TBL – guardar, para cada amostra, a seqüência de regras que a modificou; Para cada amostra, atribuir a distribuição de probabilidades associada a: seqüência de regras que a modificou; ou etiqueta de classe atribuída pelo classificador inicial
13
Classificação Probabilística com TBL 20 8 12 6 O método de Florian et. al (2000) Y={ A, B, C} (conj. etiquetas de classe) Corpus de Treino: (20 exemplos) 8 exemplos da classe A 6 exemplos da classe B 6 exemplos da classe C Modelo: Classif. Inicial: tag <= A R1: EC1 tag <= B R2: EC2 tag <= C R3: EC3 tag <= C Aplicando o modelo: RegrasExemplos modificados R14 – {4B} R1, R22 – {1B, 1C} R1, R32 – {2C} R23 – {1A, 2C} A 9 – {7A, 1B, 1C} R1 R2 A Classes de equivalência Estimando as probabilidades (máxima verossim.): P(A|R1) = 0 P(B|R1) = 1 P(C|R1) = 0 P(A|R1,R2) = 0 P(B|R1,R2) =.5 P(C|R1,R2) =.5 P(A|R1,R3) = 0 P(B|R1,R3) = 0 P(C|R1,R3) = 1 P(A|R2) = 0 P(B|R2) =.33 P(C|R2) =.67 P(A|A) =.78 P(B|A) =.11 P(C|A) =.11 93 R3 2 42
14
Classificação Probabilística com TBL Particionando classes de equivalência Classes de equivalência muito densas Formadas por exemplos não modificados por regras Prejudicam as estatísticas Ex.: base noun phrase identification (I) -> 108.763 exemplos Solução: Usar feature auxiliar para particionar Ex.: base noun phrase identification (I, pos) = 20 classes de equivalência ('I', 'PRP'): [0.992, 'I'], [0.008, 'B'], [0.0, 'O']] ('I', 'FW'): [0.867, 'I'], [0.0, 'B'], [0.133, 'O']]
15
Classificação Probabilística com TBL Calcular distribuição de prob. usando: Suavização - Lidstone onde: e = classe de equivalência y = etiqueta de classe count(e, y) = # de exemplos em e com etiqueta y count(e) = # de exemplos em e Y = conjunto de etiquetas de classe c = constante - número entre 1 e 0.
16
Classificação Probabilística com TBL Suavização - Lidstone Estimando as probabilidades – sem suavização 1. P(A|R1) = 0P(B|R1) = 1P(C|R1) = 0 2. P(A|R1,R2) = 0P(B|R1,R2) =.5P(C|R1,R2) =.5 3. P(A|R1,R3) = 0P(B|R1,R3) = 0P(C|R1,R3) = 1 4. P(A|R2) = 0P(B|R2) =.33P(C|R2) =.67 5. P(A|A) =.78P(B|A) =.11P(C|A) =.11 Cls. Eq.Exemplos modif. 1. R14 – {4B} 2. R1, R22 – {1B, 1C} 3. R1, R32 – {2C} 4. R23 – {1A, 2C} 5. A 9 – {7A, 1B, 1C} Estimando as probabilidades – Lidstone (c=1) 1. P(A|R1) =.14P(B|R1) =.72P(C|R1) =.14 2. P(A|R1,R2) =.2P(B|R1,R2) =.4P(C|R1,R2) =.4 3. P(A|R1,R3) =.2P(B|R1,R3) =.2P(C|R1,R3) =.6 4. P(A|R2) =.17P(B|R2) =.33P(C|R2) =.5 5. P(A|A) =.67P(B|A) =.165P(C|A) =.165
17
Classificação Probabilística com TBL R1AR2 R3 * 3 2 2 9 94 2 2 3 8 Suavização - Backoff Suavizar uma estimativa mais específica P(y|e 1 ) com uma menos específica P(y|e 2 ) Computar a mistura das duas usando um coeficiente de mistura 8 20
18
Classificação Probabilística com TBL Suavizar uma estimativa mais específica P 1 (y|e 1 ) com uma seqüência de estimativas menos específicas P 2 (y|e 2 ), P 3 (y|e 3 ),..., P k (y) Computar uma combinação linear das estimativas, recursivamente: Suavizar P(y|R1, R2) Suavização - Backoff R1AR2 R3 * 3 2 2 9 94 2 2 3 8 8 20
19
Classificação Probabilística com TBL Suavização - Backoff Como calcular i ? Collins (1999) onde: c= parâmetro de ajuste (constante) div(e i )= |{ y| e i contém (x, y)}| (diversidade de etiquetas em e i )
20
Classificação Probabilística com TBL Experimentos English Text Chunking English Base-Noun Phrase Identification
21
Classificação Probabilística com TBL Curva de rejeição Entropia H da distribuição de probabilidades associada ao token x Aprendizado Ativo Média da entropia H dos tokens de uma sentença S Experimentos – Testes e Métricas
22
Classificação Probabilística com TBL Calibração das constantes de suavização Entropia cruzada condicional Perplexidade Experimentos – Testes e Métricas
23
Classificação Probabilística com TBL English Text Chunking Problema [NP He ] [VP reckons ] [NP the current account deficit ] [VP will narrow ] [PP to ] [NP only # 1.8 billion ] [PP in ] [NP September ] onde: NP = Noun Phrase Chunk; VP = Verb Phrase Chunk; PP = Prepositional Phrase Chunk Corpora (CONLL 2000) Treino: 211.727 tokens;8.936 sentenças Teste: 47.377 tokens;2012 sentenças
24
Classificação Probabilística com TBL English Text Chunking Calibração das constantes de suavização 20% do corpus de treino
25
Classificação Probabilística com TBL English Text Chunking Curva de rejeição
26
Classificação Probabilística com TBL Florian et. al (2000) Método Proposto English Text Chunking Aprendizado Ativo
27
Classificação Probabilística com TBL English Text Chunking Perplexidade Entropia Cruzada Condicional TBLconf1.29520.3732 TBLconf + Lidstone1.27240.3476 TBLconf + Backoff1.26990.3447 fnTBL1.29760.3759
28
Classificação Probabilística com TBL English Base-Noun Phrase Identification Problema [He] reckons [the current account deficit] will narrow to [only # 1.8 billion] in [September] Corpora (fnTBL, 2001) Treino: 211.727 tokens;8.936 sentenças Teste: 47.377 tokens;2012 sentenças
29
Classificação Probabilística com TBL English Base-Noun Phrase Identification Calibração das constantes de suavização 20% do corpus de treino
30
Classificação Probabilística com TBL English Base-Noun Phrase Identification Curva de rejeição
31
Classificação Probabilística com TBL English Base-Noun Phrase Identification Aprendizado Ativo
32
Classificação Probabilística com TBL English Base-Noun Phrase Identification Perplexidade Entropia Cruzada Condicional TBLconf1.12980.1761 TBLconf + Lidstone1.12290.1672 TBLconf + Backoff1.12370.1683 fnTBL1.17570.2335
33
Classificação Probabilística com TBL Conclusões Método proposto mostrou-se robusto Utilização de suavização é fundamental Probabilidades geradas podem servir como uma medida de confiança Em todos os testes realizados o método proposto – com suavização – mostrou-se mais eficaz do que o método de Florian et. al (2000)
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.