Introdução a técnicas computacionais para PLN Ênfase em processamento baseado em corpus
Técnicas de PLN “Handcrafted”, baseada em regras manuais Exemplo: Algoritmo de Hobbs para resolução de pronomes Estatística, corpus-based Exemplo: PCFG: Probabilistic Context-Free grammar
Corpus anotado Ivo viu a uva (S (NP (PN Ivo) ) (VP (V viu) (NP (DET a) (NN uva) ) ) ) Comi uma maçã de manhã (S (NP –vazio-) (VP (VP (V comi) (NP (DET uma) (NN maça) ) ) (PP (PREP de) (NN manhã) ) ) )
Extração de regras da gramática #### REGRAS ###### LÉXICO #### (S (NP (PN Ivo) ) S NP VP PN Ivo (VP (V viu) NP PN V viu (NP (DET a) VP V NP DET a (NN uva) ) ) ) NP DET NN NN uva (S (NP –vazio-) S NP VP V comi (VP (VP (V comi) NP -vazio- DET uma (NP (DET uma) VP VP PP NN maça (NN maça) ) ) VP V NP PREP de (PP (PREP de) NP DET NN NN manhã (NP (NN manhã) ) ) ) ) PP PREP NP NP NN
Probabilidades de expansão do NP NP PN : 1 Prob (NP PN) = 0.2 NP DET NN: 2 0.4 NP -vazio- : 1 0.2 NP NN: 1 0.2 TOTAL: 5 (S (NP (PN Ivo) ) S NP VP PN Ivo (VP (V viu) NP PN V viu (NP (DET a) VP V NP DET a (NN uva) ) ) ) NP DET NN NN uva (S (NP –vazio-) S NP VP V comi (VP (VP (V comi) NP -vazio- DET uma (NP (DET uma) VP VP PP NN maça (NN maça) ) ) VP V NP PREP de (PP (PREP de) NP DET NN NN manhã (NP (NN manhã) ) ) ) ) PP PREP NP NP NN
CFG (não probabilística) From Jurafsky & Martin 2000
CFG From Jurafsky & Martin 2000
PCFG From Jurafsky & Martin 2000
Derivações da PCFG para uma sentença From Jurafsky & Martin 2000
Exemplos de corpus anotado Penn Treebank http://www.cis.upenn.edu/~treebank/ Penn PropBank Floresta Sintática (Linguateca) http://www.linguateca.pt/Floresta/milhafre/ Sites: http://ldc.upenn.edu/ http://www.elra.info/ http://www.linguateca.pt/
Caso 2: Resolução de pronomes usando algoritmo (naive) de Jerry Hobs (entre outros) Veja artigo sobre resolução de pronomes em: http://revistaseletronicas.pucrs.br/ojs/index.php/fale/article/view/598