Correferências Pronominais na 3ª Pessoa do Singular INF2915 Prof.: Ruy Milidiu Guylerme Velasco, Roberta Claudino, Thiago Ribeiro
Objetivo Conseguir bons resultados para o problema de resolução de anáforas na 3ª pessoa do singular.
Descrição do Problema Resolução de co-referência é o processo de determinar expressões no texto que se referem à mesma entidade no mundo real. O processo de encontrar o antecessor apropriado a cada expressão no texto é chamado de resolução de anáfora. Tal resolução é muito importante porque sem a mesma o texto não estaria completamente e corretamente compreendido. Enquanto os seres humanos conseguem solucionar este problema de forma fácil e rápida, esta é uma tarefa difícil computacionalmente.
Definição do Problema Anáfora pronominal: é aquela em que a relação anafórica é tecida através do uso de pronomes (ele, ela, eles, elas). A função pronominal, nesses casos, é apenas estabelecer a ancoragem com um termo antecedente, como mostramos a seguir no exemplo: Lula é o atual presidente do Brasil. Ele já foi reeleito. (Ele se refere a Lula)
Método Proposto SVM - Support Vector Machine
Definição de SVM Aprendizado supervisionado Utilizado em problemas de classificação e regressão
Corpus s/9/9b/Wsj15-16_coref.zip Mr._NNP_O_B-NP_O Stone_NNP_PER_I-NP_A+ told_VBD_O_B-VP_O his_PRP$_O_B-NP_O story_NN_O_I-NP_O._._O_O_O EOS_EOS_EOS_EOS_O He_PRP_O_B-NP_C1- talked_VBD_O_B-VP_O about_IN_O_B-NP_O 20_CD_O_I-NP_O minutes_NNS_O_I-NP_O._._O_O_O EOS_EOS_EOS_EOS_O When_WRB_O_B-ADVP_O he_PRP_O_B-NP_C1- was_VBD_O_B-VP_O through_IN_O_B-ADJP_O
Estratégia adotada Gerar features a partir do corpus Escolher boas features Gerar arquivo de entrada do SVM Fazer validação cruzada Evitar o overtrainning Evitar criação excessiva de Support Vector Minimizar o erro de classificação
Features utilizadas Se pronome é He ou She Quantidade de sentenças entre o pronome e o nome referenciado Quantidade de nomes entre o pronome e o nome referenciado Se o nome é masculino ou feminino
Implementação do software Lê o corpus etiquetado Separa a parte que será usada para treino e para teste Para cada texto do grupo de treino e teste Para cada pronome encontrado Verifica se é He ou She Contabiliza a quantidade de sentenças entre o pronome e sua referência Contabiliza a quantidade de nomes entre o pronome e sua referência Verifica se o nome ao qual faz referência é masculino ou feminino Gera regras certas associando o pronome à sua referência correta Gera regras erradas associando o pronome aos demais nomes no texto Fim-Para
Arquivo de entrada para o SVM.=. :... : #.=. +1 | -1 | 0 |.=. | "qid".=..=. 1 1:9 3:1 4:0 5:0 6:0 8:1 1 2:10 3:2 4:0 5:0 6:0 8:1 1 1:11 3:0 4:0 5:0 6:0 9:1 -1 1:23 3:2 4:0 5:0 6:0 11:1 -1 1:23 3:10 4:2 5:0 6:0 11:1 -1 1:23 3:12 4:3 5:0 6:0 11:1
Verificação dos Resultados Textos para treino = 120 (5 grupos de 24) Textos para teste = 63 Cross Validation Ingênuo Busca pelo nome anterior mais próximo
Resultados obtidos
Conclusões Corpus bastante homogêneo Maior parte dos nomes e pronomes masculinos Pequena quantidade de nomes entre o pronome e sua referência
Referências Marin Dimitrov A Light-weight Approach to Coreference Resolution for Named Entities in Text University of Sofia "St. Kliment Ohridski" Judita Preiss Choosing a Parser for Anaphora Resolution Computer Laboratory Shalom Lappin and Michael McCord ANAPHORA RESOLUTION IN SLOT GRAMMAR IBM T. J. Watson Research Center Shalom Lappin An Algorithm for Pronominal Anaphora Resolution SOAS, University of London Natalia N. Modjeska, Katja Markert, Malvina Nissim Using the Web in Machine Learning for Other-Anaphora Resolution Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing Niyu Ge, John Hale and Eugene Charniak A Statistical Approach to Anaphora Resolution Dept. of Computer Science, Brown University