A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Resolução de Anáforas Pronominais Apresentação da Proposta de Projeto Pontifícia Universidade Católica do Rio de Janeiro Departamento de Informática INF.

Apresentações semelhantes


Apresentação em tema: "Resolução de Anáforas Pronominais Apresentação da Proposta de Projeto Pontifícia Universidade Católica do Rio de Janeiro Departamento de Informática INF."— Transcrição da apresentação:

1 Resolução de Anáforas Pronominais Apresentação da Proposta de Projeto Pontifícia Universidade Católica do Rio de Janeiro Departamento de Informática INF 2915 - Aprendizado de Máquina I Prof. Ruy Milidiú 07/10/2008 Eduardo Motta

2 2 eduardo.motta@uniriotec.br 07/10/2008 Roteiro  Problema  Objetivo & Motivação  Corpus  Metodologia  Ferramentas  Cronograma  Referências

3 3 eduardo.motta@uniriotec.br 07/10/2008 Anáfora  Anáfora (do grego “transportar para trás”)  Anáforas x Co-referências Co-referências Anáforas

4 4 eduardo.motta@uniriotec.br 07/10/2008 Alguns Exemplos  Pronominal Pessoal reto Maria chegou. Ela veio de carro. Pessoal oblíquo João feriu-se. Possessivo José vendeu seu carro.  Adverbial Fui ao MAM. Lá, encontrei Maria.  Ordinal João e José tinham chances iguais, mas o primeiro foi selecionado.

5 5 eduardo.motta@uniriotec.br 07/10/2008 Catáfora Quando a anáfora acontece antes do referente Achando que ele estava sendo seguido, João deu meia- volta.

6 6 eduardo.motta@uniriotec.br 07/10/2008 Objetivo & Motivação  Identificação e classificação de anáforas pronominais em textos em linguagem natural  Aplicações  Extração de informações  Etiquetagem semântica  Auxiliar no preenchimento de ontologias de domínio

7 7 eduardo.motta@uniriotec.br 07/10/2008 Corpus  Como corpus será utilizado o Penn Treebank anotado com referências pronominais (BBN corpus)  2454 documentos do Wall Street Journal   1,2 M de tokens  Para treinamento, uma parte do corpus será utilizada  O restante do corpus será utilizado para avaliação de precisão e abrangência (recall)

8 8 eduardo.motta@uniriotec.br 07/10/2008 Metodologia  Implementar um sistema baseline com heurística para identificação inicial  Modelar as características que serão utilizadas, tais como etiquetas morfossintáticas e segmentos (chunks) do texto  Produzir gabaritos de regras para correção do erros do sistema baseline (caso seja utilizado TBL)  Experimentar diferentes modelagens e conjuntos de gabaritos (caso seja utilizado TBL)  Calcular precisão e abrangência (recall)

9 9 eduardo.motta@uniriotec.br 07/10/2008 Características Candidatas  Etiquetas morfossintáticas  Segmentação do texto (chunks)

10 10 eduardo.motta@uniriotec.br 07/10/2008 Técnicas & Ferramentas  Em fase de seleção  Técnicas candidatas  TBL  SVM

11 11 eduardo.motta@uniriotec.br 07/10/2008 Cronograma

12 12 eduardo.motta@uniriotec.br 07/10/2008 Referências  Feldman, R., Sanger, J. (2007) The Text Mining Handbook - Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, Cambridge, UK.  Jackson, P., Moulinier, I., (2002) Natural Language Processing for Online Applications – Text Retrieval, Extraction and Categorization, John Benjamins Publishing Co.  Mitkov, R. (2003) Anaphora resolution, in The Oxford Handbook of Computational Linguistic, capítulo 14, pp. 266-283. Oxford University Press, UK.  Olsson, F. (2004) A Survey of Machine Learning for Reference Resolution in Textual Discourse, SIC Technical Report T2004:02 (ISSN 1100-3154)

13 Perguntas? Comentários?


Carregar ppt "Resolução de Anáforas Pronominais Apresentação da Proposta de Projeto Pontifícia Universidade Católica do Rio de Janeiro Departamento de Informática INF."

Apresentações semelhantes


Anúncios Google