A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

1 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio2008 Sumarização Automática para a Tarefa de Recuperação de Informação Textual.

Apresentações semelhantes


Apresentação em tema: "1 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio2008 Sumarização Automática para a Tarefa de Recuperação de Informação Textual."— Transcrição da apresentação:

1 1 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio2008 Sumarização Automática para a Tarefa de Recuperação de Informação Textual Relação entre SA e RI

2 PLN-Br Maio20082 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio20082 Perspectiva inicial 2 protótipos extrativos –GistSumm (PARDO et al., 2003; PARDO, 2005) –SuPor (MÓDOLO, 2003; RINO E MÓDOLO, 2004) 1 protótipo fundamental –RHeSumaRST (SENO, 2004; SENO & RINO, 2005)

3 PLN-Br Maio20083 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio20083 Tarefas previstas Prototipação e avaliação de um buscador baseado em extratos topicais Verificação das características que interferem na busca Validação do GistSumm e suas variações no contexto da RI

4 PLN-Br Maio20084 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio20084 Sistemas em perspectiva RecEG –Batista Jr., W.S. (2006). Dissertação de Ms ExtraWeb –Pedreira-Silva, P. (2006). Dissertação de Ms

5 PLN-Br Maio20085 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio20085 RecEG Recuperação baseada em Extratos Genéricos –GistSumm (PARDO et al., 2003; Pardo, 2005) –Pseudo-relevance feedback Plataforma: Java

6 PLN-Br Maio20086 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio20086 RecEG 1.RDoc 2.RExt 3.RDocExt 4.RFGenS 5.RFQBS 6.RFQBM 7.RFFullDoc CLEF 2005 Batista Jr. & Rino (2007) –Revista Iberoamericana de Inteligencia Artificial Batista Jr. & Rino (2006) –TIL2006

7 PLN-Br Maio20087 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio20087 ExtraWeb SA de textos da WEB –Apoio (ou substituição) à RI Ontologia do Yahoo para o PORT –Subconjunto refinado manualmente a partir de corpus

8 PLN-Br Maio20088 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio20088 Perspectivas encaminhadas (2006-) Modelo extrativo –SuPor SuPor-2 Daniel Leite – IC, Ms (2008) –IdealXtractor Rodolfo Golombieski – ITI/PLN-Br (2007) Fundamental –RHeSumaRST RHeSuma-2 –RHeSuma-2 VeinSum Thiago Carbonel – Ms (2007) Élen Tomazela – Ms (2007) –RAPM Amanda Chaves – Ms (2007)

9 PLN-Br Maio20089 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio20089 SuPor-2 Consistência e aplicabilidade Várias técnicas clássicas de AM (WEKA) Múltiplas features do modelo do SuPor, otimizadas Múltiplas features (SuPor-2 e Redes Complexas) Categorização de Textos via extratos GoogleSets + SuPor-2 Fonte de informação para construção de extratos Fuzzy Supor-2 Fuzzy: Sistema Híbrido para SA extrativa

10 PLN-Br Maio200810 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200810 SuPor-2 (retreino do SuPor) SystemROUGE NGram(1,1) SuPor-20,5839 *TextRank+Thesaurus0,5603 TextRank+Stem+Stopword sRem 0,5426 …… Baseline0,4963 …… * Mihalcea and Tarau (2004) Mihalcea (2005) – TeMário

11 PLN-Br Maio200811 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200811 SuPor-2 & Redes Complexas Features do SuPor-2 (Leite&Rino, 06) + features de redes complexas (Antiqueira, 07) –37 sistemas distintos Método automático de seleção de features (Correlation Feature Selection – Hall, 2000) 4 classificadores: Bayes, SVM, C4.5 e Regressão Logística Resultados ligeiramente superiores –SuPor-2 (0,5839 ) –TextRank (Mihalcea,2005)

12 PLN-Br Maio200812 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200812 SuPor-2 & Categorização de Textos Categorizar os extratos é menos custoso que o texto original Extratos –seletores de atributos importantes Avaliação –Corpus Jornal MT (855 textos de 5 categorias) –3-fold cross validation –Stemmer Orengo Sumarizar para categorizar piora Resultados ruins tb com GistSumm

13 PLN-Br Maio200813 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200813 SuPor-2 & GoogleSets GoogleSets (http://labs.google.com/sets) –Determinação de grupos similares de palavras Em conjunto com o TextRank (Mihalcea, 2005) Enriquecer o cálculo de similaridades do TextRank –Originalmente medida dos co-senos Thesaurus já havia sido utilizado (Leite et al., 2007) com bons resultados GoogleSets não trouxe melhora significativa para o PORT –Verificar potencial para INGL

14 PLN-Br Maio200814 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200814 SuPor-2 Fuzzy Híbrido –Sistema de Classificação Fuzzy + Algoritmos Genéticos para Treino Parte das features do SuPor-2 (12 ao todo) Classificação Fuzzy –Abordagem de Pittsburgh –Utilizada para avaliar sentenças candidatas Treino dirigido pelas medidas da ROUGE-1 –Sistema retroalimentado pela medida ROUGE-1 dos extratos que produz Em fase de ajustes no treino visando melhores resultados

15 PLN-Br Maio200815 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200815 SuPor-2 Leite & Rino (2008) –PROPOR2008 Leite, Rino, Pardo & Nunes (2007) –Workshop on TextGraphs-2, NAACL2007 Leite & Rino (2006) –IBERAMIA/SBIA'2006 Leite & Rino (2006) –TIL2006, Poster

16 PLN-Br Maio200816 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200816 IdealXtractor: Geração dos extratos ideais Extratos ideais –Dados de referência para avaliações automáticas de SA

17 PLN-Br Maio200817 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200817 IdealXtractor Medida do Cosseno (Salton, 1989) K-means (Leader & Kohonen)

18 PLN-Br Maio200818 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200818 Extrato Ideal TeMário-2006

19 PLN-Br Maio200819 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200819 IdealXtractor: Perspectivas Comparar extratos ideais –IdealXtractor –GEI (Thiago Pardo) Usar extratos ideais para avaliação de outros sistemas extrativos

20 PLN-Br Maio200820 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200820 VeinSum (pós RHeSuma-2) Reimplementação do RheSumaRST Formato de entrada mais adequado a acoplamentos as demais módulos de um sistema completo de SA Sumários nos limites da taxa de compressão Utilização adequada do domínio de acessibilidade referencial –Implementação da Teoria das Veias (Cristea et al., 1998)

21 PLN-Br Maio200821 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200821 VeinSum Árvore RST AddVeins Árvore RST anotada com veins e acc MarcuRank Ranquea mento RankSum

22 PLN-Br Maio200822 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200822 VeinSum Corpus Summ-it –Subconjunto de 12 textos (Collovini et al., 2007) –Apenas SNs definidos Corpus anotado com CCRs –Guidelines e ferramenta de suporte: MMAX (Müller & Strube, 2001) –Anotação em XML Corpus anotado com estruturas retóricas (RST) –Guidelines (Carlson & Marcu, 2001) –Ferramenta de suporte: RSTTool (O´Donnel, 2000)

23 PLN-Br Maio200823 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200823 VeinSum Informatividade –Avaliação subjetiva –ROUGE-1

24 PLN-Br Maio200824 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200824

25 PLN-Br Maio200825 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200825 AVALIAÇÃO DA INFORMATIVIDADE – MEDIDA ROUGE

26 PLN-Br Maio200826 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200826 VeinSum Collovini et al. (2007) Carbonel, Pelizzoni & Rino (2007) –TIL2007 Pelizzoni, Carbonel & Rino (2006) –LREC 2006 –Alignment for Black-Box Evaluation Carbonel et al. (2006) –TIL2006 Várias outras –GEL, INPLA, SILEL

27 PLN-Br Maio200827 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200827 RAPM Algoritmo de Mitkov algorithm –AR do PORT –Indicadores de antecedentes de Mitkov Adaptados ao PORT Gêneros distintos –Thiago Coelho – Ms Algoritmo de Lappin e Leass –Corpora jurídico, literário e jornalístico

28 PLN-Br Maio200828 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200828 RAPM: Avaliação geral 8 versões diferentes Taxa de sucesso (%) RAPM_867,01 RAPM_366,02 RAPM_6_NNP64,94 RAPM_6_PN63,40 RAPM_262,50 RAPM_561,45 RAPM_461,21 RAPM_6_SP60,26

29 PLN-Br Maio200829 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200829 RAPM vs. Algor. Lappin & Leass CorpusRAPM_8Coelho (2005) Jornalístico67,0143,56 Literário3831,32 Jurídico5435,15 Taxa de sucesso (%)

30 PLN-Br Maio200830 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200830 RAPM: Avaliação geral 8 versões diferentes RAPM_8 FNP = First NP LR = Lexical Reiteration INP = Indefinite NP PNP = Prepositional NP RD = Referential Distance SP = Syntactic Parallelism NNP = Nearest NP PN = Proper Noun

31 PLN-Br Maio200831 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200831 RAPM Chaves &Rino (2008) –PROPOR2008 Chaves & Rino (2007) –VI Encontro de Lingüística de Corpus

32 PLN-Br Maio200832 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200832 Síntese: Produção escrita Participação em concursos –CLEF 2005 Artigos revistas (1) Revista Iberoamericana de Inteligencia Artificial Artigos conferências internacionais –PROPOR2008, NAACL2007, IBERAMIA/SBIA'2006, LREC2006 (5) Artigos conferências nacionais –TIL2006 (3) –TIL2007 (2) Outras (GEL, INPLA, SILEL)

33 PLN-Br Maio200833 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200833 Síntese: Sistemas automáticos Sumarizadores extrativos (n, n>4) Gerador de extrato ideal (1) Sumarizador fundamental (1) Resolvedor de anáforas pronominais (1)

34 PLN-Br Maio200834 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200834 Síntese: Corpora Summ-it em suas diversas formas –Manualmente anotado com infos referenciais –Manualmente anotado com RST Árvores RST dos 50 textos do Summ-it Adição de conhecimento especialista (RhetDB) –Árvores RST dos 50 textos do Summ-it com infos subjetivas do analista de discurso, especialista em RST –Extratos (grupos de 50) VeinSum, GistSumm, SuPor-2

35 PLN-Br Maio200835 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200835 Síntese: Realizado vs. proposta original Foco em RI Abandonada (temporariamente, talvez) Novas perspectivas –Aprimoramento dos sumarizadores automáticos extrativos –Exploração de novos métodos extrativos –Produção de dados e recursos diversos –Proposta de novo sumarizador profundo (RST + Teoria das Veias)

36 PLN-Br Maio200836 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200836 Perspectivas futuras Foco em RI –Talvez? Tarefas de avaliação mais robustas e escaláveis Perspectiva de construção de um sumarizador fundamental completo –Acoplamento do VeinSum ao DiZer? Agregação de conhecimento e experiência –Grupo da PUC-RS –Grupo do ICMC-USP

37 PLN-Br Maio200837 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200837

38 PLN-Br Maio200838 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200838 SuPor-2 para Categorização de Textos C4.5Naive-Bayes 72.950894.379470 -94.847850 79.039896.604230 79.391196.60420*0* Taxa de Acerto Taxa de Compressão

39 PLN-Br Maio200839 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200839 Élen Objetivo: Utilizar as etiquetas semânticas provenientes do parser PALAVRAS (Bick, 2000) para o reconhecimento automático de termos co-referentes em prol da manutenção coesiva em sumários produzidos automaticamente. Tarefas realizadas até o momento –Investigação das etiquetas providas pelo parser; –Levantamento de possíveis problemas de reconhecimento automático de Cadeias de Co- referência (CCRs);

40 PLN-Br Maio200840 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200840 Problemas encontrados até o momento não existe uma ontologia pronta que mostre a real hierarquia entre as etiquetas; –ex.: como se dará o reconhecimento entre itens como: alvo (Labst) e mira (act-d)? Inconsistências entre etiquetas; –ex: gás carbônico (cm-chem) e CO2 (mat) A maioria das entidades mencionadas utilizadas no corpus Summ-it (Collovini, 2007) não é etiquetada pela ferramenta; –ex: Brasil (sem etiqueta); Tailândia (inst) instituição;

41 PLN-Br Maio200841 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio200841 Problemas encontrados até o momento Desambiguação ineficiente; –ex: a física nuclear Eva Maria – física (domain) Impossibilidade de uso da WordNet-Br para a identificação de hipônimos e hiperônimos, sendo que a sua base de dados só engloba os verbos até o momento; –ex: canídeos (Adom) e cachorros (Azo) Alguns itens lexicais não são identificados corretamente como uma única unidade; –ex: vaso sangüíneo é etiquetado como: vaso (container) e sangüíneo não recebe etiqueta


Carregar ppt "1 Grupo SADis Sumarização Automática & Modelagem do Discurso PLN-Br Maio2008 Sumarização Automática para a Tarefa de Recuperação de Informação Textual."

Apresentações semelhantes


Anúncios Google