Sumarização Automática para a Tarefa de Recuperação de Informação Textual Relação entre SA e RI
2 protótipos extrativos Perspectiva inicial 2 protótipos extrativos GistSumm (PARDO et al., 2003; PARDO, 2005) SuPor (MÓDOLO, 2003; RINO E MÓDOLO, 2004) 1 protótipo fundamental RHeSumaRST (SENO, 2004; SENO & RINO, 2005)
Tarefas previstas Prototipação e avaliação de um buscador baseado em extratos topicais Verificação das características que interferem na busca Validação do GistSumm e suas variações no contexto da RI
Sistemas em perspectiva RecEG Batista Jr., W.S. (2006). Dissertação de Ms ExtraWeb Pedreira-Silva, P. (2006). Dissertação de Ms
Recuperação baseada em Extratos Genéricos RecEG Recuperação baseada em Extratos Genéricos GistSumm (PARDO et al., 2003; Pardo, 2005) Pseudo-relevance feedback Plataforma: Java
RecEG CLEF 2005 RDoc RExt Batista Jr. & Rino (2007) RDocExt RFGenS RFQBS RFQBM RFFullDoc CLEF 2005 Batista Jr. & Rino (2007) Revista Iberoamericana de Inteligencia Artificial Batista Jr. & Rino (2006) TIL2006
Ontologia do Yahoo para o PORT ExtraWeb SA de textos da WEB Apoio (ou substituição) à RI Ontologia do Yahoo para o PORT Subconjunto refinado manualmente a partir de corpus
Perspectivas encaminhadas (2006-) Modelo extrativo SuPor SuPor-2 Daniel Leite – IC, Ms (2008) IdealXtractor Rodolfo Golombieski – ITI/PLN-Br (2007) Fundamental RHeSumaRST RHeSuma-2 RHeSuma-2 VeinSum Thiago Carbonel – Ms (2007) Élen Tomazela – Ms (2007) RAPM Amanda Chaves – Ms (2007)
Consistência e aplicabilidade Várias técnicas clássicas de AM (WEKA) SuPor-2 Consistência e aplicabilidade Várias técnicas clássicas de AM (WEKA) Múltiplas features do modelo do SuPor, otimizadas Múltiplas features (SuPor-2 e Redes Complexas) Categorização de Textos via extratos GoogleSets™ + SuPor-2 Fonte de informação para construção de extratos Fuzzy Supor-2 Fuzzy: Sistema Híbrido para SA extrativa
SuPor-2 (retreino do SuPor) System ROUGE NGram(1,1) SuPor-2 0,5839 *TextRank+Thesaurus 0,5603 TextRank+Stem+StopwordsRem 0,5426 … Baseline 0,4963 * Mihalcea and Tarau (2004) Mihalcea (2005) – TeMário
SuPor-2 & Redes Complexas Features do SuPor-2 (Leite&Rino, 06) + features de redes complexas (Antiqueira, 07) 37 sistemas distintos Método automático de seleção de features (Correlation Feature Selection – Hall, 2000) 4 classificadores: Bayes, SVM, C4.5 e Regressão Logística Resultados ligeiramente superiores SuPor-2 (0,5839) TextRank (Mihalcea,2005)
SuPor-2 & Categorização de Textos Categorizar os extratos é menos custoso que o texto original Extratos “seletores” de atributos importantes Avaliação Corpus Jornal MT (855 textos de 5 categorias) 3-fold cross validation Stemmer Orengo Sumarizar para categorizar piora Resultados ruins tb com GistSumm
SuPor-2 & GoogleSets GoogleSets (http://labs.google.com/sets) Determinação de grupos similares de palavras Em conjunto com o TextRank (Mihalcea, 2005) Enriquecer o cálculo de similaridades do TextRank Originalmente medida dos co-senos Thesaurus já havia sido utilizado (Leite et al., 2007) com bons resultados GoogleSets não trouxe melhora significativa para o PORT Verificar potencial para INGL
SuPor-2 Fuzzy Híbrido Parte das features do SuPor-2 (12 ao todo) Sistema de Classificação Fuzzy + Algoritmos Genéticos para Treino Parte das features do SuPor-2 (12 ao todo) Classificação Fuzzy Abordagem de Pittsburgh Utilizada para avaliar sentenças candidatas Treino dirigido pelas medidas da ROUGE-1 Sistema retroalimentado pela medida ROUGE-1 dos extratos que produz Em fase de ajustes no treino visando melhores resultados
Leite, Rino, Pardo & Nunes (2007) Leite & Rino (2006) SuPor-2 Leite & Rino (2008) PROPOR’2008 Leite, Rino, Pardo & Nunes (2007) Workshop on TextGraphs-2, NAACL2007 Leite & Rino (2006) IBERAMIA/SBIA'2006 TIL’2006, Poster
IdealXtractor: Geração dos extratos ideais Dados de referência para avaliações automáticas de SA
IdealXtractor Medida do Cosseno (Salton, 1989) K-means (Leader & Kohonen)
Extrato Ideal TeMário-2006
IdealXtractor: Perspectivas Comparar extratos ideais IdealXtractor GEI (Thiago Pardo) Usar extratos ideais para avaliação de outros sistemas extrativos
VeinSum (pós RHeSuma-2) Reimplementação do RheSumaRST Formato de entrada mais adequado a acoplamentos as demais módulos de um sistema completo de SA Sumários nos limites da taxa de compressão Utilização adequada do domínio de acessibilidade referencial Implementação da Teoria das Veias (Cristea et al., 1998)
VeinSum AddVeins Elaboration anotada com veins e acc motivation Árvore RST AddVeins anotada com veins e acc MarcuRank Ranqueamento RankSum Sumário
Corpus anotado com CCRs VeinSum Corpus Summ-it Subconjunto de 12 textos (Collovini et al., 2007) Apenas SNs definidos Corpus anotado com CCRs Guidelines e ferramenta de suporte: MMAX (Müller & Strube, 2001) Anotação em XML Corpus anotado com estruturas retóricas (RST) Guidelines (Carlson & Marcu, 2001) Ferramenta de suporte: RSTTool (O´Donnel, 2000)
VeinSum Informatividade Avaliação subjetiva ROUGE-1
AVALIAÇÃO DA INFORMATIVIDADE – MEDIDA ROUGE
Carbonel, Pelizzoni & Rino (2007) Pelizzoni, Carbonel & Rino (2006) VeinSum Collovini et al. (2007) Carbonel, Pelizzoni & Rino (2007) TIL2007 Pelizzoni, Carbonel & Rino (2006) LREC 2006 Alignment for Black-Box Evaluation Carbonel et al. (2006) TIL2006 Várias outras GEL, INPLA, SILEL
Algoritmo de Mitkov algorithm RAPM Algoritmo de Mitkov algorithm AR do PORT Indicadores de antecedentes de Mitkov Adaptados ao PORT Gêneros distintos Thiago Coelho – Ms Algoritmo de Lappin e Leass Corpora jurídico, literário e jornalístico
RAPM: Avaliação geral 8 versões diferentes Taxa de sucesso (%) RAPM_8 67,01 RAPM_3 66,02 RAPM_6_NNP 64,94 RAPM_6_PN 63,40 RAPM_2 62,50 RAPM_5 61,45 RAPM_4 61,21 RAPM_6_SP 60,26
RAPM vs. Algor. Lappin & Leass Taxa de sucesso (%) Corpus RAPM_8 Coelho (2005) Jornalístico 67,01 43,56 Literário 38 31,32 Jurídico 54 35,15
LR = Lexical Reiteration INP = Indefinite NP PNP = Prepositional NP RAPM: Avaliação geral 8 versões diferentes RAPM_8 FNP = First NP LR = Lexical Reiteration INP = Indefinite NP PNP = Prepositional NP RD = Referential Distance SP = Syntactic Parallelism NNP = Nearest NP PN = Proper Noun
RAPM Chaves &Rino (2008) Chaves & Rino (2007) PROPOR’2008 VI Encontro de Lingüística de Corpus
Síntese: Produção escrita Participação em concursos CLEF 2005 Artigos revistas (1) Revista Iberoamericana de Inteligencia Artificial Artigos conferências internacionais PROPOR2008, NAACL2007, IBERAMIA/SBIA'2006, LREC2006 (5) Artigos conferências nacionais TIL2006 (3) TIL2007 (2) Outras (GEL, INPLA, SILEL)
Síntese: Sistemas automáticos Sumarizadores extrativos (n, n>4) Gerador de extrato ideal (1) Sumarizador fundamental (1) Resolvedor de anáforas pronominais (1)
Summ-it em suas diversas formas Síntese: Corpora Summ-it em suas diversas formas Manualmente anotado com infos referenciais Manualmente anotado com RST Árvores RST dos 50 textos do Summ-it Adição de conhecimento especialista (RhetDB) Árvores RST dos 50 textos do Summ-it com infos subjetivas do analista de discurso, especialista em RST Extratos (grupos de 50) VeinSum, GistSumm, SuPor-2
Síntese: Realizado vs. proposta original Foco em RI Abandonada (temporariamente, talvez) Novas perspectivas Aprimoramento dos sumarizadores automáticos extrativos Exploração de novos métodos extrativos Produção de dados e recursos diversos Proposta de novo sumarizador profundo (RST + Teoria das Veias)
Tarefas de avaliação mais robustas e escaláveis Perspectivas futuras Foco em RI Talvez? Tarefas de avaliação mais robustas e escaláveis Perspectiva de construção de um sumarizador fundamental completo Acoplamento do VeinSum ao DiZer? Agregação de conhecimento e experiência Grupo da PUC-RS Grupo do ICMC-USP
FIM FIM
SuPor-2 para Categorização de Textos Naive-Bayes 72.9508 94.3794 70 - 94.8478 50 79.0398 96.6042 30 79.3911 0* Taxa de Acerto Taxa de Compressão
Élen Investigação das etiquetas providas pelo parser; Objetivo: Utilizar as etiquetas semânticas provenientes do parser PALAVRAS (Bick, 2000) para o reconhecimento automático de termos co-referentes em prol da manutenção coesiva em sumários produzidos automaticamente. Tarefas realizadas até o momento Investigação das etiquetas providas pelo parser; Levantamento de possíveis problemas de reconhecimento automático de Cadeias de Co-referência (CCRs);
Problemas encontrados até o momento não existe uma ontologia pronta que mostre a real hierarquia entre as etiquetas; ex.: como se dará o reconhecimento entre itens como: alvo (Labst) e mira (act-d)? Inconsistências entre etiquetas; ex: gás carbônico (cm-chem) e CO2 (mat) A maioria das entidades mencionadas utilizadas no corpus Summ-it (Collovini, 2007) não é etiquetada pela ferramenta; ex: Brasil (sem etiqueta); Tailândia (inst) instituição;
Problemas encontrados até o momento Desambiguação “ineficiente”; ex: a física nuclear Eva Maria – física (domain) Impossibilidade de uso da WordNet-Br para a identificação de hipônimos e hiperônimos, sendo que a sua base de dados só engloba os verbos até o momento; ex: canídeos (Adom) e cachorros (Azo) Alguns itens lexicais não são identificados corretamente como uma única unidade; ex: vaso sangüíneo é etiquetado como: vaso (container) e sangüíneo não recebe etiqueta