Sumarização Automática para a Tarefa de Recuperação de Informação Textual Relação entre SA e RI.

Slides:

Advertisements

Apresentações semelhantes

Integração de informação proveniente da Web

Advertisements

Introdução SEAOF - Sistema Especialista para Auxílio a Operações Financeiras.

Desenvolvimento de aplicativos Orientados a Objetos: Definição e Características THIAGO IDEALI.

Metodologias e análises Encaminhamentos básicos para trabalho final da disciplina Entrega =

Introdução a Algoritmos

Agenda Introdução Justificativa Objetivo Detecção de Spam

Aprendizado de Máquina

Universidade Federal do Rio de Janeiro Laboratório de Pesquisa em Tecnologias da Informação e da Comunicação PORTAIS DE INFORMAÇÃO E COMUNIDADES VIRTUAIS.

Currículo MERCOSUL, 1997 Área 1 – Fundamentos de Biblioteconomia e Ciência da Informação Área 2 – Processamento da Informação Área 3 – Recursos e Serviços.

AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA.

GeoRisc Baldoino Fonseca.

Aprendizado de Máquina

A PPLYING D ATA M INING T ECHNIQUES TO S EMI -A UTOMATICALLY D ISCOVER G UIDELINES FOR M ETAMODELS {andreza, franklin, patricia,

Teste em Esquemas de Dados Maria Cláudia Figueiredo Pereira Emer Universidade Federal do Paraná Departamento de Informática Seminário.

Reconhecimento de Padrões Seleção de Características

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação Desenvolvimento e Avaliação de Algoritmos.

Localização em Redes Wireless Ad Hoc: Infra-estrutura e Algoritmos

-- PNOTA -- Uma Aplicação para Correção Assistida de Questões Discursivas Filipe Wall Mutz.

- GQM – Goal/Question/Metric

Uma Arquitetura para Suporte ao Compartilhamento do Conhecimento Clínico em Sistemas PEP Integrados a Sistemas SAD Daniel Facciolo Pires Faculdades COC.

Projeto Tradutor Português x LIBRAS TLIBRAS

Jackson D. N. Mourão Pietrângelo V. Ferronato

Carlos Alberto de Freitas Pereira Júnior

Criando corpora pessoais Corpógrafo – presente e futuro

18/03/2004 Definição de Critérios e Indicadores de Desempenho para Sistemas de Treinamento Corporativo Virtual Christine da Silva Schröeder, Marina Keiko.

Plano Nacional de Leitura

Semana de Informática 2011 – IFAM Parintins

Aprendizado de Máquina

Programa Ler e Escrever

Grupo de Pesquisa em Engenharia de Software

Aprendizado Baseado em Instâncias – Algoritmo k-NN

Universidade Federal de Lavras - UFLA

Balanço final e perspectivas de futuro Diana Santos, Hugo Oliveira, Cláudia Freitas, Cristina Mota e Paula Carvalho Encontro do Segundo HAREM Universidade.

Cícero Nogueira dos Santos Ruy Luiz Milidiú

Estatísticas do TIL 2008 Vila Velha/ES, 27 e 28 de Outubro Ariadne M. B. R. Carvalho Maria das Graças V. Nunes Thiago A. S. Pardo.

TIL º Workshop em Tecnologia da Informação e da Linguagem Humana Edição Atual e Histórico do Evento 5 e 6 de Julho Rio de Janeiro-RJ XXVII Congresso.

Desenvolvimento de protótipo para prova de conceito com a framework Infer.NET Elaborado por Carlos Mareco Aluno nº Orientador: Professor Joaquim.

IFSul – Campus Venâncio Aires

Introdução à Classificação de Texto

Fabíola Guerra Nakamura Vitor Alcântara Batista

Projeto de Banco de Dados

UTILIZANDO A ABORDAGEM DIRIGIDA A RESPONSABILIDADES PARA A CRIAÇÃO DO SUBFRAMEWORK DE ANÁLISE SINTÁTICA E SEMÂNTICA DE FÓRMULAS Rodolfo Adamshuk Silva.

{ GPES } Grupo de Pesquisa de Engenharia de Software.

SairPróximo Itens de Seleção Probabilidades e Combinatória Cálculo de Probabilidades. Regra de Laplace. ITENS DE SELEÇÃO DOS EXAMES NACIONAIS E TESTES.

Marcílio C. P. de Souto DIMAp/UFRN

Aluno: Cristiano Levi Arnold Orientador: Alexandre Luís Franco 2009

A PESQUISA BIBLIOGRÁFICA E OS FICHAMENTOS

Classificacao de Texto Projeto Spam Filter

Trabalho nas regras ABNT

Plano de Doutoramento Construção de uma Base de Conhecimento Lexical para o Português Nuno Seco.

Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.

A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.

Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.

Classificação de Texto

ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.

1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.

Mestrando: Pedro Barbosa Cordeiro Orientador: Bernardo Lula Júnior

Classificação Probabilística com TBL Cícero Nogueira dos Santos Pontifícia Universidade Católica do Rio de Janeiro – PUC-Rio Departamento de Informática.

Tesauro, Taxonomia e Ontologia: uma evolução?

Resolução de Anáforas Pronominais Apresentação da Proposta de Projeto Pontifícia Universidade Católica do Rio de Janeiro Departamento de Informática INF.

Classificação de Textos

Correferências Pronominais na 3ª Pessoa do Singular INF2915 Prof.: Ruy Milidiu Guylerme Velasco, Roberta Claudino, Thiago Ribeiro.

Relato da experiência sobre a criação do portal do Serviço de Informação e Documentação do Instituto Nacional de Pesquisas Espaciais Lise Christine Banon.

Marcos Corrêa Neves Gilberto Câmara Renato M. Assunção

Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes

Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.

Sylvia Campos da Luz e Silva Universidade Federal de Pernambuco Centro de Informática Pós-Graduação em Ciência da Computação.

Síntese do Negócio ONTOWEB. Ontoweb – Nova Geração de Ferramenta de Busca Possui comportamento inteligente que auxilia o usuário a organizar e compartilhar.

Transcrição da apresentação:

Sumarização Automática para a Tarefa de Recuperação de Informação Textual Relação entre SA e RI

2 protótipos extrativos Perspectiva inicial 2 protótipos extrativos GistSumm (PARDO et al., 2003; PARDO, 2005) SuPor (MÓDOLO, 2003; RINO E MÓDOLO, 2004) 1 protótipo fundamental RHeSumaRST (SENO, 2004; SENO & RINO, 2005)

Tarefas previstas Prototipação e avaliação de um buscador baseado em extratos topicais Verificação das características que interferem na busca Validação do GistSumm e suas variações no contexto da RI

Sistemas em perspectiva RecEG Batista Jr., W.S. (2006). Dissertação de Ms ExtraWeb Pedreira-Silva, P. (2006). Dissertação de Ms

Recuperação baseada em Extratos Genéricos RecEG Recuperação baseada em Extratos Genéricos GistSumm (PARDO et al., 2003; Pardo, 2005) Pseudo-relevance feedback Plataforma: Java

RecEG CLEF 2005 RDoc RExt Batista Jr. & Rino (2007) RDocExt RFGenS RFQBS RFQBM RFFullDoc CLEF 2005 Batista Jr. & Rino (2007) Revista Iberoamericana de Inteligencia Artificial Batista Jr. & Rino (2006) TIL2006

Ontologia do Yahoo para o PORT ExtraWeb SA de textos da WEB Apoio (ou substituição) à RI Ontologia do Yahoo para o PORT Subconjunto refinado manualmente a partir de corpus

Perspectivas encaminhadas (2006-) Modelo extrativo SuPor  SuPor-2 Daniel Leite – IC, Ms (2008) IdealXtractor Rodolfo Golombieski – ITI/PLN-Br (2007) Fundamental RHeSumaRST  RHeSuma-2 RHeSuma-2  VeinSum Thiago Carbonel – Ms (2007) Élen Tomazela – Ms (2007) RAPM Amanda Chaves – Ms (2007)

 Consistência e aplicabilidade Várias técnicas clássicas de AM (WEKA) SuPor-2  Consistência e aplicabilidade Várias técnicas clássicas de AM (WEKA) Múltiplas features do modelo do SuPor, otimizadas Múltiplas features (SuPor-2 e Redes Complexas) Categorização de Textos via extratos GoogleSets™ + SuPor-2 Fonte de informação para construção de extratos Fuzzy Supor-2 Fuzzy: Sistema Híbrido para SA extrativa

SuPor-2 (retreino do SuPor) System ROUGE NGram(1,1) SuPor-2 0,5839 *TextRank+Thesaurus 0,5603 TextRank+Stem+StopwordsRem 0,5426 … Baseline 0,4963 * Mihalcea and Tarau (2004) Mihalcea (2005) – TeMário

SuPor-2 & Redes Complexas Features do SuPor-2 (Leite&Rino, 06) + features de redes complexas (Antiqueira, 07) 37 sistemas distintos Método automático de seleção de features (Correlation Feature Selection – Hall, 2000)‏ 4 classificadores: Bayes, SVM, C4.5 e Regressão Logística Resultados ligeiramente superiores SuPor-2 (0,5839) TextRank (Mihalcea,2005)‏

SuPor-2 & Categorização de Textos Categorizar os extratos é menos custoso que o texto original Extratos “seletores” de atributos importantes Avaliação Corpus Jornal MT (855 textos de 5 categorias) 3-fold cross validation Stemmer Orengo Sumarizar para categorizar piora Resultados ruins tb com GistSumm

SuPor-2 & GoogleSets GoogleSets (http://labs.google.com/sets) Determinação de grupos similares de palavras Em conjunto com o TextRank (Mihalcea, 2005)‏  Enriquecer o cálculo de similaridades do TextRank Originalmente medida dos co-senos Thesaurus já havia sido utilizado (Leite et al., 2007) com bons resultados GoogleSets não trouxe melhora significativa para o PORT Verificar potencial para INGL

SuPor-2 Fuzzy Híbrido Parte das features do SuPor-2 (12 ao todo)‏ Sistema de Classificação Fuzzy + Algoritmos Genéticos para Treino Parte das features do SuPor-2 (12 ao todo)‏ Classificação Fuzzy Abordagem de Pittsburgh Utilizada para avaliar sentenças candidatas Treino dirigido pelas medidas da ROUGE-1 Sistema retroalimentado pela medida ROUGE-1 dos extratos que produz Em fase de ajustes no treino visando melhores resultados

Leite, Rino, Pardo & Nunes (2007) Leite & Rino (2006) SuPor-2 Leite & Rino (2008) PROPOR’2008 Leite, Rino, Pardo & Nunes (2007) Workshop on TextGraphs-2, NAACL2007 Leite & Rino (2006) IBERAMIA/SBIA'2006 TIL’2006, Poster

IdealXtractor: Geração dos extratos ideais Dados de referência para avaliações automáticas de SA

IdealXtractor Medida do Cosseno (Salton, 1989) K-means (Leader & Kohonen)

Extrato Ideal TeMário-2006

IdealXtractor: Perspectivas Comparar extratos ideais IdealXtractor GEI (Thiago Pardo) Usar extratos ideais para avaliação de outros sistemas extrativos

VeinSum (pós RHeSuma-2) Reimplementação do RheSumaRST Formato de entrada mais adequado a acoplamentos as demais módulos de um sistema completo de SA Sumários nos limites da taxa de compressão Utilização adequada do domínio de acessibilidade referencial Implementação da Teoria das Veias (Cristea et al., 1998)

VeinSum AddVeins Elaboration anotada com veins e acc motivation Árvore RST AddVeins anotada com veins e acc MarcuRank Ranqueamento RankSum Sumário

Corpus anotado com CCRs VeinSum Corpus Summ-it Subconjunto de 12 textos (Collovini et al., 2007) Apenas SNs definidos Corpus anotado com CCRs Guidelines e ferramenta de suporte: MMAX (Müller & Strube, 2001) Anotação em XML Corpus anotado com estruturas retóricas (RST) Guidelines (Carlson & Marcu, 2001) Ferramenta de suporte: RSTTool (O´Donnel, 2000)

VeinSum Informatividade Avaliação subjetiva ROUGE-1

AVALIAÇÃO DA INFORMATIVIDADE – MEDIDA ROUGE

Carbonel, Pelizzoni & Rino (2007) Pelizzoni, Carbonel & Rino (2006) VeinSum Collovini et al. (2007) Carbonel, Pelizzoni & Rino (2007) TIL2007 Pelizzoni, Carbonel & Rino (2006) LREC 2006 Alignment for Black-Box Evaluation Carbonel et al. (2006) TIL2006 Várias outras GEL, INPLA, SILEL

Algoritmo de Mitkov algorithm RAPM Algoritmo de Mitkov algorithm AR do PORT Indicadores de antecedentes de Mitkov Adaptados ao PORT Gêneros distintos Thiago Coelho – Ms Algoritmo de Lappin e Leass Corpora jurídico, literário e jornalístico

RAPM: Avaliação geral 8 versões diferentes Taxa de sucesso (%) RAPM_8 67,01 RAPM_3 66,02 RAPM_6_NNP 64,94 RAPM_6_PN 63,40 RAPM_2 62,50 RAPM_5 61,45 RAPM_4 61,21 RAPM_6_SP 60,26

RAPM vs. Algor. Lappin & Leass Taxa de sucesso (%) Corpus RAPM_8 Coelho (2005) Jornalístico 67,01 43,56 Literário 38 31,32 Jurídico 54 35,15

LR = Lexical Reiteration INP = Indefinite NP PNP = Prepositional NP RAPM: Avaliação geral 8 versões diferentes RAPM_8 FNP = First NP LR = Lexical Reiteration INP = Indefinite NP PNP = Prepositional NP RD = Referential Distance SP = Syntactic Parallelism NNP = Nearest NP PN = Proper Noun

RAPM Chaves &Rino (2008) Chaves & Rino (2007) PROPOR’2008 VI Encontro de Lingüística de Corpus

Síntese: Produção escrita Participação em concursos CLEF 2005 Artigos revistas (1) Revista Iberoamericana de Inteligencia Artificial Artigos conferências internacionais PROPOR2008, NAACL2007, IBERAMIA/SBIA'2006, LREC2006 (5) Artigos conferências nacionais TIL2006 (3) TIL2007 (2) Outras (GEL, INPLA, SILEL)

Síntese: Sistemas automáticos Sumarizadores extrativos (n, n>4) Gerador de extrato ideal (1) Sumarizador fundamental (1) Resolvedor de anáforas pronominais (1)

Summ-it em suas diversas formas Síntese: Corpora Summ-it em suas diversas formas Manualmente anotado com infos referenciais Manualmente anotado com RST Árvores RST dos 50 textos do Summ-it Adição de conhecimento especialista (RhetDB) Árvores RST dos 50 textos do Summ-it com infos subjetivas do analista de discurso, especialista em RST Extratos (grupos de 50) VeinSum, GistSumm, SuPor-2

Síntese: Realizado vs. proposta original  Foco em RI Abandonada (temporariamente, talvez) Novas perspectivas Aprimoramento dos sumarizadores automáticos extrativos Exploração de novos métodos extrativos Produção de dados e recursos diversos Proposta de novo sumarizador profundo (RST + Teoria das Veias)

Tarefas de avaliação mais robustas e escaláveis Perspectivas futuras  Foco em RI Talvez? Tarefas de avaliação mais robustas e escaláveis Perspectiva de construção de um sumarizador fundamental completo Acoplamento do VeinSum ao DiZer? Agregação de conhecimento e experiência Grupo da PUC-RS Grupo do ICMC-USP

FIM FIM

SuPor-2 para Categorização de Textos Naive-Bayes 72.9508 94.3794 70 - 94.8478 50 79.0398 96.6042 30 79.3911 0* Taxa de Acerto Taxa de Compressão

Élen Investigação das etiquetas providas pelo parser; Objetivo: Utilizar as etiquetas semânticas provenientes do parser PALAVRAS (Bick, 2000) para o reconhecimento automático de termos co-referentes em prol da manutenção coesiva em sumários produzidos automaticamente. Tarefas realizadas até o momento Investigação das etiquetas providas pelo parser; Levantamento de possíveis problemas de reconhecimento automático de Cadeias de Co-referência (CCRs);

Problemas encontrados até o momento não existe uma ontologia pronta que mostre a real hierarquia entre as etiquetas; ex.: como se dará o reconhecimento entre itens como: alvo (Labst) e mira (act-d)? Inconsistências entre etiquetas; ex: gás carbônico (cm-chem) e CO2 (mat) A maioria das entidades mencionadas utilizadas no corpus Summ-it (Collovini, 2007) não é etiquetada pela ferramenta; ex: Brasil (sem etiqueta); Tailândia (inst)  instituição;

Problemas encontrados até o momento Desambiguação “ineficiente”; ex: a física nuclear Eva Maria – física (domain) Impossibilidade de uso da WordNet-Br para a identificação de hipônimos e hiperônimos, sendo que a sua base de dados só engloba os verbos até o momento; ex: canídeos (Adom) e cachorros (Azo) Alguns itens lexicais não são identificados corretamente como uma única unidade; ex: vaso sangüíneo é etiquetado como: vaso (container) e sangüíneo não recebe etiqueta