Recuperação de Informação

Slides:



Advertisements
Apresentações semelhantes
Medidas de Avaliação de Sistemas de Recuperação de Informação
Advertisements

Modelo Probabilístico
Simulação de Sistemas Antonio J. Netto AULA1.
WINDOWS Sistemas Operacionais PLATAFORMA TECNOLÓGICOS
Solved Exercises 1. Finding the Peak. Let A= a1,…,an be a sequence of n numbers with the following property: there is p in {1,…,n} for which (i) the.
Indexação Automática de Documentos
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Eveline Alonso Veloso PUC-MINAS
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Reconhecimento de Padrões Dissimilaridade
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Introdução a Teoria da Classificação
Descoberta de Conhecimento:
Divisão de Biblioteca e Documentação FMUSP
Base SCOPUS 2011 Divisão de Biblioteca e Documentação FMUSP.
Bruno Augusto Vivas e Pôssas
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
Algoritmos Genéticos - Capítulo 10 Representação Numérica
TIPOS DE TESTES APLICÁVEIS E NÃO APLICÁVEIS AO PROJETO
Ambiente de simulação Os algoritmos previamente discutidos foram analisados usando um simulador de mobilidade. Ele modela uma cidade de 20 Km de raio,
Competência: Compreender as métricas de Software
Inteligência Artificial
Criptografia Simétrica
Orientações sobre usabilidade
Recuperação Inteligente de Informação Tarefa 1 Equipe.
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
Gestão de Projetos Ms. Karine R. de Souza
Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Mineração da Web Recuperação de Informação
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Título do projeto Equipe Local Data.
How to Break Software Capítulo 2 Taíse Dias Testing from the User Interface.
Recuperação de Informação
Seleção de Atributos Ricardo Prudêncio.
Classificacao de Texto Projeto Spam Filter
Sistema de Previsão Financeira Tendências e medidas de probabilidade.
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Unidade 8: Apresentação dos Dados em Figuras, Gráficos e Tabelas
Probabilidade e Estatística para Avaliação de Desempenho
Geoprocessamento Geração do MDE.
MSCC - Introdução Baseado no capítulo 1 do livro Performance Evalution of Computer and Communication Systems, de Jean-Yves Le Boudec (EPFL)
Especialização em Pesquisa Clínica Módulo 3 – Epidemiologia e Bioestatística Daniel Kashiwamura Scheffer 1o. Semestre – 2009.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Capítulo 9: SAD orientado a Modelo
Prototipação de Software
Classificação de Textos
TUTORIAL. SABIN AMERICANA Esta base é formulada conforme a bibliografia de Joseph Sabin, bibliófilo americano que viveu entre 1821 e Com.
Fórmula Visual RM.
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Metodologia de modelagem etapa 7
INFERÊNCIA PARA DUAS POPULAÇÕES
Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum.
Figuras 2a e 2b mostram a sensibilidade ao contraste em função da freqüência espacial para dois observadores e três condições de teste: 1. Sensibilidade.
SISTEMA DE TRANSITIVIDADE: PARTICIPANTES PROCESSOS CIRCUNSTÂNCIAS.
1 factor de impacto de revistas científicas 23 de Abril 2008 Biblioteca da UA.
Prepared by: Fernando Quijano and Yvonn Quijano 7 C A P Í T U L O © 2004 by Pearson EducationMacroeconomia, 3ª ediçãoOlivier Blanchard Agregando Todos.
Revisado por Phil Daro, USA Common Core Standards Análise da Base Nacional Comum Curricular de Matemática.
1 Problemas Numéricos com Representação por Números Reais Prof. Marco Aurélio C. Pacheco.
INFERÊNCIA ESTATÍSTICA
Transcrição da apresentação:

Recuperação de Informação Avaliação de Desempenho de Sistemas de RI Flávia Barros

Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a escolha para: Função de Ranking (co-seno, correlação…) Seleção de termos (stopword, stemming…) Definição de pesos (TF, TF-IDF,…) Quantos itens da lista de resultados o usuário deverá consultar para ainda encontrar algum documento relevante?

Avaliação de Sistemas de RI Dificuldades Eficácia do sistema está relacionada à relevância dos itens recuperados Relevância, do ponto de vista do usuário, é: Subjetiva: depende de um julgamento específico do usuário Dependente do contexto: relaciona-se às necessidades atuais do usuário Cognitiva: depende da percepção e comportamento do humano Dinâmica: muda com o decorrer do tempo

Avaliação de Sistemas de RI Pode-se testar o sistema com um corpus conhecido e etiquetado manualmente Sabe-se, de ante-mão, a relevância de um documento em relação a uma consulta Exemplos: TREC, Reuters, ... Pode-se construir manualmente um corpus específico Essa abordagem requer considerável esforço para grandes conjuntos de documentos e consultas

Avaliação de Sistemas de RI Construção de um Corpus Procedimento: Selecione com um corpus de documentos Defina um conjunto de consultas para esse corpus Use um ou mais especialistas humanos para exaustivamente etiquetar (marcar) os documentos relevantes para cada consulta Geralmente assume relevância binária

Medidas de Avaliação de Sistemas de RI Precisão Habilidade de ordenar nos primeiros lugares os documentos mais relevantes Cobertura Habilidade de recuperar todos os itens relevantes do corpus

Medidas de Avaliação Cobertura: total de documentos relevantes retornados sobre o número total dos relevantes existentes Precisão: n. de documentos relevantes retornados sobre o número total de retornados Todos os Documentos Documentos Relevantes Documentos Retornados Relevantes Retornados

Medidas de Avaliação outra figura... recuperados & relevantes Não-recuperados mas relevantes recuperados & irrelevantes Não recuperados & irrelevantes Recuperados Não recuperados relevante irrelevante Coleção de documentos Documentos relevantes Documentos recuperados

Conflito entre Cobertura e Precisão Retorna documentos que são relevantes mas esquece muitos outros relevantes Ideal 1 Precisão 1 Cobertura Retorna a maior parte dos documentos relevantes mas inclui muitos não relevantes

Computando Cobertura e Precisão Para uma dada consulta, o sistema produz uma lista ordenada de documentos Pode-se medir diferentes valores de precisão e cobertura ao longo da lista Marque cada documento da lista ordenada de acordo com o corpus etiquetado Compute cobertura e precisão para cada posição da lista que contem um documento relevante

Computando Cobertura e Precisão Exemplo Seja # de docs relevantes = 6 Verifique cobertura e precisão em cada doc relevante da lista: C=1/6=0.167; P=1/1=1 C=2/6=0.333; P=2/2=1 C=3/6=0.5; P=3/4=0.75 C=4/6=0.667; P=4/6=0.667 Deixe um documento de fora Nunca alcançe 100% de cobertura C=5/6=0.833; P=5/13=0.38

Medir Cobertura é Difícil Número total de documentos relevantes nem sempre é disponível Ex., a Web Para esses casos, calcula-se cobertura relativa Selecione uma amostra do conjunto total de documentos e julgue relevância apenas dos itens da amostra Aplique diferentes algoritmos de recuperação na mesma base de documentos para a mesma consulta Para a Web, consultar diferentes engenhos de busca O conjunto total dos itens relevantes recuperados é considerado o conjunto total de documentos relevantes

Interpolando a Curva de Cobertura/Precisão Interpole o valor da precisão para cada nível padrão de cobertura: rj {0.0, 0.1, 0.2, 0.3, ..., 0.9, 1.0} r0 = 0.0, r1 = 0.1, …, r10=1.0 Valores discretos A estimativa da precisão no j-ésimo nível de cobertura é a precisão máxima obtida entre o j-ésimo e o (j + 1)-ésimo níveis de cobertura

Interpolando a Curva de Cobertura/Precisão 1.0 0.8 0.6 0.4 0.2 1.0 0.2 0.4 0.6 0.8 Cobertura

Curva Média de Cobertura/Precisão Tipicamente, essa curva mede o desempenho geral do sistema sobre um conjunto de consultas Procedimento Calcule a curva interpolada de cobertura e precisão para cada consulta Tire a média da precisão interpolada em cada nível de cobertura

Comparando dois ou mais Sistemas A curva mais próxima do canto superior direito do gráfico indica melhor desempenho

Outra medida muito usada R- Precision Precisão na R-ésima posição da lista de resultados # de docs relevantes = 6 R-Precision = 4/6 = 0.67

Combinando Precisão e Cobertura F-Measure Medida de desempenho que considera tanto a cobertura como precisão Média harmônica da cobertura e precisão: Vantagem de usar a média harmônica em relação à média aritmética: Ambas as medidas precisam ser altas para a média harmônica ser alta

E-Measure F-Measure parametrizado Variação da F-measure que permite associar ênfase na precisão sobre a cobertura: Valor de  controla conflito:  = 1: Peso igual para precisão e cobertura (E=F).  > 1: Mais peso para a precisão  < 1: Mais peso para a cobertura

Taxa Fallout Problemas com a precisão e cobertura: Número de documentos irrelevantes da base não é levando em conta Cobertura é indefinida quando não existem documentos relevantes na base Precisão é indefinida quando nenhum documento é recuperado

Medidas de Relevância Subjetivas Novelty Ratio: proporção de itens recuperados, julgados como relevantes pelo usuário e que ainda não eram conhecidos pelo usuário Habilidade de encontrar informação nova sobre um tópico Coverage Ratio: proporção de itens relevantes recuperados sobre o total de documentos relevantes conhecidos pelo usuário antes da consulta Ideal quando o usuário quer localizar documentos que já tinha visto anteriormente

Outros Fatores a Considerar Esforço do Usuário tempo gasto pelo usuário em formular consultas, conduzir a busca, e verificar os resultados Tempo de resposta Intervalo de tempo entre o recebimento da consulta do usuário e a apresentação das respostas do sistema Forma de apresentação influência do formato dos resultados da busca sobre a habilidade do usuário em utilizar o material recuperado

Experimentos Desempenho deve ser medido para um dado conjunto de documentos, consultas, e julgamento de relevância Dados de desempenho são validos apenas para o ambiente no qual o sistema foi avaliado

Coleção de Documentos Padrão Benchmarks Uma coleção benchmark contém: Um conjunto padrão de documentos e consultas/tópicos. Uma lista de documentos relevantes para cada consulta Coleções padrão para RI: Smart collection: ftp://ftp.cs.cornell.edu/pub/smart TREC: http://trec.nist.gov/ Coleção de Documentos Padrão Consultas Padrão Algoritmo sob teste Avaliação Resultado Padrão Resultados Recuperados Precisão e cobertura

Problemas com as amostras Benchmark Dados de desempenho válidos apenas para o benchmark particular Construir um corpus benchmark é uma tarefa difícil Benchmark para a web ainda estão sendo desenvolvidos Nem todas as línguas têm o seu corpus Benchmark

Primeiras Coleções de Teste Primeiros experimentos usaram a base SMART que é bastante pequena (ftp://ftp.cs.cornell.edu/pub/smart) Nome da Número de Número de Tamanho Coleção Documentos Consultas (Mbytes) CACM 3,204 64 1.5 CISI 1,460 112 1.3 CRAN 1,400 225 1.6 MED 1,033 30 1.1 TIME 425 83 1.5

Coleção TREC TREC: Text REtrieval Conference (http://trec.nist.gov/) Originado do TIPSTER program mantido pela Defense Advanced Research Projects Agency (DARPA). Era dado aos participantes partes de um conjunto padrão de documentos e TÓPICOS (dos quais as consultas tinham que ser derivadas)

Vantagens do TREC Larga escala (comparado com os poucos MB da coleção SMART). Contém julgamento de relevância Sob contínuo desenvolvimento com suporte do governo americano Participação: TREC 1: 28 papers 360 páginas. TREC 4: 37 papers 560 páginas. TREC 7: 61 papers 600 páginas. TREC 8: 74 papers.

Características do TREC Tanto documentos longos como curtos (de poucas centenas a mil termos únicos por documentos) Documentos de teste consistem em: WSJ Wall Street Journal articles (1986-1992), 550 M AP,Associate Press Newswire (1989), 514 M ZIFF, Computer Select Disks (Ziff-Davis Publishing), 493 M FR, Federal Register, 469 M DOE, Abstracts from Department of Energy reports, 190 M

Propriedades do TREC Tanto os documentos como os tópicos de consulta contêm diferentes tipos de informação (campos). A geração de consultas formais (booleana, espaço vetorial, etc...) é de responsibilidade do sistema. Um sistema pode ser muito bom na busca e ordenação, mas se for ruim na formulação das consultas geradas para um tópico então o desempenho do sistema será pobre

Exemplo de Documento do TREC (escrito em SGML) <DOCNO> WSJ870324-0001 </DOCNO> <HL> John Blair Is Near Accord To Sell Unit, Sources Say </HL> <DD> 03/24/87</DD> <SO> WALL STREET JOURNAL (J) </SO> <IN> REL TENDER OFFERS, MERGERS, ACQUISITIONS (TNM) MARKETING, ADVERTISING (MKT) TELECOMMUNICATIONS, BROADCASTING, TELEPHONE, TELEGRAPH (TEL) </IN> <DATELINE> NEW YORK </DATELINE> <TEXT> John Blair & Co. is close to an agreement to sell its TV station advertising representation operation and program production unit to an investor group led by James H. Rosenfield, a former CBS Inc. executive, industry sources said. Industry sources put the value of the proposed acquisition at more than $100 million. ... </TEXT> </DOC>

Exemplo de Tópico/Consulta do TREC (escrito em SGML) <top> <head> Tipster Topic Description <num> Number: 066 <dom> Domain: Science and Technology <title> Topic: Natural Language Processing <desc> Description: Document will identify a type of natural language processing technology which is being developed or marketed in the U.S. <narr> Narrative: A relevant document will identify a company or institution developing or marketing a natural language processing technology, identify the technology, and identify one of more features of the company's product. <con> Concept(s): 1. natural language processing ;2. translation, language, dictionary <fac> Factor(s): <nat> Nationality: U.S.</nat> </fac> <def> Definitions(s): </top>

Dois exemplos a mais de documentos do TREC

Outro exemplo de Tópico/Consulta do TREC

Avaliação do TREC Tabela de Estatísticas Cobertura-precisão média Número de tópicos avaliados, número de documentos recuperados, número de documentos relevantes Cobertura-precisão média precisão média sobre os 11 níveis padrões de cobertura (0 a 1 com incremento de 0.1). Nível de documentos Precisão média quando 5, 10, .., 100, … 1000 documentos são recuperados Histograma da precisão Média diferença da R-precision para o tópico e a R-precision de todos os sistemas para o tópico