Mineração da Web Recuperação de Informação

Slides:

Advertisements

Apresentações semelhantes

IFTO ESTRUTURA DE DADOS AULA 05 Prof. Manoel Campos da Silva Filho

Advertisements

Medidas de Avaliação de Sistemas de Recuperação de Informação

Modelo Probabilístico

AULA 02 PROGRAMAÇÃO LINEAR INTEIRA

Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:

Amintas engenharia.

Operadores e Funções do LINGO

Introdução à Programação usando Processing Programação Gráfica 2D Animações Exercício Animações 14/10/09 Bruno C. de Paula 2º Semestre 2009 > PUCPR >

14/10/09 Uma animação possui: Início; Passo; Fim; 1.

Exercício do Tangram Tangram é um quebra-cabeças chinês no qual, usando 7 peças deve-se construir formas geométricas.

Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.

Cálculo - Thomas Capítulo 5.

Técnicas de orçamento de capital

1 Controlo e Aprendizagem Aula Teórico-Prática nº 1 Metodologia experimental Planificação das aulas Temas dos trabalhos de grupo Avaliação.

Excel Profa. Cristina M. Nunes.

João Carlos Porto Orientadora: Prof.ª Dr.ª Junia Coutinho Anacleto 26/03/2010 Projeto de interceo.

Administrando projetos com MS Project – Unidade IX

1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.

1 Objetos Relacionados a um banco de dados. 2 Introdução Visual Basic dispõe de um conjunto de objetos, que através de suas propriedades e métodos, nos.

Estatística Básica Utilizando o Excel

Estatística Básica Utilizando o Excel

GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.

Introdução a Computação

Introdução a Teoria da Classificação

Aula 6 Subprogramas Universidade do Vale do Rio dos Sinos

Listas Encadeadas.

Classes e objetos P. O. O. Prof. Grace.

Renda até 2 SM.

Módulo Financeiro Centro de Custo.

Impressão de etiquetas

Criação de objetos da AD 1Luis Rodrigues e Claudia Luz.

MECÂNICA - DINÂMICA Cinemática de uma Partícula Cap. 12.

Cinemática de uma Partícula Cap. 12

Inteligência Artificial

Recuperação Inteligente de Informação Tarefa 1 Equipe.

MECÂNICA - DINÂMICA Cinemática Plana de um Corpo Rígido Cap. 16.

Cinemática Plana de um Corpo Rígido Cap. 16

Cinemática Plana de um Corpo Rígido Cap. 16

MECÂNICA - ESTÁTICA Vetores Forças Cap. 2.

MECÂNICA - DINÂMICA Cinemática de uma Partícula Cap Exercícios.

Oferta e Demanda A Curva de Oferta

Algoritmos Culturais.

1 António Arnaut Duarte. 2 Sumário: primeiros passos;primeiros passos formatar fundo;formatar fundo configurar apresentação;configurar apresentação animação.

CONTROLE ESTRATÉGICO E RETORNO OPERACIONAL SOBRE INVESTIMENTOS

Introdução teórica A modulação em freqüência consiste na variação da freqüência da portadora proporcionalmente ao sinal de informação. Dado o sinal modulador.

Análise Fatorial Factor analysis.

Mineração da Web Recuperação de Informação

Recuperação de Informação Clássica

Título do projeto Equipe Local Data.

Técnicas de Modelagem para Aplicações em Computação Gráfica

Projeto de Banco de Dados

1 2 Observa ilustração. Cria um texto. Observa ilustração.

Computação Gráfica Aula 3 Transformações Geométricas

Unidade 7: Processamento, Análise e Interpretação dos Dados

Seleção de Atributos Ricardo Prudêncio.

1 Aplicações do Fecho Regular. 2 A interseção de uma linguagem livre de contexto e uma linguagem regular é uma linguagem livre de contexto livre de contexto.

Olhe fixamente para a Bruxa Nariguda

Exercício - 1. Criar no SPSS o banco de dados com as informações fornecidas 2. Salvar o banco com o nome atividade física na pasta pos pilates 3.

Cinemática Plana de um Corpo Rígido Cap. 16

Módulo Compras Relatórios e Relações 1. Objetivo 2 Conhecer os relatórios e as relações do sistema disponibilizadas no módulo Compras.

Medidas de tendência central e de dispersão

Planilha Eletrônica - Excel

Contagem Sequencial do Estoque

Contagem Sequencial do Estoque

Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:

CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.

1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.

Recuperação de Informação

Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum.

Transcrição da apresentação:

Mineração da Web Recuperação de Informação Avaliação de Desempenho de Sistemas de RI Flávia Barros

Roteiro da aula Introdução Corpus de Avaliação Medidas de Avaliação Precisão Cobertura F-Measure E-Measure Benchmarks

Para que avaliar? Existem muitos modelos de RI mas qual é o melhor? Qual a melhor escolha para: Função de Ranking (co-seno, correlação…) Seleção de termos (stopword, stemming…) Definição de pesos (TF, TF-IDF,…) Quantos itens da lista de resultados o usuário deverá consultar para ainda encontrar algum documento relevante?

Avaliação de Sistemas de RI Dificuldades Eficácia do sistema está relacionada à relevância dos itens recuperados Relevância, do ponto de vista do usuário, é: Subjetiva depende de um julgamento específico do usuário Dependente do contexto relaciona-se às necessidades atuais do usuário Cognitiva depende da percepção e comportamento do humano Dinâmica muda com o decorrer do tempo

Avaliação de Sistemas de RI Corpus de Avaliação Coleção de documentos etiquetados usados para testar o desempenho do sistema Sabe-se de ante-mão a relevância de um documento em relação a uma consulta Pode-se usar um corpus de referência, manualmente etiquetado Exemplos: Reuters, http://br.today.reuters.com/... TREC, http://trec.nist.gov/ Veja exemplo escrito em SGML Standard generalized ML

Exemplo de Documento do TREC <DOCNO> WSJ870324-0001 </DOCNO> <HL> John Blair Is Near Accord To Sell Unit, Sources Say </HL> <DD> 03/24/87</DD> <SO> WALL STREET JOURNAL (J) </SO> <IN> REL TENDER OFFERS, MERGERS, ACQUISITIONS (TNM) MARKETING, ADVERTISING (MKT) TELECOMMUNICATIONS, BROADCASTING, TELEPHONE, TELEGRAPH (TEL) </IN> <DATELINE> NEW YORK </DATELINE> <TEXT> John Blair & Co. is close to an agreement to sell its TV station advertising representation operation and program production unit to an investor group led by James H. Rosenfield, a former CBS Inc. executive, industry sources said. Industry sources put the value of the proposed acquisition at more than $100 million. ... </TEXT> </DOC>

Avaliação de Sistemas de RI Construção do Corpus de Avaliação Pode-se construir manualmente um corpus específico Essa abordagem requer considerável esforço para grandes conjuntos de documentos e consultas Procedimento: Selecione com um corpus de documentos Defina um conjunto de consultas para esse corpus Use um ou mais especialistas humanos para etiquetar (marcar) todos os documentos relevantes para cada consulta Geralmente assume relevância binária

Medidas de Avaliação de Sistemas de RI Precisão Habilidade de ordenar os itens mais relevantes nos primeiros lugares Cobertura Habilidade de recuperar todos os itens relevantes do corpus

Medidas de Avaliação Cobertura: total de documentos relevantes retornados sobre o número total dos relevantes existentes Precisão: n. de documentos relevantes retornados sobre o número total de retornados Todos os Documentos Documentos Relevantes Documentos Retornados Relevantes Retornados

Medidas de Avaliação outra figura... recuperados & relevantes Não-recuperados mas relevantes recuperados & irrelevantes Não recuperados & irrelevantes Coleção de documentos Documentos relevantes Documentos recuperados

Conflito entre Cobertura e Precisão Retorna só documentos relevantes mas esquece muitos outros relevantes Ideal 1 Precisão 1 Cobertura Retorna a maior parte dos documentos relevantes mas inclui muitos não relevantes

Computando Cobertura e Precisão Para uma dada consulta, o sistema produz uma lista ordenada de documentos Pode-se medir diferentes valores de precisão e cobertura ao longo da lista Marque cada documento da lista ordenada de acordo com o corpus etiquetado Compute cobertura e precisão para cada posição da lista que contém um documento relevante

Computando Cobertura e Precisão Exemplo Seja no. de docs relevantes = 6. Verifique cobertura e precisão em cada doc relevante da lista. C=1/6=0.167; P=1/1=1 C=2/6=0.333; P=2/2=1 C=3/6=0.5; P=3/4=0.75 C=4/6=0.667; P=4/6=0.667 Assim podemos escolher o melhor ponto de corte para uma dada aplicação C=5/6=0.833; P=5/13=0.38

Precisão Relativa R-Precision Precisão na R-ésima posição da lista de resultados Seja no. de docs relevantes = 6 R-Precision = 4/6 = 0.67

Cobertura Relativa Relative Recall Medir cobertura é mais difícil Número total de documentos relevantes nem sempre é disponível Ex., a Web Para esses casos, calcula-se a Cobertura Relativa

Cobertura Relativa Procedimento Realize a mesma consulta usando diferentes algoritmos de recuperação na mesma base de documentos Para a Web, consultar diferentes engenhos de busca Julgue relevância apenas dos itens recuperados O conjunto dos documentos relevantes recuperados é considerado o conjunto total de documentos relevantes da base

Comparando Sistemas de RI A curva mais próxima do canto superior direito do gráfico indica melhor desempenho

Outras Medidas de Desempenho F-measure E-measure Taxa Fallout

F-Measure Combinando Precisão e Cobertura Medida de desempenho que considera tanto a cobertura como precisão Média harmônica da cobertura e precisão: Vantagem de usar a média harmônica em relação à média aritmética: Ambas as medidas precisam ser altas para a média harmônica ser alta

E-Measure F-Measure parametrizado Variação da F-measure que permite dar ênfase à precisão sobre a cobertura: Valor de  controla conflito:  = 1: Peso igual para precisão e cobertura (E=F).  > 1: Mais peso para a precisão  < 1: Mais peso para a cobertura

Taxa Fallout Problemas com a precisão e cobertura: Número de documentos irrelevantes da base não é levado em conta Cobertura é indefinida quando não existem documentos relevantes na base Precisão é indefinida quando nenhum documento é recuperado

Medidas Subjetivas Novelty Ratio Coverage Ratio Proporção de itens recuperados julgados relevantes pelo usuário e que ainda não eram conhecidos pelo usuário Mede a habilidade do sistema de encontrar informação nova sobre um tópico Coverage Ratio Proporção de itens relevantes recuperados sobre o total de documentos relevantes conhecidos pelo usuário antes da consulta Ideal quando o usuário quer localizar documentos que já tinha visto anteriormente

Outros Fatores a Considerar Esforço do Usuário Tempo gasto pelo usuário em formular consultas, conduzir a busca, e verificar os resultados Tempo de resposta Intervalo de tempo entre o recebimento da consulta do usuário e a apresentação das respostas do sistema Forma de apresentação Influência do formato de apresentação dos resultados da busca sobre a habilidade do usuário em utilizar o material recuperado

Experimentos Medindo desempenho...

Experimentos Desempenho deve ser medido para um dado conjunto de documentos, consultas, e julgamento de relevância Dados de desempenho são validos apenas para o ambiente no qual o sistema foi avaliado

Coleção de Documentos Padrão Benchmarks Uma coleção benchmark contém: Um conjunto padrão de documentos e consultas/tópicos. Uma lista de documentos relevantes para cada consulta Coleções padrão para RI: Smart collection: ftp://ftp.cs.cornell.edu/pub/smart TREC: http://trec.nist.gov/ Coleção de Documentos Padrão Consultas Padrão Algoritmo sob teste Avaliação Resultado Padrão Resultados Recuperados Precisão e cobertura

Problemas com as amostras Benchmark Dados de desempenho válidos apenas para o benchmark particular Construir um corpus benchmark é uma tarefa difícil Benchmarks para a web ainda estão sendo desenvolvidos Nem todas as línguas têm o seu corpus Benchmark disponível

Primeiras Coleções de Teste Primeiros experimentos usaram a base SMART, que é bastante pequena ftp://ftp.cs.cornell.edu/pub/smart Nome da Número de Número de Tamanho Coleção Documentos Consultas (Mbytes) CACM 3,204 64 1.5 CISI 1,460 112 1.3 CRAN 1,400 225 1.6 MED 1,033 30 1.1 TIME 425 83 1.5

TREC: Text REtrieval Conference Coleção TREC TREC: Text REtrieval Conference http://trec.nist.gov/ Originado do TIPSTER programa mantido pela Defense Advanced Research Projects Agency (DARPA) Os participantes recebiam partes de um conjunto padrão de documentos e temas A partir dos quais as consultas tinham que ser derivadas

Vantagens do TREC Larga escala Contém julgamento de relevância comparado aos poucos MB da coleção SMART Contém julgamento de relevância Está sob contínuo desenvolvimento com suporte do governo americano Participação: TREC 1: 28 papers 360 páginas. TREC 4: 37 papers 560 páginas. TREC 7: 61 papers 600 páginas. TREC 8: 74 papers.

Características do TREC Tanto documentos longos como curtos de poucas centenas a mil termos únicos por documentos Documentos de teste consistem em: WSJ Wall Street Journal articles (1986-1992), 550M AP,Associate Press Newswire (1989), 514M ZIFF, Computer Select Disks (Ziff-Davis Publishing), 493 M FR, Federal Register, 469 M DOE, Abstracts from Department of Energy reports, 190 M

Propriedades do TREC Tanto os documentos como os tópicos de consulta contêm diferentes tipos de informação (campos) A geração de consultas formais (booleana, espaço vetorial, etc...) é de responsibilidade do sistema Um sistema pode ser muito bom na busca e ordenação, mas se for ruim na formulação das consultas geradas para um tópico, então o desempenho do sistema será pobre

Exemplo de Documento do TREC <DOCNO> WSJ870324-0001 </DOCNO> <HL> John Blair Is Near Accord To Sell Unit, Sources Say </HL> <DD> 03/24/87</DD> <SO> WALL STREET JOURNAL (J) </SO> <IN> REL TENDER OFFERS, MERGERS, ACQUISITIONS (TNM) MARKETING, ADVERTISING (MKT) TELECOMMUNICATIONS, BROADCASTING, TELEPHONE, TELEGRAPH (TEL) </IN> <DATELINE> NEW YORK </DATELINE> <TEXT> John Blair & Co. is close to an agreement to sell its TV station advertising representation operation and program production unit to an investor group led by James H. Rosenfield, a former CBS Inc. executive, industry sources said. Industry sources put the value of the proposed acquisition at more than $100 million. ... </TEXT> </DOC>

Exemplo de Tópico/Consulta do TREC <top> <head> Tipster Topic Description <num> Number: 066 <dom> Domain: Science and Technology <title> Topic: Natural Language Processing <desc> Description: Document will identify a type of natural language processing technology which is being developed or marketed in the U.S. <narr> Narrative: A relevant document will identify a company or institution developing or marketing a natural language processing technology, identify the technology, and identify one of more features of the company's product. <con> Concept(s): 1. natural language processing ;2. translation, language, dictionary <fac> Factor(s): <nat> Nationality: U.S.</nat> </fac> <def> Definitions(s): </top>

Mais exemplos do TREC

Outro exemplo de Tópico/Consulta do TREC

Avaliação do TREC Tabela de Estatísticas Cobertura-precisão média Número de tópicos avaliados, número de documentos recuperados, número de documentos relevantes Cobertura-precisão média precisão média sobre os 11 níveis padrões de cobertura (0 a 1 com incremento de 0.1). Nível de documentos Precisão média quando 5, 10, .., 100, … 1000 documentos são recuperados Histograma da precisão Média diferença da R-precision para o tópico e a R-precision de todos os sistemas para o tópico

Próximas aulas ver cronograma...