A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Apresentações semelhantes


Apresentação em tema: "Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar."— Transcrição da apresentação:

1 Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar Raghavan Lecture 9: Query expansion

2 Introduction to Information Retrieval Recapitulando a última aula Avaliando um motor de busca Benchmarks Precisão e Retorno Resumo dos resultados

3 Introduction to Information Retrieval 3 Recap: Avaliação de recuperação não rankeada: Precisão ou Retorno Precisão: fração de documentos recuperados que são relevantes = P(relevante|recuperado) Retorno: fração de documentos relevantes que são recuperados = R(recuperado|relevante) Precisão P = tp/(tp + fp) Retorno R = tp/(tp + fn) RelevanteNão-relevante Recuperadotpfp Não recuperadofntn Sec. 8.3

4 Introduction to Information Retrieval 4 Recaptulando: Uma medida combinada: F Medida combinada que avalia o intercâmbio precisão/retorno é a medida F (modo de ponderação harmônica): Pessoas normalmente usam a medida balanceada F 1 i.e., com = 1 ou = ½ Modo harmônico é uma média conservadora Veja CJ van Rijsbergen, Information Retrieval Sec. 8.3

5 Introduction to Information Retrieval Nesta aula Melhorando os resultados Para alto retorno. Por exemplo, para pesquisar aeroplano não corresponde a avião, nem termodinâmico com calor Opções para melhorar resultados… Métodos Globais Expansão da consulta Sinônimos Geração automática de tesauro Métodos Locais Relevância do Feedback Feedback de Pseudo relevância

6 Introduction to Information Retrieval O que tem no Cap. 9 Conceito de Centróide Rocchio Otimização da Consulta Feedback Positivo x Feedback Negativo Pressupostos Problemas Estratégias de Feedback Feedback Web Peseudo Feedback Expansão da Consulta

7 Introduction to Information Retrieval Feedback de Relevância Feedback de Relevância: feedback dos usuários sobre a relevância dos documentos em um conjunto inicial de resultados. Usuário cria uma consulta (curta, simples) O usuário marca alguns resultados como relevantes ou não- relevantes. O sistema computa uma representação melhor da necessidade de informação baseado no feedback. O Feedback de relevância pode passar por uma ou mais iterações. Idéia:pode ser difícil de formular uma consulta boa quando você não conhece a coleção bem Sec. 9.1

8 Introduction to Information Retrieval Feedback de Relevância Usaremos recuperação ad hoc para se referir a uma recuperação regular sem feedback de relevância. Vamos ver agora quatro exemplos de feedback de relevância que destacam aspectos diferentes. Sec. 9.1

9 Introduction to Information Retrieval Páginas Similares

10 Introduction to Information Retrieval Feedback de Relevância: Exemplo Mecanismo de busca de imagem Sec

11 Introduction to Information Retrieval Resultados para uma consulta inicial Sec

12 Introduction to Information Retrieval Feedback de Relevância Sec

13 Introduction to Information Retrieval Resultados após Feedback de Relevância Sec

14 Introduction to Information Retrieval Resultados ad hoc para a consulta canina source: Fernando Diaz

15 Introduction to Information Retrieval Resultados ad hoc para a consulta canina source: Fernando Diaz

16 Introduction to Information Retrieval Feedback do do usuário: Selecione o que é relevante source: Fernando Diaz

17 Introduction to Information Retrieval Resultados após o feedback de relevância source: Fernando Diaz

18 Introduction to Information Retrieval Consulta inicial / resultados Consulta Inicial: Novo satélite de aplicações espaciais , 08/13/91, NASA Hasnt Scrapped Imaging Spectrometer , 07/09/91, NASA Scratches Environment Gear From Satellite Plan , 04/04/90, Science Panel Backs NASA Satellite Plan, But Urges Launches of Smaller Probes , 09/09/91, A NASA Satellite Project Accomplishes Incredible Feat: Staying Within Budget , 07/24/90, Scientist Who Exposed Global Warming Proposes Satellites for Climate Research , 08/22/90, Report Provides Support for the Critics Of Using Big Satellites to Study Climate , 04/13/87, Arianespace Receives Satellite Launch Pact From Telesat Canada , 12/02/87, Telecommunications Tale of Two Companies Usuário então marca os documentos relevantes com Sec

19 Introduction to Information Retrieval Consulta expandida após feedback de relevância 2,074 new 15,106 space 30,816 satellite 5,660 application 5,991 nasa 5,196 eos 4,196 launch 3,972 aster 3,516 instrument 3,446 arianespace 3,004 bundespost 2,806 ss 2,790 rocket 2,053 scientist 2,003 broadcast 1,172 earth 0,836 oil 0,646 measure Sec

20 Introduction to Information Retrieval Resultados para a consulta expandida , 07/09/91, NASA Scratches Environment Gear From Satellite Plan , 08/13/91, NASA Hasnt Scrapped Imaging Spectrometer , 08/07/89, When the Pentagon Launches a Secret Satellite, Space Sleuths Do Some Spy Work of Their Own , 07/31/89, NASA Uses Warm Superconductors For Fast Circuit , 12/02/87, Telecommunications Tale of Two Companies , 07/09/91, Soviets May Adapt Parts of SS-20 Missile For Commercial Use , 07/12/88, Gaping Gap: Pentagon Lags in Race To Match the Soviets In Rocket Launchers , 06/14/90, Rescue of Satellite By Space Agency To Cost $90 Million Sec

21 Introduction to Information Retrieval Conceito-chave: Centróide O centróide é o centro de massa de um conjunto de pontos. Lembre-se que nós representamos documentos como pontos em um espaço de alta dimensão Definição: Centróide onde C é o conjunto de documentos. Sec

22 Introduction to Information Retrieval Algoritmo Rocchio O algoritmo Rocchio usa o modelo de espaço vetorial para escolher uma consulta de feedback de relevância Rocchio pede a consulta q opt que maximiza Tenta separar documentos marcados como relevantes ou não-relevantes Problema: não sabemos os documentos realmente relevantes Sec

23 Introduction to Information Retrieval Teoricamente a melhor consulta x x x x o o o Optimal query x documentos não-relevante o documentos relevantes o o o x x x x x x x x x x x x x x Sec

24 Introduction to Information Retrieval Rocchio 1971 Algorithm (SMART) Utilizado na prática: D r = conjunto de vetores de documentos relevantes conhecidos D nr = conjunto de vetores de documentos irrelevantes conhecidos Diferente de C r e C nr q m = vetor consulta modificado; q 0 = vetor consulta original; α,β,γ: pesos (escolhidos a mão ou definidos empiricamente) A nova consulta se desloca para próximo dos documentos relevantes e longe de documentos irrelevantes ! Sec

25 Introduction to Information Retrieval Observando as sutilezas Balanceando α vs. β/γ : Se temos um monte de documentos julgados, queremos um maior β/γ. Alguns pesos no vetor de consulta podem ser negativos Pesos negativos a longo prazo são ignoradas (definido para 0) Sec

26 Introduction to Information Retrieval Relevância do Feedback sobre a consulta inicial x x x x o o o Revised query x known non-relevant documents o known relevant documents o o o x x x x x x x x x x x x x x Initial query Sec

27 Introduction to Information Retrieval Feedback de Relevância em espaços vetoriais Podemos modificar a consulta com base no feedback de relevância e aplicar modelo de espaço vetorial padrão. Utiliza apenas os documentos que foram marcados. feedback de relevância pode melhorar o retorno e precisão feedback de relevância é mais útil para o aumento do retorno em situações nas quais o retorno é importante Os usuários podem esperar para analisar os resultados e ter tempo para percorrer Sec

28 Introduction to Information Retrieval Feedback Positivo vs Negativo O feedback positivo é mais valioso do que o feedback negativo (então, faça < ; ex. = 0.25, = 0.75). Muitos sistemas apenas permitem feedback positivo ( =0). Why? Sec

29 Introduction to Information Retrieval Aparte: Espaço vetorial pode ser contra- intuitivo. x x x x x x x Query cholera q1 query cholera o x other documents x o q1 x x x x x x x x x x x x x x Doc J. Snow & Cholera

30 Introduction to Information Retrieval Alto-dimencionamento do Espaço vetorial As consultas "cólera" e "John Snow" estão longe umas das outras no espaço vetorial. Como pode o documento "John Snow e Cólera estar perto de ambos? Nossas intuições para espaços bi- e tri-dimensional não funcionam em > dimensões. 3 dimensões: se um documento está perto de muitas consultas, então, algumas dessas consultas devem estar próximos umas das outros. Não mantém para um espaço de alta dimensão.

31 Introduction to Information Retrieval Relevance Feedback: Pressupostos A1: Usuário tem conhecimento suficiente para a consulta inicial. A2: Protótipos de relevância são "bem-comportadso. A distribuição de termos em documentos relevantes serão semelhantes A distribuição de termos em documentos não relevantes serão diferentes das dos documentos relevantes. Ou: Todos os documentos relevantes estão fortemente agrupados em torno de um único protótipo. Ou: Há protótipos diferentes, mas eles têm sobreposição de vocabulário significativa. Semelhanças entre documentos relevantes e irrelevantes são pequenas Sec

32 Introduction to Information Retrieval Violação do A1 O usuário não tem conhecimento inicial suficiente. Exemplos: Erros ortográficos (Brittany Speers). Recuperação da informação multilíngüe (hígado). Incompatibilidade de vocabulário de pesquisa vs vocabulário coleção Cosmonauta / astronauta Sec

33 Introduction to Information Retrieval Violação do A2 Existem vários protótipos de relevância. Exemplos: Birmânia / Mianmar Governo políticas contraditórias Estrelas Pop que trabalharam no Burger King Freqüentemente: instâncias de um conceito geral Bom conteúdo editorial pode resolver problema Relatório sobre as políticas governamentais contraditórias. Sec

34 Introduction to Information Retrieval Relevance Feedback: Problemas Consultas longas são ineficientes para mecanismo de RI típico. Longos tempos de resposta para o usuário. Alto custo para o sistema de recuperação. Solução Parcial: Apenas repondere certos termos proeminente Talvez top 20 por freqüência do termo Usuários são muitas vezes relutantes em fornecer feedback explícito É muitas vezes difícil de entender por que um determinado documento foi recuperado após a aplicação do feedback de relevância Why?

35 Introduction to Information Retrieval Avaliação de estratégias de feedback de relevância Use q 0 e calcular o gráfico de retorno e precisão Use q m e calcular o gráfico de retorno e precisão Avaliar em todos os documentos da coleção Melhorias espetaculares, mas... é trapaça! Em parte devido à maior pontuação de documentos conhecidos julgados como relevantes Deve ser avaliada com relação aos documentos não visto pelo usuário Use documentos na coleção residual (conjunto de documentos retirando aqueles avaliados como relevante) Medidas normalmente são menores do que na consulta original Mas é uma avaliação mais realista O desempenho relativo pode ser validamente comparado Empiricamente, uma rodada de feedback de relevância é frequentemente muito útil. Duas rodadas é marginalmente útil. Sec

36 Introduction to Information Retrieval Avaliação dos Feedbacks de Relevância Segundo método - avaliar apenas os docs não avaliados pelo usuário no primeiro turno Poderia fazer um feedback de relevância parecer pior do que realmente é Pode ainda avaliar o desempenho relativo de algoritmos Mais satisfatório - use duas coleções cada uma com suas próprias avaliações de pertinência q 0 e o feedback dos usuários na primeira coleção q m é executado na segunda coleção e medido Sec

37 Introduction to Information Retrieval Avaliação: Caveat Verdadeira avaliação da usabilidade deve comparar com outros métodos, tendo a mesma quantidade de tempo. Alternativa para o feedback de relevância: usuário revê e reenvia consulta. Usuários podem preferir revisão / re-submissão ao invés de ter de julgar a relevância dos documentos. Não há provas claras de que o feedback de relevância é o melhor uso do tempo do usuário. Sec

38 Introduction to Information Retrieval Feedback de relevância na Web Alguns mecanismos de busca oferecem uma característica de páginas similares / relacionadas (esta é uma forma trivial de relevante feedback) Google (link-based) Altavista Stanford WebBase Mas alguns não, porque é difícil de explicar para o usuário médio: Alltheweb bing Yahoo Excite inicialmente tinha feedback de relevância de verdade, mas o abandonou por falta de uso. α / β / γ ?? Sec

39 Introduction to Information Retrieval Excite Relevance Feedback Spink et al Apenas cerca de 4% das sessões de consulta de usuário utilizam a opção feedback de relevância Expresso como o link "More like this ao lado de cada resultado Mas cerca de 70% dos usuários apenas olhar para primeira página de resultados e não buscam coisas novas Portanto, 4% é cerca de 1 / 8 de pessoas que prorroga a pesquisa O feedback de relevância melhora os resultados em aproximadamente 2 / 3 das vezes Sec

40 Introduction to Information Retrieval Feedback de pseudo relevância O feedback de pseudo-relevância automatiza a parte manual do feedback de relevância verdadeiro. Algoritmo de pseudo-relevância: Recupera uma lista ordenada de documentos (de maiores acessos (hits)) para a consulta do usuário. Presumir que os top k documentos são relevantes. Faça o feedback de relevância (ex., Rocchio) Funciona muito bem em média Mas podem dar horrivelmente errado para algumas consultas. Várias iterações podem causar desvio de consulta. Por quê? (Minas de Cobre/Chile) Sec

41 Introduction to Information Retrieval Expansão de consulta No feedback de relevância, os usuários dão uma entrada adicional (relevante / não relevante) em documentos, que é usado para reponderar os termos nos documentos Na expansão da consulta, os usuários dão entrada adicional (bom/mau termo de pesquisa) em palavras ou frases Sec

42 Introduction to Information Retrieval Assistente de consulta Você esperaria um recurso assim para aumentar o volume da consulta em um mecanismo de busca?

43 Introduction to Information Retrieval Como podemos aumentar a consulta do usuário? Tesauro manual Ex. MedLine: physician, sinônimo: doc, doctor, MD, medico Pode ser de consulta em vez de apenas sinônimos Análise global: (estático; de todos os documentos na coleção) Tesauro derivado Automaticamente (estatísticas de co-ocorrência) Refinamentos com base na mineração de logs de consultas Comum na Web Análise local: (dinâmico) Análise dos documentos no conjunto de resultado Sec

44 Introduction to Information Retrieval Tesauro (Thesaurus) Tesauro, também conhecido como dicionário de idéias afins, é uma lista de palavras com significados semelhantes, dentro de um domínio específico de conhecimento. Por definição, um tesauro é restrito. Não deve ser encarado simplesmente como uma lista de sinônimos, pois o objetivo do tesauro é justamente mostrar as diferenças mínimas entre as palavras e ajudar o escritor a escolher a palavra exata. Fonte: 44

45 Introduction to Information Retrieval Exemplo de tesauro manual Sec

46 Introduction to Information Retrieval Expansão da consulta baseada em tesauro Para cada termo t, em uma consulta, expandir a consulta com sinônimos e palavras relacionadas ao termo t do tesauro felino felino gato Deve ponderar menos os termos adicionados do que os termos originais da consulta. Geralmente aumenta o retorno Amplamente utilizado em muitos campos da ciência e engenharia Pode diminuir significativamente a precisão, especialmente com termos ambíguos. taxa de juros taxa de juros fascinante avaliação Existe um alto custo da produção manual do tesauro E, para atualizá-lo, quando ocorre mudança científica Sec

47 Introduction to Information Retrieval Geração Automática do Tesauro Tentativa de gerar um tesauro automaticamente, analisando o conjunto de documentos Noção fundamental: similaridade entre duas palavras Definição 1: Duas palavras são semelhantes se elas co- ocorrem com palavras semelhantes. Definição 2: Duas palavras são semelhantes se elas ocorrem em uma dada relação gramatical com as mesmas palavras. Você pode colher, descascar, comer, preparar, etc maçãs e peras, então maçãs e peras devem ser semelhante Basear em co-ocorrência é a forma mais robusta, as relações gramaticais são mais precisas. Por quê? Sec

48 Introduction to Information Retrieval Tesauro de co-ocorrência Maneira mais simples para calcular um tesauro é se basear nas similaridade termo-a-termo em C = AA T onde A é a matriz termo-documento. w i,j = (normalizado) ponderação para (t i,d j ) Para cada t i, escolher termos com valores elevados em C titi djdj N M O que contém C, se A é uma matriz de incidência termo- documento (0/1)? Sec

49 Introduction to Information Retrieval Exemplo de geração automática do tesauro Sec

50 Introduction to Information Retrieval Discussão da geração automática do tesauro Qualidade das associações é geralmente um problema. Ambigüidade do termo pode introduzir termos irrelevantes mas que são estatisticamente correlacionados. Apple Computador Apple fruta vermelha computador Problemas: Falsos positivos: Palavras consideradas como similares mas que não são Falsos negativos: As palavras não consideradas como similares, mas que são Desde que os termos são de qualquer forma altamente correlacionados, a expansão pode não recuperar muitos documentos adicionais. Sec

51 Introduction to Information Retrieval Feedback de relevância indireto Na web, o DirectHit introduziu uma forma de feedback de relevância indireta. DirectHit classificou os documentos que os usuários olharam com mais freqüência. Clicar em links significa que o documento é provável de ser relevante Assumindo que os resumos apresentados são bons, etc Globalmente: não necessariamente específico de usuário ou de consulta. Esta é a área geral de mineração de clickstream (fluxo de cliques) Hoje - tratada como parte do rankeamento de aprendizado da máquina

52 Introduction to Information Retrieval Resources IIR Ch 9 MG Ch. 4.7 MIR Ch. 5.2 – 5.4


Carregar ppt "Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar."

Apresentações semelhantes


Anúncios Google