CS276 Information Retrieval and Web Search

CS276 Information Retrieval and Web Search
Christopher Manning and Prabhakar Raghavan Lecture 9: Query expansion

Recapitulando a última aula
Avaliando um motor de busca Benchmarks Precisão e Retorno Resumo dos resultados

Recap: Avaliação de recuperação não rankeada: Precisão ou Retorno
Sec. 8.3 Recap: Avaliação de recuperação não rankeada: Precisão ou Retorno Precisão: fração de documentos recuperados que são relevantes = P(relevante|recuperado) Retorno: fração de documentos relevantes que são recuperados = R(recuperado|relevante) Precisão P = tp/(tp + fp) Retorno R = tp/(tp + fn) Relevante Não-relevante Recuperado tp fp Não recuperado fn tn

Recaptulando: Uma medida combinada: F
Sec. 8.3 Recaptulando: Uma medida combinada: F Medida combinada que avalia o intercâmbio precisão/retorno é a medida F (modo de ponderação harmônica): Pessoas normalmente usam a medida balanceada F1 i.e., com  = 1 ou  = ½ Modo harmônico é uma média conservadora Veja CJ van Rijsbergen, Information Retrieval

Nesta aula Melhorando os resultados Opções para melhorar resultados…
Para alto retorno. Por exemplo, para pesquisar aeroplano não corresponde a avião, nem termodinâmico com calor Opções para melhorar resultados… Métodos Globais Expansão da consulta Sinônimos Geração automática de tesauro Métodos Locais Relevância do Feedback Feedback de Pseudo relevância The examples in the first bullet refer to the Cranfield data set which we have used as a programming exercise.

O que tem no Cap. 9 Conceito de Centróide Rocchio
Otimização da Consulta Feedback Positivo x Feedback Negativo Pressupostos Problemas Estratégias de Feedback Feedback Web Peseudo Feedback Expansão da Consulta

Feedback de Relevância
Sec. 9.1 Feedback de Relevância Feedback de Relevância: feedback dos usuários sobre a relevância dos documentos em um conjunto inicial de resultados. Usuário cria uma consulta (curta, simples) O usuário marca alguns resultados como relevantes ou não-relevantes. O sistema computa uma representação melhor da necessidade de informação baseado no feedback. O Feedback de relevância pode passar por uma ou mais iterações. Idéia:pode ser difícil de formular uma consulta boa quando você não conhece a coleção bem

Sec. 9.1 Feedback de Relevância Usaremos recuperação ad hoc para se referir a uma recuperação regular sem feedback de relevância. Vamos ver agora quatro exemplos de feedback de relevância que destacam aspectos diferentes.

Páginas Similares

Feedback de Relevância: Exemplo
Sec Feedback de Relevância: Exemplo Mecanismo de busca de imagem

Resultados para uma consulta inicial
Sec Resultados para uma consulta inicial

Sec Feedback de Relevância

Resultados após Feedback de Relevância
Sec Resultados após Feedback de Relevância

Resultados ad hoc para a consulta canina source: Fernando Diaz

Feedback do do usuário: Selecione o que é relevante source: Fernando Diaz

Resultados após o feedback de relevância source: Fernando Diaz

Consulta inicial / resultados
Sec Consulta inicial / resultados Consulta Inicial: Novo satélite de aplicações espaciais , 08/13/91, NASA Hasn’t Scrapped Imaging Spectrometer , 07/09/91, NASA Scratches Environment Gear From Satellite Plan , 04/04/90, Science Panel Backs NASA Satellite Plan, But Urges Launches of Smaller Probes , 09/09/91, A NASA Satellite Project Accomplishes Incredible Feat: Staying Within Budget , 07/24/90, Scientist Who Exposed Global Warming Proposes Satellites for Climate Research , 08/22/90, Report Provides Support for the Critics Of Using Big Satellites to Study Climate , 04/13/87, Arianespace Receives Satellite Launch Pact From Telesat Canada , 12/02/87, Telecommunications Tale of Two Companies Usuário então marca os documentos relevantes com “+”. +

Consulta expandida após feedback de relevância
Sec Consulta expandida após feedback de relevância 2,074 new ,106 space 30,816 satellite 5,660 application 5,991 nasa ,196 eos 4,196 launch ,972 aster 3,516 instrument 3,446 arianespace 3,004 bundespost 2,806 ss 2,790 rocket ,053 scientist 2,003 broadcast ,172 earth 0,836 oil ,646 measure

Resultados para a consulta expandida
Sec Resultados para a consulta expandida 2 1 8 , 07/09/91, NASA Scratches Environment Gear From Satellite Plan , 08/13/91, NASA Hasn’t Scrapped Imaging Spectrometer , 08/07/89, When the Pentagon Launches a Secret Satellite, Space Sleuths Do Some Spy Work of Their Own , 07/31/89, NASA Uses ‘Warm’ Superconductors For Fast Circuit , 12/02/87, Telecommunications Tale of Two Companies , 07/09/91, Soviets May Adapt Parts of SS-20 Missile For Commercial Use , 07/12/88, Gaping Gap: Pentagon Lags in Race To Match the Soviets In Rocket Launchers , 06/14/90, Rescue of Satellite By Space Agency To Cost $90 Million

Conceito-chave: Centróide
Sec Conceito-chave: Centróide O centróide é o centro de massa de um conjunto de pontos. Lembre-se que nós representamos documentos como pontos em um espaço de alta dimensão Definição: Centróide onde C é o conjunto de documentos.

Algoritmo Rocchio Rocchio pede a consulta qopt que maximiza
Sec Algoritmo Rocchio O algoritmo Rocchio usa o modelo de espaço vetorial para escolher uma consulta de feedback de relevância Rocchio pede a consulta qopt que maximiza Tenta separar documentos marcados como relevantes ou não-relevantes Problema: não sabemos os documentos realmente relevantes

Teoricamente a melhor consulta
Sec Teoricamente a melhor consulta x x x x o x x x x x x x x o x o x o x x  o o x x x documentos não-relevante o documentos relevantes Optimal query

Rocchio 1971 Algorithm (SMART)
Sec Rocchio 1971 Algorithm (SMART) Utilizado na prática: Dr = conjunto de vetores de documentos relevantes conhecidos Dnr = conjunto de vetores de documentos irrelevantes conhecidos Diferente de Cr e Cnr qm = vetor consulta modificado; q0 = vetor consulta original; α,β,γ: pesos (escolhidos a mão ou definidos empiricamente) A nova consulta se desloca para próximo dos documentos relevantes e longe de documentos irrelevantes SMART: Cornell (Salton) IR system of 1970s to 1990s. !

Observando as sutilezas
Sec Observando as sutilezas Balanceando α vs. β/γ : Se temos um monte de documentos julgados, queremos um maior β/γ. Alguns pesos no vetor de consulta podem ser negativos Pesos negativos a longo prazo são ignoradas (definido para 0)

Relevância do Feedback sobre a consulta inicial
Sec Relevância do Feedback sobre a consulta inicial Initial query x x x o x x x  x x x x o x o x  x o x o o x x x x x known non-relevant documents o known relevant documents Revised query

Feedback de Relevância em espaços vetoriais
Sec Feedback de Relevância em espaços vetoriais Podemos modificar a consulta com base no feedback de relevância e aplicar modelo de espaço vetorial padrão. Utiliza apenas os documentos que foram marcados. feedback de relevância pode melhorar o retorno e precisão feedback de relevância é mais útil para o aumento do retorno em situações nas quais o retorno é importante Os usuários podem esperar para analisar os resultados e ter tempo para percorrer Just as we modified the query in the vector space model, we can also modify it here. I’m not aware of work that uses language model based Ir this way.

Feedback Positivo vs Negativo
Sec Feedback Positivo vs Negativo O feedback positivo é mais valioso do que o feedback negativo (então, faça  < ; ex.  = 0.25,  = 0.75). Muitos sistemas apenas permitem feedback positivo (=0). Why? It’s harder for user to give negative feedback (absence of evidence is not evidence of absence). It’s also harder to use since relevant documents can often form tight cluster, but non-relevant documents rarely do.

Aparte: Espaço vetorial pode ser contra-intuitivo.
Doc “J. Snow & Cholera” x x x x x x x x x o x x x x q1 x x x x x x x x Snow document puts a lot of weird historical stuff into the vectory x q1 query “cholera” o x other documents Query “cholera”

Alto-dimencionamento do Espaço vetorial
As consultas "cólera" e "John Snow" estão longe umas das outras no espaço vetorial. Como pode o documento "John Snow e Cólera“ estar perto de ambos? Nossas intuições para espaços bi- e tri-dimensional não funcionam em > dimensões. 3 dimensões: se um documento está perto de muitas consultas, então, algumas dessas consultas devem estar próximos umas das outros. Não mantém para um espaço de alta dimensão. Q = query, Cr = relevant documents Cnr = not relevant documents

Relevance Feedback: Pressupostos
Sec Relevance Feedback: Pressupostos A1: Usuário tem conhecimento suficiente para a consulta inicial. A2: Protótipos de relevância são "bem-comportadso”. A distribuição de termos em documentos relevantes serão semelhantes A distribuição de termos em documentos não relevantes serão diferentes das dos documentos relevantes. Ou: Todos os documentos relevantes estão fortemente agrupados em torno de um único protótipo. Ou: Há protótipos diferentes, mas eles têm sobreposição de vocabulário significativa. Semelhanças entre documentos relevantes e irrelevantes são pequenas

Violação do A1 O usuário não tem conhecimento inicial suficiente.
Sec Violação do A1 O usuário não tem conhecimento inicial suficiente. Exemplos: Erros ortográficos (Brittany Speers). Recuperação da informação multilíngüe (hígado). Incompatibilidade de vocabulário de pesquisa vs vocabulário coleção Cosmonauta / astronauta

Violação do A2 Existem vários protótipos de relevância. Exemplos:
Sec Violação do A2 Existem vários protótipos de relevância. Exemplos: Birmânia / Mianmar Governo políticas contraditórias Estrelas Pop que trabalharam no Burger King Freqüentemente: instâncias de um conceito geral Bom conteúdo editorial pode resolver problema Relatório sobre as políticas governamentais contraditórias.

Relevance Feedback: Problemas
Consultas longas são ineficientes para mecanismo de RI típico. Longos tempos de resposta para o usuário. Alto custo para o sistema de recuperação. Solução Parcial: Apenas repondere certos termos proeminente Talvez top 20 por freqüência do termo Usuários são muitas vezes relutantes em fornecer feedback explícito É muitas vezes difícil de entender por que um determinado documento foi recuperado após a aplicação do feedback de relevância Why? A long vector space query is like a disjunction: you have to consider documents with any of the words, and sum partial cosine similarities over the various terms.

Avaliação de estratégias de feedback de relevância
Sec Avaliação de estratégias de feedback de relevância Use q0 e calcular o gráfico de retorno e precisão Use qm e calcular o gráfico de retorno e precisão Avaliar em todos os documentos da coleção Melhorias espetaculares, mas ... é trapaça! Em parte devido à maior pontuação de documentos conhecidos julgados como relevantes Deve ser avaliada com relação aos documentos não visto pelo usuário Use documentos na coleção residual (conjunto de documentos retirando aqueles avaliados como relevante) Medidas normalmente são menores do que na consulta original Mas é uma avaliação mais realista O desempenho relativo pode ser validamente comparado Empiricamente, uma rodada de feedback de relevância é frequentemente muito útil. Duas rodadas é marginalmente útil. It’s lower because the results aren’t on the documents that came in top on the original query, which are the ones most likely to be relevant.

Avaliação dos Feedbacks de Relevância
Sec Avaliação dos Feedbacks de Relevância Segundo método - avaliar apenas os docs não avaliados pelo usuário no primeiro turno Poderia fazer um feedback de relevância parecer pior do que realmente é Pode ainda avaliar o desempenho relativo de algoritmos Mais satisfatório - use duas coleções cada uma com suas próprias avaliações de pertinência q0 e o feedback dos usuários na primeira coleção qm é executado na segunda coleção e medido

Sec Avaliação: Caveat Verdadeira avaliação da usabilidade deve comparar com outros métodos, tendo a mesma quantidade de tempo. Alternativa para o feedback de relevância: usuário revê e reenvia consulta. Usuários podem preferir revisão / re-submissão ao invés de ter de julgar a relevância dos documentos. Não há provas claras de que o feedback de relevância é o “melhor uso” do tempo do usuário.

Feedback de relevância na Web
Sec Feedback de relevância na Web Alguns mecanismos de busca oferecem uma característica de páginas similares / relacionadas (esta é uma forma trivial de relevante feedback) Google (link-based) Altavista Stanford WebBase Mas alguns não, porque é difícil de explicar para o usuário médio: Alltheweb bing Yahoo Excite inicialmente tinha feedback de relevância de verdade, mas o abandonou por falta de uso. α/β/γ ??

Excite Relevance Feedback
Sec Excite Relevance Feedback Spink et al. 2000 Apenas cerca de 4% das sessões de consulta de usuário utilizam a opção feedback de relevância Expresso como o link "More like this“ ao lado de cada resultado Mas cerca de 70% dos usuários apenas olhar para primeira página de resultados e não buscam coisas novas Portanto, 4% é cerca de 1 / 8 de pessoas que prorroga a pesquisa O feedback de relevância melhora os resultados em aproximadamente 2 / 3 das vezes

Feedback de pseudo relevância
Sec Feedback de pseudo relevância O feedback de pseudo-relevância automatiza a parte manual do feedback de relevância verdadeiro. Algoritmo de pseudo-relevância: Recupera uma lista ordenada de documentos (de maiores acessos (hits)) para a consulta do usuário. Presumir que os top k documentos são relevantes. Faça o feedback de relevância (ex., Rocchio) Funciona muito bem em média Mas podem dar horrivelmente errado para algumas consultas. Várias iterações podem causar desvio de consulta. Por quê? (Minas de Cobre/Chile)

Sec Expansão de consulta No feedback de relevância, os usuários dão uma entrada adicional (relevante / não relevante) em documentos, que é usado para reponderar os termos nos documentos Na expansão da consulta, os usuários dão entrada adicional (bom/mau termo de pesquisa) em palavras ou frases

Assistente de consulta
Você esperaria um recurso assim para aumentar o volume da consulta em um mecanismo de busca?

Como podemos aumentar a consulta do usuário?
Sec Como podemos aumentar a consulta do usuário? Tesauro manual Ex. MedLine: physician, sinônimo: doc, doctor, MD, medico Pode ser de consulta em vez de apenas sinônimos Análise global: (estático; de todos os documentos na coleção) Tesauro derivado Automaticamente (estatísticas de co-ocorrência) Refinamentos com base na mineração de logs de consultas Comum na Web Análise local: (dinâmico) Análise dos documentos no conjunto de resultado

Tesauro (Thesaurus) Tesauro, também conhecido como dicionário de idéias afins, é uma lista de palavras com significados semelhantes, dentro de um domínio específico de conhecimento. Por definição, um tesauro é restrito. Não deve ser encarado simplesmente como uma lista de sinônimos, pois o objetivo do tesauro é justamente mostrar as diferenças mínimas entre as palavras e ajudar o escritor a escolher a palavra exata. Fonte:

Exemplo de tesauro manual
Sec Exemplo de tesauro manual

Expansão da consulta baseada em tesauro
Sec Expansão da consulta baseada em tesauro Para cada termo t, em uma consulta, expandir a consulta com sinônimos e palavras relacionadas ao termo t do tesauro felino → felino gato Deve ponderar menos os termos adicionados do que os termos originais da consulta. Geralmente aumenta o retorno Amplamente utilizado em muitos campos da ciência e engenharia Pode diminuir significativamente a precisão, especialmente com termos ambíguos. “taxa de juros ”  “taxa de juros fascinante avaliação” Existe um alto custo da produção manual do tesauro E, para atualizá-lo, quando ocorre mudança científica

Geração Automática do Tesauro
Sec Geração Automática do Tesauro Tentativa de gerar um tesauro automaticamente, analisando o conjunto de documentos Noção fundamental: similaridade entre duas palavras Definição 1: Duas palavras são semelhantes se elas co-ocorrem com palavras semelhantes. Definição 2: Duas palavras são semelhantes se elas ocorrem em uma dada relação gramatical com as mesmas palavras. Você pode colher, descascar, comer, preparar, etc maçãs e peras, então maçãs e peras devem ser semelhante Basear em co-ocorrência é a forma mais robusta, as relações gramaticais são mais precisas. Por quê?

Tesauro de co-ocorrência
Sec Tesauro de co-ocorrência Maneira mais simples para calcular um tesauro é se basear nas similaridade termo-a-termo em C = AAT onde A é a matriz termo-documento. wi,j = (normalizado) ponderação para (ti ,dj) Para cada ti, escolher termos com valores elevados em C dj O que contém C , se A é uma matriz de incidência termo-documento (0/1)? N ti M

Exemplo de geração automática do tesauro
Sec Exemplo de geração automática do tesauro

Discussão da geração automática do tesauro
Sec Discussão da geração automática do tesauro Qualidade das associações é geralmente um problema. Ambigüidade do termo pode introduzir termos irrelevantes mas que são estatisticamente correlacionados. “Apple Computador”  “Apple fruta vermelha computador” Problemas: Falsos positivos: Palavras consideradas como similares mas que não são Falsos negativos: As palavras não consideradas como similares, mas que são Desde que os termos são de qualquer forma altamente correlacionados, a expansão pode não recuperar muitos documentos adicionais.

Feedback de relevância indireto
Na web, o DirectHit introduziu uma forma de feedback de relevância indireta. DirectHit classificou os documentos que os usuários olharam com mais freqüência. Clicar em links significa que o documento é provável de ser relevante Assumindo que os resumos apresentados são bons, etc Globalmente: não necessariamente específico de usuário ou de consulta. Esta é a área geral de mineração de clickstream (fluxo de cliques) Hoje - tratada como parte do rankeamento de aprendizado da máquina Link analysis is kind of similar too.

Resources IIR Ch 9 MG Ch. 4.7 MIR Ch. 5.2 – 5.4

CS276 Information Retrieval and Web Search

Apresentações semelhantes

Apresentação em tema: "CS276 Information Retrieval and Web Search"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

CS276 Information Retrieval and Web Search

Apresentações semelhantes

Apresentação em tema: "CS276 Information Retrieval and Web Search"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback