CS276A Text Retrieval and Mining

CS276A Text Retrieval and Mining
Lecture 12 [Utilizando slides de Viktor Lavrenko e Chengxiang Zhai]

Recaptulando Modelos probabilísticos: Classificação de Texto Naïve Bayes Introdução à Classificação de Texto Modelos Probabilísticos de Linguagem Categorização de texto Naïve Bayes

Hoje Abordagem Modelo de Linguagem a RI Modelo básico de geração
Modelos alternativos

RI probabilístico padrão
Necesside de Informação d1 correspondência d2 consulta … dn coleção de documentos

RI baseado em Modelo de Linguagem (LM)
Necessidade de Informação d1 geração d2 consulta … … Gera um modelo de linguagem dos documentos d e ordena os documentos pela probabilidade de gerarem a consulta Q Uma heurística de busca comum é utilizar palavras que vocês espera encontrar em documentos correspondentes como a sua consulta – por que, eu vi Sergey Brin advogando essa estratégia em um programa tarde da noite no meu quarto de hotel, então deve ser bom! A abordagem LM explorar diretamente essa ideia! dn coleção de documentos

Linguagem Formal (Modelo)
Modelo gerativo Tradicional: gera strings Máquinas de estados finitos ou gramáticas regulares, etc. Exemplo: I wish I wish I wish I wish I wish I wish I wish I wish I wish I wish I wish … *wish I wish

Modelos de linguagem estocásticos
Modela a probabilidade de gerar strings na linguagem (normalmente todas as strings sobre o alfabeto ∑) Modelo M 0.2 the 0.1 a 0.01 man 0.01 woman 0.03 said 0.02 likes … the man likes the woman 0.2 0.01 0.02 0.2 0.01 multiplicar P(s | M) =

Modela a probabilidade de gerar qualquer string Modelo M1 Modelo M2 0.2 the class 0.03 sayst 0.02 pleaseth 0.1 yon 0.01 maiden woman 0.2 the 0.01 class sayst pleaseth yon maiden 0.01 woman maiden class pleaseth yon the 0.0005 0.01 0.0001 0.2 0.02 0.1 P(s|M2) > P(s|M1)

Um modelo estatístico para geração de texto Distribuição da probabilidade sobre strings em uma dada linguagem M P ( | M ) = P ( | M ) P ( | M, ) P ( | M, ) P ( | M, )

Unigram e modelos de alta-ordem
Modelos de Linguagem Unigram Modelos de Linguagem Bigram (geralmente, n-gram) Outros Modelos de Linguagem Modelos baseados em gramáticas (PCFGs), etc. Provavelmente não é a primeira coisa a se tentar em RI P ( ) = P ( ) P ( | ) P ( | ) P ( | ) Fácil. Efetivo! P ( ) P ( ) P ( ) P ( ) P ( ) P ( | ) P ( | ) P ( | )

Usando Modelos de Linguagem em RI
Trata cada documento como a base para o modelo (ex.: estatísticas suficientes para Unigram) Ordena os documentos basedo em P(d | q) P(d | q) = P(q | d) x P(d) / P(q) P(q) é o mesmo para todos os documentos, ignore P(d) [o anterior] é frequentemente tratado como o mesmo para todo d Mas poderíamos usar critérios como autoria, tamanho, genero P(q | d) é a probabilidade de q dado um modelo de d’s Abordagem formal muito geral

Problema fundamental de LMs
Normalmente não conhecemos o modelo M Mas temos um exemplar de texto representativo para esse modelo Estimar um modelo de linguagem do exemplar Então calcule a probabilidade observada P ( | M ( ) ) M

Modelos de Lingaguem para RI
Abordagens de Modelagem de Linguagem Tenta modelar o processo de geração da consulta Documentos são ordenados pela probabilidade de que uma consulta possa ser vista como um exemplar aleatório do respectivo modelo de documento Abordagem Multinomial Em matemática, o teorema multinomial diz como escrever uma potência de uma soma em termos de potências dos termos desta soma. É a generalização do teorema binomial para polinômios.

Recuperação baseada em LM probabilístico
Trata a geração de consultas como um processo aleatório. Abordagem Inferir uma modelo de linguagem para cada documento. Estimar a probabilidade de gerar a consulta de acordo com cada um desses modelos. Ordenar os documentos de acordo com essas probabilidades. Usualmente uma estimativa unigram de palavras é utilizada Algum trabalho com bigramas, em pararelo a van Rijsbergen

Recuperação baseada em LM probabilístico
Intuição Usuários … Têm uma ideia razoável de termos que provavelmente ocorrem em documentos de interesse. Escolherão termos da consulta que distingue esses documentos de outros na coleção. Estatísticas da coleção … Partes do modelo de linguagem. Não são utilizadas heuristicamente como em muitas outras abordagens. Na teoria. Na prática, normalmente há espaço de manobra para conjuntos de parâmetros empíricos

Probabilidade da geração de consulta (1)
Fórmula de Ordenação A probabilidade de produzir a consulta dado o modelo de linguagem do documento d usando MLE (estimativa de probabilidade máxima) é: Suposição Unigram : Dado um modelo de linguagem específico, os termos da consulta ocorrem independentemente : modelo de linguagem do documento d : tf puro do termo t no documento d : número total de tokens no documento d

Dados insuficientes Probabilidade zero Abordagem geral
Pode não querer atribuir probabilidade zero a um documento que não contenha um ou mais termos da consulta [oferece conjunção semântica] Abordagem geral Um termo que não ocorre é possível, mas não mais do que o esperado ao acaso na coleção. If , : contagem pura do termo t na coleção : tamanho(número total de tokens na coleção) puro da coleção

Dados insuficientes Catástrofe da probabilidade zero
Precisamos suavizar as probabilidades Descontar probabilidades não-zero Dar alguma probabilidade a coisas não vistas Há um grande espaço para abordagens de suavização de distribuição de probabilidades para lidar com esse problema, como adicionar 1, ½ ou  às contagens, anteriores Dirichlet, desconto, e interpolação [Veja FSNLP cap. 6 ou CS224N para saber mais] Uma ideia simples que funciona bem na prática é usar um misto entre a multinomial do documento e a distribuição multinomial da coleção

Modelo misto P(w|d) = Pmle(w|Md) + (1 – )Pmle(w|Mc)
Mescla a probabilidade do documento com a frequência geral da palavra na coleção. Fixar  corretamente é muito importante Um valor alto de lambda torna a busca conjuntiva – adequada para consultas pequenas Um valor baixo é mais adequado a consultas longas Pode-se ajustar  para otimizar o desempenho Talvez fazê-lo dependente do tamanho do documento (cf. anterior de Dirichlet ou suavização Witten-Bell)

Resumo do modelo misto básico
Formulação geral do LM para RI O usuário tem um documento em mente, e gera um consulta a partir deste documento. A equação representa a probabilidade de que o documento que o usuário tem em mente seja de fato este. modelo geral de linguagem modelo individual do documento

Exemplo Coleção de documentos (2 documentos)
d1: Xerox divulga lucro mais faturamento está em queda d2: Lucent diminui perda no trimestre mas faturamento diminui mais Modelo: unigram MLE dos documentos;  = ½ Consulta: faturamento queda P(Q|d1) = [(1/8 + 2/16)/2] x [(1/8 + 1/16)/2] = 1/8 x 3/32 = 3/256 P(Q|d2) = [(1/8 + 2/16)/2] x [(0 + 1/16)/2] = 1/8 x 1/32 = 1/256 Ordem: d1 > d2

Experimentos de Ponte e Croft
Dados TREC, tópicos nos discos 2 e 3 do TREC Consulta em linguagem natural consistindo de uma sentença cada TREC, tópicos no disco 3 do TREC usando campos conceito Lista de bons termos <num>Number: 054 <dom>Domain: International Economics <title>Topic: Satellite Launch Contracts <desc>Description: … </desc> <con>Concept(s): Contract, agreement Launch vehicle, rocket, payload, satellite Launch services, … </con>

Precisão/recall resultados 202-250

Precisão/recall resultados 51-100

LM vs. Modelo Prob. para IR
Principal diferença é se “Relevancia” figura explicitamente no modelo ou não Abordagem LM tenta acabar com modelo de relevância Abordagem LM presume que documentos e expressões de problemas de informação são do mesmo tipo Tratável computacionalmente, intuitivamente atraente

LM vs. Modelo Prob. para IR
Problemas da abordagem LM básica Suposição de equivalencia entre documento e informação e representação do problema de informação não é realista Modelos de linguagem muito simples É difícil integrar Feedback de relevância, assim como preferências do usuário, e outros assuntos de interesse geral Não incorpora facilmente frases, passagens e operadores booleanos Extensões atuais enfocam trazer de volta a relevância no modelo, etc.

Extensão: modelo de 3 níveis
Modelo completo da coleção ( ) Modelo de tópico específico; modelo de documentos relevantes ( ) Modelo de documento individual ( ) Hipótese de Relevância Uma requisição(consulta; tópico) é gerada de um modelo de tópico específico { , }. Se, e somente se, um documento é relevante para o tópico, o mesmo modelo se aplica ao documento. Substituirá parte do modelo de documento individual na explicação do documento. A probabilidade de relevância de um documento A probabilidade que esse modelo explique parte do documento A probabilidade de que a combinação { , , } seja melhor que a combinação { , }

Necessidade de Informação
Modelo de 3 níveis Necessidade de Informação d1 d2 geração consulta … … … dn coleção de documentos

Modelos Alternativos de Geração de Texto
Modelo de consulta Buscardor Consulta É o mesmo modelo? Modelo de documento Escritor Documento

Recuperação usando Modelos de Linguagem
Modelo de Consulta Consulta 1 3 Modelo de Documento 2 Doc Recuperação: Probabilidade da Consulta (1), Probabilidade do Documento (2), Comparação do Modelo (3)

Probabilidade da Consulta
P(Q|Dm) O maior problema é estimar o modelo do documento i.e. técnicas de suavização ao invés de pesos tf.idf Bons resultados de recuperação ex.: UMass, BBN, Twente, CMU Problemas ao lidar com feedback de relevância, expansão de consulta e consultas estruturadas

Probabilidade do Documento
Ordena pela razão das probabilidades P(D|R)/P(D|NR) Trata como problema de geração P(w|R) é estimado de P(w|Qm) Qm é a consulta ou modelo de relevância P(w|NR) é estimado pelas probabilidades da coleção P(w) Problema é a estimativa do modelo de consulta Trata a consulta como gerada por um misto de tópico e conhecimento prévio Estimar modelo de relevância dos documentos relacionados (expansão da consulta) Feedback de relevância é facilmente incorporado Bons resultados de recuperação ex.: UMass no SIGIR 01 Inconsistente com coleções de documentos heterogêneos

Comparação dos Modelos
Estimar os modelos da consulta e do documento e comparar Medida adequada é divergência KL D(Qm||Dm) equivalente à abordagem de probabilidade da consulta se distribuição empírica simples for utilizada como modelo de consulta Framework mais geral de minimização de riscos foi proposto Zhai e Lafferty 2001 Resultados melhores que as abordagens de probabilidade da consulta ou probabilidade do documento Divergência Kullback-Leiver: É uma medida de divergência assimétrica originada na teoria da informação, que mede quão ruim é a distribuição de probabilidade Mq é na modelagem de Md KL mede o número esperado de bits extra necessário para codificar amostras de P quando se utiliza um código baseado em Q, ao invés de usar um código baseado em P. Normalmente P representa a distribuição "verdadeira" de dados, observações, ou um cálculo preciso da distribuição teórica . A medida Q representa tipicamente uma teoria, modelo, descrição, ou a aproximação de P.

Suavização em dois estágios
+p(w|C) + 1º estágio -Explica palavras não vistas -Anterior Dirichlet (Bayesian)  (1-) + p(w|U) 2º estágio -Explica ruído na consulta -Misto de dois componentes  c(w,d) |d| P(w|d) =

Como utilizar feedback de relevância utilizando abordagem de modelo de linguagem?
Introduz um modelo de consulta & trata feedback como atualização do modelo de consulta Função de recuperação: Probabilidade da consulta => Divergência KL Feedback: Baseado em expansão => Baseado no Modelo

Basedo em Expansão vs. Modelo
Modelo Doc Pontuação Documento D Resultados Probabilidade da Consulta Consulta Q Feedback Baseado em Expansão modifica Docs Feedback Modelo Doc Documento D Pontuação Modelo de Consulta Resultados Divergência KL Consulta Q modifica Feedback baseado em Modelo Docs Feedback

Feedback como Interpolação de Modelo
Documento D Resultados Consulta Q Docs Feedback F={d1, d2 , …, dn} =0 Sem feedback =1 Feedback completo Modelo gerativo

Modelo de Tradução (Berger e Lafferty)
LMs básicos não resolvem o problema de sinônimos. Ou qualquer desvio na expressão da necessidade de informação da linguagem dos documentos Um modelo de tradução permite que você gere palavras de consulta que não estão no documento via “tradução” para sinônimos etc. Ou para RI em linguagem cruzada, ou RI multimídia LM Básico Tradução É preciso aprender um modelo de tradução (usando dicionário ou via tradução estatística de máquina)

Modelos de linguagem: pro & con
Nova forma de olhar o problema de recuperação de texto com base em modelos probabilíticos de linguagem Conceitualmente simples e explicativo Modelo matemático formal Uso natural de estatísticas de coleção, não heurística (quase…) LMs provêem recuperação efetiva e podem ser melhorados desde que as seguintes condições sejam satisfeitas Nossos modelos de linguagem são precisas representações dos dados. Usuários têm alguma noção sobre a distribuição dos termos.* *Ou nos sofisticamos com modelo de tradução

Comparação com o Espaço Vetorial
Há alguma relação aos modelos tradicionais tf.idf: frequência do termo (sem escala) está diretamente no modelo as probabilidades fazem a normalização do comprimento da frequência do termo o efeito de mesclar com uma coleção global de frequências é similar ao idf: termos raros em uma coleção geral mas comuns em alguns documentos terão maior influência na ordenação

Comparação com Espaço Vetorial
Similar em algum sentido Peso de termo baseado na frequência Termos usados frequentemente como independentes Utilizada frequência inversa documento/coleção Alguma forma de normalização útil do comprimento Diferente em outros Baseado na probabilidade ao invés da similaridade Intuições são probabilísticas ao invés de geométricas Detalhes da utilização do comprimento do documento e frequência de termo, documento, e coleção diferem

Resources J.M. Ponte and W.B. Croft A language modelling approach to information retrieval. In SIGIR 21. D. Hiemstra A linguistically motivated probabilistic model of information retrieval. ECDL 2, pp. 569–584. A. Berger and J. Lafferty Information retrieval as statistical translation. SIGIR 22, pp. 222–229. D.R.H. Miller, T. Leek, and R.M. Schwartz A hidden Markov model information retrieval system. SIGIR 22, pp. 214–221. [Several relevant newer papers at SIGIR 23–25, 2000–2002.] Workshop on Language Modeling and Information Retrieval, CMU The Lemur Toolkit for Language Modeling and Information Retrieval. . CMU/Umass LM and IR system in C(++), currently actively developed.

CS276A Text Retrieval and Mining

Apresentações semelhantes

Apresentação em tema: "CS276A Text Retrieval and Mining"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

CS276A Text Retrieval and Mining

Apresentações semelhantes

Apresentação em tema: "CS276A Text Retrieval and Mining"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback