A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CS276A Text Retrieval and Mining Lecture 12 [Utilizando slides de Viktor Lavrenko e Chengxiang Zhai]

Apresentações semelhantes


Apresentação em tema: "CS276A Text Retrieval and Mining Lecture 12 [Utilizando slides de Viktor Lavrenko e Chengxiang Zhai]"— Transcrição da apresentação:

1 CS276A Text Retrieval and Mining Lecture 12 [Utilizando slides de Viktor Lavrenko e Chengxiang Zhai]

2 Recaptulando Modelos probabilísticos: Classificação de Texto Naïve Bayes Introdução à Classificação de Texto Modelos Probabilísticos de Linguagem Categorização de texto Naïve Bayes

3 Hoje Abordagem Modelo de Linguagem a RI Modelo básico de geração Modelos alternativos

4 RI probabilístico padrão consulta d1 d2 dn … Necesside de Informação coleção de documentos correspondência

5 RI baseado em Modelo de Linguagem (LM) consulta d1 d2 dn … Necessidade de Informação coleção de documentos geração … Uma heurística de busca comum é utilizar palavras que vocês espera encontrar em documentos correspondentes como a sua consulta – por que, eu vi Sergey Brin advogando essa estratégia em um programa tarde da noite no meu quarto de hotel, então deve ser bom! A abordagem LM explorar diretamente essa ideia!

6 Linguagem Formal (Modelo) Modelo gerativo Tradicional: gera strings Máquinas de estados finitos ou gramáticas regulares, etc. Exemplo: Iwish I wish I wish I wish I wish I wish I wish … *wish I wish

7 Modelos de linguagem estocásticos Modela a probabilidade de gerar strings na linguagem (normalmente todas as strings sobre o alfabeto ) 0.2the 0.1a 0.01man 0.01woman 0.03said 0.02likes … themanlikesthewoman multiplicar Modelo M P(s | M) =

8 Modelos de linguagem estocásticos Modela a probabilidade de gerar qualquer string 0.2the 0.01class sayst pleaseth yon maiden 0.01woman Modelo M1Modelo M2 maidenclasspleasethyonthe P(s|M2) > P(s|M1) 0.2the class 0.03sayst 0.02pleaseth 0.1yon 0.01maiden woman

9 Modelos de linguagem estocásticos Um modelo estatístico para geração de texto Distribuição da probabilidade sobre strings em uma dada linguagem M P ( | M )= P ( | M ) P ( | M, )

10 Unigram e modelos de alta-ordem Modelos de Linguagem Unigram Modelos de Linguagem Bigram (geralmente, n-gram) Outros Modelos de Linguagem Modelos baseados em gramáticas (PCFGs), etc. Provavelmente não é a primeira coisa a se tentar em RI = P ( )P ( | ) P ( ) P ( ) P ( ) P ( ) P ( ) P ( ) P ( | ) P ( | ) P ( | ) Fácil. Efetivo!

11 Usando Modelos de Linguagem em RI Trata cada documento como a base para o modelo (ex.: estatísticas suficientes para Unigram) Ordena os documentos basedo em P(d | q) P(d | q) = P(q | d) x P(d) / P(q) P(q) é o mesmo para todos os documentos, ignore P(d) [o anterior] é frequentemente tratado como o mesmo para todo d Mas poderíamos usar critérios como autoria, tamanho, genero P(q | d) é a probabilidade de q dado um modelo de ds Abordagem formal muito geral

12 Problema fundamental de LMs Normalmente não conhecemos o modelo M Mas temos um exemplar de texto representativo para esse modelo Estimar um modelo de linguagem do exemplar Então calcule a probabilidade observada P ( | M ( ) ) M

13 Modelos de Lingaguem para RI Abordagens de Modelagem de Linguagem Tenta modelar o processo de geração da consulta Documentos são ordenados pela probabilidade de que uma consulta possa ser vista como um exemplar aleatório do respectivo modelo de documento Abordagem Multinomial

14 Recuperação baseada em LM probabilístico Trata a geração de consultas como um processo aleatório. Abordagem Inferir uma modelo de linguagem para cada documento. Estimar a probabilidade de gerar a consulta de acordo com cada um desses modelos. Ordenar os documentos de acordo com essas probabilidades. Usualmente uma estimativa unigram de palavras é utilizada Algum trabalho com bigramas, em pararelo a van Rijsbergen

15 Recuperação baseada em LM probabilístico Intuição Usuários … Têm uma ideia razoável de termos que provavelmente ocorrem em documentos de interesse. Escolherão termos da consulta que distingue esses documentos de outros na coleção. Estatísticas da coleção … Partes do modelo de linguagem. Não são utilizadas heuristicamente como em muitas outras abordagens. Na teoria. Na prática, normalmente há espaço de manobra para conjuntos de parâmetros empíricos

16 Probabilidade da geração de consulta (1) Fórmula de Ordenação A probabilidade de produzir a consulta dado o modelo de linguagem do documento d usando MLE (estimativa de probabilidade máxima) é: Suposição Unigram : Dado um modelo de linguagem específico, os termos da consulta ocorrem independentemente : modelo de linguagem do documento d : tf puro do termo t no documento d : número total de tokens no documento d

17 Dados insuficientes Probabilidade zero Pode não querer atribuir probabilidade zero a um documento que não contenha um ou mais termos da consulta [oferece conjunção semântica] Abordagem geral Um termo que não ocorre é possível, mas não mais do que o esperado ao acaso na coleção. If, : contagem pura do termo t na coleção : tamanho(número total de tokens na coleção) puro da coleção

18 Dados insuficientes Catástrofe da probabilidade zero Precisamos suavizar as probabilidades Descontar probabilidades não-zero Dar alguma probabilidade a coisas não vistas Há um grande espaço para abordagens de suavização de distribuição de probabilidades para lidar com esse problema, como adicionar 1, ½ ou às contagens, anteriores Dirichlet, desconto, e interpolação [Veja FSNLP cap. 6 ou CS224N para saber mais] Uma ideia simples que funciona bem na prática é usar um misto entre a multinomial do documento e a distribuição multinomial da coleção

19 Modelo misto P(w|d) = P mle (w|M d ) + (1 – )P mle (w|M c ) Mescla a probabilidade do documento com a frequência geral da palavra na coleção. Fixar corretamente é muito importante Um valor alto de lambda torna a busca conjuntiva – adequada para consultas pequenas Um valor baixo é mais adequado a consultas longas Pode-se ajustar para otimizar o desempenho Talvez fazê-lo dependente do tamanho do documento (cf. anterior de Dirichlet ou suavização Witten-Bell)

20 Resumo do modelo misto básico Formulação geral do LM para RI O usuário tem um documento em mente, e gera um consulta a partir deste documento. A equação representa a probabilidade de que o documento que o usuário tem em mente seja de fato este. modelo geral de linguagem modelo individual do documento

21 Exemplo Coleção de documentos (2 documentos) d 1 : Xerox divulga lucro mais faturamento está em queda d 2 : Lucent diminui perda no trimestre mas faturamento diminui mais Modelo: unigram MLE dos documentos; = ½ Consulta: faturamento queda P(Q|d 1 ) = [(1/8 + 2/16)/2] x [(1/8 + 1/16)/2] = 1/8 x 3/32 = 3/256 P(Q|d 2 ) = [(1/8 + 2/16)/2] x [(0 + 1/16)/2] = 1/8 x 1/32 = 1/256 Ordem: d 1 > d 2

22 Experimentos de Ponte e Croft Dados TREC, tópicos nos discos 2 e 3 do TREC Consulta em linguagem natural consistindo de uma sentença cada TREC, tópicos no disco 3 do TREC usando campos conceito Lista de bons termos Number: 054 Domain: International Economics Topic: Satellite Launch Contracts Description: … Concept(s): 1.Contract, agreement 2.Launch vehicle, rocket, payload, satellite 3.Launch services, … Number: 054 Domain: International Economics Topic: Satellite Launch Contracts Description: … Concept(s): 1.Contract, agreement 2.Launch vehicle, rocket, payload, satellite 3.Launch services, …

23 Precisão/recall resultados

24 Precisão/recall resultados

25 Principal diferença é se Relevancia figura explicitamente no modelo ou não Abordagem LM tenta acabar com modelo de relevância Abordagem LM presume que documentos e expressões de problemas de informação são do mesmo tipo Tratável computacionalmente, intuitivamente atraente LM vs. Modelo Prob. para IR

26 Problemas da abordagem LM básica Suposição de equivalencia entre documento e informação e representação do problema de informação não é realista Modelos de linguagem muito simples É difícil integrar Feedback de relevância, assim como preferências do usuário, e outros assuntos de interesse geral Não incorpora facilmente frases, passagens e operadores booleanos Extensões atuais enfocam trazer de volta a relevância no modelo, etc. LM vs. Modelo Prob. para IR

27 Extensão: modelo de 3 níveis Modelo de 3 níveis 1. Modelo completo da coleção ( ) 2. Modelo de tópico específico; modelo de documentos relevantes ( ) 3. Modelo de documento individual ( ) Hipótese de Relevância Uma requisição(consulta; tópico) é gerada de um modelo de tópico específico {, }. Se, e somente se, um documento é relevante para o tópico, o mesmo modelo se aplica ao documento. Substituirá parte do modelo de documento individual na explicação do documento. A probabilidade de relevância de um documento A probabilidade que esse modelo explique parte do documento A probabilidade de que a combinação {,, } seja melhor que a combinação {, }

28 Modelo de 3 níveis consulta d1 d2 dn … Necessidade de Informação coleção de documentos geração … …

29 Modelos Alternativos de Geração de Texto Modelo de consulta Consulta Modelo de documento Documento Buscardor Escritor É o mesmo modelo?

30 Recuperação usando Modelos de Linguagem Modelo de Consulta Modelo de Documento Doc Recuperação: Probabilidade da Consulta (1), Probabilidade do Documento (2), Comparação do Modelo (3) 1 2 3

31 Probabilidade da Consulta P(Q|D m ) O maior problema é estimar o modelo do documento i.e. técnicas de suavização ao invés de pesos tf.idf Bons resultados de recuperação ex.: UMass, BBN, Twente, CMU Problemas ao lidar com feedback de relevância, expansão de consulta e consultas estruturadas

32 Probabilidade do Documento Ordena pela razão das probabilidades P(D|R)/P(D|NR) Trata como problema de geração P(w|R) é estimado de P(w|Q m ) Q m é a consulta ou modelo de relevância P(w|NR) é estimado pelas probabilidades da coleção P(w) Problema é a estimativa do modelo de consulta Trata a consulta como gerada por um misto de tópico e conhecimento prévio Estimar modelo de relevância dos documentos relacionados (expansão da consulta) Feedback de relevância é facilmente incorporado Bons resultados de recuperação ex.: UMass no SIGIR 01 Inconsistente com coleções de documentos heterogêneos

33 Comparação dos Modelos Estimar os modelos da consulta e do documento e comparar Medida adequada é divergência KL D(Q m ||D m ) equivalente à abordagem de probabilidade da consulta se distribuição empírica simples for utilizada como modelo de consulta Framework mais geral de minimização de riscos foi proposto Zhai e Lafferty 2001 Resultados melhores que as abordagens de probabilidade da consulta ou probabilidade do documento

34 Suavização em dois estágios: Outro motivo para suavização Consulta = the algorithms for data mining d1: d2: p( algorithms|d1) = p(algorithm|d2) p( data|d1) < p(data|d2) p( mining|d1) < p(mining|d2) Mas p(q|d1)>p(q|d2)! Devemos tornar p(the) e p(for) menos diferentes para todos os documentos.

35 Suavização em dois estágios c(w,d) |d| P(w|d) = + p(w|C) + 1º estágio -Explica palavras não vistas -Anterior Dirichlet (Bayesian) (1- )+ p(w|U) 2º estágio -Explica ruído na consulta -Misto de dois componentes

36 Como utilizar feedback de relevância utilizando abordagem de modelo de linguagem? Introduz um modelo de consulta & trata feedback como atualização do modelo de consulta Função de recuperação: Probabilidade da consulta => Divergência KL Feedback: Baseado em expansão => Baseado no Modelo

37 Basedo em Expansão vs. Modelo Documento D Resultados Docs Feedback Modelo Doc Pontuação Consulta Q Documento D Consulta Q Docs Feedback Resultados Feedback Baseado em Expansão modifica Feedback baseado em Modelo Modelo de Consulta Probabilidade da Consulta Divergência KL

38 Feedback como Interpolação de Modelo Consulta Q Documento D Resultados Docs Feedback F={d 1, d 2, …, d n } Modelo gerativo =0 Sem feedback =1 Feedback completo

39 Modelo de Tradução (Berger e Lafferty) LMs básicos não resolvem o problema de sinônimos. Ou qualquer desvio na expressão da necessidade de informação da linguagem dos documentos Um modelo de tradução permite que você gere palavras de consulta que não estão no documento via tradução para sinônimos etc. Ou para RI em linguagem cruzada, ou RI multimídia LM Básico Tradução É preciso aprender um modelo de tradução (usando dicionário ou via tradução estatística de máquina)

40 Modelos de linguagem: pro & con Nova forma de olhar o problema de recuperação de texto com base em modelos probabilíticos de linguagem Conceitualmente simples e explicativo Modelo matemático formal Uso natural de estatísticas de coleção, não heurística (quase … ) LMs provêem recuperação efetiva e podem ser melhorados desde que as seguintes condições sejam satisfeitas Nossos modelos de linguagem são precisas representações dos dados. Usuários têm alguma noção sobre a distribuição dos termos.* *Ou nos sofisticamos com modelo de tradução

41 Comparação com o Espaço Vetorial Há alguma relação aos modelos tradicionais tf.idf: frequência do termo (sem escala) está diretamente no modelo as probabilidades fazem a normalização do comprimento da frequência do termo o efeito de mesclar com uma coleção global de frequências é similar ao idf: termos raros em uma coleção geral mas comuns em alguns documentos terão maior influência na ordenação

42 Comparação com Espaço Vetorial Similar em algum sentido Peso de termo baseado na frequência Termos usados frequentemente como independentes Utilizada frequência inversa documento/coleção Alguma forma de normalização útil do comprimento Diferente em outros Baseado na probabilidade ao invés da similaridade Intuições são probabilísticas ao invés de geométricas Detalhes da utilização do comprimento do documento e frequência de termo, documento, e coleção diferem

43 Resources J.M. Ponte and W.B. Croft A language modelling approach to information retrieval. In SIGIR 21. D. Hiemstra A linguistically motivated probabilistic model of information retrieval. ECDL 2, pp. 569 – 584. A. Berger and J. Lafferty Information retrieval as statistical translation. SIGIR 22, pp. 222 – 229. D.R.H. Miller, T. Leek, and R.M. Schwartz A hidden Markov model information retrieval system. SIGIR 22, pp. 214 – 221. [Several relevant newer papers at SIGIR 23 – 25, 2000 – 2002.] Workshop on Language Modeling and Information Retrieval, CMU The Lemur Toolkit for Language Modeling and Information Retrieval. CMU/Umass LM and IR system in C(++), currently actively developed.


Carregar ppt "CS276A Text Retrieval and Mining Lecture 12 [Utilizando slides de Viktor Lavrenko e Chengxiang Zhai]"

Apresentações semelhantes


Anúncios Google