CS276A Text Retrieval and Mining

Slides:



Advertisements
Apresentações semelhantes
Medidas de Avaliação de Sistemas de Recuperação de Informação
Advertisements

Modelo Probabilístico
Operações sobre o Texto
DISTRIBUIÇÕES AMOSTRAIS
Operações sobre as Consultas
Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Aprendizado de Máquina
2.5 INFERÊNCIAS SOBRE A DIFERENÇA NAS MÉDIAS, COMPARAÇÕES EMPARELHADAS
ANÁLISE DISCRIMINANTE
Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral versus quantil.
Indexação Automática de Documentos
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Eveline Alonso Veloso PUC-MINAS
ESTIMAÇÃO.
Alexandre Suaide Ed. Oscar Sala sala 246 ramal 7072
Software Básico Silvio Fernandes
Modelos no Domínio do Tempo de Sistemas LTI Contínuos
Métodos Numéricos e Estatísticos
Modelagem e simulação de sistemas
Estrutura de indexação Modelos de RI
Introdução a Teoria da Classificação
Avaliação de Desempenho Planejamento de Experimentos 2 Aula 2 Marcos José Santana Regina Helena Carlucci Santana Universidade de São Paulo Instituto de.
MEDIDAS E INCERTEZAS O Que é Medição?
Descoberta de Conhecimento:
1º SEMINÁRIO DO PROJETO MULTIGRID
Introdução a Análise de Complexidade de Algoritmos
Gramáticas Estocásticas Livre de Contexto Anderson Faustino da Silva.
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
Solução: SIMULAÇÃO Sistemas Complexos
Estatística Aplicada (Aula 2)
Ambiente de simulação Os algoritmos previamente discutidos foram analisados usando um simulador de mobilidade. Ele modela uma cidade de 20 Km de raio,
Objetivo Definições Cálculo do teste Exemplo Comentários Bibliografia
Aprendizado de Máquina
Aprendizado de Máquina
Aprendizado de Máquina Aula 13
Aprendizado de Máquina Aula 8
Inteligência Artificial
Alexandre Xavier Falcão & David Menotti
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Seminário LAND A Preferential Attachment Model for Tree Construction in P2P Video Streaming Marcio N. Miranda - Daniel R. Figueiredo Submetido ao First.
CS276: Information Retrieval and Web Search
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
Treinamento do Microsoft® Access® 2010
Arquitetura de computadores
Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Modelagem Estatística
Aula 8 By: Abraham Ortega Paredes
Aprendizado de Máquina Prof.: Dino R. C. Franklin Aluno.: Thiago Fialho Q. L.
Introdução e Busca Cega
Mineração da Web Recuperação de Informação
Recuperação de Informação Clássica
Introdução à Computação Gráfica Curvas
Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA.
Redes Bayesianas - Aplicação em Risco Operacional
Projeto de Banco de Dados
Recuperação de Informação
ESTATÍSTICA BÁSICA.
Classificacao de Texto Projeto Spam Filter
Estatística Aula 13 Prof. Marllus Gustavo Ferreira Passos das Neves
7. Mineração de Texto ("Text Mining")
Agora... Sobre a aula de hoje!!!
Regressão e Previsão Numérica.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Classificação de Textos
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum.
Transcrição da apresentação:

CS276A Text Retrieval and Mining Lecture 12 [Utilizando slides de Viktor Lavrenko e Chengxiang Zhai]

Recaptulando Modelos probabilísticos: Classificação de Texto Naïve Bayes Introdução à Classificação de Texto Modelos Probabilísticos de Linguagem Categorização de texto Naïve Bayes

Hoje Abordagem Modelo de Linguagem a RI Modelo básico de geração Modelos alternativos

RI probabilístico padrão Necesside de Informação d1 correspondência d2 consulta … dn coleção de documentos

RI baseado em Modelo de Linguagem (LM) Necessidade de Informação d1 geração d2 consulta … … Gera um modelo de linguagem dos documentos d e ordena os documentos pela probabilidade de gerarem a consulta Q Uma heurística de busca comum é utilizar palavras que vocês espera encontrar em documentos correspondentes como a sua consulta – por que, eu vi Sergey Brin advogando essa estratégia em um programa tarde da noite no meu quarto de hotel, então deve ser bom! A abordagem LM explorar diretamente essa ideia! dn coleção de documentos

Linguagem Formal (Modelo) Modelo gerativo Tradicional: gera strings Máquinas de estados finitos ou gramáticas regulares, etc. Exemplo: I wish I wish I wish I wish I wish I wish I wish I wish I wish I wish I wish … *wish I wish

Modelos de linguagem estocásticos Modela a probabilidade de gerar strings na linguagem (normalmente todas as strings sobre o alfabeto ∑) Modelo M 0.2 the 0.1 a 0.01 man 0.01 woman 0.03 said 0.02 likes … the man likes the woman 0.2 0.01 0.02 0.2 0.01 multiplicar P(s | M) = 0.00000008

Modelos de linguagem estocásticos Modela a probabilidade de gerar qualquer string Modelo M1 Modelo M2 0.2 the 0.0001 class 0.03 sayst 0.02 pleaseth 0.1 yon 0.01 maiden 0.0001 woman 0.2 the 0.01 class 0.0001 sayst 0.0001 pleaseth 0.0001 yon 0.0005 maiden 0.01 woman maiden class pleaseth yon the 0.0005 0.01 0.0001 0.2 0.02 0.1 P(s|M2) > P(s|M1)

Modelos de linguagem estocásticos Um modelo estatístico para geração de texto Distribuição da probabilidade sobre strings em uma dada linguagem M P ( | M ) = P ( | M ) P ( | M, ) P ( | M, ) P ( | M, )

Unigram e modelos de alta-ordem Modelos de Linguagem Unigram Modelos de Linguagem Bigram (geralmente, n-gram) Outros Modelos de Linguagem Modelos baseados em gramáticas (PCFGs), etc. Provavelmente não é a primeira coisa a se tentar em RI P ( ) = P ( ) P ( | ) P ( | ) P ( | ) Fácil. Efetivo! P ( ) P ( ) P ( ) P ( ) P ( ) P ( | ) P ( | ) P ( | )

Usando Modelos de Linguagem em RI Trata cada documento como a base para o modelo (ex.: estatísticas suficientes para Unigram) Ordena os documentos basedo em P(d | q) P(d | q) = P(q | d) x P(d) / P(q) P(q) é o mesmo para todos os documentos, ignore P(d) [o anterior] é frequentemente tratado como o mesmo para todo d Mas poderíamos usar critérios como autoria, tamanho, genero P(q | d) é a probabilidade de q dado um modelo de d’s Abordagem formal muito geral

Problema fundamental de LMs Normalmente não conhecemos o modelo M Mas temos um exemplar de texto representativo para esse modelo Estimar um modelo de linguagem do exemplar Então calcule a probabilidade observada P ( | M ( ) ) M

Modelos de Lingaguem para RI Abordagens de Modelagem de Linguagem Tenta modelar o processo de geração da consulta Documentos são ordenados pela probabilidade de que uma consulta possa ser vista como um exemplar aleatório do respectivo modelo de documento Abordagem Multinomial Em matemática, o teorema multinomial diz como escrever uma potência de uma soma em termos de potências dos termos desta soma. É a generalização do teorema binomial para polinômios.

Recuperação baseada em LM probabilístico Trata a geração de consultas como um processo aleatório. Abordagem Inferir uma modelo de linguagem para cada documento. Estimar a probabilidade de gerar a consulta de acordo com cada um desses modelos. Ordenar os documentos de acordo com essas probabilidades. Usualmente uma estimativa unigram de palavras é utilizada Algum trabalho com bigramas, em pararelo a van Rijsbergen

Recuperação baseada em LM probabilístico Intuição Usuários … Têm uma ideia razoável de termos que provavelmente ocorrem em documentos de interesse. Escolherão termos da consulta que distingue esses documentos de outros na coleção. Estatísticas da coleção … Partes do modelo de linguagem. Não são utilizadas heuristicamente como em muitas outras abordagens. Na teoria. Na prática, normalmente há espaço de manobra para conjuntos de parâmetros empíricos

Probabilidade da geração de consulta (1) Fórmula de Ordenação A probabilidade de produzir a consulta dado o modelo de linguagem do documento d usando MLE (estimativa de probabilidade máxima) é: Suposição Unigram : Dado um modelo de linguagem específico, os termos da consulta ocorrem independentemente : modelo de linguagem do documento d : tf puro do termo t no documento d : número total de tokens no documento d

Dados insuficientes Probabilidade zero Abordagem geral Pode não querer atribuir probabilidade zero a um documento que não contenha um ou mais termos da consulta [oferece conjunção semântica] Abordagem geral Um termo que não ocorre é possível, mas não mais do que o esperado ao acaso na coleção. If , : contagem pura do termo t na coleção : tamanho(número total de tokens na coleção) puro da coleção

Dados insuficientes Catástrofe da probabilidade zero Precisamos suavizar as probabilidades Descontar probabilidades não-zero Dar alguma probabilidade a coisas não vistas Há um grande espaço para abordagens de suavização de distribuição de probabilidades para lidar com esse problema, como adicionar 1, ½ ou  às contagens, anteriores Dirichlet, desconto, e interpolação [Veja FSNLP cap. 6 ou CS224N para saber mais] Uma ideia simples que funciona bem na prática é usar um misto entre a multinomial do documento e a distribuição multinomial da coleção

Modelo misto P(w|d) = Pmle(w|Md) + (1 – )Pmle(w|Mc) Mescla a probabilidade do documento com a frequência geral da palavra na coleção. Fixar  corretamente é muito importante Um valor alto de lambda torna a busca conjuntiva – adequada para consultas pequenas Um valor baixo é mais adequado a consultas longas Pode-se ajustar  para otimizar o desempenho Talvez fazê-lo dependente do tamanho do documento (cf. anterior de Dirichlet ou suavização Witten-Bell)

Resumo do modelo misto básico Formulação geral do LM para RI O usuário tem um documento em mente, e gera um consulta a partir deste documento. A equação representa a probabilidade de que o documento que o usuário tem em mente seja de fato este. modelo geral de linguagem modelo individual do documento

Exemplo Coleção de documentos (2 documentos) d1: Xerox divulga lucro mais faturamento está em queda d2: Lucent diminui perda no trimestre mas faturamento diminui mais Modelo: unigram MLE dos documentos;  = ½ Consulta: faturamento queda P(Q|d1) = [(1/8 + 2/16)/2] x [(1/8 + 1/16)/2] = 1/8 x 3/32 = 3/256 P(Q|d2) = [(1/8 + 2/16)/2] x [(0 + 1/16)/2] = 1/8 x 1/32 = 1/256 Ordem: d1 > d2

Experimentos de Ponte e Croft Dados TREC, tópicos 202-250 nos discos 2 e 3 do TREC Consulta em linguagem natural consistindo de uma sentença cada TREC, tópicos 51-100 no disco 3 do TREC usando campos conceito Lista de bons termos <num>Number: 054 <dom>Domain: International Economics <title>Topic: Satellite Launch Contracts <desc>Description: … </desc> <con>Concept(s): Contract, agreement Launch vehicle, rocket, payload, satellite Launch services, … </con>

Precisão/recall resultados 202-250

Precisão/recall resultados 51-100

LM vs. Modelo Prob. para IR Principal diferença é se “Relevancia” figura explicitamente no modelo ou não Abordagem LM tenta acabar com modelo de relevância Abordagem LM presume que documentos e expressões de problemas de informação são do mesmo tipo Tratável computacionalmente, intuitivamente atraente

LM vs. Modelo Prob. para IR Problemas da abordagem LM básica Suposição de equivalencia entre documento e informação e representação do problema de informação não é realista Modelos de linguagem muito simples É difícil integrar Feedback de relevância, assim como preferências do usuário, e outros assuntos de interesse geral Não incorpora facilmente frases, passagens e operadores booleanos Extensões atuais enfocam trazer de volta a relevância no modelo, etc.

Extensão: modelo de 3 níveis Modelo completo da coleção ( ) Modelo de tópico específico; modelo de documentos relevantes ( ) Modelo de documento individual ( ) Hipótese de Relevância Uma requisição(consulta; tópico) é gerada de um modelo de tópico específico { , }. Se, e somente se, um documento é relevante para o tópico, o mesmo modelo se aplica ao documento. Substituirá parte do modelo de documento individual na explicação do documento. A probabilidade de relevância de um documento A probabilidade que esse modelo explique parte do documento A probabilidade de que a combinação { , , } seja melhor que a combinação { , }

Necessidade de Informação Modelo de 3 níveis Necessidade de Informação d1 d2 geração consulta … … … dn coleção de documentos

Modelos Alternativos de Geração de Texto Modelo de consulta Buscardor Consulta É o mesmo modelo? Modelo de documento Escritor Documento

Recuperação usando Modelos de Linguagem Modelo de Consulta Consulta 1 3 Modelo de Documento 2 Doc Recuperação: Probabilidade da Consulta (1), Probabilidade do Documento (2), Comparação do Modelo (3)

Probabilidade da Consulta P(Q|Dm) O maior problema é estimar o modelo do documento i.e. técnicas de suavização ao invés de pesos tf.idf Bons resultados de recuperação ex.: UMass, BBN, Twente, CMU Problemas ao lidar com feedback de relevância, expansão de consulta e consultas estruturadas

Probabilidade do Documento Ordena pela razão das probabilidades P(D|R)/P(D|NR) Trata como problema de geração P(w|R) é estimado de P(w|Qm) Qm é a consulta ou modelo de relevância P(w|NR) é estimado pelas probabilidades da coleção P(w) Problema é a estimativa do modelo de consulta Trata a consulta como gerada por um misto de tópico e conhecimento prévio Estimar modelo de relevância dos documentos relacionados (expansão da consulta) Feedback de relevância é facilmente incorporado Bons resultados de recuperação ex.: UMass no SIGIR 01 Inconsistente com coleções de documentos heterogêneos

Comparação dos Modelos Estimar os modelos da consulta e do documento e comparar Medida adequada é divergência KL D(Qm||Dm) equivalente à abordagem de probabilidade da consulta se distribuição empírica simples for utilizada como modelo de consulta Framework mais geral de minimização de riscos foi proposto Zhai e Lafferty 2001 Resultados melhores que as abordagens de probabilidade da consulta ou probabilidade do documento Divergência Kullback-Leiver: É uma medida de divergência assimétrica originada na teoria da informação, que mede quão ruim é a distribuição de probabilidade Mq é na modelagem de Md KL mede o número esperado de bits extra necessário para codificar amostras de P quando se utiliza um código baseado em Q, ao invés de usar um código baseado em P. Normalmente P representa a distribuição "verdadeira" de dados, observações, ou um cálculo preciso da distribuição teórica . A medida Q representa tipicamente uma teoria, modelo, descrição, ou a aproximação de P.

Suavização em dois estágios: Outro motivo para suavização Consulta = “the algorithms for data mining” d1: 0.04 0.001 0.02 0.002 0.003 d2: 0.02 0.001 0.01 0.003 0.004 p( “algorithms”|d1) = p(“algorithm”|d2) p( “data”|d1) < p(“data”|d2) p( “mining”|d1) < p(“mining”|d2) Mas p(q|d1)>p(q|d2)! Devemos tornar p(“the”) e p(“for”) menos diferentes para todos os documentos.

Suavização em dois estágios +p(w|C) + 1º estágio -Explica palavras não vistas -Anterior Dirichlet (Bayesian)  (1-) + p(w|U) 2º estágio -Explica ruído na consulta -Misto de dois componentes  c(w,d) |d| P(w|d) =

Como utilizar feedback de relevância utilizando abordagem de modelo de linguagem? Introduz um modelo de consulta & trata feedback como atualização do modelo de consulta Função de recuperação: Probabilidade da consulta => Divergência KL Feedback: Baseado em expansão => Baseado no Modelo

Basedo em Expansão vs. Modelo Modelo Doc Pontuação Documento D Resultados Probabilidade da Consulta Consulta Q Feedback Baseado em Expansão modifica Docs Feedback Modelo Doc Documento D Pontuação Modelo de Consulta Resultados Divergência KL Consulta Q modifica Feedback baseado em Modelo Docs Feedback

Feedback como Interpolação de Modelo Documento D Resultados Consulta Q Docs Feedback F={d1, d2 , …, dn} =0 Sem feedback =1 Feedback completo Modelo gerativo

Modelo de Tradução (Berger e Lafferty) LMs básicos não resolvem o problema de sinônimos. Ou qualquer desvio na expressão da necessidade de informação da linguagem dos documentos Um modelo de tradução permite que você gere palavras de consulta que não estão no documento via “tradução” para sinônimos etc. Ou para RI em linguagem cruzada, ou RI multimídia LM Básico Tradução É preciso aprender um modelo de tradução (usando dicionário ou via tradução estatística de máquina)

Modelos de linguagem: pro & con Nova forma de olhar o problema de recuperação de texto com base em modelos probabilíticos de linguagem Conceitualmente simples e explicativo Modelo matemático formal Uso natural de estatísticas de coleção, não heurística (quase…) LMs provêem recuperação efetiva e podem ser melhorados desde que as seguintes condições sejam satisfeitas Nossos modelos de linguagem são precisas representações dos dados. Usuários têm alguma noção sobre a distribuição dos termos.* *Ou nos sofisticamos com modelo de tradução

Comparação com o Espaço Vetorial Há alguma relação aos modelos tradicionais tf.idf: frequência do termo (sem escala) está diretamente no modelo as probabilidades fazem a normalização do comprimento da frequência do termo o efeito de mesclar com uma coleção global de frequências é similar ao idf: termos raros em uma coleção geral mas comuns em alguns documentos terão maior influência na ordenação

Comparação com Espaço Vetorial Similar em algum sentido Peso de termo baseado na frequência Termos usados frequentemente como independentes Utilizada frequência inversa documento/coleção Alguma forma de normalização útil do comprimento Diferente em outros Baseado na probabilidade ao invés da similaridade Intuições são probabilísticas ao invés de geométricas Detalhes da utilização do comprimento do documento e frequência de termo, documento, e coleção diferem

Resources J.M. Ponte and W.B. Croft. 1998. A language modelling approach to information retrieval. In SIGIR 21. D. Hiemstra. 1998. A linguistically motivated probabilistic model of information retrieval. ECDL 2, pp. 569–584. A. Berger and J. Lafferty. 1999. Information retrieval as statistical translation. SIGIR 22, pp. 222–229. D.R.H. Miller, T. Leek, and R.M. Schwartz. 1999. A hidden Markov model information retrieval system. SIGIR 22, pp. 214–221. [Several relevant newer papers at SIGIR 23–25, 2000–2002.] Workshop on Language Modeling and Information Retrieval, CMU 2001. http://la.lti.cs.cmu.edu/callan/Workshops/lmir01/ . The Lemur Toolkit for Language Modeling and Information Retrieval. http://www-2.cs.cmu.edu/~lemur/ . CMU/Umass LM and IR system in C(++), currently actively developed.