A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA.

Apresentações semelhantes


Apresentação em tema: "Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA."— Transcrição da apresentação:

1 Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA

2 Rudini Sampaio DCC-UFLA Bibliografia  Ricardo Baeza Yates, Berthier Ribeiro Neto, Modern Information Retrieval, Addison Wesley, 1999  Roberto Fung, Brendan Del Favero, Applying Bayesian Networks to Information Retrieval, Communications of the ACM, Vol.38, N.3, 1995

3 Rudini Sampaio DCC-UFLA Notação  index terms K={k 1,…,k i,…k t }  query q  K  N: número de documentos d j  n i : número de documentos com k i  term frequency: f i,j  Ocorrencias de k i em d j (normalizado)  inverse document frequency: idf i  Termos muito usados não são muito úteis para distinguir documentos  term weighting: w i,j 

4 Rudini Sampaio DCC-UFLA Modelo Probabilístico  Dada uma query q e um documento d j da coleção, o modelo probabilístico tenta estimar a probabilidade do usuário achar o documento d j interessante (isto é, relevante).  Como calcular esta probabilidade?  Redes Bayesianas  Variáveis binarias para documentos, termos e queries  Modelagem  Inference Network Model  Belief Network Model

5 Rudini Sampaio DCC-UFLA Inference Network Model  Nesse modelo, se um documento d j está sendo procurado, então ele “ativa” seus index terms.  Termos “ativados” satisfazem queries que os contém.  Uma rede bayesiana para cada documento d j  Adiciona evidência à querie e calcula probabilidade a posteriori de d j

6 Rudini Sampaio DCC-UFLA Inference Network Model Tabelas de Probabilidade  Boolean Model:  tf-idf Ranking Strategies: (Noisy OR)

7 Rudini Sampaio DCC-UFLA Belief Network Model  Esse modelo é mais formalizado, adotando como espaço de probabilidades o conjunto K={k 1,…,k i,…k t } de termos  Os documentos e as queries são modeladas igualmente como subconjuntos de K  Se um termo está sendo procurado, ele traz relevância para os documentos que o contém  Uma rede bayesiana para todos os documentos  Adiciona evidência à querie q e calcula probabilidade a posteriori de cada documento

8 Rudini Sampaio DCC-UFLA Belief Network Model Tabelas de Probabilidade  Vector Model: (Noisy OR)

9 Rudini Sampaio DCC-UFLA Comparação  Inference network model é mais intuitivo e é usado pelo Inquery System  Belief network model é mais formal do ponto de vista teórico e generaliza o primeiro  “Belief network model is able to reproduce any rating strategy generated by the inference network model, while the converse is not true”

10 Rudini Sampaio DCC-UFLA Robert Fung and Brendan Del Favero  Tópicos de Interesse:  Guerras, Guerra do Iraque, Petróleo, Petrobrás, Hugo Chavez, PT  Index terms  Termos de cada documento  Rede bayesiana  Construída a partir da querie  Análise feita para cada documento  Variável t j : indica relevância do documento com o tópico t j  Variável k i : evidência a partir dos termos do documento

11 Rudini Sampaio DCC-UFLA Robert Fung and Brendan Del Favero  Tópicos relacionados  Guerras, Guerra do Iraque  Tabelas de Probabilidades  P(k i | t j ) = n i,j / n j (noisy OR)  n j : número de documentos relevantes para o tópico t j  n i,j : número de documentos relevantes para o tópico t j e que contém o termo k i  Ranking:  Evidências em k i segundo os termos do documento  Probabilidade a posteriori em t j  Relevância do documento no tópico t j


Carregar ppt "Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA."

Apresentações semelhantes


Anúncios Google