A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Modelo Probabilístico Eveline Alonso Veloso PUC-MINAS.

Apresentações semelhantes


Apresentação em tema: "Modelo Probabilístico Eveline Alonso Veloso PUC-MINAS."— Transcrição da apresentação:

1 Modelo Probabilístico Eveline Alonso Veloso PUC-MINAS

2 Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 2.

3 Modelo Probabilístico Modelo baseado em teoria de probabilidades. Alguns experimentos realizados pela comunidade científica indicam que este modelo apresenta melhor desempenho; do que o modelo vetorial. Outros experimentos indicam que o modelo vetorial apresenta desempenho um pouco melhor; para coleções gerais. Portanto, ainda não há um consenso na comunidade científica.

4 Idéia Original Dada uma consulta especificada por um usuário, há um conjunto de resposta ideal; um conjunto de documentos que contém exatamente todos os documentos relevantes para essa consulta; e nenhum outro. conjunto.

5 Idéia Original De forma semelhante: conjunto : conjunto de documentos que contém exatamente todos os documentos não-relevantes para essa consulta; e nenhum outro.

6 Idéia Original Dada a especificação completa de todas as propriedades desse conjunto de resposta ideal; não teríamos nenhum problema em recuperar seus documentos. Mas, quais são essas propriedades? Não sabemos exatamente... porém, a semântica dos termos de indexação indicados na consulta do usuário; podem ser utilizados para auxiliar a caracterizar essas propriedades.

7 Idéia Original Suponha inicialmente quais poderiam ser essas propriedades; isto nos dá a descrição probabilística inicial do conjunto de resposta ideal. Essa descrição inicial é utilizada para recuperar um primeiro conjunto de documentos. d 2 d 10 d 7 d 3 d 11 d 5

8 Idéia Original Inicia-se então uma série de interações com o usuário; com o objetivo de melhorar a descrição do conjunto de resposta ideal. O usuário inspeciona os primeiros documentos da lista de documentos recuperados; procurando os realmente relevantes; e indica para o sistema de recuperação de informação quais são os documentos relevantes; e quais não são.

9 Idéia Original O sistema de recuperação de informação utiliza essa informação; para refinar a descrição do conjunto de resposta ideal. d 2 d 10 d 7 d 3 d 11 d 5 d 2 d 3 d 7 d 11 d 10 d 5 relevante não-relevante relevante

10 Idéia Original Através da repetição desse processo por muitas vezes; espera-se que a descrição do conjunto de resposta ideal melhore; e aproxime-se suficientemente da real descrição do conjunto de resposta ideal.

11 Termos de Indexação Os pesos dos termos de indexação assumem valores binários: w ti,dj = peso do termo t i para o documento d j. w ti,dj = 1; caso o termo t i apareça no documento d j. w ti,dj = 0; caso o termo t i não aparece no documento d j.

12 Dada uma consulta q i, especificada pelo usuário, e um documento d j ; o modelo probabilístico estima a probabilidade do usuário considerar o documento d j relevante. O modelo assume que essa probabilidade de relevância só depende; das representações da consulta q i e do documento d j. Princípio Probabilístico

13 Função de Ranking Onde: : probabilidade do documento d j ser relevante para a consulta q i. : probabilidade do documento d j não ser relevante para a consulta q i.

14 Função de Ranking : probabilidade do termo t i estar presente em um documento aleatoriamente selecionado do conjunto.

15 Ordenação Inicial dos Documentos Não conhecemos, no início, o conjunto R. Por isso, é necessário estimar inicialmente as probabilidades: e Há várias possibilidades.

16 Ordenação Inicial dos Documentos Utilizaremos: : constante para todos os termos de indexação t i. = 0,5. : a distribuição dos termos de indexação entre os documentos não-relevantes; aproxima-se da distribuição dos termos de indexação entre todos os documentos da coleção. = ; onde: n i = número de documentos onde t i aparece; N = número total de documentos da coleção.

17 Ordenação Inicial dos Documentos Os documentos da coleção que apresentam pelo menos um dos termos especificados na consulta q i são selecionados. Pode-se utilizar outro critério para selecionar os documentos. Para cada documento selecionado; sua similaridade com o consulta q i é calculada; utilizando-se as estimativas iniciais de e Os documentos selecionados são ordenados; em ordem decrescente de similaridade com a consulta q i.

18 Melhorando a Ordenação Inicial dos Documentos Seja V: subconjunto dos documentos inicialmente recuperados; formado pelos r documentos melhor ranqueados. V i : subconjunto dos documentos de V; que contêm o termo de indexação t i.

19 Melhorando a Ordenação Inicial dos Documentos Para melhorar a ordenação probabilística dos documentos; precisamos melhorar as estimativas. Estimativas reavaliadas:

20 Melhorando a Ordenação Inicial dos Documentos Para cada documento anteriormente selecionado; sua similaridade com a consulta q i é recalculada; utilizando-se as estimativas reavaliadas de e Os documentos selecionados são reordenados; em ordem decrescente de similaridade com a consulta q i. Esse procedimento é repetido; até que a ordenação dos documentos selecionados não se modifique após duas iterações sucessivas.

21 Melhorando a Ordenação Inicial dos Documentos A ordenação dos documentos melhora; sem a intervenção humana; ao contrário da idéia original do modelo probabilístico, portanto. Há a possibilidade também do usuário participar da indicação do conjunto V.

22 Vantagens Ordena os documentos; em ordem decrescente de sua probabilidade de relevância. Considera casamentos parciais; entre documentos e consultas.

23 Desvantagens É necessário supor as estimativas iniciais de e. Não considera as freqüências dos termos nos documentos; utiliza pesos binários. Considera que os termos de indexação são independentes.

24 Exercício 1 – Coleção Considere uma coleção composta pelos seguintes documentos: d 1 : recuperação de informação. d 2 : sistemas de informação. d 3 : PUC-Minas. d 4 : PUC-Minas cursos sistemas de informação. d 5 : PUC-Minas sistemas de computação. d 6 : PUC-Minas cursos jogos digitais.

25 Exercício 1 – Consulta Construa o arquivo invertido correspondente a essa coleção e responda a seguinte consulta utilizando o modelo probabilístico: q: Sistemas de informação.

26 Exercício 2 – Coleção Considere uma coleção composta pelos seguintes documentos: d 1 : Eleição. Eleitor. d 2 : domicílio eleitoral. d 3 : Zona eleitoral. VOTO. d 4 : Título de eleitor. d 5 : Domicílio eleitoral. Zona eleitoral. d 6 : Domicílio eleitoral. ELEIÇÃO. d 7 : direito de votar. Domicílio eleitoral.

27 Exercício 2 – Operações sobre o Texto Considere também que apenas as seguintes operações foram realizadas sobre o texto de seus documentos: conversão de todos os caracteres para minúsculo; eliminação de marcas de pontuação; eliminação da stopword de.

28 Exercício 2 – Consulta Construa o arquivo invertido correspondente a essa coleção. Considere que o seguinte conjunto corresponde ao ranqueamento inicial dos documentos dessa coleção para a consulta q = domicílio eleitoral, processada através do modelo probabilístico: {d 3, d 2, d 5, d 6, d 7 } Indique o resultado obtido após o 1º refinamento desse conjunto-resposta.


Carregar ppt "Modelo Probabilístico Eveline Alonso Veloso PUC-MINAS."

Apresentações semelhantes


Anúncios Google