Modelo Probabilístico

Slides:



Advertisements
Apresentações semelhantes
Medidas de Avaliação de Sistemas de Recuperação de Informação
Advertisements

Modelo de Redes de Crenças
Operações sobre o Texto
Tutorial de Pesquisa Básica de Bibliotecas Acadêmicas
Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.
DISTRIBUIÇÕES AMOSTRAIS
Operações sobre as Consultas
Métodos Iterativos.
Prof. André Laurindo Maitelli DCA-UFRN
Indexação Automática de Documentos
Diagrama Entidade-Relacionamento – DER
Especificação de Consultas
Propriedades de Documentos
Recuperação de Imagens
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Eveline Alonso Veloso PUC-MINAS
Conceitos Gerais relacionados a Recuperação de Informação
ESTIMAÇÃO.
Mineração de Dados Avaliação de Classificadores
GRASP Greedy Randomized Adaptative Search Procedure
Estatística Básica Utilizando o Excel
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Estrutura de indexação Modelos de RI
SISTEMAS LINEARES II Prof. Marlon.
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Estruturas de Dados e Complexidade de Algoritmos
Buscas em Grafos Prof. André Renato 1º Semestre/2012
Prof. Natalia Castro Fernandes Mestrado em Telecomunicações – UFF 2º semestre/2012.
Prolog Programação Lógica Ícaro A. Souza.
Inteligência Artificial
Introdução a Computação e Cálculo Numérico
Paradigma de Divisão e Conquista
Prof. Natalia Castro Fernandes Engenharia de Telecomunicações – UFF 2º semestre/2012.
Laís Araújo Lopes de Souza
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
Estatística e Probabilidade
Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www
Aula 08 Medidas de posição - Prof. Diovani Milhorim
Construção Tabela-verdade
Mineração da Web Recuperação de Informação
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Mineração da Web Recuperação de Informação
Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA.
Amintas engenharia.
Recuperação de Informação
UML Diagrama de classes.
Classificacao de Texto Projeto Spam Filter
QUALIS DE LIVROS TRIÊNIO Fundação CAPES Coordenação da Área de Psicologia Emmanuel Zagury Tourinho Antônio Virgílio Bittencourt Bastos.
Pontifícia Universidade Católica de Goiás Departamento de Engenharia Curso de Graduação em Engenharia de Produção ENG 1004 – Linguagem de Programação para.
Estatística Geral (Elementos de Probabilidade)
INE Fundamentos de Matemática Discreta para a Computação
Recuperação Inteligente de Informação
Modelos Teóricos Discretos de Probabilidade
Fundamentos de linguagens de programação
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Uma Proposta de Melhoria no Processo de Recuperação de Imagens com Base na Distribuição de Características de Baixo Nível em seus Segmentos Utilizando.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Modelos Teóricos Contínuos de Probabilidade
Sistemas de Arquivos Sistemas Operacionais Profa. Priscila Facciolli
INFERÊNCIA ESTATÍSTICA PROPORÇÃO POPULACIONAL p
Considerações Gerais que Influenciam a Seleção Acadêmicos: Adriano Araújo e Michelle Christina Professora: Ana Paula Soares.
Solução Numérica de Equações
Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum.
Aula 1. Introdução à Inferência Estatística
Questionário (Básico) Autor: Skyup Informática. Atividade - Questionário O módulo permite criar uma série de questões, que deverão ser respondida pelos.
Transcrição da apresentação:

Modelo Probabilístico Eveline Alonso Veloso PUC-MINAS

Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 2.

Modelo Probabilístico Modelo baseado em teoria de probabilidades. Alguns experimentos realizados pela comunidade científica indicam que este modelo apresenta melhor desempenho; do que o modelo vetorial. Outros experimentos indicam que o modelo vetorial apresenta desempenho um pouco melhor; para coleções gerais. Portanto, ainda não há um consenso na comunidade científica.

Idéia Original Dada uma consulta especificada por um usuário, há um conjunto de resposta ideal; um conjunto de documentos que contém exatamente todos os documentos relevantes para essa consulta; e nenhum outro. conjunto .

Idéia Original De forma semelhante: conjunto : conjunto de documentos que contém exatamente todos os documentos não-relevantes para essa consulta; e nenhum outro.

Idéia Original Dada a especificação completa de todas as propriedades desse conjunto de resposta ideal; não teríamos nenhum problema em recuperar seus documentos. Mas, quais são essas propriedades? Não sabemos exatamente... porém, a semântica dos termos de indexação indicados na consulta do usuário; podem ser utilizados para auxiliar a caracterizar essas propriedades.

Idéia Original Suponha inicialmente quais poderiam ser essas propriedades; isto nos dá a descrição probabilística inicial do conjunto de resposta ideal. Essa descrição inicial é utilizada para recuperar um primeiro conjunto de documentos. d2 d10 d7 d3 d11 d5

Idéia Original Inicia-se então uma série de interações com o usuário; com o objetivo de melhorar a descrição do conjunto de resposta ideal. O usuário inspeciona os primeiros documentos da lista de documentos recuperados; procurando os realmente relevantes; e indica para o sistema de recuperação de informação quais são os documentos relevantes; e quais não são.

Idéia Original O sistema de recuperação de informação utiliza essa informação; para refinar a descrição do conjunto de resposta ideal. d2 d3 d7 d11 d10 d5 d2 d10 d7 d3 d11 d5 relevante não-relevante relevante

Idéia Original Através da repetição desse processo por muitas vezes; espera-se que a descrição do conjunto de resposta ideal melhore; e aproxime-se suficientemente da real descrição do conjunto de resposta ideal.

Termos de Indexação Os pesos dos termos de indexação assumem valores binários: wti,dj = peso do termo ti para o documento dj. wti,dj = 1; caso o termo ti apareça no documento dj. wti,dj = 0; caso o termo ti não aparece no documento dj.

Princípio Probabilístico Dada uma consulta qi, especificada pelo usuário, e um documento dj; o modelo probabilístico estima a probabilidade do usuário considerar o documento dj relevante. O modelo assume que essa probabilidade de relevância só depende; das representações da consulta qi e do documento dj.

Função de Ranking Onde: : probabilidade do documento dj ser relevante para a consulta qi. : probabilidade do documento dj não ser relevante para a consulta qi.

Função de Ranking : probabilidade do termo ti estar presente em um documento aleatoriamente selecionado do conjunto .

Ordenação Inicial dos Documentos Não conhecemos, no início, o conjunto R. Por isso, é necessário estimar inicialmente as probabilidades: e Há várias possibilidades.

Ordenação Inicial dos Documentos Utilizaremos: : constante para todos os termos de indexação ti. = 0,5. a distribuição dos termos de indexação entre os documentos não-relevantes; aproxima-se da distribuição dos termos de indexação entre todos os documentos da coleção. = ; onde: ni = número de documentos onde ti aparece; N = número total de documentos da coleção.

Ordenação Inicial dos Documentos Os documentos da coleção que apresentam pelo menos um dos termos especificados na consulta qi são selecionados. Pode-se utilizar outro critério para selecionar os documentos. Para cada documento selecionado; sua similaridade com o consulta qi é calculada; utilizando-se as estimativas iniciais de e Os documentos selecionados são ordenados; em ordem decrescente de similaridade com a consulta qi.

Melhorando a Ordenação Inicial dos Documentos Seja V: subconjunto dos documentos inicialmente recuperados; formado pelos r documentos melhor ranqueados. Vi: subconjunto dos documentos de V; que contêm o termo de indexação ti.

Melhorando a Ordenação Inicial dos Documentos Para melhorar a ordenação probabilística dos documentos; precisamos melhorar as estimativas. Estimativas reavaliadas:

Melhorando a Ordenação Inicial dos Documentos Para cada documento anteriormente selecionado; sua similaridade com a consulta qi é recalculada; utilizando-se as estimativas reavaliadas de e Os documentos selecionados são reordenados; em ordem decrescente de similaridade com a consulta qi. Esse procedimento é repetido; até que a ordenação dos documentos selecionados não se modifique após duas iterações sucessivas.

Melhorando a Ordenação Inicial dos Documentos A ordenação dos documentos melhora; sem a intervenção humana; ao contrário da idéia original do modelo probabilístico, portanto. Há a possibilidade também do usuário participar da indicação do conjunto V.

Vantagens Ordena os documentos; Considera casamentos parciais; em ordem decrescente de sua probabilidade de relevância. Considera casamentos parciais; entre documentos e consultas.

Desvantagens É necessário supor as estimativas iniciais de e . Não considera as freqüências dos termos nos documentos; utiliza pesos binários. Considera que os termos de indexação são independentes.

Exercício 1 – Coleção Considere uma coleção composta pelos seguintes documentos: d1: recuperação de informação. d2: sistemas de informação. d3: PUC-Minas. d4: PUC-Minas cursos sistemas de informação. d5: PUC-Minas sistemas de computação. d6: PUC-Minas cursos jogos digitais.

Exercício 1 – Consulta Construa o arquivo invertido correspondente a essa coleção e responda a seguinte consulta utilizando o modelo probabilístico: q: Sistemas de informação.

Exercício 2 – Coleção Considere uma coleção composta pelos seguintes documentos: d1: Eleição. Eleitor. d2: domicílio eleitoral. d3: Zona eleitoral. VOTO. d4: Título de eleitor. d5: Domicílio eleitoral. Zona eleitoral. d6: Domicílio eleitoral. ELEIÇÃO. d7: direito de votar. Domicílio eleitoral.

Exercício 2 – Operações sobre o Texto Considere também que apenas as seguintes operações foram realizadas sobre o texto de seus documentos: conversão de todos os caracteres para minúsculo; eliminação de marcas de pontuação; eliminação da stopword de.

Exercício 2 – Consulta Construa o arquivo invertido correspondente a essa coleção. Considere que o seguinte conjunto corresponde ao ranqueamento inicial dos documentos dessa coleção para a consulta q = domicílio eleitoral, processada através do modelo probabilístico: {d3, d2, d5, d6, d7} Indique o resultado obtido após o 1º refinamento desse conjunto-resposta.