Modelo Probabilístico

Slides:

Advertisements

Apresentações semelhantes

Medidas de Avaliação de Sistemas de Recuperação de Informação

Advertisements

Modelo de Redes de Crenças

Operações sobre o Texto

Tutorial de Pesquisa Básica de Bibliotecas Acadêmicas

Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.

DISTRIBUIÇÕES AMOSTRAIS

Operações sobre as Consultas

Métodos Iterativos.

Prof. André Laurindo Maitelli DCA-UFRN

Indexação Automática de Documentos

Diagrama Entidade-Relacionamento – DER

Especificação de Consultas

Propriedades de Documentos

Recuperação de Imagens

Modelos de Recuperação de Informação

Eveline Alonso Veloso PUC-MINAS

Eveline Alonso Veloso PUC-MINAS

Conceitos Gerais relacionados a Recuperação de Informação

Mineração de Dados Avaliação de Classificadores

GRASP Greedy Randomized Adaptative Search Procedure

Estatística Básica Utilizando o Excel

Medida do Tempo de Execução de um Programa

Medida do Tempo de Execução de um Programa

Estrutura de indexação Modelos de RI

SISTEMAS LINEARES II Prof. Marlon.

UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.

Estruturas de Dados e Complexidade de Algoritmos

Buscas em Grafos Prof. André Renato 1º Semestre/2012

Prof. Natalia Castro Fernandes Mestrado em Telecomunicações – UFF 2º semestre/2012.

Prolog Programação Lógica Ícaro A. Souza.

Inteligência Artificial

Introdução a Computação e Cálculo Numérico

Paradigma de Divisão e Conquista

Prof. Natalia Castro Fernandes Engenharia de Telecomunicações – UFF 2º semestre/2012.

Laís Araújo Lopes de Souza

Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Estatística e Probabilidade

Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www

Aula 08 Medidas de posição - Prof. Diovani Milhorim

Construção Tabela-verdade

Mineração da Web Recuperação de Informação

Mineração da Web Recuperação de Informação

Mineração na Web Introdução a Recuperação de Informação

Recuperação de Informação Clássica

Mineração da Web Recuperação de Informação

Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA.

Amintas engenharia.

Recuperação de Informação

UML Diagrama de classes.

Classificacao de Texto Projeto Spam Filter

QUALIS DE LIVROS TRIÊNIO Fundação CAPES Coordenação da Área de Psicologia Emmanuel Zagury Tourinho Antônio Virgílio Bittencourt Bastos.

Pontifícia Universidade Católica de Goiás Departamento de Engenharia Curso de Graduação em Engenharia de Produção ENG 1004 – Linguagem de Programação para.

Estatística Geral (Elementos de Probabilidade)

INE Fundamentos de Matemática Discreta para a Computação

Recuperação Inteligente de Informação

Modelos Teóricos Discretos de Probabilidade

Fundamentos de linguagens de programação

CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.

Uma Proposta de Melhoria no Processo de Recuperação de Imagens com Base na Distribuição de Características de Baixo Nível em seus Segmentos Utilizando.

CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.

Modelos Teóricos Contínuos de Probabilidade

Sistemas de Arquivos Sistemas Operacionais Profa. Priscila Facciolli

INFERÊNCIA ESTATÍSTICA PROPORÇÃO POPULACIONAL p

Considerações Gerais que Influenciam a Seleção Acadêmicos: Adriano Araújo e Michelle Christina Professora: Ana Paula Soares.

Solução Numérica de Equações

Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum.

Aula 1. Introdução à Inferência Estatística

Questionário (Básico) Autor: Skyup Informática. Atividade - Questionário O módulo permite criar uma série de questões, que deverão ser respondida pelos.

Transcrição da apresentação:

Modelo Probabilístico Eveline Alonso Veloso PUC-MINAS

Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 2.

Modelo Probabilístico Modelo baseado em teoria de probabilidades. Alguns experimentos realizados pela comunidade científica indicam que este modelo apresenta melhor desempenho; do que o modelo vetorial. Outros experimentos indicam que o modelo vetorial apresenta desempenho um pouco melhor; para coleções gerais. Portanto, ainda não há um consenso na comunidade científica.

Idéia Original Dada uma consulta especificada por um usuário, há um conjunto de resposta ideal; um conjunto de documentos que contém exatamente todos os documentos relevantes para essa consulta; e nenhum outro. conjunto .

Idéia Original De forma semelhante: conjunto : conjunto de documentos que contém exatamente todos os documentos não-relevantes para essa consulta; e nenhum outro.

Idéia Original Dada a especificação completa de todas as propriedades desse conjunto de resposta ideal; não teríamos nenhum problema em recuperar seus documentos. Mas, quais são essas propriedades? Não sabemos exatamente... porém, a semântica dos termos de indexação indicados na consulta do usuário; podem ser utilizados para auxiliar a caracterizar essas propriedades.

Idéia Original Suponha inicialmente quais poderiam ser essas propriedades; isto nos dá a descrição probabilística inicial do conjunto de resposta ideal. Essa descrição inicial é utilizada para recuperar um primeiro conjunto de documentos. d2 d10 d7 d3 d11 d5

Idéia Original Inicia-se então uma série de interações com o usuário; com o objetivo de melhorar a descrição do conjunto de resposta ideal. O usuário inspeciona os primeiros documentos da lista de documentos recuperados; procurando os realmente relevantes; e indica para o sistema de recuperação de informação quais são os documentos relevantes; e quais não são.

Idéia Original O sistema de recuperação de informação utiliza essa informação; para refinar a descrição do conjunto de resposta ideal. d2 d3 d7 d11 d10 d5 d2 d10 d7 d3 d11 d5 relevante não-relevante relevante

Idéia Original Através da repetição desse processo por muitas vezes; espera-se que a descrição do conjunto de resposta ideal melhore; e aproxime-se suficientemente da real descrição do conjunto de resposta ideal.

Termos de Indexação Os pesos dos termos de indexação assumem valores binários: wti,dj = peso do termo ti para o documento dj. wti,dj = 1; caso o termo ti apareça no documento dj. wti,dj = 0; caso o termo ti não aparece no documento dj.

Princípio Probabilístico Dada uma consulta qi, especificada pelo usuário, e um documento dj; o modelo probabilístico estima a probabilidade do usuário considerar o documento dj relevante. O modelo assume que essa probabilidade de relevância só depende; das representações da consulta qi e do documento dj.

Função de Ranking Onde: : probabilidade do documento dj ser relevante para a consulta qi. : probabilidade do documento dj não ser relevante para a consulta qi.

Função de Ranking : probabilidade do termo ti estar presente em um documento aleatoriamente selecionado do conjunto .

Ordenação Inicial dos Documentos Não conhecemos, no início, o conjunto R. Por isso, é necessário estimar inicialmente as probabilidades: e Há várias possibilidades.

Ordenação Inicial dos Documentos Utilizaremos: : constante para todos os termos de indexação ti. = 0,5. a distribuição dos termos de indexação entre os documentos não-relevantes; aproxima-se da distribuição dos termos de indexação entre todos os documentos da coleção. = ; onde: ni = número de documentos onde ti aparece; N = número total de documentos da coleção.

Ordenação Inicial dos Documentos Os documentos da coleção que apresentam pelo menos um dos termos especificados na consulta qi são selecionados. Pode-se utilizar outro critério para selecionar os documentos. Para cada documento selecionado; sua similaridade com o consulta qi é calculada; utilizando-se as estimativas iniciais de e Os documentos selecionados são ordenados; em ordem decrescente de similaridade com a consulta qi.

Melhorando a Ordenação Inicial dos Documentos Seja V: subconjunto dos documentos inicialmente recuperados; formado pelos r documentos melhor ranqueados. Vi: subconjunto dos documentos de V; que contêm o termo de indexação ti.

Melhorando a Ordenação Inicial dos Documentos Para melhorar a ordenação probabilística dos documentos; precisamos melhorar as estimativas. Estimativas reavaliadas:

Melhorando a Ordenação Inicial dos Documentos Para cada documento anteriormente selecionado; sua similaridade com a consulta qi é recalculada; utilizando-se as estimativas reavaliadas de e Os documentos selecionados são reordenados; em ordem decrescente de similaridade com a consulta qi. Esse procedimento é repetido; até que a ordenação dos documentos selecionados não se modifique após duas iterações sucessivas.

Melhorando a Ordenação Inicial dos Documentos A ordenação dos documentos melhora; sem a intervenção humana; ao contrário da idéia original do modelo probabilístico, portanto. Há a possibilidade também do usuário participar da indicação do conjunto V.

Vantagens Ordena os documentos; Considera casamentos parciais; em ordem decrescente de sua probabilidade de relevância. Considera casamentos parciais; entre documentos e consultas.

Desvantagens É necessário supor as estimativas iniciais de e . Não considera as freqüências dos termos nos documentos; utiliza pesos binários. Considera que os termos de indexação são independentes.

Exercício 1 – Coleção Considere uma coleção composta pelos seguintes documentos: d1: recuperação de informação. d2: sistemas de informação. d3: PUC-Minas. d4: PUC-Minas cursos sistemas de informação. d5: PUC-Minas sistemas de computação. d6: PUC-Minas cursos jogos digitais.

Exercício 1 – Consulta Construa o arquivo invertido correspondente a essa coleção e responda a seguinte consulta utilizando o modelo probabilístico: q: Sistemas de informação.

Exercício 2 – Coleção Considere uma coleção composta pelos seguintes documentos: d1: Eleição. Eleitor. d2: domicílio eleitoral. d3: Zona eleitoral. VOTO. d4: Título de eleitor. d5: Domicílio eleitoral. Zona eleitoral. d6: Domicílio eleitoral. ELEIÇÃO. d7: direito de votar. Domicílio eleitoral.

Exercício 2 – Operações sobre o Texto Considere também que apenas as seguintes operações foram realizadas sobre o texto de seus documentos: conversão de todos os caracteres para minúsculo; eliminação de marcas de pontuação; eliminação da stopword de.

Exercício 2 – Consulta Construa o arquivo invertido correspondente a essa coleção. Considere que o seguinte conjunto corresponde ao ranqueamento inicial dos documentos dessa coleção para a consulta q = domicílio eleitoral, processada através do modelo probabilístico: {d3, d2, d5, d6, d7} Indique o resultado obtido após o 1º refinamento desse conjunto-resposta.