Eveline Alonso Veloso PUC-MINAS

Slides:



Advertisements
Apresentações semelhantes
Medidas de Avaliação de Sistemas de Recuperação de Informação
Advertisements

Modelo de Redes de Crenças
Modelo Probabilístico
Operações sobre o Texto
Tutorial de Pesquisa Básica de Bibliotecas Acadêmicas
Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.
Operações sobre as Consultas
Expert Sinta.
Indexação Automática de Documentos
Diagrama Entidade-Relacionamento – DER
Especificação de Consultas
Propriedades de Documentos
Recuperação de Imagens
Análise Estruturada Moderna
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Conceitos Gerais relacionados a Recuperação de Informação
Modelagem Funcional.
Interfaces Conversacionais
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Estrutura de indexação Modelos de RI
Padrões GoF - Strategy.
Introdução a Teoria da Classificação
Recuperação de Informações
Descoberta de Conhecimento:
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Universidade Federal de Minas Gerais Escola de Ciência da Informação Disciplina:Introdução á Informática Alunas: Fernanda Christina Jocélia Rangel.
Bruno Augusto Vivas e Pôssas
Outras Transforações de Imagens
Aprendizado de Máquina
Prof. Natalia Castro Fernandes Mestrado em Telecomunicações – UFF 2º semestre/2012.
Inteligência Artificial
Aprendizagem de Máquina - Agrupamento
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Prof. Natalia Castro Fernandes Engenharia de Telecomunicações – UFF 2º semestre/2012.
1 Fundamentos de SIG. - Sistemas de Informação
C M B H C F B / Química Parte II Cap Otacílio
CS276: Information Retrieval and Web Search
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
Adicionando Escalabilidade ao Framework de Recomendação IRF
Estrutura de dados II Carlos Oberdan Rolim Ciência da Computação Sistemas de Informação.
ORKURIOSO Equipe Arthur Gonçalves - agc Fábio Rocha - frp
Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www
CS276: Information Retrieval and Web Search
Mineração da Web Recuperação de Informação
Paradigmas de Linguagens de Programação Linguagem Imperativa 2
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Recuperação de Informação
Mineração da Web Recuperação de Informação
Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA.
Recuperação de Informação
Recuperação de Informação
Vânia Maria P. Vidal, José Maria Monteiro, Luís Eufrasio T. Neto
SISTEMAS OPERACIONAIS I
Classificacao de Texto Projeto Spam Filter
Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web Metodologia de Ciência da Computação Professora: Odette Mestrinho Passos.
Espaços Vetoriais Em álgebra temos várias estruturas diferentes, por exemplo: Grupos Anéis Corpos Espaços Vetoriais Este é o objeto principal do nosso.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Recuperação de Informação Arlei Calazans Luís Ricardo Fábio Hedayioglu {ajcm, lrcs, cin.ufpe.br Classificação de cardiopatias a partir de uma base.
Uma Proposta de Melhoria no Processo de Recuperação de Imagens com Base na Distribuição de Características de Baixo Nível em seus Segmentos Utilizando.
Sumário 1 SQL Embutida 2 Processamento de Consultas
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Classificação de Textos
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum.
UNIVERSIDADE FEDERAL DE MINAS GERAIS Exercícios de Revisão 1 Crisitano Arbex Valle Vinicius Fernandes dos Santos
Transcrição da apresentação:

Eveline Alonso Veloso PUC-MINAS Modelo Vetorial Eveline Alonso Veloso PUC-MINAS

Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 2.

Modelo Vetorial Modelo algébrico. Reconhece que o uso de pesos binários para os termos de indexação da coleção; é muito limitador. Propõe um arcabouço em que casamento parcial entre o documento e a consulta é possível. Conseqüência: o conjunto de documentos recuperados; responde melhor a necessidade de informação do usuário.

Modelo Vetorial Funciona adequadamente para coleções gerais. Em geral, o conjunto resposta do modelo vetorial; é melhor ou pelo menos quase tão bom quanto as respostas de outras alternativas conhecidas. Modelo muito popular; especialmente para a web.

Termos de Indexação t: número de termos distintos da coleção. Cada termo de indexação identificado na coleção; é um eixo do espaço de termos onde documentos e consultas são representados. Os pesos dos termos nos documentos e na consulta; não são binários.

Representação dos Documentos e das Consultas Os documentos da coleção e a consulta qi; são representados como vetores no espaço t-dimensional. O grau de similaridade do documento dj com a consulta qi; é determinado como a correlação entre os vetores dj e qi. t2 d1 d2 q 1 2 t1

Ordenação dos Documentos Ordena os documentos em ordem decrescente de seu grau de similaridade com a consulta. Um documento pode ser retornado; mesmo que ele “case” apenas parcialmente com a consulta. É possível também estabelecer um limite para esse grau de similaridade; são recuperados apenas documentos cujo grau de similaridade com a consulta; seja maior do que esse limite.

Pesos dos Termos de Indexação wti,dj = peso do termo ti para o documento dj. wti,dj = tf x idf; De forma análoga, também são atribuídos pesos aos termos de indexação da consulta.

tf – Freqüência do Termo no Documento Mede quanto o termo de indexação descreve o conteúdo do documento. Caracterização intra-documento.

tf – Freqüência do Termo no Documento Onde: freqti,dj indica a freqüência do termo ti no documento dj; max freqdj indica a freqüência do termo de maior freqüência no documento dj; calculado considerando-se todos os termos que ocorrem em dj.

idf – Freqüência Invertida do Termo na Coleção Mede a dissimilaridade entre os documentos da coleção. Termos que aparecem em muitos documentos da coleção; não são muito úteis para distinguir um documento relevante de outro não-relevante.

idf – Freqüência Invertida do Termo na Coleção Onde: N é o número total de documentos da coleção; nti é o número de documentos da coleção que contêm o termo de indexação ti.

Função de Ranking Os pesos dos termos são utilizados para computar o grau de similaridade entre cada documento da coleção e a consulta.

Função de Ranking R(qi, dj) = sim (qi, dj) = cos j Seu valor varia entre 0 e 1. t2 d1 d2 w1q w2q w1q w2q q 1 2 t1

Vantagens Sua estratégia de atribuição de pesos não-binários aos termos de indexação; melhora o resultado do processo de recuperação de informação. Processamento da consulta utilizando-se o modelo vetorial é rápido. É um modelo simples de ser implementado.

Vantagens Ao invés de julgar se um documento é relevante ou não para uma consulta; indica o grau de similaridade do documento com a consulta. Conseqüências: considera como possivelmente relevantes; documentos que “casam” apenas parcialmente com a consulta do usuário. Possibilita a ordenação dos documentos por relevância; de acordo com o grau de similaridade dos documentos com a consulta.

Desvantagens Considera que os termos de indexação são independentes.

Exercício 1 – Coleção Considere uma coleção composta pelos seguintes documentos: d1: Sistemas. Sistemas, sistemas. d2: informação d3: sistemas de informação. d4: informação. Sistemas e INFORMAÇÃO.

Exercício 1 – Consulta Construa o arquivo invertido correspondente a essa coleção e responda a seguinte consulta utilizando o modelo vetorial: q: sistemas. Sistemas de informação.

Exercício 2 – Arquivo Invertido Considere o arquivo invertido mostrado a seguir. Nesse arquivo invertido são apresentados, para cada termo do vocabulário da coleção indexada, os documentos em que esse termo aparece e os pesos desse termo para os documentos (wti,dj), calculados de acordo com o modelo vetorial.

Exercício 2 – Arquivo Invertido vocabulário ocorrências título d1-0,125 d2-0,125 d3-0,0625 eleitor d1-0,0625 d3-0,125 d4-0,125

Exercício 2 – Consulta Utilizando o modelo vetorial e o arquivo invertido apresentado, indique qual é o documento, dessa coleção, mais relevante para a consulta: q = título eleitor.