Carregar apresentação
A apresentação está carregando. Por favor, espere
1
Eveline Alonso Veloso PUC-MINAS
Modelo Vetorial Eveline Alonso Veloso PUC-MINAS
2
Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 2.
3
Modelo Vetorial Modelo algébrico.
Reconhece que o uso de pesos binários para os termos de indexação da coleção; é muito limitador. Propõe um arcabouço em que casamento parcial entre o documento e a consulta é possível. Conseqüência: o conjunto de documentos recuperados; responde melhor a necessidade de informação do usuário.
4
Modelo Vetorial Funciona adequadamente para coleções gerais.
Em geral, o conjunto resposta do modelo vetorial; é melhor ou pelo menos quase tão bom quanto as respostas de outras alternativas conhecidas. Modelo muito popular; especialmente para a web.
5
Termos de Indexação t: número de termos distintos da coleção. Cada termo de indexação identificado na coleção; é um eixo do espaço de termos onde documentos e consultas são representados. Os pesos dos termos nos documentos e na consulta; não são binários.
6
Representação dos Documentos e das Consultas
Os documentos da coleção e a consulta qi; são representados como vetores no espaço t-dimensional. O grau de similaridade do documento dj com a consulta qi; é determinado como a correlação entre os vetores dj e qi. t2 d1 d2 q 1 2 t1
7
Ordenação dos Documentos
Ordena os documentos em ordem decrescente de seu grau de similaridade com a consulta. Um documento pode ser retornado; mesmo que ele “case” apenas parcialmente com a consulta. É possível também estabelecer um limite para esse grau de similaridade; são recuperados apenas documentos cujo grau de similaridade com a consulta; seja maior do que esse limite.
8
Pesos dos Termos de Indexação
wti,dj = peso do termo ti para o documento dj. wti,dj = tf x idf; De forma análoga, também são atribuídos pesos aos termos de indexação da consulta.
9
tf – Freqüência do Termo no Documento
Mede quanto o termo de indexação descreve o conteúdo do documento. Caracterização intra-documento.
10
tf – Freqüência do Termo no Documento
Onde: freqti,dj indica a freqüência do termo ti no documento dj; max freqdj indica a freqüência do termo de maior freqüência no documento dj; calculado considerando-se todos os termos que ocorrem em dj.
11
idf – Freqüência Invertida do Termo na Coleção
Mede a dissimilaridade entre os documentos da coleção. Termos que aparecem em muitos documentos da coleção; não são muito úteis para distinguir um documento relevante de outro não-relevante.
12
idf – Freqüência Invertida do Termo na Coleção
Onde: N é o número total de documentos da coleção; nti é o número de documentos da coleção que contêm o termo de indexação ti.
13
Função de Ranking Os pesos dos termos são utilizados para computar o grau de similaridade entre cada documento da coleção e a consulta.
14
Função de Ranking R(qi, dj) = sim (qi, dj) = cos j
Seu valor varia entre 0 e 1. t2 d1 d2 w1q w2q w1q w2q q 1 2 t1
15
Vantagens Sua estratégia de atribuição de pesos não-binários aos termos de indexação; melhora o resultado do processo de recuperação de informação. Processamento da consulta utilizando-se o modelo vetorial é rápido. É um modelo simples de ser implementado.
16
Vantagens Ao invés de julgar se um documento é relevante ou não para uma consulta; indica o grau de similaridade do documento com a consulta. Conseqüências: considera como possivelmente relevantes; documentos que “casam” apenas parcialmente com a consulta do usuário. Possibilita a ordenação dos documentos por relevância; de acordo com o grau de similaridade dos documentos com a consulta.
17
Desvantagens Considera que os termos de indexação são independentes.
18
Exercício 1 – Coleção Considere uma coleção composta pelos seguintes documentos: d1: Sistemas. Sistemas, sistemas. d2: informação d3: sistemas de informação. d4: informação. Sistemas e INFORMAÇÃO.
19
Exercício 1 – Consulta Construa o arquivo invertido correspondente a essa coleção e responda a seguinte consulta utilizando o modelo vetorial: q: sistemas. Sistemas de informação.
20
Exercício 2 – Arquivo Invertido
Considere o arquivo invertido mostrado a seguir. Nesse arquivo invertido são apresentados, para cada termo do vocabulário da coleção indexada, os documentos em que esse termo aparece e os pesos desse termo para os documentos (wti,dj), calculados de acordo com o modelo vetorial.
21
Exercício 2 – Arquivo Invertido
vocabulário ocorrências título d1-0,125 d2-0,125 d3-0,0625 eleitor d1-0,0625 d3-0,125 d4-0,125
22
Exercício 2 – Consulta Utilizando o modelo vetorial e o arquivo invertido apresentado, indique qual é o documento, dessa coleção, mais relevante para a consulta: q = título eleitor.
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.