A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New.

Apresentações semelhantes


Apresentação em tema: "Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New."— Transcrição da apresentação:

1 Modelo Vetorial Eveline Alonso Veloso PUC-MINAS

2 Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 2.

3 Modelo Vetorial Modelo algébrico. Reconhece que o uso de pesos binários para os termos de indexação da coleção; é muito limitador. Propõe um arcabouço em que casamento parcial entre o documento e a consulta é possível. Conseqüência: o conjunto de documentos recuperados; responde melhor a necessidade de informação do usuário.

4 Modelo Vetorial Funciona adequadamente para coleções gerais. Em geral, o conjunto resposta do modelo vetorial; é melhor ou pelo menos quase tão bom quanto as respostas de outras alternativas conhecidas. Modelo muito popular; especialmente para a web.

5 Termos de Indexação t: número de termos distintos da coleção. Cada termo de indexação identificado na coleção; é um eixo do espaço de termos onde documentos e consultas são representados. Os pesos dos termos nos documentos e na consulta; não são binários.

6 Representação dos Documentos e das Consultas Os documentos da coleção e a consulta q i ; são representados como vetores no espaço t- dimensional. O grau de similaridade do documento d j com a consulta q i ; é determinado como a correlação entre os vetores d j e q i. t1t1 t2t2 d2d2 q d1d1 1 2

7 Ordenação dos Documentos Ordena os documentos em ordem decrescente de seu grau de similaridade com a consulta. Um documento pode ser retornado; mesmo que ele case apenas parcialmente com a consulta. É possível também estabelecer um limite para esse grau de similaridade; são recuperados apenas documentos cujo grau de similaridade com a consulta; seja maior do que esse limite.

8 Pesos dos Termos de Indexação w ti,dj = peso do termo t i para o documento d j. w ti,dj = tf x idf; De forma análoga, também são atribuídos pesos aos termos de indexação da consulta.

9 tf – Freqüência do Termo no Documento Mede quanto o termo de indexação descreve o conteúdo do documento. Caracterização intra-documento.

10 tf – Freqüência do Termo no Documento Onde: freq ti,dj indica a freqüência do termo t i no documento d j ; max freq dj indica a freqüência do termo de maior freqüência no documento d j ; calculado considerando-se todos os termos que ocorrem em d j.

11 idf – Freqüência Invertida do Termo na Coleção Mede a dissimilaridade entre os documentos da coleção. Termos que aparecem em muitos documentos da coleção; não são muito úteis para distinguir um documento relevante de outro não-relevante.

12 idf – Freqüência Invertida do Termo na Coleção Onde: N é o número total de documentos da coleção; n ti é o número de documentos da coleção que contêm o termo de indexação t i.

13 Função de Ranking Os pesos dos termos são utilizados para computar o grau de similaridade entre cada documento da coleção e a consulta.

14 Função de Ranking t1t1 t2t2 d2d2 q d1d1 w 1q w 2q 1 2 w 1q w 2q R(q i, d j ) = sim (q i, d j ) = cos j Seu valor varia entre 0 e 1.

15 Vantagens Sua estratégia de atribuição de pesos não-binários aos termos de indexação; melhora o resultado do processo de recuperação de informação. Processamento da consulta utilizando-se o modelo vetorial é rápido. É um modelo simples de ser implementado.

16 Vantagens Ao invés de julgar se um documento é relevante ou não para uma consulta; indica o grau de similaridade do documento com a consulta. Conseqüências: considera como possivelmente relevantes; documentos que casam apenas parcialmente com a consulta do usuário. Possibilita a ordenação dos documentos por relevância; de acordo com o grau de similaridade dos documentos com a consulta.

17 Desvantagens Considera que os termos de indexação são independentes.

18 Exercício 1 – Coleção Considere uma coleção composta pelos seguintes documentos: d 1 : Sistemas. Sistemas, sistemas. d 2 : informação d 3 : sistemas de informação. d 4 : informação. Sistemas e INFORMAÇÃO.

19 Exercício 1 – Consulta Construa o arquivo invertido correspondente a essa coleção e responda a seguinte consulta utilizando o modelo vetorial: q: sistemas. Sistemas de informação.

20 Exercício 2 – Arquivo Invertido Considere o arquivo invertido mostrado a seguir. Nesse arquivo invertido são apresentados, para cada termo do vocabulário da coleção indexada, os documentos em que esse termo aparece e os pesos desse termo para os documentos (w ti,dj ), calculados de acordo com o modelo vetorial.

21 Exercício 2 – Arquivo Invertido vocabulário ocorrências título d 1 -0,125 d 2 -0,125 d 3 -0,0625 eleitor d 1 -0,0625 d 3 -0,125 d 4 -0,125

22 Exercício 2 – Consulta Utilizando o modelo vetorial e o arquivo invertido apresentado, indique qual é o documento, dessa coleção, mais relevante para a consulta: q = título eleitor.


Carregar ppt "Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New."

Apresentações semelhantes


Anúncios Google