A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.

Apresentações semelhantes


Apresentação em tema: "CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros."— Transcrição da apresentação:

1 CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros

2 CIn-UFPE 2 Roteiro Resumo da aula passada Modelos de Recuperação de Documentos Modelo baseados em teoria dos conjuntos

3 CIn-UFPE 3 Relembrando… Sistemas de Recuperação de Informação Etapas principais de um sistema de RI: Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados

4 CIn-UFPE 4 Modelos Clássicos de Recuperação de Documentos Veremos inicialmente os seguintes modelos: Modelo Booleano - OK Modelo Espaço Vetorial - OK Modelos Probabilistas Para cada modelo, veremos: A representação do documento A representação da consulta A noção de relevância dos documentos em relação à consulta utilizada na recuperação  pode ser binária (sim/não) ou ordenada  depende do modelo de recuperação utilizado

5 CIn-UFPE 5 Modelos Clássicos Conceitos Básicos Considere uma base qualquer de documentos Cada documento na base é representado por um conjunto de n termos (ou palavras isoladas) k 1, k 2,...,k n Esses termos são escolhidos a partir da base de documentos completa cada base terá seu conjunto de termos representativos  seu “vocabulário”

6 CIn-UFPE 6 Modelos Clássicos Conceitos Básicos Cada documento (d j ) é representado por termos da base associados a pesos d = k 1 (w 1 ), k 2 (w 2 ),..., k n ( w n ) Cada modelo de recuperação define pesos de uma maneira diferente As consultas podem ser representadas pelo mesmo conjunto de termos da base Alguns modelos permitem associar pesos aos termos da consulta

7 CIn-UFPE 7 Modelo Booleano Dado o conjunto de termos representativos para a base em questão K = {k1, k2,...,kn} Os documentos e as consultas são representados como vetores de pesos binários de tamanho n A consulta pode conter operadores lógicos Relevância binária Termo esta ou não no documento Não e possível ordenar a lista de documentos recuperados

8 CIn-UFPE 8 Modelo Espaço Vetorial Dado o conjunto de termos representativos para a base em questão K = {k1, k2,...,kn} cada termo de K é um eixo de um espaço vetorial Consultas (q) e documentos (d) são representados como vetores nesse espaço n-dimensional Relevância Medida mais usada = co-seno do ângulo entre q e d O usuário recebe um conjunto ordenado de documentos como resposta à sua consulta Existem várias técnicas para calcular pesos TF-IDF = mais usada

9 CIn-UFPE 9 Aula de hoje Modelos de RI baseados em teoria dos conjuntos Objetivo: possibilitar casamento parcial e ordenação dos documentos recuperados  Modelo booleano estendido  Modelos difusos (fuzzy sets)

10 CIn-UFPE 10 Modelo Booleano Estendido No modelo booleano original, uma consulta com conjunção só retorna documentos que contenham todos os seus termos A ausência de um termo da consulta no documento é igual à ausência de todos os termos da consulta Este modelo estende o modelo booleano incluindo a noção de casamento parcial e termos com pesos Combina características do modelo vetorial com propriedades da álgebra booleana

11 CIn-UFPE 11 Modelo Booleano Estendido Representação do documento Como no modelo EV, aqui cada termo que representa a base de documentos é um eixo de um espaço vetorial Considere o documento dj = { k x (w xj ), k y (w yj )} Por simplicidade, representaremos dj = (x,y) dj é um ponto no espaço formado pelos eixos kx e ky dj y = wyj x = wxj(0,0) kx ky (1,1) Obs.: iremos assumir que os pesos do documento estão entre 0 e 1

12 CIn-UFPE 12 Modelo Booleano Estendido Este modelo interpreta conjunções e disjunções em termos de distância euclidiana dividida pelo número de termos da consulta Uma medida de dissimilaridade - v er aula passada Conjunções e disjunções são tratadas de forma diferenciada Para a consulta q = kx  ky (conjunção) O ponto (1,1) é o mais desejável Para a consulta q = kx  ky (disjunção) O ponto (0,0) é o menos desejável

13 Modelo Booleano Estendido Consulta com “and” q and = kx  ky dj = (x,y) sim(q and,dj) = 1 - sqrt( (1-x) + (1-y) ) 2 2 2 dj dj+1 y = wyj x = wxj(0,0) (1,1) kx ky AND

14 Modelo Booleano Estendido Consulta com “or” q or = kx  ky dj = (x,y) sim(q or,dj) = sqrt( x + y ) 2 22 dj dj+1 y = wyj x = wxj(0,0) (1,1) kx ky OR

15 CIn-UFPE 15 Modelo Booleano Estendido Considere o documento d j = { k x (w xj ), k y (w yj )} Os pesos podem ser Booleanos Numéricos, calculados com TF * IDF  porém devem ser normalizados, para facilitar o calculo da similaridade com a consulta  w xj = f xj * idf x max i (idf i ) N nini IDF = idf i = log freq xj max i freq ij TF = f xj =

16 CIn-UFPE 16 Modelo Booleano Estendido Exemplo Cálculo da similaridade para pesos normalizados w  {1,0} Claramente, documentos (1,0) e (0,1) têm maior similaridade com a consulta q or em comparação com a consulta q and sim(q and, (1,1)) = 1 sim(q and, (1,0))  0.3 sim(q and, (0,1))  0.3 sim(q and, (0,0)) = 0 sim(q or, (1,1)) = 1 sim(q or, (1,0))  0.7 sim(q or, (0,1))  0.7 sim(q or, (0,0)) = 0

17 CIn-UFPE 17 Modelo Booleano Estendido Conclusões Este modelo é mais sofisticado que o booleano clássico O modelo pode lidar com consultas com mais de 2 termos Porém, a computacao envolvida é mais complexa

18 CIn-UFPE 18 Modelo Difuso Este modelo oferece um framework para a representação de classes cujas fronteiras não são bem definidas Um conjunto difuso representa algum conceito difuso  Ex. conceito ALTO é caracterizado por uma função de pertinência  per-ALTO(Oscar-Schmidt) = 0.9  per-ALTO(Flavia) = 0.3 Nos conjuntos clássicos, a função der pertinência é binária  O elemento pertence ou não ao conjunto

19 CIn-UFPE 19 Modelo Difuso para RI Idéia central grau de pertinência de documentos em relação aos termos da base  esse grau de pertinência varia entre 0 e 1 noção gradual de pertinência  em contraste com a noção binária da lógica booleana

20 CIn-UFPE 20 Conjuntos Difusos Um conjunto difuso que representa o conceito A em U (universo de elementos considerados) é caracterizado por uma função de pertinência  : U  [0,1] que associa a cada elemento u  U um valor  (u) no intervalo [0,1] No nosso caso: U é a base de documentos Elemento u é um documento Cada termo ki de K é associado a um conceito, representado por um conjunto difuso com função de pertinência  i Cada documento dj tem um grau de pertinência  i,j em relação ao termo ki  Esse grau de pertinência determina a importância do termo na recuperação do documento

21 CIn-UFPE 21 Modelo Difuso de RI Considere documento abaixo e as consultas q 1 = “honesto” e q 2 =“filósofo” No modelo booleano  Sim(d j,q 1 ) = 1  Sim(d j,q 2 ) = 0 No modelo difuso  Sim(dj,q 1 ) =  1,j  Sim(dj,q 2 ) =  2,j   1,j = 0.9   2,j = 0.1 honesto desonesto soubesse vantagem seria menos desonestidade socrates Representação Doc : www.filosofia.com Obs.: Termo “filósofo” não aparece no documento, porém sua relevância é maior que 0 pois o documento contém palavras relacionadas a esse termo.

22 CIn-UFPE 22 Modelo Difuso Relevância A pertinência  i,j mede o quão relevante o termo k i é para recuperar o documento d j Quanto maior próximo de 1, mais relevante é o termo  Mesmo que o termo apareça no documento, sua relevância pode ser baixa por não conter outros termos relacionados  Menos que o termo não apareça no documento, ele pode ser relevante! Similaridade entre documento e consulta é medida pela função de pertinência A função de pertinência mais comum é construída a partir do conceito de correlação entre termos

23 CIn-UFPE 23 Modelo Difuso Matriz de correlação termo-a-termo c: matriz de correlação n X n c i,l : correlação entre termos k i,k l : c i,l = n i,l n i + n l - n i,l  n i : número de docs que contêm termo k i  n l : número de docs que contêm termo k l  n i,l : número de docs que contêm ambos os termos k i e k l A partir daí, temos a noção de proximidade entre termos

24 CIn-UFPE 24 Modelo Difuso A correlação pode ser usada para definir uma função de pertinência fuzzy para o termo k i :  i,j = 1 -  (1 - c i,l ) k l  d j  i,j : pertinência do documento d j ao conjunto fuzzy associado ao termo k i (i.e. relevância do termo)

25 CIn-UFPE 25 O documento d j pertence ao conjunto de k i se seus demais termos são correlacionados a k i Quanto maiores os valores das correlações, maior o valor da pertinência Se um documento d j contém um termo k l que é fortemente correlacionado a k i, então: c i,l ~ 1  i,j ~ 1 termo k i é um bom índice representativo  mesmo que não apareça no documento!!! Modelo Difuso

26 CIn-UFPE 26 q = k a  (k b   k c ) q dnf = (1,1,1)  (1,1,0)  (1,0,0) = cc 1  cc 2  cc 3  q,d j =  cc 1,j +  cc 1,j +  cc 1,j = 1 - (1 -  a,j  b,j  c,j ) * (1 -  a,j  b,j (1-  c,j )) * (1 -  a,j (1-  b,j ) (1-  c,j )) Modelo Difuso de RI Um exemplo

27 CIn-UFPE 27 Modelo Difuso de RI Modelos difusos de RI têm sido discutidos principalmente na literatura associada com teoria fuzzy Experimentos com um corpus de referência não estão disponíveis É difícil de comparar este modelo com os outros


Carregar ppt "CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros."

Apresentações semelhantes


Anúncios Google