MC115 – Recuperação de Informação

MC115 – Recuperação de Informação
Utilização da Estrutura de Links Para Recuperação e Clustering de Documentos na WEB Professor: Dr. Ilmério Reis da Silva Marcos Alexandre Rodrigues – Uelson Ricardo do Nascimento –

Sumário Motivação Objetivos Introdução
PARTE I – Análise de Links Para Recuperação de Informação Estrutura de Links Algoritmos de Análise de Links (PageRank e HITS) Vantagens e Desvantagens PARTE II – Clustering de Documentos baseado em Links Análise de Links – Dificuldades Desafios Tipos de Ranking Classificação kNN Implementação (Trabalho Prático) Conclusões Referências

Motivação A WEB consiste num imenso repositório de informações que divergem em conteúdo, qualidade e tempo de existência. As características das informações presentes na Web trazem consigo novos desafios relacionados à recuperação de informações neste ambiente. Diante deste cenário, surge a necessidade do desenvolvimento de novas técnicas para melhorar a eficiência dos SRIs para Web, possibilitando assim que o usuário encontre de forma mais fácil e rápida as informações que ele necessita.

Objetivos Melhorar a eficiência dos SRIs (ordenação)
Construção de Clusterings de Documentos baseado nas informações dos Links Comparação dos métodos tradicionais de Clustering com o método baseado em Links

PARTE I Análise de Links Para Recuperação de Informação

Introdução Estrutura de links (Ligações)
Ordenação e Classificação de Informações na WEB Ordenação Medida de importância das páginas (se uma página é apontada por várias outras, ela é uma página importante) Classificação Conjunto de páginas do mesmo assunto (se uma página aponta pra outra página, elas têm assuntos relacionados)

Estrutura de Links Links Estruturais
Permitem ao usuário navegar pelas páginas de um site, ou de um domínio específico Links Funcionais Conectam sites de diferentes domínios, que possuem informações relacionadas Links de Propaganda Uma página A faz propaganda de uma página B, geralmente a acordos entre estas páginas para que estas propagandas sejam criadas

Estrutura de Links - Grafo de Links da Web

Estrutura de Links Links de Saída Forwardlinks ou Outlinks
Links de Entrada Backlinks ou Inlinks

Algoritmos de Análise de Links
Os algoritmos de análise de links podem ser divididos em duas famílias: algoritmos independentes da consulta e algoritmos dependentes da consulta.

Algoritmos Independentes da Consulta Os algoritmos independentes da consulta ou globais associam uma medida de importância intrínseca a cada página pertencente à base de índices de um engenho de busca, sem levar em consideração informações textuais das páginas ou informações originadas a partir de uma consulta específica.

Algoritmo PageRank O algoritmo PageRank leva em consideração além do número de inlinks que uma página possui, a importância das páginas que apontam para esta página. Logo, uma página que é apontada pela “folhaonline” por exemplo receberá maior importância, do que outra página que é apontada por uma página desconhecida.

r(i) = d *  r (j) / N(j) + (1-d)/m, j  B(i) Onde: d representa uma variável calculada empiricamente; B(i) representa o conjunto de inlinks da página i; N(j) representa o número de links presentes no corpo da página j (ountlinks); m é o número total de páginas existentes no subconjunto da Web analisado. O Google utiliza o valor PageRank juntamente com valores gerados por algoritmos de busca textuais para responder as consultas por palavras-chaves submetidas ao engenho.

Algoritmos Dependentes da Consulta Os algoritmos dependentes da consulta ou locais associam uma medida de importância a cada página pertencente ao subconjunto da coleção de documentos Web retornados em resposta a uma determinada consulta.

Algoritmo HITS O algoritmo HITS, proposto por Kleinberg, associa a cada página dois valores de ranking dependentes da consulta: o peso de autoridade e o peso de hub. A idéia básica do algoritmo HITS consiste em identificar um pequeno subgrafo (S) da Web - subgrafo formado pelas URLs retornadas em resposta a uma consulta, e por páginas que apontam e são apontadas por páginas deste conjunto. Uma página é considerada boa autoridade se é apontada por muitos bons hubs, e uma página é considerada bom hub se aponta para muitas boas autoridades.

Passo(1): construção do grafo base (i) o usuário submete a consulta (ii) um conjunto inicial de páginas, denotado por conjunto raiz é retornado (iii) o conjunto raiz é expandido, de forma a incluir as páginas que apontam e são apontadas por páginas do conjunto raiz, este novo conjunto formado pelas páginas da resposta e sua vizinhança é chamado de grafo base (iv) o grafo base passa por um processo chamado de limpeza do grafo, que elimina arcos que conectam nós de um mesmo domínio

Passo(2): cálculo dos pesos de Hubs e Autoridades (i) associa-se a cada nó (página) do grafo base um peso de Hub e um peso de Autoridade que são inicializados com valores arbitrários, depois é calculado de acordo com a relação de reforço mútuo através de sucessivas iterações das seguintes equações: a[pagina] = Σ h[ j ] j Є I(pagina) (numero de inlinks) h[pagina] = Σ a[ j ] j Є O(página) (numero de outlinks) (ii) a computação dos pesos de Hub e Autoridade se repete até o momento em que os valores de Autoridade e Hub não mais variam acima de um valor pré-estabelecido entre sucessivas iterações, neste momento diz-se que a computação converge

Passo(3): filtro de Hubs e Autoridades após a convergência uma lista contendo as c páginas maiores Autoridade e os c maiores Hubs é retornada (neste algoritmo o valor de c varia entre 5 e 10) Como a resposta deste algoritmo consiste apenas em retornar os maiores Hubs e as maiores Autoridades apenas o valor relativo dos pesos de Hub e Autoridade é levado em consideração. Na manipulação dos pesos é aplicada uma normalização para evitar overflow dos pesos durante o processo iterativo

Vantagens e Desvantagens
PageRank Vantagens Pre-processamento, não utiliza tempo adicional para análise de links no momento da consulta Desvantagens Como os valores são pré-processados, páginas não relevantes para uma dada consulta podem possuir maior valor de PageRank que páginas relevantes pra consulta, este problema pode ser resolvido através da análise do conteúdo dos documentos posteriormente à análise de links

Vantagens e Desvantagens
HITS Vantagens O algoritmo PageRank baseia-se na noção que páginas importantes são aquelas que são apontadas por outras páginas importantes. Em muitos casos porém, os relacionamentos entre as páginas Web necessitam de um modelo diferente, por exemplo, as páginas dos principais engenhos de busca, apesar de todas elas serem importantes, elas não se auto relacionam, o algoritmo HITS consiste em uma maneira de reconhecer a importancia destas páginas Desvantagens O tempo de resposta a uma data consulta é demorado, devido ao cálculo para montar o ranking do subgrafo da cosulta

PARTE II Clustering de Documentos baseado em Links

Análise de Links - Dificuldades
70% das consultas contem apenas um termo 85% dos usuários visitam apenas as duas primeiras páginas 25% dos sites ficam menos de 20 dias na web

Desafios Sinonímia: recuperar termos sinônimos. Ex.: Carro – automóvel
Polissemia: termo possui mais de um significado. Ex: manga, Petri Persuação do Engenho de Busca: keyword spamming, meta keyword

Tipos de Ranking Baseados em classificação humana. Ex.: Yahoo
Baseados em informações sobre utilização do Site (doubleclick) Baseados na conectividade (links)

Classificação kNN (k nearest neighbors) Support vector machine (SVM)
Naive Bayes

kNN Técnica utilizada em reconhecimento de padrão
Cada elemento é classificado como um ponto em um espaço n-dimensional

Implementação rodar o modelo vetorial
extrair os documento no topo do ranking gerado no passo 1 montar cluster tradicional e baseado em links dos documentos escolher o melhor cluster para os dois casos reformular a consulta com realimentação de relevantes para as duas estratégias reexecutar vetorial com base na consulta reformulada medir precisão x revocação para os dois tipos de clusters (tradicional e baseado em links)

Conclusões A utilização das informações contidas nas Estruturas de Links podem trazer um grande beneficio para os SRIs e para o Clustering de Documentos na WEB. Os Links muitas vezes podem identificar melhor um documento do o seu próprio conteúdo A utilização da Estrutura de Links e do conteúdo dos documentos podem trazer os melhores resultados

Bibliografia Pavel Calado, Marco Cristo, Edlone Moura. Combining Link-Based ad Content-Based Methods for Web Document Classification. Proeedings of the 12th International Conference on Information and Knowledge Management CIKM 2003 Pavel Calado, Berthier Ribeiro-Neto. Using Link Structure for Information Retrieval in The World Wide Web Roberta de Souza Coelho, SAAL – Um Sistema para Armazenamento e Análise da Estrutura de Links da Web, Tese Mestrado UFPE

MC115 – Recuperação de Informação

Apresentações semelhantes

Apresentação em tema: "MC115 – Recuperação de Informação"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

MC115 – Recuperação de Informação

Apresentações semelhantes

Apresentação em tema: "MC115 – Recuperação de Informação"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback