A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.

Apresentações semelhantes


Apresentação em tema: "GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira."— Transcrição da apresentação:

1 GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira

2 GHHITS – Minerando a Estrutura de Links da Web Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira

3 3 Roteiro Motivação e Problema Abordagem Metodologia Empregada Detalhamento da Solução Contribuições para a Área e Originalidade do Tema Publicações Geradas

4 4 Alternativa mais efetiva para se encontrar informações na Web: engenhos de busca Exemplo de uma arquitetura centralizada para um engenho de busca: MetodologiaDetalhamento Contribuições e Originalidade Publicações Abordagem Motivação e Problema

5 5 Desafios enfrentados pelos engenhos de busca: 1. Desafio de Precisão (tópicos gerais) 85,2% dos usuários visualiza apenas a 1a. página resposta 2. Usuários inexperientes 70% das consultas: 1 termo 792.356 MetodologiaDetalhamento Contribuições e Originalidade Publicações Abordagem Motivação e Problema

6 6 Algoritmos de busca textual: não associam o conceito de importância insuficientes ao processo de RI na Web.. MetodologiaDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Abordagem Links funcionais: Opinião coletiva dos usuários da Web. Algoritmos sendo desenvolvidos para explorar a estrutura de links da Web. Documentos Web Documentos flat Hiperlinks: navegacionais,comerciais, funcionais

7 7 Melhorar a eficácia de recuperação de um engenho de busca a partir da utilização da análise de links em conjunto a análise textual no momento do ranqueamento. MetodologiaDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Abordagem

8 8 1.Estudo dos algoritmos de AL existentes. –PageRank (Google), HITS (IBM),CLEVER Project (IBM), Web Archeology Research (COMPAQ) HITS - Hyperlink Induced Topic Search Autoridade uma pagina referenciada por várias páginas é considerada importante. Hub uma página que aponta para muitas páginas importantes (Bookmark). a(i) = h (j) j B(i) h(i) = a (j) i F (i) AbordagemDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Metodologia

9 9 2. Elaboração de um algoritmo de AL. Algoritmo Proposto: Global Hybrid HITS (GHHITS) Pesos de Autoridade e Hub de cada página da Web indexada são pre-computados Off-line. Utiliza heurísticas de Limpeza (filtros de IP). a(i) = h (j) * aut_wt(j,i) + InitAut(i) j B(i) h(i) = a (j) * hub_wt(i,j) + InitHub(i) i F (i) (CLEVER) (PageRank) (COMPAQ) AbordagemDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Metodologia

10 10 cod_pagina : peso_aut : peso_hub | |...| 3. Implementação de um sistema para validação do algoritmo: - Armazenamento e análise de links Ranking = a * TEXT + b*AUT AbordagemDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Metodologia

11 11 4. Elaboração de uma fórmula de ranqueamento para combinar: o peso de IMPORTÂNCIA (AUT) o peso de provável RELEVÂNCIA (TEXT) Ranking = a * TEXT + b*AUT AbordagemDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Metodologia

12 12 Objetivo do Experimento Analisar o impacto na performance de recuperação em um EB que utiliza o peso de autoridade em conjunto com o textual. Consultas TOP 100 consultas do Radix durante (Set. Out. e Nov 2001) 2 termos (11%) 1 termo (85%) 3 termos (4%) 5. Avaliar o impacto desta combinação na eficácia de recuperação. AbordagemDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Metodologia

13 13 Coleção de Testes 3.742.983 páginas (11,14% da Web Brasileira) EstratégiasDiferentes combinações de a e b (1) Estratégia Textual (TEXT); (2) Peso de Autoridade (AUT); (3) 0.85TEXT_0.15AUT; (4) 0.75TEXT_0.25AUT; (5) 0.65TEXT_0.35AUT Ranking = a * TEXT + b*AUT Técnica de Avaliação Julgamento Cego utilizando as métricas Precisão@10, PMTS@10 AbordagemDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Metodologia

14 14 MetodologiaAbordagem Contribuições e Originalidade Publicações Motivação e Problema Detalhamento

15 15 Resultados do experimento MetodologiaAbordagem Contribuições e Originalidade Publicações Motivação e Problema Detalhamento

16 16 Discussão dos resultados: 0.85TEXT_0.15AUT, 0.75TEXT_0.25AUT, 0.65TEXT_0.35AUT obtiveram melhor performance de recuperação que a estratégia TEXT 0.75TEXT_0.25AUT: melhoria mais significativa com relação a estratégia TEXT (CR_TEXT): –precisão@10= 9,42% –PMTS@10=14,64% AUT: pior performance neste experimento pois despreza características intrínsecas da página TOP 100 autoridades foram.com MetodologiaAbordagem Contribuições e Originalidade Publicações Motivação e Problema Detalhamento

17 17 Um novo Algoritmo de Análise de Links: - O t empo de resposta atende aos requisitos de tempo dos EB comerciais (TR do HITS =~30 min) - Pesos de Hub e Autoridade calculados Off-line para todo o grafo. - GHHITS reduz os requisitos de memória principal necessários ao HITS estratégia de join orientado a blocos. Elaboração de um Sistema para Armazenamento e Análise de Links. Levantamento de características de um subgrafo da Web Brasileira (11,4%). - Número de forwardlinks e backlinks extrínsecos, intrínsecos. Sistema de Julgamento de Relevância. MetodologiaAbordagem Detalhamento Publicações Motivação e Problema Contribuições e Originalidade


Carregar ppt "GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira."

Apresentações semelhantes


Anúncios Google