GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.

Slides:



Advertisements
Apresentações semelhantes
Medidas de Avaliação de Sistemas de Recuperação de Informação
Advertisements

Programa das Aulas 20/09/05 - Apresentação da disciplina
PortFacil Sistema de Suporte a Geréncia de Porfólio
PortFacil Sistema de Suporte a Geréncia de Porfólio
UNIVERSIDADE FEDERAL DE UBERLÂNDIA ENGENHARIA CIVIL INTRODUÇÃO À ALGORITMOS Professora: Fabíola Gonçalves.
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Exercícios de Dimensionamento de Memórias Cache
Introdução à Hierarquia de Memória
Capítulo 1 Introdução.
UTILIZAÇÃO DO MODELO KANO PARA CLASSIFICAR IMPORTÂNCIA DE FUNCIONALIDADES EM AMBIENTES VIRTUAIS DE APRENDIZAGEM Silvio Carvalho Neto Hiroo Takaoka.
SBC Women in Information Technology Gender and regional differences in Brazil: do they really exist? Janne Oeiras Universidade Federal do Pará
Obtendo informações sobre o Portal Localizando uma publicação.
VISUALIZAÇÃO DA LIGAÇÃO SEMÂNTICA ENTRE DOCUMENTOS
> Fases de Engenharia de SW > Gestão de Projectos de SW
Adriano Kaminski Sanches
Revisao da literatura Revisao bibliografica Revisao etc
Proposta de Checklist para Avaliação de Sites Educacionais
GeoRisc Baldoino Fonseca.
Teste em Esquemas de Dados Maria Cláudia Figueiredo Pereira Emer Universidade Federal do Paraná Departamento de Informática Seminário.
SAPOTI SERVIDORES DE APLICAÇÕES CONFIÁVEIS TCP/IP Autores: Egon Hilgenstieler – Emerson F. F. Carara – Roverli.
Ontologias para Melhorar Precisão e Cobertura de Buscas na Web
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Introdução a Teoria da Classificação
Dissertação de Mestrado Michel Alain Quintana Truyenque
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação Desenvolvimento e Avaliação de Algoritmos.
Francieli Zanon Boito Rodrigo Virote Kassick
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Bruno Augusto Vivas e Pôssas
FERRAMENTA PARA ANÁLISE DE IMPACTO BASEADO EM RASTREABILIDADE DE
Como Desenvolver Sistemas de Informação
Inteligência Artificial
Visão Geral do Desenvolvimento de Sistemas e Papéis no Desenvolvimento de Software Marcely Dias
Classes e objetos Modelagem
Basiléia II - Risco de Crédito Implementação e Diagramação
Busca Competitiva - MiniMax Jogo-da-Velha
Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.
Prof. Wellington D. Previero
Engenharia de Requisitos
CENTRO PROFISSIONAL DE EDUCAÇÃO CONTINUADA CEPEC-TO
Inteligência Artificial
Link Mining Víctor Medeiros.
Aluno: Mário Monteiro Orientador: Sérgio Soares 1.
1 Programa de Engenharia Elétrica - PEE/COPPE/UFRJ Universidade Federal do Rio de Janeiro TCAM Table Resource Allocation for Virtual Openflow Switch Imen.
Cap 4 – Métricas do Processo e Projeto de Software
Compressão de Textos Juliano Palmieri Lage.
Sistemas de Informação e Modelação em Ambiente
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Desenvolvimento de um Telefone IP Baseado em um Processador Blackfin
Área de Pesquisa: Redes de Computadores
Arquitetura do Software
Introdução e Busca Cega
IF696 - Integração de Dados e DW
Mineração na Web Introdução a Recuperação de Informação
1.
Projeto de Banco de Dados
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Desenvolvimento das funcionalidades do trabalho colaborativo da solução para Rastreabilidade de Requisitos de Software baseada na generalização de artefatos.
Universidade Federal de Pernambuco Centro de Informática Aluno: Erica Sousa – Orientador: Paulo Maciel – Modelagem de.
Recuperação de Informação
BPM BUSINESS PROCESS MANAGEMENT Projecto em Informática e Gestão de Empresas Lisboa, 15 de Junho de 2005.
1.
MESTRADO EM REDES DE COMPUTADORES
Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília Recuperação 1.
Patrícia A. Jaques (orientadora)‏
Consulta a XBRL usando Certificado Digital Eduardo Mazza Batista Centro de Informática Universidade Federal de Pernambuco Recife - PE 01/30/2007.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.
Web Mining Disciplina de Mineração de Dados CIn-UFPE Franklin Ramalho
Título da Apresentação Nome do autor Centro de Informática Universidade Federal de Pernambuco Recife - PE Data.
1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004.
Transcrição da apresentação:

GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira

GHHITS – Minerando a Estrutura de Links da Web Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira

3 Roteiro Motivação e Problema Abordagem Metodologia Empregada Detalhamento da Solução Contribuições para a Área e Originalidade do Tema Publicações Geradas

4 Alternativa mais efetiva para se encontrar informações na Web: engenhos de busca Exemplo de uma arquitetura centralizada para um engenho de busca: MetodologiaDetalhamento Contribuições e Originalidade Publicações Abordagem Motivação e Problema

5 Desafios enfrentados pelos engenhos de busca: 1. Desafio de Precisão (tópicos gerais) 85,2% dos usuários visualiza apenas a 1a. página resposta 2. Usuários inexperientes 70% das consultas: 1 termo MetodologiaDetalhamento Contribuições e Originalidade Publicações Abordagem Motivação e Problema

6 Algoritmos de busca textual: não associam o conceito de importância insuficientes ao processo de RI na Web.. MetodologiaDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Abordagem Links funcionais: Opinião coletiva dos usuários da Web. Algoritmos sendo desenvolvidos para explorar a estrutura de links da Web. Documentos Web Documentos flat Hiperlinks: navegacionais,comerciais, funcionais

7 Melhorar a eficácia de recuperação de um engenho de busca a partir da utilização da análise de links em conjunto a análise textual no momento do ranqueamento. MetodologiaDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Abordagem

8 1.Estudo dos algoritmos de AL existentes. –PageRank (Google), HITS (IBM),CLEVER Project (IBM), Web Archeology Research (COMPAQ) HITS - Hyperlink Induced Topic Search Autoridade uma pagina referenciada por várias páginas é considerada importante. Hub uma página que aponta para muitas páginas importantes (Bookmark). a(i) = h (j) j B(i) h(i) = a (j) i F (i) AbordagemDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Metodologia

9 2. Elaboração de um algoritmo de AL. Algoritmo Proposto: Global Hybrid HITS (GHHITS) Pesos de Autoridade e Hub de cada página da Web indexada são pre-computados Off-line. Utiliza heurísticas de Limpeza (filtros de IP). a(i) = h (j) * aut_wt(j,i) + InitAut(i) j B(i) h(i) = a (j) * hub_wt(i,j) + InitHub(i) i F (i) (CLEVER) (PageRank) (COMPAQ) AbordagemDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Metodologia

10 cod_pagina : peso_aut : peso_hub | |...| 3. Implementação de um sistema para validação do algoritmo: - Armazenamento e análise de links Ranking = a * TEXT + b*AUT AbordagemDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Metodologia

11 4. Elaboração de uma fórmula de ranqueamento para combinar: o peso de IMPORTÂNCIA (AUT) o peso de provável RELEVÂNCIA (TEXT) Ranking = a * TEXT + b*AUT AbordagemDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Metodologia

12 Objetivo do Experimento Analisar o impacto na performance de recuperação em um EB que utiliza o peso de autoridade em conjunto com o textual. Consultas TOP 100 consultas do Radix durante (Set. Out. e Nov 2001) 2 termos (11%) 1 termo (85%) 3 termos (4%) 5. Avaliar o impacto desta combinação na eficácia de recuperação. AbordagemDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Metodologia

13 Coleção de Testes páginas (11,14% da Web Brasileira) EstratégiasDiferentes combinações de a e b (1) Estratégia Textual (TEXT); (2) Peso de Autoridade (AUT); (3) 0.85TEXT_0.15AUT; (4) 0.75TEXT_0.25AUT; (5) 0.65TEXT_0.35AUT Ranking = a * TEXT + b*AUT Técnica de Avaliação Julgamento Cego utilizando as métricas AbordagemDetalhamento Contribuições e Originalidade Publicações Motivação e Problema Metodologia

14 MetodologiaAbordagem Contribuições e Originalidade Publicações Motivação e Problema Detalhamento

15 Resultados do experimento MetodologiaAbordagem Contribuições e Originalidade Publicações Motivação e Problema Detalhamento

16 Discussão dos resultados: 0.85TEXT_0.15AUT, 0.75TEXT_0.25AUT, 0.65TEXT_0.35AUT obtiveram melhor performance de recuperação que a estratégia TEXT 0.75TEXT_0.25AUT: melhoria mais significativa com relação a estratégia TEXT (CR_TEXT): 9,42% AUT: pior performance neste experimento pois despreza características intrínsecas da página TOP 100 autoridades foram.com MetodologiaAbordagem Contribuições e Originalidade Publicações Motivação e Problema Detalhamento

17 Um novo Algoritmo de Análise de Links: - O t empo de resposta atende aos requisitos de tempo dos EB comerciais (TR do HITS =~30 min) - Pesos de Hub e Autoridade calculados Off-line para todo o grafo. - GHHITS reduz os requisitos de memória principal necessários ao HITS estratégia de join orientado a blocos. Elaboração de um Sistema para Armazenamento e Análise de Links. Levantamento de características de um subgrafo da Web Brasileira (11,4%). - Número de forwardlinks e backlinks extrínsecos, intrínsecos. Sistema de Julgamento de Relevância. MetodologiaAbordagem Detalhamento Publicações Motivação e Problema Contribuições e Originalidade