Análise Tópica de Links para busca na Web Lucas Augusto Scotta Merlo

Slides:



Advertisements
Apresentações semelhantes
Estruturas de Dados Listas Prof. Rodrigo Rocha
Advertisements

Medidas de Avaliação de Sistemas de Recuperação de Informação
Estruturas de Dados Marcio Gonçalves.
UNICEUMA – CENTRO UNIVERSITÁRIO DO MARANHÃO
OTIMIZAÇÃO DO PROJETO DE REDES URBANAS BASEADO NO PROBLEMA DE STEINER
EBSCOhost Pesquisa básica para bibliotecas acadêmicas
Obtendo informações sobre o Portal Localizando uma publicação.
Pontes Seja (G) o número de componentes conexas de G. Uma ponte é uma aresta a tal que (G - a) > (G)
Algoritmo polinomial para geração de uma Árvore Geradora Mínima
Construção de Algoritmos Professor: Aquiles Burlamaqui Construção de Algoritmos AULA 07 Aquiles Burlamaqui UERN
Conceitos Gerais relacionados a Recuperação de Informação
AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA.
LOGO Sensitivity Analysis of Dependability in Redundant Computer Networks Almir Guimarães / Kádna Camboim / Rubens Matos
Adriano Kaminski Sanches
Gestão De Sistemas De Informação (GSI)
Sistemas de Gestão Integrada
Aplicação de XML Web Semântica Tópicos Avançados em Bancos de Dados II
PageRank O algoritmo do Google
Ontologia para Sistemas Configurarionais Urbanos
Sistemas de Gerenciamento de Conteúdo
GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.
A Review of Algorithms for Audio Fingerprinting
Introdução a Teoria da Classificação
Web of Science.
Junções Adaptativas em consultas Federadas sobre Linked Data
Algoritmos: Teoria e Engenharia
Conceitos Básico de Gerenciamento Eletrônico de Documentos
1 Felipe L. SeverinoPDP Enhancing Grids for Massively Multiplayer Online Computer Games Felipe L. Severino Programação com Objetos Distribuídos paralela.
Listas Encadeadas.
Revisão da Linguagem C.
Tao Qin, Tie-Yan Liu, Jun Xu, Hang Li
Prof. Wellington D. Previero
Algoritmos em Grafos.
Enrique P. L. de Oliveira Tecnologia para Web Enrique P. L. de Oliveira
Rodrigo Cristiano Silva
Link Mining Víctor Medeiros.
Adriana Libório Arthur Alem
Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)
Cap 4 – Métricas do Processo e Projeto de Software
Linguagem de Programação II Parte IX
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
Combined Regression and Ranking
Journal New Research Music – 2012 Citado por 3 artigos Alex Amorim Dutra Jason Weston, Samy Bengio, and Philippe Hamel Google, USA.
Bancos de Dados e Recuperação de Informação
Rodrigo de Carvalho.  Introdução ◦ Descrição do Problema  Algoritmos ◦ GRASP ◦ S.A ◦ AG  Planejamento Experimental ◦ Objetivo ◦ Instância e métricas.
American Chemical Society Fundada em 1876, a American Chemical Society (ACS) é uma sociedade científica que conta com mais de membros. Sua primeira.
MapReduce Conceitos e Aplicações
Mineração na Web Introdução a Recuperação de Informação
1 My GRID: Bio-informática personalizada em uma grade de informação. Francisco Silva
ASP (Active Server Pages)
Recuperação de Informação
Reconstrução Tridimensional usando IPP Trabalho final do curso de Visão Computacional DCC / UFMG Apresentação: Antônio Wilson Vieira.
Quality Content Resource Management Access Integration Consultation Página de Acesso:
Filtragem Colaborativa
Busca Combinatorial e Métodos de Heurística
Algoritmos de Chave Pública
Algoritmos e estrutura de dados Prof. Luiz Gonzaga da Silveira Jr
 Solucionar de forma otimizada os problemas que exijam alto esforço computacional e assim assegurar a satisfação dos clientes.
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
Link Prediction Problem for Social Networks
EBSCO Information Services  Conteúdos de qualidade  Ferramentas de gerenciamento  Integração Página de Acesso Ecological.
Um Sistema Peer-to- Peer para Armazenamento Distribuído de Arquivos Daniel Mauricio Sthor Lauro Luis Costa Lucas Nascimento Ferreira Departamento de Informática.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Categorização de Documentos Mariana Lara Neves CIn/UFPE.
The Anatomy of a Large-Scale Hypertextual Web Search Engine Sergey Brin and Lawrence Page Adriano Kaminski Sanches Prof. Dr. Pável Calado Universidade.
Aplicando Coleção Welie Utilizando Arquivo de Texto para o Desenvolvimento e Atualização de um Sítio Interativo para Web Rodolfo A. Silva, Fernando H.
Nº Aluno: Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008.
TÉCNICAS DE ESTIMATIVAS
PREDIÇÃO DE CONSUMO DE ENERGIA LEONARDO QUATRIN CAMPAGNOLO LILIAN MENDES CUNHA RAFAEL DE PINHO ANDRÉ.
Prof. Abrahão Lopes 18 de Setembro de 2013.
Transcrição da apresentação:

Análise Tópica de Links para busca na Web Lucas Augusto Scotta Merlo

Seminário de Recuperação da Informação2 Agenda Introdução Web Método Tradicional de Ranking PageRank Melhoramento dos métodos de ranking Topical PageRank Implementação e Resultados Comparação Conclusão

Seminário de Recuperação da Informação3 Introdução Usuário necessita informação. Solução: Máquinas de busca. Ranking de páginas. Muitos dados na Web Desafios novos para a recuperar a informação. Web Mundial: + 10 bilhões de páginas.(2006) Brasil: + de 4 milhões de páginas registradas no domínio.br (2004) Padrão da Web auxilia: estrutura de links.

Seminário de Recuperação da Informação4 Métodos Tradicionais de Ranking PageRank Desenvolvido pelos fundadores do Google em 1998 para prover um ranking nos resultados da busca. Baseado na estrutura de links da Web. Toda página tem um número de links de saída e links de entrada. Algoritmo de análise de ligação que atribui uma pesagem numérica a cada página da Web, com o propósito de "medir" sua importância relativa dentro deste conjunto.

Seminário de Recuperação da Informação5 PageRank Uma página X tem um alto ranking se: - Tenha muitos links de entrada; - Tenha links de entrada com ranking alto; A BC )

Seminário de Recuperação da Informação6 Melhoramento dos modelos de ranking Incorporar distribuição tópica na representação de cada página da Web como também a contagem de importância de cada página. Vetor content Cu:[C(u1),C(u2),..., C(uT)] Distribuição de probabilidade que representa o conteúdo de u, na qual cada componente representa a contribuição relativa de cada tópico dentro do conteúdo de u para o conteúdo de u como um todo. Este vetor é estático e somente determinado pelo conteúdo.

Seminário de Recuperação da Informação7 Melhoramento dos modelos de ranking Vetor de autoridade Au:[A(u1),A(u2),..., A(uT)]: atribui para cada página u um vetor para medir sua importância, onde A(uk) denota página u's importantes para contagem do tópico k.

Seminário de Recuperação da Informação8 Topical PageRank Assume além da analise de links de entrada e saída proposto pelo PageRank a análise de transições para se chegar a uma página desejada(probabilidades condicionais). 1ª) follow-stay 2ª) follow-jump 3ª) jump-jump

Seminário de Recuperação da Informação9 Topical PageRank Depois que a propagação converge, cada componente A(ui) no vetor de autoridade Au:[A(u1),A(u2),..., A(uT)] é a contagem de autoridade de página u em tópico i. A(u) é o contagem global de autoridade. Pode-se dizer então que a distribuição de autoridade de uma página não só depende de seu conteúdo, mas também das heranças de suas páginas de transições.

Seminário de Recuperação da Informação10 Implementação e Resultados Utiliza-se grafos. ( Nó = página e Aresta = Link ) C/C++. Base arquivo grafo.txt. Principais Funções Insere, busca_link, PageRank e TopicalPageRank. Insere: recebe como parâmetro um ponteiro do tipo da estrutura da lista ligada e um inteiro. Nesta função se aloca a lista ligada na memória. Os dados são inseridos pelo início e ela retorna a lista atualizada. Busca_link: é passada a lista já atualizada e um vetor vazio para se armazenar os links (entrada ou saída) do nó X. Foi criado vetores adicionais (links_entradas) e (links_saidas) para armazenarem a lista de nós de entra e saída respectivamente para cada Nó, alocando este vetor lista na memória.

Seminário de Recuperação da Informação11 Implementação e Resultados Função PageRank, que é calculada conforme: PR(A) é o PageRank da página A, PR(Ti) é o PageRank de páginas Ti que tem um link para a página A, C(Ti) é o número de links de saída em uma página Ti e d é um fator damping (que afeta) 0,85 PR(A) = (1-d) + d (PR(T1)/C(T1) PR(Tn)/C(Tn))

Seminário de Recuperação da Informação12 Implementação e Resultados Função Topical PageRank, que é calculada conforme: ui-> Nó vi -> Nó alpha=0.85; d=0.15; A(v) = 1 / N A(vi) = A(v) / N A Autoridade do Nó (ui) = (1 –d) * Somatório das Páginas V que tem entrada para U ( (alpha * Autoridade A(vi) + ( 1 - alpha ) * o PR do Nó (vi) * Autoridade de ( v)) / Número de Links de saída de v ) + d/N * o PR do Nó (ui)

Seminário de Recuperação da Informação13 Implementação e Resultados Lista simplesmente ligada insere(&links_saidas[num_vertice_origem]->prox,num_vertice_destino); insere(&links_entradas[num_vertice_destino]->prox,num_vertice_origem);

Seminário de Recuperação da Informação14 Telas

Seminário de Recuperação da Informação15

Seminário de Recuperação da Informação16 Comparação Artigo base: Análise de Páginas. TREC.GOV consultas diferentes. Classificador ingênuo de Bayes para gerar Cu:[ ] Melhoria proposta funciona muito bem. Melhor performance que PageRank. Artigo desenvolvido: Análise em grafo. Nó = página e Aresta = Link 10 grafos para testes. Melhor eficiência que PageRank por fazer uma análise global dos dados com o auxilio do vetor content = PR(c) e da Autoridade medida de cada página, e analisando as transições para se chegar a uma página desejada. Diferencia melhor os resultado

Seminário de Recuperação da Informação17 Conclusão A melhoria de PageRank (Topical PageRank) demonstrou que mesmo com o avanço que o Google trouxe em 1998 com seu método de ranking para páginas da Web, existem outras formas eficazes para chegar ao melhor resultado como combinar a distribuição de tópicos e estrutura de links. Incorporarou-se este modelo tópico dentro de PageRank sem afetar a contagem da autoridade global, e ainda prover uma distribuição da autoridade entre tópicos.

Seminário de Recuperação da Informação18 Referências Brin, S., Page, L. (1998) The anatomy of a large-scale hypertextual Web search engine, Em: Proc. of the 7th Intl World Wide Web Conf., pages 107–117, Brisbane,Australia. Zaiane, Osmar R.. (2000) WEB Mining: Concepts, Practices and Research. Em: Simpósio Brasileiro de Banco de Dados, Tutorial, XV SBBD, 2000, João Pessoa.Anais João Pessoa: SBBD, p Nie, L., Davison B., Qi, X.,( 2006) Topical Link Analysis for Web Search. Em Proceedings of the 29th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, Seattle, WA. p Mean Average Precision – Disponível em.Acessad o em 25 de julho de Jones, K S., Wesley, S., Robertson, S.E. (1998) A probabilistic model of information retrieval : development and comparative experiments Em: Information Processing and Management. S. Buttcher, C.L.A. Clarke. (2005)Efficiency vs. Effectiveness in Terabyte-Scale Information Retrieval. Em: The Fourteenth Text REtrieval Conference (TREC 2005) Proceedings. University of Waterloo. Rainbow: text classification tool. – Disponível em.Acessado em 25 de julho de 2007.

Seminário de Recuperação da Informação19 Obrigado!!!