MC115 – Recuperação de Informação

Slides:



Advertisements
Apresentações semelhantes
Tecnologias para Internet Thyago Maia Tavares de Farias Aula 19.
Advertisements

Ferramenta de apoio aos testes baseados em requisitos Acadêmico: Leandro da Cunha Orientador: Everaldo Artur Grahl.
Folksonomia para expansão de consultas na web Autores: - Jéssica Cintra P. Silva - Robson Amaral Bacarin Maio/2009.
Texto dissertativo-argumentativo O desenvolvimento
Teoria contingencial!! 1.
Introdução e Conceitos.
AKKA.
CÁLCULO NUMÉRICO Aula 2 – Introdução ao Programa de Computação Numérica (PCN) e Teoria dos Erros.
Ordenação dos Elementos de um Vetor - Bubble Sort e Quick Sort .
Funções.
Introdução Os pesquisadores através da mensuração descrevem fenómenos que existem no mundo empresarial em termos de por exemplo, demografia, comportamento,
IX ELAVIO FABIANA SIMÕES E SILVA ORIENTADORA: VITÓRIA PUREZA
Redes Neurais Artificiais
Emergence of Scaling in Random Networks
Análise Discriminante
RODOLFO SOARES TEIXEIRA OBMEP NA ESCOLA
FACULDADE EDUCACIONAL DE MEDIANEIRA MÉTODOS E TÉCNICAS DE PESQUISA
Seleção de Atributos.
Fábrica de Software.
Browser Um browser (web browser), ou navegador, é um programa de computador que permite aceder a documentos virtuais da Internet, também conhecidos como.
Narjara Prates Gonçalves Universidade Estadual do Sudoeste da Bahia
Métodos de Pesquisa: Seqüencial e Binária
Manual do Participante
Objetividade É um acordo entre juízes especialistas relativo ao que é observado, ou o que deve ser ou o que foi feito em pesquisa Quanto maior a objetividade.
EGP, CPC, 2004/05 Problema e Algoritmos de Colocação de Professores
ALGEBRA LINEAR AUTOVALORES E AUTOVETORES Prof. Ademilson
Planejamento de estratégias:
Pedro Henrique de Oliveira Valdemir Aparecido Pires
PPGT Aluno: Arthur Neiva Fernandes Disciplina: Prática Científica
Métodos Quantitativos Avançados
Parte III – Planejando o Projeto
INTRODUÇÃO À COMPUTAÇÃO PARALELA
Métodos Numéricos de Determinação de Raízes: Bisseção, Secante e Newton-Raphson Professor.: Heron Jr.
Alex Sandro Rolland de Souza
Prof: Márcio Soussa Centro Universitário Jorge Amado
Metodologia Científica
Metodologia Científica
Arranjo Físico Celular
Métodos de pesquisa Prof. Suzana M. Berriel 4º período.
Análise Sintática Botton Up Diomara M. R. Barros
INTRODUÇÃO AS REDES NEURAIS
A INTERNET COMO PLATAFORMA DE TRANSAÇÕES COMERCIAIS NO BRASIL
Universidade Federal do Paraná
Computação Gráfica (Aula 3)
Organização básica de arquivos
METODOLOGIA CIENTÍFICA APLICADA A ANÁLISE AMBIENTAL
DISTRIBUIÇÕES AMOSTRAIS
Elektra: Um chatterbot para uso em ambiente educacional
Aula 07 e 08 - Funções Definição de função, representação de funções, função crescente e decrescente, função linear , polinomial, racionais e algébricas.
Complexidade de Algoritmos
Serviço de Psicologia e Orientação
Estudo caso-controle Hjm jul-2001.
Como funciona o MapReduce
INF 1771 – Inteligência Artificial
Acessibilidade, Usabilidade e Navegabilidade
Como montar uma apresentação de slides
Trabalho de Conclusão de Curso I
Manuais Administrativos
Mestrado Profissional em Física Médica
Redução de Instâncias Cesar Lima Pereira.
INSTITUTO DE PESQUISAS ENERGÉTICAS E NUCLEARES IPEN–CNEN/SP
Dissertação Gustavo Volpi nº 15 Marina Saffran nº 26 1m2.
Rafael Duarte Alexandre Mota [rmd,
INF 1771 – Inteligência Artificial
TIPOS DE TRABALHO CIENTÍFICO
Metodologia Científica e Tecnológica
AULA FEV. 19 SUMÁRIO NATUREZA E GESTÃO DAS ORGANIZAÇÕES
Universidade Federal de Santa Catarina
Prof. Elisson de Andrade
Prof. Elisson de Andrade
Transcrição da apresentação:

MC115 – Recuperação de Informação Utilização da Estrutura de Links Para Recuperação e Clustering de Documentos na WEB Professor: Dr. Ilmério Reis da Silva Marcos Alexandre Rodrigues – marcos@rapidanet.com.br Uelson Ricardo do Nascimento – ricardo@pos.facom.ufu.br

Sumário Motivação Objetivos Introdução PARTE I – Análise de Links Para Recuperação de Informação Estrutura de Links Algoritmos de Análise de Links (PageRank e HITS) Vantagens e Desvantagens PARTE II – Clustering de Documentos baseado em Links Análise de Links – Dificuldades Desafios Tipos de Ranking Classificação kNN Implementação (Trabalho Prático) Conclusões Referências

Motivação A WEB consiste num imenso repositório de informações que divergem em conteúdo, qualidade e tempo de existência. As características das informações presentes na Web trazem consigo novos desafios relacionados à recuperação de informações neste ambiente. Diante deste cenário, surge a necessidade do desenvolvimento de novas técnicas para melhorar a eficiência dos SRIs para Web, possibilitando assim que o usuário encontre de forma mais fácil e rápida as informações que ele necessita.

Objetivos Melhorar a eficiência dos SRIs (ordenação) Construção de Clusterings de Documentos baseado nas informações dos Links Comparação dos métodos tradicionais de Clustering com o método baseado em Links

PARTE I Análise de Links Para Recuperação de Informação

Introdução Estrutura de links (Ligações) Ordenação e Classificação de Informações na WEB Ordenação Medida de importância das páginas (se uma página é apontada por várias outras, ela é uma página importante) Classificação Conjunto de páginas do mesmo assunto (se uma página aponta pra outra página, elas têm assuntos relacionados)

Estrutura de Links Links Estruturais Permitem ao usuário navegar pelas páginas de um site, ou de um domínio específico Links Funcionais Conectam sites de diferentes domínios, que possuem informações relacionadas Links de Propaganda Uma página A faz propaganda de uma página B, geralmente a acordos entre estas páginas para que estas propagandas sejam criadas

Estrutura de Links - Grafo de Links da Web

Estrutura de Links Links de Saída Forwardlinks ou Outlinks Links de Entrada Backlinks ou Inlinks

Algoritmos de Análise de Links Os algoritmos de análise de links podem ser divididos em duas famílias: algoritmos independentes da consulta e algoritmos dependentes da consulta.

Algoritmos de Análise de Links Algoritmos Independentes da Consulta Os algoritmos independentes da consulta ou globais associam uma medida de importância intrínseca a cada página pertencente à base de índices de um engenho de busca, sem levar em consideração informações textuais das páginas ou informações originadas a partir de uma consulta específica.

Algoritmos de Análise de Links Algoritmo PageRank O algoritmo PageRank leva em consideração além do número de inlinks que uma página possui, a importância das páginas que apontam para esta página. Logo, uma página que é apontada pela “folhaonline” por exemplo receberá maior importância, do que outra página que é apontada por uma página desconhecida.

Algoritmos de Análise de Links r(i) = d *  r (j) / N(j) + (1-d)/m, j  B(i) Onde: d representa uma variável calculada empiricamente; B(i) representa o conjunto de inlinks da página i; N(j) representa o número de links presentes no corpo da página j (ountlinks); m é o número total de páginas existentes no subconjunto da Web analisado. O Google utiliza o valor PageRank juntamente com valores gerados por algoritmos de busca textuais para responder as consultas por palavras-chaves submetidas ao engenho.

Algoritmos de Análise de Links Algoritmos Dependentes da Consulta Os algoritmos dependentes da consulta ou locais associam uma medida de importância a cada página pertencente ao subconjunto da coleção de documentos Web retornados em resposta a uma determinada consulta.

Algoritmos de Análise de Links Algoritmo HITS O algoritmo HITS, proposto por Kleinberg, associa a cada página dois valores de ranking dependentes da consulta: o peso de autoridade e o peso de hub. A idéia básica do algoritmo HITS consiste em identificar um pequeno subgrafo (S) da Web - subgrafo formado pelas URLs retornadas em resposta a uma consulta, e por páginas que apontam e são apontadas por páginas deste conjunto. Uma página é considerada boa autoridade se é apontada por muitos bons hubs, e uma página é considerada bom hub se aponta para muitas boas autoridades.

Algoritmos de Análise de Links

Algoritmos de Análise de Links Passo(1): construção do grafo base (i) o usuário submete a consulta (ii) um conjunto inicial de páginas, denotado por conjunto raiz é retornado (iii) o conjunto raiz é expandido, de forma a incluir as páginas que apontam e são apontadas por páginas do conjunto raiz, este novo conjunto formado pelas páginas da resposta e sua vizinhança é chamado de grafo base (iv) o grafo base passa por um processo chamado de limpeza do grafo, que elimina arcos que conectam nós de um mesmo domínio

Algoritmos de Análise de Links Passo(2): cálculo dos pesos de Hubs e Autoridades (i) associa-se a cada nó (página) do grafo base um peso de Hub e um peso de Autoridade que são inicializados com valores arbitrários, depois é calculado de acordo com a relação de reforço mútuo através de sucessivas iterações das seguintes equações: a[pagina] = Σ h[ j ] j Є I(pagina) (numero de inlinks) h[pagina] = Σ a[ j ] j Є O(página) (numero de outlinks) (ii) a computação dos pesos de Hub e Autoridade se repete até o momento em que os valores de Autoridade e Hub não mais variam acima de um valor pré-estabelecido entre sucessivas iterações, neste momento diz-se que a computação converge

Algoritmos de Análise de Links Passo(3): filtro de Hubs e Autoridades após a convergência uma lista contendo as c páginas maiores Autoridade e os c maiores Hubs é retornada (neste algoritmo o valor de c varia entre 5 e 10) Como a resposta deste algoritmo consiste apenas em retornar os maiores Hubs e as maiores Autoridades apenas o valor relativo dos pesos de Hub e Autoridade é levado em consideração. Na manipulação dos pesos é aplicada uma normalização para evitar overflow dos pesos durante o processo iterativo

Vantagens e Desvantagens PageRank Vantagens Pre-processamento, não utiliza tempo adicional para análise de links no momento da consulta Desvantagens Como os valores são pré-processados, páginas não relevantes para uma dada consulta podem possuir maior valor de PageRank que páginas relevantes pra consulta, este problema pode ser resolvido através da análise do conteúdo dos documentos posteriormente à análise de links

Vantagens e Desvantagens HITS Vantagens O algoritmo PageRank baseia-se na noção que páginas importantes são aquelas que são apontadas por outras páginas importantes. Em muitos casos porém, os relacionamentos entre as páginas Web necessitam de um modelo diferente, por exemplo, as páginas dos principais engenhos de busca, apesar de todas elas serem importantes, elas não se auto relacionam, o algoritmo HITS consiste em uma maneira de reconhecer a importancia destas páginas Desvantagens O tempo de resposta a uma data consulta é demorado, devido ao cálculo para montar o ranking do subgrafo da cosulta

PARTE II Clustering de Documentos baseado em Links

Análise de Links - Dificuldades 70% das consultas contem apenas um termo 85% dos usuários visitam apenas as duas primeiras páginas 25% dos sites ficam menos de 20 dias na web

Desafios Sinonímia: recuperar termos sinônimos. Ex.: Carro – automóvel Polissemia: termo possui mais de um significado. Ex: manga, Petri Persuação do Engenho de Busca: keyword spamming, meta keyword

Tipos de Ranking Baseados em classificação humana. Ex.: Yahoo Baseados em informações sobre utilização do Site (doubleclick) Baseados na conectividade (links)

Classificação kNN (k nearest neighbors) Support vector machine (SVM) Naive Bayes

kNN Técnica utilizada em reconhecimento de padrão Cada elemento é classificado como um ponto em um espaço n-dimensional

Implementação rodar o modelo vetorial extrair os 2.000 documento no topo do ranking gerado no passo 1 montar cluster tradicional e baseado em links dos 2.000 documentos escolher o melhor cluster para os dois casos reformular a consulta com realimentação de relevantes para as duas estratégias reexecutar vetorial com base na consulta reformulada medir precisão x revocação para os dois tipos de clusters (tradicional e baseado em links)

Conclusões A utilização das informações contidas nas Estruturas de Links podem trazer um grande beneficio para os SRIs e para o Clustering de Documentos na WEB. Os Links muitas vezes podem identificar melhor um documento do o seu próprio conteúdo A utilização da Estrutura de Links e do conteúdo dos documentos podem trazer os melhores resultados

Bibliografia Pavel Calado, Marco Cristo, Edlone Moura. Combining Link-Based ad Content-Based Methods for Web Document Classification. Proeedings of the 12th International Conference on Information and Knowledge Management CIKM 2003 Pavel Calado, Berthier Ribeiro-Neto. Using Link Structure for Information Retrieval in The World Wide Web Roberta de Souza Coelho, SAAL – Um Sistema para Armazenamento e Análise da Estrutura de Links da Web, Tese Mestrado UFPE