1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004.

1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004

2 Roteiro Introdução Desafios Caracterizando a Web Engenhos de busca Browsing Metabuscas Busca usando Hyperlinks Conclusão

3 Um pouco de história… A Web começou em 1990 como um projeto do CERN. Em 1991 algumas instituições de pesquisa e ensino superior aderem à Web. Em 1992 nascem os primeiros browsers com GUI (Erwise e Viola). No início de 1993 já existiam cerca de 50 sites na Web. Explosão exponencial…

4 Web vista como um grande banco de dados não estruturado e ubíquo. Dados textuais Outras mídias Necessidade de ferramentas Processamento de linguagem natural Introdução

5 Formas de busca na Web: Engenhos de busca Diretórios Web Exploração Web Introdução

6 Em relação aos dados: Dados Distribuídos. Volatilidade dos dados. Grande Volume. Dados não estruturados e redundantes. Qualidade dos dados. Dados Heterogêneos. Desafios

7 Em relação ao usuário e sua interação: Especificar Consulta. Interpretar a resposta do sistema. Submeter uma boa consulta para o sistema e obter uma resposta relevante Desafios

8 Amostragem de todos os endereços numéricos. Nomes de domínios (www) Estudos de consultas randômicas Mensurando a Web

10 Sistema RI padrão VS Web Principais arquiteturas Arquitetura centralizada Arquitetura distribuída Engenhos de busca

11 Interface Query Engine Index Indexer Web Spider Arquitetura centralizada

12 Arquitetura centralizada Principais problemas Sobrecarga dos servidores Aumento de tráfego (spiders) Informação recolhida sem coordenação

13 Arquitetura distribuída Novos conceitos gatheres (recolhedores) brokers object cache replication manager

14 Replication Manager Broker Arquitetura distribuída Web Site Broker Gatherer Object Cache

15 Authorities São páginas que são reconhecidas como fontes confiáveis e úteis de informações sobre um determinado assunto. In-degree (número de links para a página) é uma medida simples de Authorities. trata todos os links como iguais.

16 Hubs São páginas de índice que possuem muitos links úteis para páginas de conteúdo relevante.

17 HITS Algoritmo desenvolvido por Kleinberg em 1998. Tenta determinar computacionalmente Hubs e Authorities de um determinado assunto observando o subgrafo relevante da web. Baseado em fatos mutuamente recursivos: Hubs apontam para muitos authorities. Authorities são apontados por muitos hubs.

18 Algoritmo HITS Computa hubs e authorities para um assunto especificado por uma query Ex., “Poesia” Inicialmente, determina um conjunto de páginas relevantes para a query Chamamos esse conjunto de base S Analiza a estrutura de links do subgrafo da Web definido por S Busca páginas authoritys e hubs nesse conjunto

19 Construindo um Subgrafo Para uma dada query Q, o conjunto de documentos retornados pelo engenho de busca é denominado de conjunto raiz (root) R Procedimento: Adicione R a S Adicione a S todas as páginas que apontam para qualquer página em R Adicione a S todas as páginas que são apontadas por qualquer página em R S R

20 PageRank Método alternativo de análise de links usado pelo Google Brin & Page, 1998 Pode não fazer a distinção entre hubs e authorities Ordena páginas apenas por authority ou apenas por hubs É aplicado à Web como um todo, e não à vizinhança local das páginas de resultado da consulta (Query).

21 Visão Geral do PageRank Processo em que o Ranking da página atual é dividido entre as páginas para as quais ela aponta..1.09.05.03.08.03

22 Spiders (Robots/Bots/Crawlers) Utilizam um pequeno número de páginas para começar a busca Seguem todos os links encontrados nas páginas para encontrar páginas adicionais Incluem todas as novas páginas encontradas em uma tabela de índices invertidos As páginas iniciais podem ser submetidas manualmente

23 Estratégias de Busca Busca em Largura

24 Estratégias de Busca Busca em Profundidade

25 Prós e Contras… Busca em largura requer muita memória para guardar todos os nós do nível anterior porém é o método padrão utilizado. Busca em profundidade necessita de menos memória porém pode se “perder” em um único nó, dada a alta conectividade da Web.

26 Spider Milti-tarefa Fazer o download de páginas é o “Gargalo” dos engenhos de busca Melhor ter múltiplas “threads” rodando em hosts diferentes Maximizar a distribuição das URL’s para aumentar o “through-put” e evitar sobrecarregar um servidor. Primeiros spiders do Google tinham cerca de 300 threads cada, e juntos podiam fazer o download de cerca de 100 páginas por segundo

27 Directed/Focused Spidering Selecionam as páginas mais “interessantes” primieiro. Dois estilos de Foco: Direcionado ao Tópico Direcionado aos Links

28 Spidering direcionado ao Tópico Assume que tópico é disponível Seleciona filas de links por similaridade ex., Co-seno Preferencialmente, explora páginas relacionadas com um tópico específico

29 Spidering direcionado ao Link Monitora links e verifica o in-degree e out-degree de cada página encontrada. Busca na fila primeiramente páginas populares que são apontadas por muitos links (authorities). Busca na fila primeiramente páginas “sumário”com muitos links (hubs).

30 Indexação A maioria dos sistemas usam variantes do arquivo invertido Lista de palavras ordenadas com um conjunto de ponteiros para as páginas em que elas ocorrem Eliminação de stopwords Operações de normalização Pontuação, espaços, uppercase,... Armazenamento da descrição de cada webpage

31 Busca no Arquivo de Índices Consulta é respondida através de busca binária no arquivo de índices Consulta formada por várias palavras o sistema recupera os índices para cada palavra isolada os resultados da recuperação são combinados para gerar a resposta final

32 Busca no Arquivo de Índices Arquivos de índices invertidos também podem armazenar as ocorrências das palavras nos documentos (full inversion) Maior custo de armazenagem Possibilidade de consultas por frases e expressões através da proximidade das palavras no documento

33 Busca no Arquivo de Índices Para encontrar palavras que iniciam com um dado prefixo, é necessário fazer duas buscas binárias na lista de palavras ordenadas Ex.: auto-análise Buscas mais complexas, como palavras com erro, requerem um tempo considerável de processamento Por causa do tamanho do vocabulário

34 Indexação Granularidade do índice: ponteiros para páginas ou para as posições das palavras dentro da página O índice pode ser menos denso se apontar para blocos lógicos de páginas Páginas são agrupadas em blocos dependendo das suas palavras menos freqüentes Mais significativas Reduz o tamanho dos ponteiros Reduz número de ponteiros Úteis em uma arquitetura distribuída

35 Browsing Diretórios Web Pequena cobertura geralmente menos de 1% das páginas Links geralmente possuem conteúdos mais relevantes Alguns são focados em um domínio específico Muitas ferramentas de busca são híbridas Exemplo: Yahoo!

36 Browsing Diretórios Web Vantagens Documentos mais relevantes Possibilidade de armazenar o conteúdo de todas as páginas classificadas, por serem em menores quantidades Desvantagens Nem todos os documentos são classificados Documentos mudam constantemente Tentativas de classificação automática não são 100% efetivas

37 Metabuscas Sevidores Web que enviam uma consulta a vários motores de busca, diretórios Web e outros bancos de dados Coletam as respostas e unificam o resultado Vantagens Habilidade em unificar resultados de várias origens Utilização de uma interface única

38 Buscas Usando Hyperlinks Linguagens de Consulta Web Até agora, vimos consultas baseadas no conteúdo de cada página Porém, consultas também podem incluir a estrutura de links que conecta as páginas Principal modelo de dados: Grafo onde os nós representam as páginas e as arestas representam os hyperlinks entre as páginas Exemplo de consulta: Consultar todas páginas Web que contenham ao menos uma imagem e possui ao menos 3 links

39 Conclusão A Internet cresce de forma rápida e não estruturada Necessidade de ferramentas de RI mais eficientes Aumento da demanda de armazenamento e processamento de sistemas de RI Apesar dos avanços, é muito difícil resolver estes problemas de forma definitiva

1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004.

Apresentações semelhantes

Apresentação em tema: "1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004.

Apresentações semelhantes

Apresentação em tema: "1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback