Sistemas de RI na Web Bruno Almeida Pimentel (bap)

Sistemas de RI na Web Bruno Almeida Pimentel (bap)
Mariane Mariz Vieira (mmv) Renato Parente (rp2)

Roteiro Introdução Arquitetura Indexação e Análise Rankeamento
Crawlers Browsing Sistemas de Buscas Metabuscadores Conclusão Referências

Introdução Evolução da Web 1969 - ARPANET (Telnet, FTP, e-mail, ...)
1989 – Nasce a Web (Tim Berners-Lee) 1º Browser HTTP HTML

Introdução Evolução da Web 1995 – 60.374 sites
Fonte:

Introdução Desafios Gigantesco banco de dados com estrutura indefinida
Formatos variados Páginas estáticas e dinâmicas

Introdução Desafios Como achar as coisas?

Introdução Evolução dos engenhos de busca
1990 – Archie (indexava os diretórios) W3Catalog (indexava o conteúdos das páginas) – coleta manual 1993 – Wandex (1º web crawler) 1994 – WebCrawler (1º full text) ... – AltaVista, Yahoo! 1998 – Google (PageRank)

Arquitetura Crawler-Indexer centralizada

Indexação e Análise Indexação full-text
Base de índices invertidos / Forward Index Análise do Formato Reconhecimento de Idioma Processamento de Texto Eliminação de stopwords Operações de normalização Pontuação, espaços, uppercase,... Tokenization Reconhecimento da Seção Indexação de Meta Tag

Page Rank Algoritmos que atribuem pesos a páginas da Internet hiperligadas Mede a importância da página usada em motores de busca

Page Rank O nome “PageRank” é uma marca comercial da Google
A patente é atribuída à Universidade de Stanford (Larry Page) Google tem direitos sobre a licença exclusiva da patente Comprada pelo equivalente a US$ 336 milhões em ações em 2005

Page Rank Usa o conceito de votação como parte do algoritmo
Um link entre páginas é como um voto Se há um link da página A para a B, então B recebe um voto Analisa a página que recebeu o voto Votos dados por páginas importantes pesam mais

Page Rank Algoritmo usa distribuição de probabilidade
Chance de uma pessoa clicar no link aleatoriamente e chegar na página O peso da página A é chamado de PageRank de A ou PR(A)

Page Rank Exemplo: L(B)=2 L(C)=1 L(D)=3 d = 1 Inicialmente, PR(A) = PR(B) = PR(C) = PR(D) = 1/4 = 0,25 PR(A) = 0,25/2 + 0,25/1 + 0,25/3 = 0,4583 A C D B

Crawlers Web crawler é um programa que navega de forma autônoma na Internet Também chamado de Spiders, Bots ou Robots São usados para guardar informações de páginas visitadas Usadas em indexadores Manutenção Sites de tema específico

Crawlers Baseado em políticas: Existem algoritmos para cada política
Seleção: quais as páginas para download Revisita: verificar alterações na página Educação: como visitar sem sobrecarregar outras páginas Paralelização: coordenação de crawlers de forma distribuída Existem algoritmos para cada política

Crawlers Naive Best-First Crawler
Busca ponderada através de frequências das palavras na página Mantém uma lista de prioridades através dos pesos Considerado ingênuo e um dos primeiros a ser estudado

Crawlers SharkSearch Semelhante ao anterior, mas com refinamento
Antes de prosseguir avalia a importância da página de acordo com os ancestrais Possui uma limite de profundidade no grafo de busca Tentativa de evitar visitar páginas irrelevantes

Crawlers InfoSpiders Usa Redes Neurais para decidir qual página será visitada A rede é alimentada pela freqüência de palavras- chaves na página A saída é combinada indicando a qualidade do link Pode trabalhar em multi-thread, onde o agente é uma thread e o crawling possui vários agentes

Browsing Conceito: “Processo de Exploração de Listas e Conjuntos de Documentos” Estruturação de páginas via diretórios Classificação de Informações; Subpastas indicam especificidade; Alta relevância dos resultados encontrados; Informações em mesma pasta possuem informações convergentes.

Browsing Sistemas aonde a base de informação é gerada e indexada pelo homem Difere da abordagem de crawlers Categorização baseada na página toda, ao invés de palavras-chave; Pouca Cobertura Aproximadamente 1% de toda a web Exemplos: Open Directory ( Yahoo ( (Híbrido).

Sistemas de Buscas Sistemas que pesquisam informações na internet;
Lista de resultados relacionados; Resultados consistem em páginas, imagens, fotos, etc; Obtenção da informação feita de diversas formas Crawlers Browsing Híbrido

Sistemas de Buscas Buscas Gerais Google (http://www.google.com/);
Yahoo! ( Bing (

Sistemas de Buscas Buscas (domínios específicos):
Scirus ( – Fins acadêmicos; Froogle ( – Compras; Tucows ( – Software;

Metabuscadores Meta: “abstração”;
Sistemas que realizam procuras sem a necessidade de um domínio específico; Nenhuma base de dados necessária; Agrupamento de Informações numa página só;

Metabuscadores Maior abrangência; Mais rapidez;
Maior chance de haver mais resultados com tópicos “obscuros”; Bom para pesquisas quantitativas;

Metabuscadores Exemplos: Mamma ( http://www.mamma.com );
Clusty ( ); DogPile ( SurfWax ( Mamma ( ) – várias pesquisas diferentes em uma tela só Clusty ( ) – com clusterização DogPile ( – páginas amarelas e lista telefônica (apenas para EUA) SurfWax ( - pesquisas com domínios “atípicos”, como MSN e Wikipédia Copernic ( (software ou internet)

Conclusão Sistemas na web possuem arquitetura centralizada e robusta;
Formatos de obtenção das informações pela internet (crawling, browsers e híbridos); Sistemas de buscas são tanto gerais como específicos; Metabuscadores realizam buscas agrupando resultados de vários sistemas diferentes;

Dúvidas?

Referências Brin, S., and Page, L., The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Science Department, Stanford University, Stanford, CA 94305 G. Pant, P. Srinivasan, and F. Menczer. Crawling the Web. InM. Levene and A. Poulovassilis, editors, Web Dynamics. Springer,

Referências rio.br/pergamum/tesesabertas/ _06_ca p_05.pdf ACAO-DA-INFORMACAO-NA-WEB c&t/metabusca.htm

Referências s/rita_magazine.pdf

Sistemas de RI na Web Bruno Almeida Pimentel (bap)

Apresentações semelhantes

Apresentação em tema: "Sistemas de RI na Web Bruno Almeida Pimentel (bap)"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Sistemas de RI na Web Bruno Almeida Pimentel (bap)

Apresentações semelhantes

Apresentação em tema: "Sistemas de RI na Web Bruno Almeida Pimentel (bap)"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback