Sistemas de RI na Web Bruno Almeida Pimentel (bap)

Slides:



Advertisements
Apresentações semelhantes
Tutorial Joomla! Gerenciando Artigos Inclusão ou Edição de Artigos
Advertisements

Módulo II – Domine a Internet Introdução a Informática DCC - UFMG.
Internet Introdução à Internet Navegação na WWW (Web)
Técnicas de Pesquisa Bibliográfica
Melhores práticas de Search Engine Optimization (SEO) Curso: Publicidade e Propaganda FACHA – Faculdades Hélio Alonso Setembro 2011 LUIZ AGNER MÍDIAS.
Informática Para Marketing I
Adriano Kaminski Sanches
Apresentação da Monografia
Revisao da literatura Revisao bibliografica Revisao etc
Arquitetura de Máquinas de Busca
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Agentes na Web Márcio David de Magalhães Santos Departamento de Informática UFPE Recife, 1 de junho de 1999.
Divisão de Biblioteca e Documentação FMUSP
Web of Science.
Base SCOPUS 2011 Divisão de Biblioteca e Documentação FMUSP.
Internet: conceitos básicos
Técnicas de Pesquisa na Internet – uma introdução
ESTADO DO PARANÁ NÚCLEO REGIONAL DE EDUCAÇÃO DE GUARAPUAVA.
Trabalhos no Word Índices
Search Engine Optimization
A grande rede mundial de computadores
SEO Search Engine Optimization “Otimização para sites de Busca”
Internet Conglomerado de redes em escala mundial de milhões de computadores interligados pelo TCP/IP que permite o acesso a informações e todo tipo.
Colégio Cruzeiro do Sul Informática Básica Profª.Michele
PORTAL.PERIODICOS CAPES Iniciado no ano 2000 o Portal oferece acesso ao texto completo de revistas científicas e tecnológicas, acesso a bases de dados.
Adriana Libório Arthur Alem
Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
IFSul – Campus Venâncio Aires
Portal Capeswww.periodicos.capes.gov.br Universidade do Vale do Rio dos Sinos – Unisinos Apresentação do Portal.periodicos.CAPES São Leopoldo (RS), 24.
Tutorial de Wordpress. Sobre o Wordpress  O Wordpress é um gerenciador de conteúdo na web (em especial, blogs). A grande diferença com relação a seus.
Mineração na Web Introdução a Recuperação de Informação
Buscando Informação Médica na Internet
Navegação na WWW (Web):
Recuperação de Informação
1. Aprenda o básico sobre o Google
Sistemas de Gerenciamento de Educação a Distância Prof. Silvia Helena Cardoso Prof. Renato M. E. Sabbatini.
Equipe NTM/Santos. SITES DE BUSCA São sites que atuam como robôs na busca de páginas que contém as informações que você procura a partir de palavras chave.
1. 2 São mecanismos capazes de “filtrar” a informação que procuramos na Internet.
Tópicos Avançados de Redes de Computadores Prof. Fabiano Sabha.
Nelson Vieira Nº 12 Manutenção Industrial. Servidor: Em informática, um servidor é um sistema de computação centralizada que fornece serviços a uma.
Sistemas de Gerenciamento de Educação a Distância Prof. Silvia Helena Cardoso Prof. Renato M. E. Sabbatini.
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
PESQUISA BIBLIOGRÁFICA COMO E ONDE PESQUISAR ARTIGOS E PATENTES Renato Turchet Setembro/2005
Localizando informações na Internet - Ferramenta de busca (
M INERAÇÃO DE R ELACIONAMENTOS - L INK M INING Ricardo Prudêncio.
Buscando Informação Médica na Internet NIB - Núcleo de Informática Biomédica Universidade Estadual de Campinas.
Engenhos de Busca Web Equipe: Cássio Melo, Alexandre Barza, Manuela Nascimento e Rodrigo Freitas {cam2, ab, mcn, rqf} Jul/2007.
Profª Angela Tissi Tracierra. É uma arquitetura de rede, onde existem dois módulos básicos na rede: o Servidor e os Clientes.
ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.
Flávia Fátima de Paiva Rezende Universidade Federal de Minas Gerais
The Anatomy of a Large-Scale Hypertextual Web Search Engine Sergey Brin and Lawrence Page Adriano Kaminski Sanches Prof. Dr. Pável Calado Universidade.
Emerald Group Publishing Limited Descubra como aproveitar os benefícios da editora líder mundial de Pesquisa em Gestão.
O que é a I N T E R N E T ? Prefeitura Municipal de Cachoeira do Sul Secretaria Municipal de Educação - SMEd NTM – Cachoeira do Sul Prof. Nilzo Machado.
1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004.
Engenhos de Busca Renato Marcelino de Oliveira. World Wide Web Existem centenas de milhões de paginas na web tratando de variados assuntos.
Classificação de Textos
Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –
Buscadores na Web: um enfoque no Google.
Introdução ao Web Design Prof° Ms. Claudio Benossi
Nº Aluno: Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008.
Rua Professor Veiga Simão | Fajões | Telefone: | Fax: | |
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Introdução a Informática Digital
Interface da Base de Dados PubMed (Curso Básico: Módulo 4)
Breve introdução. INTERNET A Internet é a rede das redes, um conglomerado de milhares de redes electrónicas conectadas criando um meio global de comunicação.
Escola Técnica Machado de Assis Técnico em Informática PROGRAMAÇÃO INTERNET I.
OTIMIZAÇÃO e-workshop gratuito (via Internet) Formadora: Elsa Gonçalves 17 Julho 2014.
Transcrição da apresentação:

Sistemas de RI na Web Bruno Almeida Pimentel (bap) Mariane Mariz Vieira (mmv) Renato Parente (rp2)

Roteiro Introdução Arquitetura Indexação e Análise Rankeamento Crawlers Browsing Sistemas de Buscas Metabuscadores Conclusão Referências

Introdução Evolução da Web 1969 - ARPANET (Telnet, FTP, e-mail, ...) 1989 – Nasce a Web (Tim Berners-Lee) 1990... 1º Browser HTTP HTML

Introdução Evolução da Web 1995 – 60.374 sites Fonte: http://news.netcraft.com/archives/category/web-server-survey/

Introdução Desafios Gigantesco banco de dados com estrutura indefinida Formatos variados Páginas estáticas e dinâmicas

Introdução Desafios Como achar as coisas?

Introdução Evolução dos engenhos de busca 1990 – Archie (indexava os diretórios) 1993 - W3Catalog (indexava o conteúdos das páginas) – coleta manual 1993 – Wandex (1º web crawler) 1994 – WebCrawler (1º full text) ... – AltaVista, Yahoo! 1998 – Google (PageRank)

Arquitetura Crawler-Indexer centralizada

Indexação e Análise Indexação full-text Base de índices invertidos / Forward Index Análise do Formato Reconhecimento de Idioma Processamento de Texto Eliminação de stopwords Operações de normalização Pontuação, espaços, uppercase,... Tokenization Reconhecimento da Seção Indexação de Meta Tag

Page Rank Algoritmos que atribuem pesos a páginas da Internet hiperligadas Mede a importância da página usada em motores de busca

Page Rank O nome “PageRank” é uma marca comercial da Google A patente é atribuída à Universidade de Stanford (Larry Page) Google tem direitos sobre a licença exclusiva da patente Comprada pelo equivalente a US$ 336 milhões em ações em 2005

Page Rank Usa o conceito de votação como parte do algoritmo Um link entre páginas é como um voto Se há um link da página A para a B, então B recebe um voto Analisa a página que recebeu o voto Votos dados por páginas importantes pesam mais

Page Rank Algoritmo usa distribuição de probabilidade Chance de uma pessoa clicar no link aleatoriamente e chegar na página O peso da página A é chamado de PageRank de A ou PR(A)

Page Rank Exemplo: L(B)=2 L(C)=1 L(D)=3 d = 1 Inicialmente, PR(A) = PR(B) = PR(C) = PR(D) = 1/4 = 0,25 PR(A) = 0,25/2 + 0,25/1 + 0,25/3 = 0,4583 A C D B

Crawlers Web crawler é um programa que navega de forma autônoma na Internet Também chamado de Spiders, Bots ou Robots São usados para guardar informações de páginas visitadas Usadas em indexadores Manutenção Sites de tema específico

Crawlers Baseado em políticas: Existem algoritmos para cada política Seleção: quais as páginas para download Revisita: verificar alterações na página Educação: como visitar sem sobrecarregar outras páginas Paralelização: coordenação de crawlers de forma distribuída Existem algoritmos para cada política

Crawlers Naive Best-First Crawler Busca ponderada através de frequências das palavras na página Mantém uma lista de prioridades através dos pesos Considerado ingênuo e um dos primeiros a ser estudado

Crawlers SharkSearch Semelhante ao anterior, mas com refinamento Antes de prosseguir avalia a importância da página de acordo com os ancestrais Possui uma limite de profundidade no grafo de busca Tentativa de evitar visitar páginas irrelevantes

Crawlers InfoSpiders Usa Redes Neurais para decidir qual página será visitada A rede é alimentada pela freqüência de palavras- chaves na página A saída é combinada indicando a qualidade do link Pode trabalhar em multi-thread, onde o agente é uma thread e o crawling possui vários agentes

Browsing Conceito: “Processo de Exploração de Listas e Conjuntos de Documentos” Estruturação de páginas via diretórios Classificação de Informações; Subpastas indicam especificidade; Alta relevância dos resultados encontrados; Informações em mesma pasta possuem informações convergentes.

Browsing Sistemas aonde a base de informação é gerada e indexada pelo homem Difere da abordagem de crawlers Categorização baseada na página toda, ao invés de palavras-chave; Pouca Cobertura Aproximadamente 1% de toda a web Exemplos: Open Directory ( http://www.dmoz.org/); Yahoo (http://www.yahoo.com/) (Híbrido).

Sistemas de Buscas Sistemas que pesquisam informações na internet; Lista de resultados relacionados; Resultados consistem em páginas, imagens, fotos, etc; Obtenção da informação feita de diversas formas Crawlers Browsing Híbrido

Sistemas de Buscas Buscas Gerais Google (http://www.google.com/); Yahoo! (http://www.yahoo.com/); Bing (http://www.bing.com/);

Sistemas de Buscas Buscas (domínios específicos): Scirus (http://www.scirus.com/) – Fins acadêmicos; Froogle (http://www.froogle.com) – Compras; Tucows (http://www.tucows.com) – Software;

Metabuscadores Meta: “abstração”; Sistemas que realizam procuras sem a necessidade de um domínio específico; Nenhuma base de dados necessária; Agrupamento de Informações numa página só;

Metabuscadores Maior abrangência; Mais rapidez; Maior chance de haver mais resultados com tópicos “obscuros”; Bom para pesquisas quantitativas;

Metabuscadores Exemplos: Mamma ( http://www.mamma.com ); Clusty (http://clusty.com/ ); DogPile (http://www.dogpile.com/); SurfWax (http://www.surfwax.com/); Mamma ( http://www.mamma.com ) – várias pesquisas diferentes em uma tela só Clusty (http://clusty.com/ ) – com clusterização DogPile (http://www.dogpile.com/) – páginas amarelas e lista telefônica (apenas para EUA) SurfWax (http://www.surfwax.com/) - pesquisas com domínios “atípicos”, como MSN e Wikipédia Copernic (http://www.copernic.com/) (software ou internet)

Conclusão Sistemas na web possuem arquitetura centralizada e robusta; Formatos de obtenção das informações pela internet (crawling, browsers e híbridos); Sistemas de buscas são tanto gerais como específicos; Metabuscadores realizam buscas agrupando resultados de vários sistemas diferentes;

Dúvidas?

Referências Brin, S., and Page, L., The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Science Department, Stanford University, Stanford, CA 94305 G. Pant, P. Srinivasan, and F. Menczer. Crawling the Web. InM. Levene and A. Poulovassilis, editors, Web Dynamics. Springer, 2003.

Referências http://www2.dbd.puc- rio.br/pergamum/tesesabertas/0313143_06_ca p_05.pdf http://www.scribd.com/doc/379383/RECUPER ACAO-DA-INFORMACAO-NA-WEB http://www.ct.ufrj.br/bib/bibliotecaonline/pesq c&t/metabusca.htm

Referências http://www.dimap.ufrn.br/~roberta/publicacoe s/rita_magazine.pdf http://wikipedia.org/