Engenhos de Busca Web Equipe: Cássio Melo, Alexandre Barza, Manuela Nascimento e Rodrigo Freitas {cam2, ab, mcn, rqf} Jul/2007.

Slides:



Advertisements
Apresentações semelhantes
Modelo Probabilístico
Advertisements

Operações sobre o Texto
Porque optar por ReadyGo?
Pesquisa na Internet Aula Teórica 2.
Servidor de DNS Profº Marcio Funes.
Java Básico Orientação a Objeto Marco Antonio Software Architect Fev/2008.
Sistemas operacionais
Melhores práticas de Search Engine Optimization (SEO) Curso: Publicidade e Propaganda FACHA – Faculdades Hélio Alonso Setembro 2011 LUIZ AGNER MÍDIAS.
Informática Para Marketing I
Indexação Automática de Documentos
CINAHL Tutorial de Pesquisa Básica
Engenharia de Software
Engenharia de Software
Arquitetura de Máquinas de Busca
Aplicação de XML Web Semântica Tópicos Avançados em Bancos de Dados II
GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.
SISTEMAS DISTRIBUÍDOS
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Introdução a Teoria da Classificação
Divisão de Biblioteca e Documentação FMUSP
Base SCOPUS 2011 Divisão de Biblioteca e Documentação FMUSP.
Aspectos Avançados em Engenharia de Software Aula 3 Fernanda Campos
Search Engine Optimization
Prof. Ilaim Costa Jr. Novas Tecnologias Prof. Ilaim Costa Jr.
Redes de Computadores Prof. Rafael Silva.
Prof. Wellington D. Previero
Bruno Cavalcante (bmsc) Gabriel Monteiro (gam) João Florêncio (jcpf) Lucas Marinho (lpm)
Linguagem de Programação II Parte IX
Estratégias Cliente-Servidor para SIGWeb
Tópicos em redes e sistemas distribuídos Carlos Oberdan Rolim Ciência da Computação Sistemas de Informação.
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Rodrigo Cristiano Silva
Técnicas de pesquisa avançada na Internet
Equipamentos de Redes Aula 3
MapReduce Conceitos e Aplicações
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação
Conceitos de J2EE para a WEB
Recuperação de Informação
1. Aprenda o básico sobre o Google
SISTEMAS OPERACIONAIS I
SISTEMAS OPERACIONAIS I
A abordagem de banco de dados para gerenciamento de dados
Inteligência Artificial Web Semântica
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Aplicações de redes em sistemas de informação
Dados abertos interligados
ANTONIO LIMEIRA EDUARDO FRANKLIN LUCAS ARANHA RANIERI VALENÇA RODRIGO PIGATTI DNS.
Introdução a WEB SEMÂNTICA Prof. Dr. Fernando Gauthier INE/UFSC.
Aguilar Figueira Dias Orientador Prof. Dr. João Bosco da Mota Alves
Projeto Supervisionado no Desenvolvimento de Aplicações Profissionais na Web Introdução a Aplicações Web.
DNS Willamys Araújo 1. Introdução A internet possui uma infinidade de sites e, para acessá-los, você digita um endereço no campo correspondente do seu.
ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.
Sistemas de Informação – mais que tecnologia Profa. Reane Franco Goulart.
Pesquisa na Internet Aula Teórica 2.
Pesquisa na Internet Aula Teórica 2. Motivação Grande número de páginas na Web Nem sempre é possível saber o endereço exato das páginas que você procura.
Aprendizado da rede O aprendizado, na maioria das vezes, constitui no ajuste do conjunto de pesos de modo que a rede consiga executar uma tarefa específica.
1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004.
Engenhos de Busca Renato Marcelino de Oliveira. World Wide Web Existem centenas de milhões de paginas na web tratando de variados assuntos.
UNIVERSIDADE ESTADUAL PAULISTA “Júlio de Mesquita Filho” Faculdade de Filosofia e Ciências – Campus de Marília Universidade Aberta à Terceira Idade WEB.
Sistemas de Arquivos Sistemas Operacionais Profa. Priscila Facciolli
Sistemas de RI na Web Bruno Almeida Pimentel (bap)
Ferramentas para Sistema Web Sistemas de Informação Aula 9 – 08/05/2013.
Rodrigo Cristiano Silva Introdução A HTML 5 foi idealizada por um grupo de “freethinkers” que estavam cansados do padrão oficial da.
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Modelagem de dados XML Yago Zacarias Gomes Coutinho Ribeiro
SISTEMAS DE BUSCA NA INTERNET LEANDRO COSTA DO NASCIMENTO 09/04/2007.
UNIVERSIDADE ESTADUAL PAULISTA “Júlio de Mesquita Filho” UNATI - Marília Buscadores na Web: um enfoque no Google. Aula 07.
UNIVERSIDADE CATÓLICA DE PELOTAS CENTRO POLITÉCNICO CURSO DE CIÊNCIA DA COMPUTAÇÃO Redes de Computadores Ferramenta NTop (Network Traffic Probe) Explorador.
Transcrição da apresentação:

Engenhos de Busca Web Equipe: Cássio Melo, Alexandre Barza, Manuela Nascimento e Rodrigo Freitas {cam2, ab, mcn, rqf} Jul/2007

Roteiro Evolução e Desafios; Arquitetura; Rankeamento; Authorities, Hubs, Hits, PageRank e Hilltop; Spiders; Estratégias de Busca; Indexação; Browsing; Metabuscas; Conclusão.

Evolução Web Gigantesco e ubíquo banco de dados, sem estrutura definida. Como se comunicar ?

Evolução Web Tim Berners-Lee do CERN(Conseil Européen pour la Recherche Nucleaire) cria o WWW; Libwww, Erwise, Voilawww, Mosaic(NCSA), etc...

Evolução Web Em 1993, havia aproximadamente 50 sites; Netcraft Survey - 108,810,358 (fevereiro de 2007). Aumento de % em 14 anos. "The good thing about digital media is that you can save everything. The bad thing about digital media is that you can lose everything." - Brewster Kahle, fundador do The Internet ArchiveThe Internet Archive "The good thing about digital media is that you can save everything. The bad thing about digital media is that you can lose everything." - Brewster Kahle, fundador do The Internet ArchiveThe Internet Archive

Desafios Dados: Descentralização; Volatilidade; Volume; Redundancia; Qualidade - The cult of the amateur is digital utopianism’s most seductive delusion… It suggests, mistakenly, that everyone has something interesting to say.

Desafios Pessoas: Especificar Consulta. Interpretar a resposta. Objetivo: Respostas relevantes para cada consulta.

Arquiteturas Sistemas RI padrão + WEB Principais arquiteturas Arquitetura centralizada Arquitetura distribuída

Arquitetura Centralizada Query Engine IndexIndexer Web

Arquitetura Centralizada Principais problemas: Sobrecarga dos servidores Aumento de tráfego (spiders) Informação recolhida sem coordenação

Arquitetura Distribuida

Authorities Definição: são páginas que são reconhecidas por proverem informações significantes, confiáveis e úteis sobre um determinado tópico Busca informação desejada dentro dos sites

Authorities Authorities for query: “Java” java.sun.com comp.lang.java FAQ Authorities for query “search engine” Yahoo.com Excite.com Lycos.com Altavista.com Authorities for query “Gates” Microsoft.com roadahead.com

Hubs Definição: termo para o grupo que une todos os sites web que recebem grande quantidade de links e que por sua vez fazem laço com páginas web que consideram importantes. Ou seja, são páginas de índices que provêem grande quantidade de links úteis para páginas de conteúdo relevante

Authorities e Hubs Na definição de Jon Kleinberg, de hubs e autoridades: uma boa autoridade será uma página apontada por bons hubs e um bom hub será uma página que aponta para boas autoridades.

HITS (Hyperlink Induced Topic Search) Tenta determinar hubs e autoridades em um tópico particular através da análise de um grafo relevante da web É baseado em fatos recursivos pois hubs apontam para autoridades e autoridades são apontadas por hubs. O peso de cada link dependerá dos índices hub e authority da página em que se encontra. O processo de cálculo é recursivo e pode envolver bilhões de páginas. Quando de sua concepção, o algoritmo mostrou-se impraticável.

Construindo um subgrafo Hubs apontam para muitas autoridades. Autoridades são apontadas por muitos hubs. HubsAuthorities

PageRank Atribui um peso para cada elemento “hiperlincado”. Os links são como votos. Quanto mais apontamentos a página tiver, maior vai ser o page rank dela.

PageRank Medida de importância de uma página para o Google. Download da barra de ferramentas do Google.

Page Rank

Falhas: Qualquer página contida no índice, aumentava o PageRank da página que recebia o link. Webmasters estavam comprando links, para aumentar seu pagenRank E uma vez tendo contruído um site de alto pagerank, ficava fácil para os webmasters construírem outros sitese, de imediato, apontar links de suas próprias páginas e conseguir um bom posicionamento inicial. Solução: Algoritmo Hilltop

Algoritmo Hilltop O Hilltop procura detectar hosts afiliados; se um link apontar para uma página em um host afiliado, o valor do link é descontado. Hosts afiliados = mesmos primeiros três octetos de endereço IP Ex.: Hosts com IPs e (ou qualquer outro host de IP xxx) são considerados afiliados

Algoritmo Hilltop O hilltop deixa claro que se eu quiser ter bom posicionamento do meu site de filmes é muito melhor eu ter um link em mdb.com (um expert no tópico filmes) do que um link em nature.com

Spiders (Robots/Bots/Crawlers) Procuram informações nos sites Entram nas páginas e lêem o conteúdo assim como os internautas. Não avaliam o site propriamente. Avaliam o código que o gera. O código deve estar em perfeita sintonia com os critérios que esses programas utilizam. 24

Spiders (Robots/Bots/Crawlers) Alguns desses critérios: Indexação Banco de dados é criado para cada termo de busca e são relacionadas as paginas Quando se faz a busca, a spider recorre a esse banco de dados. Html- as ferramentas de buscam entendem melhor. Links- Quanto mais sites tiverem links para a página, mais relevante será essa página. 25

Estratégias de Busca 26 Busca em Largura

Estratégias de Busca 27 Busca em Profundidade

Prós e Contras… Busca em largura requer muita memória para guardar todos os nós do nível anterior porém é o método padrão utilizado. Busca em profundidade necessita de menos memória porém pode se “perder” em um único nó, dada a alta conectividade da Web. 28

Spider Multi-tarefa Fazer o download de páginas é o “Gargalo” dos engenhos de busca Melhor ter múltiplas “threads” rodando em hosts diferentes Maximizar a distribuição das URL’s para aumentar o “through-put” e evitar sobrecarregar um servidor. Primeiros spiders do Google tinham cerca de 300 threads cada, e juntos podiam fazer o download de cerca de 100 páginas por segundo 29

Directed/Focused Spidering Selecionam as páginas mais “interessantes” primeiro. Direcionado aos Links 30

Spidering direcionado ao Link Monitora links e verifica o in-degree e out-degree de cada página encontrada. 31

Spidering direcionado ao Link Busca na fila primeiramente páginas populares que são apontadas por muitos links (authorities). Busca na fila primeiramente páginas “sumário”com muitos links (hubs). 32

Indexação

Análise Análise do Formato Reconhecimento de Linguagem Processamento de Linguagem Natural Eliminação de stopwords Operações de normalização Pontuação, espaços, uppercase,... Tokenization Reconhecimento da Seção Indexação de Meta Tag 34

Indexação A maioria dos sistemas web usam variantes do arquivo invertido Lista de palavras ordenadas com um conjunto de ponteiros para as páginas em que elas ocorrem Armazenamento da descrição de cada webpage 35

Busca no Arquivo de Índices Consulta é respondida através de busca binária no arquivo de índices Consulta formada por várias palavras o sistema recupera os índices para cada palavra isolada os resultados da recuperação são combinados para gerar a resposta final 36

Busca no Arquivo de Índices Arquivos de índices invertidos também podem armazenar as ocorrências das palavras nos documentos (full inversion) Maior custo de armazenagem Possibilidade de consultas por frases e expressões através da proximidade das palavras no documento 37

Busca no Arquivo de Índices Para encontrar palavras que iniciam com um dado prefixo, é necessário fazer duas buscas binárias na lista de palavras ordenadas Ex.: auto-análise Buscas mais complexas, como palavras com erro, requerem um tempo considerável de processamento Por causa do tamanho do vocabulário 38

Browsing Diretórios Web Pequena cobertura geralmente menos de 1% das páginas Links geralmente possuem conteúdos mais relevantes Alguns são focados em um domínio específico Muitas ferramentas de busca são híbridas Exemplo: Yahoo! 39

Browsing Diretórios Web Vantagens Documentos mais relevantes Possibilidade de armazenar o conteúdo de todas as páginas classificadas, por serem em menores quantidades Desvantagens Nem todos os documentos são classificados Documentos mudam constantemente Tentativas de classificação automática não são 100% efetivas 40

Metabuscas Servidores Web que enviam uma consulta a vários motores de busca, diretórios Web e outros bancos de dados Coletam as respostas e unificam o resultado Vantagens Habilidade em unificar resultados de várias origens Utilização de uma interface única 41

Conclusão A Internet cresce de forma rápida e não estruturada Necessidade de ferramentas de RI mais eficientes Aumento da demanda de armazenamento e processamento de sistemas de RI Apesar dos avanços, é muito difícil resolver estes problemas de forma definitiva 42