Adriano Melo Amora Albuquerque Anália Lima Eduardo Pires Ivan França

Slides:

Advertisements

Apresentações semelhantes

Módulo II – Domine a Internet Introdução a Informática DCC - UFMG.

Advertisements

Servidor de DNS Profº Marcio Funes.

SISTEMA PARA GERAÇÃO DE INFORME SEMANAL AUTOMATIZADO

Melhores práticas de Search Engine Optimization (SEO) Curso: Publicidade e Propaganda FACHA – Faculdades Hélio Alonso Setembro 2011 LUIZ AGNER MÍDIAS.

Engenharia de Software

Engenharia de Software

Adriano Kaminski Sanches

Arquitetura de Máquinas de Busca

Programas Utilitários Básicos

GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.

Paulo Sérgio Franco Eustáquio

Divisão de Biblioteca e Documentação FMUSP

Revistas Eletrônicas disponíveis no Portal de Serviços do SIBiUSP.

disponíveis no Portal de Serviços do SIBiUSP

Base SCOPUS 2011 Divisão de Biblioteca e Documentação FMUSP.

Internet: conceitos básicos

WWW – word wide web A WWW (World Wide Web ou, simplesmente, Web) é a parte multimídia da Internet, portanto possiblita a exibição de páginas de hipertexto,

ESTADO DO PARANÁ NÚCLEO REGIONAL DE EDUCAÇÃO DE GUARAPUAVA.

Ambiente de simulação Os algoritmos previamente discutidos foram analisados usando um simulador de mobilidade. Ele modela uma cidade de 20 Km de raio,

Search Engine Optimization

Internet Principais conceitos.

A grande rede mundial de computadores

Comunicação na Internet e a sua utilização para o fortalecimento das comissões de saúde e segurança no trabalho.

Sistemas Distribuídos

Prof. Wellington D. Previero

Enrique P. L. de Oliveira Tecnologia para Web Enrique P. L. de Oliveira

Modelo de referência OSI

Link Mining Víctor Medeiros.

Sistemas de Recomendação

Engineering Village. Engineering Village – A Plataforma Desenvolvida pela Engineering Information (Ei), líder em fornecer informações.

Introdução ao Desenvolvimento Web

Estratégias Cliente-Servidor para SIGWeb

Tarântula Sistema de Recolha de Documentos na Web por Daniel Coelho Gomes.

Treinamento do Microsoft® Access® 2010

Rodrigo Cristiano Silva

Gerenciamento de Dados

Contornos arquitetônicos Maria Helena Pereira Dias.

A autoria - II.

SEO O processo de fazer com que o seu site se destaque e apareça no topo dos mecanismos de busca é denominado SEO ( Search Engine Optimization ).

Arquitetura Cliente /Servidor

HINARI Perguntas Frequentes

ÍNDICES DE CARGA E DE DESEMPENHO SSC-642 SISTEMAS COMPUTACIONAIS DISTRIBUÍDOS.

Histórico e conceitos básicos.

MapReduce Conceitos e Aplicações

Mineração na Web Introdução a Recuperação de Informação

Navegação na WWW (Web):

Recuperação de Informação

Tecnologias Web Prof. Msc. Juliano Gomes Weber Tecnologias Web Notas de Aula – Aula 02 1º Semestre UNIJUÍ.

Redes de Computadores I Prof. Mateus Raeder Universidade do Vale do Rio dos Sinos - São Leopoldo -

Aluna: Ingrid S. M. A. de Pádua RGA: Caches Web e GET Condicional.

Domain Name System - Sistema de Nomes de Domínios

Dados abertos interligados

INTERNET BÁSICA.

Engenhos de Busca Web Equipe: Cássio Melo, Alexandre Barza, Manuela Nascimento e Rodrigo Freitas {cam2, ab, mcn, rqf} Jul/2007.

Projeto Supervisionado no Desenvolvimento de Aplicações Profissionais na Web Introdução a Aplicações Web.

DNS Willamys Araújo 1. Introdução A internet possui uma infinidade de sites e, para acessá-los, você digita um endereço no campo correspondente do seu.

ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.

Banco de Dados e Internet

1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004.

Engenhos de Busca Renato Marcelino de Oliveira. World Wide Web Existem centenas de milhões de paginas na web tratando de variados assuntos.

Linguagem de Programação Web Karine Alessandra Córdova.

Rodrigo Cristiano Silva Introdução A HTML 5 foi idealizada por um grupo de “freethinkers” que estavam cansados do padrão oficial da.

TUTORIAL. SABIN AMERICANA Esta base é formulada conforme a bibliografia de Joseph Sabin, bibliófilo americano que viveu entre 1821 e Com.

O que são métricas? Números são tendências. Resultados mostram que caminho devemos seguir. Uma boa mensuração vende o seu trabalho.

Programação para Web I AULA 2 BANCO DE DADOS.

Copyright © 2011 Ramez Elmasri and Shamkant Navathe slide 1 Tópicos  Introdução  Um exemplo  Características da abordagem de banco de dados  Vantagens.

SISTEMAS DE BUSCA NA INTERNET LEANDRO COSTA DO NASCIMENTO 09/04/2007.

UNIVERSIDADE CATÓLICA DE PELOTAS CENTRO POLITÉCNICO CURSO DE CIÊNCIA DA COMPUTAÇÃO Redes de Computadores Ferramenta NTop (Network Traffic Probe) Explorador.

Web Design: algumas considerações IPCA / EST Abril 2013.

Escola Técnica Machado de Assis Técnico em Informática PROGRAMAÇÃO INTERNET I.

Transcrição da apresentação:

Adriano Melo Amora Albuquerque Anália Lima Eduardo Pires Ivan França Sistemas de RI na Web Adriano Melo Amora Albuquerque Anália Lima Eduardo Pires Ivan França

Roteiro Introdução Objetivos Entendendo a Web Arquiteturas Técnicas Estratégia de Busca Crawlers Browsing Metabuscas Conclusão

A Web Pode ser vista como uma grande base de dados não estruturada e ubíqua Surge a necessidade de ferramentas para gerenciar, buscar e filtrar informações

Formas de busca na Web Engenhos de busca Diretórios de sites Exploração de hyperlinks

+1.000.000.000 de buscas são realizadas por dia Google data, September 2010

+1.000.000.000 de pessoas usam o google a cada semana Google data, September 2010

feitas nos últimos 90 dias nunca tinham sido feitas antes 20% das buscas feitas nos últimos 90 dias nunca tinham sido feitas antes Google Internal Data, April 2010

de pageviews são realizados por mês no reino unido* > 4 bilhões de pageviews são realizados por mês no reino unido* * dados de abril de 2010

estão indexadas no Google Images* 10 bilhões de imagens estão indexadas no Google Images* (eram 250 milhões em 2001) * TechCrunch, July 2010

115.000 filmes é a equivalência do total de uploads de vídeos feitos no YouTube por mês

de execuções de vídeos foram realizadas no YouTube em 2010 700 bilhões de execuções de vídeos foram realizadas no YouTube em 2010

são gastas por mês vendo os vídeos do YouTube 2.9 bilhões de horas são gastas por mês vendo os vídeos do YouTube

quem tem acesso a esse conteúdo? todo mundo! (exceto os vídeos do YouTube)

estão cadastradas no facebook* 600 milhões de pessoas estão cadastradas no facebook* (250 milhões entraram em 2010) * Fim de 2010

são gastas por mês nas páginas do site 9.3 bilhões de horas são gastas por mês nas páginas do site

como links e notícias são compartilhados a cada mês no facebook 30 bilhões de documentos como links e notícias são compartilhados a cada mês no facebook

Quem tem acesso a esse conteúdo? bind e os usuários do facebook

Desafios Grande quantidade de dados Dados voláteis (mudam muito rápido) Acesso ao conteúdo produzido em redes sociais Conteúdo heterogêneo (multimídia, linguagem) Informações redundantes e não estruturadas

Entendendo a Web

Caracterização da WEB Mensurando a WEB Organização atual da WEB Arquiteturas

Mensurando a WEB Qual o número de computadores conectados a internet? Qual o número de websites na internet? Mensurar a WEB de maneira precisa é uma tarefa difícil devido a sua natureza altamente dinâmica. Hoje, há mais de 500 milhões de computadores conectados a internet, em mais de 200 países.

Mensurando a WEB Qual o número de computadores conectados a internet? 500 milhões de hosts, em mais de 200 países.

Mensurando a WEB

Mensurando a WEB

Mensurando a WEB Qual o número de websites na internet? O Netcraft roda desde agosto de 1995 Em maio de 2011 foram recebidas respostas de mais de 324 milhões websites.

Organização atual da WEB WEB é uma coleção não controlada de documentos. Inserção de documentos Formato dos documentos Engenhos de busca Recuperar informações na WEB Permitir a consulta por usuários Ao contrário de uma biblioteca, a Web é uma coleção não controlada de documentos, ou seja, a todo instante, documentos estão sendo inseridos e modificados por diferentes pessoas, sendo o conteúdo e formato desses documentos os mais variados possíveis. Para poder lidar com as características da Web, surgiu uma nova geração de SRIs, os Mecanismos de Busca, ou Engenhos de Busca, ou ainda Máquinas de Busca.

Engenhos de Busca Arquitetura Centralizada Distribuída Usa crawlers(rastreadores) Distribuída A busca é realizada utilizando um esforço de coordenação entre vários gatherers e brokers

Arquitetura Centralizada

Arquitetura Centralizada Crawlers (robots, spiders, wanderers) Buscam páginas na WEB Enviam para um servidor principal Roda em um sistema local Envia requisições servidores web remotos Quanto às arquiteturas, a maioria das engines de busca utilizam uma arquitetura centralizada baseada em crawlers (ratreadores). Crawlers são programas que buscam na web por novas páginas ou atualizações nas páginas e eviam tais páginas para um servidor principal onde tais páginas serão indexadas. Crawlers são também chamados de robots, spiders, wanderers, walkers, and knowbots. Um crawler não se move e nem roda em máquinas remotas, em vez disso um crawler roda em um sistema local e envia requisições para servidores web remotos.

Arquitetura Centralizada Indexer Cada página baixada é processada localmente A informação indexada é salva e a página é descartada Exceção: alguns sites de busca mantêm um cachê local algumas cópias das páginas mais populares

Arquitetura Centralizada Principais dificuldades Recolha dos dados Natureza dinâmica da WEB Volume de dados Sobrecarga nos servidores web Requisições de diferentes crawlers Tráfego na WEB Objetos recolhidos pelos crawlers Informações recolhidas independentemente Sem coordenação

Arquitetura Distribuída Novos elementos Gatheres (recolhedores) Brokers

Arquitetura Distribuída Gatherers (recolhedores) Coletar e extrair informações de um ou mais servidores WEB Tempos de coletas são periódicos definidos pelo sistema

Arquitetura Distribuída Brokers Obtém informações extraídas pelo Gatherer Recuperam informações de Brokers Mecanismo de indexação Atualizando índices Interface de consulta

Arquitetura Distribuída Vantagens Redução na carga dos servidores web Gatherers podem rodar em um servidor web sem gerar tráfego externo Redução no tráfego da rede Arquitetura centralizada retém todo os documentos, enquanto que a arquitetura distribuída move apenas o que é extraído pelos Gatherers Evita trabalho redundante Um gatherer envia informações para vários brokers, reduzindo repetição do trabalho

Ranking na Web

Base dos algoritmos mais utilizados Considerar a relevância de web pages por meio dos links Incomming links Outgoing Links

Conceitos Básicos Uma página da web valiosa e informativa é geralmente apontado por um grande número de hiperlinks, ou seja, ele tem um grande indegree (“grau de entrada”) . Essa página é chamada um “authority” Uma página da Web que aponta para muitas páginas “authority” é um recurso útil e é chamado de “hub”. Um “hub” tem geralmente uma grande outdegree (“grau de saída”). LINK ANALYSIS: HUBS AND AUTHORITIES ON THE WORLD WIDE WEB [CHRIS H.Q. DING, HONGYUAN ZHA , XIAOFENG HE , PARRY HUSBANDS , ANDHORST D. SIMON]

Hypertext Induced Topic Selection (HITS) O algoritmo foi criado por Jon Kleinberg Precursor do Page Rank, utilizado pelo Google. O algoritmo atribui pontuações de importância para os hubs e authorities seguindo este conceito: Uma boa authority deve ser apontada por vários bons hubs e um bom hub deve apontar para várias boas authorities.

Hypertext Induced Topic Selection (HITS) Determinar subgrafo (S) composto pelo conjunto de páginas retornadas em uma busca e páginas que apontam e são apontadas por páginas deste conjunto. Realizar várias iterações para determinar um “valor hub” e um “valor authority” para cada página do subgrafo. Esses valores são normalizados. O algoritmo aplica iterações até que pesos de hub e authority cheguem a convergir, isto é, até que estes pesos não variem acima de um valor pré-determinado.

Hypertext Induced Topic Selection (HITS) Todo este processamento, que leva cerca de alguns minutos, é realizado no momento da consulta. Por esta razão o HITS não atende ao requisito de tempo imposto pelos engenhos de busca comerciais, que é de poucos segundos. Algumas extensões do algoritmo HITS que adicionaram análise de conteúdo à análise puramente estrutural foram desenvolvidas pelo projeto CLEVER da IBM. Combinando Informações Textuais e Estruturais na Recuperação de Documentos Web. [Roberta de Souza Coelho, Marcelo Nery dos Santos,Silvio Romero Lemos Meira]

PageRank PageRank™ é uma família de algoritmos de análise de rede que dá pesos numéricos a cada elemento de uma coleção de documentos hiperligados, como as páginas da Internet, com o propósito de medir a sua importância nesse grupo por meio de um motor de busca. O processo do PageRank™ foi patenteado pela Universidade de Stanford. Somente o nome PageRank™ é uma marca registrada do Google.

PageRank e Google O sistema PageRank é usado pelo motor de busca Google para ajudar a determinar a relevância ou importância de uma página. O Google mantém uma lista de bilhões de páginas em ordem de importância, isto é, cada página tem sua importância na Internet como um todo. A importância se dá pelo número de votos que uma página recebe. Um voto é um link em qualquer lugar da Internet para aquela página. Os votos de páginas de alta popularidade na Web contam mais do que os votos de sites de baixa popularidade. Quanto mais links uma página de Web oferece, mais diluído seu poder de votação. Uma boa unidade de medida para definir o PageRank™ de uma página pode ser a percentagem (%) de páginas que ela é mais importante. Por exemplo, se uma página tem PageRank™ de 33% significa que ela é mais importante que um terço de toda a Internet. Se o seu PageRank™ é 99% significa que ela é superior a quase todas as páginas da Internet.

PageRank e Google O PageRank faz uma avaliação objetiva da importância de páginas da web, resolvendo uma equação de mais de 500 milhões de variáveis e 2 bilhões de termos. O mecanismo de pesquisa do Google também analisa o conteúdo completo de uma página e os fatores em fontes, subdivisões e a localização exata de cada palavra.

Quais os sites com maior PageRank? O website Search Engine Genie atualizou sua lista dos websites com maior PageRank e tornou a informação pública no dia 20 de janeiro de 2011.

Google Caffeine Exibe taxa maior de resultados mais recentes devido sua atualização mais constante. Ocupa cerca de 100 milhões de gigabytes de armazenamento em um banco de dados e adiciona novas informações auma taxa de centenas de milhares de gigabytes por dia.

Google Vídeo – Como Google funciona http://www.google.com/howgoogleworks/ É possível manipular o PageRank™ atribuindo links descontextualizados com o objetivo da página, modificando a ordenação de resultados na pesquisa pelo Google e induzindo a resultados pouco relevantes ou tendenciosos. Googlebombing failure ou miserable failure: retornava biografia oficial da Casa Branca para o presidente dos EUA, George W. Bush e em sequência a página de Michael Moore, inimigo declarado do presidente dos EUA. NÃO MOSTRAR O VÍDEO!!

SEO - Search Engine Optimization Hoje em dia cerca de 85% do tráfego na Internet inicia-se com uma pesquisa num motor de busca como o Google, o Yahoo ou o Bing Conjunto de técnicas que otimizam os web sites, tornando-os mais aptos a estarem bem colocados nas pesquisas efetuadas pelos potenciais visitantes. São baseados naquilo que os buscadores levam em conta no momento da busca.

SEO – Exemplos de fatores considerados Tempo de registro do domínio (Idade do domínio) Freqüência do conteúdo: regularidade com a qual novo conteúdo é adicionado Originalidade do conteúdo Quantidade de links externos Relevância do site que linka para o seu website Citações e fontes de pesquisa (indica que o conteúdo é de qualidade para pesquisa) Links "quebrados“ Conteúdo inseguro ou ilegal Qualidade da codificação HTML, presença de erros no código

Crawlers SPIDERS, BOTS, etc.

Crawlers Coleta automática e sistemática de documentos da Web a serem indexados e consultados pela máquina de busca

Crawlers Como funcionam?

Crawlers Estratégias de busca: Em Profundidade - Resulta em uma coleta “focada”, pois o crawler caminha por todo um determinado site antes de ir para o próximo. Pode-se limitar o número de níveis.

Crawlers Estratégias de busca: Em Largura com sufixo de URL - Exemplo: *.terra.com.br. Garante cobertura balanceada entre sites. Técnica bastante utilizada.

Crawlers Estratégias baseadas em conectividade Referências (Backlink count) - Quanto mais links apontando para uma página maior a "importância" dela. Variações recursivas - Links vindos de páginas com maior "importância" tem maior peso. Esta é a técnica usada pelo algoritmo PageRank™.

Crawlers

Arquitetura

Crawlers

Componentes

Crawlers Coletores Responsáveis pela requisição de páginas aos servidores HTTP Extraem os links das páginas recebidas e enviam ao escalonador Requisitam do escalonador uma ou mais URLs a serem coletadas Podem realizar um escalonamento local (short term scheduling)

Crawlers Servidor de Nomes Atendem requisições DNS dos coletores Mantêm um cache de identificadores DNS (nomes) resolvidos Crucial para evitar que cada coletor faça requisições DNS remotas

Crawlers Servidor de Armazenamento Recebem as páginas ou outros objetos coletados e armazenam em uma base local Fazem a extração (parsing) de texto Podem tratar vários formatos: Postscript, PDF, Word, Powerpoint, etc.

Crawlers Escalonador Responsável por decidir qual a próxima URL a ser coletada Coordena as ações dos coletores Estratégias de busca (LIFO, FIFO, PageRank) Deve garantir: Protocolo de exclusão Robots.txt Retardo mínimo entre requisições a um mesmo servidor HTTP. Não haverão coletas repetidas

Crawlers Qual a melhor estratégia de escalonamento? Coletar k páginas com vários tipos de escalonamento (Randômico, FIFO, backlink e PageRank) Critérios de avaliação: Freqüência de termos, Backlink, PageRank, tipo de URLs Resultado: 179.000 páginas do domínio stanford.edu Estratégia baseada em PageRank é a melhor Estratégia baseada em FIFO é boa

Crawlers Qual a melhor estratégia de escalonamento? Usando somente PageRank como métrica Resultado Estratégia FIFO descobre páginas com alto PageRank primeiro Conclusão Máquinas com ranking baseado em conectividade devem coletar em FIFO

Restrições

Crawlers Protocolo de exclusão Recomendação informal Restrições de acesso Delay mínimo entre requisições a um mesmo servidor

Crawlers Robots.txt Regras de restrição para navegação automática Está sempre na URL raiz e deve ser consultado antes Obediência não é obrigatória http://www.robotstxt.org/db.html User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/ Robots.txt

Recomendações

Crawlers Respeitar retardo mínimo entre requisições em um mesmo servidor HTTP Usar header “User-Agent” Nome do robô, e-mail, responsável, instituição, etc Evitar horários de tráfego intenso Limitar o número de páginas coletadas em sites grandes

Crawlers Não coletar tipos de dados não-indexáveis JPG, EXE, … Cuidado com links relativos <a href=“../../../material/”>Clique aqui</a> Cuidado com Buracos Negros (Spider Traps) Páginas que “prendem” o crawler num loop infinito Links como: http://foo.com/bar/foo/bar/foo/bar/foo/bar/.... Páginas dinâmicas que geram número infinito de páginas (Ex: calendários)

Browsing

Recapitulando... Termos de Busca Termos do sistema Estratégia de Busca Em RI, a estratégia de busca é geralmente descrita como um subsistema, com o objetivo de traçar estratégias de combinação de termos de busca com os termos do sistema, propiciando a recuperação. Browsing é uma modalidade de busca dentro do subsistema.

“A arte de não saber o que se quer até que se encontre” Browsing “A arte de não saber o que se quer até que se encontre” Contraste da busca direta

Browsing Níveis de atenção: - Ao acaso - Quase ao acaso Atividade não orientada, não programada, não sistemática, informal e casual Níveis de atenção: - Ao acaso Atividade não orientada, não programada, informal, não sistemática, casual que justifica a dificuldade de defini-lo precisamente. Tipo de busca com critérios e objetivos não definidos previamente. Levine (1969), aponta três diferentes níveis de atenção ao se fazer browsing: (1) ao acaso, com uma coleção desconhecida; (2) quase ao acaso, por meio de uma área de um edifício ou coleção previamente exploradas e (3) semideterminado em uma área física limitada ou área intelectual direcionada. - Quase ao acaso - Semideterminado

Browsing Essencialmente visual Acesso direto, sem mediador Atividade não orientada, não programada, não sistemática, informal e casual Essencialmente visual o browsing é essencialmente visual e, só se torna possível, através do “acesso direto”, é o que Naves denomina de “livre acesso”. Para o usuário é ter pleno acesso à coleção de uma biblioteca ou ao conteúdo total de um site, sem a ajuda de um mediador, é ter a chance de encontrar, ao acaso, um item que lhe seja interessante Na estratégia de recuperação por browsing, em oposição à querying, o usuário explora visual e espacialmente o conjunto documental, sem necessidade de ter que expressar de forma prévia quais são suas necessidades de informação. Ou seja, o usuário prefere navegar [n]o conjunto documental, e reconhecer visualmente [o] que está buscando, ao invés de especificar suas necessidades mediante a linguagem de consulta. Afinal quando um usuário visita uma página na internet, se adentra nas funcionalidades de um software ou navega em um hiperdocumento, seus movimentos visuais estão em plena atividade, colhendo flashes e analisando pequenos trechos ou conteúdos do objeto. Acesso direto, sem mediador

Browsing Navegação Browsing Contexto físico Ponto de destino Chamamos a atenção aqui para tratar destes dois conceitos – browsing e navegação – que ora se aproximam ora se afastam. Assim fizemos algumas considerações sobre os termos nos diferentes contextos: No contexto físico a expressão “browsing” parece ser mais aceita para definir a ação de explorar um ambiente, como em uma biblioteca, por exemplo. • No contexto virtual as palavras “navegação” e “browsing” são tratadas como sinônimos. Um bom exemplo seriam as palavras “navegador” e “browser” para definir softwares utilizados para acesso ao conteúdo Web. • Na navegação o ponto de destino é definido no início do processo – ainda que, necessariamente, não seja cumprido, já no browsing parece que não existe um ponto de chegada. Mas no contexto virtual, significam a mesma coisa

Diretórios Web Ferramentas baseadas em browsing Classifica o conhecimento humano Pesquisas retornadas são relevantes Diretorios web: ferramentas web que são baseadas em browsing. Pesquisas retornadas são normalmente relevantes apesar da cobertura relativamente pequena (1% das páginas web). Técnica de classifica o conhecimento humano; Cobertura relativamente pequena

Meta Buscadores Nem todas as páginas da web estão em todos os engenhos de busca Podem diferir um do outro em como as respostas vão ser rankeadas no resultado final. (em alguns casos o rankeamento não é feito); e em como eles traduzem uma dada query do usuário em uma query para os engenhos de busca e diretórios.

Meta Buscadores Combinação de resultados de diversas fontes Ordenação por diferentes atributos Navegação mais simples Principais vantagens: Habilidade em combinar os resultados de diversas fontes em apenas uma interface. Podem ser ordenadas por diferentes atributos, que podem ser mais informativos que as respostas de apenas um engenho de busca. Navegação das respostas mais simples. Desvantagem: Diminuição da precisão Diminuição da precisão

Busca usando hyperlinks Inclui: Linguagens de consulta web Busca dinâmica Diminui a performance Linguagens de consulta web: . Não é amplamente usado por diversas razões, incluindo limitação de performance e falta de produtos comerciais. Linguagens de consulta web: até agora as consultas são feitas baseadas no conteúdo de cada página. No entanto, as pesquisas podem incluir também um link entre as páginas web. O modelo de grafos é o mais utilizado para essa representação. Páginas web : nós Hyperlink entre as páginas: arestas. Modelo de semi-estrutura é usado para representar o conteúdo das páginas. A pesquisa pode incluir link entre as páginas O modelo de grafos é o mais utilizado para essa representação

Busca usando hyperlinks Linguagens de consulta web: Nós: Páginas web Arestas: Hyperlink Modelo de semi-estrutura: Conteúdo Por que usar esse tipo de busca? Exemplo: Buscar todas as páginas web que contem pelo menos uma imagem e são acessíveis a partir de um dado site seguindo mais de três links. Pra responder a esse tipo de query, diferentes modelos de dados podem ser utilizados. Os mais importantes são os que rotulam um modelo de grafos para representar as páginas web (nós) e hyperlinks entra as páginas (arestas) , e um modelo de semi estrutura pra representar o conteudo das páginas. Por que usar esse tipo de busca? Combinar estrutura com conteúdo Tem sido estendido para extrair e integrar informações de páginas web, e construir e restruturar estes sites. Combinação de estrutura com conteúdo; É possível extrair e integrar o conteúdo das páginas; Construir e restruturar sites.

Busca usando hyperlink Busca dinâmica: Busca online para descobrir informações relevantes dentre os links que foram retornados na busca. Abordagem lenta pra toda web, mas prática pra um subconjunto específico Busca dinâmica: equivalente ao texto de busca sequencial. A idéia é usar uma busca online para descobrir informações relevantes pelos seguintes links. Abordagem lenta pra toda a web, mas pode ser usado em subconjuntos da web. Se baisea na heuristica de que documentos relevantes geralmente tem vizinhos que são também relevantes Heurística: Documentos relevantes geralmente têm vizinhos que também são relevantes

Busca usando hyperlinks Busca dinâmica: Algoritmo Dada uma query, para cada passo: Analisar a página com mais alta prioridade; Se a página for relevante, a heurística decide seguir ou não os links dessa página; Se decidir que sim, novas páginas serão adicionadas à lista. Algoritmo: Dada uma query, para cada passo, analisar a página com mais alta prioridade. Se a página for considerada relevante, a heuristica decide seguir ou não os links desta página. Se decidir que sim, novas páginas serão adicionadas à lista de prioridade, nas posições adequadas.

Tendências e Questões de Pesquisa Modelagem: Adaptação às necessidades da Web; Melhores paradigmas e melhores filtros de informação Consulta: Melhorar a combinação entre estrutura e conteúdo; Processamento de linguagem natural Arquiteturas Distribuídas: elagem: Os modelod de RI precisam ser adaptados as necessidades da web. Nós buscaremos a informação Ou a informação chegará até nós? Em ambos os casos nós precisamos de melhores paradigmas de pesquisa e melhores filtros de informação. Consulta: É necessário trabalhar mais na combinação entre estrutura e conteúdo na consultas bem como em um novo visual para posicionar essas consultas e visualizar as respostas. Futuras linguagens de consulta podem incluir conceitos baseados em pesquisa e processamento de linguagem natural. novos sistemas de distribuição para percorrer e pesquisar na web deve ser concebido para lidar com o crescimento. Isto terá impacto nas atuais técnicas de rastreamento e indexação Lidar com o crescimento da quantidade de informação na web; Qual será o gargalo no futuro? Capacidade dos servidores ou largura de banda?

Tendências e Questões de Pesquisa Ranking: Melhores esquemas de ranking; Exploração tanto no conteúdo como na estrutura; The search engine persuasion problem Indexação: Ranking: melhor esquemas de ranking são necessários, exploração tanto no conteúdo como na estrutura (internos à pagina e hyperlinks); Um problema é que o engenho de busca pode rankear algumas paginas como de alta prioridade deviso a razoes que não são baseadas numa real relevância da página (the search engine persuasin problem). Indexação: Qual é a melhor visão lógica para o texto? O que deve ser indexado? Como explorar melhor os esquemas de compreensao de texto ara alcançar buscas mais rápidas? Qual a melhor visão lógica para um texto? O que deve ser indexado?

Desafios Mapear e indexar toda a Web SEO: Search Engine Optimization Rastrear e indexar aplicações Web 2.0 Making AJAX Applications Crawlable http://code.google.com/intl/pt-BR/web/ajaxcrawling/index.html

SEO - Search Engine Optimization Hoje em dia cerca de 85% do tráfego na Internet inicia-se com uma pesquisa num motor de busca como o Google, o Yahoo ou o Bing Conjunto de técnicas que otimizam os web sites, tornando-os mais aptos a estarem bem colocados nas pesquisas efetuadas pelos potenciais visitantes. São baseados naquilo que os buscadores levam em conta no momento da busca.

SEO – Exemplos de fatores considerados Tempo de registro do domínio (Idade do domínio) Freqüência do conteúdo: regularidade com a qual novo conteúdo é adicionado Originalidade do conteúdo Quantidade de links externos Relevância do site que linka para o seu website Citações e fontes de pesquisa (indica que o conteúdo é de qualidade para pesquisa) Links "quebrados“ Conteúdo inseguro ou ilegal Qualidade da codificação HTML, presença de erros no código

Dúvidas

Referências http://www.apcwebconcept.com/Servicos?_Locale=pt&ID=f7dd7229-c6e1-4a3a-86ac-f3f21f1054de http://googleblog.blogspot.com/2010/06/our-new-search-index-caffeine.html http://ranger.uta.edu/~chqding/papers/hits5.pdf http://www.dimap.ufrn.br/~roberta/publicacoes/rita_magazine.pdf http://www.mestreseo.com.br/pagerank/o-que-e-pagerank http://www.google.com/corporate/tech.html http://informatica.hsw.uol.com.br/algoritmo-google1.htm [1]http://www.google.com/url?sa=t&source=web&cd=1&ved=0CBYQFjAA&url=http%3A%2F%2Fwww.di.ufpe.br%2F~sfd%2Funiverso%2Finternet%2Frec_web.doc&ei=HqrKTaf7Gcuftgeso7T6Bw&usg=AFQjCNG14humR3V6o6-TJ4GaO2DrOpdWyw&sig2=QCfp65iffOmVmj-nHH6tRg [2] http://www.cetic.br/hosts/2011/index.htm [3]http://news.netcraft.com/archives/category/web-server-survey/ http://www.google.co.uk/intl/en/landing/internetstats/