A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O.

Apresentações semelhantes


Apresentação em tema: "Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O."— Transcrição da apresentação:

1 Centro de Computação Mecanismos de Busca na Web

2 Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O que são Mecanismos de Busca “searchs”  Tipos e Finalidades  Estratégia de Busca  Exercitando os conceitos ( exemplos )  Referências Tópicos

3 Centro de Computação Internet - Informação Caótica  Web : estimado 800 milhões !? de páginas (não é mais : são estimados 1 bilhão em fev/00 ) fonte: Inktomi and the NEC Research Institute  Crescimento exponencial: 1/3 ao ano (últimos 2 anos).  80% dos usuários internet encontram a informação que procuram através de sites de busca ( a maior parte consegue fazê-lo de 10 a 15 minutos ) fonte: Inst. de Tecn.da Georgia/EUA

4 Centro de Computação  O ciclo da informação na Internet : Informação conhecimento comunicação consumo Internet - Informação Caótica Pessoas Internet Informação Qualificada

5 Centro de Computação Pausa para reflexão  pesquisa Cadê/Ibope:  dos internautas brasileiros 63% são do sexo masculino  68% são jovens de idade 15 a 29 anos  79% livre de compromissos (solteiros ou separados)  59% tem renda que variam de 10 a 50 salários mínimos

6 Centro de Computação Internet - Informação Caótica  A Internet (teia) é um grande banco de dados de informação sem um padrão de catalogação (caótica).  Difícil localização de documentos, seu autor, data de validade (da informação), etc...  É como uma enorme biblioteca sem um catálogo de referência central e os livros dispostos desordenadamente.

7 Centro de Computação Mecanismos - Informação Organizada  Entram em cena os Mecanismos de Busca (catálogo central de uma Biblioteca).  Websites com recursos sofisticados:  banco de dados  linguagens  pesquisa simples e avançada  velocidade  tratamento diferenciado ( personalizado )  grandes portais (vendas, serviços, help,etc)

8 Centro de Computação Mecanismos - Informação Organizada  A aprendizagem de técnicas e familiarização dos Mecanismos de Busca são itens essenciais para a economia de horas em uma pesquisa.  A indexação na web é um trabalho gigantesco e interminável.

9 Centro de Computação Mecanismos - Informação Organizada  A localização, com precisão, de documentos ( páginas ou arquivos ) que contenham o termo que você deseja depende, basicamente, de 2 fatores :  assunto disponível e indexado ou selecionado por algum mecanismo de busca.  as palavras chaves (argumento da pesquisa) são suficientemente específicos para obtenção de um resultado satisfatório.

10 Centro de Computação Mecanismos - Informação Organizada  Muitas vezes, encontrar um argumento de pesquisa específico para aquilo que procuramos não é uma tarefa fácil.  Ex: "esquizofrenia" é um bom argumento; "New York" é um argumento ruim.

11 Centro de Computação Pausa para reflexão  Um dos novos sites que utiliza tecnologias avançadas para gerar resultados supreendentes em termos de relevância é o Google.  Segundo a empresa, seu mecanismo de busca calcula os resultados tomando por base uma equação de 500 milhões de variáveis e mais de dois bilhões de termos.

12 Centro de Computação O que é Mecanismo de Busca  É um grande índice (catálogo de biblioteca).  Faz todo trabalho de organização das páginas espalhadas pela Web.  Fazem o trabalho de pesquisa nos mais de 800 milhões de documentos.  São os grandes "culpados" pelo crescimento exponencial da Internet.

13 Centro de Computação Mecanismos de Busca - Perfil  Garimpar a internet em busca de qualidade / quantidade de informação e organizá-la em um único local ( banco de dados ).  Conquistar a preferência do público ( muitas informações, hospedagem de websites e conta de gratuitas, seções direcionadas a determinadas faixas etárias, etc ).  Sofisticados : linguagem natural ( coloquial ).

14 Centro de Computação Mecanismos de Busca - Perfil  Explorar o potencial comercial da Web (as pessoas são potenciais consumidores independente da informação que procuram).  Estão sempre vendendo alguma coisa para você (já experimentou fazer uma busca com a palavra "carro”, “ferrari” ?).  Maiores catálogos de vendas de produtos encontrados em um só lugar.

15 Centro de Computação Mecanismos de Busca - Perfil Fonte: searchengine watch

16 Centro de Computação Mecanismos de Busca - Perfil Fonte: searchengine watch

17 Centro de Computação Mecanismos de Busca - Perfil  Alguns dados :  Yahoo - 50 milhões de visitas/mês.  UOL - 45 milhões de visitas/mês.  UNICAMP - 1,8 milhões de visitas/mês.  60% da web é indexada.  Mais de 80% da web possui informação não qualificada  Cresce 1/3 ao ano (dados 2 últimos anos)  Estatísticas mostram que 7% dos usuários navegam além da 3 ª página de resultados)

18 Centro de Computação Tipo de Mecanismos - Índices  Genéricos ou Especializados  Spiders / Robôs varrem a internet buscando páginas, indexando-as e criando seu próprio banco de dados.  Algoritmos de busca que acham e trazem documentos relevantes para a pesquisa do usuário.

19 Centro de Computação Tipo de Mecanismos - Índices  Algoritmos comuns de pesquisa:  número de ocorrências do argumento de pesquisa (maior probabilidade de ser um documento que você procura)  argumento encontrado no TITLE da página  argumento em negrito  tamanho de fonte maior  mede popularidade da página (número de links que apontam para ela)

20 Centro de Computação Tipo de Mecanismos - Índices  Principais diferencas entre eles:  Capacidade de armazenagem no banco de dados.  Frequência de atualização.  Capacidade de busca (amplitude).  Velocidade de recuperação de resultados  Interface (design) na mostra dos resultados.  Recursos avançados (tradução, linguagem natural, operadores booleanos).

21 Centro de Computação Tipo de Mecanismos - Índices  Cobrem todo tipo de assunto possível, não fazem distinção entre os sites que indexam ( pesquisa por softwares ).  Quando fazemos a pesquisa através de um mecanismo de busca NÃO o fazemos "ao vivo" e sim recuperamos as informações gravadas nos banco de dados.

22 Centro de Computação Tipo de Mecanismos - Índices  são indicados quando pesquisamos um documento conhecido, imagens, softwares ou um trecho de alguma informação pois não requerem um conhecimento prévio do assunto.  Os índices especializados são numerosos e em grande parte desconhecidos.

23 Centro de Computação Tipo de Mecanismos - Índices  Os índices especializados não se preocupam em indexar toda a Web (focam sua busca dentro de um assunto definido, uma área geográfica ou tipo de recurso).  Os índices especializados são, na maioria das vezes, mais eficientes do que os mecanismos tradicionais ( podem ser um ponto de partida para sua pesquisa ).

24 Centro de Computação Tipo de Mecanismos - Índices  Exemplos de índices genéricos  AltaVista (http://www.altavista.com)  Excite (http://www.excite.com)  FAST (http://www.alltheweb.com)  Google (http://www.google.com)  HotBot (http://www.hotbot.com)  Infoseek (http://infoseek.go.com)  Northern Light (http://www.northernlight.com)

25 Centro de Computação Tipo de Mecanismos - Índices  Exemplos de índices específicos  medicina    música   softwares   pesquisas 

26 Centro de Computação Tipo de Mecanismos - MetaSearchs  não possuem índices próprios  submetem as perguntas formuladas a vários indexadores da Web, coletam os resultados obtidos, fazem uma formatação, eliminando resultados duplicados e geram uma listagem final.  adotam um mínimo denominador comum na forma como as pesquisas são submetidas.

27 Centro de Computação Tipo de Mecanismos - MetaSearchs  O serviço de metabusca Profusion, é um dos mais conceituados da rede.  Brasil : MetaMiner ( )  programas em seu computador que realizem metabuscas ( gratuitos ). Ex: Copernic99 -

28 Centro de Computação Tipo de Mecanismos - Diretórios  Funcionam de forma diferente dos Índices.  Organizados hierarquicamente.  A busca e organização das informações é feita por seres humanos e somente a home page de um site é indexada.  Vantagem : probabilidade reduzida dos resultados estarem fora do contexto.

29 Centro de Computação Tipo de Mecanismos - Diretórios  Possuem um mecanismo de busca interno.  A informação é dividida em categorias.  P. ex.: "Elvis Presley" encontramos em "sociedade e cultura"  "musica"  "cantores"  Funcionam como catálogos on-line e são um grande potencial comercial para os websites em geral (visibilidade na lista de links).

30 Centro de Computação Tipo de Mecanismos - Diretórios  São melhores para pesquisa em assuntos gerais. O prestígio está exatamente na informação qualificada para seus usuários.  Exemplos de Diretórios :  LookSmart ( )  Cadê ( )  Radix ( )  Open Directory ( )  Yahoo ( )

31 Centro de Computação Tipo de Mecanismos - Dir. Abertos  Especialistas nos assuntos compilam as informações com maior qualidade e precisão  Relacionam, fazem anotações, permitem outros especialistas se cadastrarem e abrirem novos assuntos ( manten-se a estrutura)  Exemplos:  IVOX ( )  About.com (http://about.com)  WWW Virtual Library (http://www.vlib.org)

32 Centro de Computação Tipo de Mecanismos - Desvantagens  Índices: os programas (spiders ou robôs) não possuem dissernimento sobre o que é apresentado aos usuários (qualidade dos resultados ).  Diretórios: limitados a uma pequena parcela da Internet pois todo trabalho é feito por seres humanos (classificação e análise).

33 Centro de Computação Mecanismos - Estratégia de Busca  Formule uma questão e seu escopo.  Ex: “quais são as escolas de samba do carnaval do Rio de Janeiro?”  Identifique os conceitos importantes dentro da questão (palavras chave).  Ex: “escolas de samba”, “Rio de Janeiro”  Considere possíveis sinônimos e variações das palavras chaves.  Ex: “carnaval carioca” (não é um bom argumento)

34 Centro de Computação Mecanismos - Estratégia de Busca  Uma estratégia bem elaborada é de suma importância ( base de informação enorme, amorfa e em evolução ).  Na escolha no mecanismo de busca optar por aqueles que oferecem mais possibilidades de busca ( pesquisa avançada ).

35 Centro de Computação Mecanismos - Estratégia de Busca  Identificar mecanismos de busca especializados no assunto ( música, informática, negócios, medicina, cultura, etc ).  As técnicas básicas de busca atendem a grande maioria dos usuários.  Verifique sempre o help / ajuda.

36 Centro de Computação Mecanismos - Estratégia de Busca  Utilize frases exatas. P. ex: “As invenções de Leonardo da Vinci” ao invés de “Leonardo da Vinci”  Palavras em minúsculo --> maiúsculo /minúsculo  Palavras em maiúsculo --> palavras que batem exatamente o que foi digitado.

37 Centro de Computação Mecanismos - Estratégia de Busca  Procurar por bookmarks (relação de links) de outros usuários na internet. P. ex.: "music links", ”links de música", “music bookmarks”, etc...

38 Centro de Computação Pesquisando na Web - Estrutura  Podemos pesquisar uma simples palavra ou uma frase em uma página Web. O resultado pode ser encontrado em uma das seções abaixo : n Título n Autor n Descrição n Corpo do documento

39 Centro de Computação Pesquisando na Web - Estrutura  Exemplo : “tomates”  Resultado da pesquisa:  doc. de título : “Filme - Tomates Verdes Fritos”  doc. que fala sobre o assunto: “cultivo de tomates”

40 Centro de Computação Pesquisando na Web - Pesquisa Booleana  Pesquisa Booleana :  use as palavras AND, OR, NOT para expandir e limitar as buscas.  Permite combinar os termos de pesquisa.  Mais úteis em buscas complexas.  São conhecidos também como Operadores Booleanos.

41 Centro de Computação Pesquisa Booleana - “AND”  AND  combina palavras e/ou frases, permitindo que ambas estejam presentes nos resultados.  “eu estou interessado em soja que são transgênicas”  sintaxe: “soja AND transgênica”

42 Centro de Computação Pesquisa Booleana - “OR”  OR  combina palavras e/ou frases, trazendo resultados que possuam pelo menos uma das combinações.  “eu estou interessado em soja ou produtos transgênicos”  sintaxe:“soja OR transgênico”

43 Centro de Computação Pesquisa Booleana - “NOT”  NOT  exclue palavras e/ou frases dos resultados da pesquisa.  “estou interessado em informações sobre soja excluindo-se docs que citam problemas transgênicos”  sintaxe: “soja NOT transgênico”

44 Centro de Computação Pesquisa Booleana - Combinação  AND, OR e NOT  “Eu quero aprender a cozinhar com ervas ou pimenta”  sintaxe: “cozinhar AND (ervas OR pimenta)”  ou “receita AND (ervas OR pimenta)”

45 Centro de Computação Pesquisando na Web - Adição/Subtração  adição “+” antes de uma palavra chave ou frase obriga que ela apareca entre os resultados relevantes. Ex: “+picanha invertida”.  subtração “-” elimina dos resultados a palavra chave ou frase. Ex: “picanha -mostarda”  CUIDADO !!!!!!

46 Centro de Computação Pesquisando na Web - Funções especiais  TITLE - pesquisar pr título do documento  Ex: “TITLE:Gazeta Mercantil”  HOST - traz páginas indexadas de um site.  Ex: “HOST:www.unicamp.br nuclear”  URL - traz páginas que contém este parâmetro no texto de sua URL.  Ex: “URL:microsoft” traz TODAS as páginas indexadas que contém “microsoft” no endereço.  “http://www.microsoft.com” ou  “http://www.software.com/microsoft”

47 Centro de Computação Pesquisando na Web - Funções especiais  LINK - identifica todas as páginas que possuem um link definido neste parâmetro.  Ex: “LINK:  IMAGE - traz páginas que contém arquivos com os nome definidos neste parâmetro.  Ex: “IMAGE:basket*.jpg”  Ex: “IMAGE:vinci”

48 Centro de Computação Pesquisando na Web - Proximidade  NEAR, ADJACENT, FOLLOWED BY - alguns sites permitem que você encontre páginas com as palavras de busca próximas uma da outra ( evita- se encontrar documentos em que estas palavras aparecem sem ligação entre elas ).  Ex: “cpi NEAR narcotráfico”

49 Centro de Computação Pesquisando na Web - Perfil  Assuntos relacionados ao argumento de pesquisa.  Ex: viagem (viagem aérea, descontos de viagem, agências de viagem, etc...). Altavista, GoTo, HotBot, Infoseek, Excite;  Esquematização de resultados permite que somente 1 página de cada site seja incluído nos Top 10 dos resultados da pesquisa.  Ex: Altavista, GoTo, HotBot, Infoseek, Excite, Northern Light, Google (faz identação quando existe mais de 1 página de um mesmo site);

50 Centro de Computação Pesquisando na Web - Perfil  Busca automática de frases : a utilização de frases pode obter melhores resultados nas pesquisas.  Ex: Altavista, Google;

51 Centro de Computação Pesquisando na Web - Perfil  Similaridades: os mecanismos de busca trazem páginas similares ao argumento ( assunto ) pelo qual você está procurando.  Ex: Excite, Infoseek., Altavista;  Stemming: Palavras genéricas (ex: perigo*) permite pesquisar variações de uma palavra ou radical (resultado : perigoso, perigosamente, etc).  Ex: Infoseek, Lycos, Northern Light, HotBot, etc.

52 Centro de Computação Pesquisando na Web - Perfil  Ordenação por data, intervalo de data e a data em que o spider indexou a página : cuidado !!! (70% dos websites informam a data correta, 20% reportam a data atual e 10% não informam data nenhuma);  Ex: Infoseek, Nortern Light, Google

53 Centro de Computação Pesquisando na Web - Perfil  Pesquisando dentro dos resultados (search within): os mecanismos permitem que você faça uma pesquisa mais detalhada utilizando somente os resultados obtidos na primeira pesquisa;  Ex: Infoseek, Lycos, HotBot;

54 Centro de Computação Pesquisando na Web - Perfil  Pesquisa Avançada: permite entrar com um maior número de parâmetros para restringir ou modificar a pesquisa.  Ex: a maioria dos mecanismos conhecidos  Tradução de documentos  Ex: Altavista, Infoseek

55 Centro de Computação Pesquisando na Web - Perfil  Linguagem Natural: pode-se fazer consultas utilizando frases ou perguntas em linguagem natural, ou seja, como se estivesse perguntando a outra pessoa. Altavista, AskJeeves, Google  Ex: Why womem crave chocolate ?  Ex: Where can i buy classical musica CDs on-line?"  Ex: Qhat is the color of japanese flag?  Ex: What is the distance between Brasília and São Paulo?  Ex: What is the best soccer team?

56 Centro de Computação Mecanismos - Dicas específicas  Altavista  250 milhões de páginas  Interface simples e avançada  Possui a maioria dos recursos de busca ( e mais: categorias de assunto, buscas especias por imagens, vídeos, áudio, customização do portal pelo usuário)  Pode-se realizar uma busca restrita a um único site. Ex: "host:www.unicamp.br cursos"

57 Centro de Computação Mecanismos - Dicas específicas  Excite  215 milhões de páginas  pesquisa avançada (permite adicionar palavras sugeridas para a busca, permite buscar documentos relacionados a este link/assunto, my Excite, etc...)

58 Centro de Computação Mecanismos - Dicas específicas  Radar UOL  110 milhões de páginas  busca avançada (por datas, frase exatas, informa número de links para esta página, busca combinadas, operadores lógicos, tipo de mídia, extensão de arquivo, etc)

59 Centro de Computação Mecanismos - Dicas específicas  Northern Light  Possui uma seção especial mantida em conjunto com a Billboard onde disponibiliza um repositório de músicas e websites de músicas.  Ask Jeeves  Linguagem natural (perguntas e respostas)

60 Centro de Computação Mecanismos - Dicas específicas  Google  350 milhões de páginas  Um dos melhores índices internacionais.  Possui cálculos avançados (500 milhões de variáveis)  Basea-se na popularidade das páginas (número de links que apontam para ela)  Termos em negrito, palavra chave no cabeçalho e em fontes maiores  A posição de uma página depende, entre outros fatores, do que os outros falam dela (pesquisa de opinião pública). Ex: "best bookstore" resultado: Amazon Books

61 Centro de Computação Mecanismos de Busca - Referências  Procurando pessoas ( endereço de ) ?  Bigfoot (http://bigfoot.com/)  WhoWhere? (http://www.whowhere.lycos.com)  Yahoo! People Search (http://people.yahoo.com)  Altavista - People Search (http://www.av.com)  UOL - (http://cf5.uol.com.br/listapub/index.cfm)  Miner - (http://miner.bol.com.br/genteminer.html)

62 Centro de Computação Mecanismos de Busca - Referências  Procurando pessoas (endereços e telefones)  Bigfoot ( )  InfoSpace Canada People Finder (http://www.infospace.com/canada/index_ppl_ca.htm)  Switchboard.Com (http://www.switchboard.com)  Telefonica (http://www.telefonica.net.br/sp/rrobim.htm)  Miner (http://miner.bol.com.br/genteminer.html)

63 Centro de Computação Mecanismos de Busca - Referências  Softwares  Jumbo (http://www.jumbo.com)  Shareware.com (http://www.shareware.com)  ZDNet Downloads (http://www.zdnet.com/downloads/)  Tucows ( )

64 Centro de Computação Mecanismos de Busca - Referências  Áudio / Vídeo  AltaVista - (http://www.av.com)  iAtlas - (http://www.iatlas.com)  Lycos MP3 Search - (http://mp3.lycos.com)  ProFusion MP3 - (http://mp3.profusion.com)  Real - Snap - (http://real.snap.com)  MP3 - ( )

65 Centro de Computação Mecanismos de Busca - Referências  Novidades sobre Internet e os Mecanismos de Busca:   Universo Internet - RubensQueiroz  Estatística da web: tistics.htm  Revistas : “Internet.Br”, “Internet Business”, “Veja”

66 Centro de Computação Sobre a Palestra  Está disponível em:    Palestrante : Gian - Ciclo de Palestras Centro de Computação da UNICAMP


Carregar ppt "Centro de Computação Mecanismos de Busca na Web. Centro de Computação  Internet :Informação Caótica  Mecanismos de Busca : Informação Organizada  O."

Apresentações semelhantes


Anúncios Google