A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Mecanismos de Busca na Web

Apresentações semelhantes


Apresentação em tema: "Mecanismos de Busca na Web"— Transcrição da apresentação:

1 Mecanismos de Busca na Web
Centro de Computação

2 Tópicos Internet :Informação Caótica
Mecanismos de Busca : Informação Organizada O que são Mecanismos de Busca “searchs” Tipos e Finalidades Estratégia de Busca Exercitando os conceitos ( exemplos ) Referências Centro de Computação

3 Internet - Informação Caótica
Web : estimado 800 milhões !? de páginas (não é mais : são estimados 1 bilhão em fev/00 ) fonte: Inktomi and the NEC Research Institute Crescimento exponencial: 1/3 ao ano (últimos 2 anos). 80% dos usuários internet encontram a informação que procuram através de sites de busca ( a maior parte consegue fazê-lo de 10 a 15 minutos ) fonte: Inst. de Tecn.da Georgia/EUA Centro de Computação

4 Internet - Informação Caótica
O ciclo da informação na Internet : Pessoas Pessoas Informação conhecimento comunicação consumo Informação Qualificada Internet Internet Centro de Computação

5 Pausa para reflexão pesquisa Cadê/Ibope:
dos internautas brasileiros 63% são do sexo masculino 68% são jovens de idade 15 a 29 anos 79% livre de compromissos (solteiros ou separados) 59% tem renda que variam de 10 a 50 salários mínimos Centro de Computação

6 Internet - Informação Caótica
A Internet (teia) é um grande banco de dados de informação sem um padrão de catalogação (caótica). Difícil localização de documentos, seu autor, data de validade (da informação), etc ... É como uma enorme biblioteca sem um catálogo de referência central e os livros dispostos desordenadamente. Centro de Computação

7 Mecanismos - Informação Organizada
Entram em cena os Mecanismos de Busca (catálogo central de uma Biblioteca). Websites com recursos sofisticados: banco de dados linguagens pesquisa simples e avançada velocidade tratamento diferenciado ( personalizado ) grandes portais (vendas, serviços, help,etc) Centro de Computação

8 Mecanismos - Informação Organizada
A aprendizagem de técnicas e familiarização dos Mecanismos de Busca são itens essenciais para a economia de horas em uma pesquisa. A indexação na web é um trabalho gigantesco e interminável. Centro de Computação

9 Mecanismos - Informação Organizada
A localização, com precisão, de documentos ( páginas ou arquivos ) que contenham o termo que você deseja depende, basicamente, de 2 fatores : assunto disponível e indexado ou selecionado por algum mecanismo de busca. as palavras chaves (argumento da pesquisa) são suficientemente específicos para obtenção de um resultado satisfatório. Centro de Computação

10 Mecanismos - Informação Organizada
Muitas vezes, encontrar um argumento de pesquisa específico para aquilo que procuramos não é uma tarefa fácil. Ex: "esquizofrenia" é um bom argumento; "New York" é um argumento ruim. Centro de Computação

11 Pausa para reflexão Um dos novos sites que utiliza tecnologias avançadas para gerar resultados supreendentes em termos de relevância é o Google. Segundo a empresa, seu mecanismo de busca calcula os resultados tomando por base uma equação de 500 milhões de variáveis e mais de dois bilhões de termos. Centro de Computação

12 O que é Mecanismo de Busca
É um grande índice (catálogo de biblioteca). Faz todo trabalho de organização das páginas espalhadas pela Web. Fazem o trabalho de pesquisa nos mais de 800 milhões de documentos. São os grandes "culpados" pelo crescimento exponencial da Internet. Centro de Computação

13 Mecanismos de Busca - Perfil
Garimpar a internet em busca de qualidade / quantidade de informação e organizá-la em um único local ( banco de dados ). Conquistar a preferência do público ( muitas informações, hospedagem de websites e conta de gratuitas, seções direcionadas a determinadas faixas etárias, etc ). Sofisticados : linguagem natural ( coloquial ). Centro de Computação

14 Mecanismos de Busca - Perfil
Explorar o potencial comercial da Web (as pessoas são potenciais consumidores independente da informação que procuram). Estão sempre vendendo alguma coisa para você (já experimentou fazer uma busca com a palavra "carro”, “ferrari” ?). Maiores catálogos de vendas de produtos encontrados em um só lugar. Centro de Computação

15 Mecanismos de Busca - Perfil
Fonte: searchengine watch Centro de Computação

16 Mecanismos de Busca - Perfil
Fonte: searchengine watch Centro de Computação

17 Mecanismos de Busca - Perfil
Alguns dados : Yahoo - 50 milhões de visitas/mês. UOL - 45 milhões de visitas/mês. UNICAMP - 1,8 milhões de visitas/mês. 60% da web é indexada. Mais de 80% da web possui informação não qualificada Cresce 1/3 ao ano (dados 2 últimos anos) Estatísticas mostram que 7% dos usuários navegam além da 3ª página de resultados) Centro de Computação

18 Tipo de Mecanismos - Índices
Genéricos ou Especializados Spiders / Robôs varrem a internet buscando páginas, indexando-as e criando seu próprio banco de dados. Algoritmos de busca que acham e trazem documentos relevantes para a pesquisa do usuário. Centro de Computação

19 Tipo de Mecanismos - Índices
Algoritmos comuns de pesquisa: número de ocorrências do argumento de pesquisa (maior probabilidade de ser um documento que você procura) argumento encontrado no TITLE da página argumento em negrito tamanho de fonte maior mede popularidade da página (número de links que apontam para ela) Centro de Computação

20 Tipo de Mecanismos - Índices
Principais diferencas entre eles: Capacidade de armazenagem no banco de dados. Frequência de atualização. Capacidade de busca (amplitude). Velocidade de recuperação de resultados Interface (design) na mostra dos resultados. Recursos avançados (tradução, linguagem natural, operadores booleanos). Centro de Computação

21 Tipo de Mecanismos - Índices
Cobrem todo tipo de assunto possível, não fazem distinção entre os sites que indexam ( pesquisa por softwares ) . Quando fazemos a pesquisa através de um mecanismo de busca NÃO o fazemos "ao vivo" e sim recuperamos as informações gravadas nos banco de dados. Centro de Computação

22 Tipo de Mecanismos - Índices
são indicados quando pesquisamos um documento conhecido, imagens, softwares ou um trecho de alguma informação pois não requerem um conhecimento prévio do assunto. Os índices especializados são numerosos e em grande parte desconhecidos. Centro de Computação

23 Tipo de Mecanismos - Índices
Os índices especializados não se preocupam em indexar toda a Web (focam sua busca dentro de um assunto definido, uma área geográfica ou tipo de recurso). Os índices especializados são, na maioria das vezes, mais eficientes do que os mecanismos tradicionais ( podem ser um ponto de partida para sua pesquisa ). Centro de Computação

24 Tipo de Mecanismos - Índices
Exemplos de índices genéricos AltaVista (http://www.altavista.com) Excite (http://www.excite.com) FAST (http://www.alltheweb.com) Google (http://www.google.com) HotBot (http://www.hotbot.com) Infoseek (http://infoseek.go.com) Northern Light (http://www.northernlight.com) Centro de Computação

25 Tipo de Mecanismos - Índices
Exemplos de índices específicos medicina música softwares pesquisas Centro de Computação

26 Tipo de Mecanismos - MetaSearchs
não possuem índices próprios submetem as perguntas formuladas a vários indexadores da Web, coletam os resultados obtidos, fazem uma formatação, eliminando resultados duplicados e geram uma listagem final. adotam um mínimo denominador comum na forma como as pesquisas são submetidas. Centro de Computação

27 Tipo de Mecanismos - MetaSearchs
O serviço de metabusca Profusion, , é um dos mais conceituados da rede. Brasil : MetaMiner ( ) programas em seu computador que realizem metabuscas ( gratuitos ). Ex: Copernic99 - Centro de Computação

28 Tipo de Mecanismos - Diretórios
Funcionam de forma diferente dos Índices. Organizados hierarquicamente. A busca e organização das informações é feita por seres humanos e somente a home page de um site é indexada. Vantagem : probabilidade reduzida dos resultados estarem fora do contexto. Centro de Computação

29 Tipo de Mecanismos - Diretórios
Possuem um mecanismo de busca interno. A informação é dividida em categorias. P. ex.: "Elvis Presley" encontramos em "sociedade e cultura"  "musica"  "cantores" Funcionam como catálogos on-line e são um grande potencial comercial para os websites em geral (visibilidade na lista de links). Centro de Computação

30 Tipo de Mecanismos - Diretórios
São melhores para pesquisa em assuntos gerais. O prestígio está exatamente na informação qualificada para seus usuários. Exemplos de Diretórios : LookSmart ( ) Cadê ( ) Radix ( ) Open Directory ( ) Yahoo ( ) Centro de Computação

31 Tipo de Mecanismos - Dir. Abertos
Especialistas nos assuntos compilam as informações com maior qualidade e precisão Relacionam, fazem anotações, permitem outros especialistas se cadastrarem e abrirem novos assuntos ( manten-se a estrutura) Exemplos: IVOX ( ) About.com (http://about.com) WWW Virtual Library (http://www.vlib.org) Centro de Computação

32 Tipo de Mecanismos - Desvantagens
Índices: os programas (spiders ou robôs) não possuem dissernimento sobre o que é apresentado aos usuários (qualidade dos resultados ). Diretórios: limitados a uma pequena parcela da Internet pois todo trabalho é feito por seres humanos (classificação e análise). Centro de Computação

33 Mecanismos - Estratégia de Busca
Formule uma questão e seu escopo. Ex: “quais são as escolas de samba do carnaval do Rio de Janeiro?” Identifique os conceitos importantes dentro da questão (palavras chave). Ex: “escolas de samba”, “Rio de Janeiro” Considere possíveis sinônimos e variações das palavras chaves. Ex: “carnaval carioca” (não é um bom argumento) Centro de Computação

34 Mecanismos - Estratégia de Busca
Uma estratégia bem elaborada é de suma importância ( base de informação enorme, amorfa e em evolução ). Na escolha no mecanismo de busca optar por aqueles que oferecem mais possibilidades de busca ( pesquisa avançada ). Centro de Computação

35 Mecanismos - Estratégia de Busca
Identificar mecanismos de busca especializados no assunto ( música, informática, negócios, medicina, cultura, etc ). As técnicas básicas de busca atendem a grande maioria dos usuários. Verifique sempre o help / ajuda . Centro de Computação

36 Mecanismos - Estratégia de Busca
Utilize frases exatas. P. ex: “As invenções de Leonardo da Vinci” ao invés de “Leonardo da Vinci” Palavras em minúsculo --> maiúsculo /minúsculo Palavras em maiúsculo --> palavras que batem exatamente o que foi digitado. Centro de Computação

37 Mecanismos - Estratégia de Busca
Procurar por bookmarks (relação de links) de outros usuários na internet. P. ex.: "music links", ”links de música", “music bookmarks”, etc ... Centro de Computação

38 Pesquisando na Web - Estrutura
Podemos pesquisar uma simples palavra ou uma frase em uma página Web. O resultado pode ser encontrado em uma das seções abaixo : Título Autor Descrição Corpo do documento Centro de Computação

39 Pesquisando na Web - Estrutura
Exemplo : “tomates” Resultado da pesquisa: doc. de título : “Filme - Tomates Verdes Fritos” doc. que fala sobre o assunto: “cultivo de tomates” Centro de Computação

40 Pesquisando na Web - Pesquisa Booleana
use as palavras AND, OR, NOT para expandir e limitar as buscas. Permite combinar os termos de pesquisa. Mais úteis em buscas complexas. São conhecidos também como Operadores Booleanos. Centro de Computação

41 Pesquisa Booleana - “AND”
combina palavras e/ou frases, permitindo que ambas estejam presentes nos resultados. “eu estou interessado em soja que são transgênicas” sintaxe: “soja AND transgênica” Centro de Computação

42 Pesquisa Booleana - “OR”
combina palavras e/ou frases, trazendo resultados que possuam pelo menos uma das combinações. “eu estou interessado em soja ou produtos transgênicos” sintaxe:“soja OR transgênico” Centro de Computação

43 Pesquisa Booleana - “NOT”
exclue palavras e/ou frases dos resultados da pesquisa. “estou interessado em informações sobre soja excluindo-se docs que citam problemas transgênicos” sintaxe: “soja NOT transgênico” Centro de Computação

44 Pesquisa Booleana - Combinação
AND, OR e NOT “Eu quero aprender a cozinhar com ervas ou pimenta” sintaxe: “cozinhar AND (ervas OR pimenta)” ou “receita AND (ervas OR pimenta)” Centro de Computação

45 Pesquisando na Web - Adição/Subtração
adição “+” antes de uma palavra chave ou frase obriga que ela apareca entre os resultados relevantes. Ex: “+picanha invertida”. subtração “-” elimina dos resultados a palavra chave ou frase. Ex: “picanha -mostarda” CUIDADO !!!!!! Centro de Computação

46 Pesquisando na Web - Funções especiais
TITLE - pesquisar pr título do documento Ex: “TITLE:Gazeta Mercantil” HOST - traz páginas indexadas de um site. Ex: “HOST:www.unicamp.br nuclear” URL - traz páginas que contém este parâmetro no texto de sua URL. Ex: “URL:microsoft” traz TODAS as páginas indexadas que contém “microsoft” no endereço. “http://www.microsoft.com” ou “http://www.software.com/microsoft” Centro de Computação

47 Pesquisando na Web - Funções especiais
LINK - identifica todas as páginas que possuem um link definido neste parâmetro. Ex: “LINK: IMAGE - traz páginas que contém arquivos com os nome definidos neste parâmetro. Ex: “IMAGE:basket*.jpg” Ex: “IMAGE:vinci” Centro de Computação

48 Pesquisando na Web - Proximidade
NEAR, ADJACENT, FOLLOWED BY - alguns sites permitem que você encontre páginas com as palavras de busca próximas uma da outra ( evita-se encontrar documentos em que estas palavras aparecem sem ligação entre elas ). Ex: “cpi NEAR narcotráfico” Centro de Computação

49 Pesquisando na Web - Perfil
Assuntos relacionados ao argumento de pesquisa. Ex: viagem (viagem aérea, descontos de viagem, agências de viagem, etc ...). Altavista, GoTo, HotBot, Infoseek, Excite; Esquematização de resultados permite que somente 1 página de cada site seja incluído nos Top 10 dos resultados da pesquisa. Ex: Altavista, GoTo, HotBot, Infoseek, Excite, Northern Light, Google (faz identação quando existe mais de 1 página de um mesmo site); Centro de Computação

50 Pesquisando na Web - Perfil
Busca automática de frases : a utilização de frases pode obter melhores resultados nas pesquisas. Ex: Altavista, Google; Centro de Computação

51 Pesquisando na Web - Perfil
Similaridades: os mecanismos de busca trazem páginas similares ao argumento ( assunto ) pelo qual você está procurando. Ex: Excite, Infoseek., Altavista; Stemming: Palavras genéricas (ex: perigo*) permite pesquisar variações de uma palavra ou radical (resultado : perigoso, perigosamente, etc). Ex: Infoseek, Lycos, Northern Light, HotBot, etc. Centro de Computação

52 Pesquisando na Web - Perfil
Ordenação por data, intervalo de data e a data em que o spider indexou a página : cuidado !!! (70% dos websites informam a data correta, 20% reportam a data atual e 10% não informam data nenhuma); Ex: Infoseek, Nortern Light, Google Centro de Computação

53 Pesquisando na Web - Perfil
Pesquisando dentro dos resultados (search within): os mecanismos permitem que você faça uma pesquisa mais detalhada utilizando somente os resultados obtidos na primeira pesquisa; Ex: Infoseek, Lycos, HotBot; Centro de Computação

54 Pesquisando na Web - Perfil
Pesquisa Avançada: permite entrar com um maior número de parâmetros para restringir ou modificar a pesquisa. Ex: a maioria dos mecanismos conhecidos Tradução de documentos Ex: Altavista, Infoseek Centro de Computação

55 Pesquisando na Web - Perfil
Linguagem Natural: pode-se fazer consultas utilizando frases ou perguntas em linguagem natural, ou seja, como se estivesse perguntando a outra pessoa. Altavista, AskJeeves, Google Ex: Why womem crave chocolate ? Ex: Where can i buy classical musica CDs on-line?" Ex: Qhat is the color of japanese flag? Ex: What is the distance between Brasília and São Paulo? Ex: What is the best soccer team? Centro de Computação

56 Mecanismos - Dicas específicas
Altavista 250 milhões de páginas Interface simples e avançada Possui a maioria dos recursos de busca ( e mais: categorias de assunto, buscas especias por imagens, vídeos, áudio, customização do portal pelo usuário) Pode-se realizar uma busca restrita a um único site. Ex: "host:www.unicamp.br cursos" Centro de Computação

57 Mecanismos - Dicas específicas
Excite 215 milhões de páginas pesquisa avançada (permite adicionar palavras sugeridas para a busca, permite buscar documentos relacionados a este link/assunto, my Excite, etc...) Centro de Computação

58 Mecanismos - Dicas específicas
Radar UOL 110 milhões de páginas busca avançada (por datas, frase exatas, informa número de links para esta página, busca combinadas, operadores lógicos, tipo de mídia, extensão de arquivo, etc) Centro de Computação

59 Mecanismos - Dicas específicas
Northern Light Possui uma seção especial mantida em conjunto com a Billboard onde disponibiliza um repositório de músicas e websites de músicas. Ask Jeeves Linguagem natural (perguntas e respostas) Centro de Computação

60 Mecanismos - Dicas específicas
Google 350 milhões de páginas Um dos melhores índices internacionais. Possui cálculos avançados (500 milhões de variáveis) Basea-se na popularidade das páginas (número de links que apontam para ela) Termos em negrito, palavra chave no cabeçalho e em fontes maiores A posição de uma página depende, entre outros fatores, do que os outros falam dela (pesquisa de opinião pública). Ex: "best bookstore" resultado: Amazon Books Centro de Computação

61 Mecanismos de Busca - Referências
Procurando pessoas ( endereço de ) ? Bigfoot (http://bigfoot.com/) WhoWhere? (http://www.whowhere.lycos.com) Yahoo! People Search (http://people.yahoo.com) Altavista - People Search (http://www.av.com) UOL - (http://cf5.uol.com.br/listapub/index.cfm) Miner - (http://miner.bol.com.br/genteminer.html) Centro de Computação

62 Mecanismos de Busca - Referências
Procurando pessoas (endereços e telefones) Bigfoot ( ) InfoSpace Canada People Finder (http://www.infospace.com/canada/index_ppl_ca.htm) Switchboard.Com (http://www.switchboard.com) Telefonica (http://www.telefonica.net.br/sp/rrobim.htm) Miner (http://miner.bol.com.br/genteminer.html) Centro de Computação

63 Mecanismos de Busca - Referências
Softwares Jumbo (http://www.jumbo.com) Shareware.com (http://www.shareware.com) ZDNet Downloads (http://www.zdnet.com/downloads/) Tucows ( ) Centro de Computação

64 Mecanismos de Busca - Referências
Áudio / Vídeo AltaVista - (http://www.av.com) iAtlas - (http://www.iatlas.com) Lycos MP3 Search - (http://mp3.lycos.com) ProFusion MP3 - (http://mp3.profusion.com) Real - Snap - (http://real.snap.com) MP3 - ( ) Centro de Computação

65 Mecanismos de Busca - Referências
Novidades sobre Internet e os Mecanismos de Busca: Universo Internet - RubensQueiroz Estatística da web: Revistas : “Internet.Br”, “Internet Business”, “Veja” parece uma boa idéia mas pode existir alguns problemas pois alguns servidores Web não informam a data corretamente (70% informam a data correta, 20% reportam a data atual e 10% não informam data nenhuma); Mecanismos: Infoseek, Nortern Light, Google (data em que a página foi indexada); obs: muitas vezes é bom pesquisar em novos mecanismos de busca se quiser encontrar documentos recentes; Centro de Computação

66 Centro de Computação da UNICAMP
Sobre a Palestra Está disponível em: Palestrante: Gian - Ciclo de Palestras Centro de Computação da UNICAMP Centro de Computação


Carregar ppt "Mecanismos de Busca na Web"

Apresentações semelhantes


Anúncios Google