A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Ferramentas de busca na WEB. Disciplina: Controle dos Registros do Conhecimento III Professora: Úrsula Blattmann Aluno: Marcos Henrique Camerini Universidade.

Apresentações semelhantes


Apresentação em tema: "Ferramentas de busca na WEB. Disciplina: Controle dos Registros do Conhecimento III Professora: Úrsula Blattmann Aluno: Marcos Henrique Camerini Universidade."— Transcrição da apresentação:

1 Ferramentas de busca na WEB

2 Disciplina: Controle dos Registros do Conhecimento III Professora: Úrsula Blattmann Aluno: Marcos Henrique Camerini Universidade Federal de Santa Catarina Florianópolis, 2005

3 Internet necessária na criação de ferramentas para localização de dados e informações. As primeiras conhecidas foram o Archie, Verônica e Jughead. Com a explosão da Web e a conseqüente disseminação e publicações por esse meio, passaram a surgir também, ferramentas específicas. Hoje se estima mais de um bilhão de páginas HTML. Existem basicamente dois tipos de ferramentas de busca: os motores e os diretórios. Porém, a partir dessas duas categorias, tem sido criadas outras ferramentas que vem apresentar uma variação muito grande no tipo, número e qualidade das informações recuperadas. Para melhor entender os resultados na busca de informações, é necessário conhecer os diferentes tipos de ferramentas e suas peculiaridades. Internet necessária na criação de ferramentas para localização de dados e informações. As primeiras conhecidas foram o Archie, Verônica e Jughead. Com a explosão da Web e a conseqüente disseminação e publicações por esse meio, passaram a surgir também, ferramentas específicas. Hoje se estima mais de um bilhão de páginas HTML. Existem basicamente dois tipos de ferramentas de busca: os motores e os diretórios. Porém, a partir dessas duas categorias, tem sido criadas outras ferramentas que vem apresentar uma variação muito grande no tipo, número e qualidade das informações recuperadas. Para melhor entender os resultados na busca de informações, é necessário conhecer os diferentes tipos de ferramentas e suas peculiaridades.

4 DIRETÓRIOS Nos primórdios da Internet constituíram-se na primeira solução para localizar e organizar informações da Web, e sua estrutura comportava um volume pequeno, de coleta não automática. Sua base de dados organiza os sites por categorias e sub-categorias, de forma hierárquica. Comumente relacionam itens como: educação, esporte, entretenimento, viagens, compras, informática, etc. A seleção dos sites é efetuada por seres humanos, chamados editores, ou também, através de robôs para a coleta de novos URLs. A inclusão se dá pela análise das sugestões apresentadas por usuários, Embora os executores não divulguem os critérios adotados para seleção dos mesmos. O primeiro diretório da Web foi o The World Wide Web Virtual Library (http://www.vlib.org/) de novembro de 1992, sediado no CERN, berço da Web. Abaixo outros exemplos:

5 DIFERENÇAS ENTRE OS DIRETÓRIOS Embora sigam princípios genéricos, variam quanto a organização, à forma de descrição dos recursos e a cobertura. Quanto à organização, a maioria adota listas hierárquicas por assunto, sendo que alguns utilizam sistemas tradicionais como de cabeçalhos de assunto (Library of Congress) ou classificação Dewey. Quanto às descrições dos sites, na sua maioria limitam-se a apresentar títulos e breves resumos de até 30 palavras. Há também diretórios que fornecem descrições criteriosas dos recursos, os Diretórios avaliativos ou acadêmicos que utilizam um processo seletivo de recursos mais rigorosos e não incluem propagandas. Estes geralmente têm a elaboração da análise realizada por estudantes de mestrado ou mestres em biblioteconomia. Exemplos: O Argus (http://www.clearinghouse.net/); Infomine(http://infomine.ucr.edu); Infomine(http://infomine.ucr.edu);http://infomine.ucr.edu Britannica (http://www.britannica.com). Britannica (http://www.britannica.com).http://www.britannica.com

6 Quanto aos assuntos nem todos são genéricos, alguns cobrem áreas específicas e são conhecidos por diretórios temáticos ou especializados. Há por exemplo diretórios especializados em imagens, jornais, revistas, softwares; outros específicos como: ciências, saúde, legislação, informática, etc. Há também diretórios temáticos: (http://www.tematicos.com); (http://www.buscopio.com). Dada a freqüência com que são construídas novas ferramentas de busca, um novo tipo de diretório foi criado: diretórios de ferramentas de busca. Exemplo: FinderSeeker (http://www.finderseeker.com/); Search.com(http://search.cnet.com/)

7 MOTORES DE BUSCA Diferentemente dos diretórios, os motores de busca não organizam as páginas de suas bases hierarquicamente. Priorizam a abrangência buscando reunir o maior número possível de recursos através da busca por palavras-chave, por meio de programas robôs, em prejuízo da seletividade. Com bases de dados imensas permitem a busca por palavras-chave ou, às vezes, em linguagem natural. São decorrentes do crescimento vertiginoso da Web e da impossibilidade de coletas manuais. Os robôs, também são conhecidos por aranhas (spiders), rastejadores ou (crawlers) agentes viajantes (wanderers), e vermes (worms). Consistem em programas de coleta de novos dados, lançados regularmente na rede mundial, para a busca de dados atualizados sobre o maior numero possível de documentos, para após a indexação, integrá-los à sua base. Geralmente iniciam a busca através de sites conhecidos, em especial os que têm muitos links. O programa que localiza também elege e ordena os resultados por relevância.

8 DIFERENÇAS ENTRE OS MOTORES DE BUSCA Diferem entre si, fundamentalmente em relação a fatores como: tamanho de suas bases de dados, critérios para indexação, inclusão de páginas e ordenação de resultados. Variam também quanto à atualização de base de dados, recursos de busca e modo de apresentação de resultados.

9 Tamanho da base de dados Geralmente é medido em número de URLs. Se um motor cobre mais na Web, maior será a chance de conter a informação procurada. Por conseqüência, os motores maiores são mais usados, atraindo maior número de anunciantes. Entretanto nenhum motor contém todas as páginas da Web. Os melhores não alcançam 60% delas. Os quatro maiores são Google, WebTop.com, Altavista e Fast Search. Há o Todobr, que indexa unicamente sites brasileiros. Foi desenvolvido pela UFMG e lançado em novembro de Costuma trazer mais resultados que as maiores ferramentas estrangeiras.

10 Critérios para indexação Os motores criam índices chamados tecnicamente de arquivos invertidos. Eles contém todos os termos que podem ser utilizados nas buscas e os respectivos URLs. Podem ainda conter informação da posição das palavras na página, os tags HTML associados ao texto. A indexação se dá pela freqüência com que a palavra ou termo aparece no texto. Alguns motores indexam também outros termos que não fazem parte do texto visível, mas que contém informações úteis e importantes. Exemplo disso são a Tag Image, textos associados com imagens. Alguns motores não incluem em seu índice as chamadas palavras proibidas. São as palavras e termos muito comuns, como por exemplo, a preposição de, ou o artigo the. Como ocorrem com alta freqüência são excluídas por economia de espaço e tempo de processamento. Outros as incluem nos índices, mas ignoram no ato da busca. Geralmente os motores não divulgam quais as palavras proibidas.

11 Critérios para inclusão de páginas O número de itens nas bases é determinado pelos critérios adotados para inclusão. Alguns motores procuram incluir todas as páginas de cada site visitado. Porém, existem sites que requerem senhas, ou páginas atrás de um firewall e páginas com o metatag Meta Robot noindex (comando acrescentado ao marcador de cabeçalho para indicar ao robô que elas não devem ser capturadas). Existem também páginas não indexadas, chamadas de Web invisível, que contém rames e image-maps. Altavista, Google, Fast e Northern são alguns dos poucos que indexam frames, porém, capturam de forma incompleta, pois não trazem o contexto em que estão inseridas. Image maps são figuras contendo dois ou mais links, cada um vinculado a regiões diferentes da imagem. Páginas dinâmicas são formadas de informações contidas em bases de dados e montadas quando se clica no link. Tem como característica a inserção de um ? como parte de seu URL. Ocorre que a maioria dos motores ao encontrar esse sinal recusa a indexação, para evitar a situação de se obter milhares de páginas quase iguais.

12 Freqüência de atualização de dados Dada a dinâmica de atualização das páginas e sites, se faz necessário atualizar as bases dos motores. Isso para incluir novos e excluir os desativados ou os não mais existentes. Os motores de busca em média atualizam sua base mensalmente. Determinadas páginas, aquelas mais visitadas e com grande fluxo de usuários, até o fazem semanalmente. Há diferença também, entre os robôs, no tempo necessário para adição ao índice. Por isso podem ocorrer meses até que um novo site seja adicionado. LookSmart e Inktomi já disponibilizam programas que cobram uma taxa para disponibilizar num prazo de 48 horas.

13 Interfaces e recursos para busca Os motores diferem também nesse ponto. Geralmente fornecem dois modos de busca: simples, para leigos, e, avançada para experientes ou profissionais. A busca simples permite aos usuários entrem de forma direta, sem a necessidade de conhecimento de lógica booleana. A busca avançada permite a utilização de expressões booleanas complexas. Podem permitir também limitação por data, domínio, idioma ou tipo de arquivo (nome da extensão). Alguns dão opção até de busca pela raiz da palavra, aumentando a abrangência da pesquisa. Raros motores dispõem de busca em linguagem natural, onde a entrada se dá na forma de uma sentença completa. Não há padronização nas interfaces e recursos de busca entre os diversos motores, por isso, é importante a leitura das páginas de ajuda e orientação, dada a diversidade de tratamentos.

14 Critério de ordenação de resultados Considerando a quantidade de páginas na Internet, é comum obter-se um grande número de resultados para qualquer busca. Desta forma, é importante a seqüência em que os resultados são disponibilizados. Com a finalidade de permitir que apareçam os melhores sites em primeiro lugar, a maioria dos motores utiliza algoritmos de ordenação de resultados. Um dos critérios mais utilizados está na localização e a freqüência de ocorrência do termo em uma página. Outro critério de relevância é o número de termos da consulta presente na página. Os motores consideram também o tamanho dos textos.

15 Além dos mecanismos acima, nos motores tem sido usado também: Metatags de palavra-chave e descrição - (para chamar a atenção sobre suas páginas);Metatags de palavra-chave e descrição - (para chamar a atenção sobre suas páginas); Popularidade dos links - atribuem maior relevância à páginas muito referenciadas em outros sites, ou sites importantes;Popularidade dos links - atribuem maior relevância à páginas muito referenciadas em outros sites, ou sites importantes; Direct Hit – (http://www.directhit.com) serviço que monitora quais os links que milhares de usuários selecionam entre os apresentados e o tempo de permanência.Direct Hit – (http://www.directhit.com) serviço que monitora quais os links que milhares de usuários selecionam entre os apresentados e o tempo de permanência.http://www.directhit.com (http://www.lycos.com) e (http://www.metabusca.com); Inclusão de site em diretórios – Motores híbridos, ou seja, possuem um diretório vinculado ao site, costuma atribuir maior relevância pela importância;Inclusão de site em diretórios – Motores híbridos, ou seja, possuem um diretório vinculado ao site, costuma atribuir maior relevância pela importância;

16 Conceitos – O motor Northern Light aplica análise conceitual para determinar a intenção da busca;Conceitos – O motor Northern Light aplica análise conceitual para determinar a intenção da busca; Pagamento – O GoTo (http://www.goto.com) diferencia- se por apresentar em primeiro lugar os sites cujos produtores pagaram para isso;Pagamento – O GoTo (http://www.goto.com) diferencia- se por apresentar em primeiro lugar os sites cujos produtores pagaram para isso;http://www.goto.com Spam – defini-se com um conjunto de métodos considerados pouco éticos para promover páginas, através da repetição de palavras irrelevantes. (técnicas usuais consistem no uso de texto invisível, escrito na mesma cor que o fundo, não perceptível pelo usuário, mas lida pelo robô).Spam – defini-se com um conjunto de métodos considerados pouco éticos para promover páginas, através da repetição de palavras irrelevantes. (técnicas usuais consistem no uso de texto invisível, escrito na mesma cor que o fundo, não perceptível pelo usuário, mas lida pelo robô). Forma de apresentação de resultados – Apresentação do número de documentos encontrados. Contendo o título e um pequeno resumo. Pode conter também tamanho do arquivo, data, URL e idioma e em alguns casos related pages.Forma de apresentação de resultados – Apresentação do número de documentos encontrados. Contendo o título e um pequeno resumo. Pode conter também tamanho do arquivo, data, URL e idioma e em alguns casos related pages.

17 MOTORES DE BUSCA OU DIRETÓRIOS ? Conforme visto, há várias diferenças essenciais entre motores de busca e diretórios, que apresentam vantagens e desvantagens. Os diretórios têm bases de dados menores, mas contém informações mais relevantes e são mais apropriados para buscas por tópicos de interesse genérico.Os diretórios têm bases de dados menores, mas contém informações mais relevantes e são mais apropriados para buscas por tópicos de interesse genérico. Ao se pesquisar em um diretório, a consulta contempla apenas o título, categoria e uma sucinta descrição dos documentos.Ao se pesquisar em um diretório, a consulta contempla apenas o título, categoria e uma sucinta descrição dos documentos. Já os motores proporcionam a localização de qualquer tipo de informação desde que exista na Internet e esteja indexada.Já os motores proporcionam a localização de qualquer tipo de informação desde que exista na Internet e esteja indexada. Os motores de busca procuram compensar o excesso de itens encontrados, apresentando-os por grau de relevância e realizam uma pesquisa no texto completo. Outra diferença importante é a rapidez para a informação se incluída. Como nos diretórios a inclusão tem a intervenção humana, sua inclusão pode demorar pelo menos um mês. Nos motores, pela indexação automática, costuma ser mais rápido.Os motores de busca procuram compensar o excesso de itens encontrados, apresentando-os por grau de relevância e realizam uma pesquisa no texto completo. Outra diferença importante é a rapidez para a informação se incluída. Como nos diretórios a inclusão tem a intervenção humana, sua inclusão pode demorar pelo menos um mês. Nos motores, pela indexação automática, costuma ser mais rápido.

18 METAMOTORES Multibuscadores permitem a execução de uma mesma busca em mais de uma ferramenta (motores ou diretórios) ao mesmo tempo, exibindo todos os resultados em uma só lista. Neste caso há uma caixa de pesquisa para cada motor, e as consultas são encontradas e submetidas separadamente para cada ferramenta. Existem alguns metamotores que utilizam um software instalado no próprio micro que objetiva facilitar a construção local de estratégias de busca e contem outras ferramentas de apoio. Exemplos: Mata Hari (http://www.thewebtools.com/) Copernic(http://www.copernic.com/)

19 DIFERENÇAS ENTRE METAMOTORES Existem variações entre eles. Apresentam diferenças em relação à interface de busca, motores utilizados na pesquisa, modo de processamento das consultas, forma de compilação e apresentação de resultados. Podem funcionar como os diretórios de ferramentas temáticas. O tempo de resposta e o modo como os resultados são retornados, são consideravelmente afetados pela forma em que as ferramentas são pesquisadas: seqüencial ou simultânea. Metamotores são indicados nos casos em que não se encontram muitos resultados quando se pesquisa apenas um motor. Também apresentam desvantagens. Nessa interface os recursos específicos de cada motor, tornam-se inacessíveis. Por isso, os metamotores são mais indicados para busca de termos únicos ou buscas simples, sem sofisticação. Além disso, tomam mais tempo porque o tempo de resposta será o da ferramenta mais lenta.

20 Como se manter atualizado sobre motores de busca Consultar: Search Engine Watch(http://www.searchenginewatch.com) SearchIQ (http://www.searchiq.com/) Search Engine Showdown (http://www.searchengineshowdown.com/) About.com Web Search Guide (http://www.Websearch.about.com/) Recomenda-se também a revista Online, na versão impressa e através do site:(http://www.onlineinc.com/) O site Ferramentas de Busca na Internet traz uma lista por categoria de ferramentas: (http://www.eb.ufmg.br/cendon/links/motores.htm)

21 Referências: Cendón, Beatriz Valadares. Ferramentas de busca na Web. Ciência da Informação – v.30, n.1, p.39-49, jan./abr Disponível em:. Acesso em 03 de Abril de ?id=257&layout=abstracthttp://www.ibict.br/cienciadainformacao/viewarticle.php ?id=257&layout=abstract

22

23


Carregar ppt "Ferramentas de busca na WEB. Disciplina: Controle dos Registros do Conhecimento III Professora: Úrsula Blattmann Aluno: Marcos Henrique Camerini Universidade."

Apresentações semelhantes


Anúncios Google