Tarântula-Sistema de Recolha de Documentos da Web Daniel Gomes, Mário Silva G rupo xldb-LASIGE, Faculdade de Ciências da Universidade de Lisboa O Tarântula.

Tarântula-Sistema de Recolha de Documentos da Web Daniel Gomes, Mário Silva G rupo xldb-LASIGE, Faculdade de Ciências da Universidade de Lisboa O Tarântula é um módulo de recolha de documentos da Web genérico, com características de configuração e distribuição que permitem a sua fácil integração como subsistema de uma aplicação. –O Tarântula guarda informação relativa às suas acções e aos documentos recolhidos, que permitem efectuar análises da estrutura de partições da Web. –As acções do Tarântula podem ser monitorizadas e controladas, sendo possível a sua interrupção e retoma de forma simples e eficiente.

Requisitos  Identificar-se quando visita servidores Web, usando os campos disponibilizados pelo protocolo HTTP para esse fim;  Não sobrecarregar servidores Web, evitando pedidos simultâneos ou sequenciais a um mesmo servidor;  Não visitar servidores ou partes de servidores que não pretendam ser visitados por robots, respeitando o protocolo REP (Robot Exclusion Protocol).  Evitar recolher documentos repetidos.  Não recolher informação fútil para os propósitos do sistema.  Evitar spider traps. As spider traps são URLs que fazem com que um sistema de recolha faça recolhas infinitas num dado sítio da Web.

Arquitectura de software 1 2 3 1- Inserção de configurações de recolha. 2- Recolha de documentos da Web. 3- Armazenamento dos conteúdos recolhidos no sistema de ficheiros.

Principais características Arquitectura modular Desenvolvido recorrendo à plataforma Java e ao SGBD PostgreSQL. Controlo de carga incutida às máquinas que efectuam a recolha. Distribuição dos componentes. Tolerância a faltas.

Interface de configuração

Aplicações O Tarântula foi utilizado na construção do motor de busca Tumba, para efectuar a recolha de documentos do domínio.PT. Foram inseridas 12781 raízes (URLs a partir dos quais se inicia a recolha). O Tarântula foi configurado para recolher documentos do tipo text/html, com tamanho inferior a 200KB que se encontrassem a uma profundidade máxima de 3. Foram utilizadas 7 máquinas. O Tarântula foi integrado no projecto DROP da Biblioteca Nacional, tendo sido baptizado de RAPA. O projecto DROP visa efectuar a recolha e armazenamento de publicações online, à semelhança do depósito legal que é efectuado com as publicações tradicionais impressas em papel.

Resultados da recolha do domínio.PT (TUMBA) Desempenho: Duração: 4 dias. Pico de débito nas primeiras 12 horas: 51% do total de documentos. 8 documentos por segundo. 947 Kbit/s. Recolha: Total de 676000 documentos recolhidos. Armazenados em 14 GB de disco. Tamanho médio dos documentos: 24 KB. Respostas HTTP

XLDB http://xldb.fc.ul.pt O XLDB é um dos grupos de investigação pertencentes ao LaSIGE (Laboratório de Sistemas Informáticos de Grande Escala), da Faculdade de Ciências da Universidade de Lisboa. As áreas de acção do XLDB centram-se nos sistemas de informação, com ênfase para a gestão em grande escala de dados distribuídos na Internet.

Tarântula-Sistema de Recolha de Documentos da Web Daniel Gomes, Mário Silva G rupo xldb-LASIGE, Faculdade de Ciências da Universidade de Lisboa O Tarântula.

Apresentações semelhantes

Apresentação em tema: "Tarântula-Sistema de Recolha de Documentos da Web Daniel Gomes, Mário Silva G rupo xldb-LASIGE, Faculdade de Ciências da Universidade de Lisboa O Tarântula."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Tarântula-Sistema de Recolha de Documentos da Web Daniel Gomes, Mário Silva G rupo xldb-LASIGE, Faculdade de Ciências da Universidade de Lisboa O Tarântula.

Apresentações semelhantes

Apresentação em tema: "Tarântula-Sistema de Recolha de Documentos da Web Daniel Gomes, Mário Silva G rupo xldb-LASIGE, Faculdade de Ciências da Universidade de Lisboa O Tarântula."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback