Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouRafaela Pena Alterado mais de 9 anos atrás
1
Tarântula-Sistema de Recolha de Documentos da Web Daniel Gomes, Mário Silva G rupo xldb-LASIGE, Faculdade de Ciências da Universidade de Lisboa O Tarântula é um módulo de recolha de documentos da Web genérico, com características de configuração e distribuição que permitem a sua fácil integração como subsistema de uma aplicação. –O Tarântula guarda informação relativa às suas acções e aos documentos recolhidos, que permitem efectuar análises da estrutura de partições da Web. –As acções do Tarântula podem ser monitorizadas e controladas, sendo possível a sua interrupção e retoma de forma simples e eficiente.
2
Requisitos Identificar-se quando visita servidores Web, usando os campos disponibilizados pelo protocolo HTTP para esse fim; Não sobrecarregar servidores Web, evitando pedidos simultâneos ou sequenciais a um mesmo servidor; Não visitar servidores ou partes de servidores que não pretendam ser visitados por robots, respeitando o protocolo REP (Robot Exclusion Protocol). Evitar recolher documentos repetidos. Não recolher informação fútil para os propósitos do sistema. Evitar spider traps. As spider traps são URLs que fazem com que um sistema de recolha faça recolhas infinitas num dado sítio da Web.
3
Arquitectura de software 1 2 3 1- Inserção de configurações de recolha. 2- Recolha de documentos da Web. 3- Armazenamento dos conteúdos recolhidos no sistema de ficheiros.
4
Principais características Arquitectura modular Desenvolvido recorrendo à plataforma Java e ao SGBD PostgreSQL. Controlo de carga incutida às máquinas que efectuam a recolha. Distribuição dos componentes. Tolerância a faltas.
5
Interface de configuração
6
Aplicações O Tarântula foi utilizado na construção do motor de busca Tumba, para efectuar a recolha de documentos do domínio.PT. Foram inseridas 12781 raízes (URLs a partir dos quais se inicia a recolha). O Tarântula foi configurado para recolher documentos do tipo text/html, com tamanho inferior a 200KB que se encontrassem a uma profundidade máxima de 3. Foram utilizadas 7 máquinas. O Tarântula foi integrado no projecto DROP da Biblioteca Nacional, tendo sido baptizado de RAPA. O projecto DROP visa efectuar a recolha e armazenamento de publicações online, à semelhança do depósito legal que é efectuado com as publicações tradicionais impressas em papel.
7
Resultados da recolha do domínio.PT (TUMBA) Desempenho: Duração: 4 dias. Pico de débito nas primeiras 12 horas: 51% do total de documentos. 8 documentos por segundo. 947 Kbit/s. Recolha: Total de 676000 documentos recolhidos. Armazenados em 14 GB de disco. Tamanho médio dos documentos: 24 KB. Respostas HTTP
8
XLDB http://xldb.fc.ul.pt O XLDB é um dos grupos de investigação pertencentes ao LaSIGE (Laboratório de Sistemas Informáticos de Grande Escala), da Faculdade de Ciências da Universidade de Lisboa. As áreas de acção do XLDB centram-se nos sistemas de informação, com ênfase para a gestão em grande escala de dados distribuídos na Internet.
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.