A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Tarântula Sistema de Recolha de Documentos na Web por Daniel Coelho Gomes.

Apresentações semelhantes


Apresentação em tema: "Tarântula Sistema de Recolha de Documentos na Web por Daniel Coelho Gomes."— Transcrição da apresentação:

1 Tarântula Sistema de Recolha de Documentos na Web por Daniel Coelho Gomes

2 Apresentação de estágio Contexto Tarântula Aplicações Conclusões e trabalho futuro

3 Instituição de acolhimento LaSIGE - Laboratório de Sistemas Informáticos de Grande Escala –é uma unidade de investigação do DI da FCUL –diferentes grupos –diferentes áreas de trabalho XLDB - research group –sistemas de informação com ênfase para a gestão em grande escala de dados distribuídos na Internet

4 Motivação Vulgarização da utilização da Internet –Mais utilizadores –Mais publicadores –Mais documentos online –Mais informação disponível Maior fonte de informação do mundo, praticamente inexplorada face às suas potencialidades.

5 Como tirar proveito de toda esta informação disponível?

6 Criação de novos sistemas direccionados para a Web –Motores de busca gerais especializados –Recuperação de Informação (IR) –Prospecção de Dados (Data Mining)

7 Para processar a informação disponível na WWW, as aplicações necessitam de recolher conteúdos de forma sistemática.

8 Tarântula Modulo de recolha de conteúdos online –Integrável –Configurável –Escalável

9 Sistemas de Recolha Crawler, spider, robot, wanderer, worm, etc. Funcionamento conceptualmente simples –recolha iterativa de conteúdos, a partir de URLs Complexidade variante consoante a aplicação Pouca documentação

10 Requisitos de um crawler Robusto à anarquia da Web –HTML mal formado –servidores em baixo ou muito lentos Regras de bom comportamento –REP –Não sobrecarregar servidores Web Monitorização e controlo de acções

11 Casos de uso do Tarântula

12 Arquitectura

13 Modelo de Dados

14 Tecnologias Dados de Configuração e Dados de Execução: SQL e PostgreSQL. Interface de Configuração e Gestão: HTML, Java Servlets. Monitor de Tarefas: class Java, que estabelece uma ligação JDBC com o PostgreSQL. Interpretador do Protocolo de Exclusão, Extractor de URLs e Conversor de Links : analisadores léxicos escritos em Java. Coordenador e Coleccionador: aplicações multi-threaded desenvolvidas em Java.

15 Aplicações DROP –Biblioteca Nacional –Recolha, armazenamento e consulta de publicações online –Cópias fieis dos originais TUMBA –Motor de busca da Web Portuguesa –Grande quantidade de docs num intervalo de tempo relativamente curto

16 Exemplo Configuração –126 publicações online –restrito ao servidor base –profundidade máxima = 3 –todos os tipos de documento

17 Caracterização das publicações online Portuguesas bem cuidadas (HTTP 404: 4%) documentos pequenos (2 a 32 KB) tipos facilmente tratáveis (gif, html, jpeg) acessíveis a robots (REP: 1 servidor)

18 Conclusões Integração e configuração fácil Bem comportado Ponto de congestão –PostgreSQL Capacidade de recolha insuficiente para recolhas em grande escala (73 docs/seg) Escalabilidade? –expansão do sistema com mais Coleccionadores –distribuição de componentes por diversas máquinas

19 Trabalho futuro Escalabilidade à dimensão da Web Portuguesa –Resolução dos pontos de congestão –Arquitectura distribuída Colaboração com um repositório de dados Novas funcionalidades –detector de idioma –informação para ranking dos documentos

20 FIM


Carregar ppt "Tarântula Sistema de Recolha de Documentos na Web por Daniel Coelho Gomes."

Apresentações semelhantes


Anúncios Google