Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouStefany Serpe Alterado mais de 10 anos atrás
1
Tarântula Sistema de Recolha de Documentos na Web por Daniel Coelho Gomes
2
Apresentação de estágio Contexto Tarântula Aplicações Conclusões e trabalho futuro
3
Instituição de acolhimento LaSIGE - Laboratório de Sistemas Informáticos de Grande Escala –é uma unidade de investigação do DI da FCUL –diferentes grupos –diferentes áreas de trabalho XLDB - research group –sistemas de informação com ênfase para a gestão em grande escala de dados distribuídos na Internet
4
Motivação Vulgarização da utilização da Internet –Mais utilizadores –Mais publicadores –Mais documentos online –Mais informação disponível Maior fonte de informação do mundo, praticamente inexplorada face às suas potencialidades.
5
Como tirar proveito de toda esta informação disponível?
6
Criação de novos sistemas direccionados para a Web –Motores de busca gerais especializados –Recuperação de Informação (IR) –Prospecção de Dados (Data Mining)
7
Para processar a informação disponível na WWW, as aplicações necessitam de recolher conteúdos de forma sistemática.
8
Tarântula Modulo de recolha de conteúdos online –Integrável –Configurável –Escalável
9
Sistemas de Recolha Crawler, spider, robot, wanderer, worm, etc. Funcionamento conceptualmente simples –recolha iterativa de conteúdos, a partir de URLs Complexidade variante consoante a aplicação Pouca documentação
10
Requisitos de um crawler Robusto à anarquia da Web –HTML mal formado –servidores em baixo ou muito lentos Regras de bom comportamento –REP –Não sobrecarregar servidores Web Monitorização e controlo de acções
11
Casos de uso do Tarântula
12
Arquitectura
13
Modelo de Dados
14
Tecnologias Dados de Configuração e Dados de Execução: SQL e PostgreSQL. Interface de Configuração e Gestão: HTML, Java Servlets. Monitor de Tarefas: class Java, que estabelece uma ligação JDBC com o PostgreSQL. Interpretador do Protocolo de Exclusão, Extractor de URLs e Conversor de Links : analisadores léxicos escritos em Java. Coordenador e Coleccionador: aplicações multi-threaded desenvolvidas em Java.
15
Aplicações DROP –Biblioteca Nacional –Recolha, armazenamento e consulta de publicações online –Cópias fieis dos originais TUMBA –Motor de busca da Web Portuguesa –Grande quantidade de docs num intervalo de tempo relativamente curto
16
Exemplo Configuração –126 publicações online –restrito ao servidor base –profundidade máxima = 3 –todos os tipos de documento
17
Caracterização das publicações online Portuguesas bem cuidadas (HTTP 404: 4%) documentos pequenos (2 a 32 KB) tipos facilmente tratáveis (gif, html, jpeg) acessíveis a robots (REP: 1 servidor)
18
Conclusões Integração e configuração fácil Bem comportado Ponto de congestão –PostgreSQL Capacidade de recolha insuficiente para recolhas em grande escala (73 docs/seg) Escalabilidade? –expansão do sistema com mais Coleccionadores –distribuição de componentes por diversas máquinas
19
Trabalho futuro Escalabilidade à dimensão da Web Portuguesa –Resolução dos pontos de congestão –Arquitectura distribuída Colaboração com um repositório de dados Novas funcionalidades –detector de idioma –informação para ranking dos documentos
20
FIM
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.