A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

1 Integração de informação proveniente da Web Daniel Gomes Orientador: Mário J. Silva.

Apresentações semelhantes


Apresentação em tema: "1 Integração de informação proveniente da Web Daniel Gomes Orientador: Mário J. Silva."— Transcrição da apresentação:

1 1 Integração de informação proveniente da Web Daniel Gomes Orientador: Mário J. Silva

2 2 Motivação A Web é a maior fonte de informação criada! O que se diz acerca da Coca-Cola? Quantas palavras tem um documento? –Necessitam de processamento automático!

3 3 Problemas de acessibilidade Informação muito vasta e dispersa Heterogeneidade de formatos e desrespeito de especificações Disponibilidade Volatilidade da informação Pouca reutilização de software e dados Web

4 4 Hipótese Integração em grande escala de informação proveniente da Web, num sistema que permita o seu processamento automático.

5 5 Data vs. Web Warehousing

6 6 A integração de dados provenientes da Web é um novo problema! Complexo: Carece de uma solução geral para um conjunto de problemas específicos. Multi-disciplinar.

7 7 Estrutura da Apresentação –Motivação –Problema Solução Validação Plano Conclusão

8 8 Processo de integração 1.Modelação* 2.Recolha 3.Carregamento 4.Armazenamento 5.Acesso

9 9 Arquitectura Web Modelação Acesso Armazenamento Recolha Carregamento

10 10 Modelação da fonte de informação Dimensionar o sistema e definir abordagens. Validar as assunções: –Sítios com 70 páginas->Particionável. –15% de docs duplicados->Duplicação de informação.

11 11 Recolha e carregamento Capacidade de recolha adequada. Configurável. Robusto. Captura de meta-dados.

12 12 Armazenamento e acesso Suporte temporal. Acessível a pessoas e máquinas. Preservação. Reutilizável noutros contextos.

13 13 Validação Pesquisa e publicação de literatura Prototipagem –Casos práticos. –Teste em ambiente não controlado. Arquitectura aplicada em diferentes contextos.

14 14 Contributos Arquitectura que contempla todo o processo de integração de informação proveniente da Web. Arquitectura de S.I. reutilizável em sistemas com problemas comuns. Definição de boas-práticas para WW. Aplicação na resolução de problemas práticos. Reutilização dos protótipos. Simulações realistas em ambiente controlado

15 15 Plano: 1º ano (2002/2003) Pesquisa e levantamento de trabalho relacionado; Definição da arquitectura; Levantamento e avaliação de tecnologia a utilizar; Desenvolvimento do 1º protótipo; Aplicação do protótipo num caso real (tumba!); Investigação do problema da modelação de fontes de informação; Publicação dos resultados desta investigação.

16 16 Plano: 2º ano (2003/2004) Investigação/Publicação relativa ao problema da recolha e carregamento de informação; Análise/Publicação da evolução do modelo da fonte de informação obtido no ano anterior; Desenvolvimento do protótipo final;

17 17 Plano: 3º e 4º ano 3º ano: 2004/2005 Investigação/Publicação relativa ao problema do armazenamento e acesso a informação; Validação da arquitectura em 3 projectos distintos: –Rebil: Relacionamento de informação biológica através da Literatura; –Linguateca: Centro de recursos distribuído para a língua Portuguesa; –Tumba!: Extensão a arquivo histórico da Web Portuguesa Recolha e análise de dados para validação. 4ºano: 2005/2006 –Escrita e defesa da tese.

18 18 Resultados (1 ano e meio) 1º protótipo Integração de 3.5M de documentos Web Suporte ao estudo de um corpus da Web Portuguesa. Caracterização da Web –Collecting Statistics about the Portuguese Web. FCUL Technical Report DI/FCUL TR June –A Characterization of the Portuguese Web. 3rd ECDL Workshop on Web Archives. Trondheim, Norway, August –Characterizing a Community Web. TOIT- Transactions on Internet Technology (submetido).

19 19 Conclusão A integração de dados Web coloca novos problemas. Carência de arquitectura de S.I. e metodologia. Cada etapa do processo de integração impõe abordagens especificas. Conciliar diferentes correntes de investigação. Resultados animadores com o 1º protótipo.

20 20 Obrigado pela atenção. Questões?


Carregar ppt "1 Integração de informação proveniente da Web Daniel Gomes Orientador: Mário J. Silva."

Apresentações semelhantes


Anúncios Google