Integração de informação proveniente da Web

Integração de informação proveniente da Web
Daniel Gomes Orientador: Mário J. Silva

Motivação A Web é a maior fonte de informação criada!
O que se diz acerca da Coca-Cola? Quantas palavras tem um documento? Necessitam de processamento automático! A Web é a maior fonte de informação alguma vez criada, no entanto ainda estamos longe de esgotar o seu potencial. Vou dar o exemplo de 3 casos de utilização da Web q se debateriam com problemas comuns e que não estão resolvidos. Coca-cola/Euro. Site coca-cola. Web é um espaço de discussão: foruns, mailing lists, blogs, sites de opinião especializados. Avaliar impacto. Nºmédio de palavras usadas por doc. Motores de busca.

Problemas de acessibilidade
Informação muito vasta e dispersa Heterogeneidade de formatos e desrespeito de especificações Disponibilidade Volatilidade da informação Pouca reutilização de software e dados Web Problemas de acessibilidade característicos da Web q fazem com q seja difícil usá-la como uma fonte de informação de forma sistemática Cada vez há mais e estão sempre a surgir novos (HTML, Flash, mp3). HTTP é muito raro um servidor Web devolver a maior parte dos campos de um cabeçalho HTTP. É raro encontrar um documento q respeite a especificação do HTML Disponibilidade Tempos de resposta Servidores em baixo Escassez de recursos como a largura de banda Qd voltamos ao mesmo sítio a informação já não está lá.

Hipótese Integração em grande escala de informação proveniente da Web, num sistema que permita o seu processamento automático. Solução geral. Criar um SI q processe os dados e disponibilize acesso uniforme escondendo problemas específicos.

Data vs. Web Warehousing
Forte conhecimento das fontes de informação Recolha de informação não é complexa Ambiente controlado Imprevisibilidade é uma constante. Nivel de indecisão maior. Formatos definidos Tipos complexos: texto, estruturados. Documentos recolhidos da Web são o foco de interesse. Sistemas de suporte à decisão Granularidade pequena, geração de relatórios Os documentos não são o foco de interesse Baseados em HW dispendioso e centralizado para processamento de informação

A integração de dados provenientes da Web é um novo problema!
Complexo: Carece de uma solução geral para um conjunto de problemas específicos. Multi-disciplinar. Não é trivial

Estrutura da Apresentação
Motivação Problema Solução Validação Plano Conclusão Solução: Metodologia p desenvolvimento e Arquitectura de WW.

Processo de integração
Modelação* Recolha Carregamento Armazenamento Acesso Não existe uma metodologia para fazer WW. Identificar as fases do processo de integração, para poder dividir o problema em subproblemas. Modelação pode n ser possível à partida. Fases não são disjuntas.

Arquitectura Web Recolha Carregamento Modelação Acesso Armazenamento

Modelação da fonte de informação
Dimensionar o sistema e definir abordagens. Validar as assunções: Sítios com 70 páginas->Particionável. 15% de docs duplicados->Duplicação de informação. Requisitos Impossível aceder a tudo Deep Web Alteração permanente de conteúdos Diversos parâmetros: tipo, língua, domínio... Temos que conhecer primeiro fonte de informação; Os dados não falam por si. Na prática é impossível integrar TODA a informação da Web Seleccionar e caracterizar a partição da Web que constituirá a nossa de fonte de informação e modela-la o melhor possível. Os critérios de selecção n são fáceis de definir, mas são imprescindíveis. Dimensão Lidar com GB é diferente de lidar com TB.

Recolha e carregamento
Capacidade de recolha adequada. Configurável. Robusto. Captura de meta-dados. Um “crawler” ou aranha é um componente de SW que a partir de um conjunto de URLs iniciais denominados raízes, percorre uma parte da Web recolhendo informação. Beneficia da gestão de dados e mecanismos para processamento paralelo oferecidos pelo Versus, podendo assim centrar-se na resolução dos problemas da recolha. Tolerante a faltas, se um processo falha é relançado automaticamente; Configurável, permite seleccionar pequenas partes da web; Bem comportado, não sobrecarrega os servidores web e respeita o REP; Robusto, tolera HTML mal formado e cabeçalhos HTTP incompletos; Recolhe estatísticas, úteis para caracterização da web e melhoramento do sistema;

Armazenamento e acesso
Suporte temporal. Acessível a pessoas e máquinas. Preservação. Reutilizável noutros contextos. Desafios Ambiente diferente do carregamento Armazenar informação não acessível é inútil

Validação Pesquisa e publicação de literatura Prototipagem
Casos práticos. Teste em ambiente não controlado. Arquitectura aplicada em diferentes contextos. Abordagem de validação fortemente experimental. Adquirir conhecimento através de desenvolvimento, de modo conseguir extrair uma solução. Comparação de resultados Massa critica Receber retorno de peritos nas áreas Melhoria da arquitectura dos protótipos até n se conseguirem atingir melhorias significativas. Grande esforço de desenvolvimento Aplicação na resolução de problemas práticos. Teste em ambiente não controlado.

Contributos Arquitectura que contempla todo o processo de integração de informação proveniente da Web. Arquitectura de S.I. reutilizável em sistemas com problemas comuns. Definição de “boas-práticas” para WW. Aplicação na resolução de problemas práticos. Reutilização dos protótipos. Simulações realistas em ambiente controlado Contributos na área de integração de informação proveniente da Web. Conciliar correntes de investigação independentes por fim a encontrar uma solução para o problema de integração de informação proveniente da Web. Estes além de ser aplicáveis em sistemas de informação baseados na Web, poderão ser uteis para outros trabalhos que partilhem os mesmos problemas. caracterização activa: grande-escala/focada colecções com forte duplicação acesso preservação particionamento tolerância a faltas: deve ser a àrea em q as contribuições serão menos significativas, no entanto o estudo de mecanismos adequados à arquitectura do sistema é imprescindível. Protótipo Criação de um sistema de arquivo da Web Portuguesa Investigação uma vez que permitirá fazer simulações realísticas da Web em ambiente controlado Sistemas de suporte à decisão; Bibliotecas digitais; Arquivos históricos; Computação cientifica envolvendo a recolha de grandes quantidades de dados a partir de múltiplas fontes; Motores de busca.

Plano: 1º ano (2002/2003) Pesquisa e levantamento de trabalho relacionado; Definição da arquitectura; Levantamento e avaliação de tecnologia a utilizar; Desenvolvimento do 1º protótipo; Aplicação do protótipo num caso real (tumba!); Investigação do problema da modelação de fontes de informação; Publicação dos resultados desta investigação.

Plano: 2º ano (2003/2004) Investigação/Publicação relativa ao problema da recolha e carregamento de informação; Análise/Publicação da evolução do modelo da fonte de informação obtido no ano anterior; Desenvolvimento do protótipo final;

Plano: 3º e 4º ano 3º ano: 2004/2005 Investigação/Publicação relativa ao problema do armazenamento e acesso a informação; Validação da arquitectura em 3 projectos distintos: Rebil: Relacionamento de informação biológica através da Literatura; Linguateca: Centro de recursos distribuído para a língua Portuguesa; Tumba!: Extensão a arquivo histórico da Web Portuguesa Recolha e análise de dados para validação. 4ºano: 2005/2006 Escrita e defesa da tese.

Resultados (1 ano e meio)
1º protótipo Integração de 3.5M de documentos Web Suporte ao estudo de um corpus da Web Portuguesa. Caracterização da Web Collecting Statistics about the Portuguese Web. FCUL Technical Report DI/FCUL TR June 2003. A Characterization of the Portuguese Web. 3rd ECDL Workshop on Web Archives. Trondheim, Norway, August 2003. Characterizing a Community Web. TOIT-Transactions on Internet Technology (submetido).

Conclusão A integração de dados Web coloca novos problemas.
Carência de arquitectura de S.I. e metodologia. Cada etapa do processo de integração impõe abordagens especificas. Conciliar diferentes correntes de investigação. Resultados animadores com o 1º protótipo. A integração de dados Web coloca novos problemas em relação ao DW. Cada etapa do processo de integração coloca problemas peculiares. O processo de integração tem que ser adaptativo de modo a acompanhar a evolução da Web. Temos q conciliar diferentes correntes de investigação que têm evoluindo individualmente mas que podem dar um valioso contributo na resolução do problema de integração de dados Web. Resultados animadores com o 1º protótipo e que permitiram detectar de pontos de congestão e deficiências na arquitectura inicial.

Questões? daniel@tumba.pt http://xldb.fc.ul.pt http://www.tumba.pt
Obrigado pela atenção. Questões?

Integração de informação proveniente da Web

Apresentações semelhantes

Apresentação em tema: "Integração de informação proveniente da Web"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Integração de informação proveniente da Web

Apresentações semelhantes

Apresentação em tema: "Integração de informação proveniente da Web"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback