Integração de informação proveniente da Web

Slides:



Advertisements
Apresentações semelhantes
Projeto Qualified Curriculum
Advertisements

Laboratório de Informática Apresentação da Disciplina
Programa das Aulas 20/09/05 - Apresentação da disciplina
CERNAS 2004/2005 Elementos para análise de caracterização e desempenho Henrique Pires dos Santos, 2006 Bolseiro de Gestão de Ciência e Tecnologia CERNAS.
Estudo de Caso Conformidade dos sítios Web do Arquivo Distrital do Porto, da Biblioteca Nacional Digital e do Instituto Português de Museus com as Directrizes.
Mapeamento de Ontologias
Engenharia de Software
Tópicos Especiais I: Engines Apresentação da Disciplina
Protótipo de Simulador de Elevadores
Unified Modeling Language (UML) - Modelação da Arquitectura -
1 INQUÉRITOS PEDAGÓGICOS 2º Semestre 2003/2004 ANÁLISE GERAL DOS RESULTADOS OBTIDOS 1.Nº de RESPOSTAS ao inquérito 2003/2004 = (42,8%) 2.Comparação.
Dispositivos lógicos programáveis (DLP)
ISO/IEC – 6 Avaliação do Produto – Módulos de Avaliação
© 2005, it - instituto de telecomunicações. Todos os direitos reservados. LOcalização de PESsoas em Ambientes Interiores 1º Workshop TELESAL 23 de Novembro.
2 Connector Plataforma interactiva para a promoção e suporte de redes sociais georeferenciadas através de dispositivos móveis.
Para Casa – Montar o cariograma
Marfin sobre o Documentador;. Marfin sobre o Documentador;
TSI Alcides Calsavara.
Metodologia de Desenvolvimento de Software
Teste em Esquemas de Dados Maria Cláudia Figueiredo Pereira Emer Universidade Federal do Paraná Departamento de Informática Seminário.
Técnicas de Apoio ao Processo de Engenharia de Requisitos
Engenharia de Requisitos
Formato de arquivo de Vídeo
Lucas Augusto Scotta Merlo
Desenvolvimento de aplicativos com base em modelo de requisitos e metadados Conselho da Justiça Federal 9/10/2007 Cláudia Piovesan Macedo.
Plano Diretor de Aeroportos ___________________________
Registro Eletrônico para Acompanhamento Médico de Pacientes em uma UTI Rafael Charnovscki (1), Jacques R. Nascimento Filho (2,3) Giancarlo Bianchin.
Como Desenvolver Sistemas de Informação
Aplicação Multimédia para Ensino e Aprendizagem Bases de Dados
Internet e Informação Electrónica INTERNET EXPLORER
Especificação de Requisitos em PIT-RSL
Paulo J. Azevedo Departamento de Informática Universidade do Minho
Grupo 5: Fernando Lourenço Pinho Costa Rafael de Souza Santos
Visão Geral do Desenvolvimento de Sistemas e Papéis no Desenvolvimento de Software Marcely Dias
Rebeca Teodoro da Silva[Voluntário] ;
A População Imigrante no Concelho de Serpa Identificação Profissão Entrada e Permanência em Portugal Adaptação/Integração Social Agregado Familiar Projecto.
Administração de Sistemas de Informação Banco de Dados
Plano Nacional de Leitura
Gestão de Infraestrutura da RNP
Sistema de monitorização e controlo baseado em módulos Zigbee
Microsoft Access Carlos Sebastião.
Arquitectura de Computadores II
Políticas de Backup FATEC – Americana
Apresentação das opções de 5º ano Mestrado Integrado em Engenharia Mecânica 19 de Maio de 2008.
TIC 10º ano de escolaridade
Meteorologia e Estações Meteorológicas
Tarântula Sistema de Recolha de Documentos na Web por Daniel Coelho Gomes.
Salas de Matemática.
Ethos: Sistema Distribuído para Suporte ao Comitê de Ética em Pesquisa Autor: Rodrigo Stefani Domingues Orientador: Prof. Dr. Carlos M. T. Toledo Faculdade.
A S TECNOLOGIAS FAZEM A DIFERENÇA ? As Tecnologias e a Aprendizagem 1.
O Plano "Não basta destruir o que sobra;
Fevereiro/ Resultado dos Projetos de Software Pesquisa Motivação.
Prof. Alexandre Vasconcelos
IF696 - Integração de Dados e DW
1 My GRID: Bio-informática personalizada em uma grade de informação. Francisco Silva
Versus: a Model for a Web Repository Jo₧o CamposMário J. Silva Grupo XLDB, LaSIGE Departamento de Informática Faculdade de Ci ₨ ncias Universidade de Lisboa.
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Desenvolvimento das funcionalidades do trabalho colaborativo da solução para Rastreabilidade de Requisitos de Software baseada na generalização de artefatos.
Os novos ambientes de aprendizagem a distância Ana Augusta Silva Dias Universidade do Minho > Exército Português, 4/5/2011 Comando de Instrução.
BPM BUSINESS PROCESS MANAGEMENT Projecto em Informática e Gestão de Empresas Lisboa, 15 de Junho de 2005.
Tarântula-Sistema de Recolha de Documentos da Web Daniel Gomes, Mário Silva G rupo xldb-LASIGE, Faculdade de Ciências da Universidade de Lisboa O Tarântula.
1.
Software engineering, the software process and their support M.M. Lehman Apresentadora: Tarciana Dias da Silva.
Módulo 1 – Aspetos Emocionais & Interpessoais Dissertação de Mestrado – Aceitas o desafio? Ana Carvalho (DEG), Beatriz Silva (DEM), Isabel Gonçalves (GATu),
Ferramentas para Sistema Web
A multidimensionalidade na avaliação e validação de projetos
1 Segunda fase do projeto: Desenvolvimento do “Catálogo Virtual” Foco em Sistemas de Informação Desenvolvimento baseado no diagnóstico e na interação com.
Nome alunos 1 Título UC. Título – slide 2 Conteúdo Conteúdo 2.
Desenvolvimento e uso de Sistemas de Informação
1 CLUBE DE PAIS DE GRIJÓ A EDUCAÇÃO RODOVIÁRIA EM FAMÍLIA Jorge Bica Dez/2004.
Transcrição da apresentação:

Integração de informação proveniente da Web Daniel Gomes Orientador: Mário J. Silva

Motivação A Web é a maior fonte de informação criada! O que se diz acerca da Coca-Cola? Quantas palavras tem um documento? Necessitam de processamento automático! A Web é a maior fonte de informação alguma vez criada, no entanto ainda estamos longe de esgotar o seu potencial. Vou dar o exemplo de 3 casos de utilização da Web q se debateriam com problemas comuns e que não estão resolvidos. Coca-cola/Euro. Site coca-cola. Web é um espaço de discussão: foruns, mailing lists, blogs, sites de opinião especializados. Avaliar impacto. Nºmédio de palavras usadas por doc. Motores de busca.

Problemas de acessibilidade Informação muito vasta e dispersa Heterogeneidade de formatos e desrespeito de especificações Disponibilidade Volatilidade da informação Pouca reutilização de software e dados Web Problemas de acessibilidade característicos da Web q fazem com q seja difícil usá-la como uma fonte de informação de forma sistemática Cada vez há mais e estão sempre a surgir novos (HTML, Flash, mp3). HTTP é muito raro um servidor Web devolver a maior parte dos campos de um cabeçalho HTTP. É raro encontrar um documento q respeite a especificação do HTML Disponibilidade Tempos de resposta Servidores em baixo Escassez de recursos como a largura de banda Qd voltamos ao mesmo sítio a informação já não está lá.

Hipótese Integração em grande escala de informação proveniente da Web, num sistema que permita o seu processamento automático. Solução geral. Criar um SI q processe os dados e disponibilize acesso uniforme escondendo problemas específicos.

Data vs. Web Warehousing Forte conhecimento das fontes de informação Recolha de informação não é complexa Ambiente controlado Imprevisibilidade é uma constante. Nivel de indecisão maior. Formatos definidos Tipos complexos: texto, estruturados. Documentos recolhidos da Web são o foco de interesse. Sistemas de suporte à decisão Granularidade pequena, geração de relatórios Os documentos não são o foco de interesse Baseados em HW dispendioso e centralizado para processamento de informação

A integração de dados provenientes da Web é um novo problema! Complexo: Carece de uma solução geral para um conjunto de problemas específicos. Multi-disciplinar. Não é trivial

Estrutura da Apresentação Motivação Problema Solução Validação Plano Conclusão Solução: Metodologia p desenvolvimento e Arquitectura de WW.

Processo de integração Modelação* Recolha Carregamento Armazenamento Acesso Não existe uma metodologia para fazer WW. Identificar as fases do processo de integração, para poder dividir o problema em subproblemas. Modelação pode n ser possível à partida. Fases não são disjuntas.

Arquitectura Web Recolha Carregamento Modelação Acesso Armazenamento

Modelação da fonte de informação Dimensionar o sistema e definir abordagens. Validar as assunções: Sítios com 70 páginas->Particionável. 15% de docs duplicados->Duplicação de informação. Requisitos Impossível aceder a tudo Deep Web Alteração permanente de conteúdos Diversos parâmetros: tipo, língua, domínio... Temos que conhecer primeiro fonte de informação; Os dados não falam por si. Na prática é impossível integrar TODA a informação da Web Seleccionar e caracterizar a partição da Web que constituirá a nossa de fonte de informação e modela-la o melhor possível. Os critérios de selecção n são fáceis de definir, mas são imprescindíveis. Dimensão Lidar com GB é diferente de lidar com TB.

Recolha e carregamento Capacidade de recolha adequada. Configurável. Robusto. Captura de meta-dados. Um “crawler” ou aranha é um componente de SW que a partir de um conjunto de URLs iniciais denominados raízes, percorre uma parte da Web recolhendo informação. Beneficia da gestão de dados e mecanismos para processamento paralelo oferecidos pelo Versus, podendo assim centrar-se na resolução dos problemas da recolha. Tolerante a faltas, se um processo falha é relançado automaticamente; Configurável, permite seleccionar pequenas partes da web; Bem comportado, não sobrecarrega os servidores web e respeita o REP; Robusto, tolera HTML mal formado e cabeçalhos HTTP incompletos; Recolhe estatísticas, úteis para caracterização da web e melhoramento do sistema;

Armazenamento e acesso Suporte temporal. Acessível a pessoas e máquinas. Preservação. Reutilizável noutros contextos. Desafios Ambiente diferente do carregamento Armazenar informação não acessível é inútil

Validação Pesquisa e publicação de literatura Prototipagem Casos práticos. Teste em ambiente não controlado. Arquitectura aplicada em diferentes contextos. Abordagem de validação fortemente experimental. Adquirir conhecimento através de desenvolvimento, de modo conseguir extrair uma solução. Comparação de resultados Massa critica Receber retorno de peritos nas áreas Melhoria da arquitectura dos protótipos até n se conseguirem atingir melhorias significativas. Grande esforço de desenvolvimento Aplicação na resolução de problemas práticos. Teste em ambiente não controlado.

Contributos Arquitectura que contempla todo o processo de integração de informação proveniente da Web. Arquitectura de S.I. reutilizável em sistemas com problemas comuns. Definição de “boas-práticas” para WW. Aplicação na resolução de problemas práticos. Reutilização dos protótipos. Simulações realistas em ambiente controlado Contributos na área de integração de informação proveniente da Web. Conciliar correntes de investigação independentes por fim a encontrar uma solução para o problema de integração de informação proveniente da Web. Estes além de ser aplicáveis em sistemas de informação baseados na Web, poderão ser uteis para outros trabalhos que partilhem os mesmos problemas. caracterização activa: grande-escala/focada colecções com forte duplicação acesso preservação particionamento tolerância a faltas: deve ser a àrea em q as contribuições serão menos significativas, no entanto o estudo de mecanismos adequados à arquitectura do sistema é imprescindível. Protótipo Criação de um sistema de arquivo da Web Portuguesa Investigação uma vez que permitirá fazer simulações realísticas da Web em ambiente controlado Sistemas de suporte à decisão; Bibliotecas digitais; Arquivos históricos; Computação cientifica envolvendo a recolha de grandes quantidades de dados a partir de múltiplas fontes; Motores de busca.

Plano: 1º ano (2002/2003) Pesquisa e levantamento de trabalho relacionado; Definição da arquitectura; Levantamento e avaliação de tecnologia a utilizar; Desenvolvimento do 1º protótipo; Aplicação do protótipo num caso real (tumba!); Investigação do problema da modelação de fontes de informação; Publicação dos resultados desta investigação.

Plano: 2º ano (2003/2004) Investigação/Publicação relativa ao problema da recolha e carregamento de informação; Análise/Publicação da evolução do modelo da fonte de informação obtido no ano anterior; Desenvolvimento do protótipo final;

Plano: 3º e 4º ano 3º ano: 2004/2005 Investigação/Publicação relativa ao problema do armazenamento e acesso a informação; Validação da arquitectura em 3 projectos distintos: Rebil: Relacionamento de informação biológica através da Literatura; Linguateca: Centro de recursos distribuído para a língua Portuguesa; Tumba!: Extensão a arquivo histórico da Web Portuguesa Recolha e análise de dados para validação. 4ºano: 2005/2006 Escrita e defesa da tese.

Resultados (1 ano e meio) 1º protótipo Integração de 3.5M de documentos Web Suporte ao estudo de um corpus da Web Portuguesa. Caracterização da Web Collecting Statistics about the Portuguese Web. FCUL Technical Report DI/FCUL TR 03-10. June 2003. A Characterization of the Portuguese Web. 3rd ECDL Workshop on Web Archives. Trondheim, Norway, August 2003. Characterizing a Community Web. TOIT-Transactions on Internet Technology (submetido).

Conclusão A integração de dados Web coloca novos problemas. Carência de arquitectura de S.I. e metodologia. Cada etapa do processo de integração impõe abordagens especificas. Conciliar diferentes correntes de investigação. Resultados animadores com o 1º protótipo. A integração de dados Web coloca novos problemas em relação ao DW. Cada etapa do processo de integração coloca problemas peculiares. O processo de integração tem que ser adaptativo de modo a acompanhar a evolução da Web. Temos q conciliar diferentes correntes de investigação que têm evoluindo individualmente mas que podem dar um valioso contributo na resolução do problema de integração de dados Web. Resultados animadores com o 1º protótipo e que permitiram detectar de pontos de congestão e deficiências na arquitectura inicial.

Questões? daniel@tumba.pt http://xldb.fc.ul.pt http://www.tumba.pt Obrigado pela atenção. Questões? daniel@tumba.pt http://xldb.fc.ul.pt http://www.tumba.pt