Extraction and Transformation of Data from Semi-Structured Text Files Using a Declarative Approach Ricardo Fortuna Raminhos Faculdade de Ciências e Tecnologia.

Slides:



Advertisements
Apresentações semelhantes
Medidas de Avaliação de Sistemas de Recuperação de Informação
Advertisements

Introdução Marcus Vinícius Carneiro Teixeira.
DESENHO de BASE de DADOS RELACIONAL
Engenharia de Software
Introdução à Programação uma Abordagem Funcional Programação I Prof.ª Claudia Boeres CT VII - Sala 32 Departamento de Informática Centro.
Tecnologia Hipermídia e Multimídia Prof. Rudson Faculdade de Excelência Educacional do Rio Grande do Norte CURSO DE GRADUAÇÃO TECNOLÓGICA.
Projeto conceitual Mostra ao cliente exatamente o que o sistema fará
Nome : Resolve estas operações começando no centro de cada espiral. Nos rectângulos põe o resultado de cada operação. Comprova se no final.
> Fases de Engenharia de SW > Gestão de Projectos de SW
Orientação por Objectos > Modelo de Processo OO > Identificação de Classe e Objectos Aula 12.
Garantia de Qualidade do software
Unified Modeling Language (UML) - Modelação da Arquitectura -
Objectivos Objectivos
Arquitectura de Computadores II Paulo Marques Departamento de Eng. Informática Universidade de Coimbra 2004/ Tendências Actuais.
O Essencial sobre Linguagens de Programação Luís Caires Maio 2005.
1º workshop TELESAL 23/11/07 Sistema de monitorização e controlo baseado em IEEE /ZigBee e TCP/GPRS. Financiado por: Sistema de Monitoria.
Ângulos no relógio.
Uma Ferramenta Baseada em MDA para a Especialização de Mecanismos de Persistência Fabio Seixas Marques Seminário LES – 28 de outubro.
Teste em Esquemas de Dados Maria Cláudia Figueiredo Pereira Emer Universidade Federal do Paraná Departamento de Informática Seminário.
CK 119: Engenharia de Software DC/CC/UFC © Rossana Andrade, Setembro CK119: Engenharia de Software Rossana Andrade Ph.D, SITE, University of Ottawa,
Web Services Erika Hmeljevski Estefania Borm Leonardo Malagoli
Como projetar uma linguagem geral para marcação de regras How to Design a General Rule Markup Language Gerd Wagner.
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Seminário de Andamento UNILASALLE André Sandri Maio 2006 PROFILE EM UML PARA MODELAGEM SIMPLIFICADA DE INTERFACES GRÁFICAS EM APLICATIVOS.
Aula 4 Nomes, Vinculações, Tipos e Escopos
UMEC GESTÃO FINANCEIRA.
Como Desenvolver Sistemas de Informação
Programação Orientada para Objectos
Um editor de XML para a Web
Administração de Sistemas de Informação Banco de Dados
Uma abordagem prática do COBIT para o atendimento à Lei Sarbanes-Oxley
Sistema de monitorização e controlo baseado em módulos Zigbee
Preservação e acesso a informação científica em saúde pública - Repositório Institucional para a Faculdade de Saúde Pública da USP Maria Imaculada da Conceição.
Cap 2 – Processo de Software
Compressão de Textos Juliano Palmieri Lage.
Francisco A. Barbosa Mestrado Integrado em Engenharia Electrotécnica e de Computadores 4 de Março de 2009 Sob a orientação de: Prof.ª Maria Teresa Andrade.
ÂNGULOS SILVIA MACÊDO.
Minino Múltiplo Comum.
Tópicos de Sistemas de Informação A
MAS-ML Tool: Um Ambiente de Modelagem de Sistemas Multi-Agentes
Design Patterns / Acesso ao banco de dados (java.sql)
Tributação da Exportação nas Empresas optantes pelo Simples Nacional
Nova solução CRM da Riosoft
Prof. Kelly E. Medeiros Bacharel em Sistemas de Informação
Gestão de Base de Dados Este trabalho foi realizado por: André Andrade
Semântica de Linguagens de Programação
1.
Desenvolvimento Rápido de Aplicação (RAD)
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Tarântula-Sistema de Recolha de Documentos da Web Daniel Gomes, Mário Silva G rupo xldb-LASIGE, Faculdade de Ciências da Universidade de Lisboa O Tarântula.
Enviando e recebendo mensagens através dos protocolos SMTP e POP3 João Gilberto Magalhães.
ESB – SOA Aplicações Frank Rodríguez González.
T RAFFIC C ONTROL THROUGH B ILATERAL C OOPERATION BETWEEN N ETWORK O PERATORS AND P EERS IN P2P N ETWORKS Controle de tráfego por meio de Cooperação Bilateral.
Matching de Esquemas: 10 anos depois Nicolle Chaves Cysneiros.
Gestão de defeitos.
FERRAMENTAS DE GERENCIAMENTO Aula 01
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Requisitos de Software
DCMI Dublin Core Metadata Initiative por Pablo Lopes Alenquer curso Tópicos Especiais em BD2 data Março de 2000 Mestrado IM / NCE.
Consulta a XBRL usando Certificado Digital Eduardo Mazza Batista Centro de Informática Universidade Federal de Pernambuco Recife - PE 01/30/2007.
Um Sistema Peer-to- Peer para Armazenamento Distribuído de Arquivos Daniel Mauricio Sthor Lauro Luis Costa Lucas Nascimento Ferreira Departamento de Informática.
Universidade Federal de Alagoas Instituto de Computação - IC Redes de Computadores 2 Serviços Web Felipe Santos José Oswaldo.
The Petri Net Markup Language (PNML) Wellington João da Silva Mestrado Ciência da Computação.
WSDL Web Services Description Language. Tecnologias Relacionadas Web Services SOAP (Simple Object Access Protocol) HTTP (HyperText Markup Language) UDDI.
Engenharia de Requisitos
Exemplo de LSMW com Batch-Input
Nº Aluno: Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008.
1 Projeto Piloto Conclusão em Agenda Projeto Piloto –Descrição –Execução da aplicação –Implementação de requisitos funcionais e não- funcionais.
Redes de Computadores Técnico em Informática Prof. Alberto Felipe / Ester.
1 MEI, ARMD 2003, Gabriel David Armazéns de Dados Notas sobre Oracle Warehouse Builder Gabriel David
Transcrição da apresentação:

Extraction and Transformation of Data from Semi-Structured Text Files Using a Declarative Approach Ricardo Fortuna Raminhos Faculdade de Ciências e Tecnologia Universidade Nova de Lisboa

Motivação Abordagem Solução Caso de Estudo Conclusões e Trabalho Futuro

ETL = Extracção + Transformação + Carregamento (Loading) Motivação - O quê?

+ Fontes de Dados Técnicas + Metadados e Documentação Mas... Novas Fontes de Dados: Informação Semi-Estruturada Fontes de Dados Simples  Ficheiros Metadados ou Documentação  Reduzidos Motivação – Pressupostos Comuns ao ETL Abordagem comum ao ETL: + Dados Estruturados BD XML APIs JMS

:Data_list: _ace_mag_1m.txt :Created: 2005 May UT # Prepared by the U.S. Dept. of Commerce, NOAA, Space Environment Center. # Please send comments and suggestions to # # Magnetometer values are in GSM coordinates. # # Units: Bx, By, Bz, Bt in nT # Units: Latitude degrees +/ # Units: Longitude degrees # Status(S): 0 = nominal data, 1 to 8 = bad data record, 9 = no data # Missing data values: # Source: ACE Satellite - Magnetometer # # 1-minute averaged Real-time Interplanetary Magnetic Field Values # # Modified Seconds # UT Date Time Julian of the GSM Coordinates # YR MO DA HHMM Day Day S Bx By Bz Bt Lat. Long. # Motivação – Dados Semi-Estruturados Metadados sobre o Ficheiro Metadados sobre os Dados Dados

Motivação – Fontes de Dados Comuns Interface Modelo Dados Interface de Acesso aos Dados Modelo Relacional Modelo XML Modelo de Troca de Mensagens Documentação Base de Dados MSG XML Perito Informático Perito Domínio

Motivação – Novas Fontes de Dados Dados ???? OK! Sistema SESS + Simplicidade de Acesso aos Dados + Informação Semi-Estruturada + Dificuldade na compreensão do domínio por não especialistas Como identificar os dados relevantes? Perito Informático Perito Domínio

Motivação – Interacção Apropriada? Interacção Demorada! Erros de Modelação e Validação Frequentes! Identificação de dados relevantes Codificação do processo de extracção Regras de qualidade de dados Codificação das regras de qualidade Informação relevante e formato dos dados Codificação, Codificação, Codificação Múltiplas validações e sugestões... Correções, Correções, Correções... ( ) X 100 D I

Abordagem – Divisão do Conhecimento? Conhecimento = Domínio + Informático Como dividir? ETL = ETD + IL (Tese) Conhecimento de DomínioConhecimento Informático Transformation Data Delivery IntegrationLoading Staging Area Aquisição de dados Qualidade dos dados Transformação de formatos Entrega de informação relevante Integração de dados de fontes diferentes Integração de dados temporais Formatação para carregamento Execução da rotina de carregamento Extraction Extraction: Dados Normalizados + Qualidade Dados + Metadados Descritivos ETL Clássico

Abordagem – Como Implementar? + - Abstracção e Adequação ao Conhecimento de Domínio  Editor gráfico que permite a anotação sobre os dados através de interacção gráfica  Editor gráfico  Abordagem declarativa X Código fonte

Solução - Requisitos + Interacção Intuitiva + Correcção + Validação + Rastreabilidade + Completude - Modularidade - Reutilização - Escalabilidade - Desempenho - Tolerância a Falhas Desenho da Solução Engenharia da Implementação

Solução - Arquitectura File Format Definition Language

Solução - Tecnologias File Format Definition Language Web Services XML SWT XML Schema

Solução – Modelo da Linguagem Input File Sectioned File Section Definitions + Field Partioned File Field Definitions + Transformed File Transformation Definitions + Data Delivery File Data Delivery Definitions Field Partioned File + +

Solução – Fluxo do Editor E T D Validação do FFD

Solução – Editor / Extracção Dividir para conquistar Seccionamento = Delimitado V Contíguo Qualidade da estrutura: Regras de Validação Campos = Singulares V Tabulares Qualidade de dados = Tipagem + Regras de Validação Mapeamento interno para expressões regulares

Solução – Editor / Transformação f()  output V f(input)  output input = Campo extraído V Resultado transformação Biblioteca de transformações (abordagem de plugins) Tipagem de dados ao nível de cada transformação Representação clássica como um grafo

Solução – Editor / Entrega de Dados Interface entre ETD e IL Definição de raíz versus template pré-definido = E x Campos Extraídos + T x Resultados Transformação Tipagem de dados

Caso de Estudo - Conceito SESS = Space Environment Support System Dados = Ambiente Espacial (Spaceweather) + Telemetria

Fontes (8) = FTP (2) + HTTP (5) + Web Services (1) Ficheiros (63) = Ambiente Espacial (62) + Telemetria (1) Parâmetros (749) = Ambiente Espacial (636) + Telemetria (113) E funciona? Sim! Caso de Estudo - Utilização

4000 Ficheiros descarregados diariamente 140 MB tráfego rede = 40 MB compressão em disco 1 KB <= Tamanho Ficheiro <= 3,5 MB (Telemetria) Tamanho Médio = 35KB 1 segundo <= Tempo Processamento <= 30 segundos Tempo Médio = 2 segundos Caso de Estudo - Estatísticas E a criação de definições de formatos? Projecto SEIS (sem Editor Gráfico) 4 meses (1 pessoa) Projecto SESS 1 + ½ meses (1 pessoa) 62%

Em muitos casos ETD + IL é a melhor abordagem ao ETL Conclusões e Trabalho Futuro Extensão das capacidades do Editor + Interacção com o utilizador + Inteligência + Tipos de ficheiros de dados (e.g. HTML)

Ricardo Raminhos Obrigado!