SAD Tagus 2004/05 H. Galhardas Arquitectura de DW.

Slides:



Advertisements
Apresentações semelhantes
Projeto de um Data Warehouse para a Saúde Pública
Advertisements

Ana Paula B. Barboza Ivana Xavier Rodrigues
Sistemas de Informação
Evolução dos SGBD’s (2ª Parte).
Sistemas de Apoio à Decisão (SAD) Helena Galhardas
Data Warehouse Tuning O que é um Data Warehouse? Índices Bitmap
O Ambiente "Base de Dados"
Maurício Edgar Stivanello
OLAP – Motivação e conceitos
Daniel J. Abadi – Yale - New Haven, USA Samuel R. Madden – MIT – Cambrigde, USA Nabil Hachem – Avantgarde Consulting – Shrewbury, USA SIGMOD '08 Apresentado.
Aula 4 – Inteligência de Negócios (Business Intellingence)
An Overview of Data Warehousing and OLAP Technology
Administração de Sistemas de Informação Banco de Dados
Banco de Dados Multidimensional
Data Mining, Data Warehousing e OLAP
Datawarehouse Um Ambiente Estruturado Por Michel Andrade de Souza
High-Performance Extensible Indexing Publicado em 1999 na 25th VLDB Conference Por: Marcel Kornacker Apresentado por: Gustavo Augusto e Ivan Silva TABD.
Gestão de Redes e Sistemas Distribuídos Teresa Maria Vazão Fevereiro 2003 IST/INESC Contactos:IST/Tagus-Park Tel:
Laboratório de Programação I Carlos Oberdan Rolim Ciência da Computação Sistemas de Informação.
Desenvolvimento de Sistemas OLAP
Metolodogia de Desenvolvimento de Data Warehouse
Sociedade da Informação: Ambiente de TI nas Organizações
Design Patterns / Acesso ao banco de dados (java.sql)
Tecnologia da Informação
Gestão de Base de Dados Este trabalho foi realizado por: André Andrade
Business Intelligence:
4. Decisões Estruturadas 4.1. Data Warehouse (DW)
1.
OLAP Escola Politécnica da Universidade de São Paulo (EPUSP)
Data Mining: Conceitos e Técnicas
J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades.
Conceitos Programas Programação Linguagens de Programação SQL.
Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares.
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
©Silberschatz, Korth and Sudarshan (modificado)4.1.1Database System Concepts Capítulo 4: SQL Estrutura básica Operações com conjuntos Funções de agregação.
Projeto de Sistemas de Informação Prof. Schneider Oracle Object-Relational.
Conclusões Análise à posteriori do programa de Bases de Dados 1
Uma proposta para OLAP ontológica Adriana Ribeiro.
Introdução e Motivação de DW, OLAP e Data Mining
©Silberschatz, Korth and Sudarshan (Modificado)1.1Database System Concepts Capítulo 1: Introdução Função dos Sistemas de Bases de Dados Visão dos dados.
Mestrado em Engenharia de Computação área de concentração Geomática
10 o Simpósio Brasileiro de Computação Musical3 a 6 de Outubro de A User-Friendly Graphical System for Room Acoustics Measurement and Analysis Leo.
Data Warehouse Bruno Estevão Rosa Emerson Barbosa Gonçalves
Desenho Lógico de DW. SAD Tagus 2004/05 H. Galhardas A Business Analysis Framework Quatro perspectivas no desenho de um DW: Quatro perspectivas no desenho.
Sistemas de Apoio à Decisão (SAD) Decision Support Systems
©Silberschatz, Korth and Sudarshan21.1Database System Concepts 1 Tipos de Sistemas Sistemas Operacionais (DB) Sistemas de Registo Histórico (DW)
XML Namespaces XML Namespaces provê um método para evitar conflito de nomes de elementos.
WSDL Web Services Description Language. Tecnologias Relacionadas Web Services SOAP (Simple Object Access Protocol) HTTP (HyperText Markup Language) UDDI.
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Uso de Ontologias em Data Warehousing
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
Projeto de Banco de Dados
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Janeiro/2013 Ceça Moraes Data Warehouse Janeiro/2013 Ceça Moraes
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Processo de Desenvolvimento baseado em MDA
Integração de dados Bernadette, Ceça, Luciano, Haroldo, Guilherme. Orientadora: Ana Carolina Salgado Universidade Federal de Pernambuco Pós-Graduação em.
INTEGRAÇÃO DE DADOS: UMA PERSPECTIVA TEÓRICA Guilherme P. K. Caminha Disciplina: IF696.
Hadoop!? HDInsight!? Hive?? Uma introdução ao mundo Big Data para DBA’s Bruno Feldman da | facebook.com/bfcosta
Microsoft Datazen Do Início… …ao Fim!
INTELIGÊNCIA EMPRESARIAL Aula 9 - Modelagem de Data Warehouse.
INTELIGÊNCIA EMPRESARIAL Aula 8 - Metadados e Operações OLAP.
Web Services / SOA. O cenário de TI nas corporações Novas tendências batiam à porta das corporações Migraram o foco do “gerenciamento de dados” para o.
1 MEI, ARMD 2004, Gabriel David Armazéns de Dados Mapeamentos e instalação Gabriel David
Data Warehousing & Business Intelligence PPGIA/BSI – DEINFO – UFRPE Ceça Moraes
1 MEI, ARMD 2003, Gabriel David Armazéns de Dados Introdução Gabriel David
1 MEI, ARMD 2003, Gabriel David Armazéns de Dados Notas sobre Oracle Warehouse Builder Gabriel David
سیستم‌های تصمیم‌یار تعریف پایگاه داده تحلیلی مدل منطقی مدل فیزیکی
CEManTIKA Framework Overview
Transcrição da apresentação:

SAD Tagus 2004/05 H. Galhardas Arquitectura de DW

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Arquitectura multi-nível Data Warehouse Extract Transform Load Refresh OLAP Engine Analysis Query Reports Data mining Monitor & Integrator Metadata Data Sources Front-End Tools Serve Data Marts Operational DBs other sources Data Storage OLAP Server

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Data Warehouse Extract Transform Load Refresh OLAP Engine Analysis Query Reports Data mining Monitor & Integrator Metadata Data Sources Front-End Tools Serve Data Marts Operational DBs other sources Data Storage OLAP Server Data Staging Arquitectura multi-nível

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Componentes Back-end: dizem respeito à ligação entre as fontes de dados e os repositórios de dados, e o modo como esta ligação se efectua DW, data marts, ODS (operational data store), área de retenção (staging area)/processos de ETL Metadata: representação da camada semântica do DW Front-end: consiste no conjunto de ferramentas que permitem aceder, interagir e explorar a informação guardada no DW Ferramentas de reporting, OLAP, data mining

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Componentes de back-end Data Warehouse Extract Transform Load Refresh OLAP Engine Monitor & Integrator Metadata Data Sources Serve Data Marts Operational DBs other sources Data Storage OLAP Server Data Staging

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Fontes de dados de back- end(room) Fontes de dados Bases de dados hierárquicas e relacionais, ficheiros de texto, sistemas ERP, etc Área de retenção (data staging area) A maior parte das transformações de dados têm lugar aqui, por exemplo, conversão de chaves, criação de dimensões conformes, etc Servidores OLAP e de apresentação Plataformas onde os dados (organizados em data marts) são guardados para serem interrogados pelos utilizadores finais, sistemas de reporting e outras aplicações Catálogo de metadados Conjunto de informação que descreve o DW e suporta a sua criação, utilização e manutenção

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Serviços de Back-end (room) (1) Área de retenção ou processo ETL (Extraction- Transformation-Load) Ferramentas e técnicas aplicadas Código desenvolvido ou ferramentas “third-party”

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Serviços de back-end (room) (2) Desafios de extracção: Desafios de extracção: Múltiplas fontes de dados heterógeneas Geração de código para extrair dados de ficheiros Modo de extracção relativamente a: frequência de extracção, identificação de registos modificados, refrescamento completo Transferência de dados: tem que ser eficiente, usar técnicas de compressão Tarefas de transformação: Tarefas de transformação: Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em descrições completas Manutenção das “slowly changing dimensions” Verificar restrições de integridade Desnormalização Conversão de dados, cáculo e agregação Desduplicação Tratamentode valores nulos Serviços de carregamento: Serviços de carregamento: Dependem da platafoma alvo Várias plataformas alvo Optimização do carregamento

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Serviços de back-end (room) (2) Desafios da extracção: Desafios da extracção: Múltiplas fontes de dados heterógeneas Geração de código para extrair dados de ficheiros Modo de extracção relativamente a: frequência de extracção, identificação de registos modificados, refrescamento completo Transferência de dados: tem que ser eficiente, usar técnicas de compressão Tarefas de transformação: Tarefas de transformação: Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em descrições completas Manutenção das “slowly changing dimensions” Verificar restrições de integridade Desnormalização Conversão de dados, cáculo e agregação Desduplicação Tratamentode valores nulos Serviços de carregamento: Serviços de carregamento: Dependem da platafoma alvo Várias plataformas alvo Optimização do carregamento

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Serviços de back-end (room) (2) Desafios da extracção: Desafios da extracção: Múltiplas fontes de dados heterógeneas Geração de código para extrair dados de ficheiros Modo de extracção relativamente a: frequência de extracção, identificação de registos modificados, refrescamento completo Transferência de dados: tem que ser eficiente, usar técnicas de compressão Tarefas de transformação: Tarefas de transformação: Integração: gerar surrogate keys, chaves de mapeamento, mapear códigos em descrições completas Manutenção das “slowly changing dimensions” Verificar restrições de integridade Desnormalização Conversão de dados, cáculo e agregação Desduplicação Tratamentode valores nulos Serviços de carregamento: Serviços de carregamento: Dependem da platafoma alvo Várias plataformas alvo Optimização do carregamento

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) ODS (1) Duas definições possíveis: 1)Ponto de integração de sistemas operacionais 2)Repositório de informação actualizados e detalhados para suporte à decisão Data Sources Data Warehouse ODS Data Staging

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) ODS (2) Nível intermediário antes do DW Dados integrados, ligeiramente agregados Suporta a análise de dados actualizados Entrada para a área de retenção

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Características de ODS PrioritiesEase of use, flexible data access Response TimeSeconds to minutes DatabaseRelational Data ContentOrganized by subject, current value data, integrated Nature of DataDynamic ProcessingStructured, analytical End UsersInformation consumers, DBAs, clerical users

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Área de retenção vs ODS Não é um complemento aos sistemas operacionais e às suas dificuldades de manipular informação Não é um complemento aos sistemas operacionais e às suas dificuldades de manipular informação Não é implementada necessariamente numa BDR Não é implementada necessariamente numa BDR Não complementa os dados operacionais com timestamp Não complementa os dados operacionais com timestamp

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Metadados Data about data, dictionary of terms, documentation... Essenciais para a gestão dos repositórios de dados e do processo de construção de um DW Essenciais para a gestão dos repositórios de dados e do processo de construção de um DW Arquitectura complexa Arquitectura complexa Grandes volumes de dados Grandes volumes de dados Dois tipos principais: Dois tipos principais: Metadados de back-room: suportam o processo de ETL Metadados de front-room: descritivos, suporta as ferramentas de interrogação e de reporting

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Metadados dos sistemas fonte Especificações das fontes Ex: esquemas de dados Informação descritiva das fontes Dono Descrição do negócio Frequências de actualização Métodos de acesso, direitos, privilégios e passwds Informação do processo Código ou ferramenta para implementar extracção Resultados de processos de extracção

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Metadados da área de retenção Gestão das tabelas de dimensões Esquemas de dimensões conformes e factos Políticas de actualização de dimensões (“Slowly changing dimension”) Atribuições de chaves surrogate para cada chave de produção Snapshot de tabelas de dimensões Transformação e agregação Transformação e agregação Limpeza de dados, especificação de conversões Correspondência entre esquemas Definições de agregados, estatísticas de utilização, etc Auditoria e documentação Auditoria e documentação Proveniência de dados (data lineage) e registos de auditoria

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Metadados de front-end Nomes de negócio, descrições para colunas, tabelas e agrupamentos Definições de interrogações e de reporting Especificação de ferramentas de visualização Perfis de utilizadores individuais etc

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Problemas Existem metadados por todo o lado Existem metadados por todo o lado Não existem standards universalmente usados Não existem standards universalmente usados Não é possível transferir os metadados entre ferramentas Nem sempre são completos e consistentes Nem sempre são completos e consistentes Dificilmente aceites como importante pelo negócio Dificilmente aceites como importante pelo negócio

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Standard de metadados Formato comum partilhado pelos processos e repositórios MDIS (Metadata Coalition) Common Warehouse Metamodel (OMG at Iniciativa não standard: Iniciativa não standard: Microsoft ’s Meta Data Coalition (MDC) -fusão com OMG sept. 2000

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) OMG Metamodel Architecture Standard OMG Components Modeling Language: UML Metadata Interchange: XMI Metadata API: MOF IDL Mapping MIDDLEWAREMIDDLEWARED APPLICATIONAPPLICATION User Data/Object Layer (M0) Metadata/Model Layer(M1) Metamodel Layer(M2) Meta-metamodel Layer (M3) <Stock name=“IBM” price=“112”/> Stock: name, price UML: Class, Attribute CWM: Table, Column ElementType, Attribute MOF: Class, Attribute, Operation, Association

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Arquitectura multi-nível Data Warehouse OLAP Engine Analysis Query Reports Data mining Front-End Tools Serve OLAP Server

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Arquitecturas de servidor OLAP Relational OLAP (ROLAP) Usa SGBDs relacionais ou relacional extendido para armazenar e gerir os dados do datawarehouse e usa middleware OLAP para suportar funcinalidades específicas do OLAP. Inclui optimização suportada pelo SGBDR, implementa lógica de navegação de agregação e serviços/ferramentas adicionais Maior escalabilidade Multidimensional OLAP (MOLAP) Motor de armazenamento multidimensional baseado em arrays (sparse matrix techniques) Indexação rápida de dados sumarizados pré-calculados Hybrid OLAP (HOLAP) Flexibilidade: baixo nível: relacional, alto nível: array Specialized SQL servers Suporte especializado para interrogações SQL sobre esquemas em estrela e floco de neve

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Front-end applications Processamento de informação Interrogações, análise estatística, relatórios usando cross-tabulations, tabelas, gráficos. Processamento analítico Análise de dados multidimensionais através de operações OLAP (slice/dice, drill-down, roll-up, pivoting, etc) Exploração de dados (data mining) Descoberta de informação encontrando padrões escondidos, associações,construíndo modelos analíticos, executando classificação e previsão, and apresentando os resultados através de ferramentas de visualização adequadas.

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) An OLAM Architecture Data Warehouse Metadata MDDB OLAM Engine OLAP Engine User GUI API Data Cube API Database API Data cleaning Data integration Layer3 OLAP/OLAM Layer2 MDDB Layer1 Data Repository Layer4 User Interface Filtering&IntegrationFiltering Databases Mining queryMining result

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) From OLAP to OLAM Why online analytical mining? High quality of data in data warehouses DW contains integrated, consistent, cleaned data Available information processing structure surrounding data warehouses ODBC, OLEDB, Web accessing, service facilities, reporting and OLAP tools OLAP-based exploratory data analysis mining with drilling, dicing, pivoting, etc. On-line selection of data mining functions integration and swapping of multiple mining functions, algorithms, and tasks.

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Bibliografia (Livro) Data Mining: Concepts and Techniques, J. Han & M. Kamber, Morgan Kaufmann, 2001 (Secção 2.3) (Livro) Data Mining: Concepts and Techniques, J. Han & M. Kamber, Morgan Kaufmann, 2001 (Secção 2.3) (Livro) The Data Warehouse Lifecycle Toolkit, R. Kimball, Wiley 1998 (Caps. 8, 9, 10, 11, 13 e 16) (Livro) The Data Warehouse Lifecycle Toolkit, R. Kimball, Wiley 1998 (Caps. 8, 9, 10, 11, 13 e 16) (Livro) Data Warehouse, from Architecture to Implementation, B. Devlin, Addison Wesley, (Livro) Data Warehouse, from Architecture to Implementation, B. Devlin, Addison Wesley, (Artigo) An Overview of Data Warehousing and OLAP Technology, S. Chaudhuri & U. Dayal, SIGMOD Record, March 1997 (Artigo) An Overview of Data Warehousing and OLAP Technology, S. Chaudhuri & U. Dayal, SIGMOD Record, March 1997

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Diferentes modelos de arquitectura Single-tier Single-tier Two-tier Two-tier Three-tier Three-tier Multi-tier Multi-tier

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Single-tier Dados são todos tratados como real-time Dados são todos tratados como real-time Vantagem: Dados não estão replicados =>necessidades de armazenamento baixas e fácil manutenção Vantagem: Dados não estão replicados =>necessidades de armazenamento baixas e fácil manutenção Desvantagens: disponibilidade dos dados para OLAP e degradação de desempenho para OLTP Desvantagens: disponibilidade dos dados para OLAP e degradação de desempenho para OLTP Operational DBs Serve OLAP, Data Mining OLTP

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Single-tier applications Well suited for: Well suited for: Applications generating large amounts of real data Data is well modeled and internally consistent Updates consist basically on adding records Ex: point-of-sale and telephone-call data Ex: point-of-sale and telephone-call data

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Virtual data warehouse A way to rapidly implement a DW without storing multiple copies of data Consists of: A set of views over operational databases Only some of the possible summary views may be materialized Inumerous inconvenients: Data is structured to optimize operational processes No reconciliation is done => no data quality concerns Consistency problems with user-defined data derivations Possible meaningless user queries because access to all data

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Two-tier Two diff. data usages are recognized Two diff. data usages are recognized Advantage: The contention between the 2 types of data is solved Advantage: The contention between the 2 types of data is solved Inconvenient: high level of data duplication and thus data storage requirements Inconvenient: high level of data duplication and thus data storage requirements Operational DBs ServeOLTP Derived Data Serve OLAP, Data Mining

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Two-tier applications Well suited for: Well suited for: Decision-support applications requiring summary-level data derived primarily from single data sources Homogeneous computing environment limited to a small amount of HW and SW platforms Ex: any company in the early/middle stages of decision support implementation Ex: any company in the early/middle stages of decision support implementation

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Three-tier Recognizes that the transformation op. data into derived data requires 2 steps Recognizes that the transformation op. data into derived data requires 2 steps Data reconciliation requires to understand relationships between data sets, their role in the business, and to build an ingle, logical image of the enterprise data model Data reconciliation requires to understand relationships between data sets, their role in the business, and to build an ingle, logical image of the enterprise data model Data derivation is simpler Data derivation is simpler Operational DBs Serve OLTP Derived Data Serve OLAP, Data Mining Reconciled Data

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Three-tier applications Well suited for: Well suited for: Decision-support applications requiring summary- level data derived different data sources The reconciled data model is usually a normalized relational data model The reconciled data model is usually a normalized relational data model Some data transformation and most cleaning are applied when reconciling data Some data transformation and most cleaning are applied when reconciling data Ex: fusioning customer data from distinct sources Ex: fusioning customer data from distinct sources

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Enterprise warehouse Collects all of the information about subjects spanning the entire organization Provides corporate-wide integration from one or more operational data sources Large amounts of data

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Data marts Each indivudual department implements its own decision/management IS Consists of a subset of corporate-wide data that is of value to a specific groups of users. Its scope is confined to selected groups, such as marketing data mart Implementation cycle of a data mart is weeks instead of months (short-term productivity benefits) Independent vs. dependent (directly from warehouse) data mart

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) DW Design Process Top-down, bottom-up approaches or a combination of both (hybrid approach) Top-down, bottom-up approaches or a combination of both (hybrid approach) Bottom-up: Bottom-up: Starts with experiments and prototypes (rapid) Derive the DW schema from the data source schemas Allows to move forward at less expense and evaluate the benefits, but harder to grow. Top-down: Top-down: Starts with overall design and planning (mature) First, get to the DW conceptual schema, then convert data source schema into the global schema Robust but slow and expensive

2004/05 Sistemas de Apoio à Decisão (LEIC Tagus) Hybrid approah