Desenho Lógico de DW. SAD Tagus 2004/05 H. Galhardas A Business Analysis Framework Quatro perspectivas no desenho de um DW: Quatro perspectivas no desenho.

Slides:



Advertisements
Apresentações semelhantes
Sérgio Luisir Díscola Junior
Advertisements

Ferramentas CASE (Computer-Aided Software Engineering)
Chapter 5Design & Analysis of Experiments 7E 2009 Montgomery 1 INTRODUÇÃO AOS EXPERIMENTOS FATORIAIS DEFINIÇÕES BASICAS VANTAGENS O MODELO A DOIS FATORES.
Sistemas de Apoio à Decisão (SAD) Helena Galhardas
Data Warehouse Tuning O que é um Data Warehouse? Índices Bitmap
Daniel J. Abadi – Yale - New Haven, USA Samuel R. Madden – MIT – Cambrigde, USA Nabil Hachem – Avantgarde Consulting – Shrewbury, USA SIGMOD '08 Apresentado.
ArcToolbox Carlos Ruberto Fragoso Júnior www. ctec. ufal
Aula 4 – Inteligência de Negócios (Business Intellingence)
Engenharia Concorrente
Banco de dados Profª Kelly Medeiros.
Query Tuning Lílian Simão Oliveira.
Novos desafios em estudos de mercado: Knowledge Discovery e Data Mining 7º Congresso da APODEMO Novembro de 2000.
Banco de Dados Avançado - Prof.ª Valeria Times
Desenvolvimento de Sistemas OLAP
OLAP Abmar Barros.
Processo Praxis – Fase de Concepção
Avaliação Constituição dos grupos de trabalho:
Metolodogia de Desenvolvimento de Data Warehouse
Business Intelligence:
4. Decisões Estruturadas 4.1. Data Warehouse (DW)
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Banco de Dados Avançado
J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades.
Análise de Sistemas de Informação
S. Jacobsen – SIEMENS PTD EA Cigré/Brasil CE B5 – Proteção e Automação Seminário Interno de Preparação para a Bienal 2006 Rio de Janeiro, setembro/06.
Fundamentos da teoria dos semicondutores
Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares.
ASSUNTO Facilitando a Tomada de Decisão em um Ambiente Móvel Mohamed A. Sharaf Panos K. Chrysanthis Felipe Menezes Cardoso COPIN – UFCG Banco de Dados.
©Silberschatz, Korth and Sudarshan (modificado)4.1.1Database System Concepts Capítulo 4: SQL Estrutura básica Operações com conjuntos Funções de agregação.
MAP_INT n o 1 / 17 IDENTIFICAÇÃO, MODELAGEM E ANÁLISE DE PROCESSOS LUÍS GONZAGA TRABASSO Professor Associado Divisão de Engenharia Mecânica.
“Fly Like An Eagle Training” Guest Speaker Tania Diniz.
SQL- Structured Query Language  SQL é uma linguagem de comandos para interagir com uma BD relacional (não é case-sensitive).  A linguagem Java permite.
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
Uma proposta para OLAP ontológica Adriana Ribeiro.
Introdução e Motivação de DW, OLAP e Data Mining
Infra-Estrutura de Software
©Silberschatz, Korth and Sudarshan (modificado)9.1.1Database System Concepts Capítulo 9: BDs Objecto-Relacional Relações imbricadas Tipos complexos e objectos.
1 Helton Santa Cruz Ferramentas CASE de Projeto de BD Multidimensional.
10 o Simpósio Brasileiro de Computação Musical3 a 6 de Outubro de A User-Friendly Graphical System for Room Acoustics Measurement and Analysis Leo.
Equipe de monitoria Aula prática 4.  Tipos  Tabela de Objetos  Herança  Métodos  Referências  Coleções  Composição de coleções  Conectividade.
Sistemas de Apoio à Decisão (SAD) Decision Support Systems
©Silberschatz, Korth and Sudarshan21.1Database System Concepts 1 Tipos de Sistemas Sistemas Operacionais (DB) Sistemas de Registo Histórico (DW)
Redes Neuronais. SAD Tagus 2004/05 H. Galhardas Biological Neural Networks Neuron switching time : > 10-3 secs Number of neurons in the human brain: ~10^10.
SAD Tagus 2004/05 H. Galhardas Arquitectura de DW.
Gestão da Configuração do Software
CIn/UFPE – Banco de dados Avançado - Profs. Robson Fidalgo e Valéria Times  1.
O que são os alertas do Google?
Uso de Ontologias em Data Warehousing
Microsoft Students to Business
BANCO DE DADOS MULTIDIMENSIONAIS CONSULTANDO O CUBO DE DADOS (MDX – SQL SERVER 2008) Banco de Dados Avançado - Prof.ª Valeria Times Andresson Firmino.
Modelagem Dimensional do Data Warehouse
Janeiro/2013 Ceça Moraes Data Warehouse Janeiro/2013 Ceça Moraes
Universidade de Brasília Laboratório de Processamento de Sinais em Arranjos 1 Adaptive & Array Signal Processing AASP Prof. Dr.-Ing. João Paulo C. Lustosa.
About Us iVenture Inc is a technology as well as comprehensive media company that facilitates businesses, institutes and individuals by providing simplified.
Administração de Sistemas Operacionais Escola Técnica Estadual Maria Eduarda Ramos de Barros Curso Técnico em Redes de Computadores Professor Emerson Felipe.
Adriano Melo IDE Eclipse + Subclipse Link para download: \\cin01\scratch_astm$\eclipse.zip
INTELIGÊNCIA EMPRESARIAL Aula 9 - Modelagem de Data Warehouse.
SISTEMA DE TRANSITIVIDADE: PARTICIPANTES PROCESSOS CIRCUNSTÂNCIAS.
Aula 6 – Um Jogo simples de desmatamento Tiago Garcia de Senna Carneiro (UFOP) Gilberto Câmara (INPE)
Capturando Dados Históricos com Change Data Capture Arthur Luz | MCSA & MCT em SQL Server
Construindo um Data Warehouse Modelagem Dimensional.
1 MIEIC, ARMD, Gabriel David Armazéns de Dados Modelo dimensional 1 Gabriel David
Data Warehousing & Business Intelligence PPGIA/BSI – DEINFO – UFRPE Ceça Moraes
1 MEI, ARMD 2003, Gabriel David Armazéns de Dados Introdução Gabriel David
MySQL STORAGE & TRANSACTIONs Pedro da Silva. Índice 1. Storage 1.1. Tabelas MyISAM 1.1. Tabelas MyISAM 1.2 Tabelas InnoDB 1.2 Tabelas InnoDB 2. Transactions.
Abril 2016 Gabriel Mormilho Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo Departamento de Administração EAD5853 Análise.
Pesquisa Operacional aplicada à Gestão de Produção e Logística Prof. Eng. Junior Buzatto Case 4.
Pesquisa Operacional aplicada à Gestão de Produção e Logística Prof. Eng. Junior Buzatto Case 3.
Transcrição da apresentação:

Desenho Lógico de DW

SAD Tagus 2004/05 H. Galhardas A Business Analysis Framework Quatro perspectivas no desenho de um DW: Quatro perspectivas no desenho de um DW: Top-down: permite a selecção da informação relevante necessária para armazenar no DW Fontes de dados: expõe a informação que foi capturada, armazenada e gerida pelos sistemas operacionais Data warehouse: consiste nas tabelas de factos e dimensões e representa informação armazenada no DW Interrogações do negócio: acesso aos dados do DW do ponto de vista do utilizador final

SAD Tagus 2004/05 H. Galhardas Processo de desenho do DW Bottom-up: Bottom-up: Começa c/ experiências e protótipos (rápida) Deriva o esquema do DW a partir dos esquemas das fontes de dados Permite avançar a baixo custo e avaliar os benefícios, mas é mais difícil de crescer Top-down: Top-down: Começa com desenho e planeamento completo e maduro Primeiro, chega ao esquema conceptual do DW e depois converte o esquema das fontes de dados no esquema global Robusto mas lento e caro Combinação de ambas Combinação de ambas

SAD Tagus 2004/05 H. Galhardas Processo de desenho do DW (ESW) Cascata (Waterfall): análise estruturada e sistemática em cada passo antes de prosseguir para o próximo Espiral (Spiral): geração rápida e de sistemas funcionais cada vez mais ricos, em curtos intevalos de tempo,

SAD Tagus 2004/05 H. Galhardas Inconvenientes do modelo em cascata para DW Elevados prazos de implementação porque exige conhecimento prévio da generalidade dos requisitos Elevados prazos de implementação porque exige conhecimento prévio da generalidade dos requisitos Não é flexível para ambientes de elevada incerteza de desenho Não é flexível para ambientes de elevada incerteza de desenho Não garante o envolvimento contínuo dos utilizadores no processo de desenvolvimento Não garante o envolvimento contínuo dos utilizadores no processo de desenvolvimento Não se apercebe da total complexidade dos problemas de carregamento de dados Não se apercebe da total complexidade dos problemas de carregamento de dados

SAD Tagus 2004/05 H. Galhardas Três modelos de DW Enterprise warehouse Colleciona toda a informação sobre os processos de negócio de toda a organização Data Mart Subcjto dos dados da organização que são interessantes para um grupo específico de utilizadores (ex: marketing) Independentes vs. dependentes (directly from warehouse) Virtual warehouse Cjto de vistas sobre as fontes de dados operacionais Só algumas vistas sumarizadas são materializadas

SAD Tagus 2004/05 H. Galhardas Desenvolvimento incremental de um DW Define a high-level corporate data model Data Mart Distributed Data Marts Multi-Tier Data Warehouse Enterprise Data Warehouse Model refinement

SAD Tagus 2004/05 H. Galhardas Business Dimensional Lifecycle

SAD Tagus 2004/05 H. Galhardas DW Bus Architecture Matrix Ferramenta de planeamento top-down para desenho do DW Ferramenta de planeamento top-down para desenho do DW Obriga a nomear todos os data marts (ou processos de negócio) possíveis e nomear todas as dimensões envolvidas nesses data marts Obriga a nomear todos os data marts (ou processos de negócio) possíveis e nomear todas as dimensões envolvidas nesses data marts Depois, podemos passar ao desenho das tabelas de factos individuais envolvidas em cada data mart. Depois, podemos passar ao desenho das tabelas de factos individuais envolvidas em cada data mart.

SAD Tagus 2004/05 H. Galhardas Estrutura da Matriz Linhas: data marts Colunas: dimensões Intersecções: onde uma dimensão existe para um data mart Uma linha indica o nº de dimensões para um dado data mart Uma coluna com muitas intersecções indica que é importante e deve ser conforme

SAD Tagus 2004/05 H. Galhardas Extended 4-step design methodology (Kimball) Processo de desenho de DW típico: Processo de desenho de DW típico: 1. Escolher o processo de negócio a modelizar (ex: encomendas, recebimentos, etc) 2. Escolher o grão (nível de dados atómico) do processo de negócio 3. Identificar e tornar conformes as dimensões que se aplicam a cada registo da tabela de factos 4. Escolher os factos que vão popular cada registo da tabela de factos

SAD Tagus 2004/05 H. Galhardas Extended 4-step design method (Kimball) (cont.) 5. Armazenar medidas pré-calculadas na tabela de factos 6. Enriquecer as tabelas de dimensões 7. Escolher o período de duração do DW 8. Monitorizar as slowly changing dimensions 9. Decidir prioridades de interrogação e modos de interrogação

SAD Tagus 2004/05 H. Galhardas 1. Escolher o processo usually occur in line item-oriented Degenerate dimension: usually occur in line item-oriented fact table designs

SAD Tagus 2004/05 H. Galhardas 2. Escolher o grão O grão é a linha em cada recibo do cliente

SAD Tagus 2004/05 H. Galhardas 3. Identificar e tornar conformes as dimensões

SAD Tagus 2004/05 H. Galhardas Dimensões conformes As dimensões são os pontos de entrada num data mart. Determinam: As dimensões são os pontos de entrada num data mart. Determinam: Os critérios de navegação Os cabeçalhos dos relatórios Vocabulário da organização para os utilizadores Dimensões conformes: significam a mesma coisa e guardam a mesma informação independentemente da tabela de factos a que estão ligadas. Dimensões conformes: significam a mesma coisa e guardam a mesma informação independentemente da tabela de factos a que estão ligadas.

SAD Tagus 2004/05 H. Galhardas 4. Escolher os factos O grão da tabela de factos determina que factos usar num data mart O grão da tabela de factos determina que factos usar num data mart Todos os factos têm que ser especificados ao mesmo nível determinado pelo grão Todos os factos têm que ser especificados ao mesmo nível determinado pelo grão Os factos devem ser o mais aditivos possíveis Os factos devem ser o mais aditivos possíveis Podem ser adicionados factos suplementares desde que sejam consistentes com o grão. Podem ser adicionados factos suplementares desde que sejam consistentes com o grão.

SAD Tagus 2004/05 H. Galhardas Bad vs good fact table

SAD Tagus 2004/05 H. Galhardas Categorização dos factos ou medidas Aditiva: podem ser somadas através de todas as dimensões; são medidas de actividade Aditiva: podem ser somadas através de todas as dimensões; são medidas de actividade E.g.: unidades_vendidas, dolares_vendidos Semi-aditiva: só podem somadas ao longo de algumas dimensões; são fotografias no tempo Semi-aditiva: só podem somadas ao longo de algumas dimensões; são fotografias no tempo E.g.: saldo_conta, quantidade de um inventário não podem ser somadas ao longo do tempo Não aditiva: não podem ser somadas de todo Não aditiva: não podem ser somadas de todo E.g.: temperatura, taxas de juro

SAD Tagus 2004/05 H. Galhardas F : A x B  C é aditiva sobre A sse: F : A x B  C é aditiva sobre A sse: F (a 1 + a 2, b) = F (a 1, b)  F (a 2, b) F é aditiva se é aditiva sobre todos os seus argumentos Exemplo : conta(contaID, clienteID, data, saldo) saldo : contaID x clienteID x data  saldo saldo (x, y, [t 0, t 2 ]) = saldo (x, y, [t 0, t 1 ])  saldo (x, y, [t 1, t 2 ]) saldo (x 1  x 2, y, t ) = saldo (x 1, y, t)  saldo (x 2, y, t 2 ) Medidas aditivas ? ?

SAD Tagus 2004/05 H. Galhardas Factless facts (1) Facts that do not go into a “normal” fact table since they do not measure anything Facts that do not go into a “normal” fact table since they do not measure anything Describe events and coverage Describe events and coverage Ex: Ex: Student traking system that detects each student attendance at a college Fact table: Student Attendance with attribute attendance (0/1) Dimensions: Time, Course, Student, Teacher

SAD Tagus 2004/05 H. Galhardas Factless facts (2) Ex: Ex: Sales Promotion fact table that records the sales of products in stores on particular days under each promotion condition Fact table: Promotion Coverage Dimensions: Time, Store, Product, Promotion

SAD Tagus 2004/05 H. Galhardas 5. Storing precalculations (derived facts) in the fact table Derived data : computed from facts applying a function Some derived data are required to be explicitly stored Some derived data are required to be explicitly stored Aggregate data: usually modeled in specific fact tables. Advantage: speed up OLAP queries Inconvenient: slows down DW refreshment and increases DW size

SAD Tagus 2004/05 H. Galhardas Fact table with derived data

SAD Tagus 2004/05 H. Galhardas Fact table with aggregate data Customer Summary Cust_id Total Sales Highest Sales Value Average Sales Store Table Store_id District_id Customer Table Cust_id Cust_name Time Table Week_id Period_id Year_id Product Table Product_id Product_desc Sales Fact Table Unit Sell Price Dollar Sales Unit Sales Dollar Cost Summary for Product, Store, and Time for all Customers

SAD Tagus 2004/05 H. Galhardas 6. Enrich the dimension tables Return to the dimension tables and exhaustively add text-like descriptors Return to the dimension tables and exhaustively add text-like descriptors No abbreviations should be used No abbreviations should be used Important dimensions typically should have 50 text-like attributes Important dimensions typically should have 50 text-like attributes

SAD Tagus 2004/05 H. Galhardas 7. Choosing the duration of the DW Measures how far back in time the fact table goes Measures how far back in time the fact table goes Very long fact table durations pose two kinds of problems: Very long fact table durations pose two kinds of problems: Difficult to get and interpret source old data (old files, old tapes) Old versions of important dimensions must be used instead of current ones

SAD Tagus 2004/05 H. Galhardas 8. Tracking slowly changing dimensions The operational data source that feeds dimensions changes: keys are kept but descriptive attributes change The operational data source that feeds dimensions changes: keys are kept but descriptive attributes change Three types of solutions: Three types of solutions: 1. Overwrite the dimension record with new values 2. Create a new additional dimension record using a new value of the surrogate key 3. Create an “old” field in the dimension record to store previous attribute value

SAD Tagus 2004/05 H. Galhardas 9. Deciding query priorities and query modes Physical design issues: Physical design issues: Physical sort order of the fact table Pre-stored aggregations Indexing...

SAD Tagus 2004/05 H. Galhardas Bibliografia (Livro) Data Mining: Concepts and Techniques, J. Han & M. Kamber, Morgan Kaufmann, 2001 (parte da Secção 2.3) (Livro) Data Mining: Concepts and Techniques, J. Han & M. Kamber, Morgan Kaufmann, 2001 (parte da Secção 2.3) (Livro) The Data Warehouse Lifecycle Toolkit, R. Kimball, Wiley 1998 (Cap. 5, 6 e 7) (Livro) The Data Warehouse Lifecycle Toolkit, R. Kimball, Wiley 1998 (Cap. 5, 6 e 7) (Artigo) Letting the Users Sleep Part 1 and 2, R. Kimball, DBMS – Dec and Jan. 1997, (Artigo) Letting the Users Sleep Part 1 and 2, R. Kimball, DBMS – Dec and Jan. 1997,