Construindo um Data Warehouse Modelagem Dimensional.

Slides:



Advertisements
Apresentações semelhantes
SISTEMAS DE SUPORTE À DECISÃO
Advertisements

Modelo Entidade-Relacionamento
Um pouco mais de cardinalidade e Relacionamentos
Sérgio Luisir Díscola Junior
SISTEMAS DE INFORMAÇÃO
1. Análise do Problema 2. Definição de dados
Maurício Edgar Stivanello
Prof. Dra. Maria Virginia Llatas
Engenharia da Informação
Modelo Relacional Professor Edson Emílio Scalabrin telefone: 0xx download:
Modelo Dimensional Professor Edson Emílio Scalabrin telefone: 0xx download:
Modelo de Dados Professores Edson E. Scalabrin Marcos A. H. Shmeil telefone: 0xx {scalabrin, download:
Apresentação SOE Assunto DATA WAREHOUSE Professor TANAKA
Mineração de Dados ou Descoberta de conhecimento em BDs
Conceitos Básicos Dado: fato do mundo real que está registrado e possui um significado implícito no contexto de um domínio de aplicação Exemplos: endereço,
Aula 4 – Inteligência de Negócios (Business Intellingence)
Data Warehouse Um Data Warehouse é um armazém de dados, contendo dados extraídos do ambiente de produção da empresa. De acordo com INMON (1997), um.
Star Schema Benchmark SSB
Preço IBM Service Manager for Smart Business em torno de R$6.000,00 por usuário o preco so é mantido para empresas MidMarket / por usuário Preço referência.
Business Intelligence – BI Análise de sistemas de informação
TSDD Teste de segurança durante o desenvolvimento.
Visão Geral do Desenvolvimento de Sistemas e Papéis no Desenvolvimento de Software Marcely Dias
Atividade R05 Grupo 3 Turma 19.
QUEM SOMOS Fundada em 1992, a van Rooy Comércio e Informática é uma empresa com grande experiência no desenvolvimento de software para telemarketing ativo,
Treinamento do Microsoft® Access® 2010
Tomada de Decisão e Sistemas de Informação
Desenvolvimento de Sistemas OLAP
Treinamento do Microsoft® Access® 2010
Sistemas Distribuídos
Metolodogia de Desenvolvimento de Data Warehouse
Gerenciamento de Dados
MODELO DE NEGÓCIOS - CANVAS.
SGBD - Regra 1 Regra 1: Auto-Contenção- Um SGBD não contém apenas os dados em si, mas armazena completamente toda a descrição dos dados, seus relacionamentos.
Análise de problemas Capacidade de pensamento crítico
Prof. Kelly E. Medeiros Bacharel em Sistemas de Informação
Tecnologia da informação e estado
Tecnologia da Informação
Business Intelligence:
Tecnologia da informação
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades.
A abordagem de banco de dados para gerenciamento de dados
Banco de Dados Aplicado ao Desenvolvimento de Software
Análise e Projeto de Sistemas UNIVERSIDADE DE CRUZ ALTA Ciência da Computação 2010/1.
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
Campus de Caraguatatuba Aula 2: Introdução a Tecnologia de BD
ASSUNTO Facilitando a Tomada de Decisão em um Ambiente Móvel Mohamed A. Sharaf Panos K. Chrysanthis Felipe Menezes Cardoso COPIN – UFCG Banco de Dados.
Fase de Concepção Levantamento de Requisitos, Organização de Requisitos, Planejamento dos Ciclos Iterativos.
1 GESTÃO ESTRATÉGICA DA PRODUÇÃO Sistema de Informação e Tecnologia FEQ 0411 Trabalho 05.
Uma proposta para OLAP ontológica Adriana Ribeiro.
Engenharia de Software
Sistemas de Informações em Recursos Humanos
Prof. Ana Martins – UCB Unidade 02 Aula 03
Equipe Prof. Henrique Freitas
Banco de Dados II Prof. Dra. Carla Lanzotti
Bancos de Dados Objeto-relacional e Orientados a Objetos Maria Carolina
Logística Integrada Engenharia de Produção
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Disciplina: Inteligência Artificial
Modelagem Dimensional do Data Warehouse
Janeiro/2013 Ceça Moraes Data Warehouse Janeiro/2013 Ceça Moraes
Data Warehouse Introdução ao Data Warehouse Introdução ao Data Warehouse Sistemas de Apoio à Decisão Sistemas de Apoio à Decisão Conceituação de Data Warehouse.
Projetar Base de Dados. Copyright © 2002 Qualiti. Todos os direitos reservados. Qualiti Software Processes Projetar base de dados | 2 Objetivos deste.
Banco de Dados Parte 1 Profa. Ana Karina Barbosa Fevereiro/2008.
4.4 Implementação e Operação
INTELIGÊNCIA EMPRESARIAL Aula 9 - Modelagem de Data Warehouse.
INTELIGÊNCIA EMPRESARIAL Aula 8 - Metadados e Operações OLAP.
Plano de produção ou plano operacional
Modelagem de Banco de Dados: Conceitos
Transcrição da apresentação:

Construindo um Data Warehouse Modelagem Dimensional

1. Definição De Projeto 2. Requisitos De negócios 3. Arquitetura Warehouse 4. Modelagem Dimensional 5. Seleção de Tecnologia 6. Aplicação Usuária 7. Área de Stagging 8. Manutenção e Sustentabilidade Você está aqui Ciclo de vida simplificado de um Data Warehouse

Fatores chave de sucesso Terminologia Estruturas da modelagem dimensional Nível de detalhamento de um modelo Fases da modelagem Modelagem de Data Warehouse Teste do modelo gerado Agenda

Fatores Chave de Sucesso Alinhamento com os objetivos estratégicos da empresa Direcionamento ao “Business” Prover dados tanto detalhados quanto sumarizados Infra-estrutura robusta para comportar os diferentes tipos de acessos aos dados

Seu Desafio Modelar esquemas lógicos e físicos que possibilitem rápido e previsível tempo de resposta aos dados, suportando a análise não previsível de grande volumes de dados históricos

Não Esquecer Validade Qualidade Integração Atualidade Consistência Manutenção

O Problema Mudança dos requisitos de negócio

Essencial Extensibilidade Flexibilidade

Fatores Chave de Sucesso: Resumo TEMPO DE RESPOSTA RÁPIDO E PREVISÍVEL PARA CONSULTAS AD-HOC Validade Correteza Integração Atualidade Consistência Manutenção Extensibilidade Flexibilidade

Terminologia Básica Aluguel Data_id Loja_id Produto_id Qtde Aluguel Custo Lucro Produto Produto_id Título Categoria Status Ano Qtde Cópias Loja Loja_id Código Endereço Cidade Bairro Tipo Tempo Data_id Data Dia da Semana Feriado Mês Ano DIMENSÃO FATO

Terminologia Avançada Aluguel Data_id Loja_id Produto_id Qtde Aluguel Custo Lucro Produto Produto_id Título Categoria Status Ano Qtde Cópias Loja Loja_id Código Endereço Cidade Bairro Tipo Tempo Data_id Data Dia da Semana Feriado Mês Ano Cópia Produto_id Cópia_id Idioma SUB-DIMENSÃO Exclusividade Loja_id Produto_id

Terminologia Dimensão 3 Dimensão 1 Dimensão 2 Dimensão 4 Dimensão 5 Fato STAR SCHEMA

Terminologia Dimensão 3 Dimensão 1 Dimensão 2 Dimensão 4 Dimensão 5 Fato SNOWFLAKED Tabela Auxiliar

Terminologia RELACIONADAS Mês Mês_id Nome Número Cliente Cliente_id Nome Endereço Cidade Estado Problema Problema_id Nome Telefone Telefone_id Ddd Número Tipo FATO 1 Mês_id Cliente_id Telefone_id Qtde ligações FATO 2 Mês_id Cliente_id Telefone_id Problema_id Qtde Ocorrências Custo Reparo

Terminologia AGREGADAS Mês Mês_id Nome Número Cliente Cliente_id Nome Endereço Cidade Estado Produto Produto_id Nome FATO 1 Mês_id Cliente_id Loja_id Produto Qtde Venda Valor Venda FATO 2 Mês_id Loja_id Produto_id Qtde Venda Valor Venda Loja Loja_id Endereço Depto Cidade

Enfoque da Modelagem Dimensional Modelagem dos processos essenciais da Empresa, suas medidas, e dimensões, através das quais os negócios serão analisados

Exemplo: Vídeo Locadora DIMENSÃO Dia da semana Dia do feriado Loja e Categoria Título Título e Categoria Título e Idade MEDIDAS Quantidade de locação Custo Lucro

Estruturas Dimensionais Agrupe as medidas em tabelas “fato” Agrupe as dimensões individuais em tabelas de dimensão Determine a granularidade das tabelas “fato” Determine a dimensionalidade

Exemplo: Vídeo Locadora Aluguel Fact Data_id Loja_id Produto_id Qtde Aluguel Custo Lucro Dimensão Produto Produto_id Título Categoria Status Ano Qtde Cópias Dimensão Loja Loja_id Código Endereço Cidade Bairro Tipo Dimensão Tempo Data_id Data Dia da Semana Feriado Mês Ano

Tabelas Dimensão Tabelas Dimensão contém parâmetros analíticos através dos quais as medidas das tabelas de fato são analisadas: rentabilidade por produto, categoria e loja quantidade de locações por dia, mês e ano frequência de locação por cliente, loja, título e categoria

Exemplo de Tabelas Dimensão período de tempo organização produto cliente geografia

Característica de Esquemas Dimensional Tabelas Fato são geralmente “grandes” e são modeladas visando performance e manutenção ( são geralmente BASTANTE normalizadas ) Tabelas Dimensão são geralmente pequenas e são modeladas visando análise analítica e fáceis de usar ( em geral são SUTILMENTE desnormalizadas )

Tabelas Fato Tabelas Fato contém medidas relacionadas com: transações eventos período de atividade status cobertura

Exemplo de Tabelas Fato transações por ponto de venda (loja) pedido, atendimento títulos mais vendidos clientes mais assíduos política de locação por status da data

Nível de Detalhamento de um modelo Perguntas negociais que requerem dados detalhados do modelo : o que acontece em conjunto ? quantos clientes são “temporais” ? quantos clientes são regulares ? que produtos vendem melhor em que época do ano ?

Nível de Detalhamento de um Data Warehouse Dimensional Dados em nível detalhado devem ser armazenados em dimensões, para facilitar drill down e o acesso detalhado aos dados, assim como à extração, replicação, e requisitos de data mining.

Nível de Detalhamento de um Data Warehouse Dimensional pessoas precisarão da informação dimensionalize-a utilize chaves “warehouse”

Fases da Modelagem cidade tipo venda produto depto sub-categoria categoria fornecedor marca produto mêsdiahora item vendido deptoloja depto lojabairro ESQUEMA NA 3 A FORMA NORMAL

Fases da Modelagem tipo venda produto marca fornecedor sub-categoria categoria depto ano mês dia hora item vendido cidade bairro Loja depto ESQUEMA DIMENSIONAL

Fases da Modelagem A modelagem pode ter 2 soluções: tabelas de fato totalmente desnormalizadas tabelas de fato sutilmente desnormalizadas

Modelagem Sutilmente Desnormalizada FASE 1 Criar a conta do cliente D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral

Modelagem Sutilmente Desnormalizada FASE 2 Adicionar o histórico de serviço D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço

Modelagem Sutilmente Desnormalizada FASE 3 Adicionar novos atributos às entidades D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço

Modelagem Sutilmente Desnormalizada FASE 4: P R O B L E M A Adicionar serviços de internet (granularidade diferente) D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço

Modelagem Sutilmente Desnormalizada FASE 5: S O L U Ç Ã O Criar outra tabela fato D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço F Internet Cliente mês_id cliente_id internet charges

Modelagem Normalizada FASE 1 Criar a conta do cliente D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total D tipo serviço

Modelagem Normalizada FASE 2 Adicionar o histórico de serviço D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço D tipo serviço

Modelagem Normalizada D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço D tipo serviço FASE 3 Adicionar novos atributos às entidades

Modelagem Normalizada D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço D tipo serviço FASE 4: P R O B L E M A Adicionar serviços de internet (granularidade diferente)

Modelagem Normalizada D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço D tipo serviço FASE 5: S O L U Ç Ã O Adicionar serviços de internet (granularidade diferente) F Internet Cliente mês_id cliente_id internet charges

Fases da Modelagem: Resumo modele o DW direcionado ao business tenha uma arquitetura para DW bem estruturada facilite o acesso tanto detalhado quanto resumido implemente em partes, mas seja cauteloso, modelando de modo corporativo todas as dimensões Lembretes:

Modelagem de Data Warehouse Os 9 pontos de decisão para uma modelagem dimensional completa são: 1. Os processos e por consequência, a identidade das tabelas fato 2. A granularidade de cada fato 3. As dimensões de cada tabela fato

Modelagem de Data Warehouse 4. Os fatos, incluindo fatos pré-calculados 5. Atributos das dimensões 6. Como tratar acompanhamento de mudanças em tabelas dimensão 7. Armazenamento físico: agregações, dimensões heterogêneas, sub-dimensões, mini-dimensões

Modelagem de Data Warehouse 8. Tempo de retenção de histórico 9. Urgência com que o dado é extraído e disponibilizado em um Data Warehouse

Modelagem de Data Warehouse Chaves artificiais: maior nível de isolamento dos sistemas operacional melhora significativa na performance de queries reduz significativamente o tamanho do data warehouse como um todo possibilita armazenamento de mais linhas por bloco de I/O em tabelas fato

Modelagem de Data Warehouse Linhas artificiais: Armazenamento de uma linha com dados virtuais permite a implementação de integridade referencial de forma simplificada no modelo permite o rastreio da correção da informação no decorrer do tempo simplifica as queries Dirty dimension

Tratamento de Histórico: Fato Cliente Cliente_id Nome Endereço Mês Mês_id Nome Ano Fluxo Financeiro Cliente_id Mês_id Valor Renda Gasto Saúde Gasto Supermercado Gasto Combustível

Tratamento de Histórico: Dimensão Cliente Cliente_id Nome Endereço Bairro Salário Atual Salário Anterior Data Alteração Salário

Tratamento de Histórico Cliente Cliente_id Nome Endereço Mês Mês_id Nome Ano Fluxo Financeiro Cliente_id Mês_id Valor Renda Gasto Saúde Gasto Supermercado Gasto Combustível Histórico Cliente Cliente_id Data Endereço Anterior

Modelagem de Data Warehouse promova a reutilização das dimensões permita uma análise integrada e consistente através do Data Warehouse crie pequenas colunas para chave primária das dimensões crie uma única coluna como chave de dimensões (chave artificial)

Modelagem de Data Warehouse não crie chave artificial para tabelas fato avalie a necessidade de criação de tabelas sumarizadas avalie cuidadosamente a necessidade de criação de tabela relacionada revise a solução adotada para armazenamento de dados históricos

Princípios de um Modelo Dimensional 1)o primeiro passo da modelagem é decidir que processos negociais modelar, entendendo quais dados estão disponíveis

Princípios de um Modelo Dimensional 2) O segundo passo é decidir a granularidade das tabelas 3) Tabelas fato, numa modelagem dimensional, são naturalmente normalizadas a extremo

Princípios de um Modelo Dimensional 4) Um Data Warehouse geralmente requer os dados no nível mais baixo de granularidade, não porque as queries querem ver esses registros individualmente, mas porque as queries precisam visualizar os dados de forma precisa e por diversas maneiras

Princípios de um Modelo Dimensional 5) O esforço de normalização de qualquer uma das tabelas dimensão, visando minimizar espaço em disco, será uma perda de tempo

Princípios de um Modelo Dimensional 6) Tabelas dimensão não devem ser normalizadas com o risco de dificultar a recuperação das informações. O espaço em disco ganho é geralmente menos de 1% do total do espaço necessário para o modelo todo

Princípios de um Modelo Dimensional 7) Não modele as dimensões como snowflake, mesmo se ela for extensa. Caso o faça, prepare-se para administrar baixa performance de recuperação de dados

Teste do Modelo Gerado organize as perguntas da fase de definição de escopo enumere a quantidade de DIMENSÕES acessados para solução daquela query enumere a quantidade de FATOS acessados para solução daquelas queries

Teste do Modelo Gerado verifique se todas as tabelas criadas são realmente necessárias para responder às perguntas feitas verifique a frequência das queries verifique a necessidade de criação de tabelas agregadas ou relacionadas