Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouAntônio Garrido Minho Alterado mais de 8 anos atrás
1
Construindo um Data Warehouse Modelagem Dimensional
2
1. Definição De Projeto 2. Requisitos De negócios 3. Arquitetura Warehouse 4. Modelagem Dimensional 5. Seleção de Tecnologia 6. Aplicação Usuária 7. Área de Stagging 8. Manutenção e Sustentabilidade Você está aqui Ciclo de vida simplificado de um Data Warehouse
3
Fatores chave de sucesso Terminologia Estruturas da modelagem dimensional Nível de detalhamento de um modelo Fases da modelagem Modelagem de Data Warehouse Teste do modelo gerado Agenda
4
Fatores Chave de Sucesso Alinhamento com os objetivos estratégicos da empresa Direcionamento ao “Business” Prover dados tanto detalhados quanto sumarizados Infra-estrutura robusta para comportar os diferentes tipos de acessos aos dados
5
Seu Desafio Modelar esquemas lógicos e físicos que possibilitem rápido e previsível tempo de resposta aos dados, suportando a análise não previsível de grande volumes de dados históricos
6
Não Esquecer Validade Qualidade Integração Atualidade Consistência Manutenção
7
O Problema Mudança dos requisitos de negócio
8
Essencial Extensibilidade Flexibilidade
9
Fatores Chave de Sucesso: Resumo TEMPO DE RESPOSTA RÁPIDO E PREVISÍVEL PARA CONSULTAS AD-HOC Validade Correteza Integração Atualidade Consistência Manutenção Extensibilidade Flexibilidade
10
Terminologia Básica Aluguel Data_id Loja_id Produto_id Qtde Aluguel Custo Lucro Produto Produto_id Título Categoria Status Ano Qtde Cópias Loja Loja_id Código Endereço Cidade Bairro Tipo Tempo Data_id Data Dia da Semana Feriado Mês Ano DIMENSÃO FATO
11
Terminologia Avançada Aluguel Data_id Loja_id Produto_id Qtde Aluguel Custo Lucro Produto Produto_id Título Categoria Status Ano Qtde Cópias Loja Loja_id Código Endereço Cidade Bairro Tipo Tempo Data_id Data Dia da Semana Feriado Mês Ano Cópia Produto_id Cópia_id Idioma SUB-DIMENSÃO Exclusividade Loja_id Produto_id
12
Terminologia Dimensão 3 Dimensão 1 Dimensão 2 Dimensão 4 Dimensão 5 Fato STAR SCHEMA
13
Terminologia Dimensão 3 Dimensão 1 Dimensão 2 Dimensão 4 Dimensão 5 Fato SNOWFLAKED Tabela Auxiliar
14
Terminologia RELACIONADAS Mês Mês_id Nome Número Cliente Cliente_id Nome Endereço Cidade Estado Problema Problema_id Nome Telefone Telefone_id Ddd Número Tipo FATO 1 Mês_id Cliente_id Telefone_id Qtde ligações FATO 2 Mês_id Cliente_id Telefone_id Problema_id Qtde Ocorrências Custo Reparo
15
Terminologia AGREGADAS Mês Mês_id Nome Número Cliente Cliente_id Nome Endereço Cidade Estado Produto Produto_id Nome FATO 1 Mês_id Cliente_id Loja_id Produto Qtde Venda Valor Venda FATO 2 Mês_id Loja_id Produto_id Qtde Venda Valor Venda Loja Loja_id Endereço Depto Cidade
16
Enfoque da Modelagem Dimensional Modelagem dos processos essenciais da Empresa, suas medidas, e dimensões, através das quais os negócios serão analisados
17
Exemplo: Vídeo Locadora DIMENSÃO Dia da semana Dia do feriado Loja e Categoria Título Título e Categoria Título e Idade MEDIDAS Quantidade de locação Custo Lucro
18
Estruturas Dimensionais Agrupe as medidas em tabelas “fato” Agrupe as dimensões individuais em tabelas de dimensão Determine a granularidade das tabelas “fato” Determine a dimensionalidade
19
Exemplo: Vídeo Locadora Aluguel Fact Data_id Loja_id Produto_id Qtde Aluguel Custo Lucro Dimensão Produto Produto_id Título Categoria Status Ano Qtde Cópias Dimensão Loja Loja_id Código Endereço Cidade Bairro Tipo Dimensão Tempo Data_id Data Dia da Semana Feriado Mês Ano
20
Tabelas Dimensão Tabelas Dimensão contém parâmetros analíticos através dos quais as medidas das tabelas de fato são analisadas: rentabilidade por produto, categoria e loja quantidade de locações por dia, mês e ano frequência de locação por cliente, loja, título e categoria
21
Exemplo de Tabelas Dimensão período de tempo organização produto cliente geografia
22
Característica de Esquemas Dimensional Tabelas Fato são geralmente “grandes” e são modeladas visando performance e manutenção ( são geralmente BASTANTE normalizadas ) Tabelas Dimensão são geralmente pequenas e são modeladas visando análise analítica e fáceis de usar ( em geral são SUTILMENTE desnormalizadas )
23
Tabelas Fato Tabelas Fato contém medidas relacionadas com: transações eventos período de atividade status cobertura
24
Exemplo de Tabelas Fato transações por ponto de venda (loja) pedido, atendimento títulos mais vendidos clientes mais assíduos política de locação por status da data
25
Nível de Detalhamento de um modelo Perguntas negociais que requerem dados detalhados do modelo : o que acontece em conjunto ? quantos clientes são “temporais” ? quantos clientes são regulares ? que produtos vendem melhor em que época do ano ?
26
Nível de Detalhamento de um Data Warehouse Dimensional Dados em nível detalhado devem ser armazenados em dimensões, para facilitar drill down e o acesso detalhado aos dados, assim como à extração, replicação, e requisitos de data mining.
27
Nível de Detalhamento de um Data Warehouse Dimensional pessoas precisarão da informação dimensionalize-a utilize chaves “warehouse”
28
Fases da Modelagem cidade tipo venda produto depto sub-categoria categoria fornecedor marca produto mêsdiahora item vendido deptoloja depto lojabairro ESQUEMA NA 3 A FORMA NORMAL
29
Fases da Modelagem tipo venda produto marca fornecedor sub-categoria categoria depto ano mês dia hora item vendido cidade bairro Loja depto ESQUEMA DIMENSIONAL
30
Fases da Modelagem A modelagem pode ter 2 soluções: tabelas de fato totalmente desnormalizadas tabelas de fato sutilmente desnormalizadas
31
Modelagem Sutilmente Desnormalizada FASE 1 Criar a conta do cliente D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral
32
Modelagem Sutilmente Desnormalizada FASE 2 Adicionar o histórico de serviço D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço
33
Modelagem Sutilmente Desnormalizada FASE 3 Adicionar novos atributos às entidades D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço
34
Modelagem Sutilmente Desnormalizada FASE 4: P R O B L E M A Adicionar serviços de internet (granularidade diferente) D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço
35
Modelagem Sutilmente Desnormalizada FASE 5: S O L U Ç Ã O Criar outra tabela fato D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço F Internet Cliente mês_id cliente_id internet charges
36
Modelagem Normalizada FASE 1 Criar a conta do cliente D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total D tipo serviço
37
Modelagem Normalizada FASE 2 Adicionar o histórico de serviço D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço D tipo serviço
38
Modelagem Normalizada D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço D tipo serviço FASE 3 Adicionar novos atributos às entidades
39
Modelagem Normalizada D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço D tipo serviço FASE 4: P R O B L E M A Adicionar serviços de internet (granularidade diferente)
40
Modelagem Normalizada D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço D tipo serviço FASE 5: S O L U Ç Ã O Adicionar serviços de internet (granularidade diferente) F Internet Cliente mês_id cliente_id internet charges
41
Fases da Modelagem: Resumo modele o DW direcionado ao business tenha uma arquitetura para DW bem estruturada facilite o acesso tanto detalhado quanto resumido implemente em partes, mas seja cauteloso, modelando de modo corporativo todas as dimensões Lembretes:
42
Modelagem de Data Warehouse Os 9 pontos de decisão para uma modelagem dimensional completa são: 1. Os processos e por consequência, a identidade das tabelas fato 2. A granularidade de cada fato 3. As dimensões de cada tabela fato
43
Modelagem de Data Warehouse 4. Os fatos, incluindo fatos pré-calculados 5. Atributos das dimensões 6. Como tratar acompanhamento de mudanças em tabelas dimensão 7. Armazenamento físico: agregações, dimensões heterogêneas, sub-dimensões, mini-dimensões
44
Modelagem de Data Warehouse 8. Tempo de retenção de histórico 9. Urgência com que o dado é extraído e disponibilizado em um Data Warehouse
45
Modelagem de Data Warehouse Chaves artificiais: maior nível de isolamento dos sistemas operacional melhora significativa na performance de queries reduz significativamente o tamanho do data warehouse como um todo possibilita armazenamento de mais linhas por bloco de I/O em tabelas fato
46
Modelagem de Data Warehouse Linhas artificiais: Armazenamento de uma linha com dados virtuais permite a implementação de integridade referencial de forma simplificada no modelo permite o rastreio da correção da informação no decorrer do tempo simplifica as queries Dirty dimension
47
Tratamento de Histórico: Fato Cliente Cliente_id Nome Endereço Mês Mês_id Nome Ano Fluxo Financeiro Cliente_id Mês_id Valor Renda Gasto Saúde Gasto Supermercado Gasto Combustível
48
Tratamento de Histórico: Dimensão Cliente Cliente_id Nome Endereço Bairro Salário Atual Salário Anterior Data Alteração Salário
49
Tratamento de Histórico Cliente Cliente_id Nome Endereço Mês Mês_id Nome Ano Fluxo Financeiro Cliente_id Mês_id Valor Renda Gasto Saúde Gasto Supermercado Gasto Combustível Histórico Cliente Cliente_id Data Endereço Anterior
50
Modelagem de Data Warehouse promova a reutilização das dimensões permita uma análise integrada e consistente através do Data Warehouse crie pequenas colunas para chave primária das dimensões crie uma única coluna como chave de dimensões (chave artificial)
51
Modelagem de Data Warehouse não crie chave artificial para tabelas fato avalie a necessidade de criação de tabelas sumarizadas avalie cuidadosamente a necessidade de criação de tabela relacionada revise a solução adotada para armazenamento de dados históricos
52
Princípios de um Modelo Dimensional 1)o primeiro passo da modelagem é decidir que processos negociais modelar, entendendo quais dados estão disponíveis
53
Princípios de um Modelo Dimensional 2) O segundo passo é decidir a granularidade das tabelas 3) Tabelas fato, numa modelagem dimensional, são naturalmente normalizadas a extremo
54
Princípios de um Modelo Dimensional 4) Um Data Warehouse geralmente requer os dados no nível mais baixo de granularidade, não porque as queries querem ver esses registros individualmente, mas porque as queries precisam visualizar os dados de forma precisa e por diversas maneiras
55
Princípios de um Modelo Dimensional 5) O esforço de normalização de qualquer uma das tabelas dimensão, visando minimizar espaço em disco, será uma perda de tempo
56
Princípios de um Modelo Dimensional 6) Tabelas dimensão não devem ser normalizadas com o risco de dificultar a recuperação das informações. O espaço em disco ganho é geralmente menos de 1% do total do espaço necessário para o modelo todo
57
Princípios de um Modelo Dimensional 7) Não modele as dimensões como snowflake, mesmo se ela for extensa. Caso o faça, prepare-se para administrar baixa performance de recuperação de dados
58
Teste do Modelo Gerado organize as perguntas da fase de definição de escopo enumere a quantidade de DIMENSÕES acessados para solução daquela query enumere a quantidade de FATOS acessados para solução daquelas queries
59
Teste do Modelo Gerado verifique se todas as tabelas criadas são realmente necessárias para responder às perguntas feitas verifique a frequência das queries verifique a necessidade de criação de tabelas agregadas ou relacionadas
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.