A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Construindo um Data Warehouse Modelagem Dimensional.

Apresentações semelhantes


Apresentação em tema: "Construindo um Data Warehouse Modelagem Dimensional."— Transcrição da apresentação:

1 Construindo um Data Warehouse Modelagem Dimensional

2 1. Definição De Projeto 2. Requisitos De negócios 3. Arquitetura Warehouse 4. Modelagem Dimensional 5. Seleção de Tecnologia 6. Aplicação Usuária 7. Área de Stagging 8. Manutenção e Sustentabilidade Você está aqui Ciclo de vida simplificado de um Data Warehouse

3 Fatores chave de sucesso Terminologia Estruturas da modelagem dimensional Nível de detalhamento de um modelo Fases da modelagem Modelagem de Data Warehouse Teste do modelo gerado Agenda

4 Fatores Chave de Sucesso Alinhamento com os objetivos estratégicos da empresa Direcionamento ao “Business” Prover dados tanto detalhados quanto sumarizados Infra-estrutura robusta para comportar os diferentes tipos de acessos aos dados

5 Seu Desafio Modelar esquemas lógicos e físicos que possibilitem rápido e previsível tempo de resposta aos dados, suportando a análise não previsível de grande volumes de dados históricos

6 Não Esquecer Validade Qualidade Integração Atualidade Consistência Manutenção

7 O Problema Mudança dos requisitos de negócio

8 Essencial Extensibilidade Flexibilidade

9 Fatores Chave de Sucesso: Resumo TEMPO DE RESPOSTA RÁPIDO E PREVISÍVEL PARA CONSULTAS AD-HOC Validade Correteza Integração Atualidade Consistência Manutenção Extensibilidade Flexibilidade

10 Terminologia Básica Aluguel Data_id Loja_id Produto_id Qtde Aluguel Custo Lucro Produto Produto_id Título Categoria Status Ano Qtde Cópias Loja Loja_id Código Endereço Cidade Bairro Tipo Tempo Data_id Data Dia da Semana Feriado Mês Ano DIMENSÃO FATO

11 Terminologia Avançada Aluguel Data_id Loja_id Produto_id Qtde Aluguel Custo Lucro Produto Produto_id Título Categoria Status Ano Qtde Cópias Loja Loja_id Código Endereço Cidade Bairro Tipo Tempo Data_id Data Dia da Semana Feriado Mês Ano Cópia Produto_id Cópia_id Idioma SUB-DIMENSÃO Exclusividade Loja_id Produto_id

12 Terminologia Dimensão 3 Dimensão 1 Dimensão 2 Dimensão 4 Dimensão 5 Fato STAR SCHEMA

13 Terminologia Dimensão 3 Dimensão 1 Dimensão 2 Dimensão 4 Dimensão 5 Fato SNOWFLAKED Tabela Auxiliar

14 Terminologia RELACIONADAS Mês Mês_id Nome Número Cliente Cliente_id Nome Endereço Cidade Estado Problema Problema_id Nome Telefone Telefone_id Ddd Número Tipo FATO 1 Mês_id Cliente_id Telefone_id Qtde ligações FATO 2 Mês_id Cliente_id Telefone_id Problema_id Qtde Ocorrências Custo Reparo

15 Terminologia AGREGADAS Mês Mês_id Nome Número Cliente Cliente_id Nome Endereço Cidade Estado Produto Produto_id Nome FATO 1 Mês_id Cliente_id Loja_id Produto Qtde Venda Valor Venda FATO 2 Mês_id Loja_id Produto_id Qtde Venda Valor Venda Loja Loja_id Endereço Depto Cidade

16 Enfoque da Modelagem Dimensional Modelagem dos processos essenciais da Empresa, suas medidas, e dimensões, através das quais os negócios serão analisados

17 Exemplo: Vídeo Locadora DIMENSÃO Dia da semana Dia do feriado Loja e Categoria Título Título e Categoria Título e Idade MEDIDAS Quantidade de locação Custo Lucro

18 Estruturas Dimensionais Agrupe as medidas em tabelas “fato” Agrupe as dimensões individuais em tabelas de dimensão Determine a granularidade das tabelas “fato” Determine a dimensionalidade

19 Exemplo: Vídeo Locadora Aluguel Fact Data_id Loja_id Produto_id Qtde Aluguel Custo Lucro Dimensão Produto Produto_id Título Categoria Status Ano Qtde Cópias Dimensão Loja Loja_id Código Endereço Cidade Bairro Tipo Dimensão Tempo Data_id Data Dia da Semana Feriado Mês Ano

20 Tabelas Dimensão Tabelas Dimensão contém parâmetros analíticos através dos quais as medidas das tabelas de fato são analisadas: rentabilidade por produto, categoria e loja quantidade de locações por dia, mês e ano frequência de locação por cliente, loja, título e categoria

21 Exemplo de Tabelas Dimensão período de tempo organização produto cliente geografia

22 Característica de Esquemas Dimensional Tabelas Fato são geralmente “grandes” e são modeladas visando performance e manutenção ( são geralmente BASTANTE normalizadas ) Tabelas Dimensão são geralmente pequenas e são modeladas visando análise analítica e fáceis de usar ( em geral são SUTILMENTE desnormalizadas )

23 Tabelas Fato Tabelas Fato contém medidas relacionadas com: transações eventos período de atividade status cobertura

24 Exemplo de Tabelas Fato transações por ponto de venda (loja) pedido, atendimento títulos mais vendidos clientes mais assíduos política de locação por status da data

25 Nível de Detalhamento de um modelo Perguntas negociais que requerem dados detalhados do modelo : o que acontece em conjunto ? quantos clientes são “temporais” ? quantos clientes são regulares ? que produtos vendem melhor em que época do ano ?

26 Nível de Detalhamento de um Data Warehouse Dimensional Dados em nível detalhado devem ser armazenados em dimensões, para facilitar drill down e o acesso detalhado aos dados, assim como à extração, replicação, e requisitos de data mining.

27 Nível de Detalhamento de um Data Warehouse Dimensional pessoas precisarão da informação dimensionalize-a utilize chaves “warehouse”

28 Fases da Modelagem cidade tipo venda produto depto sub-categoria categoria fornecedor marca produto mêsdiahora item vendido deptoloja depto lojabairro ESQUEMA NA 3 A FORMA NORMAL

29 Fases da Modelagem tipo venda produto marca fornecedor sub-categoria categoria depto ano mês dia hora item vendido cidade bairro Loja depto ESQUEMA DIMENSIONAL

30 Fases da Modelagem A modelagem pode ter 2 soluções: tabelas de fato totalmente desnormalizadas tabelas de fato sutilmente desnormalizadas

31 Modelagem Sutilmente Desnormalizada FASE 1 Criar a conta do cliente D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral

32 Modelagem Sutilmente Desnormalizada FASE 2 Adicionar o histórico de serviço D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço

33 Modelagem Sutilmente Desnormalizada FASE 3 Adicionar novos atributos às entidades D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço

34 Modelagem Sutilmente Desnormalizada FASE 4: P R O B L E M A Adicionar serviços de internet (granularidade diferente) D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço

35 Modelagem Sutilmente Desnormalizada FASE 5: S O L U Ç Ã O Criar outra tabela fato D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total local total interurbano total serviço total geral F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço F Internet Cliente mês_id cliente_id internet charges

36 Modelagem Normalizada FASE 1 Criar a conta do cliente D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total D tipo serviço

37 Modelagem Normalizada FASE 2 Adicionar o histórico de serviço D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço D tipo serviço

38 Modelagem Normalizada D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço D tipo serviço FASE 3 Adicionar novos atributos às entidades

39 Modelagem Normalizada D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço D tipo serviço FASE 4: P R O B L E M A Adicionar serviços de internet (granularidade diferente)

40 Modelagem Normalizada D mês D cliente D telefone F Conta Cliente mês_id cliente_id telefone_id total F Serviço Cliente mês_id cliente_id telefone_id serviço_id qtde vezes D serviço D tipo serviço FASE 5: S O L U Ç Ã O Adicionar serviços de internet (granularidade diferente) F Internet Cliente mês_id cliente_id internet charges

41 Fases da Modelagem: Resumo modele o DW direcionado ao business tenha uma arquitetura para DW bem estruturada facilite o acesso tanto detalhado quanto resumido implemente em partes, mas seja cauteloso, modelando de modo corporativo todas as dimensões Lembretes:

42 Modelagem de Data Warehouse Os 9 pontos de decisão para uma modelagem dimensional completa são: 1. Os processos e por consequência, a identidade das tabelas fato 2. A granularidade de cada fato 3. As dimensões de cada tabela fato

43 Modelagem de Data Warehouse 4. Os fatos, incluindo fatos pré-calculados 5. Atributos das dimensões 6. Como tratar acompanhamento de mudanças em tabelas dimensão 7. Armazenamento físico: agregações, dimensões heterogêneas, sub-dimensões, mini-dimensões

44 Modelagem de Data Warehouse 8. Tempo de retenção de histórico 9. Urgência com que o dado é extraído e disponibilizado em um Data Warehouse

45 Modelagem de Data Warehouse Chaves artificiais: maior nível de isolamento dos sistemas operacional melhora significativa na performance de queries reduz significativamente o tamanho do data warehouse como um todo possibilita armazenamento de mais linhas por bloco de I/O em tabelas fato

46 Modelagem de Data Warehouse Linhas artificiais: Armazenamento de uma linha com dados virtuais permite a implementação de integridade referencial de forma simplificada no modelo permite o rastreio da correção da informação no decorrer do tempo simplifica as queries Dirty dimension

47 Tratamento de Histórico: Fato Cliente Cliente_id Nome Endereço Mês Mês_id Nome Ano Fluxo Financeiro Cliente_id Mês_id Valor Renda Gasto Saúde Gasto Supermercado Gasto Combustível

48 Tratamento de Histórico: Dimensão Cliente Cliente_id Nome Endereço Bairro Salário Atual Salário Anterior Data Alteração Salário

49 Tratamento de Histórico Cliente Cliente_id Nome Endereço Mês Mês_id Nome Ano Fluxo Financeiro Cliente_id Mês_id Valor Renda Gasto Saúde Gasto Supermercado Gasto Combustível Histórico Cliente Cliente_id Data Endereço Anterior

50 Modelagem de Data Warehouse promova a reutilização das dimensões permita uma análise integrada e consistente através do Data Warehouse crie pequenas colunas para chave primária das dimensões crie uma única coluna como chave de dimensões (chave artificial)

51 Modelagem de Data Warehouse não crie chave artificial para tabelas fato avalie a necessidade de criação de tabelas sumarizadas avalie cuidadosamente a necessidade de criação de tabela relacionada revise a solução adotada para armazenamento de dados históricos

52 Princípios de um Modelo Dimensional 1)o primeiro passo da modelagem é decidir que processos negociais modelar, entendendo quais dados estão disponíveis

53 Princípios de um Modelo Dimensional 2) O segundo passo é decidir a granularidade das tabelas 3) Tabelas fato, numa modelagem dimensional, são naturalmente normalizadas a extremo

54 Princípios de um Modelo Dimensional 4) Um Data Warehouse geralmente requer os dados no nível mais baixo de granularidade, não porque as queries querem ver esses registros individualmente, mas porque as queries precisam visualizar os dados de forma precisa e por diversas maneiras

55 Princípios de um Modelo Dimensional 5) O esforço de normalização de qualquer uma das tabelas dimensão, visando minimizar espaço em disco, será uma perda de tempo

56 Princípios de um Modelo Dimensional 6) Tabelas dimensão não devem ser normalizadas com o risco de dificultar a recuperação das informações. O espaço em disco ganho é geralmente menos de 1% do total do espaço necessário para o modelo todo

57 Princípios de um Modelo Dimensional 7) Não modele as dimensões como snowflake, mesmo se ela for extensa. Caso o faça, prepare-se para administrar baixa performance de recuperação de dados

58 Teste do Modelo Gerado organize as perguntas da fase de definição de escopo enumere a quantidade de DIMENSÕES acessados para solução daquela query enumere a quantidade de FATOS acessados para solução daquelas queries

59 Teste do Modelo Gerado verifique se todas as tabelas criadas são realmente necessárias para responder às perguntas feitas verifique a frequência das queries verifique a necessidade de criação de tabelas agregadas ou relacionadas


Carregar ppt "Construindo um Data Warehouse Modelagem Dimensional."

Apresentações semelhantes


Anúncios Google