A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

1 MIEIC, ARMD, Gabriel David Armazéns de Dados Modelo dimensional 1 Gabriel David

Apresentações semelhantes


Apresentação em tema: "1 MIEIC, ARMD, Gabriel David Armazéns de Dados Modelo dimensional 1 Gabriel David"— Transcrição da apresentação:

1 1 MIEIC, ARMD, Gabriel David Armazéns de Dados Modelo dimensional 1 Gabriel David gtd@fe.up.pt

2 2 MIEIC, ARMD, Gabriel David Construção de um AD n Extremos: Construir o AD (armazém de dados) todo de uma vez -Tarefa gigante que exige conhecer -todos os sistemas legados -o significado de todas as colunas -todos os objectivos da Gestão Construir bocado a bocado, independentemente -Mais fácil, mas conduz a data marts fragmentários n Intermédio: Método passo-a-passo Arquitectura de Barramento do AD

3 3 MIEIC, ARMD, Gabriel David Data Mart n Já não: subconjunto altamente agregado de um AD não interrogável n Mas sim: um subconjunto natural (uma área, um tema) e completo (dados atómicos) do AD global n Não podem ser isolados Data marts que não se liguem são a condenação do AD Muito pior do que perder uma oportunidade de análise profunda da organização Perpetua vistas incompatíveis da empresa

4 4 MIEIC, ARMD, Gabriel David Método n Fase inicial curta: Planeamento global da arquitectura envolvente -Dimensões conformes -Factos normalizados n Supervisão da construção dos data marts Extracção dos dados das fontes operacionais Tratamento dos dados Carregamento do data mart n Resulta: puzzle que virá a ser um AD integrado

5 5 MIEIC, ARMD, Gabriel David Dimensão conforme n Significa o mesmo em todas as tabelas de factos A mesma dimensão em todos os data marts Ex: cliente, produto, local, tempo n Chave bem definida n Dados tratados n Interfaces e conteúdos consistentes n Interpretação consistente dos atributos e agregações n Chave anónima Diferente da de produção Evita colisões de chaves Permite criar novos registos n Estabelecer um dicionário de dimensões conformes Aprovação pela Gestão, pelo Gestor de Informação Eventual reengenharia de processos

6 6 MIEIC, ARMD, Gabriel David EA vs modelo dimensional n E-A não interrogáveis n Factos + dimensões Factos numéricos e aditivos -processo Dimensões com chave atómica Factos com chave múltipla -Star join n Não há perda de informação 1 E-A -- muitas estrelas

7 7 MIEIC, ARMD, Gabriel David Tabelas de factos em 4 passos n Método para projectar um esquema dimensional n 1. O data mart n 2. Granularidade da tabela de factos n 3. As dimensões n 4. Os factos

8 8 MIEIC, ARMD, Gabriel David 1. O data mart n O data mart é um subconjunto de um AD Não é um mini-AD que, em conjunto com outros mini-ADs isolados, “por acaso” forma um AD n Escolher um data mart é escolher a fonte de dados Fonte única: encomendas, envios, pagamentos Fontes múltiplas: lucros do cliente (rendimentos + custos) n Deve-se começar com fonte única A ideia é reduzir as tarefas de limpeza e consolidação de dados No contexto de dimensões conformes Combinam-se os data marts numa segunda fase

9 9 MIEIC, ARMD, Gabriel David 2. Granularidade da tabela de factos n Definir claramente o que significa um registo de um facto n Regra: a granularidade deve ser tão fina quanto possível Não perder informação Obter um desenho mais robusto -Relativamente a futuras interrogações não previstas -Relativamente à adição de novos elementos de dados Se se escolher um mês para juntar os dados das vendas de um produto numa loja, não se consegue analisar o impacto de uma promoção que dure 15 dias

10 10 MIEIC, ARMD, Gabriel David Um registo de um facto é … n Cada transacção de venda n Cada pedido de indemnização à seguradora n Cada transacção Multibanco n Cada total diário de vendas de um produto n Cada balanço mensal da conta n Cada linha de uma encomenda n Cada linha de uma guia de remessa n Cada risco coberto numa apólice individual

11 11 MIEIC, ARMD, Gabriel David Níveis de granularidade n Transacções individuais (primeiras três) Factos atómicos, estrutura simples Número arbitrário (eventualmente nulo) Medida é um montante único n Resumo, balanço, snapshot (dois seguintes) Esperar pelo fim do período (dia, mês, …) Várias medidas: vendas totais, nº de transacções (aditivas), balanço final (semi-aditiva) No caso diário, o snapshot pode confundir-se com uma agregação, redundante, por razões de desempenho No mensal, pode haver informação que só faz sentido para o conjunto do mês e portanto não pode ser dispensado

12 12 MIEIC, ARMD, Gabriel David Níveis de granularidade (cont.) n Itens de um documento de controlo (três últimos) Um registo da tabela de factos para toda a vida de um item Várias chaves temporais para as várias fases do item Dimensão “estado” que acompanha a evolução Pela duração dos processos que representam, mais sujeitos a alterações que os outros tipos de factos

13 13 MIEIC, ARMD, Gabriel David 3. Dimensões n Escolha determinada pela da granularidade n Habitualmente há um conjunto mínimo de dimensões para se compreender a tabela de factos Ex. de um item de encomenda: data da encomenda, cliente, produto, e número de encomenda (dimensão degenerada) n Possível adicionar muitas outras dimensões Cada uma toma um só valor no contexto das dimensões primárias Não afecta a granularidade Ex. data de envio, termos do contrato, promoções, meteorologia

14 14 MIEIC, ARMD, Gabriel David Completar a selecção n Tabela de factos: conjunto de medidas simultâneas numa dada granularidade As mais úteis são numéricas mas podem ser textuais n Definir as medidas, por vezes impostas pelo sistema operacional, e as respectivas dimensões n Acrescentar todas as dimensões disponíveis Especialmente se tiverem um valor só para o contexto de medida Não partir das necessidades do utilizador Estudar antes a “realidade” da organização (perspectiva física) para ficar menos dependente de subjectividades

15 15 MIEIC, ARMD, Gabriel David Características das dimensões n Melhor dimensão a associar a um conjunto de medidas: a de granularidade menos fina que ainda tem um só valor Se os factos forem diários, escolher como dimensão o dia e não o ano, que poderia ter muitos valores n Dimensões multi-valor Possíveis, mas atrapalham as perguntas e os relatórios Forçam a definição de uma forma de as tornar aditivas, dando pesos a cada hipótese (ex. vários diagnósticos possíveis para um único tratamento) n Nova dimensão só acrescenta chave na tabela de factos, mantém aplicações Exemplo: acrescentar uma dimensão de estado meteorológico

16 16 MIEIC, ARMD, Gabriel David Granularidade das dimensões n Granularidade das dimensões não pode ser mais fina que a dos factos Se os factos são mensais, a dimensão tempo não pode ser diária Pode ser menos fina, sem contradição Ex. usar a ‘marca’ para a dimensão produto, em vez da referência concreta -perda de informação mas sem incoerência lógica

17 17 MIEIC, ARMD, Gabriel David 4. Os factos n Os factos devem ser específicos da granularidade escolhida, que determina o seu âmbito n Tabelas de transacções individuais Um facto (uma coluna, para além das chaves), o montante n Tabelas de instantâneos (snapshots) Vários factos, várias medidas, extensível a novos sumários n Tabelas de itens Vários factos (ex. quantidades, montantes bruto e líquido) n Não misturar factos agregados ou de outras granularidades As agregações ficam em registos e tabelas próprias Evitar que as ferramentas de análise sejam enganadas


Carregar ppt "1 MIEIC, ARMD, Gabriel David Armazéns de Dados Modelo dimensional 1 Gabriel David"

Apresentações semelhantes


Anúncios Google