A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

1 MEI, ARMD 2003, Gabriel David Armazéns de Dados Modelo dimensional 2 Gabriel David

Apresentações semelhantes


Apresentação em tema: "1 MEI, ARMD 2003, Gabriel David Armazéns de Dados Modelo dimensional 2 Gabriel David"— Transcrição da apresentação:

1 1 MEI, ARMD 2003, Gabriel David Armazéns de Dados Modelo dimensional 2 Gabriel David gtd@fe.up.pt

2 2 MEI, ARMD 2003, Gabriel David Famílias de tabelas de factos n Método dos quatro passos refere-se a uma estrela Tabela de factos + dimensões n Data mart: conjunto de estrelas coordenadas Dimensões conformes, comuns a várias estrelas, com o mesmo significado através do AD n Quatro razões para constituir famílias de tabelas de factos num data mart A - Cadeias e círculos B - Esquemas de produtos heterogéneos C - Esquemas de transacções e instantâneos D - Agregados

3 3 MEI, ARMD 2003, Gabriel David Cadeia de procura Inventário de produtos acabados Envios de produção Inventário de distribuidores Envios para os distribuidores Inventário de retalho Vendas a retalho A - Cadeias de tabelas de factos n Fluxo de um processo numa organização Muitas vezes tem um início, vários passos e um fim Capturam-se transacções ou instantâneos para cada passo, eventualmente em vários sistemas legados Um passo pode corresponder a uma tabela de factos Exemplo: cadeias de fornecimento e de procura Cadeia de fornecimento Produção de matérias primas (minas, agricultura) Aquisição de ingredientes Despacho de ingredientes Inventário de ingredientes Lista de composição dos produtos Controlo do processo de fabrico Custos de produção Embalagem Transporte para o armazém Inventário de produtos acabados

4 4 MEI, ARMD 2003, Gabriel David Método n Definir uma tabela de factos e um conjunto de dimensões associadas para cada passo n Criar as dimensões conformes Barramento do AD Permite construir cada estrela separadamente Nem todos os passos são necessariamente implementados No fim, suporta-se toda a cadeia de valor

5 5 MEI, ARMD 2003, Gabriel David Círculos de tabelas de factos n Negócios organizados em círculo de valor Todas as entidades executam ou medem o mesmo tipo de transacção Exemplo do sistema nacional de saúde -Todos geram ou medem tratamentos de doentes Partilha de dados requer conformação das dimensões das várias fontes -Tempo (calendário) -Doente -Fornecedor (médico) -Local -Tratamento -Diagnóstico -Empregador -Pagador Círculo de valor Hospitais Clínicas Instalações de cuidados continuados Consultórios médicos Farmácias Empresas farmacêuticas Laboratórios Empregadores Companhias de seguros Subsistema de saúde

6 6 MEI, ARMD 2003, Gabriel David B-Esquemas de produtos heterogéneos n Situação: banco de retalho com muitos produtos n Duas perspectivas sobre a actividade das contas Vista global de todas as contas de todos os tipos -Venda cruzada, análise global -25 produtos  interrogar 25 tabelas de factos?! -1 tabela de factos nuclear com todas as contas, só factos comuns Conta (dimensão nuclear) Tempo Agência Família Tabela de factos nuclear tempo_id conta_id agência_id família_id balanço taxas_pagas taxas_ganhas num_transacções Exemplos de produtos Contas à ordem Contas de poupança Empréstimos Cartões de crédito Contas de poupança reforma Cofres de depósito

7 7 MEI, ARMD 2003, Gabriel David Segunda perspectiva n Vista específica sobre cada uma das linhas do negócio Vários factos específicos Juntar tudo na tabela de factos nuclear  200 factos e muitos nulos?! Criar uma extensão às tabelas de factos e da dimensão Conta para cada linha de negócio Conta (dimensão nuclear) + chave dimensão específica Tempo Agência Família Tabela de factos nuclear tempo_id conta_id agência_id família_id balanço taxas_pagas taxas_ganhas num_transacções chave factos específicos Tabela de factos específicos contas à ordem chave factos específicos num_descobertos num_usos_ATM num_não_ATM num_depósitos total_depósitos chave de dimensão específica + atributos específicos contas à ordem (restrita às contas à ordem)

8 8 MEI, ARMD 2003, Gabriel David Alternativas de implementação n As linhas de negócio específicas produzem uma partição na tabela de factos nuclear Contas disjuntas n Caso data marts fisicamente separados por linha de negócio Tabelas nucleares (factos e dimensões) em máquina separada das máquinas das tabelas específicas, com cópia nestas Cada linha é copiada só uma vez n Caso de partilha da mesma BD Evita-se a cópia das tabelas nucleares Adiciona-se a cada registo nuclear uma chave de junção que as ferramentas de interrogação e aplicações sabem usar Uma interrogação SQL só usa uma extensão

9 9 MEI, ARMD 2003, Gabriel David C - Transacções e instantâneos n Situação típica, num sistema operacional Transacções individuais -Levantamento de uma conta -Chamada telefónica -Compra de um produto Instantâneos ao fim de um período de sumariação -Resumo diário -Balanço mensal n Ambos podem ser interessantes num AD Transacções – comportamentos detalhados Instantâneos – verificação do estado da actividade

10 10 MEI, ARMD 2003, Gabriel David Esquema de transacções n Esquema de transacções no AD é habitualmente directo a partir do sistema operacional Extracção, conversão de chaves Se a fonte operacional de transacções não existir, pode-se reconstruir transacções artificiais a partir das diferenças de instantâneos sucessivos Local Tempo Transacção Conta Tabela de factos Transacção ATM tempo_id conta_id transacção_id local_id auditoria_id num_conta ref_transacção montante Auditoria

11 11 MEI, ARMD 2003, Gabriel David Comentários à tabela de factos n Chaves externas óbvias Tempo, Local, Conta, tipo de Transacção n Outros atributos com chaves do sistema operacional número da conta, referência da transacção Para referência directa e para regresso ao sistema operacional n Dimensão de auditoria (especial, nova chave) Criada pelo próprio processo de extracção para guardar o historial dos registos -Instante da extracção, tabela fonte, versão do software de extracção

12 12 MEI, ARMD 2003, Gabriel David Mais comentários n Tipicamente, um só facto Montante – nome genérico para qualquer tipo de transacção Não se costuma adicionar mais factos Mais vulgar adicionar mais tipos de transacções -Só dados, não altera o esquema n Possível o estudo de comportamentos detalhados Número de transacções de amortização de empréstimos longe de casa n Análises temporais Número de transacções à hora de almoço Análise de filas de espera

13 13 MEI, ARMD 2003, Gabriel David Ainda mais n Cálculo do intervalo de resposta Eficiência das organizações n Comportamento sequencial Análise de fraude (seguros, cartão de crédito) Alarme de cancelamento de conta n Análise de cesto de compras Quem compra cerveja, compra mais o quê -Pode servir para colocar esses produtos junto da cerveja -Ou no outro extremo da loja, para obrigar a atravessá-la Data mining potente exige granularidade fina (transacções)

14 14 MEI, ARMD 2003, Gabriel David Necessidade de instantâneos n Como responder a perguntas sobre estado corrente? n Obter a receita total actual Transacções que são receitas elementares -Basta adicionar as parcelas Transacções que são depósitos e levantamentos -Já é preciso atender às diferenças Pagamentos em prestações e prémios de seguros -Mais confuso, com efeito a espalhar-se por vários períodos de sumarização É necessário lógica apropriada para transformar transacções em sumários, o que justifica a existência de instantâneos periódicos com esses sumários

15 15 MEI, ARMD 2003, Gabriel David Informação de instantâneos n É necessária uma segunda tabela de factos com os instantâneos, para além das transacções (tabelas parceiras) Com sorte, os instantâneos já existem no sistema operacional Senão é necessário algoritmo na extracção para tratar do seu cálculo, no fim de cada período de reporte (só uma vez) Pode ser interessante fazer a criação incremental do instantâneo de um período, mantendo actualizado um instantâneo corrente, que fecha no fim do período, abrindo- se um novo

16 16 MEI, ARMD 2003, Gabriel David Esquema de Instantâneos n Muito relacionado com o esquema de transacções correspondente Perde algumas das dimensões (Transacção, Local, …) Mantém outras (Conta, Tempo, …) -Auditoria guarda informação relativa a todo o período Nova dimensão Estado para informação sobre o período Tempo Estado Conta Tabela de factos Instantâneo ATM tempo_id conta_id estado_id auditoria_id receita conta_transacções balanço_final balanço_médio_diário + outros sumários Auditoria

17 17 MEI, ARMD 2003, Gabriel David Características dos factos n Estrutura de factos mais rica e aberta Muitos sumários imagináveis para um certo período Manter a granularidade n Alguns dos factos são aditivos, em todas as dimensões receita, conta_transacções n Outros semiaditivos (em todas as dimensões, excepto tempo) balanço_final, balanço_médio_diário Na dimensão tempo pode usar-se a média temporal

18 18 MEI, ARMD 2003, Gabriel David Instantâneos intermédios n É vulgar acrescentar mais factos ao longo do desenvolvimento do AD e até ao longo da sua vida Evitar incluir factos de significado obscuro ou uso raro n Instantâneos a meio de um período de reporte Factos incluídos no instantâneo: pegar no período imediatamente anterior e adicionar as transacções incrementais desde essa data até à data pretendida Factos não incluídos: processar os factos transaccionais desde o início do tempo até à data pretendida n Transacções e instantâneos em conjunto permitem uma vista completa da organização

19 19 MEI, ARMD 2003, Gabriel David D - Agregados n Agregados são sumários armazenados Normalmente por razões de desempenho Aspectos relevantes são de implementação n Armazenamento em tabelas separadas n Agregação segundo uma ou mais dimensões Essas dimensões encolhem, as outras permanecem n Dados de granularidade diferente Os de granularidade menos fina registam-se directamente no que poderia ser uma tabela de agregação (eventualmente com registos genuinamente agregados se tiverem a mesma granularidade) Ex: registos de custo global de transporte de uma remessa, a par de registos do custo de cada item de uma linha da guia de remessa

20 20 MEI, ARMD 2003, Gabriel David Tabelas de factos sem factos n Situações em que se segue o processo de projecto de uma estrela mas no fim a tabela de factos não tem factos n Registos de eventos Ex: Presenças nas aulas Dimensões: Data, Aluno, Disciplina, Professor, Sala Factos: só ficam as 5 chaves externas, não há facto; uma linha para cada entrada numa aula Mesmo assim é útil: disciplinas com mais assistência?, etc. Para uniformizar: colocar um facto Presença com valor sempre 1, que se revela útil nas agregações

21 21 MEI, ARMD 2003, Gabriel David Presenças nas aulas Tempo tempo_id data_SQL dia_da_semana semana mês Professor professor_id número nome morada departamento título grau Disciplina disciplina_id nome departamento nível código laboratório? Presença tempo_id aluno_id disciplina_id professor_id sala_id presença = 1 Aluno aluno_id ID nome morada major minor primeira_inscrição classe_de_graduação Sala sala_id tipo local departamento lugares

22 22 MEI, ARMD 2003, Gabriel David Mais tabelas sem factos n Tabelas de cobertura Necessária quando a tabela de factos primária de um AD é esparsa Ex: registo de uma promoção numa cadeia de retalho; indica quais os produtos, em que dias, em que lojas -A tabela de vendas tem os produtos todos Dimensões: Tempo, Produto, Loja, Promoção Para saber quais os produtos que estavam em promoção e não foram vendidos não se pode recorrer à tabela de factos de venda normal -Só regista as vendas; não regista as não vendas -Preencher a tabela de vendas com registos a zero tem a desvantagem de aumentar muito esta tabela e de registar a informação das promoções só indirectamente

23 23 MEI, ARMD 2003, Gabriel David Tabela de cobertura Tempo tempo_id data_SQL dia_da_semana semana mês Promoção promoção_id nome tipo tipo_de_preço publicidade apresentação coupon Loja loja_id nome ID_loja morada concelho região Cobertura de promoção tempo_id produto_id loja_id promoção_id Produto produto_id SKU descrição marca categoria embalagem tamanho sabor (Tabela sem factos)


Carregar ppt "1 MEI, ARMD 2003, Gabriel David Armazéns de Dados Modelo dimensional 2 Gabriel David"

Apresentações semelhantes


Anúncios Google