Mestrando: Vinicius Prodocimo Professor: Alcides Calsavara DATA WAREHOUSE
Data Warehouse - Agenda Introdução Características Arquitetura Modelos de Dados Desenvolvimento de um Data Warehouse (DW) Extração de Informações de um DW Conclusão
Data Warehouse - Introdução Crescimento de dados relacionados aos negócios mas não relacionados entre si promoveram o surgimento do DW; Características: Utilização de dados estratégicos: apoio à tomada de decisões através de fatos históricos (anteriormente utilizava-se a experiência dos administradores do negócio); Banco de Dado especializado em integração: BD corpora- tivos e fontes externas; Não é um produto pronto; Consultas à sua base não afetam as bases que o alimentam; Fornece recursos e informações suficientes para um Sistema de Apoio à Decisão; Possui novas formas de armazenamento, processamento paralelo e distribuído; Integra dados de diferentes plataformas.
Data Warehouse - Características Dados classificados por assunto Integração de representação para facilitar as consultas Variação no tempo Dados não são modificados Localização Credibilidade dos dados Granularidade temporal das informações
Data Warehouse - Características Orientação por assunto Qual a informação mais importante para a organização? Análise direcionada à necessidade da organização Ex.: Uma empresa que vende produtos alimentícios no varejo tem seu maior interesse no perfil de seus compradores e não em quais produtos vende. Portanto o DW deve ser direciona- do para o perfil dos compradores.
Data Warehouse - Características Integração da representação Característica mais importante do DW Representação única para as informações provindas de diversos sistemas. Ex.: Representação do sexo de uma pessoa: AMBIENTE OPERACIONAL DATA WAREHOUSE Aplicação X - M ou F Aplicação Y - H ou M Aplicação Z - 0 ou 1 M ou F
Data Warehouse - Características Variação no tempo Informações atualizadas em períodos de 24 horas; Pode apresentar-se como: Em um DW os dados podem estar presentes em hori- zontes maiores de 5 anos podendo chegar até o limite de idade dos dados; O metadados também possuem relação temporal; Os dados não são mais atualizados.
Data Warehouse - Características Variação no tempo Os dados em um DW podem ser considerados como: Dados detalhados atuais: Acontecimentos mais recentes; São em grandes volumes; Tem baixo nível de granularidade; São armazenados em meios de rápido acesso. Dados detalhados antigos: Acontecimentos mais antigos; São normalmente armazenados em fitas.
Data Warehouse - Características Não volatilidade Não existem alterações no DW; É feita somente a carga e consultas posteriores.
Data Warehouse - Características Localização Os dados podem estar fisicamente armazenados como: Um único local, centralizando o DW; Distribuído por áreas de interesse (arquitetura federativa); Distribuídos por níveis de detalhe (dados altamente resumidos, dados detalhados, ... ).
DADOS DETALHADOS ATUAIS Data Warehouse - Características Localização E N V L H C I M T O S Í N T E Dados altamente resumidos Dados levemente resumidos DADOS DETALHADOS ATUAIS Dados detalhados antigos
Data Warehouse - Características Credibilidade dos dados Precisão: grau de informações que estão corretas; Abrangência: grau de dados requisitados e atendidos; Consistência: consistência dos dados/liberdade de contradição; Coerência: coerência lógica que permite criar relações; Tempo de resposta: tempo entre o pedido e a resposta; Singularidade: percentual dos dados que têm valores dentro dos domínios de valores permitidos.
Data Warehouse - Características Granularidade Diz respeito ao nível de detalhe dos dados numa unidade; Produto Data Qtd Valor A1 13/09/98 10 100,00 B1 14/09/98 15 150,00 A1 16/09/98 20 200,00 A1 16/09/98 90 890,00 BAIXA ALTA Mês/Ano Produto Qtd Valor 09/98 A1 120 1190,00 09/98 B1 15 150,00
Data Warehouse - Características Metadados São dados sobre os dados; Podem ser apresentados em três camadas: Metadados operacionais; Metadados centrais do DW; Metadados do nível do usuário.
Data Warehouse - Características Metadados Podem ser classificados como: Mapeamento; Histórico; Miscelânea; Algoritmos de sumarização; Padrões de acesso.
Data Warehouse - Características Metadados Mantém informações sobre: A estrutura dos dados segundo a visão do programador; A estrutura dos dados segundo a visão do analista SAD; A fonte de dados que alimenta o DW; A transformação sofrida pelos dados, na migração p/DW; O modelo de dados; O relacionamento entre o modelo de dados e o DW; O histórico das extrações de dados.
Data Warehouse - Arquitetura A arquitetura deve ser constituída de forma à: Coletar dados de forma eficiente e rápida; Manipular dados de forma eficiente e rápida; Representar dados de forma eficiente e rápida.
GERENCIADOR DE PROCESSOS Data Warehouse - Arquitetura Arquitetura genérica segundo Orr: ACESSO À INFORMAÇÃO ACESSO AO DADO ACESSO A DADOS BD OPERAC. EXTERNAS DW TRANSPORTE USUÁRIO DW METADADOS GERENCIADOR DE PROCESSOS META DADOS
Data Warehouse - Arquitetura Arquitetura segundo Chaudhuri (fluxos de dados): Componente front-end Data Warehouse (SGBD) Repositório de metadados Componente back-end Fontes Internas Fontes Externas
Data Warehouse - Arquitetura Arquitetura segundo Valente: Data Warehouse (SGBD) Fontes Externas EXTRATOR Fontes Internas CONSULTAS INTEGRADOR
Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball; Modelo de dados segundo W.H.Inmon;
Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball É dividido em: Modelo empresarial; Modelo dimensional; Modelo físico.
Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball - Empresarial Primeiro passo: análise do modelo de dados para construir um modelo E-R normalizado para as regras do negócio; Não importa como as informações serão recuperadas ou utilizadas; Foco nas estruturas da informação: atributos e relações; Quais são os dados relevantes para o DW;
Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball - Empresarial Segundo passo: normalização do modelo; O modelo empresarial não será implementado; Terceiro passo: desenvolver um modelo E-R normalizado das regras de negócio e a definição das regras de integridade.
Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball - Dimensional Visão dos dados em diferentes perspectivas (dimensões); A forma de como as agregações são armazenadas podem ser vista em termos de dimensões e coordenadas, dando origem ao modelo multidimensional; Armazenamento em estruturas relacionais: Modelo Estrela
Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball - Dimensional MODELO ESTRELA Facilita o entendimento dos termos de negócio para o usuário; Composto: Tabela de fatos ao centro (tabela dominante) Tabelas de dimensão (tabelas conectadas aos fatos) A tabela de fatos contém milhares ou milhões de valores
Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball - Dimensional MODELO ESTRELA chave_produto descrição marca categoria DIMENSÃO PRODUTO chave_loja nome_loja endereço tipo DIMENSÃO LOJA chave_tempo chave_produto chave_loja reais_vendidos unidades_vendidas FATOS VENDAS
Data Warehouse - Modelo de Dados Modelo de dados segundo R.Kimball - Físico Propósito: alcançar os objetivos de desempenho; Depende de: SGBD Configuração de Hardware Utilização de processamento paralelo.
Data Warehouse - Modelo de Dados Modelo de dados segundo W.H.Inmon Dividido em: Modelo de alto nível; Modelo de nível intermediário; Modelo de baixo nível.
Data Warehouse - Modelo de Dados Modelo de dados segundo W.H.Inmon - Alto nível Apresenta-se somente as entidades e seus relacionamentos; Mais alto nível de abstração. CLIENTE PEDIDO ESTOQUE PRODUÇÃO
Data Warehouse - Modelo de Dados Modelo de dados segundo W.H.Inmon - Nível Intermediário Criado à partir de áreas de interesse ou entidades; Para cada área de interesse ou entidade é criado: Agrupamento primário: atributos que aparecem uma vez; Agrupamento secundário: atributos que aparecem mais de uma vez; Conector: representa os relacionamentos; Tipo dos dados.
Data Warehouse - Modelo de Dados Modelo de dados segundo W.H.Inmon - Nível Intermediário chave_produto descrição marca categoria PRODUTO AGRUPAMENTO PRIMÁRIO nr_venda chave_produto PRODUTO_VENDA CONECTOR chave_tempo nr_venda reais_vendidos VENDAS AGRUPAMENTO SECUNDÁRIO
Data Warehouse - Modelo de Dados Modelo de dados segundo W.H.Inmon - Baixo Nível Expande o nível intermediário para que: Apresente chaves; Características físicas; Características de desempenho.
Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Remoção dos dados puramente operacionais: #ID Nota Fiscal Data de Emissão ID Consumidor Mensagem Descrição Termos Status MODELO E-R #ID Nota Fiscal Data de Emissão ID Consumidor MODELO DW DADOS OPERACIONAIS
Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Adição de um elemento de tempo na estrutura da chave: #ID Consumidor Nome Data de Nascimento Estado Civil Limite de Crédito MODELO E-R #ID Consumidor #Data do Snapshot Nome Data de Nascimento Estado Civil Limite de Crédito MODELO DW
Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Introdução de dados derivados: #ID Nota Fiscal # Item Código do Produto Quantidade Preço Unitário MODELO E-R #ID Nota Fiscal # Item Código do Produto Quantidade Preço Unitário Total Comprado Custo do Produto MODELO DW DADOS DERIVADOS
Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Transformação de Relacionamento entre dados em artefatos de dados: PRODUTO # Código do Produto Descrição Unidade de Medida MODELO E-R FORNECEDOR PROD. # Código do Consum. Fornecedor Preferido PRODUTOS #Código do Produto Descrição Unidade de Medida Fornecedor Preferido Cidade do Fornecedor Estado do Fornecedor MODELO DW
Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Acomodação dos diferentes níveis de granularidade: ENTREGAS MENSAIS #Ano/Mês Número de Entregas Valor da Entrega MODELO DW SUMAR.POR PRODUTO # Produto ATIVIDADE DE ENTREGA Data da Entrega Código da Entrega Enviado por Enviado para Quantidade MODELO E-R CÓDIGO DO PEDIDO INVENTÁRIO POR ITEM
Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW União dos dados comuns de diferentes tabelas: Devem ser respeitadas as seguintes condições: As tabelas compartilham uma chave comum(ou parcial) Os dados das diferentes tabelas são usados juntos O Padrão de inserção nas tabelas é o mesmo.
Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Criação de arrays de dados: #COD.Previsão Gasto # Ano Valor em Janeiro Valor em Fevereiro ... Valor em Dezembro MODELO DW #COD.Previsão Gasto Gasto Mensal/Anual Valor do Gasto MODELO E-R
Data Warehouse - Modelo de Dados Estratégia de conversão do modelo E-R para o modelo DW Separação dos atributos de dados de acordo com sua estabilidade: Raramente é Alterada Regularmente é Alterada Freqüentemente é Alterada TABELA DE PREÇOS Código Descrição Principal substituta Quantidade atual Unidade de compra Fornecedor Prazo de entrega Taxa de rejeição Transportadora Local última entrega Manifesto carga
Data Warehouse - Desenvolvimento Funções no desenvolvimento de um DW: Gerente do DW Arquiteto de Dados Administrador de metadados Administrador de BD Usuário de nível gerencial Analista de processos e aplicações Especialista em Aplicações Operacionais Analista e programador de conversões Especialista em suporte técnico Instrutor
Data Warehouse - Desenvolvimento “Muitas empresas iniciam o processo de Data Warehouse a partir de uma área específica que normalmente é uma área carente de informações e cujo trabalho seja relevante para os negócios da empresa, criando Data Marts, para depois ir crescendo aos poucos, seguindo uma estratégia bottom-up ou assunto-por-assunto e assim obtendo um Data Warehouse corporativo” Adriano Dal’Alba - Universidade Federal de Caxias - RS http://www.geocities.com/SiliconValley/Port/5072 Dezembro 1998
Data Warehouse - Desenvolvimento “Empresas que têm exigências mais modestas, como as que necessitam construir DW para departamentos indivi- duais podem escolher em construir pequenos Data Marts que utilizam uma arquitetura baseada em rede” Adriano Dal’Alba - Universidade Federal de Caxias - RS http://www.geocities.com/SiliconValley/Port/5072 Dezembro 1998
Data Warehouse - Desenvolvimento “Pela complexidade de fatores que envolvem um DW corporativo integral, a construção do projeto é lenta e cara. Para equilibrar os gastos e oferecer resultados em prazos mais curtos é possível construir Data Marts que são peque- nos DW departamentais. Entre as principais vantagens da utilização de Data Marts está a redução de tempo de imple- mentação (120 dias) e o fator preço (US$ 50 mil a US$ 1 milhão). Sendo que um DW leva cerca de um ano para ser concluído e gastos iniciais em torno de US$ 2 milhões” Adriano Dal’Alba - Universidade Federal de Caxias - RS http://www.geocities.com/SiliconValley/Port/5072 Dezembro 1998
DATA WAREHOUSE Data Warehouse - Desenvolvimento DATA MART DATA MART Vendas X DATA MART Compras DATA MART Marketing DATA MART Outros Y Z W DATA WAREHOUSE
Data Warehouse - Extração de Informações Formas de extração de dados de um DW: Relatórios Consultas EIS Ferramentas de OLAP Ferramentas de Data Mining Todas estão com tendências de integração com a WEB
Data Warehouse - Extração de Informações Formas de acesso ao DW: Acesso direto Acesso indireto
Data Warehouse - Extração de Informações ACESSO DIRETO: É uma ocorrência rara Sofre uma série de limitações: Uma solicitação pode levar 24 horas para ser atendida A solicitação deve ser referente a qtde mínima de dados Deve existir compatibilidade entre DW e Ambiente Oper. Não deve existir formatação de dados
Data Warehouse - Extração de Informações ACESSO DIRETO: APLICAÇÃO OPERACIONAL DATA WAREHOUSE CONSULTA RESULTADO DA CONSULTA
Data Warehouse - Extração de Informações ACESSO INDIRETO: O que normalmente se utiliza Eficiente Muito rápido
Data Warehouse - Extração de Informações ACESSO INDIRETO: DATA WAREHOUSE APLICAÇÃO OPERACIONAL ARQUIVO DE INFORMAÇÕES PROGRAMA DE ANÁLISE
Data Warehouse - Conclusões Vantagens: Simplicidade Qualidade dos dados Acesso rápido Facilidade de uso Separa as operações de decisão das de produção Vantagem competitiva Custo de operação Administração do fluxo das informações
Data Warehouse - Conclusões Vantagens (continuação): Habilidade de processamento paralelo Infra-estrutura computacional Valores quantitativos Segurança
Data Warehouse - Conclusões Desvantagens: Complexidade de desenvolvimento Tempo de desenvolvimento Alto custo de desenvolvimento e administração Treinamento Dificuldade na coleta de dados Dimensão de discos e CPUs
Data Warehouse - Bibliografia Data Warehouse - Monografia Adriano Dal’Alba - Universidade Federal de Caxias - RS http://www.geocities.com/SiliconValley/Port/5072 Dezembro 1998 Building a Data Warehouse for Decision Support Vidette Poe - Prentice Hall ISBN 0-13-371121-8 The Intranet Data Warehouse Richard Tanler - Wiley ISBN 0-471-18004-1