Data Warehouse Professor Edson Emílio Scalabrin telefone: 0xx41-330-1786 e-mail: scalabrin@ppgia.pucpr.br download: http://www.ppgia.pucpr.br/~scalabrin.

Slides:



Advertisements
Apresentações semelhantes
IFTO ESTRUTURA DE DADOS AULA 05 Prof. Manoel Campos da Silva Filho
Advertisements

UNICAMP Universidade Estadual de Campinas Centro Superior de Educação Tecnológica Divisão de Telecomunicações Propagação de Ondas e Antenas Prof.Dr. Leonardo.
INFORMAÇÕES COMPLEMENTARES
O Modelo de Jesus para Crescimento e Serviço
Vamos contar D U De 10 até 69 Professor Vaz Nunes 1999 (Ovar-Portugal). Nenhuns direitos reservados, excepto para fins comerciais. Por favor, não coloque.
Operadores e Funções do LINGO
Informação e Decisão SDMS 2004 Camilo Mussi
Introdução a Banco de Dados
Introdução a Banco de Dados Prof.: Bruno Rafael de Oliveira Rodrigues.
SISTEMAS DE INFORMAÇÃO
João Carlos Porto Orientadora: Prof.ª Dr.ª Junia Coutinho Anacleto 26/03/2010 Projeto de interceo.
Prof. Dra. Maria Virginia Llatas
1 Data Warehouse Professor Professor Edson Emílio Scalabrin telefone: 0xx download:
Por que Construir um Data Warehouse ?
Modelo Dimensional Professor Edson Emílio Scalabrin telefone: 0xx download:
Modelo de Dados Professores Edson E. Scalabrin Marcos A. H. Shmeil telefone: 0xx {scalabrin, download:
Sistema de Informação Professores Edson E. Scalabrin Marcos A. H. Shmeil telefone: 0xx {scalabrin, download:
Apresentação SOE Assunto DATA WAREHOUSE Professor TANAKA
Árvores.
PERSPECTIVA CONCEITUAL
Arquivos Seqüenciais Inhaúma Neves Ferraz
EXPRESSÕES ARITMÉTICAS
EXPRESSÕES ARITMÉTICAS
Estudo de Caso 1: UNIX e LINUX
FUNÇÃO MODULAR.
Data Warehouse Um Data Warehouse é um armazém de dados, contendo dados extraídos do ambiente de produção da empresa. De acordo com INMON (1997), um.
O que é 5(S)? ? 5(S) É a prática de hábitos que permitem mudanças nas relações... É a base de qualquer programa de qualidade. 1.
Registro Eletrônico para Acompanhamento Médico de Pacientes em uma UTI Rafael Charnovscki (1), Jacques R. Nascimento Filho (2,3) Giancarlo Bianchin.
Mecânica dos Sólidos não Linear
Gerenciamento do Escopo
Provas de Concursos Anteriores
Administração de Sistemas de Informação Banco de Dados
Timken Store Brasil Denis Guimarães.
Módulo Financeiro Centro de Custo.
Educação Profissional Técnica de Nível Médio em Informática
José Roberto Blaschek Gerência do Escopo José Roberto Blaschek.
Datawarehouse Um Ambiente Estruturado Por Michel Andrade de Souza
MECÂNICA - ESTÁTICA Vetores Forças Cap. 2.
Desenvolvimento de Sistemas OLAP
Coordenação Geral de Ensino da Faculdade
Metolodogia de Desenvolvimento de Data Warehouse
Plataforma Brasil – Submissão de pesquisa
Gerenciamento de Dados
Prof. Kelly E. Medeiros Bacharel em Sistemas de Informação
Tecnologia da Informação
Business Intelligence:
Tecnologia da informação
Módulo: Gerenciamento de Incidentes e
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
IF696 - Integração de Dados e DW
 - PSF Grupo: abc, agsj, fcac.
Projeto de Banco de Dados
Banco de Dados Parte 04 Ceça. Ceça Moraes 2 Conteúdo  Os três níveis da arquitetura  Mapeamentos  Arquitetura cliente-servidor.
J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades.
Máquina de Turing Universal
EBSCOhost Pesquisa avançada.
1 Segunda fase do projeto: Desenvolvimento do “Catálogo Virtual” Foco em Sistemas de Informação Desenvolvimento baseado no diagnóstico e na interação com.
Módulo Compras Relatórios e Relações 1. Objetivo 2 Conhecer os relatórios e as relações do sistema disponibilizadas no módulo Compras.
Banco de Dados Aplicado ao Desenvolvimento de Software
Compras – Planejamento de Estoque
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
Uma proposta para OLAP ontológica Adriana Ribeiro.
Unidade IV Data Warehouse
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Janeiro/2013 Ceça Moraes Data Warehouse Janeiro/2013 Ceça Moraes
Banco de Dados Distribuídos Sílvia Cristina de Matos Soares
Copyright © 2011 Ramez Elmasri and Shamkant Navathe slide 1 Tópicos  Introdução  Um exemplo  Características da abordagem de banco de dados  Vantagens.
INTELIGÊNCIA EMPRESARIAL Aula 9 - Modelagem de Data Warehouse.
INTELIGÊNCIA EMPRESARIAL Aula 8 - Metadados e Operações OLAP.
INTELIGÊNCIA EMPRESARIAL Aula 7 - Data Warehouse.
Transcrição da apresentação:

Data Warehouse Professor Edson Emílio Scalabrin telefone: 0xx41-330-1786 e-mail: scalabrin@ppgia.pucpr.br download: http://www.ppgia.pucpr.br/~scalabrin

Objetivo Apresentar: conceitos as características de um Data Warehouse algumas arquiteturas Modelos de dados Desenvolvimento do Data Warehouse Povoamento do Data Warehouse Extração de informações do Data Warehouse Análise do uso da tecnologia Data Warehouse

Plano CONCEITOS As Características de um Data Warehouse Algumas arquiteturas Modelos de dados Desenvolvimento do Data Warehouse Povoamento do Data Warehouse Extração de informações do Data Warehouse Análise do uso da tecnologia Data Warehouse

Definição I: Data Warehouse “ É uma coleção de dados orientados por assuntos, integrados, variáveis no tempo e não voláteis, para dar suporte ao processo gerencial de tomada de decisão ” [ Inmon ]

Definição II: Data Warehouse “ É um processo em andamento que aglutina dados de fontes heterogêneas, incluindo dados históricos e dados externos para atender às necessidades de consultas estruturadas e ad-hoc, relatórios analíticos e de suporte a decisão ” [Harjinder ]

Definição III: Data Warehouse “ É uma coleção de técnicas e tecnologias que juntas disponibilizam um enfoque pragmático e sistemático para tratar com o problema do usuário final de acessar informações que estão distribuídas em vários sistemas da organização ” [ Barquini ]

Dados operacionais vs. Data Warehouse

Dados operacionais vs. Data Warehouse

Componente de um Data Warehouse Data Warehouse não é o fim, ele é um meio que as empresas dispõem para analisar informações podendo utilizá-las para a melhoria dos processos atuais e futuros Dados Operacionais Dados Externos Qualquer fonte Data Warehouse Qualquer Dado Qualquer acesso Ferramentas de OLAP Aplicativos Ferramentas de consultas (relatórios)

Plano Conceitos AS CARACTERÍSTICAS DE UM DATA WAREHOUSE Algumas arquiteturas Modelos de dados Desenvolvimento do Data Warehouse Povoamento do Data Warehouse Extração de informações do Data Warehouse Análise do uso da tecnologia Data Warehouse

Data Warehouse Características Orientação por assunto Integração Variação no tempo Não volatilidade Localização Credibilidade dos dados Granularidade Metadados

Data Warehouse Características Orientação por assunto Um DW sempre armazena dados importantes sobre temas específicos da empresa e conforme o interesse das pessoas que irão utilizá-lo. Exemplo: Uma empresa pode trabalhar com vendas de produtos alimentícios no varejo e o seu maior interesse ser o perfil de seus compradores, então o DW será voltado para as pessoas que compram seus produtos e não para os produtos que ela vende.

Data Warehouse Características Integração (b) (a) Aplicação A Aplicação B Aplicação B Aplicação C Aplicação A Aplicação C Valor atual, 2 anos Valor atual, 3 meses Valor atual, 1 ano Incompatibilidade: mesmo elemento, nomes diferentes Incoerência: diferentes elementos, mesmo nome Valor atual, 6 meses

Data Warehouse Características Integração de dados OPERACIONAL DATA WAREHOUSE Aplicação A: m,f Aplicação B: 1,0 Aplicação C: masculino, feminino sexo: m, f Aplicação A: caminho - centímetros Aplicação B: caminho - pés Aplicação C: caminho - jardas caminho: centímetros Aplicação A: descrição Aplicação B: descrição Aplicação C: descrição ? descrição Aplicação A: chave char(10) Aplicação B: chave dec fixed(9,2) Aplicação C: chave char(12) Chave char(12)

Data Warehouse Características Integração de dados OPERACIONAL DATA WAREHOUSE Plano de Saúde - Maria Silva - Feminino - 01/12/68 - Maria Silva - Feminino - Nascida em 01/12/68 - Duas internações em 2000 - Equipe médica - Duração média das internações - Exames requeridos - Resultados dos exames - Casada - 2 filhos Clinica - Maria Silva - Duas internações em 2000 - Equipe médica - Duração média das internações Laboratório de Exames - Maria Silva - Exames requeridos - Resultados

Data Warehouse Características Variação no tempo Operacional Atômico Departamental Individual Maria Silva Rua XV, 02 Medicação: X, Y Entrada: 05/11/00 Alta: 10/11/00 Maria Silva Rua 24 horas, 12 Medicação: X, Z Entrada: 01/03/98 Alta: 10/03/98 Janeiro 4101 Fevereiro 4209 Março 4175 Abril 4215 .... .... .... Pacientes desde 1980 tomando o medicamento X e com período de internação superior à 5 dias Quais são medicamentos ministrados à Maria Silva neste momento? Maria Silva Rua XV, 02 Medicação: X, Y Entrada: 10/11/00 Alta: 10/11/00 Quais são os riscos (tendências) em relação aos pacientes que foram vitimas de infeção hospitalar? Estamos atendendo mais ou menos pacientes ao longo do tempo? Quais foram os medicamentos ministrados à Maria Silva nos últimos 5 anos?

Data Warehouse Características Não volatilidade OPERACIONAL DATA WAREHOUSE alterar incluir acessar excluir carregar acessar

Data Warehouse Características Localização Formas de armazenamento: único local (centralizado) por área de interesse (distribuído) por nível de detalhes Dados altamente resumidos Dados levemente resumidos Dados detalhados atuais Dados detalhados antigos

Data Warehouse Características Credibilidade dos dados É o mais importante para o sucesso de qualquer projeto Discrepâncias simples de todo tipo podem causar sérios problemas quando se quer extrair dados para suportar decisões estratégicas para o negócio das empresas; Dados não dignos de confiança podem resultar em relatórios inúteis, que não tem importância alguma por exemplo, uma lista de pacientes do sexo masculino e grávidos;

Data Warehouse Características Granularidade Baixa é possível responder a praticamente qualquer consulta porém, grande quantidade de recursos computacionais é necessária para responder perguntas específicas Alta ocorre uma significativa redução da possibilidade de utilização dos dados para atender consultas detalhadas porém, reduz-se muito o espaço em disco e o número de índices necessários

Data Warehouse Características Exemplo de níveis de granularidade Baixa Alta Prod. Data Qtda. Valor A1 13/9/00 10 100,00 B1 14/9/00 15 150,00 A1 16/9/00 20 200,00 A1 16/9/00 90 890,00 mês/ano Prod. Qtda. Valor 09/00 A1 120 1190,00 09/00 B1 15 150,00

Data Warehouse Características Metadados Três diferentes camadas: operacionais, centrais do Data Warehouse, nível do usuário Três diferentes componentes: Mapeamento: descrevem como os dados de sistemas operacionais são transformados antes de entrarem no DW Histórico: descrevem as regras corretas a serem aplicadas nos dados corretos quando as regras de negócio mudam Algoritmos de sumarização: mostram a relação entre os diferentes níveis de detalhes dos dados, indicando inclusive que nível de sumarização é mais adequado para um dado objetivo.

Data Warehouse Características Fontes de metadados Repositórios de ferramentas CASE Documentação do desenvolvimento dos sistemas operacionais Código fonte dos sistemas operacionais Entrevistas O próprio ambiente do Data Warehouse informações tais como freqüência da acesso, em que nível de agregação, tempo de resposta de cada consulta, etc..

Plano Conceitos As características de um Data Warehouse ALGUMAS ARQUITETURAS Modelos de dados Desenvolvimento do Data Warehouse Povoamento do Data Warehouse Extração de informações do Data Warehouse Análise do uso da tecnologia Data Warehouse

Arquitetura Genérica de um D/W Camadas de bancos de dados operacionais e fontes externas: É composto pelos dados dos sistemas operacionais das empresas e informações provenientes de fontes externas que serão integradas para compor o DW. Camada de acesso a informação: Envolve o hardware e o software utilizado para obtenção de relatórios, planilhas, gráficos e consultas. É nesta camada que os usuários finais interagem com o DW, utilizando ferramentas de manipulação, análise e apresentação dos dados, incluindo-se as ferramentas de data-mining e visualização. Camada de acesso aos dados: Esta camada faz a ligação entre as ferramentas de acesso à informação e os bancos de dados operacionais. Esta camada se comunica com diferentes sistemas de bancos de dados, sistemas de arquivos e fontes sob diferentes protocolos de comunicação, o que se chama acesso universal de dados.

Arquitetura Genérica de um D/W Camada de metadados (Dicionário de dados): Metadados são as informações que descrevem os dados utilizados pela empresa descrições de registros, comandos de criação de tabelas, diagramas Entidade/Relacionamentos (E-R), dados de um dicionário de dados, etc. Camada de gerenciamento de processos: É a camada responsável pelo gerenciamento dos processos que contribuem para manter o DW atualizado e consistente. Camada de transporte: Esta camada gerencia o transporte de informações pelo ambiente de rede. Inclui a coleta de mensagens e transações e se encarrega de entregá-las em locais e tempos determinados. Camada do Data Warehouse: Corresponde aos dados utilizados para obter informações.

Arquitetura Genérica de um D/W

Arquitetura 2o. Chaudhuri Um componente back end: conjunto de aplicações responsáveis por extrair, filtrar, transformar, integrar e carregar os dados de diferentes origens no DW; Um componente front end: conjunto de aplicações responsáveis por disponibilizar aos usuários finais acesso ao DW;   Um repositório para armazenar e gerenciar os metadados do sistema. Data Warehouse (SGBD) Componente back-end Componente front-end Repositório de metadados Fontes internas Fontes externas

Arquitetura: 2o. Chaudhuri O fluxo de dados Outflow Componente front-end Upflow Metaflow Data Warehouse Inflow Repositório de metadados Componente back-end Downflow Dados antigos Fontes internas Fontes externas

Arquitetura: 2o. Valente Consultas Data warehouse Integrador Extrator Extrator Extrator Base de dados Base de dados Base de dados

Plano Conceitos As características de um Data Warehouse Algumas Arquiteturas MODELO DE DADOS Desenvolvimento do Data Warehouse Povoamento do Data Warehouse Extração de informações do Data Warehouse Análise do uso da tecnologia Data Warehouse

Modelo de dados ideal

Arquitetura de dados Forma de armazenamento: único local (centralizado) Servidor central Dados altamente resumidos Dados levemente resumidos Dados detalhados atuais Dados detalhados antigos

Arquitetura de dados Forma de armazenamento: por área de interesse (distribuído) Servidor Área Financeira Servidor Área Marketing Dados altamente resumidos Dados levemente resumidos Dados detalhados atuais Dados detalhados antigos

Arquitetura de dados Forma de armazenamento: por nível de detalhes Servidor S2 Dados altamente resumidos Dados levemente resumidos Servidor S1 Dados detalhados atuais Servidor DW Dados detalhados antigos

Metadados Definição: (a) metadados são normalmente definidos como dados sobre os dados. (b) metadado é uma abstração dos dados, ou ainda, dados de mais alto nível que descrevem dados de um nível inferior. Deve-se destacar que sem metadados, os dados não têm significado. Exemplo as descrições de registros em um programa de aplicação ou o esquema de um banco de dados descrito em seu catálogo ou ainda as informações contidas em um dicionário de dados.

Metadados Camadas de metadados em um data warehouse: metadados operacionais: definem a estrutura dos dados mantidos pelos bancos operacionais, usados pelas aplicações de produção da empresa; metadados centrais do data warehouse: distinguem-se por serem orientados por assunto. Incluem definições de agregados e campos calculados, assim como visões sobre cruzamentos de assuntos. metadados do nível do usuário: mapeam os metadados do data warehouse para conceitos que sejam familiares e adequados aos usuários finais.

Metadados Classificação de metadados: mapeamento: histórico: descrevem como os dados de bancos operacionais são transformados para chegarem ao data warehouse. Incluem identificação de campos fontes, mapeamentos entre atributos, conversões, codificações, "defaults", etc.; histórico: mantém o histórico de mudanças das regras do negócio, pois as regras certas devem ser aplicadas aos dados certos, quando se consideram evoluções ao longo do tempo; miscelânea: informação de status sobre estágios de desenvolvimento de partes do data warehouse, informações sobre volume dos dados (para estimativas de tempo e recursos), etc.;

Metadados Classificação de metadados: algoritmos de sumarização: mostram a relação entre os diferentes níveis de detalhe dos dados, indicando inclusive que nível de sumarização é mais adequado para um dado objetivo; padrões de acesso: mantém informações sobre freqüência e tipo de acesso aos dados.

Plano Conceitos As características de um Data Warehouse Algumas Arquiteturas Modelo de dados Esquema: Estrela ou Foco de Neve Povoamento do Data Warehouse Extração de informações do Data Warehouse Análise do uso da tecnologia Data Warehouse

Dimensões e bancos de dados relacionais Esquema Estrela

Dimensões e bancos de dados relacionais Esquema Foco de Neve

Multi-dimensional Banco de dados relacional Matriz bidimensional MODELO Van COR Azul VENDAS 6 Vermelho 5 Preta 4 Coupe 3 Sedan 2 Banco de dados relacional Azul 6 Vermelho 5 Preta 4 3 2 MODELO Van Coupe Sedan Matriz bidimensional Azul 6 Vermelho 5 Preta 4 3 2 MODELO Van Coupe Sedan Totais consolidados em uma Representação multi-dimensional Total 15 13 09 11 37

Níveis das dimensões

OLAP - On-Line Analytic Processing Tipo de processo 1: Slide and dice Corresponde à técnica de mudar a ordem das dimensões; a mudança de orientação permite ao usuário investigar diferentes inter-relacionamentos entre eles: Qual é o item mais vendido em cada loja? Qual loja vende mais do item 3?

OLAP - On-Line Analytic Processing Tipo de processo 2: Drill down O "drill-down" consiste em permitir ao usuário "descer" pelas hierarquias das dimensões: é comum o usuário iniciar pelo nível resumido (tal como vendas nacionais, por marca) e então seletivamente obter níveis de detalhe adicionais para seguir e explicar uma observação feita no nível resumido. Exemplo Supondo que o produto da marca M tem o pior retorno de vendas em termos nacionais, o analista pode resolver examinar a venda da marca M regionalmente para ver se o problema está relacionado com a distribuição ou algum outro problema regional. OBS: são comuns processos de "drill-down" segundo múltiplas hierarquias sobrepostas.

Plano Conceitos As características de um Data Warehouse Algumas Arquiteturas Modelo de dados Esquema: Estrela ou Foco de Neve Abordagens para o desenvolvimento de um data warehouse Extração de informações do Data Warehouse Análise do uso da tecnologia Data Warehouse

Abordagens para o desenvolvimento de um data warehouse Estratégia evolucionária Aspectos de Modelagem Etapas do desenvolvimento de um data warehouse Relacional vs. multi-dimensional Um ou mais bancos de dados Granularidade Extração, Limpeza, Transformação e Migração Extração, Transformação e Filtros, Incorporando Modificações, Derivação e Sumarização

Abordagens para o desenvolvimento de um data warehouse Estratégia evolucionária por assunto: muitas empresas iniciam o processo a partir de uma área específica da empresa, que normalmente é uma área carente de informação e cujo trabalho seja relevante para os negócios da empresa, criando os chamados data marts (um data warehouse departamental), para depois ir crescendo aos poucos, seguindo uma estratégia assunto por assunto. por experimentação: outra alternativa é selecionar um grupo de usuários, prover ferramentas adequadas, construir um protótipo do data warehouse, deixando que os usuários experimentem com pequenas amostras de dados. Somente após a concordância do grupo quanto aos requisitos e funcionamento, é que o data warehouse será de fato carregado com dados dos sistemas operacionais da empresa e dados externos.

Abordagens para o desenvolvimento de um data warehouse Aspectos de Modelagem Os requisitos para um data warehouse não podem ser conhecidos até que ele esteja parcialmente carregado e já em uso. Modelagem relacional (normalizada) não é apropriada. A alta fragmentação traz uma considerável complexidade à formulação de uma consulta por um usuário final

Abordagens para o desenvolvimento de um data warehouse Etapas do desenvolvimento de um data warehouse a identidade das tabelas de fatos: a granularidade de cada tabela de fatos; as dimensões de cada tabela de fatos; os fatos pré-calculados; os atributos das dimensões; a acompanhamento das mudanças graduais em dimensões; as agregações, dimensões heterogêneas, mini-dimensões e outras decisões de projeto físico; duração histórica do banco de dados; a urgência com que se dá a extração e carga para o data warehouse.

A tabela de fatos e suas dimensões Exemplo

Abordagens para o desenvolvimento de um data warehouse Relacional vs. multi-dimensional Quando utilizar um ou outro Um ou mais bancos de dados Granularidade Qual a implicação de uma granularidade alta? Qual a implicação de uma granularidade fina? Extração, Limpeza, Transformação e Migração Extração, Transformação e Filtros, Incorporando Modificações, Derivação e Sumarização

Exercício Tabela tempo: ano, semestre, quadrimestre, trimestre, bimestre, mês, primeira semana, segunda semana, terceira semana, quarta semana, quinta semana, dia do mês, dia da semana, feriado, distância de um feriado.