Armazém de Dados (Data Warehouse)

Slides:



Advertisements
Apresentações semelhantes
Técnicas e Projeto de Sistemas André Mesquita Rincon Processo de Software Técnico Subsequente – Módulo III.
Advertisements

Banco de Dados Aula 01: Conceitos Básicos
Técnicas e Projeto de Sistemas
Introdução à Consulta 24/3/06. Categorias de comandos DDL : estruturação de objetos de BD Ex. create table, drop index, alter table... DML: manipulação.
Custos XP x Custos Tradicionais André Chinvelski.
Críticas sobre Extreme Programming Francisco Hillesheim.
Trac é uma ferramenta open source e de interface web para controle de projetos de desenvolvimento de software. O objetivo do software é ajudar o desenvolvedor.
Prof. Dr. Helder Anibal Hermini
NBR ISO Gestão da Qualidade – Satisfação do Cliente – Diretrizes para o tratamento de reclamações nas organizações.
GESTÃO POR PROCESSOS ESTE MATERIAL FOI PREPARADO ESPECIALMENTE PARA NIVELAR O CONHECIMENTO DOS ALUNOS SOBRE PROCESSOS E É PARTE DO CURSO GESTÃO POR.
COMPRESSÃO DE FILMES GRUPO: Alessandra Antunes Vargas Anderson Konzen
Slide 1 Rede Nacional de Ensino e Pesquisa Treinamento em Gradep - junho 2005 Serviço Collector Treinamento no GRADEp Serviço Collector CollectorDemo e.
Implantação do Sistema MRP II
Snap Together Visualization. Introdução - Exploração Visual de Dados Aplicada em conjuntos de dados abstratos. Facilitar a percepção de padrões, tendências,
Técnicas de Processamento Imagens
Introdução aos Sistemas de Informação Gerencial Profa. Jiani Cardoso Fundamentos de Sistemas de Informação 02/set/2005.
Banco de Dados I Profa. Jiani Cardoso 2/2005
DITEC/CGSOA/COARI/DIRIS
O Fluxo de Testes © Alexandre Vasconcelos
Planejando seu site Objetivos Abordagem Sílvia Dota.
UNIVERSIDADE DE PASSO FUNDO
Curso de Engenharia Industrial Madeireira – UFPR Prof. Umberto Klock
FERRAMENTAS DA QUALIDADE
"Tudo o que acontece, acontece em algum lugar." Gilberto Câmara - INPE Gilberto Câmara - INPE.
"Tudo o que acontece, acontece em algum lugar."
Agregado Homogêneo e Heterogêneo
Arquitetura de Sistemas de Informação
Sistemas de Tutoria Inteligente (STI) Visam proporcionar instrução de forma adaptada a cada aprendiz. STIs adaptam o processo de instrução a determinadas.
CE-262 Ontologia e Web Semântica Prof. José M Parente de Oliveira
Segurança de Dados no MAER.
CES-10 INTRODUÇÃO À COMPUTAÇÃO Capítulo XI Noções de Estruturas de Dados.
Gerenciamento de Dados Instituto Tecnológico da Aeronáutica – ITA CE-245 Tecnologias da Informação Professor Adilson Marques da Cunha Aluna: Michelle.
Organização e Redução de Custos
REALINHAMENTO ESTRATÉGICO E RECOMENDAÇÕES AO ATUAL MODELO DE GESTÃO Conclusão do Projeto Companhia de Desenvolvimento dos Vales do São Francisco e do Parnaíba.
GESTÃO DE CONFLITOS CONFLITOS
III – Uso Infraestrutura – Empresa Digital Escola Politécnica da USP MBA EPUSP em Gestão e Engenharia do Produto EP018 O Produto Internet e suas Aplicações.
III – Uso da Infraestrutura Tecnológica Tecnologias de Informação e Comunicação em Desenvolvimento de Produtos III – Uso da Infraestrutura Tecnológica.
Tema I TEMA DE DISCUSSÃO I Prof. Dr. Marcio Lobo Netto 1 o. Período / 2004 Escola Politécnica da USP MBA EPUSP em Gestão e Engenharia do Produto EP018.
II – Gestão da Infraestrutura Tecnológica Tecnologias de Informação e Comunicação em Desenvolvimento de Produtos II – Gestão da Infraestrutura Tecnológica.
ERU 520: Tecnologia da Informação Prof. José Luís Braga Doutor em Informática - PUC-Rio Pós-Doutorado em Tecnologias da Informação - University of Florida.
Empreendedorismo DRUCKER ROBBINS
5W1H.
Conceitos e características dos Projetos
FUNDAÇÃO CARLOS CHAGAS
Marketing de Relacionamento
Business Process Management e Workflow - jBPM Aluno: Filipe Ferraz Salgado Orientador: Francisco Reverbel Novembro 2006.
Sistemas Lineares Parte 2
Organização de Sistemas de Computadores
Desempenho A rápida taxa de melhoria na tecnologia de computadores veio em decorrência de dois fatores: avanços na tecnologia utilizada na construção.
UERJ - Agosto 2000© Oscar Luiz Monteiro de Farias1 Bancos de Dados Mestrado em Engenharia de Computação área de concentração Geomática.
Estágio Supervisionado Aluno: Felipe Pinto Coelho Palma
VENDAS NO CONTEXTO DE MARKETING
Sistema de Planejamento da Produção
Recursividade Estrutura de Dados.
METODOLOGIA DE PESQUISA EM EDUCAÇÃO INTRODUÇÃO A PESQUISA ACADÊMICA Roberval Francisco de Lima SÃO ROQUE 2006.
Adriano Santiago Wilber Garcia Pereira
Data Warehouse Toolkit
Clique para editar o título mestre 29/11/2009 Orientadora: Profa. Dra. Junia Coutinho Anacleto Gerenciamento de recursos humanos Capitulo 8 – The Data.
Data Warehouse Toolkit: Telecomunicações e Utilitários (Cap. 10)
The Data Warehouse Toolkit
The Data Warehouse Toolkit Cap. 9 – Serviços Financeiros
Inteligência Empresarial (Business Intelligence)
LINGUAGENS DE PROGRAMAÇÃO
Conceitos Básicos de Redes de Computadores e acesso a Internet
Sistemas de Informação Prof. Me. Everton C. Tetila Modelo de dados relacional Banco de Dados I.
Empreendedorismo Prof. Dr. José Dornelas.
Processamento Analítico On-line (OLAP)
Prof. André Laurindo Maitelli DCA-UFRN
Introdução Ciência da Computação estudo de algoritmos –ÊNFASE ao estudo de DADOS armazenamento manipulação refinamento (a partir de dados cru) estrutura.
Sistemas de Apoio à Decisão
Transcrição da apresentação:

Armazém de Dados (Data Warehouse) Sistemas de Informação Prof. Me. Everton C. Tetila

Agenda 1. Introdução ao Data Warehouse 2. Modelagem Multidimensional 3. Tabelas Fato 4. Tabelas Dimensão 5. Slowly Changing Dimension 6. Áreas de Estageamento 7. Etapas do Desenvolvimento de um DW

Introdução ao Data Warehouse Definição: W. H. Inmon caracterizou um data warehouse como: “uma coleção de dados orientada a assunto, integrada, não volátil, variável no tempo para o suporte às decisões da gerência” Data warehouse: É um conjunto de dados baseado em assuntos, integrado, não-volátil, e variável em relação ao tempo, de apoio às decisões gerenciais. Baseado em assuntos: as informações armazenadas em data warehouse são organizadas pelos assuntos importantes para o negócio da empresa, podendo, para o mesmo assunto, existir vários níveis de detalhamento da informação. Por exemplo: vendas, faturamento, produtos, clientes, etc. Integrado: no data warehouse integrado, os dados são consolidados de diversas origens. Para o correto funcionamento e realização das análises, os dados devem ser integrados perfeitamente para um modelo de informação apenas, existindo assim, somente uma codificação para os dados armazenados. Não volátil: um data warehouse não sofre qualquer alteração em seus dados, a não ser a adição de novas informações. É permitida apenas a carga e consulta dos dados armazenados. Existem algumas necessidades específicas que podem exigir a correção ou alteração das informações, porém, neste caso, o recomendável é remover as informações e realizar nova carga corrigida ou alterada. Após serem transformados e carregados, os dados ficam disponíveis para a consulta pelos usuários. Variável no tempo: refere-se a um momento específico da informação. As informações são carregadas como “fotos” da base de dados operacional do momento em que foram extraídas. Os dados não são atualizados, assim podem ser comparados ao longo do tempo, mantendo um histórico da trajetória da informação durante a sua existência.

Introdução ao Data Warehouse Aplicações: Vários tipos de aplicações são aceitos: OLAP (Processamento analítico on-line): é um termo usado para descrever a análise de dados complexos do data warehouse. DSS (sistemas de apoio à decisão), também conhecido como EIS – sistemas de informações executivas, ajudam os principais tomadores de decisões de uma organização com dados de nível mais alto com decisões complexas e importantes. Mineração de dados, é usada para descoberta do conhecimento, o processo de procurar novo conhecimento imprevisto nos dados.

Introdução ao Data Warehouse Características: Os bancos de dados tradicionais têm suporte para o processamento de transação on-line (OLTP), enquanto os data warehouses têm suporte para o processamento analítico on-line (OLAP). As informações no data warehouse mudam com menos frequência (não voláteis) e podem ser consideradas não de tempo real com atualização periódica. A informação no data warehouse é muito menos detalhada e atualizada de acordo com uma escolha cuidadosa de política de atualização. A granularidade diz respeito ao nível de detalhamento dos dados de um data warehouse.

Introdução ao Data Warehouse Estrutura conceitual de um data warehousing: Figura 1: Visão geral da estrutura conceitual de um data warehouse.

Modelagem Multidimensional Modelos multidimensionais: tiram proveito dos relacionamentos nos dados para preencher os dados em matrizes multidimensionais, chamadas cubos de dados. Figura 2: Modelo de matriz bidimensional. Figura 3: Modelo de cubo de dados tridimensional.

Modelagem Multidimensional Mudar a hierarquia (orientação) unidimensional para outra é algo feito com facilidade em um cubo de dados com uma técnica chamada de giro. Figura 4: Versão girada do cubo de dados da Figura 3.

Modelagem Multidimensional Os modelos multidimensionais atendem prontamente a visões hierárquicas no que é conhecido como exibição roll-up ou exibição drill-down. Figura 5: A operação roll-up. Figura 6: A operação drill-down.

Modelagem Multidimensional O desempenho da consulta nas matrizes multidimensionais pode ser muito melhor que no modelo relacional. Cada célula no cubo de dados pode ser consultada diretamente em qualquer combinação de dimensões, evitando consultas de banco de dados complexas. Existem ferramentas para visualizar dados de acordo com a escolha da dimensão do usuário. Os modelos multidimensionais atendem prontamente a visões hierárquicas no que é conhecido como exibição roll-up ou exibição drill-down.

Modelagem Multidimensional Dois esquemas comuns para o design de data warehouses são o Star Schema e o modelo SnowFlake. Figura 7: Star Schema Figura 8: SnowFlake

Modelagem Multidimensional No Star Schema, a tabela fato se relaciona com diversas tabelas dimensão através de múltiplas junções por meio de uma chave primária composta. As tabelas dimensão, por sua vez, são geralmente compostas de chaves primárias simples. A desnormalização das tabelas dimensão no Star Schema pode gerar a presença de dados altamente redundantes. A redundância no Star Schema é fundamental para a melhoria no desempenho das consultas, visto que menos junções são necessárias para a recuperação dos dados.

Modelagem Multidimensional O SnowFlake é uma variação do esquema modelo Star Schema em que as tabelas dimensões de um esquema estrela são organizadas em uma hierarquia ao normalizá-las. Os benefícios da normalização, como a eliminação de redundâncias, geralmente comprometem o desempenho das consultas no data warehouse.

Tabelas Fato Uma tabela de fatos pode ser imaginada como tendo tuplas, uma para cada fato registrado. As tabelas fato são o ponto focal de um modelo dimensional, em que os dados de medição numérica são armazenados. Uma constelação de fatos é um conjunto de tabelas de fatos que compartilham algumas tabelas de dimensão. Figura 9: Uma constelação de fatos.

Tabelas Dimensão Uma tabela de dimensão consiste em tuplas de atributos da dimensão. As tabelas dimensão sempre se relacionam com tabelas fato e contêm as características de um evento. Como exemplo de tabelas dimensão de uma empresa do varejo, podemos mencionar Tempo, Produto ou até mesmo Clientes.

Slowly Changing Dimension Slowly Changing Dimension: são os grupos de dados que se alteram em ciclos de tempo maiores e de maneira irregular. Por exemplo: um cliente muda de cidade e passa a realizar compras com outro representante da empresa em sua nova região. Slowly Changing Dimension são diferenciadas em dois tipos ou níveis principais: o tipo 2 e o tipo 6.

Slowly Changing Dimension Tipo 2: envolve o registro de informações históricas, guardando uma linha para cada versão dos registros, fazendo uso das chaves substitutivas (surrogate keys). Código Fornecedor Nome Cidade Ativo 1 1236 CompreTudo Ferragens Florianópolis 2 São José Código Fornecedor Nome Cidade Data Inicial Data Final 1 1236 CompreTudo Ferragens Florianópolis 1/1/2008 1/10/2010 2 São José 2/10/2010 Null

Slowly Changing Dimension Tipo 6: utiliza as duas metodologias do tipo 2 combinadas - colunas de data inicial e final e um campo booleano que determina se o registro está ativo ou não. Código Fornecedor Nome Cidade Ativo Data Inicial Data Final 1 1236 Industria 01 Florianópolis 1/1/2008 1/10/2010 2 São José 2/10/2010 Null

Áreas de Estageamento Áreas de Estageamento: permitem isolar os ciclos de negócios, ciclos de processamento de dados, limitações de rede e de recursos de hardware, ao carregar os dados no data warehouse. Assim, os dados são extraídos de diferentes fontes e armazenados na área de estageamento, onde podemos tratar e formatar os dados antes de encaminhá-los para o data warehouse.

Etapas de desenvolvimento de um DW Não existe uma metodologia consolidada e amplamente aceita para o desenvolvimento de data warehouses. Existe um conjunto de nove pontos fundamentais no projeto da estrutura de data warehouse: os processos e a identidade das tabelas de fatos; a granularidade de cada tabela de fatos; as dimensões de cada tabela de fatos; os fatos, incluindo fatos pré-calculados; os atributos das dimensões; o acompanhamento das mudanças graduais em dimensões; as agregações, dimensões heterogêneas, minidimensões e outras decisões de projeto físico; a duração histórica do banco de dados; a urgência com que se dá a extração e carga para o Data Warehouse.

Etapas de desenvolvimento de um DW Como exemplo, temos os processos de uma empresa revendedora de produtos: planos de estoque, ordens de compra, inventário, pedidos de clientes, expedição de pedidos, créditos, etc. Quando os processos estiverem identificados, cria-se uma ou mais tabelas de fatos a partir de cada um deles. Então, é necessário decidir o fato individual naquela tabela (exemplo: vendas acumuladas do produto). O próximo passo é definir as dimensões e suas granularidades (exemplo: tempo, produto e vendedor ). Além disso, outras dimensões descritivas, como local de expedição, local de recebimento e modo de envio, podem ser criadas.

Etapas de desenvolvimento de um DW O passo seguinte consiste em detalhar todos as medidas que constarão da tabela de fatos. A partir de então, passa-se a trabalhar questões relativas ao projeto físico, avaliando mudanças graduais em dimensões. Figura 10: A tabela de fatos e suas dimensões.

Exemplo 1 Planilha de vendas diárias de uma empresa do varejo. Figura 11: Exemplo de valores a serem carregados no data warehouse.

Exemplo 1 Projeto lógico de um data warehouse para a execução de consultas OLAP. Figura 12: Data mart de um processo de vendas

Exemplo 2 Planilha de consultas diárias de uma clínica médica. Figura 13: Exemplo de valores a serem carregados no data warehouse.

Exemplo 2 Projeto lógico de um data warehouse para a execução de consultas OLAP. Figura 14: Data mart de um processo de consultas