A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Criar o Data Warehouse Marcelino Pereira CIn-UFPE.

Apresentações semelhantes


Apresentação em tema: "Criar o Data Warehouse Marcelino Pereira CIn-UFPE."— Transcrição da apresentação:

1 Criar o Data Warehouse Marcelino Pereira CIn-UFPE

2 Data Warehouse x BD operacional * Massa de Dados: Imensa x Grande * Acesso aos Dados: Ocasional x Constante * Natureza: Temporal x Não Temporal * Atualização de Dados: Periódico x Permanente * Dados Armazenados: Históricos x Atuais * Processamento: OLAP x OLTP * Necessidade Desenvolvimento: Estratégica x Operacional * Origem Pesquisa: Indústria x Academia

3 BD Operacionais Data Warehouse OLAP/KDD BD Operacionais extrair traduzir filtrar integrar Data Warehouse OLAP KDD serve

4 Data Warehouse x Data Mart * Data Warehouse: Informações de diferentes fontes (BD´s heterogêneos / distribuídos / sistemas legados etc) são extraídas, traduzidas, filtradas,integradas, agregadas e armazenadas no repositório centralizado. * Data Mart Subconjunto do data warehouse global. Mini data warehouse em escala menor (departamental, regional ou funcional). Permite construção bottom-up de data warehouse.

5 Principais Vantagens - DW * Altíssima performance de pesquisa corporativa não necessariamente dos dados mais recentes * Não interfere nas OLTPs dos BDs operacionais pesquisas complexas apenas no DW * Dados armazenados no DW podem ser manipulados de forma arbitrária podem ser resumidos, reestruturados, redimensionados * Fonte de informações estratégicas conhecimento do negócio vantagem competitiva tomada decisões etc.

6 Questões em armazenamento de dados não volátil * Aspecto temporal e histórico A dimensão mais importante: tempo Armazenar a evolução dos dados Prazo médio de armazenamento de dados: 5 a 10 anos * Necessidade de agregação ao longo da dimensão tempo DW - BD histórico Característica determinante do DW: time variant DW - série sofisticada de snapshots Um caso especial de BD temporal * Hierarquias temporais múltiplas Agregação e manipulação de múltiplas hierarquias temporais Hora, minuto, dia, semana, quinzena, mês, bimestre, ano etc * Estrutura cíclica

7 Banco de Dados Temporais: definição e motivação * Definição: BD Temporal é aquele que é time dependent (time varying), pois deve suportar aspectos de tempo. * Dados econômicos e financeiros (empresas, bancos etc) dependem de tempo * Informações sobre estoque, custo e venda de produtos têm variação temporal * Dados na área de saúde * Operações em telecomunicações * Sistemas de Transporte * Atividades que produzem massas de dados regularmente

8 Ontologias temporais e aplicações p/ BD * Baseados em pontos Instante: time point Intervalo: conjunto de pontos Predominante no contexto de BD * Baseados em intervalos Instante: intervalo mínimo intervalo: delimitado por designadores * Cálculo de eventos: Limitações do cálculo de situações Representação de mudanças Dimensão espacial e temporal * Tempo de validade tempo durante o qual um fato era realmente verdadeiro * Tempo de transação tempo durante o qual o fato estava presente no BD como dado armazenado

9 Modelo de dados e linguagens de consultas temporais * Suportam aspectos relacionados a tempo HRDM (Historical Relacional Data Model) t Muito influente t Suporta domínio temporal único, discreto e infinito t Suporta dimensão de tempo única t Álgebra originada da álgebra relacional com redefinição operadores t Álgebra não consegue expressar consultas temporais indutivas TSQL2 t Derivada do SQL2 t Não possui semântica formal t Suporta tempo de validade e de transação t Suporta granularidade múltipla de tempo t Modelo de dados baseado em pontos

10 Modelo de dados e linguagens de consultas temporais TQuel t Derivada do Quel t Possui semântica formal t Suporta domínio temporal único, discreto, infinito e multi-nível t Suporta duas dimensões de tempo: tempo de validade e de transação t Variação da representação de timestamp t Modelo de dados baseado em pontos t Não consegue expressar consultas temporais indutivas Backlogs t Suporta domínio temporal único, discreto e infinito t Duas dimensões de tempo: tempo de validade e tempo de transação Outras: t HQuel / HTQuel / TempSQL / TBE

11 BD Temporal em TSQL2 * Tipos temporais SQL92 Date Time Timestamp Interval * Tipos/cláusulas temporais adicionais TSQL2 Period Valid Cast Nobind

12 Exemplo de BD Temporal em TSQL2 * Definição da relação Prescription CREATE TABLE Prescription (Name CHAR(30), Physician CHAR(30), Drug (CHAR(30), Dosage CHAR(30), Frequency INTERVAL MINUTE) AS VALID STATE DAY AND TRANSACTION * Modifique a dosagem p/ 50 mg de março a maio: UPDATE Prescription SET Dosage TO ´50 mg´ VALID PERIOD´[ ]´ WHERE Name = ´Melanie´ AND Drug = ´Proventil´

13 BD Temporais e Data Warehouse * Áreas distintas, porém fortemente relacionadas * DW integra informações de diversas fontes heterogêneas, montando BD históricos. * No DW das várias dimensões analisadas, tempo é a mais importante. * Dimensão tempo utilizada para detectar características na evolução dos dados. * Data Warehouse utiliza tecnologia de BD Temporal?

14 Modelagem e remodelagem de dados para Data Warehouse * DTS - Data Transformation Services (Microsoft OLAP) mais um conjunto de ferramentas ad-hoc de auxílio à transformação de dados do que ambiente integrado de modelagem e remodelagem permite transformar dados via caixas de diálogo ou scripts dados de origem podem ser de diferentes bases de dados, tabelas, textos ou uma query permite controle de erros, restrições, exceções etc mapeamento/tratamento da informação direto e interativo permite conversões entre tipos de dados exige casamento de tipos de dados origem e destino transformações podem ser testadas e acompanhadas

15 Carga de dados no Data Warehouse * On-Demand-Integration (query-driven) Para uma dada query: t encontrar fontes de informação relevantes t gerar subquery para cada fonte t integrar resultados obtidos e repassá-los à aplicação. Sistemas Virtuais * In-Advance-Integration (analysis-driven) Informações relevantes extraídas antecipadamente das fontes. Filtradas, consolidadas e armazenadas num BD separado. Consultas efetuadas diretamente neste BD. Sistemas Materializados

16 Arquiteturas de Data Warehouse 1-Estrutura independente (sem arquitetura) * Consulta direta às fontes (ineficientes) * Informações dispersas * Menor qualidade dos resultados * Mediadores complexos * Implementação mais rápida BD Operacionais Data Warehouse

17 Arquiteturas de Data Warehouse 2-Estrutura de Data Marts dependentes BD Operacionais Data WarehouseData Marts

18 Arquiteturas de Data Warehouse 2-Estrutura de Data Marts dependentes * Data Marts são subconjuntos do DW * DM recebem seus dados do DW * Orientado por áreas (assuntos) * Integrado (inconsistências são eliminadas) * Time-Variant * Não volátil * Atualização dos dados Wrappers: tradutores de informação Monitor: detecta mudanças Integrador: trata e instala informação no DW

19 Arquiteturas de Data Warehouse 3-Estrutura de Barramento de DW BD OperacionaisData Warehouse Data Mart DW Bus

20 Arquiteturas de Data Warehouse 3-Estrutura de Barramento (Bus) de DW * Cada Data Mart é parte do DW * Data Marts são conectados através do bus do DW * Repositórios regionais, funcionais, departamentais * DW busca informações diretamente nos DMs * Construção bottom-up do DW * Controle centralizado * Flexibilidade localizada * Data Marts são mais ágeis

21 Integração de Dados: motivações e questões * Problema geral independente de warehousing * Heterogeneidade: de modelos e de implementação * Divergências: protocolo, arquitetura, descrição de dados, níveis de abstração, significado preciso dos termos * Fontes ricas e complexas de informações: Sistemas Legados Internet Bancos e Organizações Financeiras Bancos de Dados Comerciais e Estatísticos Agências Governamentais * Necessidade de meios para acesso transparente a fontes diversificadas * Requer meta-dados ou conhecimento * que pode ser aproveitado para fornecer informação mais rica

22 Wrapper/Monitor/Integrador Fonte Wrapper/Monitor Integrador Data Warehouse Wrapper/Monitor

23 Mediadores para Integração de Dados * Middleware inteligente associa fontes de dados e programas aplicativos. * 4 passos: Analisa consulta Identifica fontes de informação relevantes Gera as sub-consultas para essas fontes Integra resultados em uma resposta a consulta inicial * Implicações: Tendência de descentralização Cooperação intersistemas Grande quantidade de dados disponíveis Avanços tecnológicos na comunicação de dados

24 Mediadores BD 1BD 2BD 3 M e d i a d o r Aplicações

25 Exemplo de Esquemas Locais e do Mediador EMP_RIOEMP_FOR sal1 nome1 tel1 sal2 nome2 2 BD1 BD2 ESQUEMAS LOCAIS: EMP_M ESQUEMA DO MEDIADOR sal nome tel local

26 Assertivas de Correspondência (Mediadores) * Assertivas de Correspondência de Tipos: AC 1 : EMP_M EMP AC 2 : EMP_M Gen(EMP_RIO, EMP_FOR) AC 3 : EMP_RIO EMP_M [local = rio] AC 4 : EMP_FOR EMP_M [local = for] * Assertivas de Correspondência de Atributos: AC 5 : nome nome1 AC 6 : nome nome2 AC 7 : sal sal1 AC 8 : sal sal2 AC 9 : tel tel1 AC 10 : 2 AC 11 : local [EMP_RIO: rio; EMP_FOR: for]

27 Exemplo de Consulta (Mediadores) Emp_Rio Emp_For Tradutor 2Tradutor 1 Mediador Select nome, tel, sal, from EMP_M where nome = Roberto nome1 = Roberto sal1 = 1000 tel1 = nome2 = Roberto sal2 = = nome = Roberto tel = sal = =

28 Data Warehouse - Telecom Italia * Maior provedor telecomunicações italiano e o 5 o no mundo * Atua em 40 paises com empregados * Motivação: proliferação de BDs legados - grande overhead * 1993: iniciou seu projeto estratégico * Foco: clientes, fornecedores, rede, administração * 1996: projeto concluído integrando 48 BDs operacionais * Estratégia de antecipação de problemas p/ o DW: extração / limpeza / reconciliação * Desenvolvimento de ferramentas e metodologias próprias * Conclusões da Telecom Italia: Integração é um processo incremental envolvimento de todos os parceiros tecnológicos estrutura dedicada para gerenciamento da implementação do DW Agendamento processos de extração/transformação são críticos


Carregar ppt "Criar o Data Warehouse Marcelino Pereira CIn-UFPE."

Apresentações semelhantes


Anúncios Google