A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Disciplina: Mineração de Dados

Apresentações semelhantes


Apresentação em tema: "Disciplina: Mineração de Dados"— Transcrição da apresentação:

1 Disciplina: Mineração de Dados
Data warehouse Disciplina: Mineração de Dados

2 PARTE I: Suporte à decisão e DW
Novo ambiente de negócios Ambiente operacional X Informacional Fundamentos de Data warehouse Arquitetura de Data Warehouse

3 Novo Ambiente de Negócios
Competição Global Mais e mais qualidade requerida Achatamento da hierarquia nas empresas

4 A chave para o sucesso Organizações Inteligentes Alta qualidade
A INFORMAÇÃO está no centro de toda organização inteligente ! Alta qualidade Baixo Custo Flexibilidade Agilidade Organizações Inteligentes

5 Tomada de Decisão Tomar a ação apropriada considerando-se níveis de risco e incerteza assumidos

6 Suporte à Decisão Produção e distribuição de Informação Útil para gerentes, executivos e analistas do conhecimento. Análises: O que aconteceria se ... Quanto ... Quando ...

7 Algumas Questões Fundamentais
Tecnologia é um meio para atingir um fim, não um fim em si mesma: a tecnologia apenas capacita a vantagem nos negócios O sucesso no emprego de novas estratégias de negócio requer tecnologia de Suporte à Decisão O sucesso na implementação requer abordagens e métodos distintos dos utilizados nos ambientes operacionais da empresa

8 Realidade dos BD corporativos
Sales Marketing Finance Rates Customer Service MIS Demographics General Ledger Product Planning Promotions Product Info Competitive Info Market Data Accounting Purchasing Contracts

9 O que queremos? Informação! Mas, de que forma? Com : Agilidade
Flexibilidade Uma única versão da verdade Rates/ Regulatory Customer Service Sales Marketing Finance MIS Product Data Customer Data Sales Data Market Data G/L Data Revenue Data External Data

10 Como obter a informação necessária?
Dados dos Clientes Dados de Compras Dados de Produtos Disponíveis Dados de Levantamentos Comentários e Reclamações de Clientes Pedidos de Serviço

11 Ambiente de Aplicações
Suporte à Decisão Dão suporte às funções associadas à concepção do negócio da empresa Operacionais Dão suporte às funções associadas à execução do negócio da empresa: sistemas administrativos controle de estoque sistemas de expedição etc Running the business Building the business

12 Ambiente Operacional Tipo de processamento: OLTP
Processamento de Transação On-line baseado em transações voltado para velocidade e automação de funções “repetitivas” mantém usualmente situação corrente atualizações e consultas em grande número trabalha com alto nível de detalhe

13 Ambiente de suporte à decisão (analítico)
Tipo de processamento: OLAP “Pequeno” número de consultas “variáveis” Necessidade de ver o dado sob diferentes perspectivas: aplicações dinâmicas Operações de agregação e cruzamentos Atualização quase inexistente, apenas novas inserções Dados Históricos são relevantes Consistência é fundamental

14 Requisitos de ambientes operacionais e analíticos
Sistemas Operacionais Tempo de Resposta Segurança Recuperação de Falhas Muitos usuários concorrentes Sistemas Analíticos ou “Informacionais” Flexibilidade, facilidade de navegação Consultas complexas, não antecipadas Gerenciamento de enormes volumes de dados ‘(VLDBs) Necessidade de examinar o dado em diferentes níveis de detalhe Necessidade de acesso a dados provenientes de fontes de dados diversas

15

16 SSD: Resposta competitiva ao mercado
Pedido à área de Sistemas Criação de Relatório “Quantos clientes da seguradora já tiveram sinistros no último ano e também aumentaram o valor do seguro? Execução The pace of change is incredible and the competition isn’t slowing down. This traditional model of asking IS for a custom report to answer ... isn’t sufficient. Not only does it take too long, but by the time the report is created, the business and competitive pressures have changed. In this example, the window to offer a new product (loan) may have closed. Value of data to the business - an example: There’s a secret location in Phoenix where security guards for AMEX stand guarding AMEX’s most cherished possesion - the 500Billion bytes of information on consumer buying patterns - they want to mine the hoards of data for marketing gems.

17 Suporte à Decisão “Tradicional”
Forte Acoplamento entre Sistemas Operacionais e Gerenciais Sistemas Operacionais Informações Gerenciais Frente de Loja Estoques Compras . Contabilidade Base de Dados Comum Conjunto de Relatórios Vendas Posição do Estoque ...

18 Suporte à Decisão “Tradicional”
Ambiente Operacional Analista do negócio Dados não estão adequados para suporte à decisão Sistemas de suporte à decisão desenvolvidos ad-hoc Analista do Negócio vira “Programador” Longo tempo de espera

19 Porque um ambiente de Data Warehouse?
BDs Operacionais Integrar dados de múltiplas fontes Facilitar o processo de análise sem impacto para o ambiente de dados operacionais Obter informação de qualidade Atender diferentes tipos de usuários finais Flexibilidade e agilidade para atender novas análises DW Aplicação SD Ferramenta OLAP Aplicação DBMKT

20 Data Warehouse - Definição
Processos, ferramentas e recursos para gerenciar e disponibilisar informações de negócios precisas e inteligíveis para que indivíduos possam tomar decisões efetivas (IBM) Um ambiente para adequadamente organizar, gerenciar e disponibilisar informações oriundas de fontes diversas, fornecendo um visão única de parte ou de todo o negócio com o objetivo de dar suporte a operações analíticas.

21 Data Warehouse de acordo com Bill Inmon
“A Data Warehouse is a subject-oriented, integrated, time-variant, non-volatile collection of data in support of management’s decision-making process.”

22 Orientado a assunto Sistema Operacional controle de estoque
controle de pedidos contas a pagar e a receber DATA WAREHOUSE MATERIAL PRODUÇÃO VENDAS

23 Integrado

24 Não volátil

25 Variável ao Tempo

26 Granularidade

27 Data Warehouse de acordo com Bill Inmon
A Fábrica de Informações Integração e Transformação - Informações - Decisões Gerenciais - Decisões de Longo Prazo - Análises Históricas - Análises de Tendências - Análises Integradas Data Warehouse Sistemas Operativos - Integração - Granularidade - Transferência de Dados - Alimentação do Metadados - Coletar dados detalhados - Editar dados - Interação imediata cliente - Entrada de Dados

28 Arquitetura do Ambiente de DW (proposta por Orr)

29 Arquitetura Genérica 1/5
Camada de BDs Operacionais e Fontes Externas Camada de Acesso a Informações Camada de Metadados (dicionário de dados) Camada de Gerenciamento de Processos Camada de Transporte Camada de DW Camada de Gerenciamento de Replicação

30 Arquitetura Genérica 2/5
Camada de BDs Operacionais e Fontes externas Dados das bases operacionais junto com dados provenientes de fontes externas Camada de Acesso à Informação Representa as ferramentas que o usuário utiliza no dia a dia. Ou ferramentas sofisticadas como de visualização e mineração de dados

31 Arquitetura Genérica 3/5
Camada de Acesso aos Dados Ligação entre as ferramentas de acesso à informação e os BDs operacionais. Comunica com diferentes SGBDs e sistemas de arquivos. "Acesso universal de dados" Camada de Metadados Informações sobre os dados. Desde dados sobre visões dos usuários até dados sobre os BD oper.

32 Arquitetura Genérica 4/5
Camada de Gerenciamento de Processos Controle de tarefas para construir e manter as informações do dicionário de dados e do DW. Manter consistência do DW Camada de Transporte Gerencia transporte de informações pelo ambiente de redes. Usada para isolar aplicações operacionais ou informacionais.

33 Arquitetura Genérica 5/5
Camada do Data Warehouse Dados usados para fins "informacionais". Em alguns casos o DW é apenas uma visão lógica ou virtual dos dados. Camada de Gerenciamento de Replicação Processos para selecionar, editar, resumir e carregar o DW e as correspondentes informações de acesso a partir das bases operacionais e fontes externas. Envolve programas de análise da qualidade de dados e filtros que identificam padrões nos dados operacionais.

34 Arquitetura Genérica de um Data Warehouse
Administração Extração de Dados Dados Dimensionais Sistemas de Acesso Fontes de Dados Transformação de Dados Dados no Warehouse Mart Warehouse Mart Mart Metadata produzido em todas as etapas

35 Qual a estratégia correta?
O Data Warehouse Corporativo Data Warehouses Departamentais Data Warehouses Funcionais Marketing, Financeiro, Administrativo, etc. Data Warehouses para projetos especiais ... 13

36 Data Mart - Conceito “Um subconjunto lógico do Data Warehouse, geralmente visto como um data warehouse setorial.” (Kimball) Uma perspectiva top-down considera que um DW completo, centralizado deva ser desenvolvido antes que partes dele, sumariadas, possam ser derivadas na forma de Data Marts. Uma perspectiva botton-up, considera que um DW possa ser composto a partir de Data Marts previamente desenvolvidos.

37 Arquitetura de Dados Existem 3 abordagens:
DW centralizado: um DW integrado. Maximiza o poder de processamento disponível. Arquitetura federativa: distribuindo a informação por função. Arquitetura em camadas: dados altamente resumidos em um servidor, dados resumidos em nível intermediário em um segundo servidor e os dados mais detalhados em um terceiro servidor. Os dados da 1a. Camada podem ser otimizados para carga pesada de usuários e baixo volume de dados enquanto as outras camadas são mais adequadas para processar grande volume de dados.

38 Arquitetura de Três Camadas em DW
Primeira - inclui os dados operacionais da empresa, que alimentam o Data Warehouse Segunda - o Data Warehouse - é um grande depósito de dados históricos detalhados Terceira - composta pelos Data Marts - é otimizada para consultas de cada comunidade de usuários Vendas RH Finanças DW Ferramenta Consulta Marketing Logística Data Warehouse Etc. DM Ferramenta Consulta dic. Módulo Atualização RH Data Mart Analistas de Negócio Módulos Extração e Atualização RH Dic. dic. DM Ferramenta Consulta Módulo Atualização Marketing Data Mart Executivos e gerentes MKT Contab Faturam. Folha Dic. Bases de Dados dos Sistemas Transacionais

39 O Mito Para serem úteis os Data Warehouse devem possuir grande abrangência, com dados de variadas fontes abrangendo os diversos aspectos da Empresa. Pré-requisito : empresa totalmente informatizada e integrada Implicação : projetos extremamente complexos e com alta probabilidade de insucesso.

40 A Realidade Projetos Evolutivos
Enfocar inicialmente nos aspectos mais críticos Aproveitar a estrutura operacional disponível Retorno mais rápido Acúmulo de experiência : menor risco e menor custo

41 Abordagem Corrente Desenvolver incrementalmente
Abordagem por estágios para o DW corporativo: seguro gerenciável experimental recomendado

42 Abordagem corrente Estratégia Desenvolver incrementalmente Desafio
Visão Integrada Dividir para conquistar Errar pequeno Desenvolver incrementalmente Planejamento Top-Down Desenvolvimento Botton-Up, um DM de cada vez, resultados devem ser atingidos em pequenos ciclos (ex.: a cada 3 meses) Cada Data Mart deve ser encarado de forma evolutiva complexidade do modelo, volume de dados, investimentos Desafio Garantir a coerência entre os vários Data Marts

43 Data Warehouse de acordo com Kimball
Data Marts Integrados DW = Operational Data Store + Data Marts Integrados Marketing Integração & Transformação Vendas Sistemas Operativos Finanças ODS Produção R.H. - Dados a nível de transação - Modelo dimensional ...

44 Transporte de Dados (Data Staging)
Extração Coleta de dados nos sistemas existentes Operação demorada e complexa Muitas vezes, desenvolvimento ad-hoc Transformação fundamental para clareza e integração recodificação de categorias: (m/f, male/female to M/F) alterações e uniformização de unidades de medida, nomes de campos, datas Limpeza fundamental para qualidade da informação extraída Carga e Realimentação trade-off (muito frequente é caro, pouco significa dados “velhos”)

45 ODS (Operational Data Store)
De acordo com Inmon: depósito volátil, temporário de dados correntes detalhados De acordo com Kimball: depósito histórico, frequentemente alimentado, de dados detalhados e integrados, constituindo-se no nível atômico do ambiente de DW

46 Componentes Potenciais do Ambiente de DW
todos eles manipulando/gerando metadados. 1. Repositório de Metadados 2. Ferramentas de Projeto CASE 3. Ferramentas de Extração, Transformação e Carga (ETL) 4. Ferramentas para Qualidade e Limpeza 5. Ferramentas para Replicação 6. Provedores de Interfaces de BD ODBC/OLE 7. Ferramentas de Gateway para BD Legados 8. Bancos de Dados Relacioanais 9. Bancos de Dados Não-Relacionais Legados 10 Ferramentas ROLAP 11. Ferramentas de Relatório e Consulta 12. Ferramentas de Data Mining 13. Ferramentas de Data Warehouse 14. Ferramentas de Consolidação de Data Warehouses 15. Pacotes de Aplicação para Data Warehouse The types of metadata defined by the 17 different tool categories overlap strongly, which leads to multiple redundant and incompatible definitions of the same implicitly defined metadata, over and over again. Data warehouse tools span the distributed architecture of the data warehouse, and generally place metadata redundantly everywhere within this architecture. The distributed nature of this metadata can cause a number of problems including inaccessability because of the remote location of the metadata, and out of date redundant copy metadata management problems.

47 Algumas questões críticas em DW
Diversidade de abordagens Falta de uma metodologia consolidada Diversidade de ferramentas Transporte de dados ambiente operacionalDW Gerência e manutenção de metadados


Carregar ppt "Disciplina: Mineração de Dados"

Apresentações semelhantes


Anúncios Google