A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Data Mining, Data Warehousing e OLAP

Apresentações semelhantes


Apresentação em tema: "Data Mining, Data Warehousing e OLAP"— Transcrição da apresentação:

1 Data Mining, Data Warehousing e OLAP
Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares

2 Data Warehouse Banco de dados de informações empresariais.
Processamento de consulta e não de transações. Torna informações acessíveis e claras para o uso. Consultas sem impacto nos dados operacionais. Maneira de obter informações corporativas para tomada de decisões. é um banco de dados contendo dados extraídos do ambiente de produção da empresa otimizados para processamento de consulta e não para processamento de transações. A função do Data Warehouse é tornar as informações corporativas acessíveis para o seu entendimento e uso. Como o Data Warehouse está separado dos Bancos de Dados operacionais, as consultas dos usuários não impactam nestes sistemas. Nos últimos anos o Data Warehouse vem oferecendo às organizações uma maneira flexível e eficiente de obter as informações que os gestores necessitam, nos processos decisórios e de caracteriza como uma função de apoio à decisão.

3 Data Warehouse Origem Anos 80 Bancos de dados comerciais para SADs
No inicio eram apenas subconjuntos dos dados operacionais que eram copiados para o banco de apoio a decisões regularmente. inicio dos anos 80 quando os sistemas gerenciais de banco de dados (SGBD) emergiram como produtos comerciais com facilidades para a computação de apoio a decisão (SAD) No inicio, o Data Warehouse consistia de instantâneos, ou subconjuntos dos dados operacionais que eram carregados em banco de dados de apoio a decisão em períodos regulares que costumavam ser semanais ou mensais (Ballard & Herreman, 1998).

4 Data Warehouse Definições
“Data Warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não volátil que tem por objetivo dar suporte aos processos de tomada de decisão.” Inmon(1997) “Poder faz dinheiro. Conhecimento é poder. Data Warehouse aumenta o conhecimento. Portanto, Data Warehouse faz dinheiro.” Knowles (1996) A definição clássica de Data Warehouse criada por Inmon (1997) é a seguinte: “Data Warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não volátil que tem por objetivo dar suporte aos processos de tomada de decisão.” Knowles (1996) utiliza um lógica interessante para dizer como o Data Warehouse é importante para a empresa:

5 Data Warehouse X BD Operacional
O dw é um banco para analise do negócio, seu uso não é operacional os dados dentro dele são analiticos, ou seja, não podem ser executadas inclusoes, alterações e exclusoes, e sim apenas para consultas informativas. O numero de usuários é inferior pois são da área gerencial da empresa, e tbm as informações não são de livre acesso. É importante considerar, no entanto, que um Data Warehouse não contém apenas dados resumidos, podendo conter também dados primitivos. limitar o conteúdo de um Data Warehouse apenas a dados resumidos significa limitar os usuários apenas às consultas e análises que eles puderem antecipar frente a seus requisitos atuais, não deixando qualquer flexibilidade para novas necessidades.

6 Data warehouse Arquitetura
• Camadas de bancos de dados operacionais e fontes externas: É composto pelos dados dos sistemas operacionais das empresas e informações externas que irão compor o Data Warehouse; • Camada de acesso aos dados: Esta camada faz a ligação entre as ferramentas de acesso à informação e os bancos de dados operacionais. Esta camada se comunica com diferentes sistemas de bancos de dados, sistemas de arquivos e fontes sob diferentes protocolos de comunicação, o que se chama acesso universal de dados; • Camada de metadados (Dicionário de dados): Metadados são as informações que descrevem os dados utilizados pela empresa, isto envolve informações como descrições de registros, comandos de criação de tabelas, diagramas Entidade/Relacionamentos (ER), dados de um dicionário de dados, etc. • Camada do Data Warehouse: É o Data Warehouse propriamente dito, corresponde aos dados utilizados para obter informações. Às vezes o Data Warehouse pode ser simplesmente uma visão lógica ou virtual dos dados, podendo não envolver o armazenamento dos mesmos ou armazenar dados operacionais e externos para facilitar seu acesso e manuseio. • Camada de acesso à informação: Envolve o hardware e o software utilizado para obtenção de relatórios, planilhas, gráficos e consultas. É nesta camada que os usuários finais interagem com o Data Warehouse, utilizando ferramentas de manipulação, análise e apresentação dos dados, incluindo-se as ferramentas de Data Mining e visualização;

7 Data Warehouse Data Marts
Os Data Marts são subconjuntos de dados, dentro de um Data Warehouse, projetados para dar suporte a negócios de unidade organizacionais especificas (NIMER, 1998). Os Data Marts são subconjuntos de dados, dentro de um Data Warehouse, projetados para dar suporte a negócios de unidade organizacionais especificas (NIMER, 1998). Segundo o autor, os Data Marts são muito interessantes para resolver certos problemas, mas não são necessariamente substitutos de um projeto de Data Warehouse. Um Data Mart não deve ser um pequeno Data Warehouse, com a finalidade de ser rápido ou possuir dados ainda não suportados para o Data Warehouse Os projetos de Data Marts se justificam em casos onde a alta gerência ainda não esta convencida quanto a vantagens que a tecnologia do Data Warehouse pode prover. Neste caso, os Data Marts são viáveis, por demoram entre 4 a 12 meses para serem implementados e, em conseqüência, começam a dar resultados mais rápidos. Os Data Warehouses têm prazos que variam entre 1 a 5 anos para implementação completa.

8 Data Warehouse Finalizando
Data Warehouse é um ambiente adaptado para apenas um objetivo. Desafios: Consultas claras e rápidas. Disponibilizar metadados. Sistemas de gestão: Business Intelligence Núcleo do apoio á decisões. Como o Data Warehouse não é um sistema ou programa, mas sim um ambiente que necessita ser adaptado as necessidades das empresas é normal que cada ambiente de Data Warehouse possua características próprias, inviabilizando seu uso para outros objetivos que não os descritos no início do projeto A modelagem de Data Warehouse mostrou ser um desafio aos processos de desenvolvimento software. Um dos desafios é conseguir modelar os dados de maneira que todas as informações estejam disponíveis de forma clara e rápida para os usuário, outro desafio é disponibilizar as informações sobre os dados (metadados), para que os usuários possam saber quais informações estão disponíveis. Toda essa família de resultados, tecnologia e operações é chamada de Business Intelligence, e tem crescido até então. Hoje podemos encontrar sistemas de gestão oferecendo resultados completos e inteiramente customizados pelo usuário. A Data Warehouse é o núcleo dos sistemas de informação e fonte de apoio à decisão nas soluções de Business Intelligence.

9 OLAP (Online Analytical Processing)

10 OLAP -Origem Keneth Iverson – 1962 “A Programming Language” - APL
Necessidade de relatórios dinâmicos Tecnologia OLAP – década de 90. Popularidade

11 OLAP - Definição Processamento Analítico Online
Manipular e analisar um grande volume de dados sob múltiplas perspectivas Otimização de consulta e relatório BI- síntese de informações corporativas visões comparativas e personalizadas: Apresenta as informações via um modelo de dados natural e intuitivo. análises históricas; e elaboração de cenários.

12 OLAP - Definição Tipos básicos de dados: Medidas: Dimensões:
Dados numéricos, como quantidades e médias Parâmetros utilizados na tomada de decisões dimensão especial utilizada para realizar comparações. Dimensões: Uma unidade de análise que agrupa dados de negócio relacionados.

13 OLAP - Definição Conceitos – chave:
Cubo: estrutura multidimensional de dados do negócio. Membro: subconjunto de uma dimensão. Hierarquia: Uma estrutura em árvore lógica que organiza os membros de uma dimensão.

14 OLAP – Representação dos Dados

15 OLAP - Definição Conceitos-chave
Drill-up: diminuir o nível de detalhamento Drill-down: aumentar o nível de detalhamento Slice and Dice: reorganizar os dados

16 OLAP - Multidimensionalidade
Uma dimensão Duas Dimensões

17 OLAP - Multidimensionalidade
Três Dimensões

18 OLAP - Multidimensionalidade
Quatro Dimensões

19 OLAP e OLTP Exemplo: aplicações bancárias
OLTP: Ponto de vista do cliente. inserção, alteração, remoção de dados individuais. OLAP: Ponto de vista do Gerente. Análise global de contas correntes com diversas visões. Ex: Saber qual é o desempenho de contas correntes que tenham cheque especial e tenham utilizado o valor máximo dos mesmos em um determinado período de tempo em algumas regiões.

20 OLAP – Principais Tipos
MOLAP: os dados são armazenados em cubos multimensionais. ROLAP: manipula os dados armazenados no banco de dados relacional para dar a aparência de funcionalidade slice and dice do OLAP tradicional. HOLAP: combinação do MOLAP e ROLAP.

21 OLAP - Vantagens São utilizados por gestores de qualquer nível da organização; Análise, navegação e visualização de dados corporativos: Alto desempenho Consistente Interativa Dinâmica Perspectivas diferentes

22 OLAP - Desvantagens Escolha de uma ferramenta OLAP inadequada pode ocasionar severas consequências para um projeto de datawarehouse. Não existe nenhuma característica peculiar que dite como a ferramenta deve ser construída, qual tecnologia deva ser usada e que funcionalidades devem ser implementadas

23 Data Mining

24 Introdução - Data Mining
Grande disponibilidade de dados armazenados eletronicamente Existem informações úteis, invisíveis, nesses grandes volumes de dados; Aproveitar para prever um conhecimento futuro (ir além do armazenamento explícito de dados).

25 Data Mining Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não. Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados. Seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informações úteis para a tomada de decisão e/ou avaliação de resultados.

26 Evolução do Data Mining

27 Processo – Data Mining Seleção. Pré-processamento. Transformação.
Interpretação e Avaliação.

28 Processo - Data Mining Seleção
Selecionar ou segmentar dados de acordo com critérios definidos: Ex.: Todas pessoas que possuem ensino superior. Pré-processamento Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. Reconfiguração dos dados para assegurar formatos consistentes (identificação) Ex. : graduação: “Graduação”, “Mestrado” ou Doutorado.

29 Processo - Data Mining Transformação
Transforma-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada. Ex: rede neural  converter valor literal em valor numérico Disponibilizar os dados de maneira usável e navegável. Data mining É a verdadeira extração dos padrões de comportamento dos dados Utilizando a definição de fatos, medidas de padrões, estados e o relacionamento entre eles.

30 Processo – Data Mining Interpretação e Avaliação
Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas Ex.: Tarefas de previsões e classificações

31 Técnicas Indução Regras indutivas
É o processo de olhar uma série de dados e, a partir dela gerar padrões; Pode-se trabalhar com dados numéricos ou não; Hipóteses;

32 Técnicas Árvores de decisão Representação simples do conhecimento;
Utilização de regras condicionais; A partir de um conjunto de valores decide SIM ou NÃO.

33 Técnicas Redes Neurais
É uma abordagem computacional que envolve estruturas matemáticas com a habilidade de aprender; Elementos interconectados e possuem entrada e saída do processamento; São organizados em camadas que aprendem pela modificação da conexão

34 Técnicas Redes Neurais

35 Ferramenta WEKA Open Source: Implementada na linguagem JAVA.
Classificação Um classificador (ou modelo de classificação) é utilizado para identificar a classe à qual pertence uma determinada observação de uma base de dados, a partir de suas características (seus atributos).

36 Exemplo – Entrada de dados
O Software WEKA utiliza o arquivo .arff para a entrada de dados o qual possui a seguinte estrutura: @relation Censo @attribute Escolaridade {Graduacao, Mestrado, Doutorado} @attribute Idade {>30, <=30} @attribute Rido {Sim, Nao} @data Mestrado,>30,Sim Doutorado,<=30,Sim Mestrado,<=30,Nao Doutorado,>30,Sim Graduacao,<=30,Nao Graduacao,>30,Nao

37 Exemplo – Saida de dados
Matriz de Confusão === Confusion Matrix === a b <-- classified as 4 5 | a = Sim 6 3 | b = Nao Arvore de Decisão


Carregar ppt "Data Mining, Data Warehousing e OLAP"

Apresentações semelhantes


Anúncios Google