Data Mining, Data Warehousing e OLAP

Slides:



Advertisements
Apresentações semelhantes
Ferramentas OLAP: MicroStrategy OLAP Services
Advertisements

Sistemas de Informação
Engenharia de Software
Curso: Banco de Dados I Análise de Sistemas PUC Campinas
Data Warehouse / Data Marts / DataMining /OLAP
Tabela de Banco de Dados Relacional
OLAP – Motivação e conceitos
Apresentação SOE Assunto DATA WAREHOUSE Professor TANAKA
Mineração de Dados ou Descoberta de conhecimento em BDs
Professora: Aline Vasconcelos
FACENS – Engenharia da Computação Inteligência Artificial
FACENS – Engenharia da Computação Inteligência Artificial
Aula 4 – Inteligência de Negócios (Business Intellingence)
Data Warehouse Um Data Warehouse é um armazém de dados, contendo dados extraídos do ambiente de produção da empresa. De acordo com INMON (1997), um.
Business Intelligence – BI Análise de sistemas de informação
Noções de Sistemas de Informação – Aula 5
ENTERPRISE RESOURSE PLANNING
Disciplina: Sistemas de Informação para Planejamento Estratégico
Gestão Tecnológica da Informação
Banco de Dados Multidimensional
Tomada de Decisão e Sistemas de Informação
Gerenciamento de Dados
Sociedade da Informação: Ambiente de TI nas Organizações
Tecnologia da informação e estado
Tecnologia da Informação
Business Intelligence:
4. Decisões Estruturadas 4.1. Data Warehouse (DW)
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Data Mining: Conceitos e Técnicas
GESTÃO DAS INFORMAÇÕES DA ORGANIZAÇÃO
Nomes: Alice C.Cazalli Allison Willian Everton Costa Denis A. Araujo
J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades.
Banco de Dados Aplicado ao Desenvolvimento de Software
Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares.
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
Sistemas de Informação
ASSUNTO Facilitando a Tomada de Decisão em um Ambiente Móvel Mohamed A. Sharaf Panos K. Chrysanthis Felipe Menezes Cardoso COPIN – UFCG Banco de Dados.
BUSINESS INTELLIGENCE Prof. Dr. Adilson de Oliveira Doutor em Engenharia de Computação – Poli USP Mestre em Ciência da Informação – PUCCAMP.
Uma proposta para OLAP ontológica Adriana Ribeiro.
Gestão da Tecnologia da Informação
Sistemas de Informações em Recursos Humanos
Prof. Ana Martins – UCB Unidade 02 Aula 03
Como Melhorar a Tomada de Decisão
SISTEMAS DE APOIO À DECISÃO - SAD
O L A P PROCESSAMENTO ANALÍTICO ONLINE
CENTRO UNVERSÁTARIO PADRE ANCHIETA AULA 9 CURSO ENGENHARIA DE PRODUÇÃO DISCIPLINA: SISTEMAS DE INFORMAÇÕES GERENCIAIS (SIG) PROF: CÉSAR ANTONIO SOLDERA.
Data Warehouse Bruno Estevão Rosa Emerson Barbosa Gonçalves
Mineração de Dados: Introdução
Automação Comercial Faculdade Estácio Radial Prof. Paulo Alipio Alves de Oliveira 2010.
OLAP - On-Line Analytical Processing (Processamento Analítico On-Line)
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Gestão do Conhecimento e da Informação
Negócios Inteligentes com BI – Business Intelligence
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
Disciplina: Inteligência Artificial
Sistemas de Informação para Planejamento Estratégico
Janeiro/2013 Ceça Moraes Data Warehouse Janeiro/2013 Ceça Moraes
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Copyright © 2011 Ramez Elmasri and Shamkant Navathe slide 1 Tópicos  Introdução  Um exemplo  Características da abordagem de banco de dados  Vantagens.
Modelos de dados.
Objetivos do Capítulo Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel.
Tecnologia da informação Aula 12 – Introdução ao Business Intellingece (BI) Profº Erich Turma 6-A Noturno.
INTELIGÊNCIA EMPRESARIAL Aula 9 - Modelagem de Data Warehouse.
INTELIGÊNCIA EMPRESARIAL Aula 6 – Componentes dos Sistemas de Apoio à Decisão.
INTELIGÊNCIA EMPRESARIAL Aula 8 - Metadados e Operações OLAP.
INTELIGÊNCIA EMPRESARIAL Aula 7 - Data Warehouse.
INTELIGÊNCIA EMPRESARIAL
Síntese do Negócio ONTOWEB. Ontoweb – Nova Geração de Ferramenta de Busca Possui comportamento inteligente que auxilia o usuário a organizar e compartilhar.
Sistemas de Informações Sistemas Informações Empresariais 2. Tipos de Sistemas Márcio Aurélio Ribeiro Moreira
Transcrição da apresentação:

Data Mining, Data Warehousing e OLAP Kamila T. Lyra Karina C. S. Nishimura Thiago P. Colonhezi William S. Soares

Data Warehouse Banco de dados de informações empresariais. Processamento de consulta e não de transações. Torna informações acessíveis e claras para o uso. Consultas sem impacto nos dados operacionais. Maneira de obter informações corporativas para tomada de decisões. é um banco de dados contendo dados extraídos do ambiente de produção da empresa otimizados para processamento de consulta e não para processamento de transações. A função do Data Warehouse é tornar as informações corporativas acessíveis para o seu entendimento e uso. Como o Data Warehouse está separado dos Bancos de Dados operacionais, as consultas dos usuários não impactam nestes sistemas. Nos últimos anos o Data Warehouse vem oferecendo às organizações uma maneira flexível e eficiente de obter as informações que os gestores necessitam, nos processos decisórios e de caracteriza como uma função de apoio à decisão.

Data Warehouse Origem Anos 80 Bancos de dados comerciais para SADs No inicio eram apenas subconjuntos dos dados operacionais que eram copiados para o banco de apoio a decisões regularmente. inicio dos anos 80 quando os sistemas gerenciais de banco de dados (SGBD) emergiram como produtos comerciais com facilidades para a computação de apoio a decisão (SAD) No inicio, o Data Warehouse consistia de instantâneos, ou subconjuntos dos dados operacionais que eram carregados em banco de dados de apoio a decisão em períodos regulares que costumavam ser semanais ou mensais (Ballard & Herreman, 1998).

Data Warehouse Definições “Data Warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não volátil que tem por objetivo dar suporte aos processos de tomada de decisão.” Inmon(1997) “Poder faz dinheiro. Conhecimento é poder. Data Warehouse aumenta o conhecimento. Portanto, Data Warehouse faz dinheiro.” Knowles (1996) A definição clássica de Data Warehouse criada por Inmon (1997) é a seguinte: “Data Warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não volátil que tem por objetivo dar suporte aos processos de tomada de decisão.” Knowles (1996) utiliza um lógica interessante para dizer como o Data Warehouse é importante para a empresa:

Data Warehouse X BD Operacional O dw é um banco para analise do negócio, seu uso não é operacional os dados dentro dele são analiticos, ou seja, não podem ser executadas inclusoes, alterações e exclusoes, e sim apenas para consultas informativas. O numero de usuários é inferior pois são da área gerencial da empresa, e tbm as informações não são de livre acesso. É importante considerar, no entanto, que um Data Warehouse não contém apenas dados resumidos, podendo conter também dados primitivos. limitar o conteúdo de um Data Warehouse apenas a dados resumidos significa limitar os usuários apenas às consultas e análises que eles puderem antecipar frente a seus requisitos atuais, não deixando qualquer flexibilidade para novas necessidades.

Data warehouse Arquitetura • Camadas de bancos de dados operacionais e fontes externas: É composto pelos dados dos sistemas operacionais das empresas e informações externas que irão compor o Data Warehouse; • Camada de acesso aos dados: Esta camada faz a ligação entre as ferramentas de acesso à informação e os bancos de dados operacionais. Esta camada se comunica com diferentes sistemas de bancos de dados, sistemas de arquivos e fontes sob diferentes protocolos de comunicação, o que se chama acesso universal de dados; • Camada de metadados (Dicionário de dados): Metadados são as informações que descrevem os dados utilizados pela empresa, isto envolve informações como descrições de registros, comandos de criação de tabelas, diagramas Entidade/Relacionamentos (ER), dados de um dicionário de dados, etc. • Camada do Data Warehouse: É o Data Warehouse propriamente dito, corresponde aos dados utilizados para obter informações. Às vezes o Data Warehouse pode ser simplesmente uma visão lógica ou virtual dos dados, podendo não envolver o armazenamento dos mesmos ou armazenar dados operacionais e externos para facilitar seu acesso e manuseio. • Camada de acesso à informação: Envolve o hardware e o software utilizado para obtenção de relatórios, planilhas, gráficos e consultas. É nesta camada que os usuários finais interagem com o Data Warehouse, utilizando ferramentas de manipulação, análise e apresentação dos dados, incluindo-se as ferramentas de Data Mining e visualização;

Data Warehouse Data Marts Os Data Marts são subconjuntos de dados, dentro de um Data Warehouse, projetados para dar suporte a negócios de unidade organizacionais especificas (NIMER, 1998). Os Data Marts são subconjuntos de dados, dentro de um Data Warehouse, projetados para dar suporte a negócios de unidade organizacionais especificas (NIMER, 1998). Segundo o autor, os Data Marts são muito interessantes para resolver certos problemas, mas não são necessariamente substitutos de um projeto de Data Warehouse. Um Data Mart não deve ser um pequeno Data Warehouse, com a finalidade de ser rápido ou possuir dados ainda não suportados para o Data Warehouse Os projetos de Data Marts se justificam em casos onde a alta gerência ainda não esta convencida quanto a vantagens que a tecnologia do Data Warehouse pode prover. Neste caso, os Data Marts são viáveis, por demoram entre 4 a 12 meses para serem implementados e, em conseqüência, começam a dar resultados mais rápidos. Os Data Warehouses têm prazos que variam entre 1 a 5 anos para implementação completa.

Data Warehouse Finalizando Data Warehouse é um ambiente adaptado para apenas um objetivo. Desafios: Consultas claras e rápidas. Disponibilizar metadados. Sistemas de gestão: Business Intelligence Núcleo do apoio á decisões. Como o Data Warehouse não é um sistema ou programa, mas sim um ambiente que necessita ser adaptado as necessidades das empresas é normal que cada ambiente de Data Warehouse possua características próprias, inviabilizando seu uso para outros objetivos que não os descritos no início do projeto A modelagem de Data Warehouse mostrou ser um desafio aos processos de desenvolvimento software. Um dos desafios é conseguir modelar os dados de maneira que todas as informações estejam disponíveis de forma clara e rápida para os usuário, outro desafio é disponibilizar as informações sobre os dados (metadados), para que os usuários possam saber quais informações estão disponíveis. Toda essa família de resultados, tecnologia e operações é chamada de Business Intelligence, e tem crescido até então. Hoje podemos encontrar sistemas de gestão oferecendo resultados completos e inteiramente customizados pelo usuário. A Data Warehouse é o núcleo dos sistemas de informação e fonte de apoio à decisão nas soluções de Business Intelligence.

OLAP (Online Analytical Processing)

OLAP -Origem Keneth Iverson – 1962 “A Programming Language” - APL Necessidade de relatórios dinâmicos Tecnologia OLAP – década de 90. Popularidade

OLAP - Definição Processamento Analítico Online Manipular e analisar um grande volume de dados sob múltiplas perspectivas Otimização de consulta e relatório BI- síntese de informações corporativas visões comparativas e personalizadas: Apresenta as informações via um modelo de dados natural e intuitivo. análises históricas; e elaboração de cenários.

OLAP - Definição Tipos básicos de dados: Medidas: Dimensões: Dados numéricos, como quantidades e médias Parâmetros utilizados na tomada de decisões dimensão especial utilizada para realizar comparações. Dimensões: Uma unidade de análise que agrupa dados de negócio relacionados.

OLAP - Definição Conceitos – chave: Cubo: estrutura multidimensional de dados do negócio. Membro: subconjunto de uma dimensão. Hierarquia: Uma estrutura em árvore lógica que organiza os membros de uma dimensão.

OLAP – Representação dos Dados

OLAP - Definição Conceitos-chave Drill-up: diminuir o nível de detalhamento Drill-down: aumentar o nível de detalhamento Slice and Dice: reorganizar os dados

OLAP - Multidimensionalidade Uma dimensão Duas Dimensões

OLAP - Multidimensionalidade Três Dimensões

OLAP - Multidimensionalidade Quatro Dimensões

OLAP e OLTP Exemplo: aplicações bancárias OLTP: Ponto de vista do cliente. inserção, alteração, remoção de dados individuais. OLAP: Ponto de vista do Gerente. Análise global de contas correntes com diversas visões. Ex: Saber qual é o desempenho de contas correntes que tenham cheque especial e tenham utilizado o valor máximo dos mesmos em um determinado período de tempo em algumas regiões.

OLAP – Principais Tipos MOLAP: os dados são armazenados em cubos multimensionais. ROLAP: manipula os dados armazenados no banco de dados relacional para dar a aparência de funcionalidade slice and dice do OLAP tradicional. HOLAP: combinação do MOLAP e ROLAP.

OLAP - Vantagens São utilizados por gestores de qualquer nível da organização; Análise, navegação e visualização de dados corporativos: Alto desempenho Consistente Interativa Dinâmica Perspectivas diferentes

OLAP - Desvantagens Escolha de uma ferramenta OLAP inadequada pode ocasionar severas consequências para um projeto de datawarehouse. Não existe nenhuma característica peculiar que dite como a ferramenta deve ser construída, qual tecnologia deva ser usada e que funcionalidades devem ser implementadas

Data Mining

Introdução - Data Mining Grande disponibilidade de dados armazenados eletronicamente Existem informações úteis, invisíveis, nesses grandes volumes de dados; Aproveitar para prever um conhecimento futuro (ir além do armazenamento explícito de dados).

Data Mining Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não. Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados. Seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informações úteis para a tomada de decisão e/ou avaliação de resultados.

Evolução do Data Mining

Processo – Data Mining Seleção. Pré-processamento. Transformação. Interpretação e Avaliação.

Processo - Data Mining Seleção Selecionar ou segmentar dados de acordo com critérios definidos: Ex.: Todas pessoas que possuem ensino superior. Pré-processamento Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. Reconfiguração dos dados para assegurar formatos consistentes (identificação) Ex. : graduação: “Graduação”, “Mestrado” ou Doutorado.

Processo - Data Mining Transformação Transforma-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada. Ex: rede neural  converter valor literal em valor numérico Disponibilizar os dados de maneira usável e navegável. Data mining É a verdadeira extração dos padrões de comportamento dos dados Utilizando a definição de fatos, medidas de padrões, estados e o relacionamento entre eles.

Processo – Data Mining Interpretação e Avaliação Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas Ex.: Tarefas de previsões e classificações

Técnicas Indução Regras indutivas É o processo de olhar uma série de dados e, a partir dela gerar padrões; Pode-se trabalhar com dados numéricos ou não; Hipóteses;

Técnicas Árvores de decisão Representação simples do conhecimento; Utilização de regras condicionais; A partir de um conjunto de valores decide SIM ou NÃO.

Técnicas Redes Neurais É uma abordagem computacional que envolve estruturas matemáticas com a habilidade de aprender; Elementos interconectados e possuem entrada e saída do processamento; São organizados em camadas que aprendem pela modificação da conexão

Técnicas Redes Neurais

Ferramenta WEKA Open Source: Implementada na linguagem JAVA. Classificação Um classificador (ou modelo de classificação) é utilizado para identificar a classe à qual pertence uma determinada observação de uma base de dados, a partir de suas características (seus atributos).

Exemplo – Entrada de dados O Software WEKA utiliza o arquivo .arff para a entrada de dados o qual possui a seguinte estrutura: @relation Censo   @attribute Escolaridade {Graduacao, Mestrado, Doutorado} @attribute Idade {>30, <=30} @attribute Rido {Sim, Nao} @data Mestrado,>30,Sim Doutorado,<=30,Sim Mestrado,<=30,Nao Doutorado,>30,Sim Graduacao,<=30,Nao Graduacao,>30,Nao

Exemplo – Saida de dados Matriz de Confusão === Confusion Matrix === a b <-- classified as 4 5 | a = Sim 6 3 | b = Nao Arvore de Decisão