Data Mining: Conceitos e Técnicas

Slides:



Advertisements
Apresentações semelhantes
Ferramentas OLAP: MicroStrategy OLAP Services
Advertisements

Administração de Sistemas de Informação
Introdução à Descoberta de Conhecimento e Mineração de Dados
Sistemas distribuídos Metas de Projeto Prof. Diovani Milhorim
INTELIGÊNGIA COMPUTACIONAL
Funcionalidades de um SGBD
Tabela de Banco de Dados Relacional
Felipe Carvalho – UFES 2009/2
Material Elaborado pelo Prof. Francisco de A. T. de Carvalho
SISTEMAS DE INFORMAÇÃO
Planejamento Estratégico de TI
1 Mineração de Dados - Trabalho Final junho/julho de 2008 Selecionar um arquivo de dados entre os sugeridos no repósitório UCI (
PROBLEMAS E DECISÕES EMPRESARIAIS
OLAP – Motivação e conceitos
Apresentação SOE Assunto DATA WAREHOUSE Professor TANAKA
Mineração de Dados ou Descoberta de conhecimento em BDs
Técnicas de Pre-processamento
Mineração de Dados Introdução.
Data Warehouse Um Data Warehouse é um armazém de dados, contendo dados extraídos do ambiente de produção da empresa. De acordo com INMON (1997), um.
Conjunto de ferramentas e técnicas que objetivam dar suporte à
Unidade 3 – Estrutura dos SAD: Componentes e Arquitetura – Slide 1
Data Mining, Data Warehousing e OLAP
Tomada de Decisão e Sistemas de Informação
Datawarehouse Um Ambiente Estruturado Por Michel Andrade de Souza
Tecnologias de Linguagens para Banco de Dados
Sistemas Distribuídos
Desenvolvimento de Sistemas OLAP
Metolodogia de Desenvolvimento de Data Warehouse
Thales Alberto Priscila Tavares Kali Fauaze Igor Daniel William Martin.
Tecnologia da informação e estado
Business Intelligence:
4. Decisões Estruturadas 4.1. Data Warehouse (DW)
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Capacidades do Data Warehouse
Aprendizado de Máquina - Introdução
Redes Bayesianas - Aplicação em Risco Operacional
Professor: Márcio Amador
J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades.
1 Gerenciamento da Informação O que é gerenciamento? O que é gerenciamento? Como uma idéia geral, gerenciamento, gestão ou administração é a atividade.
Documentação de Software
Jacques Robin e Francisco Carvalho CIn-UFPE Tópicos de projetos da disciplina de mineração de dados
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
ASSUNTO Facilitando a Tomada de Decisão em um Ambiente Móvel Mohamed A. Sharaf Panos K. Chrysanthis Felipe Menezes Cardoso COPIN – UFCG Banco de Dados.
Gestão da Tecnologia da Informação
Sistemas de Informações em Recursos Humanos
24/4/2015IA - Prof. Paulemir Campos1 WEKA UPE – Caruaru – Sistemas de Informação Disciplina: Inteligência Artificial Prof.: Paulemir G. Campos.
Data Warehouse Bruno Estevão Rosa Emerson Barbosa Gonçalves
Mineração de Dados: Introdução
Operações para entrada de dados –Compilação de dados codificação de dados geográficos de uma forma conveniente para o sistema; incluem a digitalização,
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG URL: Função: Classificação Técnica: Árvore de Decisão.
Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE.
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Operações para entrada de dados –Compilação de dados codificação de dados geográficos de uma forma conveniente para o sistema; incluem a digitalização,
KDD E MINERAÇÃO DE DADOS
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Uso de Ontologias em Data Warehousing
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
Projeto de Banco de Dados
Modelagem Dimensional do Data Warehouse
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Janeiro/2013 Ceça Moraes Data Warehouse Janeiro/2013 Ceça Moraes
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Data Warehouse Introdução ao Data Warehouse Introdução ao Data Warehouse Sistemas de Apoio à Decisão Sistemas de Apoio à Decisão Conceituação de Data Warehouse.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
INTEGRAÇÃO DE DADOS: UMA PERSPECTIVA TEÓRICA Guilherme P. K. Caminha Disciplina: IF696.
Objetivos do Capítulo Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel.
INTELIGÊNCIA EMPRESARIAL Aula 9 - Modelagem de Data Warehouse.
INTELIGÊNCIA EMPRESARIAL Aula 8 - Metadados e Operações OLAP.
INTELIGÊNCIA EMPRESARIAL Aula 7 - Data Warehouse.
INTELIGÊNCIA EMPRESARIAL
Transcrição da apresentação:

Data Mining: Conceitos e Técnicas

DM, DW e OLAP

Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining

Data Warehousing e OLAP para Data Mining Data Warehouse: A Memória da Empresa Data Mining: A Inteligência da Empresa

O que é Data Warehouse? Definido de diversas formas, mas não rigorosamente: É uma base de dados de suporte que é mantida separadamente da base de dados operacional da organização; Suporta o processamento de informações provendo uma sólida plataforma de dados históricos e consolidados para análise;

O que é Data Warehouse? “Um data warehouse é uma coleção de dados: orientada a assunto (subject-oriented); integrada; variante no tempo, e não-volátil para suporte a decisões de gerenciamento”.—W. H. Inmon Data warehousing: o processo de construção e uso de data warehouses.

Usos do data warehouse Processamento de Informações: Suporta consultas, análise estatística básica e relatórios usando tabelas, gráficos, etc. Processamento analítico: Análise multi-dimensional doas dados contidos no data warehouse; Suporta operações OLAP básicas (slice-dice, drilling, pivoting);

Usos do data warehouse Data mining: Descoberta de conhecimento em padrões; Suporta associações, construção de modelos analíticos, executa classificação e predição, e apresenta os resultados usando ferramentas de visualização.

De OLAP para OLAM Por que OLAM? Alta qualidade dos dados nos data warehouses; DW contem dados integrados, consistentes e limpos. Estrutura para o tratamento de informação disponível no ambiente de DW: ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e ferramentas OLAP; Análise de dados exploratória baseada em OLAP; Mineração com drilling, dicing, pivoting, etc. Seleção on-line das funções de data mining: Integração e intercâmbio de múltiplas funções de mineração, algoritmos e tarefas.

Uma arquitetura OLAM Mining query Mining result OLAM Engine OLAP Layer4 User Interface User GUI API OLAM Engine OLAP Engine Layer3 OLAP/OLAM Data Cube API Layer2 MDDB MDDB Meta Data Database API Filtering&Integration Filtering Layer1 Data Repository Data cleaning Data Warehouse Databases Data integration

Pré-processamento de dados

Por que pré-processar os dados ? Dados reais são “sujos”: Incompletos: falta de valores de atributos, falta de atributos de interesse ou existência de atributos agregados; Ruidosos: contem erros e desvios; Inconsistentes: contem discrepâncias em nomes e na codificação. Sem dados de qualidade, sem resultados de qualidade em DM: Decisões de qualidade devem estar baseadas em dados de qualidade; DW necessita da integração consistente de dados de qualidade.

Medida multidimensional da qualidade dos dados Uma visão multidimensional bem aceita: Correção; Completude; Consistência; Atualidade (timeliness); Credibilidade; Valor adicionado; Interpretabilidade; Acessibilidade. Categorias abrangentes: Intrínseca, contextual, representacional e acessibilidade.

Principais tarefas no pré-processamento dos dados Limpeza dos dados: Preenchimento de valores inexistentes, atenuação de dados ruidosos, identificação e remoção de desvios, resolução de inconsistências; Integração de dados: Integração de múltiplos DB, data cubos, e arquivos; Transformações nos dados: normalização e agregação; Redução de dados: Obtenção de uma representação reduzida em volume mas que produz resultados de análise idênticos ou similares.

Principais tarefas no pré-processamento dos dados Limpeza dos dados: Valores faltantes Ignorar a tupla; Preencher o valor manualmente; Usar uma constante global; Usar o valor médio do atributo na base; Usar o valor médio do atributo na classe; Usar o valor mais provável.

Principais tarefas no pré-processamento dos dados Limpeza dos dados: Atenuação de dados ruidosos Discretização; Agrupamento; Interação humana; Regressão.

Principais tarefas no pré-processamento dos dados Limpeza dos dados: Inconsistências Eliminar dados; Corrigir manualmente; Ignorar.

Principais tarefas no pré-processamento dos dados Integração de dados: Integração de esquemas de BD: problema da identificação de entidades; Redundâncias; Detecção e resolução de valores conflitantes nos dados.

Principais tarefas no pré-processamento dos dados Transformações nos dados: Suavização (smooting); Agregação; Generalização; Normalização (entre 0 e 1); Construção de atributos.

Principais tarefas no pré-processamento dos dados Redução de dados: Agregação de data cubes; Redução de dimensionalidade; Compressão de dados; Redução de instâncias; Geração de hierarquias de conceitos.

Formas de pré-processamento de dados

Sumário A preparação do dados é um ponto crucial tanto para data warehousing quanto para data mining; A preparação de dados inclui: Limpeza e Integração de dados; Redução de dados e seleção de características; Discretização: intervalos iguais, freqüências iguais, agrupamento. Vários métodos têm sido desenvolvidos, mas ainda é área ativa de pesquisa.