Carregar apresentação
A apresentação está carregando. Por favor, espere
1
Data Mining: Conceitos e Técnicas
2
DM, DW e OLAP
3
Data Warehousing e OLAP para Data Mining
O que é data warehouse? De data warehousing para data mining
4
Data Warehousing e OLAP para Data Mining
Data Warehouse: A Memória da Empresa Data Mining: A Inteligência da Empresa
5
O que é Data Warehouse? Definido de diversas formas, mas não rigorosamente: É uma base de dados de suporte que é mantida separadamente da base de dados operacional da organização; Suporta o processamento de informações provendo uma sólida plataforma de dados históricos e consolidados para análise;
6
O que é Data Warehouse? “Um data warehouse é uma coleção de dados:
orientada a assunto (subject-oriented); integrada; variante no tempo, e não-volátil para suporte a decisões de gerenciamento”.—W. H. Inmon Data warehousing: o processo de construção e uso de data warehouses.
7
Usos do data warehouse Processamento de Informações:
Suporta consultas, análise estatística básica e relatórios usando tabelas, gráficos, etc. Processamento analítico: Análise multi-dimensional doas dados contidos no data warehouse; Suporta operações OLAP básicas (slice-dice, drilling, pivoting);
8
Usos do data warehouse Data mining:
Descoberta de conhecimento em padrões; Suporta associações, construção de modelos analíticos, executa classificação e predição, e apresenta os resultados usando ferramentas de visualização.
9
De OLAP para OLAM Por que OLAM?
Alta qualidade dos dados nos data warehouses; DW contem dados integrados, consistentes e limpos. Estrutura para o tratamento de informação disponível no ambiente de DW: ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e ferramentas OLAP; Análise de dados exploratória baseada em OLAP; Mineração com drilling, dicing, pivoting, etc. Seleção on-line das funções de data mining: Integração e intercâmbio de múltiplas funções de mineração, algoritmos e tarefas.
10
Uma arquitetura OLAM Mining query Mining result OLAM Engine OLAP
Layer4 User Interface User GUI API OLAM Engine OLAP Engine Layer3 OLAP/OLAM Data Cube API Layer2 MDDB MDDB Meta Data Database API Filtering&Integration Filtering Layer1 Data Repository Data cleaning Data Warehouse Databases Data integration
11
Pré-processamento de dados
12
Por que pré-processar os dados ?
Dados reais são “sujos”: Incompletos: falta de valores de atributos, falta de atributos de interesse ou existência de atributos agregados; Ruidosos: contem erros e desvios; Inconsistentes: contem discrepâncias em nomes e na codificação. Sem dados de qualidade, sem resultados de qualidade em DM: Decisões de qualidade devem estar baseadas em dados de qualidade; DW necessita da integração consistente de dados de qualidade.
13
Medida multidimensional da qualidade dos dados
Uma visão multidimensional bem aceita: Correção; Completude; Consistência; Atualidade (timeliness); Credibilidade; Valor adicionado; Interpretabilidade; Acessibilidade. Categorias abrangentes: Intrínseca, contextual, representacional e acessibilidade.
14
Principais tarefas no pré-processamento dos dados
Limpeza dos dados: Preenchimento de valores inexistentes, atenuação de dados ruidosos, identificação e remoção de desvios, resolução de inconsistências; Integração de dados: Integração de múltiplos DB, data cubos, e arquivos; Transformações nos dados: normalização e agregação; Redução de dados: Obtenção de uma representação reduzida em volume mas que produz resultados de análise idênticos ou similares.
15
Principais tarefas no pré-processamento dos dados
Limpeza dos dados: Valores faltantes Ignorar a tupla; Preencher o valor manualmente; Usar uma constante global; Usar o valor médio do atributo na base; Usar o valor médio do atributo na classe; Usar o valor mais provável.
16
Principais tarefas no pré-processamento dos dados
Limpeza dos dados: Atenuação de dados ruidosos Discretização; Agrupamento; Interação humana; Regressão.
17
Principais tarefas no pré-processamento dos dados
Limpeza dos dados: Inconsistências Eliminar dados; Corrigir manualmente; Ignorar.
18
Principais tarefas no pré-processamento dos dados
Integração de dados: Integração de esquemas de BD: problema da identificação de entidades; Redundâncias; Detecção e resolução de valores conflitantes nos dados.
19
Principais tarefas no pré-processamento dos dados
Transformações nos dados: Suavização (smooting); Agregação; Generalização; Normalização (entre 0 e 1); Construção de atributos.
20
Principais tarefas no pré-processamento dos dados
Redução de dados: Agregação de data cubes; Redução de dimensionalidade; Compressão de dados; Redução de instâncias; Geração de hierarquias de conceitos.
21
Formas de pré-processamento de dados
22
Sumário A preparação do dados é um ponto crucial tanto para data warehousing quanto para data mining; A preparação de dados inclui: Limpeza e Integração de dados; Redução de dados e seleção de características; Discretização: intervalos iguais, freqüências iguais, agrupamento. Vários métodos têm sido desenvolvidos, mas ainda é área ativa de pesquisa.
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.