A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Data Mining: Conceitos e Técnicas

Apresentações semelhantes


Apresentação em tema: "Data Mining: Conceitos e Técnicas"— Transcrição da apresentação:

1 Data Mining: Conceitos e Técnicas

2 DM, DW e OLAP

3 Data Warehousing e OLAP para Data Mining
O que é data warehouse? De data warehousing para data mining

4 Data Warehousing e OLAP para Data Mining
Data Warehouse: A Memória da Empresa Data Mining: A Inteligência da Empresa

5 O que é Data Warehouse? Definido de diversas formas, mas não rigorosamente: É uma base de dados de suporte que é mantida separadamente da base de dados operacional da organização; Suporta o processamento de informações provendo uma sólida plataforma de dados históricos e consolidados para análise;

6 O que é Data Warehouse? “Um data warehouse é uma coleção de dados:
orientada a assunto (subject-oriented); integrada; variante no tempo, e não-volátil para suporte a decisões de gerenciamento”.—W. H. Inmon Data warehousing: o processo de construção e uso de data warehouses.

7 Usos do data warehouse Processamento de Informações:
Suporta consultas, análise estatística básica e relatórios usando tabelas, gráficos, etc. Processamento analítico: Análise multi-dimensional doas dados contidos no data warehouse; Suporta operações OLAP básicas (slice-dice, drilling, pivoting);

8 Usos do data warehouse Data mining:
Descoberta de conhecimento em padrões; Suporta associações, construção de modelos analíticos, executa classificação e predição, e apresenta os resultados usando ferramentas de visualização.

9 De OLAP para OLAM Por que OLAM?
Alta qualidade dos dados nos data warehouses; DW contem dados integrados, consistentes e limpos. Estrutura para o tratamento de informação disponível no ambiente de DW: ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e ferramentas OLAP; Análise de dados exploratória baseada em OLAP; Mineração com drilling, dicing, pivoting, etc. Seleção on-line das funções de data mining: Integração e intercâmbio de múltiplas funções de mineração, algoritmos e tarefas.

10 Uma arquitetura OLAM Mining query Mining result OLAM Engine OLAP
Layer4 User Interface User GUI API OLAM Engine OLAP Engine Layer3 OLAP/OLAM Data Cube API Layer2 MDDB MDDB Meta Data Database API Filtering&Integration Filtering Layer1 Data Repository Data cleaning Data Warehouse Databases Data integration

11 Pré-processamento de dados

12 Por que pré-processar os dados ?
Dados reais são “sujos”: Incompletos: falta de valores de atributos, falta de atributos de interesse ou existência de atributos agregados; Ruidosos: contem erros e desvios; Inconsistentes: contem discrepâncias em nomes e na codificação. Sem dados de qualidade, sem resultados de qualidade em DM: Decisões de qualidade devem estar baseadas em dados de qualidade; DW necessita da integração consistente de dados de qualidade.

13 Medida multidimensional da qualidade dos dados
Uma visão multidimensional bem aceita: Correção; Completude; Consistência; Atualidade (timeliness); Credibilidade; Valor adicionado; Interpretabilidade; Acessibilidade. Categorias abrangentes: Intrínseca, contextual, representacional e acessibilidade.

14 Principais tarefas no pré-processamento dos dados
Limpeza dos dados: Preenchimento de valores inexistentes, atenuação de dados ruidosos, identificação e remoção de desvios, resolução de inconsistências; Integração de dados: Integração de múltiplos DB, data cubos, e arquivos; Transformações nos dados: normalização e agregação; Redução de dados: Obtenção de uma representação reduzida em volume mas que produz resultados de análise idênticos ou similares.

15 Principais tarefas no pré-processamento dos dados
Limpeza dos dados: Valores faltantes Ignorar a tupla; Preencher o valor manualmente; Usar uma constante global; Usar o valor médio do atributo na base; Usar o valor médio do atributo na classe; Usar o valor mais provável.

16 Principais tarefas no pré-processamento dos dados
Limpeza dos dados: Atenuação de dados ruidosos Discretização; Agrupamento; Interação humana; Regressão.

17 Principais tarefas no pré-processamento dos dados
Limpeza dos dados: Inconsistências Eliminar dados; Corrigir manualmente; Ignorar.

18 Principais tarefas no pré-processamento dos dados
Integração de dados: Integração de esquemas de BD: problema da identificação de entidades; Redundâncias; Detecção e resolução de valores conflitantes nos dados.

19 Principais tarefas no pré-processamento dos dados
Transformações nos dados: Suavização (smooting); Agregação; Generalização; Normalização (entre 0 e 1); Construção de atributos.

20 Principais tarefas no pré-processamento dos dados
Redução de dados: Agregação de data cubes; Redução de dimensionalidade; Compressão de dados; Redução de instâncias; Geração de hierarquias de conceitos.

21 Formas de pré-processamento de dados

22 Sumário A preparação do dados é um ponto crucial tanto para data warehousing quanto para data mining; A preparação de dados inclui: Limpeza e Integração de dados; Redução de dados e seleção de características; Discretização: intervalos iguais, freqüências iguais, agrupamento. Vários métodos têm sido desenvolvidos, mas ainda é área ativa de pesquisa.


Carregar ppt "Data Mining: Conceitos e Técnicas"

Apresentações semelhantes


Anúncios Google