A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Data Mining: Conceitos e Técnicas. DM, DW e OLAP.

Apresentações semelhantes


Apresentação em tema: "Data Mining: Conceitos e Técnicas. DM, DW e OLAP."— Transcrição da apresentação:

1 Data Mining: Conceitos e Técnicas

2 DM, DW e OLAP

3 Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining

4 Data Warehousing e OLAP para Data Mining Data Warehouse: A Memória da Empresa Data Mining: A Inteligência da Empresa

5 O que é Data Warehouse? Definido de diversas formas, mas não rigorosamente: –É uma base de dados de suporte que é mantida separadamente da base de dados operacional da organização; –Suporta o processamento de informações provendo uma sólida plataforma de dados históricos e consolidados para análise;

6 O que é Data Warehouse? “Um data warehouse é uma coleção de dados: 1.orientada a assunto (subject-oriented); 2.integrada; 3.variante no tempo, e 4.não-volátil para suporte a decisões de gerenciamento”.—W. H. Inmon Data warehousing: o processo de construção e uso de data warehouses.

7 Usos do data warehouse Processamento de Informações: –Suporta consultas, análise estatística básica e relatórios usando tabelas, gráficos, etc. Processamento analítico: –Análise multi-dimensional doas dados contidos no data warehouse; –Suporta operações OLAP básicas (slice-dice, drilling, pivoting);

8 Usos do data warehouse Data mining: –Descoberta de conhecimento em padrões; –Suporta associações, construção de modelos analíticos, executa classificação e predição, e apresenta os resultados usando ferramentas de visualização.

9 De OLAP para OLAM Por que OLAM? Alta qualidade dos dados nos data warehouses; –DW contem dados integrados, consistentes e limpos. Estrutura para o tratamento de informação disponível no ambiente de DW: –ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e ferramentas OLAP; Análise de dados exploratória baseada em OLAP; –Mineração com drilling, dicing, pivoting, etc. Seleção on-line das funções de data mining: –Integração e intercâmbio de múltiplas funções de mineração, algoritmos e tarefas.

10 Uma arquitetura OLAM Data Warehouse Meta Data MDDB OLAM Engine OLAP Engine User GUI API Data Cube API Database API Data cleaning Data integration Layer3 OLAP/OLAM Layer2 MDDB Layer1 Data Repository Layer4 User Interface Filtering&IntegrationFiltering Databases Mining queryMining result

11 Pré-processamento de dados

12 Por que pré-processar os dados ? Dados reais são “sujos”: –Incompletos: falta de valores de atributos, falta de atributos de interesse ou existência de atributos agregados; –Ruidosos: contem erros e desvios; –Inconsistentes: contem discrepâncias em nomes e na codificação. Sem dados de qualidade, sem resultados de qualidade em DM: –Decisões de qualidade devem estar baseadas em dados de qualidade; –DW necessita da integração consistente de dados de qualidade.

13 Medida multidimensional da qualidade dos dados Uma visão multidimensional bem aceita: –Correção; –Completude; –Consistência; –Atualidade (timeliness); –Credibilidade; –Valor adicionado; –Interpretabilidade; –Acessibilidade. Categorias abrangentes: –Intrínseca, contextual, representacional e acessibilidade.

14 Principais tarefas no pré- processamento dos dados Limpeza dos dados: –Preenchimento de valores inexistentes, atenuação de dados ruidosos, identificação e remoção de desvios, resolução de inconsistências; Integração de dados: –Integração de múltiplos DB, data cubos, e arquivos; Transformações nos dados: –normalização e agregação; Redução de dados: –Obtenção de uma representação reduzida em volume mas que produz resultados de análise idênticos ou similares.

15 Principais tarefas no pré- processamento dos dados Limpeza dos dados: Valores faltantes 1.Ignorar a tupla; 2.Preencher o valor manualmente; 3.Usar uma constante global; 4.Usar o valor médio do atributo na base; 5.Usar o valor médio do atributo na classe; 6.Usar o valor mais provável.

16 Principais tarefas no pré- processamento dos dados Limpeza dos dados: Atenuação de dados ruidosos 1.Discretização; 2.Agrupamento; 3.Interação humana; 4.Regressão.

17 Principais tarefas no pré- processamento dos dados Limpeza dos dados: Inconsistências 1.Eliminar dados; 2.Corrigir manualmente; 3.Ignorar.

18 Principais tarefas no pré- processamento dos dados Integração de dados: –Integração de esquemas de BD: problema da identificação de entidades; –Redundâncias; –Detecção e resolução de valores conflitantes nos dados.

19 Principais tarefas no pré- processamento dos dados Transformações nos dados: –Suavização (smooting); –Agregação; –Generalização; –Normalização (entre 0 e 1); –Construção de atributos.

20 Principais tarefas no pré- processamento dos dados Redução de dados: –Agregação de data cubes; –Redução de dimensionalidade; –Compressão de dados; –Redução de instâncias; –Geração de hierarquias de conceitos.

21 Formas de pré-processamento de dados

22 Sumário A preparação do dados é um ponto crucial tanto para data warehousing quanto para data mining; A preparação de dados inclui: –Limpeza e Integração de dados; –Redução de dados e seleção de características; –Discretização: intervalos iguais, freqüências iguais, agrupamento. Vários métodos têm sido desenvolvidos, mas ainda é área ativa de pesquisa.


Carregar ppt "Data Mining: Conceitos e Técnicas. DM, DW e OLAP."

Apresentações semelhantes


Anúncios Google