A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

The CRISP-DM Process Model

Apresentações semelhantes


Apresentação em tema: "The CRISP-DM Process Model"— Transcrição da apresentação:

1 The CRISP-DM Process Model
Rodrigo Cunha

2 O que é CRISP-DM? Metodologia padrão não proprietária que identifica as diferentes fases na implantação de um projeto de data mining (DMP).

3 Metodologias em Data Mining
CRISP-DM Fonte: CRoss Industry Standard Process for Data Mining Source:

4 Níveis do CRISP-DM CRISP Process Model Mapping CRISP Process Phases
Generic Tasks Specialized Tasks Mapping Process Instances CRISP Process

5 Fluxo do Processo: CRISP-DM
Business understanding Data understanding Data Data preparation Deployment Modelling Evaluation

6 Processo de Descoberta do Conhecimento [Fayyad 96]
Preprocessing Data Sources Target Transformed Preprocessed Patterns / Models Knowledge Selection Interpretation/ Evaluation Transformation Data Mining 7 8 8

7 2. Business Understanding
CRISP-DM X KDD 6. Evaluation 7. Deployment Preprocessing Data Sources Target Transformed Preprocessed Patterns / Models Knowledge Selection Interpretation/ Evaluation Transformation Data Mining 5. Modeling 4.3 Construct Data 4.2 Clean Data 4.1 Select Data 3. Data Understanding 2. Business Understanding 7 8 8

8 Exemplo: Projeto Mineração de Dados Utilizando CRISP-DM

9 Objetivo do Projeto Descrever todo o processo de desenvolvimento da solução do projeto: Mineração de dados para a diagnóstico de falhas. Apresentar a metodologia de desenvolvimento de soluções padrão em mineração de dados chamada CRISP-DM

10 Sistema de Telecomunicações da Chesf
SDH-Alcatel O que a NeuroTech faz é desenvolver produtos com o que existe de mais avançado no mundo em tecnologias para a análise de risco de crédito e mineração de dados. Um combinação de técnicas de inteligência artificial que geram funcionalidades dos produtos que aumentam os acertos nas decisões e extraem conhecimento dos dados. São esses produtos que fazem com que a empresa possa controlar o seus riscos e conhecer melhor seus produtos, seus clientes, seu mercado e o seu negócio.

11 Fase 1 no projeto de DM Business Understanding:
Definição dos objetivos do negócio Detectar as falhas do sistema, a partir do histórico das ocorrências e da condição dos alarmes de sinalização de problemas nos sistemas. Extrair conhecimento dos dados através de regras para o melhor entendimento das circunstâncias que resultam em falhas. Descrever os critérios de resultados para que o projeto seja considerado um sucesso, assim como a forma de medir. Auxílio para a definição de políticas de manutenção Uniformidade no padrão de qualidade do serviço (livre de fadiga, stress, desgaste emocional) Redução do tempo de resposta às consultas

12 Fase 1 no projeto de DM (cont)
Business Understanding: Avaliar situação atual do cliente. Recursos Disponíveis Dados em um data warehouse (ORACLE) Suposições e Restrições Alarme Crítico = Falha SDH – Alcatel

13 Fase 1 no projeto de DM (cont)
Business Understanding: Determinar os riscos Demanda do especialista do domínio Qualidade dos dados Recebimento dos dados

14 Fase 1 no projeto de DM (cont)
Business Understanding: Determinar tarefas de mineração de dados Classificação de padrões Regras de classificação

15 Fase 1 no projeto de DM (cont)
Business Understanding: Fazer Plano do Projeto Etapa 1: Levantamento da situação atual do problema de falhas Etapa 2: Análise preliminar dos dados sobre as ocorrências de falhas de equipamentos Etapa 3: Preparação dos dados Modelagem dos dados Extração de Regras do conhecimento adquirido Etapa 4: Interação com especialista do domínio Homologação dos resultados Etapa 5: Implantação do protótipo

16 Fluxo do Processo: CRISP-DM
Data understanding preparation Modelling Evaluation Deployment Business understanding

17 Fase 2 no projeto de DM Data Understanding Coletar dados iniciais
Dados referentes aos alarmes na rede de telecomunicações SDH - Alcatel foram disponibilizados em arquivos textos mensais nos 14 meses de dez/2001 a jan/2003. Junção dos dados em uma única tabela. (ACCESS). Apenas 1 ano fev2002 a jan2003

18 Fase 2 no projeto de DM Data Understanding Descrever os dados
alarmes 75934 (15,46%) são alarmes críticos (falhas).

19 Fase 2 no projeto de DM Data Understanding Descrever os dados
Tipo de alarmes Freqüência Percentual CRITICAL 75934 15,5 % MAJOR 234780 47,8 % MINOR 147797 30,1 % WARNING 32616 6,6 %

20 Fase 2 no projeto de DM Data Understanding
Verificar qualidade dos dados Boa qualidade dos dados 0% de missings 0% de outliers

21 Fluxo do Processo: CRISP-DM
Business understanding Data preparation Modelling Evaluation Deployment

22 Fase 3 no projeto de DM Data Preparation:
Preparar os dados para importação no software de DM. Derivar campos calculados (se necessário) Integrar bases de dados externas (IBGE, Correios, etc.) Limpeza dos dados: outliers e missings. Codificar campos em: irrelevante, categórico e numérico.

23 Fase 3 no projeto de DM Data preparation: Campos Calculados:
QTD WARNING => Quantidade de alarmes warnings desde o último alarme crítico. QTD MAJOR => Quantidade de alarmes major desde o último alarme crítico QTD MINOR => Quantidade de alarmes minor desde o último alarme crítico

24 Fase 3 no projeto de DM Data preparation: Pré-Processamento:
5 (cinco) atributos relevantes 3 natureza numérica Normalização [0...1] 2 natureza categórica Transformação 1 de n Variável de saída ‘WARNING’ para ‘Não-FALHA’ ‘MINOR’ para ‘Não-FALHA’ ‘MAJOR’ para ‘Não-FALHA’ ‘CRITICO’ para ‘FALHA’

25 Fluxo do Processo: CRISP-DM
Business understanding Data preparation Modelling Evaluation Deployment

26 Fase 4 no projeto de DM Modeling: Selecionar as técnicas de modelagem
Redes Neurais Regras de Classificação Catalogar parâmetros utilizados 50% para treinamento, 25% para validação 25% para teste Retornar ao Data Preparation Software: Tanagra

27 Tanagra O que é? Autor: Ricco RAKOTOMALALA
Universidade de Lyon - FRANCE Tanagra é uma ferramenta free para mineração de dados open source project DELPHI (versão 6.0)

28 Tanagra

29 Vantagens Ferramenta gráfica Modular (Componentes) Alta produtividade
Código Aberto Integra algoritmos de terceiros Muito Eficiente!

30 Desvantagens Help deficiente Muitos BUGS
Pré-Processamento e Preparação dos Dados

31 Fase 4 no projeto de DM Modeling: Regras com abrangência maior que 5%
Rede Neural: Regras de Classificação: Arquitetura MLP Algoritmo: Backpropagation Camadas Escondidas: 1 Neurônios Escondidos: 2, 4, 8 e 20 Taxa de Aprendizado: 0,1, 0,01 e 0,001 Número de iterações: 100, 1000 e 10000 Problema: Diagnóstico de Falhas Número de Entradas: 16 Número de Saídas 2 Padrões de Treinamento 50% Padrões de Validação 25% Padrões de Teste Regras com abrangência maior que 5%

32 Fluxo do Processo: CRISP-DM
Business understanding Data preparation Modelling Evaluation Deployment

33 Fase 5 no projeto de DM Evaluation – Rede Neural:
Erro I = 3.4% (Classificar como falha quando na verdade é apenas alarme). Erro II = 5.1% (Classificar como alarme quando na verdade é uma falha). Erro Geral = 3.7% (classificação errônea)

34 Fase 5 no projeto de DM Evaluation - Regras de Classificação:
Regras que caracterizam situações de falhas: SE LOCAL = "XINGO MARGEM ESQUERD" ENTÃO FALHA EM 41.45%, REPRESENTANDO 6.9% DA MASSA. SE LOCAL = "ANGELIM (REPETIDORA)" ENTÃO FALHA EM 38.35%, REPRESENTANDO 8.2% DA MASSA. SE QTDWARNI = "DE 0 ATÉ 1" ENTÃO FALHA EM 23.30%, REPRESENTANDO 12% DA MASSA.

35 Fase 5 no projeto de DM Evaluation - Regras de Classificação:
Regras que caracterizam situações de alarmes: SE LOCAL = "RECIFE - COS" ENTÃO FALHA EM 00.95%, REPRESENTANDO 25.54% DA MASSA. SE LOCAL = "USINA DE SOBRADINHO" ENTÃO FALHA EM 01.58%, REPRESENTANDO 11.69% DA MASSA. SE QTDMINOR = "DE 1 ATÉ 2" ENTÃO FALHA EM 01.63%, REPRESENTANDO 15.60% DA MASSA.

36 Fluxo do Processo: CRISP-DM
Business understanding Data preparation Modelling Evaluation Deployment

37 Fase 6 no projeto de DM Deployment
Entrega do produto do projeto de mineração de dados. Software em produção (on-line) Software analítico (off-line) Relatório com um resumo das etapas do processo CRISP-DM. Treinamento e Apresentação para o Usuário

38 Resumo das Ferramentas Utilizadas
Nome Função Fabricante Fase Excel Planilha Microsoft Avaliação de desempenho ORACLE DISCOVERY Data Warehouse ORACLE Entendendo os dados Access Banco de Dados Word Editor de texto Entendendo o negócio Oxedit Manipulação de grandes arquivos texto. OX TANAGRA Mineração de Dados Universidade de Lyon Modelagem SPSS Manipulação de dados Preparação dos dados

39 Conclusões Necessidade de uma ferramenta de mineração de dados completa. Apresentação metodologia CRISP-DM em um problema prático de mineração de dados. Formalização Replicação Bom poder de classificação da rede neural (poderia ser colocado em produção) Regras extraem conhecimento para tomada de decisão do especialista (off-line)

40 Trabalhos Futuros Utilização de outros algoritmos de aprendizagem KNN
Regressão Logística Análise Discriminante Apresentação dos artefatos gerados em cada uma das fases do CRISP-DM.

41 Referência Bibliográfica
Han, J., Kamber M. (2001) Data Mining: Concepts and techniques. Morgan Kaufman Publishers, San Francisco, CA. Witten, I., Frank, E. (2000) Data Mining: Pratical Machine Learning Tools and Techniques with Java Implementations. San Diego, California: Academic Press. FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery: An overview : in Fayyad, Piatetsky-Shapiro, Smyth and Uthurusamy, 1996.

42 Referência Bibliográfica
Página do Tanagra - Página do CRISP-DM – REINARTZ, T.; WIRTH, R.; CLINTON, J.; KHABAZA, T.; HEJLESEN, J.; CHAPMAN, P.; KERBER, R. The current CRISP-DM process model for data mining. Berlin: Technical University., 1998.

43 Perguntas?


Carregar ppt "The CRISP-DM Process Model"

Apresentações semelhantes


Anúncios Google