Uma abordagem de Mineração de Dados na Concessão de Crédito

Slides:



Advertisements
Apresentações semelhantes
UNIDADE 5 . Custos de produção de curto e longo prazo
Advertisements

Utilizando o R. Técnicas para Predição de Dados 2 17/8/2008 Introdução ao R R é um linguagem (ambiente) de programação para computação estatística e gráfica.
Aprendizado de Máquina
INT = PV * i * n 1.CAPITALIZAÇÃO SIMPLES 1.1.Cálculo dos Juros
Linguagem de Programação VI Tipos de Dados Compostos - structs
TEORIA DE CONTROLE II (CEL039) Apresentação do Curso
Garantia de Qualidade do software
Estatística Descritiva Aula 02
Medidas de Tendência Central DADOS AGRUPADOS
Para Casa – Montar o cariograma
Medidas de Posição e Dispersão
Estatística Básica Utilizando o Excel
Estatística Básica Utilizando o Excel
MB751 – Modelos de previsão
Mineração de Dados Introdução.
Francieli Zanon Boito Rodrigo Virote Kassick
S TÉFANI P IRES Mineração de Dados – Trimestre Prof. Marcus Sampaio 02/12/2008 Mineração de Dados.
Estatística Aplicada (Aula 4)
CUSTOS LOGÍSTICOS Custos Logísticos 100%
Análise de Dados.
1 Felipe L. Severino Geração de Cenários para Desktop Computing Felipe L. Severino paralela e.
Classes e objetos Arrays e Sobrecarga
Gerenciamento de riscos
Cálculos Financeiros AULA 4 Profª Karine R. de Souza .
1 Actividade Física e Desportiva Dos Alunos da Escola Secundária Manuel de Arriaga Escola Secundária Manuel de Arriaga Ano lectivo 2009/10 Departamento.
Matemática Financeira – Unidade 2
Modelagem de tráfego auto-similar
Estatística Descritiva
Estatística Descritiva
Coleta e Modelagem dos Dados de Entrada
Projeto de Estatística
Renata Miwa Tsuruda São Carlos, 07 de Dezembro de 2009
Aula 10 e 11.
MAPEANDO O SCRUM SEGUNDO O MPS.BR NÍVEL G
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE CAMPINAS
1 Julho de 2012 Anexo. 2 3 Desempenho da Arrecadação das Receitas Federais Evolução Janeiro a Julho – 2012/2011.
1 Agosto de 2012 Anexo. 2 3 Desempenho da Arrecadação das Receitas Federais Evolução Janeiro a Agosto – 2012/2011.
Data Warehouse & Data Mining
Estatística Descritiva (I)
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Algoritmos Culturais.
Capítulo 1 Introdução à administração e às organizações.
DISTRIBUIÇÃO NORMAL GAUSS ou LAPLACE CECILIA Q. ROKEMBACH
Teste de Hipóteses de uma amostra Prof. Helcio Rocha
Gerhard M¨unz, Sa Li, Georg Carle Computer Networks and Internet Wilhelm Schickard Institute for Computer Science University of Tuebingen, Germany Traffic.
Variáveis contínuas – um grupo
Faculdade de Engenharia da Universidade do Porto
Call Center de Emergência Marcus A. de Queiroz V. Lima
Modelagem Estatística
Aula 12 Dia – 08/11.
Planejamento e Implantação de rede: Escritório de Publicidade
AULA DE ESTATÍSTICA PROFESSOR RODRIGÃO.
Medidas de freqüência e de risco 4. Mede a proporção de indivíduos que é afetada por uma condição (casos existentes) num dado ponto do tempo. PREVALÊNCIA.
4 Medidas de freqüência e de risco.
ANÁLISE ESTATÍSTICA II
1 2 Observa ilustração. Cria um texto. Observa ilustração.
ANÁLISE ESTATÍSTICA II
CALENDÁRIO SEXY Ele & Ela. CALENDÁRIO SEXY Ele & Ela.
Exercício - 1. Criar no SPSS o banco de dados com as informações fornecidas 2. Salvar o banco com o nome atividade física na pasta pos pilates 3.
Rio Verde - Goiás - Brasil
Evidências.com 1/24 Projeto de Pesquisa Método estatístico (Tamanho da Amostra)
CALENDÁRIO 2013 MÓDULO II.
Nome alunos 1 Título UC. Título – slide 2 Conteúdo Conteúdo 2.
Noções de Inferência Estatística
Acordo comercial Drogaria Total x Medley. Período: Junho 2009 / Dezembro 2009 Desconto comercial: 56%; Prazo: 60dias; Distribuidores: Operadores Logísticos;
Aula 11 - Teste de hipóteses, teste de uma proporção
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Redes Neurais Treinamento de MLP. Treinamento Divisão das entradas Parâmetros de treinamento –350 iterações –Nº de nós da camada interna (26, 46, 92)
©2005 Germano C.Vasconcelos Projeto da Disciplina Germano C. Vasconcelos Centro de Informática - UFPE.
Transcrição da apresentação:

Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009

Sumário Introdução Problema Mineração de Dados Modelagem Experimentos e Resultados Conclusões 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Introdução PAKDD 2009 Conferência líder nas áreas de mineração de dados e descoberta de conhecimento Robustez contra a degradação causada ao longo de alguns anos de operação comercial Conjuntos de dados provêm do cartão de crédito (2003-2008) 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Problema Avaliação de risco de crédito Clientes maus Grande rede de lojas brasileiras 8 anos de operação Taxa de aceitação de 50% para 75% neste período Clientes maus Atraso maior que 60 dias 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Problema 31 variáveis afetadas pelas imperfeições típicas dos problemas reais, como o ruído, a falta de dados, outliers 9 variáveis numéricas e 22 categóricas Modelagem Período Leaderboard Prediction 12 meses 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Objetivo Extrair conhecimento dos dados de modelagem para obter o melhor desempenho Conjunto de Dados Modelagem Leaderboard Prediction Número de Padrões 50.000 10.000 Intervalo de tempo 12 meses Variável Alvo Rotulado Não Rotulado Prop. do Alvo 20% vs. 80% Não Revelado 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Objetivo Leaderboard Prediction Team Name University, Lab or Company AUC_ROC TDMS Tiberius Data Mining Solutions 0.6292 VladN Suncorp 0.6283 LatentView Analytics LatentView 0.6215 Victory 0.6190 Prediction Team Name University, Lab or Company AUC_ROC Equinox ANZ 0.6588 Weka1 University of Waikato 0.6569 Logit Tel-Aviv University, ISRAEL 0.6550 CRC University of Edinburgh 0.6510 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Mineração de Dados Entendimento dos Dados Atributo Descrição AGE Idade do candidato MARITAL_STATUS Estado civil do candidato MONTHS_IN_THE_JOB Quantidade de meses trabalhando FLAG_RESIDENCIAL_PHONE Indica se o candidato possui telefone residencial ID_SHOP Identificador da loja PERSONAL_NET_INCOME Renda SEX Sexo MONTHS_IN_RESIDENCE Quantidade de meses morando na atual residência MATE_INCOME Renda do parceiro 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Mineração de Dados Eliminação de variáveis Missing Values 10 variáveis eliminadas Missing Values 2 variáveis transformada para flag Moda ou mediana 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Mineração de Dados Outliers 99º Percentil Atributo Outliers AGE 238 SHOP_RANK 287 MONTHS_IN_RESIDENCE 547 MONTHS_IN_THE_JOB 1279 PERSONAL_NET_INCOME 1 QUANT_ADDITIONAL_CARDS_IN_THE_APPLICATION 885 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Mineração de Dados Importância das variáveis KS e ROC Atributo KS2 Máx AUC_ROC AGE 0,1912 0,3734 SHOP_RANK 0,0095 0,4998 MONTHS_IN_RESIDENCE 0,0489 0,4678 MONTHS_IN_THE_JOB 0,1295 0,4329 PERSONAL_NET_INCOME 0,0885 0,4482 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Mineração de Dados Importância das variáveis Ganho de informação Ganho Atributo 0.0375023 AGE 0.0033416 QUANT_ADDITIONAL_CARDS_IN_THE 0.0318123 DISCRETIZED_AGE 0.0019563 PAYMENT_DAY 0.0175899 MARITAL_STATUS 0.0013251 RESIDENCE_TYPE 0.0167471 MONTHS_IN_THE_JOB 0.0010863 FLAG_FATHERS_NAME 0.0132986 FLAG_RESIDENCIAL_PHONE 0.0007554 PERSONAL_REFERENCE_2 0.0130153 ID_SHOP 0.0005608 SHOP_RANK 0.010924 PERSONAL_NET_INCOME 0.0002966 FLAG_MOTHERS_NAME 0.0048649 SEX 0.0001462 FLAG_RESIDENCE_TOWN_WORKING_TOWN 0.0043717 MONTHS_IN_RESIDENCE 0.0000575 FLAG_RESIDENCIAL_ADDRESS_POSTAL 0.0033898 MATE_INCOME 0.0000313 FLAG_RESIDENCE_STATE_WORKING_STATE 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Relação Atributo vs. Atributo Mineração de Dados Correlação de Pearson Relação Atributo vs. Atributo Pearson Correlation AGE vs. MONTHS_IN_THE_JOB 0,358 AGE vs. MONTHS_IN_RESIDENCE 0,253 AGE vs. QUANT_ADDITIONAL_CARDS_IN 0,174 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Classificador Rede Neural MLP Backpropagation Sigmóide Logística Taxa de aprendizagem 0.001 Momento 0.2 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Experimentos Monte Carlo com 10 iterações 4-Fold Cross Validation Área sob a curva ROC 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Resultados Iteração 1 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Desempenho médio 0.666 e desvio padrão 0.0063 Resultados Experimento AUC_ROC ITERAÇÃO 01 0.675 ITERAÇÃO 02 0.671 ITERAÇÃO 03 0.663 ITERAÇÃO 04 0.655 ITERAÇÃO 05 0.662 ITERAÇÃO 06 0.670 ITERAÇÃO 07 0.660 ITERAÇÃO 08 0.665 ITERAÇÃO 09 ITERAÇÃO 10 0.672 Desempenho médio 0.666 e desvio padrão 0.0063 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Teste t A significancia do teste foi estipulada em 1% 10 iterações resultando em nove graus de liberdade t0 = 2.821 t = 7.529 Logo, com 99% de confiança rejeitamos H0 H0 : µ <= 0.651 H1 : µ > 0.651 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Conclusões Resultados satisfatórios Pouco tempo para um trabalho mais detalhado permitindo a criação de novas variáveis Avaliar desempenho sobre o Leaderboard Outros classificadores e a combinação entre eles 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Referências PAKDD 2009 http://itpe.siit.tu.ac.th/papervue/front/ C. Shearer, "The CRISP-DM model: the new blueprint for data mining“ F. Tom, “An introduction to ROC analysis” M.H. DeGroot, Probability and Statistics. Addison-Wesley, 1980 W.J. Conover, Practical Nonparametric Statistics. John Wiley & Sons,1998. 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009