Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009
Sumário Introdução Problema Mineração de Dados Modelagem Experimentos e Resultados Conclusões 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Introdução PAKDD 2009 Conferência líder nas áreas de mineração de dados e descoberta de conhecimento Robustez contra a degradação causada ao longo de alguns anos de operação comercial Conjuntos de dados provêm do cartão de crédito (2003-2008) 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Problema Avaliação de risco de crédito Clientes maus Grande rede de lojas brasileiras 8 anos de operação Taxa de aceitação de 50% para 75% neste período Clientes maus Atraso maior que 60 dias 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Problema 31 variáveis afetadas pelas imperfeições típicas dos problemas reais, como o ruído, a falta de dados, outliers 9 variáveis numéricas e 22 categóricas Modelagem Período Leaderboard Prediction 12 meses 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Objetivo Extrair conhecimento dos dados de modelagem para obter o melhor desempenho Conjunto de Dados Modelagem Leaderboard Prediction Número de Padrões 50.000 10.000 Intervalo de tempo 12 meses Variável Alvo Rotulado Não Rotulado Prop. do Alvo 20% vs. 80% Não Revelado 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Objetivo Leaderboard Prediction Team Name University, Lab or Company AUC_ROC TDMS Tiberius Data Mining Solutions 0.6292 VladN Suncorp 0.6283 LatentView Analytics LatentView 0.6215 Victory 0.6190 Prediction Team Name University, Lab or Company AUC_ROC Equinox ANZ 0.6588 Weka1 University of Waikato 0.6569 Logit Tel-Aviv University, ISRAEL 0.6550 CRC University of Edinburgh 0.6510 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Mineração de Dados Entendimento dos Dados Atributo Descrição AGE Idade do candidato MARITAL_STATUS Estado civil do candidato MONTHS_IN_THE_JOB Quantidade de meses trabalhando FLAG_RESIDENCIAL_PHONE Indica se o candidato possui telefone residencial ID_SHOP Identificador da loja PERSONAL_NET_INCOME Renda SEX Sexo MONTHS_IN_RESIDENCE Quantidade de meses morando na atual residência MATE_INCOME Renda do parceiro 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Mineração de Dados Eliminação de variáveis Missing Values 10 variáveis eliminadas Missing Values 2 variáveis transformada para flag Moda ou mediana 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Mineração de Dados Outliers 99º Percentil Atributo Outliers AGE 238 SHOP_RANK 287 MONTHS_IN_RESIDENCE 547 MONTHS_IN_THE_JOB 1279 PERSONAL_NET_INCOME 1 QUANT_ADDITIONAL_CARDS_IN_THE_APPLICATION 885 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Mineração de Dados Importância das variáveis KS e ROC Atributo KS2 Máx AUC_ROC AGE 0,1912 0,3734 SHOP_RANK 0,0095 0,4998 MONTHS_IN_RESIDENCE 0,0489 0,4678 MONTHS_IN_THE_JOB 0,1295 0,4329 PERSONAL_NET_INCOME 0,0885 0,4482 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Mineração de Dados Importância das variáveis Ganho de informação Ganho Atributo 0.0375023 AGE 0.0033416 QUANT_ADDITIONAL_CARDS_IN_THE 0.0318123 DISCRETIZED_AGE 0.0019563 PAYMENT_DAY 0.0175899 MARITAL_STATUS 0.0013251 RESIDENCE_TYPE 0.0167471 MONTHS_IN_THE_JOB 0.0010863 FLAG_FATHERS_NAME 0.0132986 FLAG_RESIDENCIAL_PHONE 0.0007554 PERSONAL_REFERENCE_2 0.0130153 ID_SHOP 0.0005608 SHOP_RANK 0.010924 PERSONAL_NET_INCOME 0.0002966 FLAG_MOTHERS_NAME 0.0048649 SEX 0.0001462 FLAG_RESIDENCE_TOWN_WORKING_TOWN 0.0043717 MONTHS_IN_RESIDENCE 0.0000575 FLAG_RESIDENCIAL_ADDRESS_POSTAL 0.0033898 MATE_INCOME 0.0000313 FLAG_RESIDENCE_STATE_WORKING_STATE 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Relação Atributo vs. Atributo Mineração de Dados Correlação de Pearson Relação Atributo vs. Atributo Pearson Correlation AGE vs. MONTHS_IN_THE_JOB 0,358 AGE vs. MONTHS_IN_RESIDENCE 0,253 AGE vs. QUANT_ADDITIONAL_CARDS_IN 0,174 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Classificador Rede Neural MLP Backpropagation Sigmóide Logística Taxa de aprendizagem 0.001 Momento 0.2 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Experimentos Monte Carlo com 10 iterações 4-Fold Cross Validation Área sob a curva ROC 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Resultados Iteração 1 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Desempenho médio 0.666 e desvio padrão 0.0063 Resultados Experimento AUC_ROC ITERAÇÃO 01 0.675 ITERAÇÃO 02 0.671 ITERAÇÃO 03 0.663 ITERAÇÃO 04 0.655 ITERAÇÃO 05 0.662 ITERAÇÃO 06 0.670 ITERAÇÃO 07 0.660 ITERAÇÃO 08 0.665 ITERAÇÃO 09 ITERAÇÃO 10 0.672 Desempenho médio 0.666 e desvio padrão 0.0063 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Teste t A significancia do teste foi estipulada em 1% 10 iterações resultando em nove graus de liberdade t0 = 2.821 t = 7.529 Logo, com 99% de confiança rejeitamos H0 H0 : µ <= 0.651 H1 : µ > 0.651 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Conclusões Resultados satisfatórios Pouco tempo para um trabalho mais detalhado permitindo a criação de novas variáveis Avaliar desempenho sobre o Leaderboard Outros classificadores e a combinação entre eles 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Referências PAKDD 2009 http://itpe.siit.tu.ac.th/papervue/front/ C. Shearer, "The CRISP-DM model: the new blueprint for data mining“ F. Tom, “An introduction to ROC analysis” M.H. DeGroot, Probability and Statistics. Addison-Wesley, 1980 W.J. Conover, Practical Nonparametric Statistics. John Wiley & Sons,1998. 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009