A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Uma abordagem de Mineração de Dados na Concessão de Crédito

Apresentações semelhantes


Apresentação em tema: "Uma abordagem de Mineração de Dados na Concessão de Crédito"— Transcrição da apresentação:

1 Uma abordagem de Mineração de Dados na Concessão de Crédito
David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009

2 Sumário Introdução Problema Mineração de Dados Modelagem
Experimentos e Resultados Conclusões 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

3 Introdução PAKDD 2009 Conferência líder nas áreas de mineração de dados e descoberta de conhecimento Robustez contra a degradação causada ao longo de alguns anos de operação comercial Conjuntos de dados provêm do cartão de crédito ( ) 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

4 Problema Avaliação de risco de crédito Clientes maus
Grande rede de lojas brasileiras 8 anos de operação Taxa de aceitação de 50% para 75% neste período Clientes maus Atraso maior que 60 dias 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

5 Problema 31 variáveis afetadas pelas imperfeições típicas dos problemas reais, como o ruído, a falta de dados, outliers 9 variáveis numéricas e 22 categóricas Modelagem Período Leaderboard Prediction 12 meses 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

6 Objetivo Extrair conhecimento dos dados de modelagem para obter o melhor desempenho Conjunto de Dados Modelagem Leaderboard Prediction Número de Padrões 50.000 10.000 Intervalo de tempo 12 meses Variável Alvo Rotulado Não Rotulado Prop. do Alvo 20% vs. 80% Não Revelado 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

7 Objetivo Leaderboard Prediction Team Name University, Lab or Company
AUC_ROC TDMS Tiberius Data Mining Solutions 0.6292 VladN Suncorp 0.6283 LatentView Analytics LatentView 0.6215 Victory 0.6190 Prediction Team Name University, Lab or Company AUC_ROC Equinox ANZ 0.6588 Weka1 University of Waikato 0.6569 Logit Tel-Aviv University, ISRAEL 0.6550 CRC University of Edinburgh 0.6510 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

8 Mineração de Dados Entendimento dos Dados Atributo Descrição AGE
Idade do candidato MARITAL_STATUS Estado civil do candidato MONTHS_IN_THE_JOB Quantidade de meses trabalhando FLAG_RESIDENCIAL_PHONE Indica se o candidato possui telefone residencial ID_SHOP Identificador da loja PERSONAL_NET_INCOME Renda SEX Sexo MONTHS_IN_RESIDENCE Quantidade de meses morando na atual residência MATE_INCOME Renda do parceiro 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

9 Mineração de Dados Eliminação de variáveis Missing Values
10 variáveis eliminadas Missing Values 2 variáveis transformada para flag Moda ou mediana 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

10 Mineração de Dados Outliers 99º Percentil Atributo Outliers AGE 238
SHOP_RANK 287 MONTHS_IN_RESIDENCE 547 MONTHS_IN_THE_JOB 1279 PERSONAL_NET_INCOME 1 QUANT_ADDITIONAL_CARDS_IN_THE_APPLICATION 885 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

11 Mineração de Dados Importância das variáveis KS e ROC Atributo KS2 Máx
AUC_ROC AGE 0,1912 0,3734 SHOP_RANK 0,0095 0,4998 MONTHS_IN_RESIDENCE 0,0489 0,4678 MONTHS_IN_THE_JOB 0,1295 0,4329 PERSONAL_NET_INCOME 0,0885 0,4482 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

12 Mineração de Dados Importância das variáveis Ganho de informação Ganho
Atributo AGE QUANT_ADDITIONAL_CARDS_IN_THE DISCRETIZED_AGE PAYMENT_DAY MARITAL_STATUS RESIDENCE_TYPE MONTHS_IN_THE_JOB FLAG_FATHERS_NAME FLAG_RESIDENCIAL_PHONE PERSONAL_REFERENCE_2 ID_SHOP SHOP_RANK PERSONAL_NET_INCOME FLAG_MOTHERS_NAME SEX FLAG_RESIDENCE_TOWN_WORKING_TOWN MONTHS_IN_RESIDENCE FLAG_RESIDENCIAL_ADDRESS_POSTAL MATE_INCOME FLAG_RESIDENCE_STATE_WORKING_STATE 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

13 Relação Atributo vs. Atributo
Mineração de Dados Correlação de Pearson Relação Atributo vs. Atributo Pearson Correlation AGE vs. MONTHS_IN_THE_JOB 0,358 AGE vs. MONTHS_IN_RESIDENCE 0,253 AGE vs. QUANT_ADDITIONAL_CARDS_IN 0,174 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

14 Classificador Rede Neural MLP Backpropagation Sigmóide Logística
Taxa de aprendizagem 0.001 Momento 0.2 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

15 Experimentos Monte Carlo com 10 iterações 4-Fold Cross Validation
Área sob a curva ROC 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

16 Resultados Iteração 1 01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

17 Desempenho médio 0.666 e desvio padrão 0.0063
Resultados Experimento AUC_ROC ITERAÇÃO 01 0.675 ITERAÇÃO 02 0.671 ITERAÇÃO 03 0.663 ITERAÇÃO 04 0.655 ITERAÇÃO 05 0.662 ITERAÇÃO 06 0.670 ITERAÇÃO 07 0.660 ITERAÇÃO 08 0.665 ITERAÇÃO 09 ITERAÇÃO 10 0.672 Desempenho médio e desvio padrão 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

18 Teste t A significancia do teste foi estipulada em 1%
10 iterações resultando em nove graus de liberdade t0 = 2.821 t = 7.529 Logo, com 99% de confiança rejeitamos H0 H0 : µ <= 0.651 H1 : µ > 0.651 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

19 Conclusões Resultados satisfatórios
Pouco tempo para um trabalho mais detalhado permitindo a criação de novas variáveis Avaliar desempenho sobre o Leaderboard Outros classificadores e a combinação entre eles 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

20 Referências PAKDD 2009 http://itpe.siit.tu.ac.th/papervue/front/
C. Shearer, "The CRISP-DM model: the new blueprint for data mining“ F. Tom, “An introduction to ROC analysis” M.H. DeGroot, Probability and Statistics. Addison-Wesley, 1980 W.J. Conover, Practical Nonparametric Statistics. John Wiley & Sons,1998. 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

21 Uma abordagem de Mineração de Dados na Concessão de Crédito
David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009


Carregar ppt "Uma abordagem de Mineração de Dados na Concessão de Crédito"

Apresentações semelhantes


Anúncios Google