A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática –

Apresentações semelhantes


Apresentação em tema: "Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática –"— Transcrição da apresentação:

1 Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009

2 Sumário Introdução Problema Mineração de Dados Modelagem Experimentos e Resultados Conclusões 01/07/2009 2 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

3 Introdução PAKDD 2009 – Conferência líder nas áreas de mineração de dados e descoberta de conhecimento – Robustez contra a degradação causada ao longo de alguns anos de operação comercial – Conjuntos de dados provêm do cartão de crédito (2003-2008) 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 3

4 Problema Avaliação de risco de crédito – Grande rede de lojas brasileiras – 8 anos de operação – Taxa de aceitação de 50% para 75% neste período Clientes maus – Atraso maior que 60 dias 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 4

5 Problema 31 variáveis afetadas pelas imperfeições típicas dos problemas reais, como o ruído, a falta de dados, outliers 9 variáveis numéricas e 22 categóricas 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 5 ModelagemPeríodoLeaderboardPeríodoPrediction 12 meses

6 Objetivo Extrair conhecimento dos dados de modelagem para obter o melhor desempenho 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 6 Conjunto de DadosModelagemLeaderboardPrediction Número de Padrões50.00010.000 Intervalo de tempo12 meses Variável AlvoRotuladoNão Rotulado Prop. do Alvo20% vs. 80%Não Revelado

7 Objetivo 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 7 Team NameUniversity, Lab or CompanyAUC_ROC TDMSTiberius Data Mining Solutions0.6292 VladNSuncorp0.6283 LatentView AnalyticsLatentView0.6215 Victory 0.6190 Leaderboard Team NameUniversity, Lab or CompanyAUC_ROC EquinoxANZ0.6588 Weka1University of Waikato0.6569 LogitTel-Aviv University, ISRAEL0.6550 CRCUniversity of Edinburgh0.6510 Prediction

8 Mineração de Dados Entendimento dos Dados 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 8 A TRIBUTO D ESCRIÇÃO AGEIdade do candidato MARITAL_STATUSEstado civil do candidato MONTHS_IN_THE_JOBQuantidade de meses trabalhando FLAG_RESIDENCIAL_PHONEIndica se o candidato possui telefone residencial ID_SHOPIdentificador da loja PERSONAL_NET_INCOMERenda SEXSexo MONTHS_IN_RESIDENCEQuantidade de meses morando na atual residência MATE_INCOMERenda do parceiro

9 Mineração de Dados Eliminação de variáveis – 10 variáveis eliminadas Missing Values – 2 variáveis transformada para flag – Moda ou mediana 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 9

10 Mineração de Dados Outliers – 99º Percentil 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 10 A TRIBUTO O UTLIERS AGE238 SHOP_RANK287 MONTHS_IN_RESIDENCE547 MONTHS_IN_THE_JOB1279 PERSONAL_NET_INCOME1 QUANT_ADDITIONAL_CARDS_IN_THE_APPLICATION885

11 Mineração de Dados Importância das variáveis – KS e ROC 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 11 AtributoKS2 MáxAUC_ROC AGE0,19120,3734 SHOP_RANK0,00950,4998 MONTHS_IN_RESIDENCE0,04890,4678 MONTHS_IN_THE_JOB0,12950,4329 PERSONAL_NET_INCOME0,08850,4482

12 Mineração de Dados Importância das variáveis – Ganho de informação 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 12 GanhoAtributoG ANHO Atributo 0.0375023AGE0.0033416QUANT_ADDITIONAL_CARDS_IN_THE 0.0318123DISCRETIZED_AGE0.0019563PAYMENT_DAY 0.0175899MARITAL_STATUS0.0013251RESIDENCE_TYPE 0.0167471MONTHS_IN_THE_JOB0.0010863FLAG_FATHERS_NAME 0.0132986FLAG_RESIDENCIAL_PHONE0.0007554PERSONAL_REFERENCE_2 0.0130153ID_SHOP0.0005608SHOP_RANK 0.010924PERSONAL_NET_INCOME0.0002966FLAG_MOTHERS_NAME 0.0048649SEX0.0001462FLAG_RESIDENCE_TOWN_WORKING_TOWN 0.0043717MONTHS_IN_RESIDENCE0.0000575FLAG_RESIDENCIAL_ADDRESS_POSTAL 0.0033898MATE_INCOME0.0000313FLAG_RESIDENCE_STATE_WORKING_STATE

13 Mineração de Dados Correlação de Pearson 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 13 R ELAÇÃO A TRIBUTO VS. A TRIBUTO P EARSON C ORRELATION AGE vs. MONTHS_IN_THE_JOB0,358 AGE vs. MONTHS_IN_RESIDENCE0,253 AGE vs. QUANT_ADDITIONAL_CARDS_IN0,174

14 Classificador Rede Neural MLP – Backpropagation – Sigmóide Logística – Taxa de aprendizagem 0.001 – Momento 0.2 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 14

15 Experimentos Monte Carlo com 10 iterações 4-Fold Cross Validation Área sob a curva ROC 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 15

16 Resultados 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 16 Iteração 1

17 Resultados 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 17 E XPERIMENTO AUC_ROC ITERAÇÃO 010.675 ITERAÇÃO 020.671 ITERAÇÃO 030.663 ITERAÇÃO 040.655 ITERAÇÃO 050.662 ITERAÇÃO 060.670 ITERAÇÃO 070.660 ITERAÇÃO 080.665 ITERAÇÃO 090.670 ITERAÇÃO 100.672 Desempenho médio 0.666 e desvio padrão 0.0063

18 Teste t A significancia do teste foi estipulada em 1% 10 iterações resultando em nove graus de liberdade t0 = 2.821 t = 7.529 Logo, com 99% de confiança rejeitamos H0 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 18 H0 : µ <= 0.651 H1 : µ > 0.651

19 Conclusões Resultados satisfatórios Pouco tempo para um trabalho mais detalhado permitindo a criação de novas variáveis Avaliar desempenho sobre o Leaderboard Outros classificadores e a combinação entre eles 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 19

20 Referências PAKDD 2009 http://itpe.siit.tu.ac.th/papervue/front/ http://itpe.siit.tu.ac.th/papervue/front/ C. Shearer, "The CRISP-DM model: the new blueprint for data mining F. Tom, An introduction to ROC analysis M.H. DeGroot, Probability and Statistics. Addison- Wesley, 1980 W.J. Conover, Practical Nonparametric Statistics. John Wiley & Sons,1998. 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 20

21 Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009


Carregar ppt "Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática –"

Apresentações semelhantes


Anúncios Google