A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática –

Apresentações semelhantes


Apresentação em tema: "Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática –"— Transcrição da apresentação:

1 Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009

2 Sumário Introdução Problema Mineração de Dados Modelagem Experimentos e Resultados Conclusões 01/07/ David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

3 Introdução PAKDD 2009 – Conferência líder nas áreas de mineração de dados e descoberta de conhecimento – Robustez contra a degradação causada ao longo de alguns anos de operação comercial – Conjuntos de dados provêm do cartão de crédito ( ) 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 3

4 Problema Avaliação de risco de crédito – Grande rede de lojas brasileiras – 8 anos de operação – Taxa de aceitação de 50% para 75% neste período Clientes maus – Atraso maior que 60 dias 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 4

5 Problema 31 variáveis afetadas pelas imperfeições típicas dos problemas reais, como o ruído, a falta de dados, outliers 9 variáveis numéricas e 22 categóricas 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 5 ModelagemPeríodoLeaderboardPeríodoPrediction 12 meses

6 Objetivo Extrair conhecimento dos dados de modelagem para obter o melhor desempenho 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 6 Conjunto de DadosModelagemLeaderboardPrediction Número de Padrões Intervalo de tempo12 meses Variável AlvoRotuladoNão Rotulado Prop. do Alvo20% vs. 80%Não Revelado

7 Objetivo 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 7 Team NameUniversity, Lab or CompanyAUC_ROC TDMSTiberius Data Mining Solutions VladNSuncorp LatentView AnalyticsLatentView Victory Leaderboard Team NameUniversity, Lab or CompanyAUC_ROC EquinoxANZ Weka1University of Waikato LogitTel-Aviv University, ISRAEL CRCUniversity of Edinburgh Prediction

8 Mineração de Dados Entendimento dos Dados 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 8 A TRIBUTO D ESCRIÇÃO AGEIdade do candidato MARITAL_STATUSEstado civil do candidato MONTHS_IN_THE_JOBQuantidade de meses trabalhando FLAG_RESIDENCIAL_PHONEIndica se o candidato possui telefone residencial ID_SHOPIdentificador da loja PERSONAL_NET_INCOMERenda SEXSexo MONTHS_IN_RESIDENCEQuantidade de meses morando na atual residência MATE_INCOMERenda do parceiro

9 Mineração de Dados Eliminação de variáveis – 10 variáveis eliminadas Missing Values – 2 variáveis transformada para flag – Moda ou mediana 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 9

10 Mineração de Dados Outliers – 99º Percentil 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 10 A TRIBUTO O UTLIERS AGE238 SHOP_RANK287 MONTHS_IN_RESIDENCE547 MONTHS_IN_THE_JOB1279 PERSONAL_NET_INCOME1 QUANT_ADDITIONAL_CARDS_IN_THE_APPLICATION885

11 Mineração de Dados Importância das variáveis – KS e ROC 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 11 AtributoKS2 MáxAUC_ROC AGE0,19120,3734 SHOP_RANK0,00950,4998 MONTHS_IN_RESIDENCE0,04890,4678 MONTHS_IN_THE_JOB0,12950,4329 PERSONAL_NET_INCOME0,08850,4482

12 Mineração de Dados Importância das variáveis – Ganho de informação 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 12 GanhoAtributoG ANHO Atributo AGE QUANT_ADDITIONAL_CARDS_IN_THE DISCRETIZED_AGE PAYMENT_DAY MARITAL_STATUS RESIDENCE_TYPE MONTHS_IN_THE_JOB FLAG_FATHERS_NAME FLAG_RESIDENCIAL_PHONE PERSONAL_REFERENCE_ ID_SHOP SHOP_RANK PERSONAL_NET_INCOME FLAG_MOTHERS_NAME SEX FLAG_RESIDENCE_TOWN_WORKING_TOWN MONTHS_IN_RESIDENCE FLAG_RESIDENCIAL_ADDRESS_POSTAL MATE_INCOME FLAG_RESIDENCE_STATE_WORKING_STATE

13 Mineração de Dados Correlação de Pearson 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 13 R ELAÇÃO A TRIBUTO VS. A TRIBUTO P EARSON C ORRELATION AGE vs. MONTHS_IN_THE_JOB0,358 AGE vs. MONTHS_IN_RESIDENCE0,253 AGE vs. QUANT_ADDITIONAL_CARDS_IN0,174

14 Classificador Rede Neural MLP – Backpropagation – Sigmóide Logística – Taxa de aprendizagem – Momento /07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 14

15 Experimentos Monte Carlo com 10 iterações 4-Fold Cross Validation Área sob a curva ROC 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 15

16 Resultados 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 16 Iteração 1

17 Resultados 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 17 E XPERIMENTO AUC_ROC ITERAÇÃO ITERAÇÃO ITERAÇÃO ITERAÇÃO ITERAÇÃO ITERAÇÃO ITERAÇÃO ITERAÇÃO ITERAÇÃO ITERAÇÃO Desempenho médio e desvio padrão

18 Teste t A significancia do teste foi estipulada em 1% 10 iterações resultando em nove graus de liberdade t0 = t = Logo, com 99% de confiança rejeitamos H0 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 18 H0 : µ <= H1 : µ > 0.651

19 Conclusões Resultados satisfatórios Pouco tempo para um trabalho mais detalhado permitindo a criação de novas variáveis Avaliar desempenho sobre o Leaderboard Outros classificadores e a combinação entre eles 01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 19

20 Referências PAKDD C. Shearer, "The CRISP-DM model: the new blueprint for data mining F. Tom, An introduction to ROC analysis M.H. DeGroot, Probability and Statistics. Addison- Wesley, 1980 W.J. Conover, Practical Nonparametric Statistics. John Wiley & Sons, /07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 20

21 Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009


Carregar ppt "Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática –"

Apresentações semelhantes


Anúncios Google