A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Classificadores em Dados não Balanceados AULA 9 DATA MINING Sandra de Amo.

Apresentações semelhantes


Apresentação em tema: "Classificadores em Dados não Balanceados AULA 9 DATA MINING Sandra de Amo."— Transcrição da apresentação:

1 Classificadores em Dados não Balanceados AULA 9 DATA MINING Sandra de Amo

2 Acurácia – Taxa de erros Acc(M) = porcentagem das tuplas dos dados de teste que são corretamente classificadas. Err(M) = 1 – Acc(M) Matriz de Confusão C1C2 C1Positivos verdadeiros Falsos Negativos C2Falsos Positivos Negativos verdadeiros Classes Preditas Classes Reais

3 Problemas: Classes não-balanceadas Exemplo : acc(M) = 90% C1 = tem-câncer (4 pacientes) C2 = não-tem-câncer (500 pacientes) Classificou corretamente 454 pacientes que não tem câncer Não acertou nenhum dos que tem câncer Pode ser classificado como bom classificador mesmo com acurácia alta ?

4 Medidas para classificadores (classes não-balanceadas) Sensitividade (recall) = true-pos pos Especificidade = true-neg neg Precisão = true-pos true-pos + falso-pos % pacientes classificados corretamente como positivos dentre todos os que foram classificados como positivos % pacientes classificados corretamente como positivos dentre todos os que realmente são positivos Precisão e Recall : medidas originadas em Recuperação de Informação utilizadas em Classificação, quando se lida com classes não-balanceadas

5 Medida F1 : Média harmônica de Precisão e Recall r + p F1 = 2 rp Exercicio: 1. Mostrar que F1 = 2 TP 2 TP + FP + FN Exercicio: 2. Mostrar que F1 = rp = média harmônica entre p e r Média harmônica entre dois números x e y tende a ser próxima de min(x,y) Assim, F1 alto implica que precisão e recall são razoavelmente altos.

6 Trade-off entre TP e FP POSITIVOS REAIS NEGATIVOS REAIS TP FP FN TN

7 Curva ROC ROC = Receiver Operating Characteristic Curve Enfoque gráfico que mostra um trade-off entre as taxas de TP (TPR) e FP (FPR) de um classificador. TPR = TP/(TP + FN) ( = recall) = Porcentagem de amostras corretamente classificadas como positivas dentre todas as positivas reais FPR = FP/(TN + FP) Porcentagem de amostras erroneamente classificadas como positivas dentre todas as negativas reais Ideal : TPR = 1 e FPR = 0

8 Exercício Total de amostras = 12 Positivas = 8 Negativas = 4 TP = 5 FP = 2 Calcular precisão, recall, acurácia, TPR, FPR, TNR, FNR, F1

9 O que é uma curva ROC de um classificador ? Classificador = método de classificação (ID3, J48, SVM,...) Classificador + Dados de Amostras M1, M2,..., Mk Mi = modelo do classificador Mi TPR, FPR Curva ROC do classificador: Plotagem da tabela FPR/TPR

10 Como classificar uma amostra usando diferentes modelos do classificador ? O classificador precisa produzir, para cada tupla X, a probabilidade que a tupla X ser classificada na classe Positiva. Classificadores como redes neurais e redes bayesianas produzem tais probabilidades. Para outros tipos de classificadores, é preciso calcular esta probabilidade.

11 Como classificar uma amostra usando diferentes modelos do classificador ? D = conjunto de amostras classificadas Amostragem de D = (Tr, Te) Tr = Treinamento, Te = Testes, Tr U Te = D Uma amostragem (Tr, Te) induz um modelo M do classificador Classificação de uma amostra X P i = probabilidade de X ser classificada na classe c i = porcentagem de modelos que classifica X na classe c i

12 Construção da Curva ROC de um classificador Escolhe-se aleatoriamente m amostras da massa de dados: x1,..., xm Calcula-se p i = probabilidade de x i ser classificada na classe positiva. Ordena-se as amostras xi por ordem crescente das probabilidades x1, x2,..., xm Existem modelos M 1, M 2,..., M m, M m+1 tais que: M1: Classificam todos os xi como positivos M2: Classificam um como negativo e os outros como positivos... Mi: Classificam (i-1) como negativos e os outros como positivos Logo, é razoável supor que:

13 Cálculo de TPR e FPR para cada modelo Mi

14 Exemplo TP FP TN FN TPR FPR Classe

15 Exemplo FPR TPR

16 Curva Roc Cada ponto na curva corresponde a um dos modelos induzidos pelo classificador Um bom modelo deve estar localizado próximo do ponto (0,1) Modelos localizados na diagonal são modelos aleatórios – TPR = FPR Modelos localizados acima da diagonal são melhores do que modelos abaixo da diagonal.

17 Exemplo FPR TPR Modelo ideal Modelos que fazem previsões aleatórias

18 Comparando performance relativas de diferentes classificadores Curvas Roc são utilizadas para se medir a performance relativa de diferentes classificadores. M1 M2 x Até aqui M2 é melhor do que M1 A partir daí, M1 fica melhor do que M2

19 Area abaixo da curva ROC (AUC) A área abaixo da curva ROC fornece medida para comparar performances de classificadores. Quanto maior a área AUC melhor a performance global do classificador. Classificador optimal: área =1 Classificador randômico : área = 0.5

20 Referências P-N Tan et al. Introduction to Data Mining – Capitulo 5, seção 5.7 Jesse Davis, Mark Goadrich - The Relationship between Precision-Recall and ROC Curves. Proc. 23rd Int. Conf. On Machine Learning Gary M. Weiss. Mining with Rarity: A Unifying Framework. SIGKDD Explorations, Vol. 6, Issue 1, Software: AUCCalculator 0.2 A Java program for finding AUC-ROC and AUC-PR


Carregar ppt "Classificadores em Dados não Balanceados AULA 9 DATA MINING Sandra de Amo."

Apresentações semelhantes


Anúncios Google