Classificadores em Dados não Balanceados

Slides:



Advertisements
Apresentações semelhantes
Aprendizado de Máquina
Advertisements

Zeros Reais de Funções Reais
AJUSTE DE CURVAS 6.1 Introdução 6.2 Método dos quadrados mínimos
Cássio Luís Fernandes de Oliveira
Mineração de Dados Avaliação de Classificadores
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Método K-medóides Algoritmos PAM e CLARA
Método de Clusterização baseado em Densidade Algoritmo DBSCAN
PREDIÇÃO DATA MINING AULA 13 SANDRA DE AMO
Classificador SVM Support Vector Machine
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
Classificação Arvores de Decisão
Classificadores Bayesianos
Avaliação de Clusteres
Estatística Básica Utilizando o Excel
Qualidade de Classificações de Sistemas de Reconhecimento de Cenas Paulo Sérgio Rodrigues PEL205.
Reconhecimento de Padrões Receiver Operating Characteristics (ROC)
Reconhecimento de Padrões Aprendizagem Supervisionada (KNN)
Reconhecimento de Padrões Tipos de Aprendizagem David Menotti, Ph.D. Universidade Federal de Ouro Preto (UFOP) Programa.
Sensibilidade / Especificidade
Erros no Teste de Hipóteses
METODOLOGIA CIENTÍFICA
Estatística Aplicada (Aula 5)
Ernesto F. F. Ramírez e Saide J. Calil
Ambiente de simulação Os algoritmos previamente discutidos foram analisados usando um simulador de mobilidade. Ele modela uma cidade de 20 Km de raio,
Metodologia Científica
Modelagem de tráfego auto-similar
3. Árvore de Decisão.
Avaliação de testes diagnósticos
Avaliação de Testes Diagnósticos
ESTATÍSTICA.
Tratamento de Dados Desbalanceados
Aprendizado de Máquina Aula 13
Aprendizado de Máquina Aula 8
ME623A Planejamento e Pesquisa
Aula Prática Classificação
Tratamento de Dados Desbalanceados
MATEMÁTICA UNIDADE 7 Conteúdo: FUNÇÃO MODULAR Duração: 10 40’ 11/11/13
K-NN Prof. Dr. Rogério Vargas.
Classificação Arvores de Decisão
Teste da derivada 1ª, Teste da derivada 2ª e construção de gráficos
Programa de Pós-Graduação em Saúde Coletiva - UFMA
Modelagem Estatística
Avaliação de Clusteres Parte II
Sistemas Inteligentes
CLASSES: SÃO INTERVALOS DE VARIAÇÃO DA VARIÁVEL.
Distribuição da Proporção Amostral
Classificação de imagens de fotografias históricas usando detecção de linhas e paralelogramos pela presença de edifícios Natália Cosse Batista Grupo 8.
Olhe fixamente para a Bruxa Nariguda
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
MEDIDAS DE DESEMPENHO Classificação SUPERVISIONADA
Classificação: avaliação de modelos
KNN – K Nearest Neighbor (K Vizinhos mais Próximos)
SVMSharp – Uma implementação didática de uma SVM
Noções de Inferência Estatística
LIG - Université Grenoble Mineração de Preferências Contextuais sobre dados de preferência “pairwise” Data Mining AULA 19 – Parte I Sandra de Amo.
Avaliação de testes diagnósticos
Deleterious SNP prediction: be mindful of your training data! Flávia Araújo
SENSIBILIDADE, ESPECIFICIDADE E VALORES PREDITIVOS
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
Avaliação de Classificadores Binários
PROBABILIDADE E AVALIAÇÃO DE TESTES DE DIAGNÓSTICOS
Tecnologias e Sistemas de Informação
Classificadores Bayesianos Classificadores Bayesianos são classificadores estatísticos que classificam um objeto numa determinada classe baseando-se na.
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
©2005 Germano C.Vasconcelos Projeto da Disciplina Germano C. Vasconcelos Centro de Informática - UFPE.
Aula X: Curva ROC e teste de hipóteses M-ário
PARÂMETROS DOS TESTES SOROLÓGICOS
Distribuição de freqüências
Transcrição da apresentação:

Classificadores em Dados não Balanceados AULA 9 DATA MINING Sandra de Amo

Acurácia – Taxa de erros Acc(M) = porcentagem das tuplas dos dados de teste que são corretamente classificadas. Err(M) = 1 – Acc(M) Matriz de Confusão Classes Preditas C1 C2 Positivos verdadeiros Falsos Negativos Falsos Negativos Classes Reais

Problemas: Classes “não-balanceadas” Exemplo : acc(M) = 90% C1 = tem-câncer (4 pacientes) C2 = não-tem-câncer (500 pacientes) Classificou corretamente 454 pacientes que não tem câncer Não acertou nenhum dos que tem câncer Pode ser classificado como “bom classificador” mesmo com acurácia alta ?

Medidas para classificadores (classes não-balanceadas) % pacientes classificados corretamente como positivos dentre todos os que realmente são positivos Sensitividade (recall) = true-pos pos Especificidade = true-neg neg Precisão = true-pos true-pos + falso-pos % pacientes classificados corretamente como positivos dentre todos os que foram classificados como positivos Precisão e Recall : medidas originadas em Recuperação de Informação utilizadas em Classificação, quando se lida com “classes não-balanceadas”

Medida F1 : Média harmônica de Precisão e Recall 2 rp F1 = r + p 2 TP 2 TP + FP + FN Exercicio: 1. Mostrar que F1 = 2 1 + r p Exercicio: 2. Mostrar que F1 = = média harmônica entre p e r Média harmônica entre dois números x e y tende a ser próxima de min(x,y) Assim, F1 alto implica que precisão e recall são razoavelmente altos.

Trade-off entre TP e FP FP TP FN TN POSITIVOS REAIS NEGATIVOS REAIS

Curva ROC ROC = Receiver Operating Characteristic Curve Enfoque gráfico que mostra um trade-off entre as taxas de TP (TPR) e FP (FPR) de um classificador. TPR = TP/(TP + FN) ( = recall) = Porcentagem de amostras corretamente classificadas como positivas dentre todas as positivas reais FPR = FP/(TN + FP) Porcentagem de amostras erroneamente classificadas como positivas dentre todas as negativas reais Ideal : TPR = 1 e FPR = 0

Exercício Total de amostras = 12 Positivas = 8 Negativas = 4 TP = 5 FP = 2 Calcular precisão, recall, acurácia, TPR, FPR, TNR, FNR, F1

O que é uma curva ROC de um classificador ? Classificador = método de classificação (ID3, J48, SVM,...) Classificador + Dados de Amostras  M1, M2, ..., Mk Mi = modelo do classificador Mi  TPR, FPR Curva ROC do classificador: Plotagem da tabela FPR/TPR

Como classificar uma amostra usando diferentes modelos do classificador ? O classificador precisa produzir, para cada tupla X, a probabilidade que a tupla X ser classificada na classe Positiva. Classificadores como redes neurais e redes bayesianas produzem tais probabilidades. Para outros tipos de classificadores, é preciso calcular esta probabilidade.

Como classificar uma amostra usando diferentes modelos do classificador ? D = conjunto de amostras classificadas Amostragem de D = (Tr, Te) Tr = Treinamento , Te = Testes , Tr U Te = D Uma amostragem (Tr, Te) induz um modelo M do classificador Classificação de uma amostra X Pi = probabilidade de X ser classificada na classe ci = porcentagem de modelos que classifica X na classe ci

Construção da Curva ROC de um classificador Escolhe-se aleatoriamente m amostras da massa de dados: x1, ..., xm Calcula-se pi = probabilidade de xi ser classificada na classe positiva. Ordena-se as amostras xi por ordem crescente das probabilidades x1, x2, ..., xm Existem modelos M1, M2, ..., Mm, Mm+1 tais que: M1: Classificam todos os xi como positivos M2: Classificam um como negativo e os outros como positivos ... Mi: Classificam (i-1) como negativos e os outros como positivos Logo, é razoável supor que:

Cálculo de TPR e FPR para cada modelo Mi

Exemplo Classe + - + - - - + - + + 0.25 0.43 0.53 0.76 0.85 0.85 0.85 0.87 0.93 0.95 1.00 TP 5 4 4 3 3 3 3 2 2 1 FP 5 5 4 4 3 2 1 1 TN 1 1 2 3 4 4 5 5 5 FN 1 1 2 2 2 2 3 3 4 5 TPR 1 0.8 0.8 0.6 0.6 0.6 0.6 0.4 0.4 0.2 FPR 1 1 0.8 0.8 0.6 0.4 0.2 0.2

Exemplo TPR 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 FPR

Curva Roc Cada ponto na curva corresponde a um dos modelos induzidos pelo classificador Um bom modelo deve estar localizado próximo do ponto (0,1) Modelos localizados na diagonal são modelos aleatórios – TPR = FPR Modelos localizados acima da diagonal são melhores do que modelos abaixo da diagonal.

Exemplo TPR 1.0 Modelo ideal 0.9 0.8 0.7 0.6 0.5 0.4 0.3 Modelos que fazem previsões aleatórias 0.2 0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 FPR

Comparando performance relativas de diferentes classificadores Curvas Roc são utilizadas para se medir a performance relativa de diferentes classificadores. M1 M2 Até aqui M2 é melhor do que M1 A partir daí, M1 fica melhor do que M2 x

Area abaixo da curva ROC (AUC) A área abaixo da curva ROC fornece medida para comparar performances de classificadores. Quanto maior a área AUC melhor a performance global do classificador. Classificador optimal: área =1 Classificador randômico : área = 0.5

Referências P-N Tan et al. Introduction to Data Mining – Capitulo 5, seção 5.7 Jesse Davis, Mark Goadrich - The Relationship between Precision-Recall and ROC Curves. Proc. 23rd Int. Conf. On Machine Learning. 2006. Gary M. Weiss. Mining with Rarity: A Unifying Framework. SIGKDD Explorations, Vol. 6, Issue 1, 2007. Software: AUCCalculator 0.2 A Java program for finding AUC-ROC and AUC-PR http://www.cs.wisc.edu/~richm/programs/AUC/