A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Mineração de Dados Avaliação de Classificadores

Apresentações semelhantes


Apresentação em tema: "Mineração de Dados Avaliação de Classificadores"— Transcrição da apresentação:

1 Mineração de Dados Avaliação de Classificadores
Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

2 Avaliação dos Classificadores
Existem poucos estudos analíticos sobre o comportamento de algoritmos de aprendizagem. A análise de classificadores é fundamentalmente experimental. Dimensões de análise: Taxa de erro Complexidade dos modelos Tempo de aprendizagem Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

3 Avaliação de Algoritmos de Classificação
Dois Problemas distintos: Dados um algoritmo e um conjunto de dados: Como estimar a taxa de erro do algoritmo nesse problema? Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

4 Avaliação Qual o desempenho do modelo aprendido?
Erro no conjunto de treinamento não é um bom indicador em relação ao que vai ser observado no futuro Solução simples quando os dados são abundantes dividir os dados em treinamento e teste Porém: dados (com rótulo) usualmente são raros Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

5 Avaliação Escolha de medidas de desempenho
Número de classificações corretas Erro em previsões numéricas etc Custo atribuído a diferentes tipos de erro Muitas aplicações práticas envolvem custos Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

6 Treinamento e teste Medida natural de desempenho para problemas de classificação: taxa de erro Sucesso: a classe da instância é prevista corretamente Erro: classe da instância é prevista incorretamente Taxa de erro: proporção dos erros em relação ao conjunto de exemplos Erro de re-substituição: erro calculado a partir do conjunto de treinamento Erro de re-substituição é otimista! Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

7 Treinamento e teste Conjunto de Teste: conjunto de exemplos independentes que não tiveram nenhum papel na construção do classificador Suposição: os conjuntos de treinamento e teste são amostras representativas do problema em questão Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

8 Ajuste de parâmetro É importante que os dados de teste não sejam usados de nenhuma maneira para construir o classificador Alguns algoritmos de aprendizagem operam em dois estágios Estágio 1: construção da estrutura básica Estágio 2: otimização do ajuste dos parâmetros Procedimento correto: usar 3 conjuntos: treinamento, validação e teste Validação: usado para otimizar os parâmetros Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

9 Usar ao máximo os dados Uma vez completada a avaliação, todos os dados podem ser usados para construir o classificador final Geralmente, quanto maior o conjunto de treinamento melhor o classificador Quanto maior o conjunto de teste mais exata a estimativa do erro Holdout: divisão dos dados originais em treinamento e teste Dilema: idealmente deseja-se que ambos, o treinamento e o teste, sejam o maior possível Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

10 Previsão de desempenho
Suponha que a taxa de erro estimada é 25%. Quão próxima isso está da verdadeira taxa de erro? Depende da quantidade de dados de teste Classificar pode ser assimilado ao lançamento de uma moeda Cara, sucesso; coroa, erro Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

11 Estimação Holdout O que fazer se os dados são limitados?
O método holdout reserva uma certa quantidade para teste e o restante para a aprendizagem usualmente, 2/3 para treinamento e 1/3 para teste Problema: a amostra pode não ser representativa exemplo: uma classe pode estar ausente no conjunto de teste Amostragem estratificada: as classes são representadas com aproximadamente a mesma proporção tanto no teste como no treinamento Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

12 Holdout repetido Estimação holdout pode ser realizada com mais confiança repetindo-se o processo com diferentes sub-amostras Em cada iteração, uma certa proporção é selecionada aleatoriamente para treino, com ou sem estratificação uma taxa de erro global é calculada pela média das taxas de erro nas iterações Esse processo é chamado holdout repetido Problema: os diferentes conjuntos de teste não são mutuamente excludentes Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

13 Validação cruzada Validação cruzada evita conjuntos de teste com interseção não vazia os dados são divididos em k conjuntos de mesmo tamanho cada subconjunto é usado como teste e o restante como treino Isso é chamado de validação cruzada k-fold Os subconjuntos podem ser estratificados antes de realizar a validação cruzada A taxa de erro global é a média das taxas de erro calculadas em cada etapa Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

14 Validação cruzada Método usual: validação cruzada estratificada 10-fold Por quê? Evidências experimentais A estratificação reduz a variância da estimativa Melhor ainda: validação cruzada estratificada repetida validação cruzada 10-fold repetida 10 vezes Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

15 Validação cruzada leave-one-out
É uma forma particular de validação cruzada O número de folds é o número de exemplos o classificador é construído n vezes usa os dados completamente no treino não envolve sub-amostras aleatórias computacionalmente custoso a estratificação não é possível Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

16 Bootstrap Validação cruzada usa amostragem sem repetição
Bootstrap é um método de estimação que usa amostragem com reposição para formar o conjunto de treinamento Retira-se uma amostra aleatória de tamanho m de um conjunto de n exemplos com reposição Essa amostra é usada para o treinamento os exemplos dos dados originais que não estão no conjunto de treino são usados como teste É a melhor maneira quando o conjunto de dados é pequeno Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC


Carregar ppt "Mineração de Dados Avaliação de Classificadores"

Apresentações semelhantes


Anúncios Google