Mineração de Dados Avaliação de Classificadores

Slides:



Advertisements
Apresentações semelhantes
DISTRIBUIÇÕES AMOSTRAIS
Advertisements

Federação Portuguesa de Atletismo
Estatística: Aplicação ao Sensoriamento Remoto ANO 2010
Amostragem em Pesquisas Sócio-Econômicas
Programação em Java Prof. Maurício Braga
Inteligência Artificial
Aprendizado de Máquina
Amintas engenharia.
ANÁLISE DISCRIMINANTE LIG, 13 de novembro de 2008.
ANÁLISE DISCRIMINANTE LIG, 18 de novembro de 2008.
Redes Neurais Artificiais (RNA): Aprendizado
Prof. Esp. Mick Lennon Machado
ESTATÍSTICA BÁSICA Engenharia Mecânica II período 19/04/2011.
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
ENGENHARIA DE MÉTODOS Prof. Adolfo Sérgio Furtado da Silva
Redes Neurais Artificiais
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
1 MergeSort Seja uma lista A de n elementos. O algoritmo consiste das seguintes fases Dividir A em 2 sub-listas de tamanho n/2 Conquistar: ordenar cada.
Estatística 8 - Distribuições Amostrais
Reconhecimento de Padrões Seleção de Características
Capítulo 6 Estimativas e Tamanho de Amostras
Rejane Sobrino Pinheiro Tania Guillén de Torres
Estatística Aplicada (Aula 4)
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Aprendizado de Máquina
Aprendizado de Máquina Aula 8
Alexandre Xavier Falcão & David Menotti
ME623A Planejamento e Pesquisa
Notação: População: i M XiT é o total do cluster i;
Sistemas de Aquisição e Processamento de Dados
Comparação entre os métodos de ordenação
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Tópicos Avançados de Base de Dados
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2014 Teoria da amostragem Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2014 Técnicas de Reamostragem Camilo Daleles Rennó
Algoritmos paralelos eficientes para alguns problemas de processamento de Cadeia de Caracteres Alunos: Diego Alencar dos Santos Melo Felipe Formagini Brant.
Redes Neurais Prof. Alex F. V. Machado.
Estudos de Caso-Controle
Métodos Quantitativos II
ESTATÍSTICA.
Técnicas de amostragem
Redes Neuronais/Neurais/ Conexionistas Introdução
Aula 6 - Método não-experimental ou de seleção não-aleatória
ANÁLISE ESTATÍSTICA II
Inferência Estatística
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Classificação: avaliação de modelos
KNN – K Nearest Neighbor (K Vizinhos mais Próximos)
Introdução a Cálculo Numérico
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.
POPULAÇÃO-ALVO E AMOSTRA Capítulo 10 – Richardson
Fontes de Erros Aula 1 Introdução; Erros em processos numéricos;
Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.
Estatística e Probabilidade
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Técnicas de Reamostragem Camilo Daleles Rennó
Avaliação do Conhecimento Descoberto
Regressão e Previsão Numérica.
Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 2 Prof. Cristina Ortiz Valete.
Aprendizado da rede O aprendizado, na maioria das vezes, constitui no ajuste do conjunto de pesos de modo que a rede consiga executar uma tarefa específica.
Sobre Geoestatística e Mapas. (Paulo M. Barbosa Landim)
III - Amostragem Prof. Herondino.
PPGTI AULA 3 Prof. Dr. Márcio A. Fiori –
NOÇÕES DE TESTE DE HIPÓTESES (I) Teste de hipóteses para a proporção populacional.
Aula 1. Introdução à Inferência Estatística
ERROS E TRATAMENTO DE DADOS ANALÍTICOS
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Técnicas.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Amostragem e tratamento de dados faltantes Prof. Luciana Nunes Amostragem.
Métodos Populacionais. Mantém um conjunto de soluções candidatas e não só uma solução Cada solução será modificada e avaliada Hill-Climbing paralelos.
Transcrição da apresentação:

Mineração de Dados Avaliação de Classificadores Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Avaliação dos Classificadores Existem poucos estudos analíticos sobre o comportamento de algoritmos de aprendizagem. A análise de classificadores é fundamentalmente experimental. Dimensões de análise: Taxa de erro Complexidade dos modelos Tempo de aprendizagem … Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Avaliação de Algoritmos de Classificação Dois Problemas distintos: Dados um algoritmo e um conjunto de dados: Como estimar a taxa de erro do algoritmo nesse problema? Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Avaliação Qual o desempenho do modelo aprendido? Erro no conjunto de treinamento não é um bom indicador em relação ao que vai ser observado no futuro Solução simples quando os dados são abundantes dividir os dados em treinamento e teste Porém: dados (com rótulo) usualmente são raros Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Avaliação Escolha de medidas de desempenho Número de classificações corretas Erro em previsões numéricas etc Custo atribuído a diferentes tipos de erro Muitas aplicações práticas envolvem custos Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Treinamento e teste Medida natural de desempenho para problemas de classificação: taxa de erro Sucesso: a classe da instância é prevista corretamente Erro: classe da instância é prevista incorretamente Taxa de erro: proporção dos erros em relação ao conjunto de exemplos Erro de re-substituição: erro calculado a partir do conjunto de treinamento Erro de re-substituição é otimista! Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Treinamento e teste Conjunto de Teste: conjunto de exemplos independentes que não tiveram nenhum papel na construção do classificador Suposição: os conjuntos de treinamento e teste são amostras representativas do problema em questão Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Ajuste de parâmetro É importante que os dados de teste não sejam usados de nenhuma maneira para construir o classificador Alguns algoritmos de aprendizagem operam em dois estágios Estágio 1: construção da estrutura básica Estágio 2: otimização do ajuste dos parâmetros Procedimento correto: usar 3 conjuntos: treinamento, validação e teste Validação: usado para otimizar os parâmetros Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Usar ao máximo os dados Uma vez completada a avaliação, todos os dados podem ser usados para construir o classificador final Geralmente, quanto maior o conjunto de treinamento melhor o classificador Quanto maior o conjunto de teste mais exata a estimativa do erro Holdout: divisão dos dados originais em treinamento e teste Dilema: idealmente deseja-se que ambos, o treinamento e o teste, sejam o maior possível Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Previsão de desempenho Suponha que a taxa de erro estimada é 25%. Quão próxima isso está da verdadeira taxa de erro? Depende da quantidade de dados de teste Classificar pode ser assimilado ao lançamento de uma moeda Cara, sucesso; coroa, erro Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Estimação Holdout O que fazer se os dados são limitados? O método holdout reserva uma certa quantidade para teste e o restante para a aprendizagem usualmente, 2/3 para treinamento e 1/3 para teste Problema: a amostra pode não ser representativa exemplo: uma classe pode estar ausente no conjunto de teste Amostragem estratificada: as classes são representadas com aproximadamente a mesma proporção tanto no teste como no treinamento Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Holdout repetido Estimação holdout pode ser realizada com mais confiança repetindo-se o processo com diferentes sub-amostras Em cada iteração, uma certa proporção é selecionada aleatoriamente para treino, com ou sem estratificação uma taxa de erro global é calculada pela média das taxas de erro nas iterações Esse processo é chamado holdout repetido Problema: os diferentes conjuntos de teste não são mutuamente excludentes Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Validação cruzada Validação cruzada evita conjuntos de teste com interseção não vazia os dados são divididos em k conjuntos de mesmo tamanho cada subconjunto é usado como teste e o restante como treino Isso é chamado de validação cruzada k-fold Os subconjuntos podem ser estratificados antes de realizar a validação cruzada A taxa de erro global é a média das taxas de erro calculadas em cada etapa Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Validação cruzada Método usual: validação cruzada estratificada 10-fold Por quê? Evidências experimentais A estratificação reduz a variância da estimativa Melhor ainda: validação cruzada estratificada repetida validação cruzada 10-fold repetida 10 vezes Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Validação cruzada leave-one-out É uma forma particular de validação cruzada O número de folds é o número de exemplos o classificador é construído n vezes usa os dados completamente no treino não envolve sub-amostras aleatórias computacionalmente custoso a estratificação não é possível Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC

Bootstrap Validação cruzada usa amostragem sem repetição Bootstrap é um método de estimação que usa amostragem com reposição para formar o conjunto de treinamento Retira-se uma amostra aleatória de tamanho m de um conjunto de n exemplos com reposição Essa amostra é usada para o treinamento os exemplos dos dados originais que não estão no conjunto de treino são usados como teste É a melhor maneira quando o conjunto de dados é pequeno Material cedido pelo Prof. Cícero Garrozi da UPE-FACITEC