Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Slides:



Advertisements
Apresentações semelhantes
DISTRIBUIÇÕES AMOSTRAIS
Advertisements

Estatística: Aplicação ao Sensoriamento Remoto ANO 2010
Amostragem em Pesquisas Sócio-Econômicas
Aprendizado de Máquina
Analise de Regressão Parte 2.
CAPÍTULO 7 TESTE DE HIPÓTESE
Intervalos de Confiança
2.5 INFERÊNCIAS SOBRE A DIFERENÇA NAS MÉDIAS, COMPARAÇÕES EMPARELHADAS
ANÁLISE DISCRIMINANTE
ANÁLISE DISCRIMINANTE
Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral versus quantil.
CAPÍTULO 7 TESTE DE HIPÓTESE
ESTIMAÇÃO.
Mineração de Dados Avaliação de Classificadores
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
FIDEDIGNIDADE Universidade Católica de Goiás Departamento de Psicologia Psicometria Profª. Ms. Juliany Gonçalves Guimarães.
Importância do Ajustamento de Observações
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
Capítulo 6 Estimativas e Tamanho de Amostras
Capítulo 7 Teste de Hipóteses
Rejane Sobrino Pinheiro Tania Guillén de Torres
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
Erros no Teste de Hipóteses
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Avaliação de Testes Diagnósticos
J. Landeira-Fernandez Ética e Ciência
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2014 Técnicas de Reamostragem Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2014 Intervalo de Confiança Camilo Daleles Rennó
DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO DA AMOSTRA OU
Teste de Hipóteses de uma amostra Prof. Helcio Rocha
DISTRIBUIÇÕES AMOSTRAIS
Estatística Para um dado conjunto de dados, podemos calcular as seguintes grandezas: 1) Medidas de posição 2) Medidas de dispersão 3) Parâmetros de simetria.
Métodos Quantitativos II
Erros e variáveis aleatórias
Modelagem Estatística
O que é Estatística, afinal de contas?
Modelos de distribuição de erros
ESTATÍSTICA.
Redes Bayesianas - Aplicação em Risco Operacional
Distribuição da Proporção Amostral
Aula 5 - Método experimental ou de seleção aleatória
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Análise de Incertezas Introdução.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Intervalo de Confiança Camilo Daleles Rennó
Noções de Inferência Estatística
Estatística e Probabilidade
Interpolação e Ajuste de Curvas
Avaliação do Conhecimento Descoberto
Professor Antonio Carlos Coelho
Regressão e Previsão Numérica.
Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 2 Prof. Cristina Ortiz Valete.
ERROS E TRATAMENTO DE DADOS ANALÍTICOS
DISTRIBUIÇÕES DE PROBABILIDADE
Testes de Hipóteses.
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Métodos Estatísticos Aplicados às Ciências Biológicas - 7ª aula -
PPGTI AULA 3 Prof. Dr. Márcio A. Fiori –
NOÇÕES DE TESTE DE HIPÓTESES (I) Teste de hipóteses para a proporção populacional.
QUI 154/150 – Química Analítica V Análise Instrumental
Estimação: Estimativa Pontual Estimativa Intervalar
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
ERROS E TRATAMENTO DE DADOS ANALÍTICOS
Estimação e Intervalo de Confiança. Estimação Frequentemente necessitamos, por meio das amostras, conhecer informações gerais da população. A estimação.
Estatística Inferencial. É um processo de tomada de decisão baseado em probabilidades e pode ser de dois tipos: - Estimação de parâmetros – usando a informação.
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Técnicas.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Autor : Lênin Charqueiro. Pelotas,8 de março de
Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.
Transcrição da apresentação:

Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho

* Avaliação dos Classificadores Existem poucos estudos analíticos sobre o comportamento de algoritmos de aprendizagem. A análise de classificadores é fundamentalmente experimental. Dimensões de análise: t Taxa de erro t Complexidade dos modelos t Tempo de aprendizagem t …

 Avaliação de Algoritmos de Classificação Dois Problemas distintos: t Dados um algoritmo e um conjunto de dados: ¤Como estimar a taxa de erro do algoritmo nesse problema? t Dados dois algoritmos e um conjunto de dados: ¤A capacidade de generalização dos algoritmos é igual?

 Avaliação Qual o desempenho do modelo aprendido? Erro no conjunto de treinamento não é um bom indicador em relação ao que vai ser observado no futuro Solução simples quando os dados são abundantes t dividir os dados em treinamento e teste Porém: dados (com rótulo) usualmente são raros Ex.: dados sobre falhas em sistemas elétricos nos últimos 15 anos

 Avaliação Confiabilidade estatística nas diferenças de performance estimadas Escolha de medidas de desempenho t Número de classificações corretas t Erro em previsões numéricas t etc Custo atribuído a deferentes tipos de erro t Muitas aplicações práticas envolvem custos

 Treinamento e teste Medida natural de desempenho para problemas de classificação: taxa de erro t Sucesso: a classe da instancia é prevista corretamente t Erro: classe da instancia é prevista incorretamente t Taxa de erro: proporção dos erros em relação ao conjunto de exemplos Erro de re-substituição: erro calculado a partir do conjunto de treinamento Erro de re-substituição é otimista!

 Treinamento e teste Conjunto de Teste: conjunto de exemplos independentes que não tiveram nenhum papel na construção do classificador t Suposição: os conjuntos de treinamento e teste são amostras representativas do problema em questão Dados de teste e de treinamento podem ser de natureza diferente t Exemplo: classificadores construídos usando-se dados de clientes de duas cidades diferentes A e B ¤Para estimar o desempenho do classificador da cidade A em uma nova cidade, teste-o com os dados de B

 Ajuste de parâmetro É importante que os dados de teste não sejam usados de nenhuma maneira para construir o classificador Alguns algoritmos de aprendizagem operam em dois estágios t Estágio 1: construção da estrutura básica t Estágio 2: otimização do ajuste dos parâmetros Procedimento correto: usar 3 conjuntos: treinamento, validação e teste t Validação: usado para otimizar os parâmetros

 Usar ao máximo os dados Uma vez completada a avaliação, todos os dados podem ser usados para construir o classificador final Geralmente, quanto maior o conjunto de treinamento melhor o classificador Quando maior o conjunto de teste mais exata a estimativa do erro Holdout: divisão dos dados originais em treinamento e teste t Dilema: idealmente deseja-se que ambos, o treinamento e o teste, sejam o maior possível

 Previsão de desempenho Suponha que a taxa de erro estimada é 25%. Quão próxima isso está da verdadeira taxa de erro? t Depende da quantidade de dados de teste Classificar pode ser assimilado ao lançamento de uma moeda viciada t Cara, sucesso; coroa, erro Em estatística, uma sucessão de eventos independentes como esse é chamado de processo de Bernoulli t A teoria estatística permite a construção de intervalos de confiança com uma certa probabilidade de conter a verdadeira taxa de erro

 Intervalos de confiança Pode-se dizer: com um certo nível de confiança, um certo intervalo especificado pode conter p Exemplo: S=750 sucessos em N=1000 tentativas t Taxa de sucesso estimada: 75% t Quão próximo é isso da verdadeira taxa de sucesso? ¤Resposta: com 95% de confiança [73.3;76.8] contém p Outro exemplo: S=75 e N=100 t Taxa de sucesso estimada: 75% t com 95% de confiança [70;81] contém p

 Média e Variância S: número de sucessos. V.a. de tipo Binomial Média e variância para um v.a de tipo Binomial: p, Np(1-p) Taxa de sucesso f = S / N. V.a de tipo binomial Média e variância para f: p, p(1-p)/N Para N grande uma v.a. de tipo binomial pode ser aproximada por uma normal

 Resultados da Estatística V. a. de tipo t-Student Intervalo de confiança par  ao nivel de confiança de (1-  )

 Resultados da Estatística Grandes amostras Intervalo de confiança par  ao nível de confiança de (1-  ) A v.a f tem que ser reduzida para ter média 0 e variância 1

 Transformação para f Intervalo de confiança par p ao nível de confiança de (1-  )

 Estimação Holdout O que fazer se os dados são limitados O método holdout reserva uma certa quantidade para teste e o restante para a aprendizagem t usalmente, 1/3 para teste e 2/3 para treinamento Problema: a amostra pode não ser representativa t exemplo: uma classe pode estar ausente no conjunto de teste Amostragem estratificada: as classes são representadas com aproximadamente a mesma proporção tanto no teste como no treinamento

 Holdout repetido Estimação holdout pode ser realizada com mais confiança repetindo-se o processo com diferentes sub-amostras t Em cada iteração, uma certa proporção é selecionada aleatoriamente para treino, com ou sem estratificação t uma taxa de erro global é calculada pela média das taxas de erro nas iterações Esse processo é chamado holdout repetido Problema: os diferentes conjuntos de teste não são mutuamente excludentes

 Validação cruzada Validação cruzada evita conjuntos de teste com interseção não vazia t os dados são divididos em k conjuntos de mesmo cardinal t cada subconjunto é usado como teste e o restante como treino Isso é chamado de validação cruzada k-fold Os subconjuntos podem ser estratificados antes de realizar a validação cruzada A taxa de erro global é a média das taxas de erro calculadas em cada etapa

 Validação cruzada Método usual: validação cruzada estratificada 10-fold Porque? Evidencias experimentais A estratificação reduz a variância da estimativa Melhor ainda: validação cruzada estratificada repetida t validação cruzada 10-fold repetida 10 vezes

 Validação cruzada leave-one-out É uma forma particular de validação cruzada t O número de folds é o número de exemplos t o classificador é construído n vezes usa os dados completamente no treino não envolve sub-amostras aleatórias computacionalmente custoso a estratificação não é possível

 Bootstrap Validação cruzada usa amostragem sem repetição Bootstrap é um método de estimação que usa amostragem com reposição para formar o conjunto de treinamento t Retira-se uma amostra aleatória de tamanho n de um conjunto de n exemplos com reposição t Essa amostra é usada para o treinamento t os exemplos dos dados originais que não estão no conjunto de treino são usados como teste É a melhor maneira quando o conjunto de dados é pequeno

 Comparação de Classificadores Situação freqüente: deseja-se saber entre dois classificadores, qual o de melhor desempenho Atenção: isso depende do domínio Maneira óbvia: comparar as estimativas obtidas através de VC 10-fold (repetida ou não) Problema: variância das estimativas

 Testes de hipóteses Um teste de hipótese é um guia em relação a confiança com que assumimos que realmente existe uma diferença de desempenho Hipótese nula: não há diferença Hipótese alternativa: há diferença Um teste mede a evidencia que existe em favor da rejeição da hipótese nula

 Qual o melhor algoritmo para um problema ? Dados dois algoritmos e um conjunto de dados, que algoritmo utilizar? t Que algoritmo tem menor erro na população ? Estimar o erro dos dois algoritmos t Usando uma estratégia de amostragem t Para cada algoritmo é estimado um erro São os dois erros estatisticamente diferentes ? Exemplo t Usando 10-validação cruzada:

 Teste de Hipóteses Hipótese nula: t Ambos os algoritmos têm a mesma performance Como verificar a hipótese nula ? t “paired tests” são mais apropriados. ¤Eliminar a variabilidade devida a fatores externos ¤Ambos os algoritmos devem: 4 Aprender nos mesmos conjuntos de treinamento 4 Os modelos devem ser avaliados nos mesmos conjuntos de teste t Teste para 2 caudas ¤X >> Y ou Y >> X

 Student paired t-test Para decidir se duas médias são estatisticamente diferentes: t Calcular d i = x i – y i t Calcular t Escolher um nível de confiança ¤Usual 5% ou 1% ¤Usar a tabela da distribuição de t para calculo de z 4 k-1 graus de liberdade t Se t > z ou t < -z então as médias são significativamente diferentes ¤Para o nível de confiança escolhido.

* Exemplo

 Amostras independentes Em um esquema foi usado uma VC k-fold e no outro uma VC j-fold Deve-se usar um teste-t para amostras não pareadas com min(k,j)-1 graus de liberdade a estatística agora é

 Critica A utilização de t-testes não é pacífica. t Elevada probabilidade de sugerir diferenças onde elas não existem (erro de Tipo I) Problemas: t Na validação cruzada: ¤Os conjuntos de treinamento não são independentes. t Assume a distribuição normal Alguns autores sugerem: t Wilcoxon matched-pairs signed-ranks test

Contabilizando os Custos * Na prática, diferentes tipos de erros de classificação geralmente incorrem em diferentes custos * Exemplos: Decisões de empréstimo Detecção de vazamento de óleo Diagnóstico de falha Cartas promocionais t enviar carta p/ família q ñ responderá x ñ enviar carta p/ família q responderá

Levar em conta Custos * A matriz “confusão”: * Há muitos outros tipos de custos Custos de coleta de dados para treinamento Predicted class YesNo ClasseYesTrueFalse Atualpositivenegative NoFalseTrue positivenegative

Sensibilidade (abrangência): Especificidade: Valor de Predição Positivo (precisão): Valor de Predição Negativo: Acerto: Erro:

F-Measure F-Measure (bis) O VPP é diretamente influenciado pela especificidade e pouco influenciado pela sensibilidade O VPN é diretamente influenciado pela sensibilidade e pouco influenciado pela especificidade

Aprendizado Sensível ao Custo * A maioria dos esquemas de aprendizado não realizam aprendizado sensível ao custo Eles geram o mesmo classificador não importando qual o custo associado a diferentes classes Exemplo: aprendizado de árvore de decisão padrão * Métodos simples para aprendizado sensível ao custo: Replicação de instâncias de acordo com os custos Utilização de pesos para instâncias de acordo com os custos

Avaliando Previsões Numéricas * Algumas estratégias: conjunto de teste independente, cross-validation, testes de significância, etc. * Diferença: medidas de erro * Valores atuais: a 1, a 2,..., a n * Valores previstos: p 1, p 2,..., p n * Medida mais popular: erro quadrático médio(mean- squared error) manipulação matemática fácil

Outras Medidas * Raiz do erro quadrático médio: * O erro absoluto médio é menos sensível a outliers que o erro médio quadrático: * Às vezes valores de erros relativos são mais apropriados que valores absolutos 10% corresponde a um erro de 50 quando prevendo % corresponde a um erro de 0,2 quando prevendo 2

Aprimoramento da Média * As vezes queremos saber o quanto o esquema é aprimorado simplesmente prevendo a média * Erro quadrático relativo é (ā é a média): * Erro absoluto relativo é:

O Coeficiente de Correlação * Mede a correlação estatística entre os valores previstos e os valores atuais * Escala independente, entre –1 e +1 * Boa performance leva a grandes valores

Qual a melhor medida? * Melhor verificar todas elas * Geralmente não importa * Exemplo: ABCD Raiz do erro quadrático médio67,891,763,357,4 Erro absoluto médio41,338,533,429,2 Raiz do erro quadrático relativo42,2%57,2%39,4%35,8% Erro absoluto relativo43,1%40,1%34,8%30,4% Coeficiente de correlação0,88 0,890,91

 Decomposição do Erro O erro esperado de um classificador pode ser decomposto em t Ruído no conjunto de dados t Viés (Bias) ¤Mede os erros sistemáticos ¤Estimativa da capacidade de adaptação da linguagem de representação utilizada pelo algoritmo ao problema t Variância ¤Mede a variabilidade das predições ¤Estimativa da dependência do modelo gerado ao conjunto de treino

 O Compromisso Bias-Variance Aumentando o número de graus de liberdade de um modelo: t Diminuição da componente do “Bias” t Aumento da variância. Minimizar o erro esperado requer um compromisso entre as duas componentes

 Decomposição em “Bias-Variance” Funções Discriminantes t Variância reduzida t Viés elevado Arvores de decisão t Variância elevada t Bias reduzido

 Sumario Avaliação de classificadores t Como estimar o erro do classificador num conjunto de dados? t Qual o melhor algoritmo para um problema? Amostragem t Validação cruzada t Amostragem com reposição Teste de Hipóteses Decomposição do erro em viés e variância