A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho.

Apresentações semelhantes


Apresentação em tema: "Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho."— Transcrição da apresentação:

1 Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho

2 * Avaliação dos Classificadores Existem poucos estudos analíticos sobre o comportamento de algoritmos de aprendizagem. A análise de classificadores é fundamentalmente experimental. Dimensões de análise: t Taxa de erro t Complexidade dos modelos t Tempo de aprendizagem t …

3  Avaliação de Algoritmos de Classificação Dois Problemas distintos: t Dados um algoritmo e um conjunto de dados: ¤Como estimar a taxa de erro do algoritmo nesse problema? t Dados dois algoritmos e um conjunto de dados: ¤A capacidade de generalização dos algoritmos é igual?

4  Avaliação Qual o desempenho do modelo aprendido? Erro no conjunto de treinamento não é um bom indicador em relação ao que vai ser observado no futuro Solução simples quando os dados são abundantes t dividir os dados em treinamento e teste Porém: dados (com rótulo) usualmente são raros Ex.: dados sobre falhas em sistemas elétricos nos últimos 15 anos

5  Avaliação Confiabilidade estatística nas diferenças de performance estimadas Escolha de medidas de desempenho t Número de classificações corretas t Erro em previsões numéricas t etc Custo atribuído a deferentes tipos de erro t Muitas aplicações práticas envolvem custos

6  Treinamento e teste Medida natural de desempenho para problemas de classificação: taxa de erro t Sucesso: a classe da instancia é prevista corretamente t Erro: classe da instancia é prevista incorretamente t Taxa de erro: proporção dos erros em relação ao conjunto de exemplos Erro de re-substituição: erro calculado a partir do conjunto de treinamento Erro de re-substituição é otimista!

7  Treinamento e teste Conjunto de Teste: conjunto de exemplos independentes que não tiveram nenhum papel na construção do classificador t Suposição: os conjuntos de treinamento e teste são amostras representativas do problema em questão Dados de teste e de treinamento podem ser de natureza diferente t Exemplo: classificadores construídos usando-se dados de clientes de duas cidades diferentes A e B ¤Para estimar o desempenho do classificador da cidade A em uma nova cidade, teste-o com os dados de B

8  Ajuste de parâmetro É importante que os dados de teste não sejam usados de nenhuma maneira para construir o classificador Alguns algoritmos de aprendizagem operam em dois estágios t Estágio 1: construção da estrutura básica t Estágio 2: otimização do ajuste dos parâmetros Procedimento correto: usar 3 conjuntos: treinamento, validação e teste t Validação: usado para otimizar os parâmetros

9  Usar ao máximo os dados Uma vez completada a avaliação, todos os dados podem ser usados para construir o classificador final Geralmente, quanto maior o conjunto de treinamento melhor o classificador Quando maior o conjunto de teste mais exata a estimativa do erro Holdout: divisão dos dados originais em treinamento e teste t Dilema: idealmente deseja-se que ambos, o treinamento e o teste, sejam o maior possível

10  Previsão de desempenho Suponha que a taxa de erro estimada é 25%. Quão próxima isso está da verdadeira taxa de erro? t Depende da quantidade de dados de teste Classificar pode ser assimilado ao lançamento de uma moeda viciada t Cara, sucesso; coroa, erro Em estatística, uma sucessão de eventos independentes como esse é chamado de processo de Bernoulli t A teoria estatística permite a construção de intervalos de confiança com uma certa probabilidade de conter a verdadeira taxa de erro

11  Intervalos de confiança Pode-se dizer: com um certo nível de confiança, um certo intervalo especificado pode conter p Exemplo: S=750 sucessos em N=1000 tentativas t Taxa de sucesso estimada: 75% t Quão próximo é isso da verdadeira taxa de sucesso? ¤Resposta: com 95% de confiança [73.3;76.8] contém p Outro exemplo: S=75 e N=100 t Taxa de sucesso estimada: 75% t com 95% de confiança [70;81] contém p

12  Média e Variância S: número de sucessos. V.a. de tipo Binomial Média e variância para um v.a de tipo Binomial: p, Np(1-p) Taxa de sucesso f = S / N. V.a de tipo binomial Média e variância para f: p, p(1-p)/N Para N grande uma v.a. de tipo binomial pode ser aproximada por uma normal

13  Resultados da Estatística V. a. de tipo t-Student Intervalo de confiança par  ao nivel de confiança de (1-  )

14  Resultados da Estatística Grandes amostras Intervalo de confiança par  ao nível de confiança de (1-  ) A v.a f tem que ser reduzida para ter média 0 e variância 1

15  Transformação para f Intervalo de confiança par p ao nível de confiança de (1-  )

16  Estimação Holdout O que fazer se os dados são limitados O método holdout reserva uma certa quantidade para teste e o restante para a aprendizagem t usalmente, 1/3 para teste e 2/3 para treinamento Problema: a amostra pode não ser representativa t exemplo: uma classe pode estar ausente no conjunto de teste Amostragem estratificada: as classes são representadas com aproximadamente a mesma proporção tanto no teste como no treinamento

17  Holdout repetido Estimação holdout pode ser realizada com mais confiança repetindo-se o processo com diferentes sub-amostras t Em cada iteração, uma certa proporção é selecionada aleatoriamente para treino, com ou sem estratificação t uma taxa de erro global é calculada pela média das taxas de erro nas iterações Esse processo é chamado holdout repetido Problema: os diferentes conjuntos de teste não são mutuamente excludentes

18  Validação cruzada Validação cruzada evita conjuntos de teste com interseção não vazia t os dados são divididos em k conjuntos de mesmo cardinal t cada subconjunto é usado como teste e o restante como treino Isso é chamado de validação cruzada k-fold Os subconjuntos podem ser estratificados antes de realizar a validação cruzada A taxa de erro global é a média das taxas de erro calculadas em cada etapa

19  Validação cruzada Método usual: validação cruzada estratificada 10-fold Porque? Evidencias experimentais A estratificação reduz a variância da estimativa Melhor ainda: validação cruzada estratificada repetida t validação cruzada 10-fold repetida 10 vezes

20  Validação cruzada leave-one-out É uma forma particular de validação cruzada t O número de folds é o número de exemplos t o classificador é construído n vezes usa os dados completamente no treino não envolve sub-amostras aleatórias computacionalmente custoso a estratificação não é possível

21  Bootstrap Validação cruzada usa amostragem sem repetição Bootstrap é um método de estimação que usa amostragem com reposição para formar o conjunto de treinamento t Retira-se uma amostra aleatória de tamanho n de um conjunto de n exemplos com reposição t Essa amostra é usada para o treinamento t os exemplos dos dados originais que não estão no conjunto de treino são usados como teste É a melhor maneira quando o conjunto de dados é pequeno

22  Comparação de Classificadores Situação freqüente: deseja-se saber entre dois classificadores, qual o de melhor desempenho Atenção: isso depende do domínio Maneira óbvia: comparar as estimativas obtidas através de VC 10-fold (repetida ou não) Problema: variância das estimativas

23  Testes de hipóteses Um teste de hipótese é um guia em relação a confiança com que assumimos que realmente existe uma diferença de desempenho Hipótese nula: não há diferença Hipótese alternativa: há diferença Um teste mede a evidencia que existe em favor da rejeição da hipótese nula

24  Qual o melhor algoritmo para um problema ? Dados dois algoritmos e um conjunto de dados, que algoritmo utilizar? t Que algoritmo tem menor erro na população ? Estimar o erro dos dois algoritmos t Usando uma estratégia de amostragem t Para cada algoritmo é estimado um erro São os dois erros estatisticamente diferentes ? Exemplo t Usando 10-validação cruzada:

25  Teste de Hipóteses Hipótese nula: t Ambos os algoritmos têm a mesma performance Como verificar a hipótese nula ? t “paired tests” são mais apropriados. ¤Eliminar a variabilidade devida a fatores externos ¤Ambos os algoritmos devem: 4 Aprender nos mesmos conjuntos de treinamento 4 Os modelos devem ser avaliados nos mesmos conjuntos de teste t Teste para 2 caudas ¤X >> Y ou Y >> X

26  Student paired t-test Para decidir se duas médias são estatisticamente diferentes: t Calcular d i = x i – y i t Calcular t Escolher um nível de confiança ¤Usual 5% ou 1% ¤Usar a tabela da distribuição de t para calculo de z 4 k-1 graus de liberdade t Se t > z ou t < -z então as médias são significativamente diferentes ¤Para o nível de confiança escolhido.

27 * Exemplo

28  Amostras independentes Em um esquema foi usado uma VC k-fold e no outro uma VC j-fold Deve-se usar um teste-t para amostras não pareadas com min(k,j)-1 graus de liberdade a estatística agora é

29  Critica A utilização de t-testes não é pacífica. t Elevada probabilidade de sugerir diferenças onde elas não existem (erro de Tipo I) Problemas: t Na validação cruzada: ¤Os conjuntos de treinamento não são independentes. t Assume a distribuição normal Alguns autores sugerem: t Wilcoxon matched-pairs signed-ranks test

30 Contabilizando os Custos * Na prática, diferentes tipos de erros de classificação geralmente incorrem em diferentes custos * Exemplos: Decisões de empréstimo Detecção de vazamento de óleo Diagnóstico de falha Cartas promocionais t enviar carta p/ família q ñ responderá x ñ enviar carta p/ família q responderá

31 Levar em conta Custos * A matriz “confusão”: * Há muitos outros tipos de custos Custos de coleta de dados para treinamento Predicted class YesNo ClasseYesTrueFalse Atualpositivenegative NoFalseTrue positivenegative

32 Sensibilidade (abrangência): Especificidade: Valor de Predição Positivo (precisão): Valor de Predição Negativo: Acerto: Erro:

33 F-Measure F-Measure (bis) O VPP é diretamente influenciado pela especificidade e pouco influenciado pela sensibilidade O VPN é diretamente influenciado pela sensibilidade e pouco influenciado pela especificidade

34 Aprendizado Sensível ao Custo * A maioria dos esquemas de aprendizado não realizam aprendizado sensível ao custo Eles geram o mesmo classificador não importando qual o custo associado a diferentes classes Exemplo: aprendizado de árvore de decisão padrão * Métodos simples para aprendizado sensível ao custo: Replicação de instâncias de acordo com os custos Utilização de pesos para instâncias de acordo com os custos

35 Avaliando Previsões Numéricas * Algumas estratégias: conjunto de teste independente, cross-validation, testes de significância, etc. * Diferença: medidas de erro * Valores atuais: a 1, a 2,..., a n * Valores previstos: p 1, p 2,..., p n * Medida mais popular: erro quadrático médio(mean- squared error) manipulação matemática fácil

36 Outras Medidas * Raiz do erro quadrático médio: * O erro absoluto médio é menos sensível a outliers que o erro médio quadrático: * Às vezes valores de erros relativos são mais apropriados que valores absolutos 10% corresponde a um erro de 50 quando prevendo 500 10% corresponde a um erro de 0,2 quando prevendo 2

37 Aprimoramento da Média * As vezes queremos saber o quanto o esquema é aprimorado simplesmente prevendo a média * Erro quadrático relativo é (ā é a média): * Erro absoluto relativo é:

38 O Coeficiente de Correlação * Mede a correlação estatística entre os valores previstos e os valores atuais * Escala independente, entre –1 e +1 * Boa performance leva a grandes valores

39 Qual a melhor medida? * Melhor verificar todas elas * Geralmente não importa * Exemplo: ABCD Raiz do erro quadrático médio67,891,763,357,4 Erro absoluto médio41,338,533,429,2 Raiz do erro quadrático relativo42,2%57,2%39,4%35,8% Erro absoluto relativo43,1%40,1%34,8%30,4% Coeficiente de correlação0,88 0,890,91

40  Decomposição do Erro O erro esperado de um classificador pode ser decomposto em t Ruído no conjunto de dados t Viés (Bias) ¤Mede os erros sistemáticos ¤Estimativa da capacidade de adaptação da linguagem de representação utilizada pelo algoritmo ao problema t Variância ¤Mede a variabilidade das predições ¤Estimativa da dependência do modelo gerado ao conjunto de treino

41  O Compromisso Bias-Variance Aumentando o número de graus de liberdade de um modelo: t Diminuição da componente do “Bias” t Aumento da variância. Minimizar o erro esperado requer um compromisso entre as duas componentes

42  Decomposição em “Bias-Variance” Funções Discriminantes t Variância reduzida t Viés elevado Arvores de decisão t Variância elevada t Bias reduzido

43  Sumario Avaliação de classificadores t Como estimar o erro do classificador num conjunto de dados? t Qual o melhor algoritmo para um problema? Amostragem t Validação cruzada t Amostragem com reposição Teste de Hipóteses Decomposição do erro em viés e variância


Carregar ppt "Aprendizagem Estatística de Dados Aprendizagem Estatística de Dados Francisco Carvalho."

Apresentações semelhantes


Anúncios Google