ANÁLISE DISCRIMINANTE LIG, 13 de novembro de 2008.

Slides:



Advertisements
Apresentações semelhantes
DISTRIBUIÇÕES AMOSTRAIS
Advertisements

Análise Exploratória de Dados
Estatística amintas paiva afonso.
CAPÍTULO 7 TESTE DE HIPÓTESE
Intervalos de Confiança
TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO
ANÁLISE DISCRIMINANTE LIG, 18 de novembro de 2008.
ANÁLISE DISCRIMINANTE
ANÁLISE DISCRIMINANTE LIG, 11 de novembro de 2008.
ANÁLISE DISCRIMINANTE
Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral versus quantil.
Cássio Luís Fernandes de Oliveira
CAPÍTULO 7 TESTE DE HIPÓTESE
ESTIMAÇÃO.
Mineração de Dados Avaliação de Classificadores
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Análise Discriminante
Reconhecimento de Padrões Classificadores Lineares
MEDIDAS E INCERTEZAS O Que é Medição?
MEDIDAS DE DISPERSÃO Medidas de tendência central fornecem um resumo parcial das informações de um conjunto de dados. A necessidade de uma medida de variação.
Distribuição F Considere duas populações com distribuição de Gauss com médias 1, 2 e variâncias 12 e 22 . Retire uma amostra aleatória de tamanho.
Testes de Hipóteses Forma mais clássica de inferência estatística
Estatística e Probabilidade
CAPÍTULO I- TEORIA DAS PROBABILIDADE
Análise da Regressão múltipla: Inferência Revisão da graduação
ME623A Planejamento e Pesquisa
Análise Exploratória de Dados R – LIG/08 – maio de 2008.
DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO DA AMOSTRA OU
DISTRIBUIÇÃO AMOSTRAL DA MÉDIA DA AMOSTRA OU DISTRIBUIÇÃO AMOSTRAL DE
Teste de Hipóteses de uma amostra Prof. Helcio Rocha
VALORES ESPERADOS.
Função de uma Variável Aleatória
Estatística e Probabilidade
Aula 13 Derivação Implícita, derivadas das funções trigonométricas inversas e derivadas de funções logarítmicas.
Apêndice.
DISTRIBUIÇÕES AMOSTRAIS
Estatística Para um dado conjunto de dados, podemos calcular as seguintes grandezas: 1) Medidas de posição 2) Medidas de dispersão 3) Parâmetros de simetria.
Integração Numérica Integração Numérica
Análise Discriminante
Amostragem Pontos mais importantes:
Aula 6 - Método não-experimental ou de seleção não-aleatória
Site: Estatística Prof. Edson Nemer Site:
Inferência Estatística
Teste de Hipótese.
Aula 5 - Método experimental ou de seleção aleatória
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
COMPARAÇÃO DE DUAS POPULAÇÕES
Medidas de localização
2.3 Experimentos Fatoriais 22 Efeitos das Interações
Professor Antonio Carlos Coelho
Distribuição da Amostra
Apresenta:.
Regressão e Previsão Numérica.
Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 2 Prof. Cristina Ortiz Valete.
Modelos Teóricos Contínuos de Probabilidade
Disciplina Engenharia da Qualidade II
INFERÊNCIA ESTATÍSTICA PROPORÇÃO POPULACIONAL p
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Métodos Estatísticos Aplicados às Ciências Biológicas - 7ª aula -
INTERVALOS DE CONFIANÇA
Estimação: Estimativa Pontual Estimativa Intervalar
GESTÃO E GARANTIA DA QUALIDADE
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Estimação e Intervalo de Confiança. Estimação Frequentemente necessitamos, por meio das amostras, conhecer informações gerais da população. A estimação.
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Técnicas.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Aula 4 Bioestatística Probabilidade para variáveis aleatórias.
Universidade Federal do Pará – Ciências Exatas e Naturais – Bacharelado em Estatística – Estatística Aplicada – Análise Discriminante Universidade Federal.
INTERVALO DE CONFIANÇA PARA A MEDIA POPULACIONAL (σ 2 desconhecido ) Sabemos que se o tamanho da amostra for superior a 30 a distribuição amostral das.
Estatística Aplicada à Adminitração Prof. Alessandro Moura Costa UNIVERSIDADE FEDERAL DO PAMPA BACHARELADO EM ADMINISTRAÇÃO DE EMPRESAS.
Transcrição da apresentação:

ANÁLISE DISCRIMINANTE LIG, 13 de novembro de 2008

Duas populações normais, covariâncias desiguais Tomando-se o logaritmo da expressão acima obtemos:

Covariâncias desiguais Rearrumando os termos da equação anterior, obtém-se: Observe que quando Σ 1 = Σ 2, o termo quadrático na equação acima se anula e as regiões obtidas reduzem-se às regiões obtidas anteriormente.

Covariâncias desiguais Na prática, a regra de classificação obtida é implementada substituindo-se os parâmetros populacionais pelas suas respectivas estimativas Assim, a regra de classificação quadrática estimada é alocar x 0 à 1 se

Comentários A classificação com funções quadráticas é bastante complicada em mais de duas dimensões, e pode levar a alguns resultados estranhos. Isto é particularmente verdadeiro quando a suposição de normalidade multivariada é violada. Se os dados não são normais multivariados, duas alternativas para contornar este fato são dadas a seguir. 1. transformar os dados para dados aproximadamente normais e realizar um teste para verificar a igualdade ou não das estruturas de covariância; 2. usar uma regra de classificação linear (ou quadrática) sem se preocupar com a forma da distribuição populacional e esperar que elas funcionem razoavelmente bem. O procedimento de Fisher, por exemplo, não depende da forma das populações, exceto pela suposição de covariâncias iguais.

Comentários Krzanowski (1977) e Lachenbruch (1975) mostraram que existem casos não-normais para os quais a função discriminante linear de Fisher tem uma performance ruim, apesar das matrizes de covariância populacionais serem idênticas. O conselho deixado aqui é sempre verificar a performance de qualquer procedimento de classificação. Isto deve ser feito pelo menos com os conjuntos de dados usados para construir o procedimento. O ideal é que exista uma disponibilidade de dados suficiente, de forma a fornecer amostras de treinamento (aprendizagem) e amostras de validação. As primeiras são usadas para construir a função de classificação e as outras, para avaliar a performance da função de classificação.

Exemplo no R dados=read.table( plot(dados[1:30,1],dados[1:30,2],xlim=c(-3,5),ylim=c(-3,5),xlab=x1,ylab=x2) points(dados[31:60,1],dados[31:60,2],col=red)

Exemplo: continuação Alocada em 1 Alocada em 2 Total Obs. de Obs. de Total Resultado das classificações sob qda.

Exemplo: continuação Comparando com o resultado via lda. Alocada em 1 Alocada em 2 Total Obs. de Obs. de Total

Avaliação das funções de classificação Uma forma de julgar a performance de qualquer procedimento é calcular suas taxas de erro, ou probabilidades de classificação incorreta. Quando as formas das distribuições populacionais são conhecidas, as probabilidades de classificação incorreta podem ser calculadas com certa facilidade. Como as formas de tais distribuições são raramente conhecidas, vamos nos concentrar nas taxas de erro associadas à função de classificação. Uma vez que a função de classificação é construída, uma medida de sua performance em amostras futuras será de interesse. Vimos que a probabilidade total de classificação incorreta é dada por PTCI= 1 p p 12. O menor valor desta probabilidade, obtido por uma escolha criteriosa de R 1 e R 2 é chamado Taxa de Erro Ótima ( TEO ).

Exemplo: Suponha num dado problema de classificação que as duas populações sejam normais com covariâncias iguais e médias μ 1 e μ 2. Além disso, suponha probabilidades de incidência a priori iguais e custos de classificação incorreta iguais. Neste caso, a regra da PTCI mínima é alocar x 0 à 1 se Essa região pode ser expressa em termos da variável Y definida por

Exemplo: continuação Se, de fato, os dados são normais, teremos que Neste caso, PTCI=(p 12 +p 21 )/2. Mas,

Exemplo: continuação Assim, temos, TEO= (- /2). 2 =2,56, então TEO=0,2119. Ou seja, a regra de classificação alocará incorretamente a uma população ou outra cerca de 21% dos objetos, se a distância quadrada entre as duas populações for igual a 2,56.

Comentários Em geral, os parâmetros μ 1, μ 2 e são desconhecidos e devem ser estimados. Neste caso a avaliação da taxa de erro não é imediata. A performance das funções de classificação amostrais pode, em princípio, ser avaliada calculando-se a Taxa de Erro Real (TER) definida por Os domínios de integração representam as regiões de classificação determinadas a partir das amostras de tamanhos n 1 e n 2.

Comentários A TER indica como a função de classificação se comportará em amostras futuras. Assim como a TEO, ela não pode, em geral, ser calculada, pois depende das densidades desconhecidas. Porém, uma estimativa de uma quantidade relacionada à TER pode ser calculada, e esta estimativa será apresentada adiante. Uma medida de performance que não depende da forma das distribuições populacionais e que pode ser calculada para qualquer procedimento de classificação é chamada de taxa de erro aparente (TEA), e é definida como a fração das observações na amostra de treinamento que são incorretamente classificadas pela função de classificação amostral.

Comentários Sendo n 1 e n 2 e os tamanhos das duas amostras, sejam n 1c o número de objetos de 1 classificados corretamente e n 1m = n 1 - n 1c o número de objetos de 1 classificados incorretamente e, sejam n 2c o número de objetos de 2 classificados corretamente e n 2m = n 2 - n 2c o número de objetos de 2 classificados incorretamente.

Comentários A TEA é uma medida intuitiva e fácil de calcular. Porém, ela tende a subestimar a TER e este problema persiste a não ser que n 1 e n 2 e sejam muito grandes. Essencialmente, esta estimativa otimista ocorre porque os dados usados para construir a função de classificação são também usados para avaliá-la. Estimativas de taxas de erro melhores que a TEA podem ser construídas mantendo-se uma relativa facilidade de cálculo e não exigindo suposições sobre a forma das distribuições populacionais.

Comentários Um procedimento é dividir a amostra total em uma amostra de treinamento e uma amostra de validação. A taxa de erro é determinada pela proporção de itens classificados incorretamente na amostra de validação. Apesar deste método superar o problema do viés de estimação por não usar os mesmos dados usados na construção da função de classificação ele apresenta duas desvantagens, a saber, 1. requer grandes amostras; 2. a função avaliada não é a função de interesse. (No final, quase toda observação deve ser usada para construir a função de classificação. Caso contrário, pode-se estar perdendo informação.)

Outra abordagem Uma segunda abordagem que parece funcionar bem é chamada procedimento holdout (deixar de fora) de Lachenbruch (1968) que equivale a um tipo de validação cruzada: 1. Comece com as observações de 1. Omita uma observação deste grupo e desenvolva uma função de classificação baseada nas n 1 + n 2 -1 observações restantes. 2. Classifique a observação deixada de fora usando a função obtida em Repita os passos 1 e 2 até que todas as observações de 1 sejam classificadas. 4. Repita os passos 1, 2 e 3 para as observações 2.

Outra abordagem Sejam n 1M (H) - o número de observações deixadas de fora em 1 classificadas incorretamente, e n 2M (H) - o número de observações deixadas de fora em 2 classificadas incorretamente. As estimativas das probabilidades de classificação incorreta são dadas por:

Comentário Para terminar, deve ser intuitivamente claro que uma regra de classificação boa (baixas taxas de erro) dependerá da separação entre as populações. Quanto mais separadas, mais provavelmente uma classificação útil será obtida.