A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

ANÁLISE DISCRIMINANTE LIG, 11 de novembro de 2008.

Apresentações semelhantes


Apresentação em tema: "ANÁLISE DISCRIMINANTE LIG, 11 de novembro de 2008."— Transcrição da apresentação:

1 ANÁLISE DISCRIMINANTE LIG, 11 de novembro de 2008

2 Classificação em uma de duas populações Regras de classificação são geralmente desenvolvidas a partir de amostras de aprendizado, isto é amostras para as quais sabe-se de qual das duas populações provém o objeto. As medidas características dos objetos selecionados aleatoriamente são, então, examinadas pelas suas diferenças para os dois grupos. Na prática: o conjunto de todos os resultados amostrais R é dividido em duas regiões R 1 e R 2 tal que se uma nova observação cair em R 1 ela será alocada na população 1 e, se cair em R 2, ela será alocada na população 2.

3 Classificação em uma de duas populações As regras de classificação geralmente não fornecem um método de designação livre de erro. Isto ocorre porque pode não existir uma distinção entre as medidas características das duas populações, isto é, os grupos podem de alguma forma sobrepor-se. Um bom procedimento de classificação deveria resultar em poucas classificações incorretas. Outro aspecto da classificação: custo que pode-se estar sujeito, devido a uma classificação incorreta. Suponha que classificar um objeto de 1 em 2 represente um erro mais sério do que classificar um objeto de 2 em 1. Um procedimento de classificação ótimo deve sempre que possível levar em conta os custos associados à classificação incorreta.

4 Custo de classificação incorreta Sejam f 1 (x) e f 2 (x), as densidades de probabilidade associadas às populações 1 e 2. Seja R a coleção de todas as possíveis observações x. Sejam R 1 o conjunto de valores no espaço amostral para os quais classificamos o objeto em 1 e, R 2 o conjunto dos valores restantes para os quais classificamos o objeto em 2. Como todo objeto deve ser classificado em uma, e somente uma, das duas populações segue que os conjuntos R 1 e R 2 devem ser mutuamente exclusivos e exaustivos tal que R 1 R 2 = e R 1 U R2=R. A probabilidade condicional, p 21, de classificar um objeto de 1 em 2 é:

5 Custo de classificação incorreta Similarmente, a probabilidade condicional, p 12, de classificar um objeto de 2 em 1 é: Sejam 1 a probabilidade a priori de um objeto pertencer a 1 e, 2 a probabilidade a priori de um objeto pertencer a 2. A probabilidade total de classificação incorreta é então dada por: PTCI= 1 p 21 + 2 p 12 As regras de classificação são freqüentemente avaliadas em termos de suas probabilidades de classificação incorreta, mas este critério não leva em consideração os custos de classificação.

6 Custo de classificação incorreta Observação proveniente de: Alocada em 1 Alocada em 2 1 0C 21 2 C 12 0 Para qualquer regra de classificação, o custo esperado de classificação incorreta ( CECI ) é dado por: CECI= 1 p 21 C 21 + 2 p 12 C 12 Uma regra de classificação razoável deve ter um CECI tão pequeno quanto possível.

7 Regras de alocação ótimas Sugere-se que uma regra de classificação adequada poderia ser determinada pela minimização do custo esperado de classificação incorreta ( CECI ). Em outras palavras, as regiões R 1 e R 2 devem ser escolhidas tal que o CECI seja minimizado Resultado: As regiões R 1 e R 2 que minimizam o CECI são definidas pelos valores de x para os quais as seguintes desigualdades valem:

8 Observações Outros critérios diferentes do critério do CECI mínimo podem ser usados para derivar procedimentos ótimos de classificação. Por exemplo, pode-se ignorar os custos de classificação incorreta e escolher R 1 e R 2 que minimizam a probabilidade total de classificação incorreta (PTCI= 1 p 21 + 2 p 12 ). Matematicamente, o problema aqui é equivalente ao problema de minimização do custo esperado de classificação (CECI) quando os custos C 21 e C 12 são iguais. Conseqüentemente, as regiões ótimas são

9 Probabilidade a posteriori de classificação incorreta Podemos também alocar uma nova observação x 0 à população com maior probabilidade de incidência a posteriori P( i |x 0 ) em que

10 Duas populações normais Suponha agora que f 1 (x) e f 2 (x), sejam densidades normais p -variadas com vetores de média μ 1 e μ 2 e matrizes de covariância 1 e 2. Caso 1: 1 = 2 =.

11 Populações normais, covariâncias iguais Nesse caso, as regiões de classificação são dadas por:

12 Populações normais, covariâncias iguais Aplicando a função log na base e (ln), em ambos os lados da desigualdade obtida, chega- se a seguinte regra de classificação simplificada: Comparando a regra do CECI mínimo e essa regra com o método de Fisher observe que os procedimentos serão equivalentes, se os custos e probabilidades de incidência a priori forem iguais.

13 Estimação Na maioria das aplicações μ 1, μ 2 e são desconhecidos tal que a regra obtida deve ser modificada. Wald (1944) e Anderson (1984) sugeriram a substituição dos parâmetros populacionais pelas suas estimativas: Neste caso, a regra modificada é alocar x 0 à 1 se Alocar alocar x 0 à 2 caso contrário.

14 Comentários Uma vez que as estimativas dos parâmetros são inseridas no lugar das correspondentes quantidades populacionais desconhecidas, não há mais garantia de que a regra resultante minimize o CECI em uma particular aplicação. Isto ocorre porque a regra ótima foi obtida supondo-se as densidades populacionais completamente conhecidas. A expressão sugerida é, simplesmente, uma estimativa da regra ótima. Porém, parece razoável esperar que a regra estimada tenha uma performance boa para tamanhos amostrais suficientemente grandes.

15 Comentários Para resumir, se os dados parecem ser normais multivariados a estatística de classificação pode ser calculada para cada nova observação x 0. Estas observações são classificadas comparando-se os valores de w com o valor de

16 Função discriminante linear no R No R está disponível no pacote MASS a função lda ( linear discriminant analysis ). Exemplo no R: dados=read.table(http://www.im.ufrj.br//~flavia/mad484/testelda.txt,header=T) plot(dados[1:30,1],dados[1:30,2],xlim=c(-3,5),ylim=c(-3,5),xlab=x1,ylab=x2) points(dados[31:60,1],dados[31:60,2],col=red) fit=lda(grupo~x1+x2,data=dados,method=moment)

17 SAÍDA: Prior probabilities of groups: A B 0.5 Group means: x1 x2 A 0.0759519 0.08692872 B 1.7026247 1.25884088 Coefficients of linear discriminants: LD1 x1 0.6790879 x2 0.4150345 Obs.: Os coeficientes em LD1 são os coeficientes do vetor a após normalização adequada.

18 Usando o R fit1=lda(grupo~x1+x2,data=dados,CV=T) Essa função gera um fator de classificação que pode ser usado para comparar os erros de classificação na amostra utilizada. table(dados$grupo,fit1$class) Alocada em 1 Alocada em 2 Total Obs. de 1 25530 Obs. de 2 82230 Total322760

19 Duas populações normais, covariâncias desiguais Tomando-se o logaritmo da expressão acima obtemos:

20 Covariâncias desiguais Rearrumando os termos da equação anterior, obtém-se: Observe que quando Σ 1 = Σ 2, o termo quadrático na equação acima se anula e as regiões obtidas reduzem-se às regiões obtidas anteriormente.

21 Covariâncias desiguais Na prática, a regra de classificação obtida é implementada substituindo-se os parâmetros populacionais pelas suas respectivas estimativas Assim, a regra de classificação quadrática estimada é alocar x 0 à 1 se

22 Comentários A classificação com funções quadráticas é bastante complicada em mais de duas dimensões, e pode levar a alguns resultados estranhos. Isto é particularmente verdadeiro quando a suposição de normalidade multivariada é violada. Se os dados não são normais multivariados, duas alternativas para contornar este fato são dadas a seguir. 1. transformar os dados para dados aproximadamente normais e realizar um teste para verificar a igualdade ou não das estruturas de covariância; 2. usar uma regra de classificação linear (ou quadrática) sem se preocupar com a forma da distribuição populacional e esperar que elas funcionem razoavelmente bem. O procedimento de Fisher, por exemplo, não depende da forma das populações, exceto pela suposição de covariâncias iguais.

23 Comentários Krzanowski (1977) e Lachenbruch (1975) mostraram que existem casos não-normais para os quais a função discriminante linear de Fisher tem uma performance ruim, apesar das matrizes de covariância populacionais serem idênticas. O conselho deixado aqui é sempre verificar a performance de qualquer procedimento de classificação. Isto deve ser feito pelo menos com os conjuntos de dados usados para construir o procedimento. O ideal é que exista uma disponibilidade de dados suficiente, de forma a fornecer amostras de treinamento (aprendizagem) e amostras de validação. As primeiras são usadas para construir a função de classificação e as outras, para avaliar a performance da função de classificação.

24 Exemplo no R dados=read.table(http://www.im.ufrj.br//~flavia/mad484/testeqda.txt,header=T) plot(dados[1:30,1],dados[1:30,2],xlim=c(-3,5),ylim=c(-3,5),xlab=x1,ylab=x2) points(dados[31:60,1],dados[31:60,2],col=red)

25 Exemplo: continuação Alocada em 1 Alocada em 2 Total Obs. de 1 311950 Obs. de 2 84250 Total3961100 Resultado das classificações sob qda.

26 Exemplo: continuação Comparando com o resultado via lda. Alocada em 1 Alocada em 2 Total Obs. de 1 321850 Obs. de 2 113950 Total4357100

27 Avaliação das funções de classificação Uma forma de julgar a performance de qualquer procedimento é calcular suas taxas de erro, ou probabilidades de classificação incorreta. Quando as formas das distribuições populacionais são conhecidas, as probabilidades de classificação incorreta podem ser calculadas com certa facilidade. Como as formas de tais distribuições são raramente conhecidas, vamos nos concentrar nas taxas de erro associadas à função de classificação. Uma vez que a função de classificação é construída, uma medida de sua performance em amostras futuras será de interesse. Vimos que a probabilidade total de classificação incorreta é dada por PTCI= 1 p 21 + 2 p 12. O menor valor desta probabilidade, obtido por uma escolha criteriosa de R 1 e R 2 é chamado Taxa de Erro Ótima ( TEO ).

28 Exemplo: Suponha num dado problema de classificação que as duas populações sejam normais com covariâncias iguais e médias μ 1 e μ 2. Além disso, suponha probabilidades de incidência a priori iguais e custos de classificação incorreta iguais. Neste caso, a regra da PTCI mínima é alocar x 0 à 1 se Essa região pode ser expressa em termos da variável Y definida por

29 Exemplo: continuação Se, de fato, os dados são normais, teremos que Neste caso, PTCI=(p 12 +p 21 )/2. Mas,

30 Exemplo: continuação Assim, temos, TEO= (- /2). 2 =2,56, então TEO=0,2119. Ou seja, a regra de classificação alocará incorretamente a uma população ou outra cerca de 21% dos objetos, se a distância quadrada entre as duas populações for igual a 2,56.

31

32 Comentários Em geral, os parâmetros μ 1, μ 2 e são desconhecidos e devem ser estimados. Neste caso a avaliação da taxa de erro não é imediata. A performance das funções de classificação amostrais pode, em princípio, ser avaliada calculando-se a Taxa de Erro Real (TER) definida por Os domínios de integração representam as regiões de classificação determinadas a partir das amostras de tamanhos n 1 e n 2.

33 Comentários A TER indica como a função de classificação se comportará em amostras futuras. Assim como a TEO, ela não pode, em geral, ser calculada, pois depende das densidades desconhecidas. Porém, uma estimativa de uma quantidade relacionada à TER pode ser calculada, e esta estimativa será apresentada adiante. Uma medida de performance que não depende da forma das distribuições populacionais e que pode ser calculada para qualquer procedimento de classificação é chamada de taxa de erro aparente (TEA), e é definida como a fração das observações na amostra de treinamento que são incorretamente classificadas pela função de classificação amostral.

34 Comentários Sendo n 1 e n 2 e os tamanhos das duas amostras, sejam n 1c o número de objetos de 1 classificados corretamente e n 1m = n 1 - n 1c o número de objetos de 1 classificados incorretamente e, sejam n 2c o número de objetos de 2 classificados corretamente e n 2m = n 2 - n 2c o número de objetos de 2 classificados incorretamente.

35 Comentários A TEA é uma medida intuitiva e fácil de calcular. Porém, ela tende a subestimar a TER e este problema persiste a não ser que n 1 e n 2 e sejam muito grandes. Essencialmente, esta estimativa otimista ocorre porque os dados usados para construir a função de classificação são também usados para avaliá-la. Estimativas de taxas de erro melhores que a TEA podem ser construídas mantendo-se uma relativa facilidade de cálculo e não exigindo suposições sobre a forma das distribuições populacionais.

36 Comentários Um procedimento é dividir a amostra total em uma amostra de treinamento e uma amostra de validação. A taxa de erro é determinada pela proporção de itens classificados incorretamente na amostra de validação. Apesar deste método superar o problema do viés de estimação por não usar os mesmos dados usados na construção da função de classificação ele apresenta duas desvantagens, a saber, 1. requer grandes amostras; 2. a função avaliada não é a função de interesse. (No final, quase toda observação deve ser usada para construir a função de classificação. Caso contrário, pode-se estar perdendo informação.)

37 Outra abordagem Uma segunda abordagem que parece funcionar bem é chamada procedimento holdout (deixar de fora) de Lachenbruch (1968) que equivale a um tipo de validação cruzada: 1. Comece com as observações de 1. Omita uma observação deste grupo e desenvolva uma função de classificação baseada nas n 1 + n 2 -1 observações restantes. 2. Classifique a observação deixada de fora usando a função obtida em 1. 3. Repita os passos 1 e 2 até que todas as observações de 1 sejam classificadas. 4. Repita os passos 1, 2 e 3 para as observações 2.

38 Outra abordagem Sejam n 1M (H) - o número de observações deixadas de fora em 1 classificadas incorretamente, e n 2M (H) - o número de observações deixadas de fora em 2 classificadas incorretamente. As estimativas das probabilidades de classificação incorreta são dadas por:

39 Comentário Para terminar, deve ser intuitivamente claro que uma regra de classificação boa (baixas taxas de erro) dependerá da separação entre as populações. Quanto mais separadas, mais provavelmente uma classificação útil será obtida.


Carregar ppt "ANÁLISE DISCRIMINANTE LIG, 11 de novembro de 2008."

Apresentações semelhantes


Anúncios Google