A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008.

Apresentações semelhantes


Apresentação em tema: "ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008."— Transcrição da apresentação:

1 ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008

2 INTRODUÇÃO Técnicas multivariadas que dizem respeito à separação de conjuntos distintos de objetos (ou observações) e à alocação de novos objetos (observações a grupos previamente definidos. Principais objetivos: Descrever gráfica e algebricamente os aspectos que diferenciam os grupos de objetos (observações). Determinar discriminantes entre grupos. (discriminação). Alocar objetos em classes previamente definidas. A ênfase aqui está na derivação de uma regra que pode ser usada para designar de forma ótima um novo objeto às classes existentes.

3 MÉTODO DE FISHER Considere duas classes (populações) 1 e 2. Os objetos ou observações são ordinariamente separados ou classificados com base nas medidas associadas à variável X de dimensão p x 1. Os valores observados de X diferem de uma classe para outra. Se os valores de X não forem muito diferentes dos objetos em 1 e 2, as classes serão indistinguíveis e novos objetos poderiam ser designados aleatoriamente a qualquer uma das classes.

4 MÉTODO DE FISHER Estas duas populações podem ser descritas pelas respectivas funções de densidade de probabilidade f 1 (x) e f 2 (x), e conseqüentemente, podemos falar na designação de observações às populações. A idéia de Fisher foi transformar as observações multivariadas X em observações univariadas Y tal que as Y 's obtidas a partir das populações 1 e 2 fossem o mais separadas possíveis. Fisher sugeriu tomar combinações lineares das componentes de X para criar as variáveis Y 's.

5 Método de Fisher Fisher selecionou a tal que a distância quadrada entre 1Y e 2Y relativa à variabilidade dos Y 's seja a maior possível. Isto é, selecionou a tal que a razão: seja máxima.

6 Método de Fisher

7 Função discriminante linear de Fisher Podemos usar a função discriminante linear de Fisher como um esquema de classificação. A saber, defina Y 0 =( ) T Σ -1 x 0 como o valor da função para uma nova observação x 0 e considere o ponto médio entre as duas médias populacionais, dado por

8 Função discriminante linear de Fisher e Subtraindo m dos valores esperados de Y 0 condicionados a cada uma das duas populações obtemos:

9 Função discriminante linear de Fisher Assim, se Y 0 provém da população 1 esperamos que ele seja superior ao ponto médio m e, caso contrário, esperamos que ele seja inferior ao ponto médio m. Desse modo a regra de classificação é dada por Alocar a nova observação x 0 em Porém 1, 2, e Σ são geralmente desconhecidos. Portanto, a regra acima não pode ser implementada a menos que a e m possam ser estimados a partir das observações amostrais.

10 Estimação Suponha que tenhamos amostras de tamanhos n 1 e n 2 de 1 e 2, respectivamente. Sejam X 1 e X 2 as matrizes de dados de ordens n 1 x p e n 2 x p. A partir dessas matrizes, calculamos os vetores de médias amostrais e as matrizes de covariância amostrais.

11 Notação Como estamos supondo covariâncias iguais nas duas populações, o estimador não tendencioso para a matriz Σ de covariância populacional é dado por:

12 Estimação Dadas as amostras, observamos os valores Substituímos então esses valores na regra anterior tal que a regra estimada é alocar a nova observação x 0 em

13 Informações adicionais Seja 2 o valor máximo da razão populacional : 2 é chamado distância quadrada entre as duas populações. O máximo da razão amostral é D 2 = d'S -1 d, em que D 2 é a distância quadrada amostral e d é a diferença entre os vetores de média amostrais. Para duas populações a separação máxima relativa que pode ser obtida considerando-se todos os compostos lineares das observações multivariadas é igual a distância D.

14 Teste de separação Se a hipótese nula é rejeitada, podemos concluir que a diferença entre as duas populações é significativa. A distância quadrada D 2 pode ser usada para testar a diferença entre médias para as duas populações via teste T 2 de Hotelling da seguinte forma sob a suposição de normalidade.

15 Comentários Separação significativa entre populações não implica necessariamente em boa regra de classificação. A eficácia de um procedimento de classificação pode ser avaliada independentemente de qualquer teste de separação. Por outro lado, se a separação não é significativa, a busca por uma regra boa de classificação será provavelmente infrutífera.

16 Classificação em uma de duas populações Regras de classificação são geralmente desenvolvidas a partir de amostras de aprendizado, isto é amostras para as quais sabe-se de qual das duas populações provém o objeto. As medidas características dos objetos selecionados aleatoriamente são, então, examinadas pelas suas diferenças para os dois grupos. Na prática: o conjunto de todos os resultados amostrais é dividido em duas regiões R 1 e R 2 tal que se uma nova observação ´cair em R 1 ela será alocada na população 1 e, se cair em R 2, ela será alocada na população 2.

17 Classificação em uma de duas populações Deve ficar claro que as regras de classificação geralmente não fornecem um método de designação livre de erro. Isto ocorre porque pode não existir uma distinção entre as medidas características das duas populações, isto é, os grupos podem de alguma forma sobrepor- se. É, então, possível classificar incorretamente uma observação proveniente da população 1 na população 2 e vice-versa. Um bom procedimento de classificação deveria resultar em poucas classificações incorretas. Em outras palavras, as chances, ou probabilidades de classificação incorreta devem ser pequenas. Outro aspecto da classificação é o custo que pode-se estar sujeito devido a uma classificação incorreta. Suponha que classificar um objeto de 1 em 2 represente um erro mais sério do que classificar um objeto de 2 em 1. Um procedimento de classificação ótimo deve sempre que possível levar em conta os custos associados à classificação incorreta.

18 Custo de classificação incorreta Sejam f 1 (x) e f 2 (x), as densidades de probabilidade associadas às populações 1 e 2. Um objeto, caracterizado pelas medidas dadas pelo vetor x, deve ser designado de forma ótima a 1 ou a 2. Seja R a coleção de todas as possíveis observações x. Sejam R 1 o conjunto de valores no espaço amostral para os quais classificamos o objeto em 1 e, R 2 o conjunto dos valores restantes para os quais classificamos o objeto em 2. Como todo objeto deve ser classificado em uma, e somente uma, das duas populações segue que os conjuntos R 1 e R 2 devem ser mutuamente exclusivos e exaustivos tal que R 1 R 2 = e R 1 U R2=R. A probabilidade condicional, p 21, de classificar um objeto de 1 em 2 é:

19 Custo de classificação incorreta Similarmente, a probabilidade condicional, p 12, de classificar um objeto de 2 em 1 é: Sejam 1 a probabilidade a priori de um objeto pertencer a 1 e, 2 a probabilidade a priori de um objeto pertencer a 2. A probabilidade total de classificação incorreta é então dada por: PTCI= 1 p p 12 As regras de classificação são freqüentemente avaliadas em termos de suas probabilidades de classificação incorreta, mas este critério não leva em consideração os custos de classificação.

20 Custo de classificação incorreta Observação proveniente de: Alocada em 1 Alocada em 2 1 0C 21 2 C 12 0 Para qualquer regra de classificação, o custo esperado de classificação incorreta ( CECI ) é dado por: CECI=C 21 1 p 21 + C 12 2 p 12 Uma regra de classificação razoável deve ter um CECI tão pequeno quanto possível.

21 Regras de alocação ótimas Sugere-se que uma regra de classificação adequada poderia ser determinada pela minimização do custo esperado de classificação incorreta ( CECI ). Em outras palavras, as regiões R 1 e R 2 devem ser escolhidas tal que o CECI seja minimizado Resultado: As regiões R 1 e R 2 que minimizam o CECI são definidas pelos valores de x para os quais as seguintes desigualdades valem:

22 Regras de alocação ótimas A implementação dessa regra requer o cálculo da razão das funções de densidade em x 0 (nova observação); a razão entre os custos de classificação incorreta C 12 e C 21 e, a razão das probabilidades de incidência a priori, 1 e 2.

23 Casos especiais: 1) Probabilidades de incidência a priori iguais: 2) Custos de classificação incorreta iguais: 3) Custos de classificação incorreta iguais e prioris iguais:

24 Comentários Quando as probabilidades a priori são desconhecidas considera-se, em geral, prioris iguais. Quando a razão entre os custos de classificação incorreta é desconhecida, toma-se, em geral, custos de classificação incorreta iguais. Quando ambas as razões são desconhecidas, tomam-se custos e prioris iguais.

25 Exemplo Um pesquisador dispõe de dados suficientes para estimar as funções de densidade f 1 (x) e f 2 (x), às populações 1 e 2, respectivamente. Suponha C 21 =5 unidades e C 12 =10 unidades. Além disso, sabe-se que cerca de 20% de todos os objetos pertencem a 2. Suponha que uma nova observação x 0 resultou em f 1 (x 0 )=0.3 e f 2 (x 0 )= 0.4. Usando a regra do CECI mínimo, em qual das duas populações você classificaria esta nova observação?

26 Exemplo - solução

27 Observações Outros critérios diferentes do critério do CECI mínimo podem ser usados para derivar procedimentos ótimos de classificação. Por exemplo, pode-se ignorar os custos de classificação incorreta e escolher R 1 e R 2 que minimizam a probabilidade total de classificação incorreta (PTCI= 1 p p 12 ). Matematicamente, o problema aqui é equivalente ao problema de minimização do custo esperado de classificação (CECI) quando os custos C 21 e C 12 são iguais. Conseqüentemente, as regiões ótimas são

28 Probabilidade a posteriori de classificação incorreta Podemos também alocar uma nova observação x 0 à população com maior probabilidade de incidência a posteriori P( i |x 0 ) em que

29 Comentários A regra obtida usando probabilidades a posteriori de classificação é a mesma regra quando consideram-se custos de classificação incorreta iguais, mas tem a vantagem na identificação de designações menos óbvias.

30 Duas populações normais Suponha agora que f 1 (x) e f 2 (x), sejam densidades normais p-variadas com vetores de média μ 1 e μ 2 e matrizes de covariância 1 e 2. Caso 1: 1 = 2 =.

31 Populações normais, covariâncias iguais Nesse caso, as regiões de classificação são dadas por:

32 Populações normais, covariâncias iguais Aplicando a função log na base e, em ambos os lados da desigualdade obtida obtém-se a seguinte regra de classificação simplificada: Comparando a regra do CECI mínimo e essa regra com o método de Fisher observe que os procedimentos serão equivalentes de os custos e probabilidades de incidência a priori forem iguais.

33 Função discriminante linear no R No R está disponível no pacote MASS a função lda ( linear discriminant analysis ). Exemplo no R


Carregar ppt "ANÁLISE DISCRIMINANTE LIG, 30 de outubro de 2008."

Apresentações semelhantes


Anúncios Google