Análise de Componentes Principais

Análise de Componentes Principais
Universidade Federal Rural do Rio de Janeiro Pós-Graduação em Agronomia Ciência do Solo: CPGA-CS Análise de Componentes Principais Carlos Alberto Alves Varella Doutor em Engenharia Agrícola Novembro 2011

Introdução É a técnica mais conhecida da estatística multivariada;
Pode ser utilizada para geração de índices e agrupamento de indivíduos; Cada componente principal é uma combinação linear de todas as variáveis originais; São independentes entre si; É importante ter uma visão conjunta de todas ou quase todas as técnicas da estatística multivariada para resolver a maioria dos problema práticos.

Construção da matriz de dados (Matriz X)
Matriz de dados para ‘p’ variáveis e ‘n’ indivíduos; Características observadas são : X1, X2, X3, ..., Xp; A matriz é de ordem n x p.

Matriz de Covariância, S
Obtida a partir da matriz X de dados de ordem ‘n x p’; É uma estimativa da matriz de covariância Σ da população π; A matriz S é simétrica e de ordem ‘p x p’.

Padronização dos dados
Média zero e variância 1 Média qualquer e variância 1

Variáveis Padronizadas
A matriz Z é igual a matriz de correlação R da matriz de dados X;

Considerações sobre a padronização
Normalmente partimos da matriz padronizada; O resultado a partir da matriz S pode ser diferente do resultado a partir da matriz R. A padronização só dever ser feita quando as unidades das variáveis observadas não são as mesmas.

Determinação dos Componentes Principais
Os componentes principais são determinados resolvendo-se a equação característica da matriz S ou R, isto é:

Autovalores da matriz R
λ1, λ2, λ3, ..., λp são as raízes da equação característica da matriz R ou S, então: λ1, λ2, λ3, ..., λp podem se autovalores da matriz R ou S;

Autovetores ú û ù ê ë é = a ~ M
Para cada autovalor λi existe um autovetor: ú û ù ê ë é = ip 2 i 1 a ~ M

Componente principal Yi
Sendo o autovalor = λi , então o i-ésimo componente principal é dado por: p ip 2 i 1 X a Y + = L

Propriedades dos Componentes Principais
A variância do componente principal Yi é igual ao valor do autovalor λi: ( ) i Y ar V ˆ l = O primeiro componente é o que apresenta maior variância e assim por diante: ) Y ( ar V ˆ p 2 1 > L

Propriedades dos Componentes Principais
Total de variância das variáveis originais = somatório dos autovalores = total de variância dos componentes principais: å = l ) Y ( ar V ˆ X i Os componentes principais não são correlacionados entre si: ( ) Y , ov C ˆ j i =

Importância de cada componente principal
Medida pela porcentagem de variância de cada componente em relação ao total ( ) 100 S traço Y ar V ˆ C i p 1 × l = å

Número de componentes å ( ) p k onde % 70 100 Y ar V ˆ < ³ × + L
Não existe um modelo estatístico; O número de ser aquele que acumula 70% ou mais de proporção da variância total. ( ) p k onde % 70 100 Y ar V ˆ 1 i < × + å = L

Interpretação dos componentes
Verifica-se o Grau de influência que cada variável Xj tem sobre o componente Yi. ( ) j 1 Y Xj , X ar V a ˆ r Corr × l =

Interpretação dos componentes
Verifica-se o peso ou loading de cada variável sobre o componente ( ) p 1 2 12 11 X ar V a w , L =

Escores dos componentes
Organização dos dados Trat (Indiv) Variáveis Escores dos componentes principais X1 X2 ... Xp Y1 Y2 Yk 1 X11 X12 X1p Y11 Y12 Y1k 2 X21 X22 X2p Y21 Y22 Y2k n Xn1 Xn2 Xnp Yn1 Yn2 Ynk

Escores do primeiro componente para ‘n’ tratamentos e ‘p’ variáveis
O escore é o valor da cominação linear; Yn1=componente 1 do tratamento n para p variáveis.

Variáveis padronizadas
Exemplo de Aplicação Variáveis originais observadas (X1 e X2) e padronizados (Z1 e Z2). Duas variáveis para cinco tratamentos (k=5). Tratamentos Variáveis originais Variáveis padronizadas X1 X2 Z1 Z2 1 102 96 24,3827 6,9554 2 104 87 24,8608 6,3033 3 101 62 24,1436 4,4920 4 93 68 22,2313 4,9268 5 100 77 23,9046 5,5788 Variância 17,50 190,50

Padronização da Variância
Os dados serão padronizados para variância 1:

Matriz de Correlação Elementos da diagonal principal igual a 1. Significa a correlação entre mesmas variáveis; Elementos fora da diagonal principal igual a 0,5456. Significa a correlação entre as variáveis (X1,X2).

Autovalores da matriz de correlação
São os elementos fora da diagonal principal da matriz. Significa a variância de cada componente principal. λ1 = 1,5456 e λ2 = 0,4544

Traço da matriz de correlação
Somatório dos elementos da diagonal da matriz. Significa o total de variância. Traço(R) = 1+1=2

Primeiro autovetor da matriz de correlação
São os coeficientes das variáveis padronizadas Z1, Z2. Y1 é a combinação linear de Z1, Z2 que denominamos de primeiro componente principal

Resultados da análise Variância, ponderação, correlação, % de variância e % de variância acumulada dos componentes principais. CP Variância (λ) Ponderação Correlação entre Zj eYi % de variância % de variância acumulada dos Yi Z1 Z2 Y1 1,5456 0,707 0,879 77,28 Y2 0,4544 -0,707 -0,476 0,476 22,72 100,00

Escores dos componentes principais
Tratamentos Componentes principais Y1 Y2 1 22,16 -12,32 2 22,04 -13,12 3 20,25 -13,90 4 19,20 -12,24 5 20,85 -12,96

Gráfico de dispersão Permite visualizar se os componentes principais (Yis) são capazes de discriminar indivíduos da população () utilizando características (Xi). 19 20 21 22 23 -14 -13.5 -13 -12.5 -12 Segundo componente (Y2) Primeiro componente (Y1)

Aula prática com o programa computacional SAS
Material didático: Disciplina: Análise Multivariada Aplicada as Ciências Agrárias. Aula prática: com SAS. FIM

Análise de Componentes Principais

Apresentações semelhantes

Apresentação em tema: "Análise de Componentes Principais"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Análise de Componentes Principais

Apresentações semelhantes

Apresentação em tema: "Análise de Componentes Principais"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback