A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais.

Apresentações semelhantes


Apresentação em tema: "ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais."— Transcrição da apresentação:

1 ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais (CP) (ou Funções Ortogonais Empíricas) Motivação variáveis hidroclimatológicas do sistema climático : grande quantidade muitas vezes correlacionadas entre si uma tecnica estatistica que, sem perder as informação relevantes, viabiliza: Interpretação do sistema de variáveis como um todo, seus padrões dominantes de variabilidade Reduzir a interpretação a um número de variáveis menor, ou seja: prover variaveis não correlacionadas entre si (limitação da técnica de regressão) diminuir a redundância de informação Climatologia II - ACA226 (Iag/USP)

2 Se i = j então tem-se a variância: Climatologia II - ACA226 (Iag/USP) Revisão A função covariância de duas variáveis aleatórias x i e x j, como séries temporais no tempo k=1,n

3 Revisão 2. A matriz de covariância Σ Representação matricial de todas as combinações possíveis de covariâncias no vetor X de séries temporais de v.a. X = (x 1,x 2,...x p ), no tempo k=1,n é a matriz quadrática (p x p) definida como Como s 12 = s 21, por ex, a matriz é simétrica Climatologia II - ACA226 (Iag/USP)

4 Revisão 3. Matriz de Correlação Outra matriz importante nos cálculo das CP é a matriz de correlação. O coeficiente de correlação entre duas variáveis X i e X j é definido como Se i = j, então A matriz de correlação é r 11 = r 22 =... r pp = 1 define a diagonal da matriz Climatologia II - ACA226 (Iag/USP) r ij

5 Revisão 4. Variáveis Independentes O coeficiente de correlação linear é Assim Se x i e x j são variáveis independentes (não relacionadas) então cov(x i,x y ) = 0 Contudo, o oposto nem sempre é verdadeiro. Climatologia II - ACA226 (Iag/USP) Se X i e X j não tem relação (ou proporção) linear entre si, β = 0

6 Revisão 5. Problema de autovetores e Autovalores a)Seja um vetor (de 2 dimensões por exemplo ) X = (x 1,x 2 ) Uma transformação linear em X, obtida por uma matriz A (conhecida) que obtem o vetor Y, Y= A X (1) e seja equivalente a um vetor paralelo a X (ou seja, multiplicado por uma constante λ, desconhecida) Y= λ X (2) tem como solução possíveis os valores de λ, chamados autovalores, e de X como o autovetor associado (calculado) a λ, onde A é chamada de matriz de transformação. Climatologia II - ACA226 (Iag/USP)

7 Determinação dos autovalores e autovetores De (1) e (2) A X = λ X (A – λ I) X = 0 (3) Definindo-se a matriz A e a matriz identidade I, temos Então em (3) a 11 x 1 + a 12 x 2 – λx 1 = 0 (a 11 - λ) x 1 + a 12 x 2 = 0 a 21 x 1 + a 22 x 2 – λx 2 = 0 a 21 x 1 + (a 22 - λ)x 2 = 0 A solução do sistema tem solução para λ 0 que exige det (A – λ I) = 0, ou seja e que é chamada de equação característica da matriz A, com soluções (chamadas características) que são os autovalores λ 1 e λ 2. Climatologia II - ACA226 (Iag/USP)

8 Em (3), para cada λ i obtem-se um autovetor associado X i, ou seja, (no exemplo i=1,2) formam-se os pares (λ 1, X 1 ) e (λ 2,X 2 ), com as seguintes propriedades: os autovetores X i são lineares independentes, portanto formam uma base vetorial, são ortogonais entre si; nenhum X k pode ser expresso em função de outro X j ; cov(X k,X j ) kj = 0 Revisão 6. Variância de um Sistema Def: a Variância total do Sistema (V) de Y = f(x 1,x 2 ) dependente das v.a. x 1 e x 2 na relação linear y = (a 1 x 1 + a 2 x 2 ) é definida como V = Var(y) = Var(a 1 x 1 +a 2 x 2 ) = a 1 2 Var(x 1 ) + a 2 2 Var(x 2 )+2a 1 a 2 cov(x 1,x 2 ) Climatologia II - ACA226 (Iag/USP)

9 = matriz de covariância de X a = matriz transposta de a Demonstração: Ou na forma genérica (i=1,..,p) mostra-se que Climatologia II - ACA226 (Iag/USP)

10 Na diagonal principal vem Nas diagonais em geral Portanto cqd Climatologia II - ACA226 (Iag/USP) Na 1ª diagonal por ex

11 Componentes principais : definição e determinação Seja o sistema (V) de Y = f(X 1,X 2,..,X p ) de p variáveis independentes, com n eventos cada (no tempo por ex), as CP serão determinadas com o fim de reter o máximo de informação das variáveis (X 1,..,X p ) transformando-as em outras p variáveis Y 1, Y 2,...Y p, onde se: (a) garanta a sua ortogonalidade de Y i (i=1,p) ; (b) retenha somente k variáveis mais importantes (k

12 Cálculo das Componentes principais Objetivo: maximizar Var(Y i ) onde e que Var(Y 1 ) > Var(Y 2 ) >... > Var(Y p ) Para a 1ª CP Var(Y 1 ) = l 1 (Σ l 1 ) onde Σ = matriz covariancia de X l 1 = (l 11,l 21,...,l p1 ), transposto de l 1 maximizar (var(Y 1 )) = max(l 1 (Σ l 1 )) condição de contorno: l 1 l 1 =1 seja então Q 1 = l 1 (Σ l 1 ) e introduzimos um multiplicador lagrangiano λ 1 Q 1 = l 1 (Σ l 1 ) + λ 1 - λ 1 l 1 l 1 Q1 = l 1 (Σ l 1 ) + λ 1 (1 - l 1 l 1 ) max(Q1) leva a Eq. Característica da matriz com p-pares solução (λ 1, l 1 ), mas para obter uma solução única de l 1 vem : 0 Vetores unitários garantem maximização não ocorra simplesmente por multiplicação de uma constante das p soluções possíveis, toma-se o maior λ 1 e o l 1 associado Climatologia II - ACA226 (Iag/USP)

13 a) Procedimento de cálculo : dada matriz de covariância Σ de X = (X 1,.., X p ) calculam-se os p pares (autovalor, autovetor) = (λ 1, l 1 ),..., (λ p, l p ) Identifica-se a 1ª CP no maior λ 1, e assim sucessivamente a 2ª CP até k-esima CP tal que (λ 1 > λ 2 >... > λ p ) b) Construção de cada CP (chamada também de factor) é O coeficiente l k1 é o peso (chamado de loading) da variável X k na 1ª CP relativamente aos demais; pode ser positivo ou negativo (proporção direta ou indireta) infere-se a importância de cada X k (serve como critério para selecionar variáveis em um modelo de regressão linear múltipla, por ex.)

14 Propriedades (1)Com a matriz de covariância, a equação característica | Σ - λ I|=0 define-se a matriz dos coeficientes das componentes principais U e a matriz L U Σ U = L, onde As colunas de U, (u 1, u 2,...u n ) são os auto-vetores da matriz Σ Os elementos da diagonal de L, (λ 1, λ 2...λ n ) são os autovalores da matriz Σ A variância total do sistema é dada por e a variância explicada pela i-ésima CP é Portanto escolhe-se somente as k primeiras CPs (Y 1,Y 2,...,Y k ), (k>p) que respondam pela maior parte da variância total, para fins de interpretação. Climatologia II - ACA226 (Iag/USP)

15 Exemplo 1 : duas séries temporais Temperatura média diária em 2 estações próximas, T1 e T2, durante 15 dias DiaT 1T Climatologia II - ACA226 (Iag/USP) Matriz de covariância determinando a equação característica Climatologia II - ACA226 (Iag/USP) Com soluções λ 1 = 1.44 e λ 2 =.086

16 Climatologia II - ACA226 (Iag/USP) auto-vetores l i obtidos pela solução da equação Para λ 1 = 1.44 Para λ 2 =.086 analogamente variância do sistema = soma dos auto-valores = = 1.53 variância explicada pela 1ª CP = 1.44/1.53 = 0.94 (ou ~94%) variância explicada pela 2ª CP = 0.09 /1.53 = 0.06 ( ou ~6,0%)

17 Interpretação geométrica das CPs : rotação de eixos no sistema de coordenadas centrado na média =(10,10) definem-se eixos de variação: Na 1ª CP l 11 =0.72 = cosseno do ângulo abscissa c/1º eixo (linha azul sólida), cos(43,65 o )=0.72; Na 2ª CP l 21 =-0.69 = cosseno do ângulo abscissa c/2º eixo (linha verde), cos(90 o +46,35 o )=-0.69 é Ortogonal ao 1º eixo regressão linear de T2 =f (T1) indicada linha preta Climatologia II - ACA226 (Iag/USP) Variavel T2 Variavel T1 46,35 o

18 Eixo u = direção principal de variação entre X 1 e X 2 Eixo v = 2 a direção principal assim as direções u e v são chamadas de Componentes Principais. 1 o autovetor 2 o autovetor

19 Exemplo 2: com 3 variáveis

20

21 Exemplo 3 - Aplicação em campos espaciais Variáveis: série histórica de precipitação (acumulado em pentadas) 1979 a 2010 (=2336 pêntadas) Fonte: GPCP (Adler et al., 2003) Disposição: grade regular na America do Sul (60S a10N ; 90W a 30W ) com 24 pontos em x, 28 pontos em y, 2336 pontos em t Cada ponto é uma variável (no total p=24x28 = 672 variáveis), e cada um é uma série temporal com n=2336 eventos, ou seja, Climatologia II - ACA226 (Iag/USP)

22 1º CP 18.6% da variância explicada2º CP 7.8% da variância explicada 3º CP 4.36% da variância explicada 4º CP 3.92% da variância explicada Climatologia II - ACA226 (Iag/USP)

23 Coeficiente temporal do 1º CPCoeficiente temporal do 2º CP Coeficiente temporal do 3º CPCoeficiente temporal do 4º CP Reconstrução temporal das CPs Climatologia II - ACA226 (Iag/USP)

24 Reconstrução da Série = CP x coeficiente temporal Dados originais de Precipitação pentadal evento 25-maio-1984 Climatologia II - ACA226 (Iag/USP)


Carregar ppt "ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais."

Apresentações semelhantes


Anúncios Google