A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise Estatística Multivariada

Apresentações semelhantes


Apresentação em tema: "Análise Estatística Multivariada"— Transcrição da apresentação:

1 Análise Estatística Multivariada
ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais (CP) (ou Funções Ortogonais Empíricas) Motivação variáveis hidroclimatológicas do sistema climático : grande quantidade muitas vezes correlacionadas entre si uma tecnica estatistica que, sem perder as informação relevantes, viabiliza: Interpretação do sistema de variáveis como um todo, seus padrões dominantes de variabilidade Reduzir a interpretação a um número de variáveis menor, ou seja: prover variaveis não correlacionadas entre si (limitação da técnica de regressão) diminuir a redundância de informação Climatologia II - ACA226 (Iag/USP)

2 Se i = j então tem-se a variância:
Revisão A função covariância de duas variáveis aleatórias xi e xj, como séries temporais no tempo k=1,n Se i = j então tem-se a variância: Climatologia II - ACA226 (Iag/USP)

3 Revisão 2. A matriz de covariância Σ
Representação matricial de todas as combinações possíveis de covariâncias no vetor X de séries temporais de v.a. X = (x1,x2,...xp), no tempo k=1,n é a matriz quadrática (p x p) definida como Como s12 = s21, por ex, a matriz é simétrica Climatologia II - ACA226 (Iag/USP)

4 rij Revisão 3. Matriz de Correlação
Outra matriz importante nos cálculo das CP é a matriz de correlação. O coeficiente de correlação entre duas variáveis Xi e Xj é definido como rij Se i = j, então A matriz de correlação é r11 = r22 = ... rpp = 1 define a diagonal da matriz Climatologia II - ACA226 (Iag/USP)

5 Revisão 4. Variáveis Independentes
O coeficiente de correlação linear é Se Xi e Xj não tem relação (ou proporção) linear entre si, β = 0 Assim Se xi e xj são variáveis independentes (não relacionadas) então cov(xi,xy) = 0 Contudo, o oposto nem sempre é verdadeiro. Climatologia II - ACA226 (Iag/USP)

6 Y= λ X (2) Revisão 5. Problema de autovetores e Autovalores
Seja um vetor (de 2 dimensões por exemplo ) X = (x1,x2) Uma transformação linear em X, obtida por uma matriz A (conhecida) que obtem o vetor Y, Y= A X (1) e seja equivalente a um vetor paralelo a X (ou seja, multiplicado por uma constante λ, desconhecida) Y= λ X (2) tem como solução possíveis os valores de λ, chamados autovalores, e de X como o autovetor associado (calculado) a λ, onde A é chamada de matriz de transformação. Climatologia II - ACA226 (Iag/USP)

7 Determinação dos autovalores e autovetores
De (1) e (2) A X = λ X ↔ (A – λ I) X = (3) Definindo-se a matriz A e a matriz identidade I, temos a11x1 + a12x2 – λx1 = (a11 - λ) x1 + a12x2 = 0 a21x1 + a22x2 – λx2 = a21x1 + (a22 - λ)x2 = 0 Então em (3) A solução do sistema tem solução para λ ≠ 0 que exige det (A – λ I) = 0, ou seja e que é chamada de equação característica da matriz A , com soluções (chamadas características) que são os autovalores λ1 e λ2. Climatologia II - ACA226 (Iag/USP)

8 os autovetores Xi são lineares independentes, portanto
Em (3), para cada λi obtem-se um autovetor associado Xi, ou seja, (no exemplo i=1,2) formam-se os pares (λ1, X1) e (λ2,X2), com as seguintes propriedades: os autovetores Xi são lineares independentes, portanto formam uma base vetorial, são ortogonais entre si; nenhum Xk pode ser expresso em função de outro Xj; cov(Xk,Xj)k≠j = 0 Revisão 6. Variância de um Sistema Def: a Variância total do Sistema (V) de Y = f(x1,x2) dependente das v.a. x1 e x2 na relação linear y = (a1x1 + a2x2) é definida como V = Var(y) = Var(a1x1+a2x2) = a12Var(x1) + a22Var(x2)+2a1a2cov(x1,x2) Climatologia II - ACA226 (Iag/USP)

9 = matriz de covariância de X a’ = matriz transposta de a
Ou na forma genérica (i=1, ..,p) mostra-se que = matriz de covariância de X a’ = matriz transposta de a Demonstração: Climatologia II - ACA226 (Iag/USP)

10 Na diagonal principal vem
Na 1ª diagonal por ex Nas diagonais em geral Portanto cqd Climatologia II - ACA226 (Iag/USP)

11 Componentes principais : definição e determinação
Seja o sistema (V) de Y = f(X1,X2,..,Xp ) de p variáveis independentes, com n eventos cada (no tempo por ex), as CP serão determinadas com o fim de reter o máximo de informação das variáveis (X1,..,Xp) transformando-as em outras p variáveis Y1, Y2,...Yp, onde se: garanta a sua ortogonalidade de Yi (i=1,p) ; retenha somente k variáveis mais importantes (k<p), Y1,...,Yk ; (c) Possa interpretar a importância de cada Xi (i=1,p) nas CP. As CP são definidas como o conjunto de vetores Y = (Y1,Y2,...,Yp ) , formado por p combinações lineares de X tal que com o vetor Climatologia II - ACA226 (Iag/USP)

12 Cálculo das Componentes principais
Objetivo: maximizar Var(Yi) onde e que Var(Y1) > Var(Y2) > ... > Var(Yp) Para a 1ª CP Var(Y1) = l1’(Σ l1) onde Σ = matriz covariancia de X l1’ = (l11,l21,...,lp1) , transposto de l1 maximizar (var(Y1)) = max(l1’(Σ l1)) condição de contorno: l1’ l1=1 seja então Q1 = l1’ (Σ l1) e introduzimos um multiplicador lagrangiano λ1 Q1 = l1’(Σ l1) + λ1 - λ1l1’l1 ↔ Q1 = l1’(Σ l1) + λ1(1 - l1’l1) max(Q1) leva a Vetores unitários garantem maximização não ocorra simplesmente por multiplicação de uma constante Eq. Característica da matriz com p-pares solução (λ1, l1), mas para obter uma solução única de l1 vem: das p soluções possíveis, toma-se o maior λ1 e o l1 associado Climatologia II - ACA226 (Iag/USP)

13 b) Construção de cada CP (chamada também de factor) é
a) Procedimento de cálculo : dada matriz de covariância Σ de X = (X1, .., Xp) calculam-se os p pares (autovalor, autovetor) = (λ1, l1) ,..., (λp, lp) Identifica-se a 1ª CP no maior λ1, e assim sucessivamente a 2ª CP até k-esima CP tal que (λ1 > λ2 > ... > λp ) b) Construção de cada CP (chamada também de factor) é O coeficiente lk1 é o “peso” (chamado de loading) da variável Xk na 1ª CP relativamente aos demais; pode ser positivo ou negativo (proporção direta ou indireta) infere-se a importância de cada Xk (serve como critério para selecionar variáveis em um modelo de regressão linear múltipla, por ex.) Climatologia II - ACA226 (Iag/USP)

14 Propriedades Com a matriz de covariância , a equação característica | Σ - λ I|=0 define-se a matriz dos coeficientes das componentes principais U e a matriz L U’ Σ U = L , onde As colunas de U , (u1, u2,...un) são os auto-vetores da matriz Σ Os elementos da diagonal de L , (λ 1, λ 2...λ n) são os autovalores da matriz Σ A variância total do sistema é dada por e a variância explicada pela i-ésima CP é Portanto escolhe-se somente as k primeiras CPs (Y1,Y2,...,Yk), (k>p) que respondam pela maior parte da variância total, para fins de interpretação. Climatologia II - ACA226 (Iag/USP)

15 Exemplo 1 : duas séries temporais
Dia T 1 T 2 1 10 10.7 2 10.4 9.8 3 9.7 4 10.1 5 11.7 11.5 6 11.0 10.8 7 8.7 8.8 8 9.5 9.3 9 9.4 9.6 11 10.5 12 9.2 9.0 13 11.3 11.6 14 15 8.5 Exemplo 1 : duas séries temporais Temperatura média diária em 2 estações próximas, T1 e T2, durante 15 dias Matriz de covariância determinando a equação característica Com soluções λ1 = 1.44 e λ2 = .086 Climatologia II - ACA226 (Iag/USP) Climatologia II - ACA226 (Iag/USP)

16 variância do sistema = soma dos auto-valores = 1.44 + .09 = 1.53
auto-vetores li obtidos pela solução da equação Para λ1 = 1.44 Para λ2 = analogamente variância do sistema = soma dos auto-valores = = 1.53 variância explicada pela 1ª CP = 1.44/1.53 = 0.94 (ou ~94%) variância explicada pela 2ª CP = 0.09 /1.53 = 0.06 ( ou ~6,0%) Climatologia II - ACA226 (Iag/USP)

17 Interpretação geométrica das CPs : rotação de eixos
no sistema de coordenadas centrado na média =(10,10) definem-se eixos de variação: Na 1ª CP l11=0.72 = cosseno do ângulo abscissa c/1º eixo (linha azul sólida), cos(43,65o)=0.72; Na 2ª CP l21=-0.69 = cosseno do ângulo abscissa c/2º eixo (linha verde), cos(90o+46,35o)=-0.69 é Ortogonal ao 1º eixo regressão linear de T2 =f (T1) indicada linha preta 46,35o Variavel T2 Variavel T1 Climatologia II - ACA226 (Iag/USP)

18 Eixo u = direção principal de variação entre X1 e X2
Eixo v = 2a direção principal assim as direções u e v são chamadas de Componentes Principais. 2o autovetor 1o autovetor

19 Exemplo 2: com 3 variáveis

20

21 Exemplo 3 - Aplicação em campos espaciais
Variáveis: série histórica de precipitação (acumulado em pentadas) a 2010 (=2336 pêntadas) Fonte: GPCP (Adler et al., 2003) Disposição: grade regular na America do Sul (60S a10N ; 90W a 30W ) com 24 pontos em x, 28 pontos em y, 2336 pontos em t Cada ponto é uma variável (no total p=24x28 = 672 variáveis), e cada um é uma série temporal com n=2336 eventos, ou seja, Climatologia II - ACA226 (Iag/USP)

22 1º CP 18.6% da variância explicada 2º CP 7.8% da variância explicada
Climatologia II - ACA226 (Iag/USP)

23 Reconstrução temporal das CPs
Coeficiente temporal do 1º CP Coeficiente temporal do 2º CP Coeficiente temporal do 3º CP Coeficiente temporal do 4º CP Climatologia II - ACA226 (Iag/USP)

24 Reconstrução da Série = CP x coeficiente temporal
Dados originais de Precipitação pentadal Reconstrução da Série = CP x coeficiente temporal evento 25-maio-1984 evento 25-maio-1984 Climatologia II - ACA226 (Iag/USP)


Carregar ppt "Análise Estatística Multivariada"

Apresentações semelhantes


Anúncios Google