A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise Estatística Multivariada

Apresentações semelhantes


Apresentação em tema: "Análise Estatística Multivariada"— Transcrição da apresentação:

1 Análise Estatística Multivariada
ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais (CP) (ou Funções Ortogonais Empíricas) Motivação variáveis hidroclimatológicas do sistema climático : grande quantidade muitas vezes correlacionadas entre si uma tecnica estatistica que, sem perder as informação relevantes, viabiliza: Interpretação do sistema de variáveis como um todo, seus padrões dominantes de variabilidade Reduzir a interpretação a um número de variáveis menor, ou seja: prover variaveis não correlacionadas entre si (limitação da técnica de regressão) diminuir a redundância de informação Climatologia II - ACA226 (Iag/USP)

2 Se i = j então torna-se a variância de Xi:
Revisão.1 A função covariância de duas variáveis aleatórias xi e xj, como séries temporais no tempo k=1,n Se i = j então torna-se a variância de Xi: Climatologia II - ACA226 (Iag/USP)

3 Revisão 2. A matriz de covariância Σ
Representação matricial de todas as combinações possíveis de covariâncias no vetor X de séries temporais de v.a. X = (x1,x2,...xp), no tempo t=1,n é a matriz quadrática (p x p) definida como Como s12 = s21, ..., sij = sji, a matriz é simétrica, e a diagonal é a variância de cada xi Climatologia II - ACA226 (Iag/USP)

4 Revisão 3. Matriz de Correlação ρ
O coeficiente de correlação entre duas variáveis Xi e Xj se definido como de forma que se i = j, então define-se a matriz de correlação como ρ r11 = r22 = ... rpp = 1 define a diagonal da matriz Climatologia II - ACA226 (Iag/USP)

5 Revisão 4. Variáveis independentes
O coeficiente de correlação linear também pode ser expresso como Se Xi e Xj não tem relação (ou proporção) linear entre si, β = 0, ou seja, se Se xi e xj são variáveis independentes (não relacionadas) então cov(xi,xy) = 0 Contudo, o oposto nem sempre é verdadeiro. Climatologia II - ACA226 (Iag/USP)

6 Y= λ X (2) Revisão 5. Problema de autovetores e Autovalores
Seja um vetor (de 2 dimensões por exemplo ) X = (x1,x2) Uma transformação linear em X, obtida por uma matriz A (conhecida) que obtem o vetor Y, Y= A X (1) e seja equivalente a um vetor paralelo a X (ou seja, multiplicado por uma constante λ, desconhecida) Y= λ X (2) tem como solução possíveis os valores de λ, chamados autovalores, e de X como o autovetor associado (calculado) a λ, onde A é chamada de matriz de transformação. Climatologia II - ACA226 (Iag/USP)

7 Determinação dos autovalores e autovetores
De (1) e (2) A X = λ X ↔ (A – λ I) X = (3) Definindo-se a matriz A e a matriz identidade I, temos a11x1 + a12x2 – λx1 = (a11 - λ) x1 + a12x2 = 0 a21x1 + a22x2 – λx2 = a21x1 + (a22 - λ)x2 = 0 Então em (3) A solução do sistema tem solução para λ ≠ 0 que exige det (A – λ I) = 0, ou seja e que é chamada de equação característica da matriz A , com soluções (chamadas características) que são os autovalores λ1 e λ2. Climatologia II - ACA226 (Iag/USP)

8 os autovetores Xi são lineares independentes, portanto
Em (3), para cada λi obtem-se um autovetor associado Xi, ou seja, (no exemplo i=1,2) formam-se os pares (λ1, X1) e (λ2,X2), com as seguintes propriedades: os autovetores Xi são lineares independentes, portanto formam uma base vetorial, são ortogonais entre si; nenhum Xk pode ser expresso em função de outro Xj; cov(Xk,Xj)k≠j = 0 Revisão 6. Variância de um Sistema Def: a Variância total de um sistema Y = f(x1,x2) sob uma relação linear y = (a1x1 + a2x2), dependente das v.a. x1 e x2 , é definida como Var(y) = Var(a1x1+a2x2) = a12Var(x1) + a22Var(x2)+2a1a2cov(x1,x2) Climatologia II - ACA226 (Iag/USP)

9 = matriz de covariância de X a’ = matriz transposta de a
Ou na forma genérica (i=1, ..,p) mostra-se que = matriz de covariância de X a’ = matriz transposta de a Demonstração: Climatologia II - ACA226 (Iag/USP)

10 Na diagonal principal vem
Na 1ª diagonal por ex Nas diagonais em geral Portanto cqd Climatologia II - ACA226 (Iag/USP)

11 Componentes Principais (CPs) : definição
Seja um conjunto X=(X1, X2,..., Xp) de p variáveis Xi, com n eventos cada (no tempo por ex.), as CPs de X serão determinadas obtendo-se outras p variáveis (Y1, Y2,...,Yp), por meio de um sistema definido como Y = f(X1,X2,..,Xp ), ou conjunto de vetores Y = (Y1,Y2,...,Yp ) formados por p combinações lineares de X , tal que de forma que se garanta a ortogonalidade de Yi com Yj ; se obtenha a máxima informação destas variáveis (X1, X2,..., Xp), retendo somente as k variáveis mais importantes Y1,...,Yk ; (k<p) se possa interpretar a importância de cada Xi (i=1,p) nas CPs Com o vetor Climatologia II - ACA226 (Iag/USP)

12 Estimativa das Componentes principais
Objetivo: maximizar Var(Yi) (condição ii pré-definida), onde = 0 , conforme condição i pré- definida Para a 1ª CP Var(Y1) = l1 (Σ l1’) onde Σ = matriz covariância de X, e l1 = (l11,l21,...,lp1) Renomeando Q1 = var(Y1), introduzimos um multiplicador lagrangiano λ1 tal que Q1 = l1 (Σ l1’) + λ1 - λ1l1l1’ com a condição de contorno l1 l1’=1 max(Q1) = max ( l1 (Σ l1’) + λ1 - λ1l1l1’ ), ou seja vetores unitários garantem maximização não ocorra simplesmente por multiplicação de uma constante equação característica da matriz Σ com p-pares solução (λ1, l1´), mas para obter uma solução única de l1 vem: multiplicando por l1 vem l1 (Σ l1’) = λ1 l1 l1’ A variancia de Y1 é o próprio autovalor λ1 estimado Climatologia II - ACA226 (Iag/USP)

13 Procedimento de cálculo e propriedades
1) dada matriz de covariância Σ do sistema X = (X1, .., Xp) calculam-se os p pares (autovalor, autovetor) = (λ1, l1) ,..., (λp, lp) Identifica-se a 1ª CP no par de maior autovalor, ou seja se λ1 > λ2 > ... > λp , é denominado assim λ1, e sucessivamente para a 2ª CP até a k-esima CP 2) Construção de cada CP : chamada também de fatores (factors) O coeficiente lk1, chamado de peso (weight) ou carga (loading), da variável Xk na 1ª CP Y1 relativamente aos demais; pode ser positivo ou negativo (proporção direta ou indireta), e assim sucessivamente para os coeficientes lk2 na 2ª CP, .... infere a importância de cada Xk (serve como critério para selecionar variáveis em um modelo de regressão linear múltipla, por ex.) Climatologia II - ACA226 (Iag/USP)

14 Propriedades e práticas
3) A variância total do sistema é dada por e a percentagem da variância total explicada pela i-ésima CP é 4) Para fins de análise do padrão, escolhem-se somente as k primeiras CPs (Y1,Y2,...,Yk), (k<p) que respondam pela maior parte da variância total. Climatologia II - ACA226 (Iag/USP)

15 Exemplo 1: dados de precipitação, Tmin, Tmax,
em Ithaca (NY) e Canandaigua (NY) durante 31 dias (fonte: Wilks 2005) Matriz de covariancia de Pearson Gráfico de dispersão (scatterplot)

16 λ 1/ 263,05 = 0,968 ou 96,8% da variância é devido à 1ª CP
Calculo das CPs (λ 1; λ 2 ) = (254,7 ; 8.3) λ 1+λ 2 = 263,05 λ 1/ 263,05 = 0,968 ou 96,8% da variância é devido à 1ª CP λ2 / 263,05 = 3,2% devido à 2ª CP saída: matriz de autovetores E X1 = Min temperatura em Ithaca X2 = Min temperatura em Canandaigua s1 = 13.5 oF (mais acentuado) s2 = 8.8 oF r = (alta correlação) 1ª CP 2ª CP X1 X2

17 Interpretação geométrica das CPs : rotação de eixos
eixo e1 = direção principal de variação entre X1 e X2 (ou da 1a CP) eixo e2 = 2a direção principal (ou da 2a CP) 1ª CP 2ª CP X1 X2 cos(e2,x1)= cos(e1,x1)=0.848 x1 Dispersão entre X2 e X1 (desvio da média)

18 Reconstrução da série de CPs e projeção nos eixos
Por ex. o evento (X1,X2) = 16,0 ; 17,8 (quadrado) Significa a projeção no eixo e1 (ou 1a CP) e1 = 0, , ,8 = 23 Projeção no eixo e2 (ou 2a CP) e2 = -0, , ,8 = 6,6 Construção da 1ª CP e visualização Y1(t) = 0,848 . X1(t) + 0,530 . X2(t) (linha cinza) Serie temporal de X1, X2 (como desvio da média) (preto)

19 Calculo da CP: com matriz de covariância ou matriz de correlação
Calculando as variaveis normalizadas de Xi como Zi, ou seja, (Z1, Z2, ... Zp) promove-se média=0 e desvio-padrão=1 para cada Zi portanto a matriz de covariância de Zi é a própria matriz de correlação de Xi Ex: calculando CPs com todas as variaveis em Ithaca e Canandaigua as variaveis de temperatura tem maior variancia amostral (pela unidade oF) e dominam a variancia, basicamente na 1ª CP as variaveis de temperatura e precipitação tem influência mais bem distribuída na variancia do sistema, basicamente na 1ª e 2ª CPs

20 Exemplo 2: CPs com 3 variáveis

21 Exemplo 3 - Aplicação espacial, escala regional
Cada ponto no espaço com informação é uma variável (Xi, i=1,p pontos), todos como série temporal n eventos. Exemplo: 27 estações no estado do Piauí, médias mensais de precipitação 1963 a 2000 (38 anos) Fonte: Guedes et al., 2010 (Rev. de Geografia Recife, v. 27). (p=27 estações de chuva mensal) em série temporal n=38 anos*12meses= 456 eventos Verificar Estimativa média anual Normalização das variáveis Médias mensais de longo prazo separadas por grupos Climatologia II - ACA226 (Iag/USP)

22 Construção da 1ª e 2ª CPs 1ª CP explica a chuva de Jan a Ago (estação chuvoso) 2ª CP explica a chuva de Set a Dez (estação seca e início est.chuvosa) Autovetores nas 27 estações, interpolados espacialmente, da 1ª e 2ª CPs. 1ª CP explica mais chuva no norte (ZCIT, brisa, ZCAS) e escassez no sul (que ocorre de Jan a Ago) 2ª CP explica mais a chuva no Sudoeste (ZCAS) e a região seca em todo o Leste (de Set a Dez quando é seco no NE do Brasil)

23 Exemplo 4 - Aplicação espacial, escala continental
Variáveis: série histórica de precipitação (pentadas ou acumulado em 5 dias) entre a 2010 (=2336 pêntadas) Fonte: GPCP (Adler et al., 2003) Disposição: grade regular na America do Sul (60S a 10N ; 90W a 30W ) com 24 pontos em x, 28 pontos em y, 2336 pontos em t Cada ponto é uma variável (no total p=24x28 = 672 variáveis), e cada um é uma série temporal com n=2336 eventos Climatologia II - ACA226 (Iag/USP)

24 Autovetores nos pontos de grade, interpolados espacialmente
1º CP 18.6% da variância explicada 2º CP 7.8% da variância explicada 3º CP 4.36% da variância explicada 4º CP 3.92% da variância explicada Climatologia II - ACA226 (Iag/USP)

25 Reconstrução temporal das CPs em um ponto de máximos
Climatologia II - ACA226 (Iag/USP)

26 evento pentada centrada em 25-maio-1984
Reconstrução da Série evento pentada centrada em 25-maio-1984 Dados originais de Precipitação Climatologia II - ACA226 (Iag/USP)


Carregar ppt "Análise Estatística Multivariada"

Apresentações semelhantes


Anúncios Google