Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Componentes.

Slides:



Advertisements
Apresentações semelhantes
Análise Estatística Multivariada
Advertisements

Universidade Federal de Ouro Preto (UFOP)
Reconhecimento de Padrões PCA David Menotti, Ph.D. Universidade Federal de Ouro Preto (UFOP) Programa de Pós-Graduação em Ciência.
Reconhecimento de Padrões Principal Component Analysis (PCA) Análise dos Componentes Principais David Menotti, Ph.D. Universidade.
Linguagem Orientada a Matrizes COB 727
Outras Transforações de Imagens
Introdução à Álgebra Linear
Matemática para Economia III
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Regressão Camilo Daleles Rennó
Campus de Caraguatatuba
MÚLTIPLOS GRAUS DE LIBERDADE
Seleção de atributos Mariana Pinheiro Bento IA368Q.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Componentes Principais Camilo Daleles Rennó
Regressão e Previsão Numérica.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Variáveis Aleatórias Camilo Daleles Rennó
Disciplina Engenharia da Qualidade II
Análise Estatística Multivariada
Análise de Componentes Principais
Vamos conversar sobre … SPSS Aplicado à Pesquisa Acadêmica Antonio Pedro Castro Mota Amanda Reis Silva
Sistemas de Controle III N8SC3
Regressão Linear Simples
Desvio Padrão (V), em termos financeiros, é entendido como o valor do risco das operações. É obtido a partir da raiz quadrada da Variância; Variância (V²),
Aula 5 Bioestatística. Estatísticas para uma variável.
Funções Prof. Márcio.
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Simulação.
Aula 7 Validando os Modelos Prof. José Valentim Machado Vicente, D.Sc.
Igor Menezes. “É uma técnica estatística multivariada apoiada no pressuposto de que uma série de variáveis empíricas ou observáveis, pode ser explicada.
RHAYANE BORGES SILVA 4º ANO ADMINISTRAÇÃO Mensuração e Escala Parte II.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Análise de Variância (ANOVA) Camilo Daleles Rennó
MATRIZES Profª Juliana Schivani
A ULA 6 B IOESTATÍSTICA Inferência Pontual, Intervalar e Testes de Hipóteses.
Inferência Estatística
Sistemas Lineares Prof. Dr. Cesar da Costa 3.a Aula: Linearização de Sistemas e Transformada de Laplace.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Distribuições de Probabilidade (Extra) Camilo Daleles Rennó
Professor: Gerson Leiria Nunes.  Análise dos sistemas discretos  Sistemas recursivos.
EAL ESTATÍSTICA, PLANEJAMENTO E OTIMIZAÇÃO DE EXPERIMENTOS.
Projeções de Séries Temporais – Econometria dos Mercados Financeiros Mestrado Profissionalizante em Finanças e Economia Empresarial FGV / EPGE Prof. Eduardo.
Mecânica Teórica Introdução e conceitos básicos da Mecânica Teórica:  Campos de Física Teórica;  Objecto de estudo;  Métodos da mecânica teórica; 
LOGARITMOS
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Intervalo de Confiança Camilo Daleles Rennó
INE5408 Estruturas de Dados Introdução a Árvores - Conceitos - Árvores Binárias - Métodos e algoritmos de percurso - Métodos e algoritmos de balanceamento.
Matemática Financeira. JUROS SIMPLES Juro e Consumo Existe juro porque os recursos são escassos. As pessoas têm preferência temporal: preferem consumir.
Regressão linear simples Apenas existe uma variável dependente ou Y e uma variável independente ou preditora X Estatística Aplicada - Componente Prática.
Gustavo F. Kaminski Marcelo V. Lazzaris Thomaz P. Meirelles
Processamento Digital de Imagens Definição: “Manipulação de uma imagem por computador de modo onde a entrada e a saída do processo são imagens” Usar operações.
Análise exploratória da relação entre perfil socioeconômico das áreas rurais de Santarém - PA com o desmatamento Trabalho final para disciplina: SER-457.
Hidrodinâmica Aula 04 (1 0 Sem./2016) 1. A função escoamento para fluxos bidimensionais A) Velocidade para um fluxo bidimensional em componentes cartesianas.
Gestão Financeira Prof. Augusto Santana. Análise das Demonstrações Financeiras Visa o estudo do desempenho econômico-financeiro de uma empresa, em um.
Abordagem comparativa
Sistemas de equações lineares de 1 a ordem Sistemas de equações diferenciais simultâneas aparecem naturalmente em problemas envolvendo diversas variáveis.
PROJETO DE NIVELAMENTO – ITEC/PROEX - UFPA PROJETO DE NIVELAMENTO – ITEC/PROEX - UFPA EQUIPE FÍSICA ELEMENTAR EQUIPE FÍSICA ELEMENTAR DISCIPLINA: FÍSICA.
Determinantes e Sistemas Lineares parte I Profª Juliana Schivani Laplace (1749 – 1827) Pierre Sarrus (1798 – 1861) Jacobi (1804 – 1851)Cramer (1704 – 1752)
Correlação. Introdução O Ouviu falar em... Correlação O Relação entre as variáveis estudadas O Diagrama de dispersão.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Variáveis Aleatórias Camilo Daleles Rennó
Lógica de Programação Aula 08 Prof. Marcelo Marcony.
Planejamentos com Múltiplos Blocos Delineamento em blocos completos casualizados Um fator de perturbação é um fator que provavelmente tem um efeito sobre.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Inferência Estatística Camilo Daleles Rennó
Curso de Jornalismo Investigativo: uma capacitação para organizações e ativistas locais Análise e filtro de dados: oficina prática Apresentação baseada.
The Meaning and Measurement of Income Mobility. Introdução Um agente pode experimentar uma mudança na sua posição socioeconômica devido à mudanças macroeconômicas.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Teste de Hipótese Camilo Daleles Rennó
1 Rule-Evolver n Ferramenta desenvolvida para Evolução de regras em Bases de Dados por Algoritmos Genéticos n CBuilder n Estrutura modular n Características.
MAE 0535 – Pesquisa de Mercado Universidade de São Paulo – USP Instituto de Matemática, Estatística e Computação – IME Professora: Silvia Elian Nagib 2º.
Aula 11. Regressão Linear Múltipla. 1. C.Dougherty “Introduction to Econometrics” 2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição.
Estrutura a Termo de Taxa de Juros
Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.
Reconhecimento de Padrões Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra Padrões e processos em Dinâmica de uso e Cobertura.
Aula de questionários Paulo Nogueira André Biscaia
Diagramas de fases Mapa onde pode-se visualizar as fases cristalinas de um determinado conjunto de componentes, em função da temperatura e/ou pressão.
PEDRO A. BARBETTA – Estatística Aplicada às Ciências Sociais 6ed. Editora da UFSC, Estatística Aplicada às Ciências Sociais Sexta Edição Pedro Alberto.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2017 Componentes Principais Camilo Daleles Rennó
Transcrição da apresentação:

Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Componentes Principais

Associação entre Variáveis Coeficiente de Correlação (de Pearson) r = 0r = 10 < r < 1r = -1-1 < r < 0 Quanto maior a variância, maior é a variabilidade e portanto maior a informação contida na variável. Num caso extremo, se a variância é zero, a variável não apresenta nenhuma informação a respeito do fenômeno por ela representada Por sua vez, a covariância (e a correlação) é interpretada como uma redundância em análises múltiplas (2 ou mais variáveis), já que a informação contida numa variável está parcialmente representada numa outra. Num caso extremo, para que utilizar duas variáveis perfeitamente correlacionadas ( |r| = 1 ), uma vez que, conhecendo-se o valor de uma, pode-se inferir com precisão o valor da outra? 2

y1y1 y2y2 Y2Y2 Y1Y1 Transformação por Componentes Principais (exemplo 2D) Como poderíamos eliminar a redundância entre X 1 e X 2 ? Y2Y2 Y1Y1 rotação com preservação da ortogonalidade dos eixos informação total é preservada 1 a CP 2 a CP  são chamados de autovetores são chamados de autovalores ( 1 > 2 ) 3

Os autovetores representam as transformações lineares aplicadas em m variáveis correlacionadas de modo a obter m variáveis não correlacionadas e podem ser representados na forma de uma matriz  ( m  m ): Autovalores e Autovetores Os autovalores representam a variância de cada componente (variável transformada) e podem ser representadas na forma de uma matriz diagonal ( m  m ): Nesta matriz, os autovetores estão organizados em colunas, ou seja, o 1 o autovetor está na 1 a coluna, o 2 o autovetor está na 2 a coluna e assim por diante. ( 1 > 2 >  > m ) Mas como são calculados os autovalores e autovetores? 4

Supondo que n amostras sejam avaliadas segundo m variáveis diferentes (atributos), podemos representar o conjunto de valores observados por um matriz X, onde cada elemento x ij representa o valor da i -ésima amostra para a j -ésima variável. Matriz de Variância-Covariância A variância de cada variável e as covariâncias entre todos os pares de variáveis podem ser representadas através da matriz de variância-covariância  X ( m  m ): 5

Cálculo dos Autovalores e Autovetores Os autovalores ( ) e autovetores (  ) são obtidos de modo a satisfazer a seguintes condições: ou Como os autovetores  são não nulos, então gera um polinômio de grau m cujas raízes representam os m autovalores sendo(autovetores ortogonais) Ordenam-se os autovalores do maior para o menor e para cada autovalor k, calcula-se o autovetor  k de modo que: Assim, os valores transformados para a componente principal k são calculados a partir da matriz X : 6

Exemplo Encontrando as raízes do polinômio, tem-se Suponha que Então 7

Exemplo Agora, para cada autovalor, calcula-se o autovetor correspondente de modo que Demonstrando para o primeiro autovalor 1 = 5,7517 Repetindo para os demais autovalores, chega-se a: Como os autovetores são ortogonais então Assim 8

Autovalores 15,76151,29000,03100,0121 Autovetores 0,03400,05830,94810,3108 0,64850,7582-0,0670-0, ,34370,2787-0,28370, ,67840,58650,1272-0,4238 Análise de Componentes Principais X1X1 X2X2 X3X3 X4X4 0,159610,40435,845711,7544 0,416010,19716,997614,3787 0,684111,11765,894211,9172 0,54219,42916,186712,8827 0,713315,09804,44439,1690 0,758717,47892,57285,2574 0,28247,46407,184815,1390 0,833614,59494,15819,2457 0,575212,72154,884110,5356 0,830817,72732,43925,8491 0,951014,53684,03458,5466 0,279613,27394,03978,3507 0,735712,97864,34708,9358 0,875916,59154,21009,0698 0,390414,58262,92206,4501 0,558414,31655,595011,6657 0,484913,47113,57437,4431 0,316910,80156,342613,0677 0,586910,93854,58679,6230 0,794013,50603,32387,4271 Matriz de Variância-Covariância 0,05160,4024-0,1683-0,3171 0,40247,3698-3,2402-6, ,1683-3,24021,97373, ,3171-6,36003,88067,6995 X1X1 X2X2 X3X3 X4X4 9

Análise de Componentes Principais CP 1 CP 2 CP 3 CP 4 -3,4404-0,5891-0,31540, ,74221,1290-0,05150, ,08720,09140,14100, ,9424-0,54940,15940,0082 1,85771,0951-0,03620,1037 6,70000,0872-0,11940, ,0993-0,45300,0486-0,1626 1,58190,68590,2024-0, ,76640,20920,0411-0,1235 6,50790,58950,0455-0,1814 2,06490,20420,26380,0977 1,3543-0,9060-0,3144-0,0126 0,6757-0,67450,12490,1452 2,97952,11350,0716-0,0161 3,8802-1,3335-0,2217-0, ,74362,2786-0,1397-0,0168 2,2647-1,4066-0,11650, ,23930,6300-0,1669-0, ,2009-1,76020,14000,0294 2,3949-1,44130,2433-0,0723 Matriz de Variância-Covariância 15, , , ,0121 A primeira componente guarda 92,2% da variação total As 2 primeiras CP, acumulam 99,7% da variação total 10

Análise de Componentes Principais no R >pccov<-prcomp(x) >pccov Standard deviations: [1] Rotation: PC1 PC2 PC3 PC4 x x x x >x1<-c(0.1596,0.416,0.6841,0.5421,0.7133,0.7587,0.2824,0.8336,0.5752,0.8308,0.951,0.2796,0.7357,0.8759,0.3904, ,0.4849,0.3169,0.5869,0.794) >x2<-c( , , ,9.4291,15.098, ,7.464, , , , , , , , , , , , ,13.506) >x3<-c(5.8457,6.9976,5.8942,6.1867,4.4443,2.5728,7.1848,4.1581,4.8841,2.4392,4.0345,4.0397,4.347,4.21,2.922, 5.595,3.5743,6.3426,4.5867,3.3238) >x4<-c( , , , ,9.169,5.2574,15.139,9.2457, ,5.8491,8.5466,8.3507,8.9358,9.0698, , ,7.4431, ,9.623,7.4271) >x<-cbind(x1,x2,x3,x4) >round(cov(x),4) x1 x2 x3 x4 x x x x >sum(diag(cov(x))) [1]

Análise de Componentes Principais no R >summary(pccov) Importance of components: PC1 PC2 PC3 PC4 Standard deviation Proportion of Variance Cumulative Proportion >xmedias<-pccov$center #calculando as médias das variáveis >pc<-predict(pccov) #Calculando as componentes principais >round(cov(pc),4) PC1 PC2 PC3 PC4 PC PC PC PC >pairs(x) >pairs(pc) 12

Observações A transformação prioriza as variáveis com maior variância Atenção: isso pode ocorrer quando as variáveis possuem diferentes grandezas Para neutralizar o efeito das variâncias de cada variável de modo que todas tenham o mesmo peso, os autovalores e autovetores devem ser calculados a partir da matriz de correlação 13

Alternativamente, as relações entre as variáveis podem ser expressas através da matriz de correlação: Matriz de Correlação Obs: em R, para computar a transformação por componentes principais utilizando a matriz de correlação, pode-se usar a função pccor<-prcomp(x, scale=TRUE) 14

Observações A transformação prioriza as variáveis com maior variância Atenção: isso pode ocorrer quando as variáveis possuem diferentes grandezas Para neutralizar o efeito das variâncias de cada variável de modo que todas tenham o mesmo peso, os autovalores e autovetores devem ser calculados a partir da matriz de correlação Por usar covariância (ou correlação), esta transformação pressupõe relações lineares entre variáveis A interpretação dos valores de uma determinada componente principal pode ser bastante difícil, necessitando a avaliação do autovetor correspondente Ex: Y 1 = 0,0340 X 1 + 0,6485 X 2 – 0,3437 X 3 – 0,6784 X 4 15

Aplicações Diminuição da dimensionalidade do problema Ao invés de se trabalhar com 50 dimensões, escolhem-se as primeiras componentes que guardam a maior parte da informação total Isso melhora o desempenho de classificadores que se baseiam em inversões de matrizes Visualização de Dados A informação contida numa imagem hiperespectral pode ser visualizada usando-se as 3 primeiras componentes numa composição colorida RGB (obs: as cores podem ser de difícil interpretação) 16

Visualização de Dados TM/LANDSAT (Bandas 1 a 5 e 7) 227/68 ano 1999 B1B2B3 B4B5B7 543/RGB 17

Visualização de Dados TM/LANDSAT (Bandas 1 a 5 e 7) 227/68 ano 1999 (ganho 2,45 e offset variável) B1B2B3 B4B5B7 543/RGB 18

Visualização de Dados TM/LANDSAT (Bandas 1 a 5 e 7) 227/68 ano 1999 (ganho 2,45 e offset variável) MédiaD.Padrão B145,55619,300 B228,23611,600 B325,48420,837 B4130,69818,811 B5108,05244,184 B739,70125,810 CovariânciaB1B2B3B4B5B7 B1372,489195,992308,969-62,672493,634295,327 B2195,992134,554228,131-33,144419,773245,247 B3308,969228,131434, ,410837,561499,226 B4-62,672-33, ,410353, , ,894 B5493,634419,773837, , , ,010 B7295,327245,247499, , ,010666,157 Autovetor AutovalorB1B2B3B4B5B7 3235,547CP10,2300,1800,351-0,0880,7660, ,967CP20,079-0,0220,055-0,966-0,2150, ,900CP30,8420,2910,2410,132-0,328-0,153 35,210CP4-0,3330,1690,5490,167-0,4870,543 19,145CP50,312-0,291-0,5630,107-0,1500,683 4,720CP60,157-0,8770,4440,0470,010-0,085 Importante: Para obtenção das estatísticas é necessário desconsiderar a região “sem informação” OBS: Em geral, as imagens resultantes não são representadas em bytes (0 a 255), tendo valores positivos e negativos 19

CP1 82,7% CP2 8,8% CP3 7,0% CP4 0,9% CP5 0,5% CP6 0,1% CP123/RGB 98,5% Visualização de Dados Componentes Principais (mesmo ganho e offset da CP1) 20

Componentes Principais CP6 CP5 CP4 CP3 CP2 CP1 Visualização de Dados MédiaD.Padrão CP1056,882 CP2018,600 CP3016,520 CP405,934 CP504,375 CP602,172 CovariânciaCP1CP2CP3CP4CP5CP6 CP13235, CP20345, CP300272, CP400035,21000 CP ,1450 CP ,720 (ganho e offset arbitrários) 21

Aplicações Detecção de Mudanças Numa comparação de 2 datas (mesma banda), os valores extremos da segunda componente evidenciam onde ocorreu mudança entre datas PC 2 PC 1 Data 1 Data 2 não mudança mudança PC 2 PC 1 mudança 2 Desv.Pad. Diminuição da dimensionalidade do problema Ao invés de se trabalhar com 50 dimensões, escolhem-se as primeiras componentes que guardam a maior parte da informação total Isso melhora o desempenho de classificadores que se baseiam em inversões de matrizes Visualização de Dados A informação contida numa imagem hiperespectral pode ser visualizada usando-se as 3 primeiras componentes numa composição colorida RGB (obs: as cores podem ser de difícil interpretação) 22

Aplicações Aumento de Contraste por Decorrelação Aplica-se a transformada por componentes principais, faz-se um aumento de contraste das componentes de modo que todas fiquem com a mesma variância e, por fim, faz-se a transformação inversa, restabelecendo-se as variáveis originais PC 2 PC 1 X1X1 X2X2 PC 2 PC 1 PC 2 X1X1 X2X2 Cov(X 1,X 2 ) > 0Cov(X 1,X 2 ) = 0 23 Diminuição da dimensionalidade do problema Ao invés de se trabalhar com 50 dimensões, escolhem-se as primeiras componentes que guardam a maior parte da informação total Isso melhora o desempenho de classificadores que se baseiam em inversões de matrizes Visualização de Dados A informação contida numa imagem hiperespectral pode ser visualizada usando-se as 3 primeiras componentes numa composição colorida RGB (obs: as cores podem ser de difícil interpretação) Detecção de Mudanças Numa comparação de 2 datas (mesma banda), os valores extremos da segunda componente evidenciam onde ocorreu mudança entre datas

Aplicações Simulação de dados correlacionados Calculam-se os autovalores e autovetores da matriz de variância-covariância. Simulam-se dados não-correlacionados com variância igual aos autovalores e faz- se a transformação inversa 24 Aumento de Contraste por Decorrelação Aplica-se a transformada por componentes principais, faz-se um aumento de contraste das componentes de modo que todas fiquem com a mesma variância e, por fim, faz-se a transformação inversa, restabelecendo-se as variáveis originais Diminuição da dimensionalidade do problema Ao invés de se trabalhar com 50 dimensões, escolhem-se as primeiras componentes que guardam a maior parte da informação total Isso melhora o desempenho de classificadores que se baseiam em inversões de matrizes Visualização de Dados A informação contida numa imagem hiperespectral pode ser visualizada usando-se as 3 primeiras componentes numa composição colorida RGB (obs: as cores podem ser de difícil interpretação) Detecção de Mudanças Numa comparação de 2 datas (mesma banda), os valores extremos da segunda componente evidenciam onde ocorreu mudança entre datas