A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Análise de Regressão Camilo Daleles Rennó

Apresentações semelhantes


Apresentação em tema: "Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Análise de Regressão Camilo Daleles Rennó"— Transcrição da apresentação:

1 Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Análise de Regressão Camilo Daleles Rennó camilo@dpi,inpe,br http://www,dpi,inpe,br/~camilo/estatistica/

2 Amostra X 13,5 Amostra XYWZ 13,518,90,45143,2 Amostra XYWZ 13,518,90,45143,2 27,531,50,37138,6 34,422,20,62142,7 41,18,70,04145,5 54,419,20,97143,7 64,721,30,07141,2 77,227,00,11141,5 83,616,80,59145,1 99,233,60,21139,0 103,115,90,86145,3 Relacionamento entre Variáveis Aleatórias Muitos estudos buscam entender as relações de dependência entre variáveis de modo a construir modelos que permitam prever o comportamento de uma variável conhecendo-se os valores de outra ou outras variáveis 2 X Y W Z mesma posição geográfica

3 Relacionamento entre Variáveis Aleatórias 3 Por exemplo: IV tempo Umidade IV Quanto à biomassa, espera-se que tenha havido uma diminuição Quanto à umidade, nada podemos afirmar Se observarmos uma diminuição do valor deste índice de vegetação ao longo do tempo, o que podemos concluir quanto a dinâmica da biomassa da vegetação e da umidade superficial do solo deste lugar? Considere que um determinado índice de vegetação (IV) apresenta valores baixos para vegetações com pequena biomassa e apresenta valores altos para vegetações com grande biomassa. Por outro lado, este mesmo índice não tem qualquer relação com a umidade superficial do solo. Biomassa IV

4 Relação funcional x Relação estatística As variáveis podem possuir dois tipos de relações: 1)Funcional: a relação é expressa por uma fórmula matemática: Y = f(X) Ex: relação entre o perímetro ( P ) e o lado de um quadrado ( L ) Todos os pontos caem perfeitamente sobre a linha que representa a relação funcional entre L e P Lado do Quadrado ( L ) Perímetro ( P ) 4

5 Relação funcional x Relação estatística 2)Estatística: não há uma relação perfeita como no caso da relação funcional. As observações em geral não caem exatamente na linha que descreve a relação. Ex: relação entre transparência da água e a reflectância na banda 3 TM5 5 Fonte: Adaptado de Santos, F.C.; Pereira Filho, W.; Toniolo, G.R.. Transparência associada à reflectância da água do reservatório Passo Real. In: XVII SBSR, 2015. p. 6653-6659

6 “método estatístico que utiliza a relação entre duas ou mais variáveis para que uma variável possa ser estimada (ou predita) a partir da outra ou das outras” Análise de Regressão Neter, J, et al, Applied Linear Statistical Models, McGraw Hill, 1996 6 Fonte: Adaptado de Santos, F.C.; Pereira Filho, W.; Toniolo, G.R.. Transparência associada à reflectância da água do reservatório Passo Real. In: XVII SBSR, 2015. p. 6653-6659 A existência de uma relação estatística entre a variável dependente Y e a variável independente X não implica que Y realmente dependa de X, ou que exista uma relação de causa-efeito entre X e Y.

7 Grau de Relacionamento 7 Como caracterizar o grau de relacionamento (ou associação) entre pares de variáveis? X Y X Y X Y Covariância Coeficiente de correlação Relação direta ou positiva Relação inversa ou negativa Ausência de relação

8 Covariância Cov(X,Y) > 0 Cov(X,Y) = 0 Cov(X,Y) < 0 8 Quanto maior a covariância (em módulo), mais próximos estarão os pontos entorno da reta que representa a tendência principal da nuvem de pontos A deficiência da covariância é que seu valor calculado depende diretamente das unidades de medida, dificultando a comparação entre covariâncias. v.a. discretas: v.a. contínuas: Covariância amostralCovariância populacional X e Y são independentes! X Y X Y X Y

9 Coeficiente de Correlação X Y X Y X Y X Y Coeficiente de Correlação (de Pearson) mede o grau de relação linear entre X e Y r = 0,9r = 0,3 r = 0 r = - 0,9 9

10 Coeficiente de Correlação 10 *Fonte: http://www.scielo.br/pdf/pab/v49n4/0100-204X-pab-49-04-0306.pdf Correlações entre características dendrométricas da Caatinga brasileira e dados TM Landsat 5 (Almeida et al., 2014*) AB - área basal B1 a 7 – bandas do TM/Landsat NDVI = (B4 – B3)/(B4 + B3) SR = B4/B3 Savi = 0,5(B4 – B3)/(B4 + B3 + 0,5)

11 Coeficiente de Correlação 11 *Fonte: http://www.scielo.br/pdf/pab/v49n4/0100-204X-pab-49-04-0306.pdf Correlações entre características dendrométricas da Caatinga brasileira e dados TM Landsat 5 (Almeida et al., 2014*) AB - área basal B1 a 7 – bandas do TM/Landsat NDVI = (B4 – B3)/(B4 + B3) SR = B4/B3 Savi = 0,5(B4 – B3)/(B4 + B3 + 0,5) O coeficiente de correlação nem sempre representa bem a relação entre variáveis!

12 Coeficiente de Correlação Interpretações errôneas do coeficiente de correlação Um alto coeficiente de correlação nem sempre indica que a equação de regressão estimada está bem ajustada aos dados. X Y X Y X Y X Y XX YY ? ? 12 ? Poucos pontosGrupos de pontosRelação quase linearVariáveis monótonas

13 Coeficiente de Correlação Interpretações errônea do coeficiente de correlação Um coeficiente de correlação próximo de zero nem sempre indica que X e Y não são relacionadas. X Y X Y X Y A X Y B 13 Relação não linearMistura de grupos com relações diferentes

14 Análise de Regressão Para que serve uma análise de regressão? Encontrar as variáveis mais relevantes que se relacionam com a variável dependente ( Y ) Encontrar a função que descreve como uma ou mais variáveis se relacionam com a variável dependente ( Y ) e estimar os parâmetros de definem esta função (equação ajustada) Usar a equação ajustada para prever valores da variável dependente ( Y ) Regressão Linear Simples Y i =  0 +  1 X i +  i variável independente (valores fixos conhecidos) componente aleatório (erro ou resíduo) variável dependente (variável resposta) 14 erros independentes

15 Modelo de Regressão Linear Simples X Y E(Y i ) =  0 +  1 X i 15 A reta representa o valor médio da variável dependente ( Y ) para todos os níveis da variável independente ( X )

16 Modelo de Regressão Linear Simples Inclinação populacional Intercepto populacional ii X Y 0 0 11  0 representa o valor de E(Y i ) quando X i = 0  1 é o coeficiente angular da reta e representa o aumento em E(Y i ) quando X i é incrementado em uma unidade 16 E(Y i ) =  0 +  1 X i XiXi  = tan(  )

17 Em geral não se conhece os valores de  0,  1 e  2 Eles podem ser estimados através de dados obtidos por amostras O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Y i em relação a seu valor esperado:  i = Y i – E(Y i )  i = Y i – (  0 +  1 X i ) Em particular, o método dos mínimos quadrados requer que consideremos a soma de n desvios quadrados, denotado por Q : Estimação dos parâmetros  0 e  1 17 De acordo com o método dos mínimos quadrados, os estimadores de  0 e  1 são aqueles, denotados por b 0 e b 1, que tornam mínimo o valor de Q. Isso é feito derivando-se Q em relação a  0 e  1 e igualando-se as expressões encontradas a zero.

18 eiei (resíduo amostral) Estimação dos parâmetros  0 e  1 (reta de regressão estimada) 18 X Y b0 b0 b1b1 b 0 e b 1 são v.a. (não independentes!) e portanto variam de amostra para amostra

19 Soma de quadrados dos resíduos ( SQE ): Estimação da Variância do Erro (  2 ) Pode ser demonstrado que Portanto, o estimador de  2, denominado de Quadrado Médio do Resíduo ( QME ), é dado pela razão entre a soma dos quadrados dos resíduos e n – 2 : A soma dos quadrados dos resíduos tem n – 2 graus de liberdade, pois 2 graus de liberdade foram perdidos por estimar  0 e  1. A variância dos erros  i, denotada por  2, é um parâmetro do modelo de regressão, e necessita ser estimada através dos desvios de Y i em torno de sua própria média estimada. 19

20 Inferência em Análise de Regressão Considere o modelo: Y i =  0 +  1 X i +  i  ~ N( 0,  2 ) e Cov(  j,  k ) = 0 E(Y i ) =  0 +  1 X i Y X 20

21 -- ++ 0 Teste de Hipótese para  1 X Y ?  1 = 0 ? se H 0 verdadeira: t crít -t crít Região Crítica: aceito H 0 se –t crít < t < t crít  P(–t crít < t < t crít ) = 1 -  rejeito H 0 caso contrário  P(|t| > t crít ) =  E(Y i ) =  0 ? ac. H 0 rej. H 0 21 X Y X OBS: se H 0 for aceita, então a regressão não é significativa e, portanto, não há relação entre as variáveis X e Y ( X e Y podem ser consideradas independentes).

22 Região Crítica: aceito H 0 se –t crít < t < t crít  P(–t crít < t < t crít ) = 1 -  rejeito H 0 caso contrário  P(|t| > t crít ) =  OBS: se H 0 for aceita, então a reta de regressão passa pela origem. Isso não tem qualquer relação com a existência ou não de relação entre X e Y. Muitas vezes este teste é irrelevante (quando X = 0 não tem significado prático) Teste de Hipótese para  0 X Y  0 = 0 ? b0b0 E(Y i ) =  1 X i ? -- ++ 0 X se H 0 verdadeira: t crít -t crít ac. H 0 rej. H 0 22 ?

23 Inferências para E(Y h ) Considerando um determinado valor de X h, quais as incertezas relacionadas às estimativas de E(Y h ) ? Y X Se b 0 e b 1 são variáveis aleatórias, então eles podem variar de amostra para amostra... 23

24 Inferências para E(Y h ) Y X Considerando um determinado valor de X h, quais as incertezas relacionadas às estimativas de E(Y h ) ? Interpretação: quanto mais distante estiver de, maiores serão as incertezas nas estimativas de Por isso extrapolações para faixa de valores de X não observados devem ser evitados! 24

25 YiYi Particionamento do Erro 0 20 40 60 80 X Y SQTO = SQReg + SQE Coeficiente de determinação Interpretação: r 2 mede a fração da variação total de Y explicada pela regressão e por isso pode ser representada em porcentagem OBS: o coeficiente de determinação equivale ao quadrado do coeficiente de correlação para regressões lineares simples 25 0  r 2  1

26 Regressão passando pela origem (  0 = 0 ) ( r 2 pode ser negativo!) Y i =  1 X i +  i 26

27 ANOVA x Análise de Regressão se H 0 verdadeira: Região Crítica: aceito H 0 se F < F crít  P(F < F crít ) = 1 -  rejeito H 0 caso contrário  P(F > F crít ) =   ac. H 0 rej. H 0 0 ++ 27 OBS: se H 0 for aceita, então a regressão não é significativa e, portanto, não há relação entre as variáveis X e Y ( X e Y podem ser consideradas independentes).

28 Análise de Regressão no EXCEL XY 11,1 21,9 32,5 44,3 56,1 66,3 77,8 87,0 99,1 s valor-P OBS: Para regressão linear simples: teste F = teste t para  1 (bilateral) s2s2 RESUMO DOS RESULTADOS Estatística de regressão R múltiplo0,9745 R-Quadrado0,9496 R-quadrado ajustado0,9424 Erro padrão0,6735 Observações9 ANOVA glSQMQF F de significação Regressão159,8002 131,82678,55E-06 Resíduo73,17540,4536 Total862,9756 CoeficientesErro padrãoStat tvalor-P95% inferiores95% superiores Interseção0,13060,48930,26680,7973-1,02651,2876 X0,99830,087011,48168,55E-060,79271,2039 28

29 Análise de Regressão no R XY 11,1 21,9 32,5 44,3 56,1 66,3 77,8 87,0 99,1 >x <- c(1,2,3,4,5,6,7,8,9) >y <- c(1.1,1.9,2.5,4.3,6.1,6.3,7.8,7,9.1) >reg <- lm(y ~ x) >summary(reg) >ypred <- predict(reg) >plot(x, y, xlim = c(1,9), ylim = c(1,10)) >abline(reg) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -1.11722 -0.22722 -0.01556 0.17944 0.97778 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.13056 0.48930 0.267 0.797 x 0.99833 0.08695 11.482 8.55e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6735 on 7 degrees of freedom Multiple R-squared: 0.9496, Adjusted R-squared: 0.9424 F-statistic: 131.8 on 1 and 7 DF, p-value: 8.547e-06 s valor-P r2r2 29

30 Modelos Linearizáveis Modelo Padrão: Y i =  0 +  1 X i +  i exponencial potencial logaritmo potência inverso 30

31 Análise de Resíduos Resíduo = 31

32 Análise de Resíduos Resíduo Padronizado = Resíduos Padronizados 32

33 Análise de Resíduos “ideal”  2 não constante não linearidade não independência tempo Resíduos Padronizados “outlier” Resíduos Padronizados 33

34 Modelo de Regressão Linear Múltipla Modelo Geral são parâmetros do modelo ( p parâmetros no total) são valores fixos conhecidos são erros independentes  i ~ N(0,  2 ) Fazendo X 0,i = 1, podemos reescrever o modelo como 34

35 Casos Especiais Regressão Polinomial Considere um modelo de regressão de 3 o grau com uma variável independente: Se considerarmos, e então Importante: o modelo geral de regressão linear não é restrito às superfícies planas. O termo linear refere-se ao fato de que ele é linear nos parâmetros, não na forma de superfície. Efeito de Interação Considere um modelo de regressão com duas variáveis independentes: Se considerarmos então 35

36 X1X1 X2X2 Y Modelo de Regressão Linear Múltipla Exemplo: duas variáveis independentes 11 22 0 0 00 36

37 X1X1 X2X2 Y Modelo de Regressão Linear Múltipla Exemplo: duas variáveis independentes com interação  1 (considerando X 2 = 0 ) (considerando X 1 = 0 )  2 0 0 00 37

38 Notação Matricial Modelo Geral 38

39 ANOVA x Análise de Regressão se H 0 verdadeira: Região Crítica: aceito H 0 se F < F crít  P(F < F crít ) = 1 -  rejeito H 0 caso contrário  P(F > F crít ) =   ac. H 0 rej. H 0 0 ++ 39

40 Coeficiente de Determinação Múltiplo SQTO = SQReg + SQE Atenção: r 2 é fortemente influenciado pelo número de parâmetros considerados no modelo. Quanto maior o número de parâmetros ( p  n ), melhor o ajuste e portanto maior o r 2. Quando p = n, o ajuste é perfeito!!! Modelo Linear SimplesModelo Polinomial de 2 o grauModelo Polinomial de 5 o grau 40

41 Coeficiente de Determinação Múltiplo SQTO = SQReg + SQE Atenção: r 2 é fortemente influenciado pelo número de parâmetros considerados no modelo. Quanto maior o número de parâmetros ( p  n ), melhor o ajuste e portanto maior o r 2. Coeficiente de Determinação Ajustado Este coeficiente pode até diminuir se as variáveis acrescentadas ao modelo não representarem contribuições importantes. Quando p = n, o ajuste é perfeito!!! 41

42 Teste de Hipótese para  k -- ++ 0 se H 0 verdadeira: t crít -t crít Região Crítica: aceito H 0 se –t crít < t < t crít  P(–t crít < t < t crít ) = 1 -  rejeito H 0 caso contrário  P(|t| > t crít ) =  ac, H 0 rej, H 0 42 OBS: se H 0 for aceita, então  k = 0 e, portanto, a variável X k não relaciona-se significativamente com Y (considerando que todas as demais variáveis independentes estejam presentes no modelo).

43 ANOVA glSQMQFvalor-P Regressão49354,572338,64587,452,78E-16 Resíduo1559,713,98 Total199414,28 Coeficientes Erro padrãoStat tvalor-P Interseção64,43594,842413,30671,04E-09 X1X1 -0,21290,3081-0,69080,5002 X2X2 -0,47410,0160-29,55751,04E-14 X3X3 0,26590,15531,71230,1074 X4X4 -0,00750,0015-4,88270,0002 YX1X1 X2X2 X3X3 X4X4 11,70126,92174,56226,69364,26 16,3475,02129,40117,43329,68 16,7651,00106,1775,41592,57 16,8347,75110,5066,58471,11 22,02145,83148,78258,841151,11 23,4362,91113,0499,85327,56 24,7573,3497,81117,23850,26 29,9679,8792,83126,21695,32 30,31131,55139,24235,10820,23 33,51163,68141,01294,77884,83 38,1293,2598,44152,29291,09 38,42110,5799,38195,381162,36 40,6393,2888,63159,74338,08 46,15196,54140,37363,28508,84 47,98184,33128,83334,06764,28 54,58119,8471,83204,97709,91 58,22163,02102,36295,87626,23 66,27155,4384,14284,8750,34 86,27273,91109,00514,30620,11 89,29212,2953,56392,891186,30 Teste de Hipótese para  k altamente significativo não significativos 43 Atenção: não se pode considerar que todos os  k, cujas estatísticas t são não significativos, sejam simultaneamente iguais a zero! Este problema pode ocorrer quando as variáveis independentes são correlacionadas (problema de colinearidade)

44 Teste de Hipótese para múltiplos  k Considere um modelo completo dado por: Se H 0 for verdadeiro então, o modelo é reduzido para: Suponha que se queira testar as hipóteses Neste caso: onde p C-R é o número de parâmetros testados em H 0, ou seja, o número de parâmetros ausentes no modelo reduzido 44

45 ANOVA glSQMQFvalor-P Regressão49354,572338,64587,452,78E-16 Resíduo1559,713,98 Total199414,28 YX1X1 X2X2 X3X3 X4X4 11,70126,92174,56226,69364,26 16,3475,02129,40117,43329,68 16,7651,00106,1775,41592,57 16,8347,75110,5066,58471,11 22,02145,83148,78258,841151,11 23,4362,91113,0499,85327,56 24,7573,3497,81117,23850,26 29,9679,8792,83126,21695,32 30,31131,55139,24235,10820,23 33,51163,68141,01294,77884,83 38,1293,2598,44152,29291,09 38,42110,5799,38195,381162,36 40,6393,2888,63159,74338,08 46,15196,54140,37363,28508,84 47,98184,33128,83334,06764,28 54,58119,8471,83204,97709,91 58,22163,02102,36295,87626,23 66,27155,4384,14284,8750,34 86,27273,91109,00514,30620,11 89,29212,2953,56392,891186,30 Teste de Hipótese para  k 45 ANOVA glSQMQFvalor-P Regressão23168,921584,464,310,0306 Resíduo176245,37367,37 Total199414,28 Conclusão: Não se deve retirar as duas variáveis de uma só vez! Valor-P  0

46 ANOVA glSQMQFvalor-P Regressão49354,572338,64587,452,78E-16 Resíduo1559,713,98 Total199414,28 Coeficientes Erro padrãoStat tvalor-P Interseção64,43594,842413,30671,04E-09 X1X1 -0,21290,3081-0,69080,5002 X2X2 -0,47410,0160-29,55751,04E-14 X3X3 0,26590,15531,71230,1074 X4X4 -0,00750,0015-4,88270,0002 YX1X1 X2X2 X3X3 X4X4 11,70126,92174,56226,69364,26 16,3475,02129,40117,43329,68 16,7651,00106,1775,41592,57 16,8347,75110,5066,58471,11 22,02145,83148,78258,841151,11 23,4362,91113,0499,85327,56 24,7573,3497,81117,23850,26 29,9679,8792,83126,21695,32 30,31131,55139,24235,10820,23 33,51163,68141,01294,77884,83 38,1293,2598,44152,29291,09 38,42110,5799,38195,381162,36 40,6393,2888,63159,74338,08 46,15196,54140,37363,28508,84 47,98184,33128,83334,06764,28 54,58119,8471,83204,97709,91 58,22163,02102,36295,87626,23 66,27155,4384,14284,8750,34 86,27273,91109,00514,30620,11 89,29212,2953,56392,891186,30 Teste de Hipótese para  k 46 Neste caso, elimina-se a variável se apresente o maior valor-P. X 1 e X 3 são colineares!

47 ANOVA glSQMQFvalor-P Regressão39352,673117,56809,561,12E-17 Resíduo1661,613,85 Total199414,28 Coeficientes Erro padrãoStat tvalor-P Interseção61,44782,140828,70303,44E-15 X2X2 -0,47340,0157-30,06371,66E-15 X3X3 0,15870,004040,02061,81E-17 X4X4 -0,00770,0015-5,16989,31E-05 YX2X2 X3X3 X4X4 11,70126,92174,56201,62 16,3475,02129,40195,65 16,7651,00106,17208,32 16,8347,75110,50202,11 22,02145,83148,78217,41 23,4362,91113,04191,34 24,7573,3497,81218,46 29,9679,8792,83211,78 30,31131,55139,24197,17 33,51163,68141,01217,30 38,1293,2598,44190,67 38,42110,5799,38212,30 40,6393,2888,63201,40 46,15196,54140,37207,76 47,98184,33128,83207,31 54,58119,8471,83208,53 58,22163,02102,36194,28 66,27155,4384,14186,39 86,27273,91109,00198,12 89,29212,2953,56213,78 Teste de Hipótese para  k 47 11,97 16,28 18,58 16,06 23,21 21,25 27,19 32,16 26,51 34,64 36,76 36,44 42,23 48,71 47,57 54,49 55,11 66,43 86,67 89,29

48 Comparando duas funções de regressão Muitas vezes deseja-se saber se dois conjuntos amostrais resultam na mesma função de regressão. Amostra AAmostra B YXYX 11,400,754,170,09 17,692,478,921,53 27,484,3916,233,19 32,656,1923,285,13 39,467,3834,336,97 39,738,4735,938,11 48,769,9444,539,53 53,3011,1448,5711,08 60,7112,9553,3712,36 65,6514,7558,1113,64 63,2114,30 64,6714,96 Para que ambas regressões sejam a mesma: e 48

49 Comparando duas funções de regressão Para isso, pode-se gerar uma única regressão usando uma variável indicadora a fim de identificar a origem de cada ponto amostral. YX 11,400,75 17,692,47 27,484,39 32,656,19 39,467,38 39,738,47 48,769,94 53,3011,14 60,7112,95 65,6514,75 4,170,09 8,921,53 16,233,19 23,285,13 34,336,97 35,938,11 44,539,53 48,5711,08 53,3712,36 58,1113,64 63,2114,30 64,6714,96 Define-se uma nova variável W : se i pertencer a Região A se i pertencer a Região B Para Região A ( W i = 0 ): Para Região B ( W i = 1 ): WXW 00 00 00 00 00 00 00 00 00 00 10,09 11,53 13,19 15,13 16,97 18,11 19,53 111,08 112,36 113,64 114,30 114,96 49

50 Comparando duas funções de regressão Se  2 =  3 = 0, então ambas regiões possuem a mesma regressão Se  2  0, então as regressões diferem-se entre si pelo intercepto Se  3  0, então as regressões diferem-se entre si pelo coeficiente angular YX 11,400,75 17,692,47 27,484,39 32,656,19 39,467,38 39,738,47 48,769,94 53,3011,14 60,7112,95 65,6514,75 4,170,09 8,921,53 16,233,19 23,285,13 34,336,97 35,938,11 44,539,53 48,5711,08 53,3712,36 58,1113,64 63,2114,30 64,6714,96 WXW 00 00 00 00 00 00 00 00 00 00 10,09 11,53 13,19 15,13 16,97 18,11 19,53 111,08 112,36 113,64 114,30 114,96 50

51 Comparando duas funções de regressão YX 11,400,75 17,692,47 27,484,39 32,656,19 39,467,38 39,738,47 48,769,94 53,3011,14 60,7112,95 65,6514,75 4,170,09 8,921,53 16,233,19 23,285,13 34,336,97 35,938,11 44,539,53 48,5711,08 53,3712,36 58,1113,64 63,2114,30 64,6714,96 WXW 00 00 00 00 00 00 00 00 00 00 10,09 11,53 13,19 15,13 16,97 18,11 19,53 111,08 112,36 113,64 114,30 114,96 ANOVA glSQMQFvalor-P Regressão37692,292564,101499,978,9E-22 Resíduo1830,771,71 Total217723,06 Coeficientes Erro padrãotvalor-P Interseção8,770,8610,176,86E-09 X3,940,1040,843,36E-19 W-5,381,14-4,700,0002 XW0,170,121,360,1915 não significativo (  3 = 0 ) altamente significativo 51 Elimina-se o termo  3 X i W i e refaz-se a análise...

52 Comparando duas funções de regressão YX 11,400,75 17,692,47 27,484,39 32,656,19 39,467,38 39,738,47 48,769,94 53,3011,14 60,7112,95 65,6514,75 4,170,09 8,921,53 16,233,19 23,285,13 34,336,97 35,938,11 44,539,53 48,5711,08 53,3712,36 58,1113,64 63,2114,30 64,6714,96 W 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 ANOVA glSQMQFvalor-P Regressão27689,143844,572153,574,03E-23 Resíduo1933,921,79 Total217723,06 Coeficientes Erro padrãotvalor-P Interseção7,970,6412,411,46E-10 X4,040,0665,567,44E-24 W-4,030,57-7,031,09E-06 Conclusão: as regressões de ambas regiões possuem o mesmo coeficiente angular. Elas diferem-se apenas pelo intercepto. Em média, a região B produz estimativas para Y menores que a região A em 4,03 unidades. 52

53 Regressão Padronizada Muitas vezes, o coeficiente  k pode ser utilizado como uma medida do poder da variável independente k em “explicar” a variável dependente Y. Por exemplo: Observe que a variação em 1 unidade de X 2 gera uma mudança em 5,9 unidades em Y, ao passo que a mesma variação em X 1 gera uma mudança de apenas 0,4. Assim conclui-se que a variável X 2 é mais importante para Y do que X 1. Isso é verdade quando todas as variáveis independentes possuem a mesma unidade de medida e quando possuem variâncias similares No exemplo anterior, se as unidades das variáveis do modelo fossem: Y em mm, X 1 em ton/ha e X 2 em o C, quais as unidades de  1 e  2 ?  1  mm.ha/ton  2  mm/ o C Como comparar estes parâmetros? 53

54 Regressão Padronizada Para obter um modelo cujos coeficientes sejam adimensionais, deve-se padronizar cada uma das variáveis dependente e independentes, ou seja: Nesse caso, a reta de regressão estimada torna-se Estes coeficientes podem então ser comparados entre si. Em muitos pacotes estatísticos, estes coeficientes são conhecidos como “coeficientes beta” 54

55 Construção do Modelo Em geral, o objetivo de um estudo de regressão é determinar quais variáveis independentes disponíveis melhor explicam ou predizem a variável em estudo Nesse caso, deve-se buscar o melhor modelo que represente a relação entre as variáveis, ou seja, aquele que melhor se ajuste aos dados analisados Dicas:  quanto mais simples o modelo, melhor!  dê preferência por modelos lineares (ou linearizáveis)  utilize conhecimentos prévios para escolha do modelo, construindo primeiramente um modelo conceitual ou analise modelos utilizados em trabalhos semelhantes  evite métodos automáticos que “procuram” o melhor modelo ajustado  após a estimação dos parâmetros faça a análise dos resíduos para detectar qualquer anomalia (outliers, não normalidade, não constância da variância, etc) e tente minimizá-las 55

56 Seleção de Variáveis Quando se trabalha com um grande número de variáveis independentes, muitas vezes o processo de escolha de quais deverão compor o modelo final é bastante dificultado, especialmente quando há colinearidade entre estas variáveis De modo geral, o primeiro passo é verificar se a relação entre a variável Y e cada uma das variáveis independentes possui uma relação linear. No caso da relação não ser linear, procura-se transformações de modo a linearizá-la 56 YX1X1 52,310,21 55,780,53 60,051,55 62,662,69 66,324,53 67,167,05 71,6922,24 75,5943,40 77,1755,43 80,02116,31 88,78964,13 92,322117,60 YX1X1 logX 1 52,310,21-0,67 55,780,53-0,28 60,051,550,19 62,662,690,43 66,324,530,66 67,167,050,85 71,6922,241,35 75,5943,401,64 77,1755,431,74 80,02116,312,07 88,78964,132,98 92,322117,603,33

57 Seleção de Variáveis Uma vez garantido que todas as relações entre variáveis dependentes e cada uma das independentes é aproximadamente linear, pode-se iniciar o processo de seleção A seleção pode ser feita manualmente. A seleção pode começar identificando-se a variável independente com maior poder de explicação (maior r 2 ) e em seguida, acrescenta-se uma a uma, cada variável independente. Este processo pode ser bastante demorado e pode ser otimizado através de processos automáticos de busca. Os mais comuns são: busca exaustiva e stepwize Na busca exaustiva, escolhe-se o melhor modelo simples (1 variável independente) e depois o melhor modelo com 2 variáveis (todos os pares são testados) e depois o modelo com 3 variáveis (todas as triplas são testadas), até que o modelo completo seja ajustado. Avalia-se os modelos obtidos (do mais simples ao mais completo) de forma a garantir que o acréscimo de variáveis independentes traz ganhos significativos. Este método é muito oneroso e inviável quando se trabalha com muitas variáveis independentes! 57

58 Seleção de Variáveis Há duas maneiras de se aplicar o método stepwise (“passo a passo”): crescente (forward) ou decrescente (backward) No modo forward, o modelo é inicializado com apenas uma variável independente e, a cada passo, adiciona-se uma nova variável independente, testando-se o ganho no poder explicativo do novo modelo No modo backward, inicia-se o modelo com todas as variáveis independentes e, a cada passo, retira-se uma das variáveis do modelo, testando-se a perda no poder explicativo do novo modelo reduzido O teste utilizado para medir o ganho ou a perda do poder explicativo pode variar mas, em geral, utiliza-se o teste F para comparar os modelos completo e reduzido, ou o teste t quando apenas um parâmetro é testado. Pode-se também utilizar o índice AIC (Akaike´s Information Criterion): Observe que este índice é uma combinação entre uma medida de ajuste ( SQE ) e uma medida de simplicidade do modelo (dado pelo número de parâmetros p ). Quanto menor for o valor AIC, melhor o modelo. 58


Carregar ppt "Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Análise de Regressão Camilo Daleles Rennó"

Apresentações semelhantes


Anúncios Google