Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Análise de Regressão Camilo Daleles Rennó

Slides:



Advertisements
Apresentações semelhantes
Correlação e Regressão
Advertisements

Estatística amintas paiva afonso.
Prof. Darlan Marcelo Delgado
ANÁLISES DE REGRESSÃO.
Analise de Regressão Parte 2.
Análise de Variância da Regressão
MÉTODOS QUANTITATIVOS
TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO
REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por.
Geoestatística Aplicada à Agricultura de Precisão II
MB751 – Modelos de previsão
ANÁLISE DE REGRESSÃO UM GUIA PRÁTICO.
Regressão Linear Múltipla
Rejane Sobrino Pinheiro Tania Guillén de Torres
Distribuição F Considere duas populações com distribuição de Gauss com médias 1, 2 e variâncias 12 e 22 . Retire uma amostra aleatória de tamanho.
Estabilidade e Estacionariedade em Séries Temporais
Análise da Regressão múltipla: Inferência Revisão da graduação
Laís Araújo Lopes de Souza
Teste de Hipóteses de uma amostra Prof. Helcio Rocha
Sistema de equações lineares
MBA em Gestão de Empreendimentos Turísticos
Regressão Múltipla Profas: Gardênia da Silva Abbad Elaine Rabelo Neiva
Aula 6 - Método não-experimental ou de seleção não-aleatória
Mario de Andrade Lira Junior lira.pro.br\wordpress 2/4/2015 lira.pro.br\wordpress - Reservados todos os direitos autorais.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Regressão Camilo Daleles Rennó
Professor Antonio Carlos Coelho
Regressão Linear.
Formas de calibração 1º - Padrões externos É a forma mais utilizada de calibração. São utilizadas soluções contendo concentrações conhecidas do analito.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Componentes Principais Camilo Daleles Rennó
Interpolação e Ajuste de Curvas
2.3 Experimentos Fatoriais 22 Efeitos das Interações
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Variância (ANOVA) Camilo Daleles Rennó
1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na.
Múltipla Variáveis Binárias Relações Não-Lineares
Modelagem Estatística
Professor Antonio Carlos Coelho
Aula 12 - Teste de associação1 DATAAulaCONTEÚDO PROGRAMÁTICO 10/03Segunda1Níveis de mensuração, variáveis, organização de dados, apresentação tabular 12/03Quarta2Apresentação.
Regressão e Previsão Numérica.
Revisão Premissa: seja y e x duas variáveis representando alguma população, deseja-se explicar y em termos de x. Ex: y=salário hora e x=anos de escolaridade.
análise dos estimadores
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Inferência Estatística Camilo Daleles Rennó
7 Ajuste de Curvas UFSC.PósMCI.FME.Ajuste de curvas. (11.1)
Regressão.
Ajuste do Modelo Avaliação dos Coeficientes
Estatística para Cursos de Engenharia e Informática
Regressão Linear Múltipla
Multicolinearidade.
Capítulo 13. Regressão Simples
Descrição Bivariada Comparando Duas Distribuições
Estatística e Probabilidade
Análise de Variância (ANOVA)
Métodos Estatísticos Aplicados às Ciências Biológicas
PPGTI AULA 3 Prof. Dr. Márcio A. Fiori –
Métodos Estatísticos Aplicados às Ciências Biológicas - 11ª aula -
Regressão Linear Simples
Correlação e regressão
AULA 3 – O Modelo de Regressão Simples
GESTÃO E GARANTIA DA QUALIDADE
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Regressão linear simples
Regressão linear simples
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Técnicas.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
1. C.Dougherty “Introduction to Econometrics” 2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Apresentação da Disciplina Camilo Daleles Rennó
AULA 11 – REGRESSÃO Parte I
Profa Dra. Denise Pimentel Bergamaschi
Regressão Linear (aula 14 – Parte 2).
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Teste de Hipótese Camilo Daleles Rennó
Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.
Transcrição da apresentação:

Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Análise de Regressão Camilo Daleles Rennó

Amostra X 13,5 Amostra XYWZ 13,518,90,45143,2 Amostra XYWZ 13,518,90,45143,2 27,531,50,37138,6 34,422,20,62142,7 41,18,70,04145,5 54,419,20,97143,7 64,721,30,07141,2 77,227,00,11141,5 83,616,80,59145,1 99,233,60,21139,0 103,115,90,86145,3 Relacionamento entre Variáveis Aleatórias Muitos estudos buscam entender as relações de dependência entre variáveis de modo a construir modelos que permitam prever o comportamento de uma variável conhecendo-se os valores de outra ou outras variáveis 2 X Y W Z mesma posição geográfica

Relacionamento entre Variáveis Aleatórias 3 Por exemplo: IV tempo Umidade IV Quanto à biomassa, espera-se que tenha havido uma diminuição Quanto à umidade, nada podemos afirmar Se observarmos uma diminuição do valor deste índice de vegetação ao longo do tempo, o que podemos concluir quanto a dinâmica da biomassa da vegetação e da umidade superficial do solo deste lugar? Considere que um determinado índice de vegetação (IV) apresenta valores baixos para vegetações com pequena biomassa e apresenta valores altos para vegetações com grande biomassa. Por outro lado, este mesmo índice não tem qualquer relação com a umidade superficial do solo. Biomassa IV

Relação funcional x Relação estatística As variáveis podem possuir dois tipos de relações: 1)Funcional: a relação é expressa por uma fórmula matemática: Y = f(X) Ex: relação entre o perímetro ( P ) e o lado de um quadrado ( L ) Todos os pontos caem perfeitamente sobre a linha que representa a relação funcional entre L e P Lado do Quadrado ( L ) Perímetro ( P ) 4

Relação funcional x Relação estatística 2)Estatística: não há uma relação perfeita como no caso da relação funcional. As observações em geral não caem exatamente na linha que descreve a relação. Ex: relação entre transparência da água e a reflectância na banda 3 TM5 5 Fonte: Adaptado de Santos, F.C.; Pereira Filho, W.; Toniolo, G.R.. Transparência associada à reflectância da água do reservatório Passo Real. In: XVII SBSR, p

“método estatístico que utiliza a relação entre duas ou mais variáveis para que uma variável possa ser estimada (ou predita) a partir da outra ou das outras” Análise de Regressão Neter, J, et al, Applied Linear Statistical Models, McGraw Hill, Fonte: Adaptado de Santos, F.C.; Pereira Filho, W.; Toniolo, G.R.. Transparência associada à reflectância da água do reservatório Passo Real. In: XVII SBSR, p A existência de uma relação estatística entre a variável dependente Y e a variável independente X não implica que Y realmente dependa de X, ou que exista uma relação de causa-efeito entre X e Y.

Grau de Relacionamento 7 Como caracterizar o grau de relacionamento (ou associação) entre pares de variáveis? X Y X Y X Y Covariância Coeficiente de correlação Relação direta ou positiva Relação inversa ou negativa Ausência de relação

Covariância Cov(X,Y) > 0 Cov(X,Y) = 0 Cov(X,Y) < 0 8 Quanto maior a covariância (em módulo), mais próximos estarão os pontos entorno da reta que representa a tendência principal da nuvem de pontos A deficiência da covariância é que seu valor calculado depende diretamente das unidades de medida, dificultando a comparação entre covariâncias. v.a. discretas: v.a. contínuas: Covariância amostralCovariância populacional X e Y são independentes! X Y X Y X Y

Coeficiente de Correlação X Y X Y X Y X Y Coeficiente de Correlação (de Pearson) mede o grau de relação linear entre X e Y r = 0,9r = 0,3 r = 0 r = - 0,9 9

Coeficiente de Correlação 10 *Fonte: Correlações entre características dendrométricas da Caatinga brasileira e dados TM Landsat 5 (Almeida et al., 2014*) AB - área basal B1 a 7 – bandas do TM/Landsat NDVI = (B4 – B3)/(B4 + B3) SR = B4/B3 Savi = 0,5(B4 – B3)/(B4 + B3 + 0,5)

Coeficiente de Correlação 11 *Fonte: Correlações entre características dendrométricas da Caatinga brasileira e dados TM Landsat 5 (Almeida et al., 2014*) AB - área basal B1 a 7 – bandas do TM/Landsat NDVI = (B4 – B3)/(B4 + B3) SR = B4/B3 Savi = 0,5(B4 – B3)/(B4 + B3 + 0,5) O coeficiente de correlação nem sempre representa bem a relação entre variáveis!

Coeficiente de Correlação Interpretações errôneas do coeficiente de correlação Um alto coeficiente de correlação nem sempre indica que a equação de regressão estimada está bem ajustada aos dados. X Y X Y X Y X Y XX YY ? ? 12 ? Poucos pontosGrupos de pontosRelação quase linearVariáveis monótonas

Coeficiente de Correlação Interpretações errônea do coeficiente de correlação Um coeficiente de correlação próximo de zero nem sempre indica que X e Y não são relacionadas. X Y X Y X Y A X Y B 13 Relação não linearMistura de grupos com relações diferentes

Análise de Regressão Para que serve uma análise de regressão? Encontrar as variáveis mais relevantes que se relacionam com a variável dependente ( Y ) Encontrar a função que descreve como uma ou mais variáveis se relacionam com a variável dependente ( Y ) e estimar os parâmetros de definem esta função (equação ajustada) Usar a equação ajustada para prever valores da variável dependente ( Y ) Regressão Linear Simples Y i =  0 +  1 X i +  i variável independente (valores fixos conhecidos) componente aleatório (erro ou resíduo) variável dependente (variável resposta) 14 erros independentes

Modelo de Regressão Linear Simples X Y E(Y i ) =  0 +  1 X i 15 A reta representa o valor médio da variável dependente ( Y ) para todos os níveis da variável independente ( X )

Modelo de Regressão Linear Simples Inclinação populacional Intercepto populacional ii X Y 0 0 11  0 representa o valor de E(Y i ) quando X i = 0  1 é o coeficiente angular da reta e representa o aumento em E(Y i ) quando X i é incrementado em uma unidade 16 E(Y i ) =  0 +  1 X i XiXi  = tan(  )

Em geral não se conhece os valores de  0,  1 e  2 Eles podem ser estimados através de dados obtidos por amostras O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Y i em relação a seu valor esperado:  i = Y i – E(Y i )  i = Y i – (  0 +  1 X i ) Em particular, o método dos mínimos quadrados requer que consideremos a soma de n desvios quadrados, denotado por Q : Estimação dos parâmetros  0 e  1 17 De acordo com o método dos mínimos quadrados, os estimadores de  0 e  1 são aqueles, denotados por b 0 e b 1, que tornam mínimo o valor de Q. Isso é feito derivando-se Q em relação a  0 e  1 e igualando-se as expressões encontradas a zero.

eiei (resíduo amostral) Estimação dos parâmetros  0 e  1 (reta de regressão estimada) 18 X Y b0 b0 b1b1 b 0 e b 1 são v.a. (não independentes!) e portanto variam de amostra para amostra

Soma de quadrados dos resíduos ( SQE ): Estimação da Variância do Erro (  2 ) Pode ser demonstrado que Portanto, o estimador de  2, denominado de Quadrado Médio do Resíduo ( QME ), é dado pela razão entre a soma dos quadrados dos resíduos e n – 2 : A soma dos quadrados dos resíduos tem n – 2 graus de liberdade, pois 2 graus de liberdade foram perdidos por estimar  0 e  1. A variância dos erros  i, denotada por  2, é um parâmetro do modelo de regressão, e necessita ser estimada através dos desvios de Y i em torno de sua própria média estimada. 19

Inferência em Análise de Regressão Considere o modelo: Y i =  0 +  1 X i +  i  ~ N( 0,  2 ) e Cov(  j,  k ) = 0 E(Y i ) =  0 +  1 X i Y X 20

-- ++ 0 Teste de Hipótese para  1 X Y ?  1 = 0 ? se H 0 verdadeira: t crít -t crít Região Crítica: aceito H 0 se –t crít < t < t crít  P(–t crít < t < t crít ) = 1 -  rejeito H 0 caso contrário  P(|t| > t crít ) =  E(Y i ) =  0 ? ac. H 0 rej. H 0 21 X Y X OBS: se H 0 for aceita, então a regressão não é significativa e, portanto, não há relação entre as variáveis X e Y ( X e Y podem ser consideradas independentes).

Região Crítica: aceito H 0 se –t crít < t < t crít  P(–t crít < t < t crít ) = 1 -  rejeito H 0 caso contrário  P(|t| > t crít ) =  OBS: se H 0 for aceita, então a reta de regressão passa pela origem. Isso não tem qualquer relação com a existência ou não de relação entre X e Y. Muitas vezes este teste é irrelevante (quando X = 0 não tem significado prático) Teste de Hipótese para  0 X Y  0 = 0 ? b0b0 E(Y i ) =  1 X i ? -- ++ 0 X se H 0 verdadeira: t crít -t crít ac. H 0 rej. H 0 22 ?

Inferências para E(Y h ) Considerando um determinado valor de X h, quais as incertezas relacionadas às estimativas de E(Y h ) ? Y X Se b 0 e b 1 são variáveis aleatórias, então eles podem variar de amostra para amostra... 23

Inferências para E(Y h ) Y X Considerando um determinado valor de X h, quais as incertezas relacionadas às estimativas de E(Y h ) ? Interpretação: quanto mais distante estiver de, maiores serão as incertezas nas estimativas de Por isso extrapolações para faixa de valores de X não observados devem ser evitados! 24

YiYi Particionamento do Erro X Y SQTO = SQReg + SQE Coeficiente de determinação Interpretação: r 2 mede a fração da variação total de Y explicada pela regressão e por isso pode ser representada em porcentagem OBS: o coeficiente de determinação equivale ao quadrado do coeficiente de correlação para regressões lineares simples 25 0  r 2  1

Regressão passando pela origem (  0 = 0 ) ( r 2 pode ser negativo!) Y i =  1 X i +  i 26

ANOVA x Análise de Regressão se H 0 verdadeira: Região Crítica: aceito H 0 se F < F crít  P(F < F crít ) = 1 -  rejeito H 0 caso contrário  P(F > F crít ) =   ac. H 0 rej. H 0 0 ++ 27 OBS: se H 0 for aceita, então a regressão não é significativa e, portanto, não há relação entre as variáveis X e Y ( X e Y podem ser consideradas independentes).

Análise de Regressão no EXCEL XY 11,1 21,9 32,5 44,3 56,1 66,3 77,8 87,0 99,1 s valor-P OBS: Para regressão linear simples: teste F = teste t para  1 (bilateral) s2s2 RESUMO DOS RESULTADOS Estatística de regressão R múltiplo0,9745 R-Quadrado0,9496 R-quadrado ajustado0,9424 Erro padrão0,6735 Observações9 ANOVA glSQMQF F de significação Regressão159, ,82678,55E-06 Resíduo73,17540,4536 Total862,9756 CoeficientesErro padrãoStat tvalor-P95% inferiores95% superiores Interseção0,13060,48930,26680,7973-1,02651,2876 X0,99830,087011,48168,55E-060,79271,

Análise de Regressão no R XY 11,1 21,9 32,5 44,3 56,1 66,3 77,8 87,0 99,1 >x <- c(1,2,3,4,5,6,7,8,9) >y <- c(1.1,1.9,2.5,4.3,6.1,6.3,7.8,7,9.1) >reg <- lm(y ~ x) >summary(reg) >ypred <- predict(reg) >plot(x, y, xlim = c(1,9), ylim = c(1,10)) >abline(reg) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) x e-06 *** --- Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: on 7 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 7 DF, p-value: 8.547e-06 s valor-P r2r2 29

Modelos Linearizáveis Modelo Padrão: Y i =  0 +  1 X i +  i exponencial potencial logaritmo potência inverso 30

Análise de Resíduos Resíduo = 31

Análise de Resíduos Resíduo Padronizado = Resíduos Padronizados 32

Análise de Resíduos “ideal”  2 não constante não linearidade não independência tempo Resíduos Padronizados “outlier” Resíduos Padronizados 33

Modelo de Regressão Linear Múltipla Modelo Geral são parâmetros do modelo ( p parâmetros no total) são valores fixos conhecidos são erros independentes  i ~ N(0,  2 ) Fazendo X 0,i = 1, podemos reescrever o modelo como 34

Casos Especiais Regressão Polinomial Considere um modelo de regressão de 3 o grau com uma variável independente: Se considerarmos, e então Importante: o modelo geral de regressão linear não é restrito às superfícies planas. O termo linear refere-se ao fato de que ele é linear nos parâmetros, não na forma de superfície. Efeito de Interação Considere um modelo de regressão com duas variáveis independentes: Se considerarmos então 35

X1X1 X2X2 Y Modelo de Regressão Linear Múltipla Exemplo: duas variáveis independentes 11 22 0 0 00 36

X1X1 X2X2 Y Modelo de Regressão Linear Múltipla Exemplo: duas variáveis independentes com interação  1 (considerando X 2 = 0 ) (considerando X 1 = 0 )  00 37

Notação Matricial Modelo Geral 38

ANOVA x Análise de Regressão se H 0 verdadeira: Região Crítica: aceito H 0 se F < F crít  P(F < F crít ) = 1 -  rejeito H 0 caso contrário  P(F > F crít ) =   ac. H 0 rej. H 0 0 ++ 39

Coeficiente de Determinação Múltiplo SQTO = SQReg + SQE Atenção: r 2 é fortemente influenciado pelo número de parâmetros considerados no modelo. Quanto maior o número de parâmetros ( p  n ), melhor o ajuste e portanto maior o r 2. Quando p = n, o ajuste é perfeito!!! Modelo Linear SimplesModelo Polinomial de 2 o grauModelo Polinomial de 5 o grau 40

Coeficiente de Determinação Múltiplo SQTO = SQReg + SQE Atenção: r 2 é fortemente influenciado pelo número de parâmetros considerados no modelo. Quanto maior o número de parâmetros ( p  n ), melhor o ajuste e portanto maior o r 2. Coeficiente de Determinação Ajustado Este coeficiente pode até diminuir se as variáveis acrescentadas ao modelo não representarem contribuições importantes. Quando p = n, o ajuste é perfeito!!! 41

Teste de Hipótese para  k -- ++ 0 se H 0 verdadeira: t crít -t crít Região Crítica: aceito H 0 se –t crít < t < t crít  P(–t crít < t < t crít ) = 1 -  rejeito H 0 caso contrário  P(|t| > t crít ) =  ac, H 0 rej, H 0 42 OBS: se H 0 for aceita, então  k = 0 e, portanto, a variável X k não relaciona-se significativamente com Y (considerando que todas as demais variáveis independentes estejam presentes no modelo).

ANOVA glSQMQFvalor-P Regressão49354,572338,64587,452,78E-16 Resíduo1559,713,98 Total199414,28 Coeficientes Erro padrãoStat tvalor-P Interseção64,43594,842413,30671,04E-09 X1X1 -0,21290,3081-0,69080,5002 X2X2 -0,47410, ,55751,04E-14 X3X3 0,26590,15531,71230,1074 X4X4 -0,00750,0015-4,88270,0002 YX1X1 X2X2 X3X3 X4X4 11,70126,92174,56226,69364,26 16,3475,02129,40117,43329,68 16,7651,00106,1775,41592,57 16,8347,75110,5066,58471,11 22,02145,83148,78258,841151,11 23,4362,91113,0499,85327,56 24,7573,3497,81117,23850,26 29,9679,8792,83126,21695,32 30,31131,55139,24235,10820,23 33,51163,68141,01294,77884,83 38,1293,2598,44152,29291,09 38,42110,5799,38195,381162,36 40,6393,2888,63159,74338,08 46,15196,54140,37363,28508,84 47,98184,33128,83334,06764,28 54,58119,8471,83204,97709,91 58,22163,02102,36295,87626,23 66,27155,4384,14284,8750,34 86,27273,91109,00514,30620,11 89,29212,2953,56392,891186,30 Teste de Hipótese para  k altamente significativo não significativos 43 Atenção: não se pode considerar que todos os  k, cujas estatísticas t são não significativos, sejam simultaneamente iguais a zero! Este problema pode ocorrer quando as variáveis independentes são correlacionadas (problema de colinearidade)

Teste de Hipótese para múltiplos  k Considere um modelo completo dado por: Se H 0 for verdadeiro então, o modelo é reduzido para: Suponha que se queira testar as hipóteses Neste caso: onde p C-R é o número de parâmetros testados em H 0, ou seja, o número de parâmetros ausentes no modelo reduzido 44

ANOVA glSQMQFvalor-P Regressão49354,572338,64587,452,78E-16 Resíduo1559,713,98 Total199414,28 YX1X1 X2X2 X3X3 X4X4 11,70126,92174,56226,69364,26 16,3475,02129,40117,43329,68 16,7651,00106,1775,41592,57 16,8347,75110,5066,58471,11 22,02145,83148,78258,841151,11 23,4362,91113,0499,85327,56 24,7573,3497,81117,23850,26 29,9679,8792,83126,21695,32 30,31131,55139,24235,10820,23 33,51163,68141,01294,77884,83 38,1293,2598,44152,29291,09 38,42110,5799,38195,381162,36 40,6393,2888,63159,74338,08 46,15196,54140,37363,28508,84 47,98184,33128,83334,06764,28 54,58119,8471,83204,97709,91 58,22163,02102,36295,87626,23 66,27155,4384,14284,8750,34 86,27273,91109,00514,30620,11 89,29212,2953,56392,891186,30 Teste de Hipótese para  k 45 ANOVA glSQMQFvalor-P Regressão23168,921584,464,310,0306 Resíduo176245,37367,37 Total199414,28 Conclusão: Não se deve retirar as duas variáveis de uma só vez! Valor-P  0

ANOVA glSQMQFvalor-P Regressão49354,572338,64587,452,78E-16 Resíduo1559,713,98 Total199414,28 Coeficientes Erro padrãoStat tvalor-P Interseção64,43594,842413,30671,04E-09 X1X1 -0,21290,3081-0,69080,5002 X2X2 -0,47410, ,55751,04E-14 X3X3 0,26590,15531,71230,1074 X4X4 -0,00750,0015-4,88270,0002 YX1X1 X2X2 X3X3 X4X4 11,70126,92174,56226,69364,26 16,3475,02129,40117,43329,68 16,7651,00106,1775,41592,57 16,8347,75110,5066,58471,11 22,02145,83148,78258,841151,11 23,4362,91113,0499,85327,56 24,7573,3497,81117,23850,26 29,9679,8792,83126,21695,32 30,31131,55139,24235,10820,23 33,51163,68141,01294,77884,83 38,1293,2598,44152,29291,09 38,42110,5799,38195,381162,36 40,6393,2888,63159,74338,08 46,15196,54140,37363,28508,84 47,98184,33128,83334,06764,28 54,58119,8471,83204,97709,91 58,22163,02102,36295,87626,23 66,27155,4384,14284,8750,34 86,27273,91109,00514,30620,11 89,29212,2953,56392,891186,30 Teste de Hipótese para  k 46 Neste caso, elimina-se a variável se apresente o maior valor-P. X 1 e X 3 são colineares!

ANOVA glSQMQFvalor-P Regressão39352,673117,56809,561,12E-17 Resíduo1661,613,85 Total199414,28 Coeficientes Erro padrãoStat tvalor-P Interseção61,44782,140828,70303,44E-15 X2X2 -0,47340, ,06371,66E-15 X3X3 0,15870,004040,02061,81E-17 X4X4 -0,00770,0015-5,16989,31E-05 YX2X2 X3X3 X4X4 11,70126,92174,56201,62 16,3475,02129,40195,65 16,7651,00106,17208,32 16,8347,75110,50202,11 22,02145,83148,78217,41 23,4362,91113,04191,34 24,7573,3497,81218,46 29,9679,8792,83211,78 30,31131,55139,24197,17 33,51163,68141,01217,30 38,1293,2598,44190,67 38,42110,5799,38212,30 40,6393,2888,63201,40 46,15196,54140,37207,76 47,98184,33128,83207,31 54,58119,8471,83208,53 58,22163,02102,36194,28 66,27155,4384,14186,39 86,27273,91109,00198,12 89,29212,2953,56213,78 Teste de Hipótese para  k 47 11,97 16,28 18,58 16,06 23,21 21,25 27,19 32,16 26,51 34,64 36,76 36,44 42,23 48,71 47,57 54,49 55,11 66,43 86,67 89,29

Comparando duas funções de regressão Muitas vezes deseja-se saber se dois conjuntos amostrais resultam na mesma função de regressão. Amostra AAmostra B YXYX 11,400,754,170,09 17,692,478,921,53 27,484,3916,233,19 32,656,1923,285,13 39,467,3834,336,97 39,738,4735,938,11 48,769,9444,539,53 53,3011,1448,5711,08 60,7112,9553,3712,36 65,6514,7558,1113,64 63,2114,30 64,6714,96 Para que ambas regressões sejam a mesma: e 48

Comparando duas funções de regressão Para isso, pode-se gerar uma única regressão usando uma variável indicadora a fim de identificar a origem de cada ponto amostral. YX 11,400,75 17,692,47 27,484,39 32,656,19 39,467,38 39,738,47 48,769,94 53,3011,14 60,7112,95 65,6514,75 4,170,09 8,921,53 16,233,19 23,285,13 34,336,97 35,938,11 44,539,53 48,5711,08 53,3712,36 58,1113,64 63,2114,30 64,6714,96 Define-se uma nova variável W : se i pertencer a Região A se i pertencer a Região B Para Região A ( W i = 0 ): Para Região B ( W i = 1 ): WXW ,09 11,53 13,19 15,13 16,97 18,11 19,53 111,08 112,36 113,64 114,30 114,96 49

Comparando duas funções de regressão Se  2 =  3 = 0, então ambas regiões possuem a mesma regressão Se  2  0, então as regressões diferem-se entre si pelo intercepto Se  3  0, então as regressões diferem-se entre si pelo coeficiente angular YX 11,400,75 17,692,47 27,484,39 32,656,19 39,467,38 39,738,47 48,769,94 53,3011,14 60,7112,95 65,6514,75 4,170,09 8,921,53 16,233,19 23,285,13 34,336,97 35,938,11 44,539,53 48,5711,08 53,3712,36 58,1113,64 63,2114,30 64,6714,96 WXW ,09 11,53 13,19 15,13 16,97 18,11 19,53 111,08 112,36 113,64 114,30 114,96 50

Comparando duas funções de regressão YX 11,400,75 17,692,47 27,484,39 32,656,19 39,467,38 39,738,47 48,769,94 53,3011,14 60,7112,95 65,6514,75 4,170,09 8,921,53 16,233,19 23,285,13 34,336,97 35,938,11 44,539,53 48,5711,08 53,3712,36 58,1113,64 63,2114,30 64,6714,96 WXW ,09 11,53 13,19 15,13 16,97 18,11 19,53 111,08 112,36 113,64 114,30 114,96 ANOVA glSQMQFvalor-P Regressão37692,292564,101499,978,9E-22 Resíduo1830,771,71 Total217723,06 Coeficientes Erro padrãotvalor-P Interseção8,770,8610,176,86E-09 X3,940,1040,843,36E-19 W-5,381,14-4,700,0002 XW0,170,121,360,1915 não significativo (  3 = 0 ) altamente significativo 51 Elimina-se o termo  3 X i W i e refaz-se a análise...

Comparando duas funções de regressão YX 11,400,75 17,692,47 27,484,39 32,656,19 39,467,38 39,738,47 48,769,94 53,3011,14 60,7112,95 65,6514,75 4,170,09 8,921,53 16,233,19 23,285,13 34,336,97 35,938,11 44,539,53 48,5711,08 53,3712,36 58,1113,64 63,2114,30 64,6714,96 W ANOVA glSQMQFvalor-P Regressão27689,143844,572153,574,03E-23 Resíduo1933,921,79 Total217723,06 Coeficientes Erro padrãotvalor-P Interseção7,970,6412,411,46E-10 X4,040,0665,567,44E-24 W-4,030,57-7,031,09E-06 Conclusão: as regressões de ambas regiões possuem o mesmo coeficiente angular. Elas diferem-se apenas pelo intercepto. Em média, a região B produz estimativas para Y menores que a região A em 4,03 unidades. 52

Regressão Padronizada Muitas vezes, o coeficiente  k pode ser utilizado como uma medida do poder da variável independente k em “explicar” a variável dependente Y. Por exemplo: Observe que a variação em 1 unidade de X 2 gera uma mudança em 5,9 unidades em Y, ao passo que a mesma variação em X 1 gera uma mudança de apenas 0,4. Assim conclui-se que a variável X 2 é mais importante para Y do que X 1. Isso é verdade quando todas as variáveis independentes possuem a mesma unidade de medida e quando possuem variâncias similares No exemplo anterior, se as unidades das variáveis do modelo fossem: Y em mm, X 1 em ton/ha e X 2 em o C, quais as unidades de  1 e  2 ?  1  mm.ha/ton  2  mm/ o C Como comparar estes parâmetros? 53

Regressão Padronizada Para obter um modelo cujos coeficientes sejam adimensionais, deve-se padronizar cada uma das variáveis dependente e independentes, ou seja: Nesse caso, a reta de regressão estimada torna-se Estes coeficientes podem então ser comparados entre si. Em muitos pacotes estatísticos, estes coeficientes são conhecidos como “coeficientes beta” 54

Construção do Modelo Em geral, o objetivo de um estudo de regressão é determinar quais variáveis independentes disponíveis melhor explicam ou predizem a variável em estudo Nesse caso, deve-se buscar o melhor modelo que represente a relação entre as variáveis, ou seja, aquele que melhor se ajuste aos dados analisados Dicas:  quanto mais simples o modelo, melhor!  dê preferência por modelos lineares (ou linearizáveis)  utilize conhecimentos prévios para escolha do modelo, construindo primeiramente um modelo conceitual ou analise modelos utilizados em trabalhos semelhantes  evite métodos automáticos que “procuram” o melhor modelo ajustado  após a estimação dos parâmetros faça a análise dos resíduos para detectar qualquer anomalia (outliers, não normalidade, não constância da variância, etc) e tente minimizá-las 55

Seleção de Variáveis Quando se trabalha com um grande número de variáveis independentes, muitas vezes o processo de escolha de quais deverão compor o modelo final é bastante dificultado, especialmente quando há colinearidade entre estas variáveis De modo geral, o primeiro passo é verificar se a relação entre a variável Y e cada uma das variáveis independentes possui uma relação linear. No caso da relação não ser linear, procura-se transformações de modo a linearizá-la 56 YX1X1 52,310,21 55,780,53 60,051,55 62,662,69 66,324,53 67,167,05 71,6922,24 75,5943,40 77,1755,43 80,02116,31 88,78964,13 92,322117,60 YX1X1 logX 1 52,310,21-0,67 55,780,53-0,28 60,051,550,19 62,662,690,43 66,324,530,66 67,167,050,85 71,6922,241,35 75,5943,401,64 77,1755,431,74 80,02116,312,07 88,78964,132,98 92,322117,603,33

Seleção de Variáveis Uma vez garantido que todas as relações entre variáveis dependentes e cada uma das independentes é aproximadamente linear, pode-se iniciar o processo de seleção A seleção pode ser feita manualmente. A seleção pode começar identificando-se a variável independente com maior poder de explicação (maior r 2 ) e em seguida, acrescenta-se uma a uma, cada variável independente. Este processo pode ser bastante demorado e pode ser otimizado através de processos automáticos de busca. Os mais comuns são: busca exaustiva e stepwize Na busca exaustiva, escolhe-se o melhor modelo simples (1 variável independente) e depois o melhor modelo com 2 variáveis (todos os pares são testados) e depois o modelo com 3 variáveis (todas as triplas são testadas), até que o modelo completo seja ajustado. Avalia-se os modelos obtidos (do mais simples ao mais completo) de forma a garantir que o acréscimo de variáveis independentes traz ganhos significativos. Este método é muito oneroso e inviável quando se trabalha com muitas variáveis independentes! 57

Seleção de Variáveis Há duas maneiras de se aplicar o método stepwise (“passo a passo”): crescente (forward) ou decrescente (backward) No modo forward, o modelo é inicializado com apenas uma variável independente e, a cada passo, adiciona-se uma nova variável independente, testando-se o ganho no poder explicativo do novo modelo No modo backward, inicia-se o modelo com todas as variáveis independentes e, a cada passo, retira-se uma das variáveis do modelo, testando-se a perda no poder explicativo do novo modelo reduzido O teste utilizado para medir o ganho ou a perda do poder explicativo pode variar mas, em geral, utiliza-se o teste F para comparar os modelos completo e reduzido, ou o teste t quando apenas um parâmetro é testado. Pode-se também utilizar o índice AIC (Akaike´s Information Criterion): Observe que este índice é uma combinação entre uma medida de ajuste ( SQE ) e uma medida de simplicidade do modelo (dado pelo número de parâmetros p ). Quanto menor for o valor AIC, melhor o modelo. 58