Aula prática: Análise exploratória e modelos de regressão Luciana Soler
CST 401/ Receita para ajustar modelos regressão - parte 1 Seleção inicial de variáveis, construção BD celular Análise exploratória: Histogramas, Scaterplots XX XY (análise de forma das relações) Transformações (log, raiz, exp, etc.) Análise das correlações entre as variáveis Seleção inicial das variáveis: 80% correlação XX (descarta uma da análise) Conjuntos de variáveis com menos de 50% de correlação Seleção de acordo com objetivo. Se for para modelagem, priorizar variáveis relevantes para os cenários, e para as quais se tenha evolução temporal adequada.
CST 401/ Receita para ajustar modelos regressão - parte 2 Construir diversos modelos alternativos através testes das melhores combinações Foward Stepwise, best fit Nos resultados das regressões: Análise dos resíduos (independência e variância uniforme e moran) Comparar R 2. Regressão logistica Com mesmos modelos selecionados, usar Spatial Lag.
CST 401/ Chap 13-4 Scatter Plot Examples y x y x y y x x Linear relationshipsCurvilinear relationships Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc.
CST 401/ Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc. Scatter Plot Examples y x y x y y x x Strong relationshipsWeak relationships (continued)
CST 401/ Chap 13-6 Scatter Plot Examples y x y x No relationship Business Statistics: A Decision-Making Approach, 6e © 2005 Prentice-Hall, Inc.
CST 401/ Correlação – aRT/R Pearson's product-moment correlation data: cells[, "porc_desmate2000"] and cells[, "dist_estradas"] t = , df = 47493, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: sample estimates: cor
CST 401/ Regressão linear Call: lm(formula = porc_desmate2000 ~ dist_rodovia + dist_ramalprincipal + dist_fires + uc_ slope_max + cd_mainurbandry + AP_year + rendapcap, data = cells) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.183e e < 2e-16 *** dist_rodovia e e < 2e-16 *** dist_ramalprincipal e e dist_fires 3.416e e * uc_ e e < 2e-16 *** slope_max e e *** cd_mainurbandry e e * AP_year e e < 2e-16 *** rendapcap 7.441e e < 2e-16 *** --- Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: on degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 2156 on 8 and DF, p-value: < 2.2e-16
CST 401/ Regressão logistica Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.064e e <2e-16 *** dist_rodovia e e <2e-16 *** dist_ramalprincipal e e <2e-16 *** dist_fires 1.017e e uc_ e e <2e-16 *** slope_max 2.842e e * cd_mainurbandry e e <2e-16 *** --- Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for gaussian family taken to be ) Null deviance: on degrees of freedom Residual deviance: on degrees of freedom AIC: Number of Fisher Scoring iterations: 2