Estatística para Cursos de Engenharia e Informática Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004 Cap. 11 – Complemento: Regressão Múltipla APOIO: Fundação de Ciência e Tecnologia de Santa Catarina (FUNCITEC) Departamento de Informática e Estatística (INE/CTC/UFSC)
Regressão Múltipla Predizer valores de uma variável dependente (Y) em função de variáveis independentes (X1, X2, ..., Xk). Conhecer o quanto as variações de Xj (j = 1,...,k) podem afetar Y.
Regressão Múltipla (X1, X2, ..., Xk) Y Aplicação na educação física: X1 = exercício aeróbico X2 = calorias ingeridas X3 = circunferência da cintura Y = perda de peso
Regressão Múltipla (X1, X2, ..., Xk) Y Aplicação no Índice de Massa Corporal (IMC) : X1 = velocidade X2 = potência X3 = agilidade Y = IMC
Modelo de Regressão Múltipla E(y) = f(X1, X2, ..., Xk) Linear: E(y) = 0 + 1X1 + 2X2 + ... + kXk onde Y, X1, ..., Xk podem representar as variáveis originais ou transformadas. Admite-se que Y, X1, ..., Xk são variáveis contínuas.
Modelo de Regressão Múltipla E(y) = 0 + 1X1 + 2X2 + ... + kXk O coeficiente k representa a variação esperada de Y para cada unidade de variação em Xk (k = 1, 2, ..., k), considerando as outras variáveis independentes fixas.
Modelo de Regressão Múltipla AMOSTRA: variáveis obs. Y X1 X2 ... Xk 1 y1 x11 x12 ... x1k 2 y2 x21 x22 ... x2k ... ... ... ... ... ... n yk xn1 xn2 ... xnk E(y) = 0 + 1X1 + 2X2 + ... + kXk yi = 0 + 1xi1 + 2xi2 + ... + kxik + ei termo aleatório (erro)
Modelo de Regressão Múltipla Suposições yi = 0 + 1xi1 + 2xi2 + ... + kxik + ei termo aleatório (erro) Os erros (ei) são independentes e variam aleatoriamente segundo uma distribuição (normal) com média zero e variância constante.
Regressão Múltipla Equação de regressão ajustada aos dados: Valores preditos: Resíduos:
Medida do Ajuste Coeficiente de determinação (R2) explicada 0 R2 1 Variação total explicada 0 R2 1
Regressão Múltipla: teste sobre o modelo ANOVA: através da Análise de variância, testa-se a hipótese H0 dada a seguir E(y) = 0 + 1X1 + 2X2 + ... + kXk H0: 1 = 2 = ... = k = 0
Regressão Múltipla: teste sobre um particular coeficiente E(y) = 0 + 1X1 + 2X2 + ... + kXk H0: j = 0 sendo se o erro padrão da estimativa bj Sob H0 e considerando as suposições do modelo, t tem distrib. t de student
Ex. de regressão múltipla A academia de ginástica “Boa Forma” decidiu ilustrar uma abordagem teórica de como os exercícios aeróbicos e a ingestão de calorias podem afetar o peso. Doze dos membros estabelecidos na academia registraram cuidadosamente o número de minutos de exercícios aeróbicos que praticaram no decorrer de uma semana, juntamente com sua ingestão calórica semanal.
Academia BOA FORMA (perda_peso.sav) Ex. aeróbico Cal. Ingerida(x1000) Perda de peso (X1) (X2) (Y) 1 112 11,216 0,27 2 190 7,552 1,26 3 171 10,101 0,63 4 148 9,560 0,63 5 193 8,338 1,17 6 235 7,252 1,71 7 237 7,631 1,49 8 176 8,097 1,13 9 185 8,300 1,17 10 186 8,121 0,90 11 228 7,212 1,49 12 100 10,202 0,50
Regressão múltipla: com variáveis independentes qualitativas Ex. (Qualitativa.sav) Variável dependente: IMC; Variáveis independentes: TR (dobra cutânea triciptal); SOMA_DC (soma da dobra cutânea); SEXO (0 = feminino, 1= masculino) As variáveis qualitativas devem entrar no modelo na forma de variáveis indicadoras (0 - 1)
Regressão múltipla: com variáveis independentes qualitativas E(y) = 0 + 1Sexo + 2TR + 3Soma_dc O coeficiente de uma variável indicadora indica a variação esperada em Y quando a variável indicadora muda de 0 para 1, mantendo-se as demais variáveis constantes. Ex: 1 é o incremento esperado no IMC pelo indivíduo ser do sexo masculino.
Seleção de variáveis: Ex. (seleção.sav) Backward Forward Stepwise Variável dependente: IMC Backward Forward Stepwise
MÉTODO FORWARD (passo a frente) Considera-se inicialmente um modelo de regressão linear simples, usando como variável auxiliar (X), aquela de maior valor da estatística t (ou menor valor de p) quando ajustada a variável dependente Y. As etapas se sucedem quando uma variável por vez pode vir a ser incorporada; Se em uma outra etapa não houver inclusão, o processo é interrompido e as variáveis selecionadas até esta etapa definem o modelo final.
PROCEDIMENTO Passo 1) ajustar todos os modelos com m variáveis (no modelo inicial m=1) e escolher a variável candidata com maior valor da estatística t para entrar no modelo, considerando que o valor de p ≤ (caso p> o modelo é interrompido); Passo 2) para cada variável não pertencente ao modelo do passo 1, ajustar um modelo de regressão considerando no modelo as variáveis que entraram no passo 1 e escolher a variável candidata que tiver o maior valor da estatística t, desde que p ≤ (caso p> o modelo é interrompido);
Passo 3) Fazer o processo sucessivamente, até que todas as variáveis que não estão no modelo apresentem um valor de t, tal que o valor p>.
MÉTODO BACKWARD (passo atrás) Neste método incorporam-se inicialmente todas as variáveis em um modelo de regressão linear múltipla; Percorrem-se etapas, nas quais uma variável por vez pode vir a ser eliminada; Se em cada etapa não houver eliminação de alguma variável, o processo é interrompido e as variáveis restante definem o modelo final.
PROCEDIMENTO Passo 1) ajustar o modelo completo de k variáveis; Passo 2) retirar do modelo completo a variável com menor valor da estatística t (ou maior valor de p). Caso todas as variáveis apresentem p ≤ o processo é interrompido e o modelo final é selecionado; Passo 3) ajustar o modelo com k-1 variáveis e voltar ao passo 2.
MÉTODO STEPWISE (passo a passo) Consiste em uma generalização do procedimento Forward; Após cada etapa de incorporação de uma variável, temos uma etapa em que uma das variáveis já selecionadas pode ser descartada; O procedimento chega ao final quando nenhuma variável é incluída ou descartada.
PROCEDIMENTO Passo 1) ajustar todos os modelos com m variáveis (no modelo inicial m=1) e escolher a variável candidata com maior valor da estatística t para entrar no modelo, considerando que o valor de p ≤ (caso p> o modelo é interrompido); Passo 2) para cada variável não pertencente ao modelo do passo 1, ajustar um modelo de regressão considerando no modelo as variáveis que entraram no passo 1 e escolher a variável candidata que tiver o maior valor da estatística t, desde que p ≤ (caso p> o modelo é interrompido);
Passo 3) verificar se o valor da estatística t das variáveis que estão no modelo apresentam p≤. Caso uma ou mais variáveis que já estão no modelo apresente p> , retira-se a variável do modelo que possua o maior valor de p. Passo 4) ajustar o modelo no passo 3, tal que p≤ para todas as variáveis. Voltar o passo 2 e repetir todo o processo até que todas as variáveis que estão fora do modelo tenham p>.