Estatística Aplicada Larson Farber 9 Correlação e regressão
Correlação Seção 9.1
Correlação Que tipo de relação existe entre as duas variáveis? A correlação é significante? x y Cigarros fumados por dia Nota no vestibular Altura Horas de treinamento Variável explanatória (ou independente) Variável resposta (ou dependente) Uma relação entre duas variáveis. Número de acidentes Número do sapatoAltura Capacidade pulmonar Média de notas na graduação QI
Correlação negativa: à medida que x cresce, y decresce. x = horas de treinamento y = número de acidentes Mapas de dispersão e tipos de correlação Horas de treinamento Acidentes
Correlação positiva: à medida que x cresce, y cresce também. x = nota no vestibular y = média de notas na graduação Média de notas na graduação Mapas de dispersão e tipos de correlação 4,00 3,75 3,50 3,00 2,75 2,50 2,25 2,00 1,50 1,75 3, Nota no vestibular
Não há correlação linear. x = altura y = QI Mapas de dispersão e tipos de correlação Altura QI
Coeficiente de correlação Mede a intensidade e a direção da relação linear entre duas variáveis. O intervalo de r vai de –1 a 1. Se r está próximo de 1, há uma forte correlação positiva. Se r está próximo a –1, há uma forte correlação negativa. Se r está próximo de 0, não há correlação linear. –1 0 1
x y Faltas Nota final Aplicação Nota final X Faltas
xy x 2 y2y2 Cálculo de r x y (3.751) (39.898) ,
r é o coeficiente de correlação em uma amostra. O coeficiente de correlação populacional é (rô). A distribuição amostral de r é uma distribuição t com n – 2 g.l. Estatística teste padronizada: Em um teste bicaudal de significância: Para testar a significância negativa ou positiva, no caso de cauda à esquerda e de cauda à direita: Teste de hipóteses para determinar a significância (A correlação não é significante.) (A correlação é significante.) H0H0 H0H0 H0H0 HaHa HaHa HaHa
Uma distribuição t com cinco graus de liberdade. Teste de significância Você encontrou a correlação entre o número de faltas e a nota final, r = –0,975. Há sete pares de dados. Teste a significância dessa correlação. Use = 0, Estabeleça as hipóteses nula e alternativa. 2. Estabeleça o nível de significância. 3. Identifique a distribuição amostral. (A correlação não é significante.) (A correlação é significante.) = 0,01 HaHa H0H0
t 0 4,032 –4,032 Regiões de rejeição Valores críticos ± t 0 4. Determine o valor crítico. 5. Determine a região de rejeição. 6. Determine a estatística teste. 0,975 0, , ,811, 0,049375
t 0 –4,032 t = –9,811 cai na região de rejeição. Rejeite a hipótese nula. Há, sim, uma correlação significante entre o número de faltas e as notas finais. 7. Tome sua decisão. 8. Interprete sua decisão.
Regressão linear Seção 9.2
Pode-se escrever a equação de uma reta como y = mx + b, onde m é a inclinação da reta e b, o intercepto y. Assim, a reta de regressão é: A inclinação m é: E o intercepto y é: Depois de constatar que existe uma correlação linear significante, você pode escrever uma equação que descreva a relação entre as variáveis x e y. Essa equação chama-se reta de regressão ou reta do ajuste ótimo. A reta de regressão
,52,02,53,0 Investimento em publicidade = um resíduo (xi,yi)(xi,yi) = um ponto de dados Receita = um ponto na reta com o mesmo valor de x é um mínimo
Calcule m e b. Escreva a equação da reta de regressão com x = número de faltas e y = nota final. A reta de regressão é:= –3,924x + 105, xy x 2 y2y2 x y 3,924 73,714(–3,924)(8,143) 105,667 (3.751)
Faltas Nota final m = –3,924 e b = 105,667 A reta de regressão é: Note que o ponto = (8,143, 73,714) está na reta. A reta de regressão 3, ,667
Com a reta de regressão, é possível prever valores de y correspondentes aos valores de x que caiam em determinado intervalo de dados. A equação de regressão para o número de faltas e a nota final é: Use essa equação para prever a nota esperada de um aluno com: (a) 3 faltas(b) 12 faltas (a) (b) Prevendo valores y = –3,924(3) + 105,667 = 93,895 = –3,924(12) + 105,667 = 58,579 = –3,924x + 105,667
Medidas de regressão e correlação Seção 9.3
O coeficiente de determinação, r 2, é a razão entre a variação explicada em y e a variação total em y. O coeficiente de correlação entre as faltas e a nota final era r = –0,975. O coeficiente de determinação é r 2 = (–0,975) 2 = 0,9506. Interpretação: cerca de 95% da variação nas notas finais pode ser explicada pelo número de vezes que o aluno falta. Os outros 5% são inexplicados e podem dever-se a um erro amostral ou outras variáveis, como inteligência, tempo dedicado ao estudo etc. O coeficiente de determinação Variação explicada Variação total
O erro padrão da estimativa, s e, é o desvio padrão dos valores y i observados em torno do valor previsto. O erro padrão da estimativa
,275 13, ,819 33, ,047 15, ,579 0, ,807 14, ,351 13, ,123 1, ,767 = 4,307 xy Calcule para cada x i O erro padrão da estimativa 92,767 3,924x105,667
Dados uma equação de regressão linear específica e x 0, um valor específico de x, um intervalo de previsão c para y será: onde Use uma distribuição t com n – 2 graus de liberdade. A estimativa pontual é e o erro máximo da estimativa é E. Intervalos de previsão
Construa um intervalo de confiança de 90% para a nota final de um estudante que faltou seis vezes. 1. Determine a estimativa pontual: O ponto (6, 82,123) é o ponto na reta de regressão em que a coordenada x é 6. Aplicação 3, ,667 3,924(6) 105,667 82,123
Construa um intervalo de confiança de 90% para a nota final de um estudante que faltou seis vezes. 2. Determine E: A um nível de confiança de 90%, o erro máximo da estimativa é 9,438. Aplicação 8,14 2,015(4,307) 1, ,438
Construa um intervalo de confiança de 90% para a nota final de um estudante que faltou seis vezes. Quando x = 6, o intervalo de confiança de 90% vai de 72,685 a 91, Determine os extremos. Aplicação – E = 82,123 – 9,438 = 72,685 + E = 82, ,438 = 91,561 72,685 < y < 91,561
Análise de regressão A equação de regressão é: y = 106 – 3,92x Predictor Coef StDev T P Constant Resultado no Minitab x – – S = R-Sq = 95.0% R-Sq(adj) = 94.0%
Regressão múltipla Seção 9.4
Faltas QI Nota Mais variáveis explanatórias
Análise de regressão A equação de regressão é: Nota = 52,7 – 2,65 faltas + 0,357 QI Predictor Coef StDev T P Constante Faltas QI Resultado no Minitab S = R-Sq = 95.4% R-Sq(adj) = 93.2% – –
Interpretação A equação de regressão é: Nota = 52,7 – 2,65 faltas + 0,357 QI Se as outras variáveis forem 0, a nota será 52,7. Se o QI permanece constante, a cada nova falta a nota esperada cai 2,65 pontos. Se o número de faltas permanece constante e o QI cresce um ponto, a nota esperada cresce 0,357 ponto.
A equação de regressão é: Nota = 52,7 – 2,65 faltas + 0,357 QI Prevendo a variável resposta Use a equação de regressão para prever a nota de um estudante que faltou cinco vezes e tem um QI de 125. Nota = 52,7 – 2,65 faltas + 0,357 QI Nota = 52,7 – 2,65(5) + 0,357(125) = 80,075 (cerca de 80) Use a equação de regressão para prever a nota de um estudante que faltou nove vezes e tem um QI de 120. Nota = 52,7 – 2,65 faltas + 0,357 QI Nota = 52,7 – 2,65(9) + 0,357(120) = 71,69 (cerca de 72)