A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Capítulo 13. Regressão Simples

Apresentações semelhantes


Apresentação em tema: "Capítulo 13. Regressão Simples"— Transcrição da apresentação:

1 Capítulo 13. Regressão Simples
13.1 Introdução a regressão simples: causalidade e os erros de previsão. 13.2 Regressão simples com a variável tempo. 13.3 Minimizando os erros. 13.4 Exemplo: Previsão de vendas 13.5 Coeficiente de determinação - R2. 13.6 Natureza estatística da reta estimada 13.7 Normalidade, independência e a constância da variância dos erros residuais. 13.8 Desvio padrão (erro padrão) dos estimadores dos coeficientes e intervalo de confiança. 13.9 Exemplo de intervalo de confiança para os coeficientes a e b da regressão simples. 13.10 Teste de hipótese representatividade da equação como um todo, a estatística F. 13.11 Outro exemplo do teste de hipótese com a estatística F: a dureza de Brinell. 13.12 Teste de hipótese, o exemplo de coeficientes individuais de regressão. 13.13 Não linearidade, e retornando ao exemplo do Boyle 13.14 Conclusões 13.15 Exercícios 13.16 Referências

2 13.1 Introdução a regressão simples: causalidade e os erros de previsão.
A regressão demonstra quantitativamente a força atrás de uma causalidade ou um simples relacionamento que ocorre de Xt para Yt. Yt é a variável dependente da variável Xt, denominada variável independente. Quando o valor de Xt se altera por alguma razão, então, em conseqüência, o valor de Yt se alterará. É também comum chamar Yt a variável explicada e Xt a variável explicatória (ou explicativa). É importante enfatizar que a questão de causalidade entre variáveis (influência da variável explicatória na variável explicada) deve ser determinada antes de investigar a relação com regressão.

3 Figura 13.1 - A reta estimada de regressão no gráfico de dispersão X-Y.
erros residuais positivos et > 0 erros residuais negativos et < 0

4 13.2 Regressão simples com a variável tempo.
Uma das maneiras mais fáceis de construir uma equação de regressão é através da utilização de uma variável artificial que representa tempo como variável independente Xt. Imaginando por exemplo que Yt represente o preço médio mensal de um quilo de banana (Preçot), durante um ano terá doze preços mensais em seqüência. Para 12 meses, a variável Xt = t corresponderia à seqüência de t = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 A equação de regressão seria a seguinte: Para prever o valor do preço de banana no mês 13, deve-se inserir 13 na equação para a variável t e, usando os valores estimados dos coeficientes a e b torna-se fácil calcular a previsão do Preçot.

5 13.3 Minimizando os erros – a soma dos quadrados dos erros (SQE)
O método de mínimos quadrados pode ser resumido na seguinte expressão: Em palavras, a expressão significa procurar valores de a e b que minimizem a soma dos erros quadrados. A soma dos erros quadrados é dada embaixo pela expressão Q: onde T é o número total de observações em X e Y. O método para minimizar uma expressão como Q envolve o cálculo de derivadas parciais, igualando-as a zero:

6 CONTINUAÇÃO: Minimizando os erros – a soma dos quadrados dos erros (SQE)
As equações chamadas de estimadores são as seguintes (sempre notando que um estimador ou variável estimada por regressão e mínimos quadrados é vestido por um chapeuzinho): O estimador de a é dado pela expressão:

7 13.4 Exemplo: Previsão de vendas
MES VENDAS MENSAIS VENDAS ESTIMADAS ERRO RESIDUAL 1 1102 -4195,17 -5297,17 2 2030 -1681,17 -3711,17 3 5838 832,8333 -5005,17 4 6995 3346,833 -3648,17 5 6283 5860,833 -422,167 6 1719 8374,833 6655,833 7 25263 10888,83 -14374,2 8 19244 13402,83 -5841,17 9 23171 15916,83 -7254,17 10 19146 18430,83 -715,167 11 37174 20944,83 -16229,2 12 16691 23458,83 6767,833 13 4235 25972,83 21737,83 14 15077 28486,83 13409,83 15 11791 31000,83 19209,83 16 17497 33514,83 16017,83 17 11353 36028,83 24675,83 18 3646 38542,83 34896,83 19 56471 41056,83 -15414,2 20 44973 43570,83 -1402,17 21 66937 46084,83 -20852,2 22 59371 48598,83 -10772,2 23 84512 51112,83 -33399,2 24 52661 53626,83 965,8333 Tabela 13.1 – Vendas de camisetas e previsões

8 Figura 13.2 - A reta de regressão para a demanda de camisetas
Os valores de a ( = ) e b ( = 2514) são os melhores estimativos considerando o critério de minimização da soma dos erros quadrados. Qualquer outra reta com outros valores de a e b será associada a uma soma de quadrados dos erros residuais maior.

9 Tabela 13.2– Previsões para a venda de camisetas
MES VENDAS FUTURAS 25 56140,0 26 58654,0 27 61168,0 28 63682,0 29 66196,0 30 68710,0 31 71224,0 32 73738,0 33 76252,0 34 78766,0 35 81280,0 36 83794,0 Para calcular previsões fora da amostra observada para os meses 25 e 26, utiliza-se a equação estimada. O valor da previsão para o mês 25 é camisetas (= *25), e para mês 26, camisetas.

10 13.5 Coeficiente de determinação - R2.
O coeficiente de determinação, R2, pondera matematicamente a separação de Yt nas suas duas partes distintas: a parte representada pelo valor estimado de Y e a outra parte advinda do erro residual. Quando o erro é relativamente grande, o valor de R2 é próximo ao zero. Por outro lado, se os erros fossem realmente pequenos (no gráfico, com os pontos aparecendo mais próximos à reta), então a equação está representando bem os dados e será próximo ao valor um.

11 Continuação: Coeficiente de determinação - R2.
O coeficiente de determinação R2 tem um ponto de referência que é a soma dos erros quadrados ao redor da média dos Yt, denominada Soma de Quadrados Total SQT. Essa soma considera simplesmente a diferença entre o valor médio de Yt e o valor observado. Já vimos esta expressão em outro contexto no capítulo 2, no cálculo da variância e do desvio padrão,

12 Figura 13.3 – A reta de regressão e o erro total e o da regressão

13 Continuação: Coeficiente de determinação - R2.

14 13.6 Natureza estatística da reta estimada
Veja na Figura 13.4 (próxima transparência) a relação entre as variáveis Xt e Yt e a distribuição normal que está relacionada à aleatoriedade de Yt. A equação colocada na base da figura no plano X-Y é Yt = f(Xt). Para cada valor de Xt há um valor estimado de Yt,. O eixo vertical é o valor da distribuição normal. Geralmente, a relação entre variáveis em regressão é mostrada no plano de X-Y e o eixo vertical Z é ignorado. Para um dado valor de X, existe um valor de Y mais provável, mas em função de Y ser aleatória, outros valores de Y são prováveis. Como fica clara na figura 13.4, variabilidade é característica de Yt e não Xt considerado fixo. Conseqüentemente, o erro da regressão (et) é oriundo exclusivamente da aleatoriedade de Yt.

15 Figura 13.4 - A reta de regressão e a distribuição normal.

16 13.7 Normalidade, independência e a constância da variância dos erros residuais.
Foram apresentados no capítulo 6 os testes de Bera-Jarque e testes visuais como o da linha reta entre valores teóricos e observados e o histograma. Quando foi mencionado em cima que os resíduos devem ser aleatórios, isso também significa a ausência de qualquer relacionamento do resíduo com as variáveis da equação, e qualquer padrão repetitivo que pode ser visualizado graficamente. O gráfico dos resíduos deve aparecer como uma nuvem de dados com média zero e desvio padrão constante. Veja a figura 13.5.

17 Figura 13.5 – Erros residuais bem comportados com média zero e desvio padrão constante.

18 13.8 Desvio padrão (erro padrão) dos estimadores dos coeficientes e intervalo de confiança.
A estimativa dos coeficientes a e b resulta em parte da variável Yt por definição aleatória, possuindo média e desvio padrão. Conseqüentemente, os coeficientes estimados também têm médias e desvio padrão, chamado de erro padrão. O desvio padrão dos coeficientes tem uma relação direta com o desvio padrão dos erros de regressão (et): onde T é o tamanho da amostra e T – 2 são os graus de liberdade, assunto que será comentado futuramente. O desvio padrão do estimador do coeficiente a e do coeficiente b é o seguinte: Esses elementos permitem a construção de intervalos de confiança.

19 Tabela 13.3 – Vendas de camisetas e PIB
13.9 Exemplo de intervalo de confiança para os coeficientes a e b da regressão simples. mês/ano PIB VENDAS Yt jun-06 100 1102 jul-06 98,08 2030 ago-06 108,97 5838 set-06 107,19 6995 out-06 108,08 6283 nov-06 108,93 1719 dez-06 112,18 25263 jan-07 108,64 19244 fev-07 108,17 23171 mar-07 107,85 19146 abr-07 105,66 37174 mai-07 101,54 16691 jun-07 100,37 4235 jul-07 15077 ago-07 109,47 11791 set-07 107,06 17497 out-07 107,59 11353 nov-07 108,87 3646 dez-07 110,44 56471 jan-08 109,92 44973 fev-08 108,75 66937 mar-08 109,19 59371 abr-08 108,25 84512 mai-08 107,68 52661 Tabela 13.3 – Vendas de camisetas e PIB

20 Aplicamos mínimos quadrados e os resultados são esses:
Continuação: 13.9 Exemplo de intervalo de confiança para os coeficientes a e b da regressão simples. Aplicamos mínimos quadrados e os resultados são esses: Coeficientes Erro padrão Inferior 95% Superior 95% Interseção a = = 41.183 PIB b = 2294 = 1.180 -152 4.742 Tabela 13.4 – Intervalo de confiança para as estimativas de a e b. Cálculos feitos e adaptados do Excel (2002). P( – 2,074* < a< ,074* ) = 95% P( < a < ) = 95%

21 H1: a equação estimada explica as variações da variável dependente Yt
13.10 Teste de hipótese da representatividade da equação como um todo, a estatística F. H0: a equação estimada com Xt não explica adequadamente as variações da variável dependente Yt H1: a equação estimada explica as variações da variável dependente Yt As considerações a seguir são muito parecidas com o conceito de R2 elaborado no início do capítulo, contudo a análise por teste de hipótese tem a vantagem de ter embasamento estatístico mais forte e supera a desvantagem do R2 que não tem ponto de referência bem definida para validar ou não a equação. Tudo depende da montagem da estatística F.

22 Estatística F No caso de regressão simples
F(1, T – 2) = (SQR/1) / (SQE/(T – 2) ) Já vimos na seção sobre R2 que SQT = SQR + SQE. Os graus de liberdade associados a SQT é T-1, como já foi visto (SQT)/(T-1) é a variância de Yt. Os graus de liberdade associados a SQR é k, o número de variáveis explicativas na equação, nesse caso de regressão simples k = 1. O SQE dos erros residuais tem gl = T-k-1. Quando SQR/gl (uma espécie de média dos quadrados, MQ na tabela ANOVA) é relativamente maior que SQE/gl, a regressão explica bem a relação entre Xt e Yt

23 Tabela 13. 5 – ANOVA. Teste de hipótese
Tabela 13.5 – ANOVA. Teste de hipótese. Cálculos feitos e adaptados do Excel (2002). Fonte:tabela13.3 ANOVA graus de liberdade (gl) SQ MQ F valor P Regressão k = 1 SQR = SQR/k = (SQR/gl) / (SQE/gl) 3,781 0,065 Erros Residuais T-k-1 = 22 SQE = SQE/T-k-1 = Total T-1 = 23 SQT = SQT/T-1 = Relembrando a apresentação no capítulo 6 sobre testes de hipótese, um valor-p de 0,065 é considerado alto demais para rejeitar a hipótese nula, especialmente nas áreas mais exatas como a engenharia. A hipótese nula terá que ser aceita e a equação descartada pelo pesquisador, confirmando o resultado já visto na luz da análise do intervalo de confiança.

24 13.11 Outro exemplo do teste de hipótese com a estatística F: a dureza de Brinell.
(1) OBSER. Yi - Dureza em Brinell Xi - minutos de secagem 1 199 16 2 205 3 196 4 200 5 218 24 6 220 7 215 8 223 9 237 32 10 234 11 235 12 230 13 250 40 14 248 15 253 246 MÉDIA = 226 28 Tabela 13.6 – Dureza de Brinell e tempo de secagem. Fonte:Tabela 12.1

25 ANOVA - Estatística F: a dureza de Brinell
gl SQ MQ F Valor P Regressão 1 5297,513 506,5062 2,16E-12 Resíduo 14 146,425 10,45893 Total 15 5443,938 Cálculos feitos e adaptados do Excel (2002). Valor p é praticamente zero. Rejeitar Ho de não relacionamento entre as variaveis Yt e Xt.

26 13.12 Teste de hipótese, o exemplo de coeficientes individuais de regressão.

27 Continuação: 13.12 Teste de hipótese, o exemplo de coeficientes individuais de regressão.
O teste para coeficientes individuais depende do cálculo da estatística t de Gosset. No caso da estimativa para a inclinação da reta, a estatística t é uma relação entre a estimativa e a variabilidade da estimativa em termos do erro padrão Estatística t calculada maior que 2 é forte indicação de relacionamento entre Yt e Xt.

28 Tabela 13. 7 – Teste de hipótese para coeficientes individuais
Tabela 13.7 – Teste de hipótese para coeficientes individuais. Cálculos feitos e adaptados do Excel (2002) Coeficientes Erro padrão estatística t valor-P Interseção a = 126015 -1,747 0,094 PIB b = 2294 1180 1,944 0,064 Voltando para o exemplo da demanda para camisetas e o PIB, calculamos os valores da estatística t na tabela 13.7. Os valores da estatística t são relativamente baixos, e os valores-p são altos por padrões tradicionais. Mais uma vez a análise converge para o resultado já visto acima; a equação não é adequada como representação de vendas de camisetas.

29 13.13 Não linearidade, e retornando ao exemplo do Boyle
Nesse exemplo, sabemos que há uma relação de causalidade entre pressão (P) e volume (V). A causalidade pode ser verificada e quantificada com a estimação de regressão usando o procedimento de mínimos quadrados. Adotamos então como primeira tentativa, a estimação da equação V = a + bP. Os resultados preliminares são apresentados na tabela 13.8.

30 Estatística de regressão
Tabela 13.8 – Resultados da regressão de pressão sob volume, adaptados do Excel 2002. RESUMO DOS RESULTADOS Estatística de regressão R-Quadrado 0,87 Erro padrão 4,06 Observações 25 ANOVA gl SQ MQ F valor-p Regressão 1 2627,43 159,36 0,00 Resíduo 23 379,21 16,49 Total 24 3006,64 Coeficientes Stat t Interseção 51,95 2,13 24,41 PRESSÃO -0,40 0,03 -12,62

31 Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle
Aparentemente, os resultados comprovam uma forte relação inversa O R2 é relativamente alto, mas talvez o pesquisador esperasse um valor até mesmo melhor pela natureza da experiência cientifica O teste de F para a equação inteira oferece um valor-p de 0,00% indicando a rejeição da hipótese nula O valor-p associado aos coeficientes leva a rejeição da hipótese nula de coeficientes zero. Não é mostrado aqui, mas os erros residuais são normais, passando o teste de Bera-Jarque. Contudo, falta uma análise melhor dos erros, a sua independência e a aleatoriedade sugerida na seção sobre o teste de hipótese da normalidade dos erros residuais.

32 Figura 13.6 – Erros residuais como a diferença entre volume e a previsão
-10 10 20 30 40 50 60 100 120 140 VOLUME Previsto

33 Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle
Na figura 13.6, nos primeiros valores do eixo horizontal de pressão, volume previsto é sempre menor que volume observado e, portanto o resíduo é sempre positivo. Para valores de pressão intermediários a situação se inverte para proporcionar resíduos sempre negativos. Finalmente, para valores de pressão altos, os resíduos voltam a ser positivos. Obviamente, os resíduos não são perfeitamente aleatórios. Conhecendo alguns erros em seqüência oferece condições para prever os próximos valores em função de um padrão reconhecível nos dados. Assim, os dados dos resíduos não são aleatórios, mas sim previsíveis.

34 Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle
Para resolver o problema da previsibilidade dos erros, podemos questionar em primeiro lugar a linearidade da equação estimada. No capítulo 12 já vimos que a relação entre volume e pressão não é linear e essa condição deve ser levada em conta para regressão simples. Vamos estimar então a equação 1/V = a + bP, explicitando que a pressão causa mais explicitamente a inversa de volume. Veja os resultados em tabela 13.9.

35 Estatística de regressão
Tabela 13.9 – Resultados da regressão de pressão sob a inversa de volume, adaptados do Excel 2002. Estatística de regressão R-Quadrado 0,9999 Erro padrão 0,0002 Observações 25,0000 ANOVA gl SQ MQ F valor-p Regressão 1,0000 0,0081 210329 0,0000 Resíduo 23,0000 Total 24,0000 Coeficientes Stat t Interseção 0,0001 -0,0163 0,9871 PRESSÃO 0,0007 459

36 Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle
Comparando os resultados das tabelas 13.8 e 13.9, a utilização da inversa de volume melhora os resultados em quase todas as categorias, principalmente na estatística F, de 159,36 para Pelo teste de hipótese nos coeficientes, a interseção a da equação é zero e o coeficiente b é 0,0007. A equação estimada então pode ser escrita como 1/V = 0,0007P. É sempre importante considerar todos os procedimentos para detectar problemas nas estimativas. Na indústria, decisões que valem milhões são tomadas todos os dias na base de cálculos, e muitas vezes de cálculos mau feitos, e as repercussões são catastróficas.

37 Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle
Com esse intuito, vamos ver a figura dos erros da regressão baseada na inversa de volume, figura 13.7 (próxima transparência). Os pontos são bem mais espalhados aleatoriamente. No entanto, veja que a variabilidade dos dados tende a aumentar com pouca variabilidade no inicio dos dados e mais variabilidade no final. A não constância da variância, e erro padrão, dos resíduos é chamada heterocedasticidade Como foi mostrado nas equações para o erro padrão dos coeficientes e na estatística F, o erro padrão dos resíduos se integram as expressões e se não for constante então a funcionalidade dos cálculos se complica.

38 Figura 13.7 – Erros residuais para o modelo inversa de volume.

39 Continuação: 13.13 Não linearidade, e retornando ao exemplo do Boyle
A questão agora é como resolver esse problema de heterocedasticidade. Vamos procurar por alguma transformação das variáveis que elimina a tendência crescente do erro padrão. As possibilidades são numerosas, mas uma das mais óbvias e fáceis de usar é a divisão de Yt e toda a equação por Xt, criando uma nova variável dependente Yt/Xt = 1/VP e uma nova variável independente 1/P. Assim, a nova equação de regressão seria 1/VP = a(1/P) + b.

40 Estatística de regressão
Tabela – Resultados da regressão 1/VP = a(1/P) + b, adaptados do Excel 2002. Estatística de regressão R-Quadrado 0,0059 Erro padrão 3,187E-06 Observações 25 ANOVA gl SQ MQ F valor-p Regressão 1 1,40E-12 1,4E-12 0,13756 0,71411 Resíduo 23 2,34E-10 1,02E-11 Total 24 2,35E-10 Coeficientes Stat t valor-P Interseção b = 0,0007 1,701E-06 419 3,7E-46 1/P a = -3,02E-05 8,168E-05 -0,371 0,714

41 Figura 13.8 – Erros residuais para o modelo 1/VP = a(1/P) + b

42 13.14 Conclusões Este capítulo é essencialmente teórico no sentido de que a regressão linear simples é raramente utilizada na pratica, restrita a relações entre no máximo duas variáveis. Infelizmente, o mundo real não funciona tão simples assim, pois as relações interessantes sempre dependem de muitas variáveis numa maneira mais complexa com interatividade e não linearidades desempenhado papeis relevantes.


Carregar ppt "Capítulo 13. Regressão Simples"

Apresentações semelhantes


Anúncios Google