Capítulo 14. Regressão linear múltipla

Slides:



Advertisements
Apresentações semelhantes
Correlação e Regressão
Advertisements

Estatística amintas paiva afonso.
Prof. Darlan Marcelo Delgado
Analise de Regressão Parte 2.
CAPÍTULO 7 TESTE DE HIPÓTESE
Análise de Variância da Regressão
CAPÍTULO 7 TESTE DE HIPÓTESE
REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por.
Modelos de Regressão Múltipla.
DELINEAMENTO COMPLETAMENTE CASUALIZADO
Prof. Marllus Gustavo Ferreira Passos das Neves
Regressão Linear Aula 09 Prof. Christopher Freire Souza
MANOVA Análise de variância multivariada
MB751 – Modelos de previsão
ANÁLISE DE SÉRIES DE TEMPO
ANÁLISE DE REGRESSÃO UM GUIA PRÁTICO.
EXERCÍCIO DE SÉRIES DE TEMPO E REGRESSÃO: DEMANDA POR IMPORTAÇÕES
Rejane Sobrino Pinheiro Tania Guillén de Torres
1 ESTATÍSTICA. 2 UDIII - Relação Entre Duas ou Mais Variáveis ESTATÍSTICA Ass 01: Regressão Múltipla (2 a Parte)
J. Landeira-Fernandez Ética e Ciência
Análise da Regressão múltipla: Inferência Revisão da graduação
Laís Araújo Lopes de Souza
Modelos de regressão Cláudio Monteiro
Econometria Aula 3 – 27/9/2013.
Regressão Múltipla Profas: Gardênia da Silva Abbad Elaine Rabelo Neiva
Aula 6 - Método não-experimental ou de seleção não-aleatória
Teste de Hipótese.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Regressão Camilo Daleles Rennó
Professor Antonio Carlos Coelho
Estatística e Probabilidade
Regressão Linear.
2.3 Experimentos Fatoriais 22 Efeitos das Interações
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Variância (ANOVA) Camilo Daleles Rennó
1 Análise de regressão linear simples: abordagem matricial Álgebra de matrizes é amplamente utilizada na estatística. É praticamente uma necessidade na.
Múltipla Variáveis Binárias Relações Não-Lineares
Modelagem Estatística
Professor Antonio Carlos Coelho
Capítulo 4 As distribuições de probabilidade mais importantes em controle estatístico de qualidade (CEQ): atributos Sumário 4.1 Introdução 4.2 Distribuição.
Regressão e Previsão Numérica.
Ajustamento de Observações
análise dos estimadores
Regressão.
Regressão Linear Múltipla
AVALIAÇÃO DA INCERTEZA DE MEDIÇÃO
Multicolinearidade.
Capítulo 13. Regressão Simples
Introdução a planejamento e otimização de experimentos
Metodologia da Pesquisa em Ensino de Ciências I
ME623A Planejamento e Pesquisa
ANOVA.
Testes de Hipóteses.
Análise de Variância (ANOVA)
Métodos Estatísticos Aplicados às Ciências Biológicas - 7ª aula -
Aula 12 - Relaxando as hipóteses do MCRL
Probabilidade Teste de hipóteses para duas médias:
Métodos Estatísticos Aplicados às Ciências Biológicas
PPGTI AULA 3 Prof. Dr. Márcio A. Fiori –
Estimação: Estimativa Pontual Estimativa Intervalar
Regressão Linear Simples
Testes de Hipóteses.
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Regressão linear simples
Regressão linear simples
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
AULA 11 – REGRESSÃO Parte I
LINEARIDADE Kamila Dias Nayara Rayanne Pereira Renata Fernandes Solange Araújo.
Regressão Linear (aula 14 – Parte 2).
Fernando NogueiraModelos de Previsão1. Fernando NogueiraModelos de Previsão2 Introdução A maioria dos métodos de previsão estatística é baseada na utilização.
Capítulo 8 Gráficos de controle para variáveis mensuráveis
Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.
Transcrição da apresentação:

Capítulo 14. Regressão linear múltipla 14.1 Introdução 14.2 Comentários sobre as variáveis na equação de regressão. 14.3 Regressão múltipla em termos matriciais. 14.4 Os coeficientes de regressão como valores padronizados e percentagens 14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão 14.6 Comparando R2 entre equações de tamanhos diferentes. 14.7 R2 Ajustado. 14.8 ANOVA para testar a significância da equação inteira: teste F. 14.9 Teste de hipotese para os coeficientes individuais. 14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade 14.11 Exemplo com as variáveis binárias. 14.12 Multicolinearidade 14.13 Questões e exercícios. 14.14 Referências

14.1 Introdução Vamos apresentar a equação de regressão na seguinte forma estática, sem considerar o aspecto de tempo: Y = a + b1X1 + b2X2 + b3X3 +... + eNID(0,σe) mais variáveis independentes podem ser colocadas se os graus de liberdade (número de dados observados – número de coeficientes estimados) não sofrem uma queda desproporcionada. O erro deve ser NID(0,σe), distribuído Normalmente, e os erros devem ser Independentes (erros não devem ser auto correlacionados), com média zero e desvio padrão constante σe.

14.2 Comentários sobre as variáveis na equação de regressão. Quais tipos de variáveis podemos usar para Y e X? Y terá que ser uma variável aleatória e contínua. A variável Y não deve sofrer restrições sobre seus possíveis valores, mas sim tem potencial de assumir valores longe da média, 4 ou 5 desvios padrão da média em geral são suficientes. Esta característica vai garantir que a distribuição de Y é simétrica, um requisito estatístico da distribuição normal para assegurar coeficientes não enviesados, quer dizer, boas estimativas próximas aos valores existentes na grande população desconhecida. Os valores de X são praticamente livres de restrições, assumindo valores contínuos ou discretos. Os números binários 0 e 1 serão utilizados para diferenciar qualidades não necessariamente mensuráveis como homem/mulher ou americano/iraquiano. Uma seqüência temporal (1,2,3,4...) podem refletir tendência nos dados ou algum tipo de sazonalidade.

14.3 Regressão múltipla em termos matriciais. Y1 = a + b1X1,1 + b2X1,2 + e1NID(0,σe) Y2 = a + b1X2,1 + b2X2,2 + e2NID(0,σe) Y3 = a + b1X3,1 + b2X3,2 + e3NID(0,σe) ... YT = a + b1XT,1 + b2XT,2 + eTNID(0,σe) Y = Xb + e

Composição química % (CQ) Tabela 14.2 – Peso determinado por temperatura e composição química em 12 ensaios. Ensaio Resposta peso (Y) Temperatura (temp 0C) Composição química % (CQ) 1 67,1 100 4 2 64 110 3 44,3 120 45,1 130 5 69,8 20 6 58,5 7 46,3 8 44,1 9 74,5 38 10 60,7 11 49,1 12 47,6 peso = 156,61 - 0,89temp + 0,086CQ + e

Matriz de variância e covariância 151,253 -1,276 -14,865 0,011 -2,4E-15 -1,3E-15 71,930

14.4 Os coeficientes de regressão como valores padronizados e percentagens A vantagem de converter os coeficientes em percentagens ou valores padronizados é que o coeficiente deixa de ser dependente da unidade de medida. Quando o coeficiente depende da unidade de medida das variáveis, a interpretação do coeficiente pode ficar mais difícil. No exemplo dos dados da tabela 14.2, peso medido em quilos ou libras altera o valor do coeficiente, dificultando a análise da força da relação.

Elasticidade (ElasYX) A variação percentual de uma variável causada pela variação percentual em outra pode ser escrita assim, o coeficiente estimado é multiplicado pela razão entre as médias. Com os dados apresentados na tabela 14.3, para o coeficiente de temperatura, a elasticidade é ElasYX = - 0,89*115/55,925 = -1,83. Uma variação de temperatura de um por cento causa um declínio no peso de 1,83 por cento. Até mesmo peso medido em libras ou onças e temperatura medida em graus Kelvin, a validade do coeficiente em percentagem continua.

Padronizar o coeficiente em termos de desvios padrão - coeficiente beta . O coeficiente beta é definido assim, O coeficiente estimado é multiplicado pela razão dos dois desvios padrão. Para o coeficiente de temperatura a conversão para desvio padrão leva betaYX = -0,89*11,677/11,109 = -0,936. Se a temperatura variar em um desvio padrão, vai haver uma variação de 0,936 desvio padrão no peso.

Tabela 14.4 – Os coeficientes e as várias maneiras de calcular a força de relacionamento. Média Desvio padrão Coeficiente original elasYX Coeficiente beta Interseção 156,62 Temperatura 115 11,677 -0,89 -1,832 -0,936 Composição química 20,6 14,5 0,0859 0,0317 0,112 Y = Peso 55,925 11,109

1, 2, 3 e 4 Resumidas: et = NID(0, e2I) 14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão Violações das suposições causam uma falha na representatividade dos estimadores no sentido de que valores estimados podem se desviar sistematicamente dos valores corretos. É necessário averiguar nos dados e nas relações entre dados a subordinação às suposições, e na presença de transgressões, as medidas cabíveis terão que ser tomadas. 1. Erro de regressão não enviesado. E(e) = 0 2. Homocedasticidade. E(e2) = constante = e2 3. Independência. COV(et,et-j) = 0 4. Normalidade. et  N(0, e). 1, 2, 3 e 4 Resumidas: et = NID(0, e2I) 5. cov(et,X) = 0. 6. Multicolinearidade. COV(Xi,Xj) = 0. 7. Linearidade.

14.6 Comparando R2 entre equações de tamanhos diferentes. No contexto de regressão múltipla, esta medida (Coeficiente de determinação - R2.). se caracteriza por uma grande desvantagem especialmente quando utilizada para comparar uma equação contra outra: o valor de R2 é diretamente relacionado ao número de variáveis na equação. Quer dizer, cada vez que se acrescentam mais uma variável na equação, o valor de R2 sempre aumenta, mesmo se tratando de variáveis irrelevantes na explicação de Y.

Comparando R2 entre equações Colocar duas equações para comparar, destacando o erro residual como função dos coeficientes. Nota-se que a primeira equação tem uma variável independente a mais X2: 1a. equação: e(a, b1, b2) = Y - a + b1X1 + b2X2 2a. equação: e(a, b1) = Y - a + b1X1 Vamos mostrar que o erro da primeira equação é sempre menor que o erro da segunda equação (e portanto R2 maior), até mesmo com qualquer variável X2 relevante ou não para explicar Y.

Comparando R2 entre equações Deve ser claro que a segunda SQE com b2 = 0 é que pertence à segunda equação contando com uma variável a menos, (2a. equação: e(a, b1) = Y - a + b1X1 ) e que será sempre maior que a primeira SQE otimizada. Conseqüentemente, será sempre o caso do coeficiente de determinação da primeira equação, R2 ser maior que o coeficiente R2 da segunda equação, R2(a, b1, 0), independentemente da relevância da nova variável X2

14.7 R2 Ajustado. Vamos corrigir esta falha do R2 e apresentar o R2 ajustado. Onde (T–1) são graus de liberdade associados a SQT, e (T – k -1) são os graus de liberdade associados a SQE, onde k é o número de variáveis independentes.

Tabela 14.5 –R2 ajustado e a representatividade da equação de regressão, adaptada do Excel (2002). Tabela 14.2 temp e CQ somente temp R2 0,890 0,877 R2 aj 0,865 Erro padrão 4,080 4,086 Observações (n) 12 R2aj é constante entre as duas equações, indicando o efeito fraco ou não existente da variável composição química CQ. O resultado do erro padrão favorece a equação com duas variáveis (temp e CQ), mas o favorecimento é questionável, avaliando a pequena diferença entre as duas medidas. A tomada de decisão baseada em evidencias tão fracas é insustentável. O pesquisador precisa investigar mais a situação e buscar conclusões contundentes.

14.8 ANOVA para testar a significância da equação inteira: teste F. O mais básico teste de hipótese é um teste com a estatística F sobre todas as estimativas simultaneamente. Esse tópico foi tratado na seção 13.10 (Teste de hipótese da representatividade da equação como um todo, a estatística F). Y = a + b1X1 + b2X2 + b3X3 + e As hipóteses nula e alternativa são:   H0: b1 = b2 = b3 = 0 H1: não há igualdade a zero F(k, T – k – 1) = (SQR/k) / (SQE/(T – k – 1) )

Tabela 14.6 – ANOVA, Estatística F e valor p.   gl SQ MQ F valor - p Regressão k = 2 1207,9 603,9 36,27 4,93E-05 Erro Residual T-k-1=9 149,8 16,6 Total T – 1 = 11 1357,7 gl = grau de liberdade; SQ = Soma de Quadrados; MQ = Média de Quadrados O valor da estatistica F é relativamente alto igual a 36,27 (= 603,9/16,6) e valor p correspondente igual a 0,0000493, praticamente igual a zero. Portanto, podemos rejeitar a hipotese nula e concluir que a equação de regressão tem elementos de relação significante entre a variavel resposta, peso, e pelo menos uma das variáveis independentes, temperatura e composição química.

14.9 Teste de hipotese para os coeficientes individuais. O teste de hipótese para a significância de coeficientes individuais foi visto na seção 13.12 (Teste de hipótese, o exemplo de coeficientes individuais de regressão) no contexto de regressão simples. O procedimento para regressão múltipla é idêntico. Vamos voltar ao exemplo dos dados da tabela 14.2. Foram calculadas as estatísticas da equação de regressão cujos coeficientes já foram apresentados: peso = 156,61 - 0,89temp+ 0,086CQ + e

Tabela 14.7 – Teste de hipótese para coeficientes individuais   Coeficientes Erro padrão estatística t valor-P Interseção 156,615 12,299 12,734 0,000 Temperatura (temp) -0,891 0,105 -8,457 Composição química % (CQ) 0,086 0,085 1,013 0,338 As estatísticas t para a interseção (a) e para a temperatura (temp) são altos e os valores-p correspondentes baixos que nos dois casos determina a rejeição da hipótese nula de coeficientes individuais iguais a zero. Por outro lado, o valor-p relativamente alto associado ao coeficiente de composição química determina a aceitação da hipótese nula. A não significância da variável CQ já foi indicada pela análise de R2 ajustado, e agora com a insignificância vindo da estatística t o resultado é comprovado mais uma vez. .

onde D é a binária, zero para homem e unidade para mulher. 14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade A variável binária é criada artificialmente para ser utilizada em regressões de diferenciar aspectos qualitativos e não mensuráveis. Um exemplo é de diferenciar homens e mulheres. Y = a + dD + b1X1 + b2X2 + … + et onde D é a binária, zero para homem e unidade para mulher. O coeficiente d modifica o intercepto. Quando analisando as mulheres, D será igual a unidade e o intercepto será igual a (a + d), e analisando os homens o intercepto será simplesmente a, pois D é zero para os homens.

Armadilha da variável binária. Criar duas novas variáveis, uma para homem e outra para mulher, e segue então a mesma metodologia montando duas variáveis binárias. A equação é: Y = a + d1Dm + d2Dh + b1X1 + b2X2 + … + et A primeira coluna de X é uma combinação linear da segunda e terceira. A condição é incompatível com o procedimento de mínimos quadrados. O intercepto tem que ser eliminado da equação. Assim, a armadilha da variável binária será resolvida.

Y = aDJAN + bDFEV + cDMAR +... + e Sazonalidade O uso das variáveis sazonais resulta em uma equação de regressão como a seguinte: Y = aDJAN + bDFEV + cDMAR +... + e com coeficientes estimados a, b, c, … cada coeficiente representando a sazonalidade do respectivo mês. A variável binária pode representar um ano ou os dias da semana, se for o caso, sendo sazonalidade definida como qualquer padrão repetitivo e constante no decorrer da série temporal. Em muitos pacotes computacionais especializados para regressão, a criação de variáveis binárias é praticamente automática em função do seu uso tão comum.

14.11 Exemplo com as variáveis binárias. Vamos ver agora um exemplo prático da realidade de fábricas de confecções. A confecção necessita de uma previsão de demanda para seu item mais popular, um pijama para criança. A estação de venda dura 30 semanas todo ano. São disponíveis dados históricos de 2005 a 2008, esse último ano ainda incompleto. A previsão será montada com o suporte de uma regressão múltipla. Opta pela utilização de variáveis artificiais na equação, entre variáveis binárias para os anos e o número da semana da estação de 1 a 30. Veja os dados na tabela 14.9.

Tabela 14.10 – A matriz X de dados da regressão para as primeiras 9 semanas de 2005

A regressão múltipla A equação de regressão múltipla terá 7 coeficientes para estimar, 4 coeficientes para as variáveis binárias representando os anos das estações e 3 coeficientes para captar tendências lineares e não-lineares na série, e terá o seguinte formato: Vendas = b1D2005 + b2D2006 + b3D2007 + b4D2008 + c1S + c2S2 + c3S3 + e Nota-se a ausência do coeficiente a, a constante da equação. O coeficiente a foi eliminado da equação por causa do problema da armadilha da variável binária

Tabela 14.11 – Resultados preliminares da regressão da equação com todas as variáveis R-Quadrado 0,968 R-quadrado ajustado 0,956 Erro padrão 1478,549 Observações 104 Já é notável o tamanho do R2 e o R2 ajustado, quase igual a 1,0, indicando que o inicio desse processo já mostra fortes possibilidades de encontrar estimativas relevantes para o propósito de montar previsões para o final da estação do ano 2008.

Tabela 14.12 – Teste F ANOVA gl SQ MQ F valor-P Regressão 7 6448079082   gl SQ MQ F valor-P Regressão 7 6448079082 921154155 421 4,2E-69 Resíduo 97 212052256 2186106 Total 104 6660131338

Tabela 14.13 – Teste estatística t, coeficientes individuais, todas as variáveis inclusas   Coeficientes Erro padrão estatística t valor-P D2005 -6668,2 667,1 -10,00 0,000 D2006 -501,6 -0,75 0,454 D2007 -4623,8 -6,93 D2008 -3921,3 721,8 -5,43 S 2848,0 175,6 16,22 Squad -94,25 13,40 -7,04 Scúb 0,96 0,29 3,33 0,001 Desde que o coeficiente de D2006 não é significante e, portanto a hipótese nula de coeficiente nulo não pode ser rejeitada, o pesquisador permite que a variável seja eliminada do modelo.

Tabela 14.14 – Teste F, D2006 excluída foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p. Tabela 14.14 – Teste F, D2006 excluída ANOVA   gl SQ MQ F valor-P Regressão 6 6,45E+09 1,07E+09 494 2,38E-70 Resíduo 98 2,13E+08 2176411 Total 104 6,66E+09 Foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p.

Tabela 14.15 – Teste estatística t, coeficientes individuais, D2006 excluída   Coeficientes Erro padrão estatística t valor-P D2005 -6248,74 364,99 -17,12 0,00 D2007 -4204,37 -11,52 D2008 -3519,15 483,59 -7,28 S 2739,72 100,21 27,34 Squad -87,10 9,41 -9,26 Scúb 0,82 0,22 3,70 Vendas = - 6248,74*D2005 - 4204,37*D2007 - 3519,15*D2008 + 2739,72*S - 87,10*S2 + 0,82*S3

vendas soma acumulada da estação Ano Semana vendas soma acumulada da estação 2008 15 20760 16 21394 17 21933 18 22381 19 22744 20 23027 21 23235 22 23372 23 23444 24 23455 25 23411 26 23316 27 23175 28 22994 29 22777 30 22529 Tabela 14.16 – Previsões das vendas na segunda metade da estação de 2008

14.12 Multicolinearidade Na seção 14.5 sobre as suposições básicas, foi colocado a suposição numero 6 de multicolinearidade. Não é permitido relacionamento entre duas ou mais variáveis independentes: cov(Xi,Xj) = 0. O resultado para a análise de regressão da presença de correlação entre variaveis independentes são erros padrão dos coeficientes enviesados com valores altos demais, e portanto a indicação de coeficientes nulos quando na realidade sao significantes e não nulos.

Multicolinearidade - solução As vezes a multicoliniaeridade existe entre variaveis mas ainda nao é um problema nos procedimentos de regressao, principalmente quando as variaveis e os seus coeficientes sao significantes pela estatistica t. A significancia dos coeficientes significa que a multicolinearidade embora existente foi superada pela força da relação entre as variaveis. Por outro lado, multicolinearidade se torna problematica quando a equação é muito fraca, por exemplo quando nao passa pelo teste da estatistica F, ou quando quase todas as variaveis e seus coeficientes sao insignificantes. Nesses casos, é obrigado calcular os coeficientes de correlação entre as variaveis independentes e se tiver valores altos, então ele deve eliminar algumas variaveis ou trabalhar com índices de combinações das variaveis similhantes.

14.14 Referências   Paulino, C. D.; Singer, J.M. (2006). Análise de Dados Categorizados. 1. ed. São Paulo: Edgard Blücher, v. 1. 629 p.   Souza, G.P. Samohyl, R.W., Miranda, R.G. (2008) Métodos Simplificados de Previsão Empresarial, 192 páginas, 1aª edição, Editora Ciência Moderna.