ANÁLISE DE REGRESSÃO UM GUIA PRÁTICO.

Slides:



Advertisements
Apresentações semelhantes
Correlação e Regressão
Advertisements

DISTRIBUIÇÕES AMOSTRAIS
Estatística amintas paiva afonso.
Prof. Darlan Marcelo Delgado
ANÁLISES DE REGRESSÃO.
Analise de Regressão Parte 2.
Análise de Variância da Regressão
MÉTODOS QUANTITATIVOS
ANÁLISE DISCRIMINANTE
REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por.
DERIVADAS E DIFERENCIAIS
Modelos de Regressão Múltipla.
Geoestatística Aplicada à Agricultura de Precisão II
MB751 – Modelos de previsão
ANÁLISE DE SÉRIES DE TEMPO
EXERCÍCIO DE SÉRIES DE TEMPO E REGRESSÃO: DEMANDA POR IMPORTAÇÕES
Rejane Sobrino Pinheiro Tania Guillén de Torres
Diagramas de dispersão
Danielle Carusi Machado - UFF - Econometria 2/2010
Estabilidade e Estacionariedade em Séries Temporais
II Encontro Nacional de produtores e usuários de informações sociais, econômicas e territoriais Reinaldo Castro Souza, IEPUC, PUC-Rio Co-autores: Sheila.
Tópicos em Gestão de Serviços – Regressão Linear
Laís Araújo Lopes de Souza
Modelos de regressão Cláudio Monteiro
Aula 10. Regressão Linear Múltipla.
Estatística e Probabilidade
Estatística e Probabilidade
Introdução ao Stata 7 de junho de 2013
Site: Estatística Prof. Edson Nemer Site:
MBA em Gestão de Empreendimentos Turísticos
Regressão Múltipla Profas: Gardênia da Silva Abbad Elaine Rabelo Neiva
Aula 6 - Método não-experimental ou de seleção não-aleatória
Professor Antonio Carlos Coelho
Violação dos pressupostos do modelo de regressão : Autocorrelação
Professores André Fernando André Cavalieri
Formas de calibração 1º - Padrões externos É a forma mais utilizada de calibração. São utilizadas soluções contendo concentrações conhecidas do analito.
Interpolação e Ajuste de Curvas
2.3 Experimentos Fatoriais 22 Efeitos das Interações
Múltipla Variáveis Binárias Relações Não-Lineares
Modelagem Estatística
Professor Antonio Carlos Coelho
Formas funcionais e mudança estrutural
Regressão e Previsão Numérica.
Revisão Premissa: seja y e x duas variáveis representando alguma população, deseja-se explicar y em termos de x. Ex: y=salário hora e x=anos de escolaridade.
análise dos estimadores
Ajuste de regressão 13 de abril de 2015
7 Ajuste de Curvas UFSC.PósMCI.FME.Ajuste de curvas. (11.1)
Regressão.
Ajuste do Modelo Avaliação dos Coeficientes
Regressão Linear Múltipla
Multicolinearidade.
Econometria Heterocedasticidade Consequências da violação
Econometria Avançada Prof. Alexandre Gori Maia
Descrição Bivariada Comparando Duas Distribuições
Estatística e Probabilidade
Aula 12 - Relaxando as hipóteses do MCRL
Regressão Linear Simples
Correlação e regressão
AULA 3 – O Modelo de Regressão Simples
Logística Empresarial
Regressão linear simples
Regressão linear simples
Econometria Félix Bernardo. Econometria “a Econometria procura fornecer uma base empírica para o estudo de relações entre variáveis económicas (ou, em.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
1. C.Dougherty “Introduction to Econometrics” 2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição.
AULA 11 – REGRESSÃO Parte I
Regressão Linear (aula 14 – Parte 2).
Fernando NogueiraModelos de Previsão1. Fernando NogueiraModelos de Previsão2 Introdução A maioria dos métodos de previsão estatística é baseada na utilização.
Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.
ANÁLISE DE REGRESSÃO UM GUIA PRÁTICO. O QUE É “REGRESSÃO”? Na análise bidimensional de variáveis, foi introduzida a noção de condicionalidade: a proporção.
Transcrição da apresentação:

ANÁLISE DE REGRESSÃO UM GUIA PRÁTICO

O QUE É “REGRESSÃO”? Na análise bidimensional de variáveis, foi introduzida a noção de condicionalidade: a proporção da população que fazia parte de um determinado grupo, condicional ao fato de ter uma característica. No exemplo, calculou-se a freqüência de mulheres que são chefes de família dada a informação que trabalham. “Regressão” é o cálculo do valor esperado de uma variável Y, dado o conjunto de informações fornecido por um conjunto de características X. Ou seja, é a média de Y, condicional às informações de X (E[Y|X]).

O MODELO LINEAR DE REGRESSÃO O modelo linear de regressão é a forma utilizada para calcular médias condicionais de uma variável a partir de dados disponíveis sobre variáveis supostamente relacionadas. O modelo assume o seguinte formato: Y =  + b1X1 + 2X2 + ... +  A variável Y é chamada de variável dependente ou explicada. As variáveis X1, X2, X3, ... são chamadas de explicativas. O termo  é chamado de erro ou distúrbio.

HIPÓTESES BÁSICAS: Relacionamento linear entre as variáveis E() = 0 E(2) = 2 (constante) Os resíduos são independentes entre si: E(i j) = 0, i,j = 1, 2, 3... Os resíduos e as variáveis são independentes: E(X) = 0 As variáveis Xn não podem ser combinações lineares entre si

O AJUSTE DA REGRESSÃO Graficamente, a análise de regressão implica no ajuste de uma reta que represente de uma “boa forma” a estrutura dos dados.

Mas o que é “boa forma” de ajuste da reta? Note que a diferença entre a reta ajustada (que é produto do valor esperado condicional) e a observação realizada corresponde ao resíduo. Logo, o ajuste ideal da reta deve respeitar a condição de “menor distância possível” em relação aos valores observados.

Logo, a idéia de ajuste dos parâmetros do valor esperado condicional passa por “Minimizar a Soma dos Quadrados dos Resíduos”. O estimador de Mínimos Quadrados Ordinários possui propriedades interessantes, quando as hipóteses básicas não são violadas: ele é não-viesado e é o mais eficiente entre os estimadores lineares. O estimador de mínimos quadrados, escrito na forma matricial, é:  = (X’X)-1(X’Y)

ESTATÍSTICAS DE AVALIAÇÃO R2  busca decompor a variação total de Y entre variação prevista e variação não explicada pelo modelo (variação dos resíduos). Fazendo a separação, temos: SQT = SQE + SQR onde SQT = Soma dos quadrados total (S(Y-Y)2), SQE = Soma dos quadrados explicada (S(Y*-Y)2) e SQR = Soma dos quadrados dos resíduos (Se2), Y é a média de Y e Y* o valor previsto de Y

1 = (SQE/SQT) + (SQR/SQT) Logo, temos: 1 = (SQE/SQT) + (SQR/SQT) O R2 busca verificar o quanto de Y foi explicado pelo modelo. Logo: R2 = SQE/SQT = 1 - (SQR/SQT) Note que, por definição, 0 < R2 < 1. R2 ajustado: o problema da estatística de R2 é o seu comportamento diante do acréscimo de variáveis no modelo. Qualquer variável adicionada, por menor que seja o seu poder de explicação, gera um crescimento no R2 normal. Logo, o R2 ajustado busca penalizar a estatística pelo acréscimo de variáveis irrelevantes.

ESTATÍSTICAS DOS PARÂMETROS Toda estimativa de mínimos quadrados ordinários gerada de b possui média igual ao valor esperado para a população e uma variância constante. Logo, qualquer inferência pode ser feita através da estatística “t” sobre os seus valores. Para a estimativa conjunta dos parâmetros estimados, é necessário fazer a decomposição da variância, de tal forma que se separe a porção da variação de Y que é explicada pelo conjunto de parâmetros em questão. Tendo como hipótese nula a ausência de influência (por conseqüência, hipótese alternativa é a presença de influência das variáveis), temos:

F = [(SQE)/SQR][(n-k-1)/k] onde SQE e SQR foram definidos acima, e n = tamanho da amostra, k = número de coeficientes angulares.

ESTIMAÇÃO DE MODELOS: POR QUE USAR O LOGARITMO NATURAL? O logaritmo natural enquanto expressão de taxa média de crescimento: uma variável qualquer no tempo pode ser expressa como uma progressão do seu valor no instante “zero” Yt = A.et.g.Y0.t Aplicando o logaritmo natural em ambos os lados da equação: Ln(Yt) = (Ln(A) + Ln(Y0)) + t.g + t

Ln(Yt)/Ln(Xt) = [(Yt - Yt-1)/Yt-1]/[(Xt - Xt-1)/Xt-1] O logaritmo natural como expressão da elasticidade: Ln(Yt) = A + B Ln(Xt) Ln(Yt) = B Ln(Xt) Ln(Yt)/Ln(Xt) = B Mas: Ln(Yt) = Ln(Yt) - Ln(Yt-1) = Ln(Yt / Yt-1)  (Yt - Yt-1)/Yt-1 Então: Ln(Yt)/Ln(Xt) = [(Yt - Yt-1)/Yt-1]/[(Xt - Xt-1)/Xt-1] = elasticidade = B

CAPM - calculando o Beta de uma ação Exercício Prático: CAPM - calculando o Beta de uma ação

VIOLAÇÕES DAS HIPÓTESES - HETEROCEDASTICIDADE Se E(2)  2 (constante)  E(2) = 2i Este problema é conhecido como: heteroscedasticidade Esta violação normalmente é verificada em questões como: Lucro X Tamanho da empresa: empresas maiores tendem a ter maior dispersão nos seus lucros. Consumo de um Bem X Renda: pessoas ricas podem escolher melhor a proporção da renda consumida em determinado bem.

Exemplo: Relação entre Renda e Gastos com Cartão de Crédito

Teste para Detectar Heteroscedasticidade A hipótese nula para qualquer teste é variância constante. Hipótese alternativa é variância inconstante na amostra. Teste de White: É o mais popular dos testes e consiste em efetuar uma regressão dos resíduos elevados ao quadrado contra o as variáveis explicativas usadas na regressão, seus quadrados e os produtos cruzados. A estatística “F” de significância de todos os parâmetros é o valor do teste. Testes semelhantes, como o de Breush-Pagan, são variações sobre os termos acrescentados na regressão de teste.

VIOLAÇÕES DAS HIPÓTESES - AUTOCORRELAÇÃO SERIAL Se E(i j)  0, para i,j = 1, 2, 3... temos que o valor de um resíduo passa a influenciar os resultados futuros da média condicional estimada para Y. Problema: Autocorrelação Serial Fontes de autocorrelação serial: Omissão de variável relevante; Má especificação da forma funcional; Má especificação dinâmica do modelo.

A idéia da autocorrelação serial é que os resíduos contém mais informação sobre a variável dependente do que aquilo que foi “filtrado” pelas variáveis explicativas. Em termos técnicos, o resíduo ainda pode ser sistematizado. Exemplos de autocorrelação são normalmente encontrados em trabalhos que utilizam séries de tempo como dados de análise.

Teste para Detectar Autocorrelação Serial A hipótese nula do teste de autocorrelação é a ausência do problema. Hipótese alternativa, sua presença. Teste de Durbin-Watson: Talvez o mais popular dos testes para detectar o problema, consiste em computar uma soma ponderada dos resíduos, de tal forma que seja possível detectar algum padrão no seu comportamento. Possui o problema de captar apenas a autocorrelação de primeira ordem.

Teste de Breush-Godfrey: Teste de certa forma semelhante ao teste de White, consiste em efetuar uma regressão do resíduo como variável explicada tendo como explicativas o próprio resíduo defasado no tempo e as variáveis explicativas do modelo original. Usa-se a estatística “F” de significância conjunta dos parâmetros da equação de teste. Este teste talvez seja o mais indicado para verificar autocorrelação, pois considera a possibilidade de resíduos correlacionados com valores defasados acima de um período e pode ser usada com variáveis explicativas defasadas.

CONSEQÜÊNCIA DAS VIOLAÇÕES DAS HIPÓTESES No caso da heteroscedasticidade, a presença do problema tende a não viesar as estimativas dos parâmetros. Todavia, as suas variâncias estimadas não serão as corretas. Logo, inferências sobre os parâmetros estarão má especificadas. No caso da autocorrelação serial, além do problema da variância, temos a possibilidade de viés nas estimativas se o problema for decorrente de ausência de variáveis relevantes no modelo.

QUEBRAS ESTRUTURAIS E VARIÁVEIS “DUMMIES” Algumas vezes queremos incluir no modelo de regressão variáveis qualitativas ou categóricas, como planos econômicos, região, etc... Inclusive porque fenômenos pouco usuais podem determinar viés nas estimativas se não forem controlados. Este tipo de fenômeno é conhecido na literatura como “quebra estrutural”. Para controlar este tipo de fenômeno e modelar as variáveis qualitativas, são utilizadas variáveis binárias, ou “dummies”

As variáveis recebem este nome por assumirem apenas dois valores ao longo de toda a amostra: zero ou um. O funcionamento da variável é o seguinte: Período sem a quebra: D = 0 Yt = a + dD + bXt + et Portanto: Yt = a + bXt + et Período da quebra: D = 1 Yt = (a + d) + bXt + et

Outro formato possível que a variável “dummy” pode assumir refere-se a mudanças na inclinação. A variável, assim, assume o valor zero para o período sem a mudança e o valor igual ao da variável cuja inclinação mudou para o período com mudança. O modelo passa a funcionar da seguinte forma: Período sem a quebra: D = 0 Yt = a + dXt + bXt + et Portanto: Yt = a + bXt + et Período da quebra: D = Xt Yt = a + (b + d)Xt + et

Exemplo de Quebra Estrutural: Demanda por Importações - Brasil 1980 - 2001

lnMt = a + b1t + b2lnYt + b3lnRERt + et Uma função de demanda por importações assume o seguinte formato: lnMt = a + b1t + b2lnYt + b3lnRERt + et onde: Mt = importações; t = tendência linear; Yt = PIB real; RERt = taxa de câmbio real. O uso de uma tendência justifica-se por não existir com freqüência mensal uma medida de utilização da capacidade instalada da economia. Todas as variáveis, pelos motivos já conhecidos, encontram-se transformadas para o seu logaritmo natural. Estimando-se a regressão por OLS, temos o seguinte gráfico dos resíduos:

Resíduos: Modelo para demanda por importações - Brasil

Note como o resíduo exibe, aparentemente, um padrão sazonal, além de uma quebra estrutural localizada no início dos anos 90. Como o resíduo corresponde a tudo aquilo que não foi explicado pelo modelo, temos aqui o problema de especificação por não termos considerado a quebra estrutural indicado pela mudança de tendência dos resíduos. Lembre-se: devem existir motivos relevantes para a quebra!!! A presença de “outliers” por si só não quer dizer que existam quebras. No nosso caso, devemos lembrar a mudança ocorrida na economia com a sua abertura comercial no início dos anos 90. Logo, justifica-se uma correção no modelo.