A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

ANÁLISE DE REGRESSÃO UM GUIA PRÁTICO. O QUE É REGRESSÃO? Na análise bidimensional de variáveis, foi introduzida a noção de condicionalidade: a proporção.

Apresentações semelhantes


Apresentação em tema: "ANÁLISE DE REGRESSÃO UM GUIA PRÁTICO. O QUE É REGRESSÃO? Na análise bidimensional de variáveis, foi introduzida a noção de condicionalidade: a proporção."— Transcrição da apresentação:

1 ANÁLISE DE REGRESSÃO UM GUIA PRÁTICO

2 O QUE É REGRESSÃO? Na análise bidimensional de variáveis, foi introduzida a noção de condicionalidade: a proporção da população que fazia parte de um determinado grupo, condicional ao fato de ter uma característica. No exemplo, calculou-se a freqüência de mulheres que são chefes de família dada a informação que trabalham. Regressão é o cálculo do valor esperado de uma variável Y, dado o conjunto de informações fornecido por um conjunto de características X. Ou seja, é a média de Y, condicional às informações de X (E[Y|X]).

3 O MODELO LINEAR DE REGRESSÃO O modelo linear de regressão é a forma utilizada para calcular médias condicionais de uma variável a partir de dados disponíveis sobre variáveis supostamente relacionadas. O modelo assume o seguinte formato: Y = + 1 X X –A variável Y é chamada de variável dependente ou explicada. –As variáveis X 1, X 2, X 3,... são chamadas de explicativas. –O termo é chamado de erro ou distúrbio.

4 HIPÓTESES BÁSICAS: Relacionamento linear entre as variáveis E( ) = 0 E( 2 ) = 2 (constante) Os resíduos são independentes entre si: E( i j ) = 0, i,j = 1, 2, 3... Os resíduos e as variáveis são independentes: E(X ) = 0 As variáveis X n não podem ser combinações lineares entre si

5 O AJUSTE DA REGRESSÃO Graficamente, a análise de regressão implica no ajuste de uma reta que represente de uma boa forma a estrutura dos dados.

6 Mas o que é boa forma de ajuste da reta? Note que a diferença entre a reta ajustada (que é produto do valor esperado condicional) e a observação realizada corresponde ao resíduo. Logo, o ajuste ideal da reta deve respeitar a condição de menor distância possível em relação aos valores observados.

7 Logo, a idéia de ajuste dos parâmetros do valor esperado condicional passa por Minimizar a Soma dos Quadrados dos Resíduos. O estimador de Mínimos Quadrados Ordinários possui propriedades interessantes, quando as hipóteses básicas não são violadas: ele é não- viesado e é o mais eficiente entre os estimadores lineares. O estimador de mínimos quadrados, escrito na forma matricial, é: = (XX) -1 (XY)

8 ESTATÍSTICAS DE AVALIAÇÃO R 2 busca decompor a variação total de Y entre variação prevista e variação não explicada pelo modelo (variação dos resíduos). Fazendo a separação, temos: SQT = SQE + SQR onde SQT = Soma dos quadrados total ( Y-Y) 2 ), SQE = Soma dos quadrados explicada ( Y*-Y) 2 ) e SQR = Soma dos quadrados dos resíduos ( e ), Y é a média de Y e Y* o valor previsto de Y

9 Logo, temos: 1 = (SQE/SQT) + (SQR/SQT) O R 2 busca verificar o quanto de Y foi explicado pelo modelo. Logo: R 2 = SQE/SQT = 1 - (SQR/SQT) Note que, por definição, 0 < R 2 < 1. R 2 ajustado: o problema da estatística de R 2 é o seu comportamento diante do acréscimo de variáveis no modelo. Qualquer variável adicionada, por menor que seja o seu poder de explicação, gera um crescimento no R 2 normal. Logo, o R 2 ajustado busca penalizar a estatística pelo acréscimo de variáveis irrelevantes.

10 ESTATÍSTICAS DOS PARÂMETROS Toda estimativa de mínimos quadrados ordinários gerada de possui média igual ao valor esperado para a população e uma variância constante. Logo, qualquer inferência pode ser feita através da estatística t sobre os seus valores. Para a estimativa conjunta dos parâmetros estimados, é necessário fazer a decomposição da variância, de tal forma que se separe a porção da variação de Y que é explicada pelo conjunto de parâmetros em questão. Tendo como hipótese nula a ausência de influência (por conseqüência, hipótese alternativa é a presença de influência das variáveis), temos:

11 F = [(SQE)/SQR][(n-k-1)/k] onde SQE e SQR foram definidos acima, e n = tamanho da amostra, k = número de coeficientes angulares.

12 ESTIMAÇÃO DE MODELOS: POR QUE USAR O LOGARITMO NATURAL? O logaritmo natural enquanto expressão de taxa média de crescimento: uma variável qualquer no tempo pode ser expressa como uma progressão do seu valor no instante zero Y t = A.e t.g.Y 0. t Aplicando o logaritmo natural em ambos os lados da equação: Ln(Y t ) = (Ln(A) + Ln(Y 0 )) + t.g + t

13 O logaritmo natural como expressão da elasticidade: Ln(Y t ) = A + B Ln(X t ) Ln(Y t ) = B Ln(X t ) Ln(Y t )/ Ln(X t ) = B Mas: Ln(Y t ) = Ln(Y t ) - Ln(Y t-1 ) = Ln(Y t / Y t-1 ) (Y t - Y t-1 )/Y t-1 Então: Ln(Y t )/ Ln(X t ) = [(Y t - Y t-1 )/Y t-1 ]/[(X t - X t-1 )/X t-1 ] = elasticidade = B

14 Exercício Prático: CAPM - calculando o Beta de uma ação

15 VIOLAÇÕES DAS HIPÓTESES - HETEROCEDASTICIDADE Se E( 2 ) 2 (constante) E( 2 ) = 2 i Este problema é conhecido como: heteroscedasticidade Esta violação normalmente é verificada em questões como: –Lucro X Tamanho da empresa: empresas maiores tendem a ter maior dispersão nos seus lucros. –Consumo de um Bem X Renda: pessoas ricas podem escolher melhor a proporção da renda consumida em determinado bem.

16 Exemplo: Relação entre Renda e Gastos com Cartão de Crédito

17 Teste para Detectar Heteroscedasticidade A hipótese nula para qualquer teste é variância constante. Hipótese alternativa é variância inconstante na amostra. Teste de White: É o mais popular dos testes e consiste em efetuar uma regressão dos resíduos elevados ao quadrado contra o as variáveis explicativas usadas na regressão, seus quadrados e os produtos cruzados. A estatística F de significância de todos os parâmetros é o valor do teste. Testes semelhantes, como o de Breush-Pagan, são variações sobre os termos acrescentados na regressão de teste.

18 VIOLAÇÕES DAS HIPÓTESES - AUTOCORRELAÇÃO SERIAL Se E( i j ) 0, para i,j = 1, 2, 3... temos que o valor de um resíduo passa a influenciar os resultados futuros da média condicional estimada para Y. Problema: Autocorrelação Serial Fontes de autocorrelação serial: –Omissão de variável relevante; –Má especificação da forma funcional; –Má especificação dinâmica do modelo.

19 A idéia da autocorrelação serial é que os resíduos contém mais informação sobre a variável dependente do que aquilo que foi filtrado pelas variáveis explicativas. Em termos técnicos, o resíduo ainda pode ser sistematizado. Exemplos de autocorrelação são normalmente encontrados em trabalhos que utilizam séries de tempo como dados de análise.

20 Teste para Detectar Autocorrelação Serial A hipótese nula do teste de autocorrelação é a ausência do problema. Hipótese alternativa, sua presença. Teste de Durbin-Watson: Talvez o mais popular dos testes para detectar o problema, consiste em computar uma soma ponderada dos resíduos, de tal forma que seja possível detectar algum padrão no seu comportamento. Possui o problema de captar apenas a autocorrelação de primeira ordem.

21 Teste de Breush-Godfrey: Teste de certa forma semelhante ao teste de White, consiste em efetuar uma regressão do resíduo como variável explicada tendo como explicativas o próprio resíduo defasado no tempo e as variáveis explicativas do modelo original. Usa-se a estatística F de significância conjunta dos parâmetros da equação de teste. Este teste talvez seja o mais indicado para verificar autocorrelação, pois considera a possibilidade de resíduos correlacionados com valores defasados acima de um período e pode ser usada com variáveis explicativas defasadas.

22 CONSEQÜÊNCIA DAS VIOLAÇÕES DAS HIPÓTESES No caso da heteroscedasticidade, a presença do problema tende a não viesar as estimativas dos parâmetros. Todavia, as suas variâncias estimadas não serão as corretas. Logo, inferências sobre os parâmetros estarão má especificadas. No caso da autocorrelação serial, além do problema da variância, temos a possibilidade de viés nas estimativas se o problema for decorrente de ausência de variáveis relevantes no modelo.

23 QUEBRAS ESTRUTURAIS E VARIÁVEIS DUMMIES Algumas vezes queremos incluir no modelo de regressão variáveis qualitativas ou categóricas, como planos econômicos, região, etc... Inclusive porque fenômenos pouco usuais podem determinar viés nas estimativas se não forem controlados. Este tipo de fenômeno é conhecido na literatura como quebra estrutural. Para controlar este tipo de fenômeno e modelar as variáveis qualitativas, são utilizadas variáveis binárias, ou dummies

24 As variáveis recebem este nome por assumirem apenas dois valores ao longo de toda a amostra: zero ou um. O funcionamento da variável é o seguinte: –Período sem a quebra: D = 0 Y t = D X t + t Portanto: Y t = X t + t –Período da quebra: D = 1 Y t = ( X t + t

25 Outro formato possível que a variável dummy pode assumir refere-se a mudanças na inclinação. A variável, assim, assume o valor zero para o período sem a mudança e o valor igual ao da variável cuja inclinação mudou para o período com mudança. O modelo passa a funcionar da seguinte forma: –Período sem a quebra: D = 0 Y t = X t X t + t Portanto: Y t = X t + t –Período da quebra: D = X t Y t = X t + t

26 Exemplo de Quebra Estrutural: Demanda por Importações - Brasil

27 Uma função de demanda por importações assume o seguinte formato: lnM t = + 1 t + 2 lnY t + 3 lnRER t + t onde: M t = importações; t = tendência linear; Y t = PIB real; RER t = taxa de câmbio real. O uso de uma tendência justifica-se por não existir com freqüência mensal uma medida de utilização da capacidade instalada da economia. Todas as variáveis, pelos motivos já conhecidos, encontram-se transformadas para o seu logaritmo natural. Estimando-se a regressão por OLS, temos o seguinte gráfico dos resíduos:

28 Resíduos: Modelo para demanda por importações - Brasil

29 Note como o resíduo exibe, aparentemente, um padrão sazonal, além de uma quebra estrutural localizada no início dos anos 90. Como o resíduo corresponde a tudo aquilo que não foi explicado pelo modelo, temos aqui o problema de especificação por não termos considerado a quebra estrutural indicado pela mudança de tendência dos resíduos. Lembre-se: devem existir motivos relevantes para a quebra!!! A presença de outliers por si só não quer dizer que existam quebras. No nosso caso, devemos lembrar a mudança ocorrida na economia com a sua abertura comercial no início dos anos 90. Logo, justifica-se uma correção no modelo.


Carregar ppt "ANÁLISE DE REGRESSÃO UM GUIA PRÁTICO. O QUE É REGRESSÃO? Na análise bidimensional de variáveis, foi introduzida a noção de condicionalidade: a proporção."

Apresentações semelhantes


Anúncios Google