Econometria Propriedades assintóticas dos estimadores MQO

Name: Econometria Propriedades assintóticas dos estimadores MQO
Uploaded: 2017-10-18T15:26:14+00:00
Duration: PTM36S39
Channel: Manoela Napoles
Description: Econometria Propriedades assintóticas dos estimadores MQO

Econometria Propriedades assintóticas dos estimadores MQO
Inferência para grandes amostras Teste de Wald e LM

Econometria Multicolinearidade
Testes de hipóteses no modelo de regressão linear Propriedades assintóticas dos estimadores MQO

Propriedades assintóticas
O número de resultados estatísticos exatos, tais como o valor esperado ou a distribuição verdadeira, em muitos modelos é baixo. Usualmente, utilizamos resultados aproximados com base no que se sabe do comportamento de determinadas estatísticas de grandes amostras.

Convergência Definições, tipos de convergência quando n cresce:
1. Para uma constante; exemplo, a média amostral, 2. Para uma variável aleatória; exemplo, uma estatística t com n -1 graus de liberdade.

Convergência para uma constante
Convergência de uma variável aleatória O que significa uma variável aleatória convergir para uma constante? Convergência da variância para zero. A variável aleatória converge para algo que não é aleatório.

Resultados de convergência
Convergência de uma sequência de variáveis aleatórias para uma constante A média converge para uma constante e a variância converge para zero. Teorema de convergência para momentos amostrais. Momentos amostrais convergem em probabilidade para seus análogos populacionais. (1/n)Σig(zi) converge para E[g(zi)].

Convergência em probabilidade
A probabilidade que a diferença entre xn e c seja maior do que ε para qualquer ε vai para zero. Ou seja, xn fica perto de c.

Convergência em probabilidade
Convergência em probabilidade significa que os valores das variáveis que não estão próximos de c ficam cada vez mais improváveis à medida que o n cresce. Exemplo: Suponha uma variável aleatória xn que assume dois valores, zero e n, com probabilidades (1-1/n) e (1/n), respectivamente. Quando n aumenta , o segundo valor é menos provável. Xn converge em probabilidade para zero. Toda a massa da distribuição de probabilidade fica concentrada em pontos próximos de c.

Convergência em Média Quadrática
Se xn tem média μn e variância σ2 tal que os limites ordinários de μn e σ2 são c e 0, respectivamente, xn converge em “média quadrática“ para c, e

Convergência em Média Quadrática
Convergência em probabilidade não implica convergência em média quadrática!!! Exemplo dado: calcular o valor esperado: o valor esperado é igual a 1 para qualquer n. As condições para a convergência em média são mais fáceis de verificar do que a forma geral de convergência em probabilidade. Utilizaremos quase sempre convergência em média.

Consistência de um estimador
Se a variável aleatória, xn é um estimador (por exemplo, a média), e se: plim xn = θ xn é um estimador consistente de θ.

Teorema de Slutsky Se xn é uma variável aleatória tal que plim xn = θ.
Onde θ é uma constante. g(.) é uma função contínua. g(.) não é função de n. Conclusão: plim[g(xn)] = g[plim(xn)] e g[plim(xn)] existe. Limite de probabilidade não necessariamente funciona para esperanças.

Corolários Slutsky

Resultados de Slutsky para Matrizes
Funções de matrizes são funções contínuas de elementos das matrizes. Se plimAn = A e plimBn = B (elemento a elemento), Plim(An-1) = [plim An]-1 = A-1 e plim(AnBn) = plimAnplim Bn = AB

Distribuições limites
Convergência para um tipo de VA e não para uma constante xn é uma sequência de VA com Fn(xn). Se plim xn = θ (constante), Fn(xn) será um ponto. Mas, Fn pode convergir para uma variável aleatória específica. A distribuição desta VA será a distribuição limite de xn.

Teorema de Slutsky para Variáveis Aleatórias
Se , e se g(Xn) é uma função continua com derivadas contínuas e que não depende de n, temos que : Exemplo: t-student converge para uma normal padrão. Quadrado de uma t-student converge para uma qui-quadrada.

Uma extensão do Teorema de Slutsky
Se (Xn tem uma distribuição limite) e θ é uma constante tal que (gn tem uma distribuição limite que é função de θ), e temos que: Ou seja, substituir o θ por um estimador consistente leva a mesma distribuição limite.

Aplicação do Teorema de Slutsky
Comportamento da estatística F para testar restrições em grandes amostras:

Teorema do Limite Central
Descreve o comportamento de uma variável aleatória que envolve soma de variáveis “Tendência para a normalidade.” A média de uma amostra aleatória de qualquer população (com variância finita), quando padronizada, tem uma distribuição normal padrão assintótica.

Teorema Lindeberg-Levy (versão simples do TLC): Se x1, x2, … , xn é uma amostra aleatória de uma população cuja distribuição de probabilidade tem média μ e variância finita igual a σ2 e temos que:

Teorema Lindeberg-Feller : Suponha que é uma sequência de variáveis aleatórias independentes com média μi e variâncias positivas finitas σ2i

Lindberg-Levy vs. Lindeberg-Feller
Lindeberg-Levy assume amostra aleatória – observações possuem as mesmas média e variância. Lindeberg-Feller – a variância pode ser diferente entre as observações, apenas com hipóteses de como elas variam. Soma de variáveis aleatórias, independente da sua distribuição, tenderão a ser normalmente distribuídas. E, mais, Lindeberg-Feller não requere que as variáveis na soma venham da mesma distribuição de probabilidade. Estimadores em econometria – uso da versão Lindeberg-Feller do TLC.

Distribuição assintótica
Uma distribuição assintótica é uma distribuição usada para a aproximar a verdadeira distribuição de amostra finita de uma variável aleatória. Construída a partir da distribuição limite da função de uma variável aleatória. Se é assintoticamente normalmente distribuído com média μ e variância σ2/n.

Eficiência assintótica
Comparação de variâncias assintóticas Como comparamos estimadores consistentes? Se convergem para constante, ambas variâncias vão para zero. Eficiência assintótica: Um estimador é assintoticamente normal, este estimador é eficiente assintoticamente se a matriz de covariância de qq outro estimador consistente e assintoticamente normal exceder (1/n)V por uma matriz definida não negativa.

Exemplo: Amostra aleatória de uma distribuição normal, A média amostral é assintoticamente normal com [μ,σ2/n] Mediana é assintoticamente normal com [μ,(π/2)σ2/n] Média é assintoticamente mais eficiente.

Propriedades assintóticas do EMQ
A hipótese de normalidade não é necessária para derivarmos as propriedades assintóticas. Hipóteses: Convergência de XX/n para uma matriz Q positiva definida. Convergência de X’/n para 0. Suficiente para a consistência. Hipóteses: Convergência de (1/n)X’ para um vetor com distribuição normal – normalidade assintótica.

EMQ EMQ pode ser escrito da seguinte forma: (XX)-1Xy = (XX)-1ixiyi
=  + (XX)-1ixiεi Um vetor de constantes mais um vetor de variáveis aleatórias. Os resultados para a amostra finita são estabelecidos conforme regras estatísticas para esta soma. Como esta soma de variáveis se comporta em grandes amostras?

Limite de probabilidade

Convergência em média quadrática
E[b|X]=β para qualquer X. Var[b|X]0 para um X específico b converge para β b é consistente

A inversa é uma função contínua da matriz original. Este plim deverá ser zero

Devemos encontrar o plim do último termo: Para isto, devemos formular algumas hipóteses.

Hipótese crucial do modelo
O que devemos assumir para que plim(1/nX’ε)=0? xi = vetor aleatório com média e variâncias finitas e com distribuições idênticas. εi = variável aleatória com uma distribuição constante com média e variância finitas e E(εi)=0 xi e εi são estatisticamente independentes. wi = xiεi = uma observação em uma amostra aleatória, com matriz de covariância constante e o vetor de média igual a zero. converge para sua esperança.

Pela hipótese de exogeneidade e pela lei das expectativas iteradas:

Pela decomposição da variância:

EMQ é consistente!!

O comportamento limite de b é o mesmo da estatística resultante da substituição da matriz de momentos pelo seu limite. Examinamos o comportamento da seguinte soma modificada:

Resultados Assintóticos
Qual a média desta variável aleatória? Qual sua variância? Esta soma converge para algo? Podemos achar o limite de probabilidade. Qual a distribuição assintótica?

b  β em probabilidade. Como descrever esta distribuição? Não tem uma distribuição limite Variância b  0 Como estabilizar a variância? Var[n b] ~ σ2Q-1 Mas, E[n b]= n β que diverge n (b - β)  é uma variável aleatória com média e variância finitas (transformação que estabiliza) b aproximadamente β +1/ n vezes a variável aleatória.

Distribuição limite n (b - β) = n (X’X)-1X’ε = (X’X/n)-1(X’ε/  n)
No limite, isto é igual a (plim): Q-1(X’ε/ n) Q é uma matriz positiva definida. Comportamento depende da variável aleatória (X’ε/ n)

Distribuição no limite: Normal

Consistência de s2

Um estimador é assintoticamente eficiente se é consistente, assintoticamente normalmente distribuído, e tem uma matriz de covariância que não é maior que uma matriz de covariância de qualquer outro estimador consistente e com distribuição assintótica normal.

Econometria Propriedades assintóticas dos estimadores MQO (continuação) Inferência – grandes amostras

Estatísticas de testes
Como estabelecemos a distribuição assintótica de b, podemos construir estatísticas de testes. Baseamos os testes na estatística de Wald. F[J,n-K] = (1/J)(Rb - q)’[R s2(XX)-1R]-1(Rb - q) Esta é a estatística de teste usual para testar hipóteses lineares no modelo de regressão linear, seguindo uma distribuição F exata se os erros são normalmente distribuídos. Qual o resultado mais geral? Quando não se assume normalidade.

Estatística de Wald Abordagem geral considerando uma distribuição univariada Quadrado de uma variável normal padrão  qui-quadrada com 1 grau de liberdade. Suponha z ~ N[0,2] , desta forma (z/)2 é uma qui-quadrada com 1 gl. Suponha z~N[,2]. [(z - )/]2 é uma qui-quadrada com 1 gl. Esta é a distância normalizada entre z e , onde a distância é medida em unidades de desvios padrão. Suponha zn não é exatamente normalmente distribuída, mas (1) E[zn] = , (2) Var[zn] = 2, (3) a distribuição limite de zn é normal. (zn - )/  N[0,1], que é uma distribuição limite , não é uma distribuição exata em uma amostra finita.

Extensões Logo: n2 = [(zn - )/]2  {N[0,1]}2, ou 2[1].
Novamente, uma distribuição limite, não é uma distribuição exata. Suponha  desconhecido, e substituímos  por um estimador consistente para , ou seja sn, tal que plim sn = . O que acontece com este “análogo empírico”? tn = [(zn - )/sn]? Como plim sn = , o comportamento desta estatística em uma grande amostra será igual ao comportamento da estatística original usando  ao invés de sn. tn2 = [(zn - )/sn]2 converge para uma qui-quadrada[1]. tn e n convergem para a mesma variável aleatória.

Forma Quadrática Se um vetor aleatório x (dimensão k) tem uma distribuição normal multivariada com vetor de média igual a  e matriz covariância igual a , a variável aleatória W = (x - )-1(x - ) tem uma distribuição qui-quadrada com K graus de liberdade..

Prova 1/2 é uma matriz tal que:
1/2  1/2 = . Logo, V = (1/2)-1 é a inversa da raiz quadrada, tal que V  V = -1/2 -1/2 = -1. Se z = (x - ). O z tem média 0, matriz covariância , e distribuição normal. O vetor aleatório w = Vz tem média V0 = 0 e matriz covariância VV = I. w tem uma distribuição normal com´média 0 e matriz covariância I. ww = kwk2 onde cada elemento é o quadrado de uma normal padrão, logo uma qui-quadrada(1). A soma de qui-quadradas é igual a uma qui-quadrada, logo: ww = (x - ) -1(x - ).

Construindo a estatística de teste Wald
Suponha que a hipótese de normalidade permanece, mas ao invés de termos a matriz de parâmetros  usamos a matriz Sn que é consistente (plim Sn = ). O resultado exato da qui-quadrada não se aplica, mas a distribuição limite é a mesma se usarmos .

Estatística de Wald Suponha que a estatística é construída com um x que não tem uma distribuição normal exata, mas com xn que tem distribuição normal limite. (xn - ) Sn-1(xn - )  2[K] Nada depende da distribuição normal. Usamos a consistência de (Sn) e TLC para xn.

Resultado geral para a distância de Wald
Medida de distância de Wald: Se plim xn = , xn é assintoticamente normalmente distribuído com média  e variância , e se Sn é um estimador consistente para , a estatística de Wald, que é uma medida de distância generalizada converge para uma qui-quadrada (xn - ) Sn-1(xn - )  2[K]

A estatística F H0: R - q = 0
F[J, n-K] = [(e*’e* - e’e)/J] / [e’e / (n-K)] F[J,n-K] = (1/J)  (Rbn - q)[R s2(XX)-1 R’]-1 (Rbn - q). Onde m = (Rbn - q). Sob Ho, plim m=0. n m  N[0, R(2/n)Q-1R’] Var estimada : R(s2/n)(X’X/n)-1R’] (n m )’ [Est.Var(n m)]-1 (n m ) Se plim bn = , plim s2 = 2, JF[J,n-K]  2[J].

Distância de Wald Teste mais geral sobre um único parâmetro.
Estimativa amostral: bk Valor hipotético: βk O quão distante βk está de bk? Se muito longe, a hipótese é inconsistente com a evidência amostral. Medida de distância em unidades de desvios-padrão: t = (bk - βk)/estimativa de vk. Se t is “grande” (maior que o valor crítico), rejeitamos a hipótese.

Estatística de Wald Na maioria dos testes são utilizadas medidas de distâncias de Wald. W=(vetor aleatório-valor hipotético)’(variância da diferença)-1(vetor aleatório-valor hipotético) W= medida de distância normalizada A distância deve ser normalmente distribuída A matriz de covariância é a verdadeira e não a estimada.

Teste de Robustez O teste de Wald geralmente será (quando devidamente construído)mais robusto que o teste t e F Razão: Baseado nos estimadores robustos da variância e nos resultados assintóticos.

Teste de hipótese: caso geral H0: R - q = 0 (J restrições lineares)
Duas abordagens (1) Rb - q está perto de 0? Defina: m = Rb - q. Usando o critério de Wald: Critério de Wald: m(Var[m])-1m tem uma distribuição qui-quadrada com J graus de liberdade Mas, Var[m] = R[2(X’X)-1]R. Se usarmos a estimativa de 2, teremos uma F[J,n-K]. (ee/(n-K) é a estimativa de 2.) (2) Quando impomos uma restrição, o ajuste do modelo é reduzido. R2 necessariamente irá diminuir. Será que diminui muito? (I.e., de forma significativa?). R2 = modelo irrestrito, R*2 = modelo restrito. F = { (R2 - R*2)/J } / [(1 - R2)/(n-K)] = F[J,n-K]. No modelo linear, estas duas abordagens são iguais.

Estatística do Multiplicador de Lagrange
Lembrando do MQO restrito, o multiplicador de lagrange é igual a:  = [R(XX)-1R]-1 (Rb – q)= = [R(XX)-1R]-1 m. Suponha que queremos testar H0:  = 0, usando o critério de Wald. A estatística de teste será JF

Aplicação LogG = 1 + 2logY + 3logPG
+ 4logPNC + 5logPUC + 6logPPT + 7logPN + 8logPD + 9logPS +  Período = Um evento importante ocorreu em Queremos saber se o modelo de 1960 a 1973 é o mesmo de 1974 a Todos os coeficientes do modelo são elasticidades.

Modelo completo Ordinary least squares regression LHS=LG Mean = Standard deviation = Number of observs. = Model size Parameters = Degrees of freedom = Residuals Sum of squares = <******* Standard error of e = <******* Fit R-squared = <******* Adjusted R-squared = <******* Variable| Coefficient Standard Error t-ratio P[|T|>t] Mean of X Constant| *** LY| *** LPG| *** LPNC| LPUC| * LPPT| LPN| *** LPD| *** LPS| ***

Testando um parâmetro O preço do transporte público é importante? H0 : 6 = 0. IC: b6  t(.95,27)  erro padrão =  2.052(.07859) =  = ( ,.27698) Contém 0, logo não rejeito a hipótese Medida de distância: (b6 - 0) / sb6 = ( ) / = < O ajuste cai se eliminamos? Sem LPPT, R-quadrado = Compare R2, , F(1,27) = [( )/1]/[( )/(36-9)] = =

Teste de hipóteses: Soma de coeficientes
Será que as elasticidades preço agregadas somam zero? H0 :β7 + β8 + β9 = 0 R = [0, 0, 0, 0, 0, 0, 1, 1, 1], q = [0] Variable| Coefficient Standard Error t-ratio P[|T|>t] Mean of X LPN| *** LPD| *** LPS| ***

Teste Wald O valor crítico da qui-quadrada com 1 grau de liberdade é 3,84, logo a hipótese nula é rejeitada.

Impondo uma restrição Linearly restricted regression LHS=LG Mean = Standard deviation = Number of observs. = Model size Parameters = <*** 9 – 1 restriction Degrees of freedom = Residuals Sum of squares = <*** With the restriction Residuals Sum of squares = <*** Without the restriction Fit R-squared = Restrictns. F[ 1, 27] (prob) = 8.5(.01) Not using OLS or no constant.R2 & F may be < 0 Variable| Coefficient Standard Error t-ratio P[|T|>t] Mean of X Constant| *** LY| *** LPG| *** LPNC| *** LPUC| LPPT| *** LPN| *** LPD| LPS| *** F = [( )/1] / [ /(36 – 9)] =

Hipóteses conjuntas Hipóteses conjuntas: elasticidade renda = +1, elasticidade preço = -1. A hipótese implica que logG = β1 + logY – logPg + β4 logPNC + ... Estratégia: regrida logG – logY + logPg nas outras variáveis e compare a soma quadrado dos resíduos. Com as duas restrições SQR = R-quadrado = Irrestrito SQR = R-quadrado = F = (( )/2) / ( /(36-9)) = O valor crítico para a F com 95% com 2,27 gl é A hipótese nula é rejeitada. Os resultados são consistentes?? O R2 realmente aumenta com as restrições?

Baseando o teste no R2 F = (( )/2)/(( )/(36-9)) = (!) O que está errado?

Econometria Propriedades assintóticas dos estimadores MQO

Apresentações semelhantes

Apresentação em tema: "Econometria Propriedades assintóticas dos estimadores MQO"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Econometria Propriedades assintóticas dos estimadores MQO

Apresentações semelhantes

Apresentação em tema: "Econometria Propriedades assintóticas dos estimadores MQO"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback