Carregar apresentação
PublicouManoela Napoles Alterado mais de 10 anos atrás
1
Econometria Propriedades assintóticas dos estimadores MQO
Inferência para grandes amostras Teste de Wald e LM
2
Econometria Multicolinearidade
Testes de hipóteses no modelo de regressão linear Propriedades assintóticas dos estimadores MQO
3
Propriedades assintóticas
O número de resultados estatísticos exatos, tais como o valor esperado ou a distribuição verdadeira, em muitos modelos é baixo. Usualmente, utilizamos resultados aproximados com base no que se sabe do comportamento de determinadas estatísticas de grandes amostras.
4
Convergência Definições, tipos de convergência quando n cresce:
1. Para uma constante; exemplo, a média amostral, 2. Para uma variável aleatória; exemplo, uma estatística t com n -1 graus de liberdade.
5
Convergência para uma constante
Convergência de uma variável aleatória O que significa uma variável aleatória convergir para uma constante? Convergência da variância para zero. A variável aleatória converge para algo que não é aleatório.
6
Resultados de convergência
Convergência de uma sequência de variáveis aleatórias para uma constante A média converge para uma constante e a variância converge para zero. Teorema de convergência para momentos amostrais. Momentos amostrais convergem em probabilidade para seus análogos populacionais. (1/n)Σig(zi) converge para E[g(zi)].
7
Convergência em probabilidade
A probabilidade que a diferença entre xn e c seja maior do que ε para qualquer ε vai para zero. Ou seja, xn fica perto de c.
8
Convergência em probabilidade
Convergência em probabilidade significa que os valores das variáveis que não estão próximos de c ficam cada vez mais improváveis à medida que o n cresce. Exemplo: Suponha uma variável aleatória xn que assume dois valores, zero e n, com probabilidades (1-1/n) e (1/n), respectivamente. Quando n aumenta , o segundo valor é menos provável. Xn converge em probabilidade para zero. Toda a massa da distribuição de probabilidade fica concentrada em pontos próximos de c.
9
Convergência em Média Quadrática
Se xn tem média μn e variância σ2 tal que os limites ordinários de μn e σ2 são c e 0, respectivamente, xn converge em “média quadrática“ para c, e
10
Convergência em Média Quadrática
Convergência em probabilidade não implica convergência em média quadrática!!! Exemplo dado: calcular o valor esperado: o valor esperado é igual a 1 para qualquer n. As condições para a convergência em média são mais fáceis de verificar do que a forma geral de convergência em probabilidade. Utilizaremos quase sempre convergência em média.
11
Consistência de um estimador
Se a variável aleatória, xn é um estimador (por exemplo, a média), e se: plim xn = θ xn é um estimador consistente de θ.
12
Teorema de Slutsky Se xn é uma variável aleatória tal que plim xn = θ.
Onde θ é uma constante. g(.) é uma função contínua. g(.) não é função de n. Conclusão: plim[g(xn)] = g[plim(xn)] e g[plim(xn)] existe. Limite de probabilidade não necessariamente funciona para esperanças.
13
Corolários Slutsky
14
Resultados de Slutsky para Matrizes
Funções de matrizes são funções contínuas de elementos das matrizes. Se plimAn = A e plimBn = B (elemento a elemento), Plim(An-1) = [plim An]-1 = A-1 e plim(AnBn) = plimAnplim Bn = AB
15
Distribuições limites
Convergência para um tipo de VA e não para uma constante xn é uma sequência de VA com Fn(xn). Se plim xn = θ (constante), Fn(xn) será um ponto. Mas, Fn pode convergir para uma variável aleatória específica. A distribuição desta VA será a distribuição limite de xn.
16
Teorema de Slutsky para Variáveis Aleatórias
Se , e se g(Xn) é uma função continua com derivadas contínuas e que não depende de n, temos que : Exemplo: t-student converge para uma normal padrão. Quadrado de uma t-student converge para uma qui-quadrada.
17
Uma extensão do Teorema de Slutsky
Se (Xn tem uma distribuição limite) e θ é uma constante tal que (gn tem uma distribuição limite que é função de θ), e temos que: Ou seja, substituir o θ por um estimador consistente leva a mesma distribuição limite.
18
Aplicação do Teorema de Slutsky
Comportamento da estatística F para testar restrições em grandes amostras:
19
Teorema do Limite Central
Descreve o comportamento de uma variável aleatória que envolve soma de variáveis “Tendência para a normalidade.” A média de uma amostra aleatória de qualquer população (com variância finita), quando padronizada, tem uma distribuição normal padrão assintótica.
20
Teorema do Limite Central
Teorema Lindeberg-Levy (versão simples do TLC): Se x1, x2, … , xn é uma amostra aleatória de uma população cuja distribuição de probabilidade tem média μ e variância finita igual a σ2 e temos que:
21
Teorema do Limite Central
Teorema Lindeberg-Feller : Suponha que é uma sequência de variáveis aleatórias independentes com média μi e variâncias positivas finitas σ2i
22
Lindberg-Levy vs. Lindeberg-Feller
Lindeberg-Levy assume amostra aleatória – observações possuem as mesmas média e variância. Lindeberg-Feller – a variância pode ser diferente entre as observações, apenas com hipóteses de como elas variam. Soma de variáveis aleatórias, independente da sua distribuição, tenderão a ser normalmente distribuídas. E, mais, Lindeberg-Feller não requere que as variáveis na soma venham da mesma distribuição de probabilidade. Estimadores em econometria – uso da versão Lindeberg-Feller do TLC.
23
Distribuição assintótica
Uma distribuição assintótica é uma distribuição usada para a aproximar a verdadeira distribuição de amostra finita de uma variável aleatória. Construída a partir da distribuição limite da função de uma variável aleatória. Se é assintoticamente normalmente distribuído com média μ e variância σ2/n.
24
Eficiência assintótica
Comparação de variâncias assintóticas Como comparamos estimadores consistentes? Se convergem para constante, ambas variâncias vão para zero. Eficiência assintótica: Um estimador é assintoticamente normal, este estimador é eficiente assintoticamente se a matriz de covariância de qq outro estimador consistente e assintoticamente normal exceder (1/n)V por uma matriz definida não negativa.
25
Eficiência assintótica
Exemplo: Amostra aleatória de uma distribuição normal, A média amostral é assintoticamente normal com [μ,σ2/n] Mediana é assintoticamente normal com [μ,(π/2)σ2/n] Média é assintoticamente mais eficiente.
26
Propriedades assintóticas do EMQ
A hipótese de normalidade não é necessária para derivarmos as propriedades assintóticas. Hipóteses: Convergência de XX/n para uma matriz Q positiva definida. Convergência de X’/n para 0. Suficiente para a consistência. Hipóteses: Convergência de (1/n)X’ para um vetor com distribuição normal – normalidade assintótica.
27
EMQ EMQ pode ser escrito da seguinte forma: (XX)-1Xy = (XX)-1ixiyi
= + (XX)-1ixiεi Um vetor de constantes mais um vetor de variáveis aleatórias. Os resultados para a amostra finita são estabelecidos conforme regras estatísticas para esta soma. Como esta soma de variáveis se comporta em grandes amostras?
28
Limite de probabilidade
29
Convergência em média quadrática
E[b|X]=β para qualquer X. Var[b|X]0 para um X específico b converge para β b é consistente
30
Limite de probabilidade
A inversa é uma função contínua da matriz original. Este plim deverá ser zero
31
Limite de probabilidade
Devemos encontrar o plim do último termo: Para isto, devemos formular algumas hipóteses.
32
Hipótese crucial do modelo
O que devemos assumir para que plim(1/nX’ε)=0? xi = vetor aleatório com média e variâncias finitas e com distribuições idênticas. εi = variável aleatória com uma distribuição constante com média e variância finitas e E(εi)=0 xi e εi são estatisticamente independentes. wi = xiεi = uma observação em uma amostra aleatória, com matriz de covariância constante e o vetor de média igual a zero. converge para sua esperança.
33
Limite de probabilidade
Pela hipótese de exogeneidade e pela lei das expectativas iteradas:
34
Limite de probabilidade
Pela decomposição da variância:
35
Limite de probabilidade
EMQ é consistente!!
36
Distribuição assintótica
O comportamento limite de b é o mesmo da estatística resultante da substituição da matriz de momentos pelo seu limite. Examinamos o comportamento da seguinte soma modificada:
37
Resultados Assintóticos
Qual a média desta variável aleatória? Qual sua variância? Esta soma converge para algo? Podemos achar o limite de probabilidade. Qual a distribuição assintótica?
38
Distribuição assintótica
b β em probabilidade. Como descrever esta distribuição? Não tem uma distribuição limite Variância b 0 Como estabilizar a variância? Var[n b] ~ σ2Q-1 Mas, E[n b]= n β que diverge n (b - β) é uma variável aleatória com média e variância finitas (transformação que estabiliza) b aproximadamente β +1/ n vezes a variável aleatória.
39
Distribuição limite n (b - β) = n (X’X)-1X’ε = (X’X/n)-1(X’ε/ n)
No limite, isto é igual a (plim): Q-1(X’ε/ n) Q é uma matriz positiva definida. Comportamento depende da variável aleatória (X’ε/ n)
40
Distribuição no limite: Normal
41
Distribuição no limite: Normal
42
Distribuição no limite: Normal
43
Distribuição assintótica
44
Consistência de s2
45
Consistência de s2
46
Eficiência assintótica
Um estimador é assintoticamente eficiente se é consistente, assintoticamente normalmente distribuído, e tem uma matriz de covariância que não é maior que uma matriz de covariância de qualquer outro estimador consistente e com distribuição assintótica normal.
47
Econometria Propriedades assintóticas dos estimadores MQO (continuação) Inferência – grandes amostras
48
Estatísticas de testes
Como estabelecemos a distribuição assintótica de b, podemos construir estatísticas de testes. Baseamos os testes na estatística de Wald. F[J,n-K] = (1/J)(Rb - q)’[R s2(XX)-1R]-1(Rb - q) Esta é a estatística de teste usual para testar hipóteses lineares no modelo de regressão linear, seguindo uma distribuição F exata se os erros são normalmente distribuídos. Qual o resultado mais geral? Quando não se assume normalidade.
49
Estatística de Wald Abordagem geral considerando uma distribuição univariada Quadrado de uma variável normal padrão qui-quadrada com 1 grau de liberdade. Suponha z ~ N[0,2] , desta forma (z/)2 é uma qui-quadrada com 1 gl. Suponha z~N[,2]. [(z - )/]2 é uma qui-quadrada com 1 gl. Esta é a distância normalizada entre z e , onde a distância é medida em unidades de desvios padrão. Suponha zn não é exatamente normalmente distribuída, mas (1) E[zn] = , (2) Var[zn] = 2, (3) a distribuição limite de zn é normal. (zn - )/ N[0,1], que é uma distribuição limite , não é uma distribuição exata em uma amostra finita.
50
Extensões Logo: n2 = [(zn - )/]2 {N[0,1]}2, ou 2[1].
Novamente, uma distribuição limite, não é uma distribuição exata. Suponha desconhecido, e substituímos por um estimador consistente para , ou seja sn, tal que plim sn = . O que acontece com este “análogo empírico”? tn = [(zn - )/sn]? Como plim sn = , o comportamento desta estatística em uma grande amostra será igual ao comportamento da estatística original usando ao invés de sn. tn2 = [(zn - )/sn]2 converge para uma qui-quadrada[1]. tn e n convergem para a mesma variável aleatória.
51
Forma Quadrática Se um vetor aleatório x (dimensão k) tem uma distribuição normal multivariada com vetor de média igual a e matriz covariância igual a , a variável aleatória W = (x - )-1(x - ) tem uma distribuição qui-quadrada com K graus de liberdade..
52
Prova 1/2 é uma matriz tal que:
1/2 1/2 = . Logo, V = (1/2)-1 é a inversa da raiz quadrada, tal que V V = -1/2 -1/2 = -1. Se z = (x - ). O z tem média 0, matriz covariância , e distribuição normal. O vetor aleatório w = Vz tem média V0 = 0 e matriz covariância VV = I. w tem uma distribuição normal com´média 0 e matriz covariância I. ww = kwk2 onde cada elemento é o quadrado de uma normal padrão, logo uma qui-quadrada(1). A soma de qui-quadradas é igual a uma qui-quadrada, logo: ww = (x - ) -1(x - ).
53
Construindo a estatística de teste Wald
Suponha que a hipótese de normalidade permanece, mas ao invés de termos a matriz de parâmetros usamos a matriz Sn que é consistente (plim Sn = ). O resultado exato da qui-quadrada não se aplica, mas a distribuição limite é a mesma se usarmos .
54
Estatística de Wald Suponha que a estatística é construída com um x que não tem uma distribuição normal exata, mas com xn que tem distribuição normal limite. (xn - ) Sn-1(xn - ) 2[K] Nada depende da distribuição normal. Usamos a consistência de (Sn) e TLC para xn.
55
Resultado geral para a distância de Wald
Medida de distância de Wald: Se plim xn = , xn é assintoticamente normalmente distribuído com média e variância , e se Sn é um estimador consistente para , a estatística de Wald, que é uma medida de distância generalizada converge para uma qui-quadrada (xn - ) Sn-1(xn - ) 2[K]
56
A estatística F H0: R - q = 0
F[J, n-K] = [(e*’e* - e’e)/J] / [e’e / (n-K)] F[J,n-K] = (1/J) (Rbn - q)[R s2(XX)-1 R’]-1 (Rbn - q). Onde m = (Rbn - q). Sob Ho, plim m=0. n m N[0, R(2/n)Q-1R’] Var estimada : R(s2/n)(X’X/n)-1R’] (n m )’ [Est.Var(n m)]-1 (n m ) Se plim bn = , plim s2 = 2, JF[J,n-K] 2[J].
57
Distância de Wald Teste mais geral sobre um único parâmetro.
Estimativa amostral: bk Valor hipotético: βk O quão distante βk está de bk? Se muito longe, a hipótese é inconsistente com a evidência amostral. Medida de distância em unidades de desvios-padrão: t = (bk - βk)/estimativa de vk. Se t is “grande” (maior que o valor crítico), rejeitamos a hipótese.
58
Estatística de Wald Na maioria dos testes são utilizadas medidas de distâncias de Wald. W=(vetor aleatório-valor hipotético)’(variância da diferença)-1(vetor aleatório-valor hipotético) W= medida de distância normalizada A distância deve ser normalmente distribuída A matriz de covariância é a verdadeira e não a estimada.
59
Teste de Robustez O teste de Wald geralmente será (quando devidamente construído)mais robusto que o teste t e F Razão: Baseado nos estimadores robustos da variância e nos resultados assintóticos.
60
Teste de hipótese: caso geral H0: R - q = 0 (J restrições lineares)
Duas abordagens (1) Rb - q está perto de 0? Defina: m = Rb - q. Usando o critério de Wald: Critério de Wald: m(Var[m])-1m tem uma distribuição qui-quadrada com J graus de liberdade Mas, Var[m] = R[2(X’X)-1]R. Se usarmos a estimativa de 2, teremos uma F[J,n-K]. (ee/(n-K) é a estimativa de 2.) (2) Quando impomos uma restrição, o ajuste do modelo é reduzido. R2 necessariamente irá diminuir. Será que diminui muito? (I.e., de forma significativa?). R2 = modelo irrestrito, R*2 = modelo restrito. F = { (R2 - R*2)/J } / [(1 - R2)/(n-K)] = F[J,n-K]. No modelo linear, estas duas abordagens são iguais.
61
Estatística do Multiplicador de Lagrange
Lembrando do MQO restrito, o multiplicador de lagrange é igual a: = [R(XX)-1R]-1 (Rb – q)= = [R(XX)-1R]-1 m. Suponha que queremos testar H0: = 0, usando o critério de Wald. A estatística de teste será JF
62
Aplicação LogG = 1 + 2logY + 3logPG
+ 4logPNC + 5logPUC + 6logPPT + 7logPN + 8logPD + 9logPS + Período = Um evento importante ocorreu em Queremos saber se o modelo de 1960 a 1973 é o mesmo de 1974 a Todos os coeficientes do modelo são elasticidades.
63
Modelo completo Ordinary least squares regression LHS=LG Mean = Standard deviation = Number of observs. = Model size Parameters = Degrees of freedom = Residuals Sum of squares = <******* Standard error of e = <******* Fit R-squared = <******* Adjusted R-squared = <******* Variable| Coefficient Standard Error t-ratio P[|T|>t] Mean of X Constant| *** LY| *** LPG| *** LPNC| LPUC| * LPPT| LPN| *** LPD| *** LPS| ***
64
Testando um parâmetro O preço do transporte público é importante? H0 : 6 = 0. IC: b6 t(.95,27) erro padrão = 2.052(.07859) = = ( ,.27698) Contém 0, logo não rejeito a hipótese Medida de distância: (b6 - 0) / sb6 = ( ) / = < O ajuste cai se eliminamos? Sem LPPT, R-quadrado = Compare R2, , F(1,27) = [( )/1]/[( )/(36-9)] = =
65
Teste de hipóteses: Soma de coeficientes
Será que as elasticidades preço agregadas somam zero? H0 :β7 + β8 + β9 = 0 R = [0, 0, 0, 0, 0, 0, 1, 1, 1], q = [0] Variable| Coefficient Standard Error t-ratio P[|T|>t] Mean of X LPN| *** LPD| *** LPS| ***
66
Teste Wald O valor crítico da qui-quadrada com 1 grau de liberdade é 3,84, logo a hipótese nula é rejeitada.
67
Impondo uma restrição Linearly restricted regression LHS=LG Mean = Standard deviation = Number of observs. = Model size Parameters = <*** 9 – 1 restriction Degrees of freedom = Residuals Sum of squares = <*** With the restriction Residuals Sum of squares = <*** Without the restriction Fit R-squared = Restrictns. F[ 1, 27] (prob) = 8.5(.01) Not using OLS or no constant.R2 & F may be < 0 Variable| Coefficient Standard Error t-ratio P[|T|>t] Mean of X Constant| *** LY| *** LPG| *** LPNC| *** LPUC| LPPT| *** LPN| *** LPD| LPS| *** F = [( )/1] / [ /(36 – 9)] =
68
Hipóteses conjuntas Hipóteses conjuntas: elasticidade renda = +1, elasticidade preço = -1. A hipótese implica que logG = β1 + logY – logPg + β4 logPNC + ... Estratégia: regrida logG – logY + logPg nas outras variáveis e compare a soma quadrado dos resíduos. Com as duas restrições SQR = R-quadrado = Irrestrito SQR = R-quadrado = F = (( )/2) / ( /(36-9)) = O valor crítico para a F com 95% com 2,27 gl é A hipótese nula é rejeitada. Os resultados são consistentes?? O R2 realmente aumenta com as restrições?
69
Baseando o teste no R2 F = (( )/2)/(( )/(36-9)) = (!) O que está errado?
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.