A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Letícia e Idilio1 Análise de Regressão Múltipla y = 0 + 1 x 1 + 2 x 2 +... k x k + u Inferência.

Apresentações semelhantes


Apresentação em tema: "Letícia e Idilio1 Análise de Regressão Múltipla y = 0 + 1 x 1 + 2 x 2 +... k x k + u Inferência."— Transcrição da apresentação:

1 Letícia e Idilio1 Análise de Regressão Múltipla y = x x k x k + u Inferência

2 2 Hipóteses do Modelo Linear Clássico (MLC) Dadas as hipóteses de Gass-Markov, o estimador de MQO é BLUE. Afim de aplicar os testes de hipóteses clássicos, uma nova hipótese é adicionada ao modelo (além das suposições de Gauss- Markov): Assumir que u é independente de x 1, x 2,…, x k e u segue distribuição normal com média igual a 0 e variância 2. Ou seja, u ~ Normal(0, 2 ).

3 3 Hipóteses do MLC (cont.) Considerando as hipóteses do MLC, o estimador de MQO não somente é BLUE, como também o estimador não-viesado de menor variância. As hipóteses do MLC podem ser resumidas por: y|x ~ Normal( x 1 +…+ k x k, 2 ). Há casos em que a hipótese de normalidade não é verdadeira (neste momento, não serão considerados).

4 4.. x1x1 x2x2 Exemplo de normal homoscedástica com uma variável independente. E(y|x) = x y f(y|x) Normais

5 5 Distribuições amostrais Normais

6 6 Testes de Hipóteses sobre um único parâmetro: Teste t Lembrando, modelo populacional pode ser escrito como: y x 1 +…+ x k + u A idéia é construir hipóteses sobre o valor de j Utilizar inferência estatística para testar nossa hipótese.

7 7 O Teste t

8 8 O Teste t (cont.) Saber essa distribuição amostral do estimador padrão permite que sejam feitos testes de hipóteses que envolvem j. Começar pela hipótese nula, que é a mais utilizada. H 0 : j =0. Dizer que j =0 significa que x j não tem efeito em y, controlando os demais xs.

9 9 O Teste t (cont.) Ex: log(salarioh)= educ + 2 exper + 3 perm + u A hipótese nula H 0 : 2 =0 significa que, se a educação formal e a permanência foram consideradas, o número de anos no mercado de trabalho (exper) não tem nenhum efeito sobre o salário.

10 10 Teste t: Hipóteses alternativas Além da hipótese nula H 0, é necessária uma hipótese alternativa H 1 e um nível de significância. H 1 pode ser unilateral ou bilateral. H 1 : j > 0 e H 1 : j < 0 são unilaterais. H 1 : j 0 é a alternativa bilateral.

11 11 Escolha do nível de significância Nível de significância: probabilidade de rejeitar erroneamente H o quando ela é verdadeira. Se o desejável é ter somente 5% de probabilidade de rejeitar H 0 quando ela for verdadeira, então é dito que o nível de significância é de 5%.

12 12 A estatística t Para determinar se uma hipótese nula H 0 deve ser rejeitada usaremos regras de rejeição junto com a estatística t.

13 13 Alternativas unilaterais Por exemplo, escolhendo um nível de significância 5%, procura-se pelo 95º percentil em uma distribuição t com n – k – 1 graus de liberdade. Este valor é chamado de c (valor crítico). Se t > c => a hipótese nula será rejeitada. Se t não é possível rejeitar a hipótese nula.

14 14 y i = x i1 + … + k x ik + u i H 0 : j = 0 H 1 : j > 0 c 0 Alternativas unilaterais (cont.) Não-rejeitada Rejeitada

15 15 Exemplo: Retomando o exemplo do salário: log(salarioh)= educ + 2 exper + 3 perm + u log(salarioh)= + educ +0,0041exper + perm n=526 (0,104) (0,007) (0,0017) (0,003) H o : 2 =0 H 1 : 2 >0 gl: 526-4=522 nível de significância: 1% => c=2,326 t = 0,0041/ 0,0017 =2,41 > 2,326 Logo, exper é estatisticamente significante ao nível de 1%, rejeitamos então H 0.

16 16 Unilateral X bilateral Sendo a distribuição t simétrica, testar H 1 : j < 0 é trivial. O valor crítico é o negativo do valor anterior. Rejeita-se a hipótese nula se o valor da estatística t < –c. Para o caso bilateral, o valor crítico será /2 e rejeita-se H 0 : j = 0 (em favor de H 1 : j 0) se |t| > c.

17 17 y i = X i1 + … + k X ik + u i H 0 : j = 0 H 1 : j 0 c 0 -c Alternativa Bilateral Rejeitada Não-rejeitada

18 18 Testando outras hipóteses Uma forma mais geral da estatística t pode ser escrita para verificar hipóteses do tipo H 0 : j = a j Neste caso, a seguinte estatística t deve ser usada: Exemplo

19 19 Calculando os p-valores para testes t Uma alternativa à abordagem clássica é perguntar: qual o menor nível de significância no qual a hipótese nula pode ser rejeitada? Para isto, calcule o valor da estatística t e procure em qual percentil ele se encontra em uma tabela com a distribuição t apropriada. Este será o p- valor. O p-valor é a probabilidade de observar-se o valor da estatística t, se a hipótese nula for verdadeira.

20 20 Calculando os p-valores para testes t

21 21 Significância x Importância Normalmente, cria-se a hipótese antes de conhecer os dados. No caso de amostras pequenas, o erro tende a ser maior (mais difícil de rejeitar H0). Nestes casos é normal aumentar o nível de significância.

22 22 Intervalos de confiança Outra forma de utilizar os testes clássicos da estatística é construir um intervalo de confiança usando o mesmo valor crítico do teste bilateral. Um intervalo de confiança de (1 - )% pode ser definido como:

23 23 Intervalos de confiança Interpretação: Se criarmos intervalos de confiança em várias amostrar aleatórias, o valor real de j estará contido no intervalo em (1 - )% dos intervalos criados. Por azar, justamente na amostra que você tinha disponível, j não estava contido no intervalo (o intervalo está errado). Isso ocorrerá em % dos casos.

24 24 Stata: p-valores, testes t etc. A maioria dos programas estatísticos computam os p-valores assumindo o teste bilateral. Se for o caso de um teste unilateral, basta dividir o p-valor do teste bilateral por 2. O Stata gera a estatística t, o p-valor e o intervalo de confiança de 95% para H 0 : j = 0, nas colunas nomeadas t, P > |t| e [95% Conf. Interval]. Exemplo 4.7

25 25 Testando uma combinação linear Suponha que ao invés de testar se 1 é igual a uma constante, deseja-se testar se 1 é igual a outro parâmetro, isto é H 0 : 1 = 2. Use o mesmo procedimento para criar a estatística t:

26 26 Testando uma combinação linear

27 27 Testando uma combinação linear O cálculo de s 12 é complicado. Alguns softwares terão uma opção para calculá-lo ou para executar o teste automaticamente, mas nem todos. Mas.... Há uma alternativa muito mais fácil, basta reorganizar o problema para obter o teste na forma necessária.

28 28 Exemplo: Suponha que queremos comparar se um ano de curso superior profissionalizante é equivalente a um ano de universidade (no salário). log(salário) = cp + 2 univ + 3 exper + u H 0 : 1 = 2 e H 1 : 1 < 2 Fazendo H 0 : 1 = = 1 + 2, substituindo e rearranjando: log(salário) = cp + 2 univ + 3 exper + u

29 29 Exemplo: log(salário) = cp + 2 univ + 3 exper + u log(salário) = cp + 2 (cp +univ) + 3 exper + u log(salário) = cp + 2 totalgrad + 3 exper + u => Notar que agora 1 aparece explicitamente e ep( 1 ) é calculado junto com as demais estimativas. log(salário) = + cp + 0,0769 totalgrad+ 0,0049 exper (0,021) (0,0069) (0,0023) (0,0002) O modelo modificado é igual ao original, mas agora tem-se diretamente na saída da regressão o ep( 1 ).

30 30 Exemplo (cont.): Qualquer combinação linear das parâmetros pode ser testado de maneira similar. Outros exemplos de hipóteses sobre combinações lineares simples dos parâmetros: 1 = ; 1 = 5 2 ; 1 = -1/2 2

31 31 Restrições Lineares Múltiplas Tudo apresentado até aqui envolvia apenas o teste de uma única restrição: (i.e. 1 = ou 1 = 2 ). Porém, pode-se querer testar várias hipóteses sobre os parâmetros em conjunto. Um exemplo típico é testar restrições excludentes – um grupo de parâmetros é todo igual a zero.

32 32 Restrições Excludentes A hipótese nula agora será algo como: H 0 : k-q+1 = 0,, k = 0 A alternativa é H 1 : H 0 não é verdadeira. Porque não analisar somente a estatística t de cada parâmetros em separado? Porque desejamos saber se os q parâmetros são conjuntamente significantes dado um nível de significância – é possível que nenhum seja significante no nível desejado (e que o grupo seja).

33 33 Restrições Excludentes (cont.) É necessário estimar: modelo irrestrito com todas variáveis x 1,, …, x k incluídas. modelo restrito sem as variáveis x k-q+1,, …, x k Queremos verificar se as mudanças em SQR são grandes suficientes para justificar a inclusão de x k-q+1,, …, x k no modelo. Onde: r é o modelo restrito q = números de restrições, ou gl r – gl ir ir é o irrestrito n – k – 1 = gl ir

34 34 A estatística F É sempre positiva, dado que sempre SQR do modelo restrito >= SQR do modelo irrestrito. Essencialmente, é uma medida do crescimento relativo de SQR quando saímos do modelo irrestrito para o modelo restrito. Se o crescimento de SQR, quando mudamos de modelo, for grande o suficiente podemos rejeitar a exclusão das variáveis.

35 35 0 c f( F ) F A estatística F (cont.) Rejeitada Não-rejeitada Rejeite H 0 com nível de significância se F > c

36 36 Exemplo: Modelo original (irrestrito): log(salário) = anos + 2 jogosanos + 3 medreb + 4 rebpontos+ 5 rebcorrida+ u n=353 SQR=183,186 Testar se as estatísticas que medem desempenho: medreb, rebpontos e rebcorrida não tem efeito sobre salário => H o = 3 =0, 4 =0, 5 =0 Modelo restrito: log(salário) = anos + 2 jogosanos +u n=353 SQR=198,311

37 37 Exemplo(cont.): Assim : Com 347 graus de liberdade, o valor crítico a 1% de significância é c= 3,78 F > 3,78, portanto rejeitamos completamente a hipótese de que medreb, rebpontos e rebcorrida não tem efeito sobre salário.

38 38 A forma R 2 da estatística F Dado que os SQRs dos modelos podem ser grandes e de manipulação difícil, uma alternativa de formulação é útil neste caso. Usando o fato que SQR = SQT(1 – R 2 ) para qualquer regressão, pode-se substituir SQR r e SQR ir

39 39 Significância completa Um caso especial de restrições excludentes é testar H 0 : 1 = 2 =…= k = 0 Dado que o valor R 2 de um modelo somente com intercepto será zero, o valor da estatística F é simplificado para:

40 40 Restrições Lineares Gerais A forma básica da estatística F funcionará para qualquer conjunto de restrições lineares. Inicialmente, estime o modelo irrestrito e então estime o modelo restrito. Em cada caso, guarde o valor de SQR. Impor as restrições pode ser complicado, será necessário redefinir as variáveis novamente. Não usar a versão R 2 neste caso.

41 41 Exemplo: Gastos implicam votos? O modelo: voteA = log(expendA) + 2 log(expendB) + 3 prtystrA + u H 0 : 1 = 1, = 0 Substituindo as restrições: voteA = 0 + log(expendA) + 2 log(expendB) + u Usa-se: voteA - log(expendA) = log(expendB) + u como modelo restrito.

42 42 Resumo da estatística F Assim como no caso da estatística t, os p-valores podem ser calculados procurando o percentil na tabela da distribuição F adequada. O Stata gerará estes valores com o comando: display fprob(q, n – k – 1, F) onde os valores apropriados de F, q e n – k – 1 devem ser usados. Se somente uma exclusão está sendo testada, então F = t 2 e os p-valores serão exatamente os mesmos.


Carregar ppt "Letícia e Idilio1 Análise de Regressão Múltipla y = 0 + 1 x 1 + 2 x 2 +... k x k + u Inferência."

Apresentações semelhantes


Anúncios Google