Modelos de variáveis qualitativas dependentes Econometria Pós Julho de 2017
Modelo de probabilidade linear
LOGIT
Probabilidade, odds e logit Explicar a ocorrência de um evento: y={0;1} tem dois possíveis valores (0 e 1) Precisamos explicar a probabilidade de ocorrência do evento, condicionado em X: P(Y=y | X) ∈ [0 ; 1]. MQO não é adequado pois as predições caem fora do intervalo [0 ; 1]. Temos que transformar o número real z que ∈ ]-∞;+∞[ para uma P(Y=y | X) ∈ [0 ; 1]. A transformação logística faz esta ligação – o número real z ∈ ]-∞;+∞[ para P(Y=y | X) ∈ [0 ; 1]. Ou seja, função de ligação - link function
Função link Logit
Logit A probabilidade de que um evento ocorra é:
Odds ratio – razão de chances A odds ratio é definida como a razão entre a probabilidade e seu complemento. Tomando o log temos z. Consequentemente, z é a transformação logarítima da “odds ratio”. Z ∈ ]-∞;+∞[ and P(Y=1) ∈ [0 ; 1] A probabilidade não é linear em z
Probabilidade, odds e logit P(Y=1) Odds p(y=1) 1-p(y=1) Ln (odds) 0.01 1/99 0,01 -4,60 0.03 3/97 0,03 -3,48 0.05 5/95 0,05 -2,94 0.20 20/80 0,25 -1,39 0.30 30/70 0,43 -0,85 0.40 40/60 0,67 -0,41 0.50 50/50 1,00 0,00 0.60 60/40 1,50 0,41 0.70 70/30 2,33 0,85 0.80 80/20 4,00 1,39 0.95 95/5 19,0 2,94 0.97 97/3 32,3 3,48 0.99 99/1 99,0 4,60
Transformação logística A probabilidade varia entre 0 e 1, a odds varia entre 0 e + ∞. O log da odds varia entre– ∞ e + ∞ . Note que a distribuição do log da odds é simétrica.
Plot do log da Odds
“A probabilidade não é linear em z”
Como estimamos se não conhecemos o z? Função logit No modelo: Como estimamos se não conhecemos o z?
EMV Usamos a EMV como alternativa ao método de MQO. Ou seja, achar os estimadores dos parâmetros que sejam consistentes com os dados da amostra. A Função de verossimilhança é definida como a probabilidade conjunta de observar uma dada amostra, dados os parâmetros. Suponha que tenha uma amostra com n observações aleatórias. f(yi ) é a função densidade de probabilidade de yi = 1 ou yi = 0. A probabilidade conjunta de observar os n valores de yi é dada pela função de verossimilhança:
Função de verossimilhança Especificando f(.): . Distribuição empírica discreta de um evento que tem apenas dois resultados: sucesso (yi = 1) ou fracasso (yi = 0). Distribuição binomial
Função de verossimilhança Sabendo p (se for um logit), temos a função de verossimilhança:
Log da função de verossimilhança (LL) Transformação logarítima (log likelihood) :
EMV A função LL pode dar infinitos valores para β. Dada a forma funcional de f(.) e as n observações, qual valor dos parâmetros β que maximizam a função de verossimilhança para a minha amostra? Em outras palavras, quais são os valores mais prováveis para o meu vetor de parâmetros desconhecidos β dada a amostra disponível?
EMV LL é globalmente côncava e tem um máximo. O gradiente é para computar os parâmetros de interesse, e a hessian é usada para calcular a matriz variância covariância. Não existe solução analítica para este problema não linear. Uso do algortimo de otimização Newton-Raphson. O computador irá gerar todos possíveis valores para β, e irá calcular o valor da verossimilhança para cada um, para escolher o vetor de β tal que a verossimilhança seja a mais alta.
Exemplo: Fatores que afetam a probabilidade de ter uma firma que faz inovação (inno = 1) 352 (81.7%) inovam e 79 (18.3%) não inovam. A odds de se ter uma inovação é 4 contra 1 (352/79=4.45). log da odds é 1.494 (z = 1.494) Para a amostra de firmas a probabilidade de ser inovador é 4 vezes maior que a probabilidade de não ser inovador. 19
Regressão logística Modelo com a constante apenas 20
Interpretação dos coeficientes Transformação do logit em probabilidade : 21
Interpretação dos coeficientes Valor empírico da amostra: 81,7% 22
Interpretação dos coeficientes Um coeficiente positivo indica que a probabilidade de inovação aumenta com o valor da variável explicativa. E vice-versa. Não linearidade: a probabilidade não varia na mesma magnitude conforme o nível dos regressores. Calcular a probabilidade do evento ocorrer num ponto médio da amostra. 23
Exemplo Modelo completo 24
Interpretação Usando os valores médios de rdi, lassets, spe e biotech, podemos calcular a probabilidade condicionada : 25
Efeitos marginais A probabilidade é uma função não linear das variáveis explicativas Uma mudança na probabilidade devido a mudança em uma variável explicativa não é independente dos valores das outras variáveis explicativas. 26
Medidas de ajuste Nas estimações por Máxima Verossimilhança, não há algo como um R2 O log da verossimilhança pode ser usado como medida de ajuste. Comparar os modelos usando os valores de LL.
Teste LR A LR consiste na diferença entre o modelo não restrito (unc) e o modelo restrito (c ). Esta diferença segue uma distribuição de probabilidade de uma c2. Se a diferença entre os valores de LL é (não é) importante, é porque o conjunto de variáveis explicativas dão (não dão) informação relevante. A hipótese nula H0 é que o modelo não fornece informação relevante. Para valores altos de LR rejeitamos H0 e aceitamos a hipótese alternativa Ha de que o conjunto de variáveis explicativas explicam de forma significativa o resultado.
McFadden Pseudo R2 McFadden Pseudo R2 (1973). Interpretação análoga ao R2. Viesado para baixo e sempre baixo…
Modelo restrito Irrestrito 30
LR teste de uma variável adicionada (biotech) 31
Qualidade da predição