Regressão com uma variável dependente Binária

Slides:



Advertisements
Apresentações semelhantes
Correlação e Regressão
Advertisements

Prof. Darlan Marcelo Delgado
Analise de Regressão Parte 2.
Professor: Samir Silveira
Análise de Sensibilidade
Noções de Regressão Profa. Marli.
MB751 – Modelos de previsão
ANÁLISE DE REGRESSÃO UM GUIA PRÁTICO.
Rejane Sobrino Pinheiro Tania Guillén de Torres
Variáveis Aleatórias Contínuas
Estatística Aplicada (Aula 5)
Estatística Prof: Msc Engª Heloísa Bernardo
Metodologia Científica Medidas de Frequência e Associação
Diagramas de dispersão
Regressão logística A regressão logística é uma semelhante a regressão linear e é usada com temos uma variável dependente binária. O objectivo é saber.
Sistemas de equações lineares de 1a ordem
Análise da Regressão múltipla: Inferência Revisão da graduação
Econometria Modelos discretos.
Aula 10. Regressão Linear Múltipla.
Função de uma Variável Aleatória
Estatística e Probabilidade
Apêndice.
Característica de vazão
Exemplos empíricos do uso de variáveis instrumentais Aula 16 de abril de 2014.
Universidade Estadual do Maranhão – UEMA Bacharelado em Administração
Econometria Aula 3 – 27/9/2013.
Capítulo 10 - Estatística 10.1 Introdução:
Site: Estatística Prof. Edson Nemer Site:
Regressão Pontos mais importantes: -objectivo -regressão linear
Introdução ao Stata 05 de julho de 2013
Probit ordenado.
Aplicações Estatísticas uma rápida abordagem
ADMINISTRAÇÃO FINANCEIRA
Análise multivariável
Aproximação de funções
Regressão Logística Modelos de regressão não linear são usados, em geral, em duas situações: casos em que as variáveis respostas são qualitativas e os.
Escolha sob Incerteza Prof. João Manoel Pinho de Mello Depto. de Economia, PUC-Rio Agosto, 2006.
Modelagem Estatística
Análise Multivariada BioEstat
Probabilidade e Estatística para Avaliação de Desempenho
Escolha sob Incerteza Prof. João Manoel Pinho de Mello Depto. de Economia, PUC-Rio Agosto, 2008.
Formas funcionais e mudança estrutural
Introdução ao Stata 03 de maio de 2013
Aula 6 - Medidas de associação1 DATAAulaCONTE Ú DO PROGRAM Á TICO 10/03Segunda1N í veis de mensura ç ão, vari á veis, organiza ç ão de dados, apresenta.
7 Ajuste de Curvas UFSC.PósMCI.FME.Ajuste de curvas. (11.1)
Regressão.
Introdução ao Stata 17 de maio de 2013 (dada no dia 22/5)
Aula 2 - Tabelas e Gráficos
Regressão Poisson.
Introdução ao Stata 28 de junho de 2013
Multicolinearidade.
Econometria Modelos discretos.
Vamos conversar sobre …
Um giro pelo mercado de trabalho
É o conjunto de métodos estatísticos usados no tratamento da variabilidade nas ciências médicas e biológicas. A Bioestatística fornece métodos para decisões,
Métodos Estatísticos Aplicados às Ciências Biológicas
Métodos Estatísticos Aplicados às Ciências Biológicas - 11ª aula -
Regressão Linear Simples
Modelo de Variáveis discretas
Testes de significância e análise Parte II The Union, Paris, França MSF – Centro Operacional de Bruxelas, Luxemburgo OMS, Genebra.
Regressão linear simples
Regressão linear simples
Correlação Análise do grau de relacionamento entre duas variáveis quantitativas.
Econometria Félix Bernardo. Econometria “a Econometria procura fornecer uma base empírica para o estudo de relações entre variáveis económicas (ou, em.
AULA 07 CORRELAÇÃO Igor Menezes.
Amostragem e tratamento de dados faltantes Prof. Luciana Nunes Risco Relativo e Razão de Chances.
Profa Dra. Denise Pimentel Bergamaschi
Regressão Linear (aula 14 – Parte 2).
Critérios de Escolha dos Métodos Estatísticos
Modelos de escolha discreta e análise da demanda do consumidor
Transcrição da apresentação:

Regressão com uma variável dependente Binária Capítulo 9 – Stock e Watson. Econometria.

Modelo de Variáveis discretas P(y = 1|x) = G(b0 + xb) y* = b0 + xb + u, y = max(0,y*)

Variáveis dependentes Binárias Modelo de probabilidade linear era escrito da seguinte forma: P(y = 1|x) = b0 + xb

Modelo de Probabilidade Linear Variável dependente é binária ao invés de contínua. Como a variável dependente é binária, a função de regressão é a probabilidade da variável dependente ser igual a 1, dado X. Coeficiente: mede a variação na probabilidade de que y=1.

Variáveis dependentes Binárias Problema: valores preditos não estão no limite 0 e 1 Uma alternativa é modelar a probabilidade como uma função, G(b0 + xb), onde 0<G(z)<1

Modelo Probit Uma escolha para G(z) é a função de distribuição acumulada de uma normal padrão (cdf) G(z) = F(z) ≡ ∫f(v)dv, onde f(z) é a normal padrão, f(z) = (2p)-1/2exp(-z2/2) Este caso refere-se ao modelo probit Como é um modelo não linear, não pode ser estimado pelos métodos usuais Estimação de Máxima Verossimilhança

Modelo Logit Outra escolha para G(z) é uma função logística, função de distribuição padrão de uma variável aleatória logística G(z) = exp(z)/[1 + exp(z)] = L(z) Este caso é referido como modelo logit ou regressão logística. Ambas funções crescem com z, e rapidamente em torno de 0

Probits e Logits Probit e logit são não lineares – EMV Não há razão para preferir um ou outro modelo Tradicionalmente, as pessoas usam mais o logit, principalmente porque a função logística é mais facilmente computada Atualmente, probit também é facilmente computado com os pacotes econométricos.

Interpretação do logit e do probit (em particular vs MPL) Em geral estamos preocupados com o efeito de x em P(y = 1|x), ∂p/ ∂x Para o caso linear, isto é facilmente computável pelo coeficiente de x Para os modelos probit e logit não lineares, isto é mais complicado: ∂p/ ∂xj = g(b0 +xb)bj, onde g(z) é dG/dz

Interpretação Claramente, não podemos comparar os coeficientes entre os três modelos. Podemos comparar o sinal e a significância (estatística t padrão) dos coeficientes Para comparar a magnitude dos efeitos, teremos que calcular as derivadas, na média.

Teste da razão de verossimilhança Enquanto no MPL usamos a F ou LM para testar restrições de exclusão, agora usamos um novo tipo de teste. EMV produz o log da verossimilhança L Da mesma forma que o teste F, estimamos o modelo restrito e irrestrito, e construímos a seguinte estatística: LR = 2(Lir – Lr) ~ c2q

Ajuste Não podemos usar R2 para julgar o ajuste Uma possibilidade é o pseudo R2 baseado no log da verossimilhança e definido como 1 – Lur/Lr Também podemos olhar para a % predita de forma correta

Outros exemplos de variáveis dependentes limitadas

Modelos de regressão censurada ou truncada A variável dependente é censurada acima ou abaixo de determinado limite. Exemplo: dados de compra de automóveis. Despesas positivas para compras positivas, despesas nulas para quem não comprou. Há dados de compradores e vendedores.

Modelos de seleção amostral Quando não existem dados para um determinada parte da população importante de ser analisada. Informações indisponíveis acima ou abaixo de um determinado limite. Problema da amostra.

Dados de contagem A variável dependente é um número de contagem. Exemplo: número de refeições em um restaurante. Regressão de Poisson e binomial negativo.

Probit ordenado Categorias qualitativas mutuamente exclusivas possuem uma ordem natural. Exemplo: obtenção de diploma.

Alguns exemplos Artigo: Corbi e Menezes-Filho (2006). Os determinantes empíricos da felicidade no Brasil. REP, vol. 26, n. 4, out-dez. Investigar os determinantes empíricos da felicidade no Brasil através de uma base de dados ainda pouco utilizada no país, o World Values Survey (Pesquisa Mundial de Valores). Analisar a associação de algumas variáveis sócioeconômicas, tais como renda, desemprego, educação, sexo, estado civil e idade, com a felicidade dos indivíduos. A renda e o desemprego serão examinados de forma a compreendermos de que maneira eles podem influir no nível de felicidade dos indivíduos.

Medida de Felicidade O modelo de probit ordenado é um modelo multinomial, e sua variável dependente assume valores que estabelecem um certo ordenamento dos dados, não de forma linear, mas sim de forma a ranquear os possíveis resultados. A variável latente F associa números às respostas individuais, da seguinte forma: 1 para “infeliz”, 2 para não “muito feliz”, 3 para “feliz” e 4 para “muito feliz”.

Multinomial: exemplo A variável dependente assume múltiplos valores qualitativos que não são ordenados. Exemplo: meio de transporte escolhido por uma pessoa. Probit multinomial ou logit multinomial.

Banco de dados Várias marcas de um produto estão no mercado. Iremos explicar as escolhas dos consumidores por estas marcas considerando as seguintes variáveis explicativas: sexo (female) e idade (age). Por exemplo, há um estudo que afirma que as mulheres escolhem mais cameras digitas Kodak e que homens preferem Canon.

mlogit brand female age, base(1) Iteration 0: log likelihood = -795.89581 Iteration 1: log likelihood = -709.10396 Iteration 2: log likelihood = -703.08391 Iteration 3: log likelihood = -702.97081 Iteration 4: log likelihood = -702.9707 Multinomial logistic regression Number of obs = 735 LR chi2(4) = 185.85 Prob > chi2 = 0.0000 Log likelihood = -702.9707 Pseudo R2 = 0.1168 ------------------------------------------------------------------------------ brand | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- 2 | female | .5238143 .1942466 2.70 0.007 .143098 .9045307 age | .3682065 .0550031 6.69 0.000 .2604024 .4760106 _cons | -11.77466 1.77461 -6.64 0.000 -15.25283 -8.296483 3 | female | .4659414 .2260895 2.06 0.039 .022814 .9090688 age | .6859082 .0626265 10.95 0.000 .5631626 .8086539 _cons | -22.7214 2.058027 -11.04 0.000 -26.75505 -18.68774 (brand==1 is the base outcome) git brand female age, base(1)

Alguns resultados Para a mudança de uma unidade da variável idade, o log da razão entre as duas probabilidades, P(brand=2)/P(brand=1), irá aumentar em 0.368 e o log da razão das duas probabilidades P(brand=3)/P(brand=1) irá aumentar em 0.686. Podemos dizer que, em geral, as pessoas mais velhas irão preferir brand 2 ou 3.

A razão entre a probabilidade de escolher uma categoria e a probabilidade de escolher a categoria de referência é denominada de risco relativo (odds). Os resultados podem ser interpretados em termos de risco relativo. Podemos dizer que para mudança de uma unidade da idade, esperamos que o risco relativo de escolher brand 2 ao invés de brand 1 aumente de exp(.3682) = 1.45. O risco relativo é maior para pessoas mais velhas. Para a variável female, a razão do risco relativo de escolher brand 2 ao invés de 1 para mulheres e homens é exp(.5238) = 1.69.

line p1 age if female ==0 || line p1 age if female==1, legend(order(1 "male" 2 "female"))