Modelos de variáveis qualitativas dependentes

Slides:



Advertisements
Apresentações semelhantes
Econometria Modelos discretos.
Advertisements

Teoria de Filas – Aula 3 Aula de Hoje Variáveis aleatórias discretas Bernoulli Binominal Uniform Poisson Geométrica Aula Anterior Independência Condicionamento.
Teoria de Filas – Aula 4 Aula de Hoje Variáveis aleatórias contínuas Valor esperado de uma variável aleatória Aula Passada Variáveis aleatórias discretas.
Regressão Linear Múltipla Arquivo: seleção2.sav. Base de dados Variáveis independentes: X 1, X 2, X 3,..., X 14 Variável dependente ou Resposta: Y 1428.
PRINCIPAIS MODELOS CONTÍNUOS Modelo uniforme Uma v.a. contínua X tem distribuição uniforme com parâmetros  e  (  <  ) se sua função densidade.
Variáveis multinomiais ordenadas. Variável dependente ordenada: aplicações Avaliação de pesquisas de satisfação de clientes – Kreke et al. (1995): avaliação.
Comparação de duas médias amostrais Tratamento Paramétrico.
Distribuições e Teorema do Limite Central Distribuições: Binomial, Poisson e Normal Mimi, você é a única normal nessa sala?! Normal em que sentido?
Comparação de proporções
PAULO TADEU M. E S. DE OLIVEIRA HELENO BOLFARINE
Teoria dos Grafos Geração de Valores aleatórios
Testes de Hipóteses VPS126.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2017 Técnicas de Reamostragem Camilo Daleles Rennó
Redução da desigualdade de renda no Brasil – determinantes e consequências Artur Henrique da Silva Santos, VI Prêmio SOF de Monografias, Coletânea.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2017 Inferência Estatística Camilo Daleles Rennó
O OBJETIVO FUNDAMENTAL DA DISCIPLINA
DISTRIBUIÇÃO NORMAL.
DEPARTAMENTO DE CONTABILIDADE
Medidas de Dispersão para uma amostra
“ASSOCIAÇÃO EDUCACIONAL FANUEL” GUARDA MIRIM DE TELÊMACO BORBA
ANÁLISE FATORIAL.
Distribuição Binomial
Análise da Regressão múltipla: Inferência Revisão
Modelos de variáveis qualitativas multinomiais ordenadas
Modelos de escolha discreta e análise da demanda do consumidor
Heterocedasticidade O que fazer? Erro padrão robusto MQG
ESTATÍSTICA AULA 10 Modelos probabilísticos mais comuns – Unidade 7
Experiências aleatórias
DISTRIBUIÇÃO BINOMIAL
Econometria Aplicação Teorema FWL: dessazonalização Ajuste do Modelo
Inferência Estatística aplicada à Pesquisa em Saúde.
ESTATÍSTICA AULA 06 ANÁLISE EXPLORATÓRIA DE DADOS II – Unidade 4
Regressão com uma variável dependente Binária
FATORIAL DE UM Nº NATURAL
Propriedades assintóticas dos estimadores MQO
Teste t para amostras independentes (EX. DE QUESTÃO)
Bioestatística Professora Livre Docente Suely Godoy Agostinho Gimeno
Regressão Logística Modelos de regressão não linear são usados, em geral, em duas situações: casos em que as variáveis respostas são qualitativas e os.
Variáveis instrumentais – Mínimos Quadrados em dois estágios
Estimação de Máxima Verossimilhança
PROBALIDADE & VARIÁVEIS ALEATÓRIAS
NOÇÕES DE TESTE DE HIPÓTESES (I)
Ajustamento de Observações
Tópicos em Econometria I
TESTES DE HIPÓTESES.
ESTATÍSTICA BÁSICA. Por quê? Em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de analisar e entender um conjunto de dados.
Variáveis instrumentais
Cap 3. Modelo de regressão de duas variáveis: o problema da estimação Prof. MSc. Saulo Jardim Modelagem Estatística.
Exemplo – análise de sensibilidade da CIA
Econometria Propriedades assintóticas dos estimadores MQO
Análise de regressão múltipla
Análise de regressão múltipla
Econometria Heterocedasticidade Consequências da violação
Aproximação da binomial pela normal
Regressão
Ms.Rosebel Trindade Cunha Prates
Introdução às distribuições normais AULA 5. Propriedades de uma distribuição normal Suas média, mediana e moda são iguais. Tem forma de sino e é simétrica.
Estatística Aplicada Larson Farber 9 Correlação e regressão.
Unidade 1: Analise Combinatória 1.1 Conjunto e operações sobre conjunto 1.2 Factorial 1.3 Princípio fundamental da contagem ( princípio multiplicativo)
Multicolinearidade Observações missing
CORRELAÇÃO Universidade Federal Rural do Rio de Janeiro CPGA-Solos
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2018 Estimação Pontual Camilo Daleles Rennó
Estatística amintas paiva afonso.
Denilson Morais Vagner Ayres Lara
Econometria Inferência.
Modelos de escolha discreta e análise da demanda do consumidor
Referência: Pinto, Cristine Campos de Xavier
UNIDADE 8 Analisar os dados -1 Carlos Arriaga Costa
Regression and Clinical prediction models
INTRODUÇÃO À ANÁLISE DE REGRESSÃO APLICADA À ENGENHARIA FLORESTAL
Transcrição da apresentação:

Modelos de variáveis qualitativas dependentes Econometria Pós Julho de 2017

Modelo de probabilidade linear

LOGIT

Probabilidade, odds e logit Explicar a ocorrência de um evento: y={0;1} tem dois possíveis valores (0 e 1) Precisamos explicar a probabilidade de ocorrência do evento, condicionado em X: P(Y=y | X) ∈ [0 ; 1]. MQO não é adequado pois as predições caem fora do intervalo [0 ; 1]. Temos que transformar o número real z que ∈ ]-∞;+∞[ para uma P(Y=y | X) ∈ [0 ; 1]. A transformação logística faz esta ligação – o número real z ∈ ]-∞;+∞[ para P(Y=y | X) ∈ [0 ; 1]. Ou seja, função de ligação - link function

Função link Logit

Logit A probabilidade de que um evento ocorra é:

Odds ratio – razão de chances A odds ratio é definida como a razão entre a probabilidade e seu complemento. Tomando o log temos z. Consequentemente, z é a transformação logarítima da “odds ratio”. Z ∈ ]-∞;+∞[ and P(Y=1) ∈ [0 ; 1] A probabilidade não é linear em z

Probabilidade, odds e logit P(Y=1) Odds p(y=1) 1-p(y=1) Ln (odds) 0.01 1/99 0,01 -4,60 0.03 3/97 0,03 -3,48 0.05 5/95 0,05 -2,94 0.20 20/80 0,25 -1,39 0.30 30/70 0,43 -0,85 0.40 40/60 0,67 -0,41 0.50 50/50 1,00 0,00 0.60 60/40 1,50 0,41 0.70 70/30 2,33 0,85 0.80 80/20 4,00 1,39 0.95 95/5 19,0 2,94 0.97 97/3 32,3 3,48 0.99 99/1 99,0 4,60

Transformação logística A probabilidade varia entre 0 e 1, a odds varia entre 0 e + ∞. O log da odds varia entre– ∞ e + ∞ . Note que a distribuição do log da odds é simétrica.

Plot do log da Odds

“A probabilidade não é linear em z”

Como estimamos se não conhecemos o z? Função logit No modelo: Como estimamos se não conhecemos o z?

EMV Usamos a EMV como alternativa ao método de MQO. Ou seja, achar os estimadores dos parâmetros que sejam consistentes com os dados da amostra. A Função de verossimilhança é definida como a probabilidade conjunta de observar uma dada amostra, dados os parâmetros. Suponha que tenha uma amostra com n observações aleatórias. f(yi ) é a função densidade de probabilidade de yi = 1 ou yi = 0. A probabilidade conjunta de observar os n valores de yi é dada pela função de verossimilhança:

Função de verossimilhança Especificando f(.): . Distribuição empírica discreta de um evento que tem apenas dois resultados: sucesso (yi = 1) ou fracasso (yi = 0). Distribuição binomial

Função de verossimilhança Sabendo p (se for um logit), temos a função de verossimilhança:

Log da função de verossimilhança (LL) Transformação logarítima (log likelihood) :

EMV A função LL pode dar infinitos valores para β. Dada a forma funcional de f(.) e as n observações, qual valor dos parâmetros β que maximizam a função de verossimilhança para a minha amostra? Em outras palavras, quais são os valores mais prováveis para o meu vetor de parâmetros desconhecidos β dada a amostra disponível?

EMV LL é globalmente côncava e tem um máximo. O gradiente é para computar os parâmetros de interesse, e a hessian é usada para calcular a matriz variância covariância. Não existe solução analítica para este problema não linear. Uso do algortimo de otimização Newton-Raphson. O computador irá gerar todos possíveis valores para β, e irá calcular o valor da verossimilhança para cada um, para escolher o vetor de β tal que a verossimilhança seja a mais alta.

Exemplo: Fatores que afetam a probabilidade de ter uma firma que faz inovação (inno = 1) 352 (81.7%) inovam e 79 (18.3%) não inovam. A odds de se ter uma inovação é 4 contra 1 (352/79=4.45). log da odds é 1.494 (z = 1.494) Para a amostra de firmas a probabilidade de ser inovador é 4 vezes maior que a probabilidade de não ser inovador. 19

Regressão logística Modelo com a constante apenas 20

Interpretação dos coeficientes Transformação do logit em probabilidade : 21

Interpretação dos coeficientes Valor empírico da amostra: 81,7% 22

Interpretação dos coeficientes Um coeficiente positivo indica que a probabilidade de inovação aumenta com o valor da variável explicativa. E vice-versa. Não linearidade: a probabilidade não varia na mesma magnitude conforme o nível dos regressores. Calcular a probabilidade do evento ocorrer num ponto médio da amostra. 23

Exemplo Modelo completo 24

Interpretação Usando os valores médios de rdi, lassets, spe e biotech, podemos calcular a probabilidade condicionada : 25

Efeitos marginais A probabilidade é uma função não linear das variáveis explicativas Uma mudança na probabilidade devido a mudança em uma variável explicativa não é independente dos valores das outras variáveis explicativas. 26

Medidas de ajuste Nas estimações por Máxima Verossimilhança, não há algo como um R2 O log da verossimilhança pode ser usado como medida de ajuste. Comparar os modelos usando os valores de LL.

Teste LR A LR consiste na diferença entre o modelo não restrito (unc) e o modelo restrito (c ). Esta diferença segue uma distribuição de probabilidade de uma c2. Se a diferença entre os valores de LL é (não é) importante, é porque o conjunto de variáveis explicativas dão (não dão) informação relevante. A hipótese nula H0 é que o modelo não fornece informação relevante. Para valores altos de LR rejeitamos H0 e aceitamos a hipótese alternativa Ha de que o conjunto de variáveis explicativas explicam de forma significativa o resultado.

McFadden Pseudo R2 McFadden Pseudo R2 (1973). Interpretação análoga ao R2. Viesado para baixo e sempre baixo…

Modelo restrito Irrestrito 30

LR teste de uma variável adicionada (biotech) 31

Qualidade da predição