A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Controlando por covariadas

Apresentações semelhantes


Apresentação em tema: "Controlando por covariadas"— Transcrição da apresentação:

1 Controlando por covariadas
Seçao 3.2 Morgan & Winship

2 Relembrando: ATE = efeito médio do tratamento
ATE = E() = E(Y1 – Y0) = E(Y1) – E(Y0)  2.3 ATT = efeito médio do tratamento sobre os tratados ATT = E(|D=1) = E(Y1 – Y0|D=1) = E(Y1|D=1) – E(Y0|D=1)  2.5 ATC = efeito médio do tratamento sobre os não-tratados ATC = E(|D=0) = E(Y1 – Y0|D=0) = E(Y1|D=0) – E(Y0|D=0)  2.6

3 Estimador Naive E (Y1|D=1) - E(Y0|D=0) = E() +
(1- )[{E (Y1|D=1) - E(Y0|D=1)} – {E(Y1|D=0) - E(Y0|D=0)}] Viés 1: diferença no resultado sem tratamento entre grupos de tratamento e controle (viés no baseline) Viés 2: diferença esperada no efeito do tratamento entre os grupos de tratamento e de controle, ponderada pela % de quem está no controle – viés do efeito do tratamento diferencial

4 Quando naive será consistente?
Hipóteses: E (Y1|D=1) = E(Y1|D=0) E(Y0|D=1) = E(Y0|D=0) Se essas hipóteses são asseguradas, estimador naive é consistente, igual então ao ATE, que por sua vez também será igual ao ATT e ATC. No caso de aleatorização na designação do tratamento essas hipóteses serão implicadas.

5 Controlar por X Mas, e se não tivermos um experimento aleatório?
Vamos mostrar que condicionar por variáveis observadas X pode ajudar no processo de identificação do efeito causal  hipótese de seleção em observáveis

6 O papel do mecanismo de atribuição
Na tradição da literatura do modelo de resultados potenciais, nós consideramos Y (variável de resultado, observada) como sendo gerada por um processo que permuta dois resultados potenciais, como em Y= DY1 + (1-D)Y0 , onde a variável D é o ‘interruptor’ que ‘acende’ Y1 ou Y0. Para modelar a variação em Y e relacioná-la com o efeito causal individual definido a partir dos resultados potencias Y1 e Y0 , um modelo para a variação em D deve ser adotado.

7 Modelo de atribuição ao tratamento – linguagem da “Estatística”
Comecemos considerando uma designação aleatória. Nesse caso, se o tratamento foi atribuído aleatoriamente, vale a chamada HIPÓTESE DE INDEPENDÊNCIA: (Y0, Y1)  D D é independente dos resultados potenciais Y0 e Y1, ou seja, saber ou não que o sujeito foi atribuído ao tratamento não traz informação sobre qual seria o resultado do indivíduo sob o tratamento ou sob controle. Neste caso, o mecanismo de atribuição ao tratamento pode ser especificado completamente se Pr[D=1] for estabelecido para ser um valor entre 0 e 1. Se o pesquisador, quer grupos de tratamento e controle de mesmo tamanho, basta fazer Pr[D=1] = 0,5.

8 Outro exemplo O estudo pode querer estratificar por gênero e, então, designar probabilidades diferentes de tratamento por estrato. Pr[D=1|Genero=Female] = 0,7 Pr[D=1|Genero=Male] = 0,5 Estas probabilidades são chamadas de propensity scores: indicam a probabilidade que um indivíduo de características específicas tem de ser observado no grupo de tratamento. Em experimentos randomizados os propensity scores são conhecidos pelo pesquisador.

9 Dados observacionais Com dados observacionais, o pesquisador não tem conhecimento a priori dos propensity scores que se aplicam para os diferentes indivíduos. Entretanto, ele pode conhecer as características dos indivíduos que sistematicamente determinam seus propensity scores. Nesses casos, representamos o padrão de seleção ao tratamento pela distribuição da probabilidade condicional: Pr[D=1|S] S = todas as variáveis que sistematicamente determinam a atribuição do tratamento.

10 Observação completa de S
Um pesquisador pode conhecer e saber medir todas as variáveis em S. Observação completa de S permite ao pesquisador afirmar que a seleção ao tratamento é “ignorable” e, então, consistentemente estimar o efeito médio do tratamento. A ideia é que, dentro do estrato definido por S, a variação restante no tratamento D é totalmente aleatória e então o processo que gera essa variação restante é “ignorable”.

11 Observação completa de S
Experimento aleatório: (Y0, Y1)  D Um conceito de ignorabilidade mais fraca se assegura quando S é totalmente conhecido: (Y0, Y1)  D | S – Hipótese de independência condicional - CIA (Conditional Independence Assumption) A designação ao tratamento é ignorável quando os resultados potenciais são independentes do tratamento dentro do estrato definido por todas as combinações de S

12 Exemplo da escola católica
Suponha que a religiosidade dos pais seja o único fator que sistematicamente explica a designação ao tratamento. Nesse caso, o pesquisador pode calcular o ATE de forma consistente usando o Naive. A ideia é calcular a diferença de notas entre tratados e controles separadamente para alunos cujos pais são católicos e cujos pais não são católicos e depois calcular a media ponderada desses dois impactos tendo por base as porcentagens de alunos filhos de pais católicos e de pais não-católicos.

13 Modelando a seleção ao tratamento usando econometria
Aqui usamos o conceito de viés de seleção para nos referirmos ao processo de designação do tratamento que ocorre de forma não-aleatória.

14 Modelando o efeito do tratamento
Seja Y= DY1 + (1-D)Y0, tal qual definimos anteriormente. Rearranjando os termos: Y= Y0 + (Y1 - Y0) D Y= Y0 + D + E[Y0] - E[Y0] Y= 0 + D + 0, onde 0  E[Y0] e 0  Y0 - E[Y0] Soma e subtrai DE[Y1] e DE[Y0] e rearranja novamente para obter: Y= 0 + (1 - 0)D + {0 + D (1 - 0)}  3.5 onde 1  E[Y1] e 1  Y1 - E[Y1]

15 Equação a ser estimada Y= 0 + (1 - 0)D + {0 + D (1 - 0)}  3.5
Intercepto: valor esperado do indicador para o resultado na ausência do tratamento Este coeficiente mede o ATE : está associado a variável de interesse causal D Erro: capta a diferença de baseline, ou seja, no resultado potencial sem tratamento e também a diferença de impacto para os dois grupos. Quando o mecanismo de atribuição não é aleatório, haverá correlação entre D e o termo erro e, então, o coeficiente de interesse será enviesado.

16 Abrindo o erro... 0 + D (1 - 0) 0 + D1 - D0
Y0 - E[Y0] + DY1 - DE[Y1] – DY0 + DE[Y0] Y0 - E[Y0] + D{(Y1 - Y0 ) – (E[Y1] – E[Y0])}

17 Exemplo das escolas católicas
Religião afeta a escolha da escola e por hipótese também afeta positivamente as notas das crianças. Então, eu tenho uma variável que é correlacionada com D, que explica o Y e, que portanto, se não for explicitada na equação, irá gerar estimativas enviesadas do coeficiente que capta o efeito do tratamento.

18 O que fazer? Uma estratégia é acrescentar variáveis na equação anterior procurando quebrar a correlação entre D e o termo de erro. No exemplo das escolas católica, isso significa condicionar as estimativas na crença religiosa. Vamos mostrar isso de maneira mais formal:

19 Ideia é modelar É uma variável latente, contínua que define o tratamento. Z representa todas as variáveis observadas que determinam a seleção para o tratamento; Essa variável latente é então relacionada com D: D = 1 se D = 0 se

20 Juntando as duas abordagens
Z aqui é o S da abordagem estatística Se Z inclui todas as variáveis relevantes que explicam o tratamento, colocar Z na equação 3.5 nos leva a estimativas não enviesadas do efeito do tratamento. Mas, aqui não dizemos que o mecanismo de seleção é ignorable, mas sim que o mecanismo de seleção ao tratamento é feito com base em observáveis, desde que todas as variáveis que determinam a seleção são observáveis.

21 Juntando as duas abordagens
Agora suponha que as variáveis em Z sejam um subconjunto das variáveis em S. Neste caso, alguns componentes de S entram na equação 3.5 através do erro (U). Neste caso, a seleção ao tratamento não se dá apenas por observáveis; ou o mecanismo de seleção para o tratamento não é ignorable.

22 Seleção por observáveis
Uma das técnicas mais utilizadas e mais frágil também em se tratando de dados observacionais. Exige hipóteses mais fortes. Ideia básica aqui é defender quais X você irá incluir na equação.


Carregar ppt "Controlando por covariadas"

Apresentações semelhantes


Anúncios Google