Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouCarla Cabral Canejo Alterado mais de 6 anos atrás
1
Avaliação de Impacto Experimental: Teoria e Prática
PPGE-UFRGS 27 e 28 de Junho de 2017 Caio Piza – Unidade de Avaliação de Impacto do Banco Mundial (DIME)
2
Motivação O governo brasileiro implementa um programa de combate à pobreza: Brasil sem Miséria Após um ano da implementação do programa, um Texto para Discussão do Ipea é publicado mostrando que a renda domiciliar per capita das famílias participantes aumentou, na media, 10%. O autor do paper se emploga e atribui o aumento da renda média ao programa. Você concorda?
3
Motivação Você lê o paper e reflete: Finalmente um governo que faz algo pelos pobres! Porém, lembra-se do que aprendeu no curso de avaliação de impacto: mas como teria evoluído a renda domiciliar média dessas famílias na ausência do programa? Problema fundamental de inferência causal: o que teria acontecido com os participantes caso não tivessem participado do programa/intervenção?
4
Problema Fundamental de Inferência Causal
Papers seminais: Holland (1986) e Lalonde (1986) Gerber and Green: Glennerster and Takavarasha:
5
Problemas potenciais com o argumento do paper
O programa foi implementado no N e NE apenas: a escolha da região onde a intervenção ocorreu tem alta incidência de pobreza – sample selection; O programa foi implementado em todo o Brasil, porém a adesão (take-up) variou de região para região (e.g. maior no S e SE do que no N e NE) Auto-seleção; e/ou Implementação (diferença em infra-estrutura) A renda média da economia aumentou; Alto leakage do programa (não-pobres incluídos);
6
Como identificar o contra-factual?
Experimentos aleatórios (Randomized Controlled Trial – RCT); Quase-experimentos: Seleção em observáveis (propensity score matching e IPW) Seleção em não-observáveis (RDD, diff-in-diff e IV)
7
Como identificar o contra-factual?
Experimentos aleatórios (Randomized Controlled Trial – RCT); Quase-experimentos: Seleção em observáveis (propensity score matching e IPW) Seleção em não-observáveis (RDD, diff-in-diff e IV)
8
RCTs: A Teoria
9
Experimentos aleatórios – gold standard
Definições importantes: Experimento aleatório NÃO É o mesmo que amostra aleatória Unidade de intervenção/aleatorização vs. unidade de análise (implicações para a estimação do erro-padrão) Parâmetros de interesse Efeito médio do tratamento: ATE Efeito médio do tratamento sobre os tratados: ATT Efeito médio do tratamento sobre os elegíveis (Intenção de tratar): ITT Efeito médio do tratamento local: LATE
10
Mundo Ideal: O Clone Perfeito
Fulanito Clone do Fulanito X 6 balas 4 balas IMPACTO=6-4=2 Balas
11
Na prática, usamos estatística
Tratamento Controle X Média Y=6 Balas Média Y=4 Balas IMPACTO=6-4=2 Balas
12
Seleção aleatório dos grupos de tratamento e controle
3. Sorteio 1. População-alvo 2. Amostra para a avaliação X Controle For presentation (with animation effects) Tratamento = Ineligíveis Validade Externa Validade Interna = Eligíveis
13
Mais intuição… “Um programa é desenvolvido para ajudar pequenas empresas que mais necessitam de apoio” score Automaticamento excluídos -- ineligíveis Automaticamente incluídos Pode ou não receber o apoio – eligíveis
14
Mais intuição… “Um programa é desenvolvido para ajudar pequenas empresas que mais necessitam de apoio” Automaticamento excluídos -- ineligíveis Automaticamente incluídos Pode ou não receber o apoio – sortear apenas as firmas deste grupo
15
Avaliação de impacto somente para este grupo
Mais intuição… “Um programa é desenvolvido para ajudar pequenas empresas que mais necessitam de apoio” Automaticamento excluídos -- ineligíveis Automaticamente incluídos Avaliação de impacto somente para este grupo
16
Unidade de Aleatorização
Choose according to type of program Individual/Household School/Health Clinic/catchment area Block/Village/Community/Region As a rule of thumb, randomize at the smallest viable unit of implementation. Keep in mind Need “sufficiently large” number of units to detect minimum desired impact: Power. Clustering reduces effective sample size Standard Errors need to be “clustered” Spillovers/contamination Operational and survey costs
17
Experimentos aleatórios: Comparação de Médias
Sejam os resultados potenciais da i-ésima unidade de decisão (e.g. indivíduo, família, empresa, diretor, professor, gerente etc.) quando ele é submetido ao tramento ou não. Nós observamos i.e., quando Ti=1 e quando Ti=0. O parâmetro que gostaríamos de observar é: Problema de missing data
18
Experimentos aleatórios: Comparação de Médias
Holland (1986): The fundamental problem of causal inference Sob aleatorização, Então,
19
Antes e Depois – Naive approach
Linha de base (baseline) Fonte: Ravallion, WB
20
Diferença de Médias em t=1
𝛽= 𝑌 1 − 𝑌 1 ∗ Fonte: Ravallion, WB.
21
Experimentos aleatórios: Comparação de Médias
Como estimar o efeito médio do programa? Single difference: Double difference (ou diff-in-diff): onde T é a dummy de tratamento e D a dummy de tempo (antes e depois); o efeito do programa é dado pelo coeficiente do termo da interação. Obs: mesmo com RCTs recomenda-se a inclusão de controles que sejam correlacionados com as variáveis de resultado (Y) para aumentar a eficiência da estimativa. Um ótimo controle costuma ser a variável dependente defasada.
22
Experimentos aleatórios: Comparação de Médias
Intention-to-treat - ITT Suponha que nós não observamos os indivíduos efetivamente tratados, mas apenas os elegíveis a receber o tratamento. Seja Z uma função indicador que identifica o grupo de elegíveis. O ITT pode ser estimado como (pode ser via diff-in-diff também): Note que o ATT > ITT em termos absolutos. Como recuperar o ATT a partir do ITT? Mencionar o método ANCOVA.
23
Nível da aleatorização
A aleatorização pode ocorrer no nível da unidade de análise ou em níveis acima. Exemplo: aleatorizar escolas para receberem um determinado programa (e.g. Círculo da Matemática) e medir o efeito no desempenho dos alunos Por que e quando se opta por tal desenho? Qual a implicação desse tipo de desenho (cluster randomized trial - CRT) para a estimação do efeito do programa?
24
Por que e quando se opta por tal desenho?
Spillovers Mais fácil de justificar politicamente Expansão gradual do programa
25
Qual a implicação desse tipo de desenho…?
O erro-padrão da estimativa do efeito do tratamento será maior e, portanto, maior será o risco de erro tipo II (não rejeitar a nula quando deveria). Por que?!
26
Nível da aleatorização
CRT: intracluster correlation (correlação entre clusters) Fórmula: ρ= 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑐𝑙𝑢𝑠𝑡𝑒𝑟𝑠 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 + 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑑𝑒𝑛𝑡𝑟𝑜 Ou seja, qto menor a variância entre e maior a variância dentro, melhor. Intuição: se ICC for 0, é como se não houvesse diferença entre clusters e, portanto, o cluster não desempenha nenhuma função (melhor dos mundos); se o ICC for 1, então todos dentro do cluster são idênticos e número de obs é igual ao número de clusters (pior dos mundos) Geralmente, a variância “entre clusters” é grande e “dentro do cluster” pequena Pode-se ganhar poder estatístico com estratificação!
27
Nível de aleatorização
Design effect: usado para medir o aumento na amostra requerido quando se tem um cluster design Design effect= 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑓𝑜𝑟 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 𝑠𝑎𝑚𝑝𝑙𝑖𝑛𝑔 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑓𝑜𝑟 𝑠𝑖𝑚𝑝𝑙𝑒 𝑟𝑎𝑛𝑑𝑜𝑚 𝑠𝑎𝑚𝑝𝑙𝑖𝑛𝑔 Effective sample size = actual sample size/DEff Um DEff de 2 significa que um cluster sample precisa do dobro da amostra de um simple random sampling (individual randomization) para ter a mesma precisão (ou poder estatístico).
28
Nível de aleatorização
D𝐸𝑓𝑓=1+ 𝑚−1 𝜌, onde m é o número de indivíduos por cluster Var(y=1)= 𝑝 1−𝑝 𝑛 1+ 𝑚−1 𝜌 , para um outcome binário
29
RCTs: A Prática
30
RCT na prática Passo 1: entender muito bem a intervenção – qual o seu objetivo final e como atingi-lo; Passo 2: a partir dos objetivos geral e específicos elaborar a teoria da mudança (theory of change); Passo 3: desenhar a intervenção e realizar cálculos de poder estatístico para definir: Qual o tamanho da amostra necessário para detectar um efeito do programa de X% (ou SD) na variável de resultado Y; Se CRT, verificar como o power varia com diferentes valores do ICC; e Quantos braços de tratamento a intervenção suporta; Qual ondas de coletas de dados serão necessárias (importante para o poder estatístico e alguns outcomes) Vários trade-offs na prática! (veja este blogpost do Berk Ozler)
31
Desafios Aleatorizar é a parte mais simples da avaliação!
A condição de ortogonalidade propiciada pelo sorteio requer muito esforço durante a implementação para se manter válida durante o exercício de avaliação A qualidade da implementação e dos dados coletados fazem toda a diferença Adesão (take-up), delivery, atrito e spillovers (SUTVA) Monitoramento… piloto vs. escalabilidade (veja esses exemplos em educação: link1 e link2)
32
Opções de Aleatorização
Aleatorização Pura (Sorteio) apenas alguns participam do piloto Entrada gradual todos entram eventualmente Desenho de incentivo (no caso de adesão parcial) Todos podem entrar, alguns são encorajados a fazê-lo Variação no tratamento cobertura integral, diferentes opções 32
33
Oportunidades para Experimentos
Aleatorização Pura (Sorteio) Entrada gradual (Phase-in Design) Encorajamento Variação no tratamento ou múltiplos tratamentos
34
Entrada Gradual Restrição orçamentária e/ou de logística sorteio
Mais firmas elegíveis do que o programa é capaz de comportar/atender Número insuficiente de consultores para treinar todos ao mesmo tempo Solução: sorteio para definir quem entra primeiro Capacidade limitada Aleatorizar a ordem de entrada Os que ficarem no final da lista de entrada desempenham o papel do grupo de controle
35
Oportunidades para Experimentos
Aleatorização Pura (Sorteio) Entrada gradual (Phase-in Design) Encorajamento Variação no tratamento ou múltiplos tratamentos
36
Excesso de demanda!
37
Baixa adesão (take-up) é um problema bastante frequente
Excesso de otimismo!
38
A real-life example Matching grant application vs. completion rates
40
Encorajamento Suponha que haja pouca adesão por parte das pequenas e medias empresas ao Cartão BNDES. O que pode ser feito? Você pode sugerir um experimento com encorajamento Objetivo: aumentar a adesão Selecionar o grupo de firmas elegíveis que não aderiram ao programa Dividir, via sorteio, as firmas elegíveis em dois grupos, as que serão encorajadas e as que não serão (controle) Observação: O incentivo tem de ser efeitvo e você poderá ter de encorajar muitas firmas
41
Divulgação Aleatoria (Desenho de Encorajamento)
Com encorajamento Sem encorajamento
42
Divulgação Aleatoria (Desenho de Encorajamento)
Sem encorajamento Com encorajamento Não tratados Verdinhos = never takers Amarelinhos = always takers Azuizinhos = compliers O efeito é medido entre os azuizinhos (compliers) Tratados
43
Oportunidades para Experimentos
Aleatorização Pura (Sorteio) Entrada gradual (Phase-in Design) Encorajamento Variação no tratamento ou múltiplos tratamentos
44
Variação no tratamento
O Sebrae-RJ já oferece um serviço há bastante tempo Se a adesão for alta não haverá espaço para encorajamento Nesse caso você pode variar o tratamento Oferecer dois formatos do serviço, o padrão e um alternativo (e.g. 1 visita in loco vs. consulta online) Ofecer apenas o currículo padrão com diferentes intensidades (e.g. 1 visita vs. 2 visitas) Não haverá grupo de controle puro mas grupos recebendo diferentes tratamentos
46
RESULTADOS DE MÉDIO PRAZO RESULTADOS DE LONGO PRAZO
Teoria da Mudança: Exemplo do programa Sebrae na sua Empresa (Sebrae-RJ) ATIVIDADES PRODUTOS INTERVENÇÕES RESULTADOS DE MÉDIO PRAZO RESULTADOS DE LONGO PRAZO Consultores visitam as empresas para coletar informações sobre as práticas de gestão e perfil do empreendedor Diagnóstico sobre práticas de gestão Feedback padrão (abordagem atual) Nº de empresas que adotaram melhores práticas de gestão Aumento de vendas Maiores lucros Maior produtividade Mais empregados Diagnóstico do perfil do empreendedor Feedback com benchmark e referência de melhores práticas Adoção de melhores práticas, de acordo com o perfil do empreendedor Quantidade de empresas visitadas s e SMS enviados às empresas com links de acesso aos materiais gratuitos do SEBRAE Nº de empresas que acessaram o material Feedback com benchmark + informações sobre retornos esperados Adoção de melhores práticas via materiais e serviços fornecidos pelo SEBRAE Feedback com benchmark + informações de retornos + vídeos com depoimentos de casos de sucesso Indicador de” Espírito Empreendedor” Nº de empresas que buscaram o SEBRAE para apoio adicional
47
Aidan Coville Development Impact Evaluation (DIME), World Bank
Practical sampling Aidan Coville Development Impact Evaluation (DIME), World Bank This presentation draws from work from Laura Chioda and many other DIME colleagues IE Target for Growth Impact Evaluation Workshop Mexico City, 1 March 2017 *This presentation draws from work from Laura Chioda and many other DIME colleagues
48
Why is it important for IE?
We want to know the true impact But we need to estimate this impact from a sample Estimation means we can sometimes make mistakes Making mistakes can be costly…
49
What influences the sample size I need?
Size of impact Variation in outcome Level of clustering Take up
50
What influences the sample size I need?
Size of impact Variation in outcome Level of clustering Take up
51
Size of impact Who is taller? Big impacts are easy to identify
An intuitive way to explain why it’s harder to distinguish between groups that are very similar: Who is taller? Very easy to tell things apart when the difference is large. Big impacts are easy to identify Small impacts are more difficult Need more precision/accuracy Larger sample needed
52
Minimum detectable effect
We need a sample size able to detect the smallest effect size of importance. To guide this decision we need to ask: “What is the smallest effect size that, if it were any smaller, the intervention would not be worth the effort?”
53
Mo money mo power If we want to detect small effects, the sample size requirements quickly get out of hand
54
Need to be realistic
55
What influences the sample size I need?
Size of impact Variation in outcome Level of clustering Take up
56
Which group has more to sell?
How does the variance of the outcome affect our ability to detect an impact?
57
Now… which group has more to sell?
How does the variance of the outcome affect our ability to detect an impact?
58
Which instance requires a more precise measuring device?
Graphs from JPAL Executive Education course. Low standard deviation: We can definitely tell these two groups apart. Medium standard deviation: It’s a little harder to tell them apart High standard deviation: Can we say anything here? Relationship between sample size and variance: Recall the 5 firm and 1,000 firm cases. The 1,000 firm case had much lower variance.
59
Variation in outcomes (summary)
In sum: More underlying variance (heterogeneity) more difficult to detect difference need larger sample size Tricky: How do we know about heterogeneity before we decide our sample size and collect our data? Ideal: pre-existing data … but often non-existent Can use pre-existing data from a similar population Example: enterprise surveys, labor force surveys Common sense
60
What influences the sample size I need?
Size of impact Variation in outcome Level of clustering Take up
61
Clustering (1/4) For logistical or spillover reasons we may want to randomize at the group level. Sample size required increases, the higher the level of intervention assignment Business level Business group level Village/port/… Province? Even if unit of analysis is the firm, if level of randomization is at province (cluster) level, we run into challenges quickly…
62
Clustering (2/4) What is the added value of more samples in the same cluster? Village 3 Village 1 Village 4 Village 2
63
Clustering (3/4) Village 3 Village 1 Village 4 Village 2
64
Clustering (4/4) Takeaway
Larger within cluster correlation (guys in same cluster are similar) lower marginal value per extra sampled unit in the cluster higher sample size/more clusters needed than a simple random sample. Rule of thumb: at least 40 clusters per treatment arm
65
What influences the sample size I need?
Size of impact Variation in outcome Level of clustering Take up
66
Take up vs. sample size
67
The larger the sample size
Overview Who to interview is ultimately determined by our research/policy questions How Many: Elements: Implication for Sample Size: The smaller effects that we want to detect The larger the sample size will have to be The more underlying heterogeneity (variance) The more clustering in samples The lower take up
68
How can we boost power Focus on homogenous group (if applicable)
High frequency data on core indicators Increase take up better quality data (its worth it…) Avoid clustering where possible but if its important (e.g. because of spillovers), try to maximize number of clusters
69
Q2: How many cluster should my sample have?
70
The answer is… = 42
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.