Avaliação de Impacto Experimental: Teoria e Prática

Avaliação de Impacto Experimental: Teoria e Prática
PPGE-UFRGS 27 e 28 de Junho de 2017 Caio Piza – Unidade de Avaliação de Impacto do Banco Mundial (DIME)

Motivação O governo brasileiro implementa um programa de combate à pobreza: Brasil sem Miséria Após um ano da implementação do programa, um Texto para Discussão do Ipea é publicado mostrando que a renda domiciliar per capita das famílias participantes aumentou, na media, 10%. O autor do paper se emploga e atribui o aumento da renda média ao programa. Você concorda?

Motivação Você lê o paper e reflete: Finalmente um governo que faz algo pelos pobres! Porém, lembra-se do que aprendeu no curso de avaliação de impacto: mas como teria evoluído a renda domiciliar média dessas famílias na ausência do programa? Problema fundamental de inferência causal: o que teria acontecido com os participantes caso não tivessem participado do programa/intervenção?

Problema Fundamental de Inferência Causal
Papers seminais: Holland (1986) e Lalonde (1986) Gerber and Green: Glennerster and Takavarasha:

Problemas potenciais com o argumento do paper
O programa foi implementado no N e NE apenas: a escolha da região onde a intervenção ocorreu tem alta incidência de pobreza – sample selection; O programa foi implementado em todo o Brasil, porém a adesão (take-up) variou de região para região (e.g. maior no S e SE do que no N e NE) Auto-seleção; e/ou Implementação (diferença em infra-estrutura) A renda média da economia aumentou; Alto leakage do programa (não-pobres incluídos);

Como identificar o contra-factual?
Experimentos aleatórios (Randomized Controlled Trial – RCT); Quase-experimentos: Seleção em observáveis (propensity score matching e IPW) Seleção em não-observáveis (RDD, diff-in-diff e IV)

RCTs: A Teoria

Experimentos aleatórios – gold standard
Definições importantes: Experimento aleatório NÃO É o mesmo que amostra aleatória Unidade de intervenção/aleatorização vs. unidade de análise (implicações para a estimação do erro-padrão) Parâmetros de interesse Efeito médio do tratamento: ATE Efeito médio do tratamento sobre os tratados: ATT Efeito médio do tratamento sobre os elegíveis (Intenção de tratar): ITT Efeito médio do tratamento local: LATE

Mundo Ideal: O Clone Perfeito
Fulanito Clone do Fulanito X 6 balas 4 balas IMPACTO=6-4=2 Balas

Na prática, usamos estatística
Tratamento Controle X Média Y=6 Balas Média Y=4 Balas IMPACTO=6-4=2 Balas

Seleção aleatório dos grupos de tratamento e controle
3. Sorteio 1. População-alvo 2. Amostra para a avaliação X Controle For presentation (with animation effects) Tratamento = Ineligíveis Validade Externa Validade Interna = Eligíveis

Mais intuição… “Um programa é desenvolvido para ajudar pequenas empresas que mais necessitam de apoio” score Automaticamento excluídos -- ineligíveis Automaticamente incluídos Pode ou não receber o apoio – eligíveis

Mais intuição… “Um programa é desenvolvido para ajudar pequenas empresas que mais necessitam de apoio” Automaticamento excluídos -- ineligíveis Automaticamente incluídos Pode ou não receber o apoio – sortear apenas as firmas deste grupo

Avaliação de impacto somente para este grupo
Mais intuição… “Um programa é desenvolvido para ajudar pequenas empresas que mais necessitam de apoio” Automaticamento excluídos -- ineligíveis Automaticamente incluídos Avaliação de impacto somente para este grupo

Unidade de Aleatorização
Choose according to type of program Individual/Household School/Health Clinic/catchment area Block/Village/Community/Region As a rule of thumb, randomize at the smallest viable unit of implementation. Keep in mind Need “sufficiently large” number of units to detect minimum desired impact: Power. Clustering reduces effective sample size Standard Errors need to be “clustered” Spillovers/contamination Operational and survey costs

Experimentos aleatórios: Comparação de Médias
Sejam os resultados potenciais da i-ésima unidade de decisão (e.g. indivíduo, família, empresa, diretor, professor, gerente etc.) quando ele é submetido ao tramento ou não. Nós observamos i.e., quando Ti=1 e quando Ti=0. O parâmetro que gostaríamos de observar é: Problema de missing data

Holland (1986): The fundamental problem of causal inference Sob aleatorização, Então,

Antes e Depois – Naive approach
Linha de base (baseline) Fonte: Ravallion, WB

Diferença de Médias em t=1
𝛽= 𝑌 1 − 𝑌 1 ∗ Fonte: Ravallion, WB.

Como estimar o efeito médio do programa? Single difference: Double difference (ou diff-in-diff): onde T é a dummy de tratamento e D a dummy de tempo (antes e depois); o efeito do programa é dado pelo coeficiente do termo da interação. Obs: mesmo com RCTs recomenda-se a inclusão de controles que sejam correlacionados com as variáveis de resultado (Y) para aumentar a eficiência da estimativa. Um ótimo controle costuma ser a variável dependente defasada.

Intention-to-treat - ITT Suponha que nós não observamos os indivíduos efetivamente tratados, mas apenas os elegíveis a receber o tratamento. Seja Z uma função indicador que identifica o grupo de elegíveis. O ITT pode ser estimado como (pode ser via diff-in-diff também): Note que o ATT > ITT em termos absolutos. Como recuperar o ATT a partir do ITT? Mencionar o método ANCOVA.

Nível da aleatorização
A aleatorização pode ocorrer no nível da unidade de análise ou em níveis acima. Exemplo: aleatorizar escolas para receberem um determinado programa (e.g. Círculo da Matemática) e medir o efeito no desempenho dos alunos Por que e quando se opta por tal desenho? Qual a implicação desse tipo de desenho (cluster randomized trial - CRT) para a estimação do efeito do programa?

Por que e quando se opta por tal desenho?
Spillovers Mais fácil de justificar politicamente Expansão gradual do programa

Qual a implicação desse tipo de desenho…?
O erro-padrão da estimativa do efeito do tratamento será maior e, portanto, maior será o risco de erro tipo II (não rejeitar a nula quando deveria). Por que?!

Nível da aleatorização
CRT: intracluster correlation (correlação entre clusters) Fórmula: ρ= 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑐𝑙𝑢𝑠𝑡𝑒𝑟𝑠 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 + 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑑𝑒𝑛𝑡𝑟𝑜 Ou seja, qto menor a variância entre e maior a variância dentro, melhor. Intuição: se ICC for 0, é como se não houvesse diferença entre clusters e, portanto, o cluster não desempenha nenhuma função (melhor dos mundos); se o ICC for 1, então todos dentro do cluster são idênticos e número de obs é igual ao número de clusters (pior dos mundos) Geralmente, a variância “entre clusters” é grande e “dentro do cluster” pequena Pode-se ganhar poder estatístico com estratificação!

Nível de aleatorização
Design effect: usado para medir o aumento na amostra requerido quando se tem um cluster design Design effect= 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑓𝑜𝑟 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 𝑠𝑎𝑚𝑝𝑙𝑖𝑛𝑔 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑓𝑜𝑟 𝑠𝑖𝑚𝑝𝑙𝑒 𝑟𝑎𝑛𝑑𝑜𝑚 𝑠𝑎𝑚𝑝𝑙𝑖𝑛𝑔 Effective sample size = actual sample size/DEff Um DEff de 2 significa que um cluster sample precisa do dobro da amostra de um simple random sampling (individual randomization) para ter a mesma precisão (ou poder estatístico).

Nível de aleatorização
D𝐸𝑓𝑓=1+ 𝑚−1 𝜌, onde m é o número de indivíduos por cluster Var(y=1)= 𝑝 1−𝑝 𝑛 1+ 𝑚−1 𝜌 , para um outcome binário

RCTs: A Prática

RCT na prática Passo 1: entender muito bem a intervenção – qual o seu objetivo final e como atingi-lo; Passo 2: a partir dos objetivos geral e específicos elaborar a teoria da mudança (theory of change); Passo 3: desenhar a intervenção e realizar cálculos de poder estatístico para definir: Qual o tamanho da amostra necessário para detectar um efeito do programa de X% (ou SD) na variável de resultado Y; Se CRT, verificar como o power varia com diferentes valores do ICC; e Quantos braços de tratamento a intervenção suporta; Qual ondas de coletas de dados serão necessárias (importante para o poder estatístico e alguns outcomes) Vários trade-offs na prática! (veja este blogpost do Berk Ozler)

Desafios Aleatorizar é a parte mais simples da avaliação!
A condição de ortogonalidade propiciada pelo sorteio requer muito esforço durante a implementação para se manter válida durante o exercício de avaliação A qualidade da implementação e dos dados coletados fazem toda a diferença Adesão (take-up), delivery, atrito e spillovers (SUTVA) Monitoramento… piloto vs. escalabilidade (veja esses exemplos em educação: link1 e link2)

Opções de Aleatorização
Aleatorização Pura (Sorteio) apenas alguns participam do piloto Entrada gradual todos entram eventualmente Desenho de incentivo (no caso de adesão parcial) Todos podem entrar, alguns são encorajados a fazê-lo Variação no tratamento cobertura integral, diferentes opções 32

Oportunidades para Experimentos
Aleatorização Pura (Sorteio) Entrada gradual (Phase-in Design) Encorajamento Variação no tratamento ou múltiplos tratamentos

Entrada Gradual Restrição orçamentária e/ou de logística sorteio
Mais firmas elegíveis do que o programa é capaz de comportar/atender Número insuficiente de consultores para treinar todos ao mesmo tempo Solução: sorteio para definir quem entra primeiro Capacidade limitada  Aleatorizar a ordem de entrada Os que ficarem no final da lista de entrada desempenham o papel do grupo de controle

Excesso de demanda!

Baixa adesão (take-up) é um problema bastante frequente
Excesso de otimismo!

A real-life example Matching grant application vs. completion rates

Encorajamento Suponha que haja pouca adesão por parte das pequenas e medias empresas ao Cartão BNDES. O que pode ser feito? Você pode sugerir um experimento com encorajamento Objetivo: aumentar a adesão Selecionar o grupo de firmas elegíveis que não aderiram ao programa Dividir, via sorteio, as firmas elegíveis em dois grupos, as que serão encorajadas e as que não serão (controle) Observação: O incentivo tem de ser efeitvo e você poderá ter de encorajar muitas firmas

Divulgação Aleatoria (Desenho de Encorajamento)
Com encorajamento Sem encorajamento

Divulgação Aleatoria (Desenho de Encorajamento)
Sem encorajamento Com encorajamento Não tratados Verdinhos = never takers Amarelinhos = always takers Azuizinhos = compliers O efeito é medido entre os azuizinhos (compliers) Tratados

Variação no tratamento
O Sebrae-RJ já oferece um serviço há bastante tempo Se a adesão for alta não haverá espaço para encorajamento Nesse caso você pode variar o tratamento Oferecer dois formatos do serviço, o padrão e um alternativo (e.g. 1 visita in loco vs. consulta online) Ofecer apenas o currículo padrão com diferentes intensidades (e.g. 1 visita vs. 2 visitas) Não haverá grupo de controle puro mas grupos recebendo diferentes tratamentos

RESULTADOS DE MÉDIO PRAZO RESULTADOS DE LONGO PRAZO
Teoria da Mudança: Exemplo do programa Sebrae na sua Empresa (Sebrae-RJ) ATIVIDADES PRODUTOS INTERVENÇÕES RESULTADOS DE MÉDIO PRAZO RESULTADOS DE LONGO PRAZO Consultores visitam as empresas para coletar informações sobre as práticas de gestão e perfil do empreendedor Diagnóstico sobre práticas de gestão Feedback padrão (abordagem atual) Nº de empresas que adotaram melhores práticas de gestão Aumento de vendas Maiores lucros Maior produtividade Mais empregados Diagnóstico do perfil do empreendedor Feedback com benchmark e referência de melhores práticas Adoção de melhores práticas, de acordo com o perfil do empreendedor Quantidade de empresas visitadas s e SMS enviados às empresas com links de acesso aos materiais gratuitos do SEBRAE Nº de empresas que acessaram o material Feedback com benchmark + informações sobre retornos esperados Adoção de melhores práticas via materiais e serviços fornecidos pelo SEBRAE Feedback com benchmark + informações de retornos + vídeos com depoimentos de casos de sucesso Indicador de” Espírito Empreendedor” Nº de empresas que buscaram o SEBRAE para apoio adicional

Aidan Coville Development Impact Evaluation (DIME), World Bank
Practical sampling Aidan Coville Development Impact Evaluation (DIME), World Bank This presentation draws from work from Laura Chioda and many other DIME colleagues IE Target for Growth Impact Evaluation Workshop Mexico City, 1 March 2017 *This presentation draws from work from Laura Chioda and many other DIME colleagues

Why is it important for IE?
We want to know the true impact But we need to estimate this impact from a sample Estimation means we can sometimes make mistakes Making mistakes can be costly…

What influences the sample size I need?
Size of impact Variation in outcome Level of clustering Take up

Size of impact Who is taller? Big impacts are easy to identify
An intuitive way to explain why it’s harder to distinguish between groups that are very similar: Who is taller? Very easy to tell things apart when the difference is large. Big impacts are easy to identify Small impacts are more difficult Need more precision/accuracy Larger sample needed

Minimum detectable effect
We need a sample size able to detect the smallest effect size of importance. To guide this decision we need to ask: “What is the smallest effect size that, if it were any smaller, the intervention would not be worth the effort?”

Mo money mo power If we want to detect small effects, the sample size requirements quickly get out of hand

Need to be realistic

Which group has more to sell?
How does the variance of the outcome affect our ability to detect an impact?

Now… which group has more to sell?
How does the variance of the outcome affect our ability to detect an impact?

Which instance requires a more precise measuring device?
Graphs from JPAL Executive Education course. Low standard deviation: We can definitely tell these two groups apart. Medium standard deviation: It’s a little harder to tell them apart High standard deviation: Can we say anything here? Relationship between sample size and variance: Recall the 5 firm and 1,000 firm cases. The 1,000 firm case had much lower variance.

Variation in outcomes (summary)
In sum: More underlying variance (heterogeneity)  more difficult to detect difference  need larger sample size Tricky: How do we know about heterogeneity before we decide our sample size and collect our data? Ideal: pre-existing data … but often non-existent Can use pre-existing data from a similar population Example: enterprise surveys, labor force surveys Common sense

Clustering (1/4) For logistical or spillover reasons we may want to randomize at the group level. Sample size required increases, the higher the level of intervention assignment Business level Business group level Village/port/… Province? Even if unit of analysis is the firm, if level of randomization is at province (cluster) level, we run into challenges quickly…

Clustering (2/4) What is the added value of more samples in the same cluster? Village 3 Village 1 Village 4 Village 2

Clustering (3/4) Village 3 Village 1 Village 4 Village 2

Clustering (4/4) Takeaway
Larger within cluster correlation (guys in same cluster are similar) lower marginal value per extra sampled unit in the cluster higher sample size/more clusters needed than a simple random sample. Rule of thumb: at least 40 clusters per treatment arm

Take up vs. sample size

The larger the sample size
Overview Who to interview is ultimately determined by our research/policy questions How Many: Elements: Implication for Sample Size: The smaller effects that we want to detect The larger the sample size will have to be The more underlying heterogeneity (variance) The more clustering in samples The lower take up

How can we boost power Focus on homogenous group (if applicable)
High frequency data on core indicators Increase take up better quality data (its worth it…) Avoid clustering where possible but if its important (e.g. because of spillovers), try to maximize number of clusters

Q2: How many cluster should my sample have?

The answer is… = 42

Avaliação de Impacto Experimental: Teoria e Prática

Apresentações semelhantes

Apresentação em tema: "Avaliação de Impacto Experimental: Teoria e Prática"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Avaliação de Impacto Experimental: Teoria e Prática

Apresentações semelhantes

Apresentação em tema: "Avaliação de Impacto Experimental: Teoria e Prática"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback