Avaliação de Impacto Experimental: Teoria e Prática

Slides:



Advertisements
Apresentações semelhantes
Observação de Padrões Retóricos na obra de André da Silva Gomes
Advertisements

A Cura Verdadeira Edição: Alaide Chaded
Emmanuel ´Voz Chico Xavier
A pessoa mais importante em nossas vidas...
Definição de vetor; Representação geométrica de vetores; Operações com vetores; Vetores da base canônica. Aula 2.
Regulação Sunshine Aplicada às Prestadoras Locais Do Sudeste
Cálculo Vectorial e Geometria Analítica
IA889 – Sistemas de Cognição Artificial
Teoria de Bandas – 2 Elétrons Quase Livres
ESTRUTURAS DE MADEIRA ENGENHARIA CIVIL Prof. Talles Mello
MBA EM GESTÃO ESTRATÉGICA DE PESSOAS
Análise de Comunidades em Redes Sociais utilizando Mineração de dados: Um estudo de caso nas redes da UFPA SCRM 2016 Ingrid Nascimento Márcia Pinheiro.
Elementos de máquinas II
Funções trigonométricas
COMO SE PREPARAR PARA O ENEM?
Técnologia dos Materiais
Processos Hidrológicos CST 318 / SER 456 Tema 4 – Física do Solo ANO 2016 Laura De Simone Borma Camilo Daleles Rennó
Análise económica e financeira das entidades privadas Bloco I
A evolução do conceito de movimento e suas causas.
Reabilitação Estrutural de Edifícios
Usinagem Química e Eletroquímica
2.3. Composição quantitativa de soluções
Destilação Binária Método de McCabe - Thiele
CAMPOS ELÉTRICOS INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE SANTA CATARINA GRADUAÇÃO EM engenharia mecânica CAMPUS.
Frederico Rocha Um olhar sobre os esforços tecnológicos dos fornecedores do setor de petróleo e gás Frederico Rocha
Processamento de Imagens Visão Computacional Compressão
Metalografia e Magnetismo
Probabilidade e Estatística Aplicadas à Contabilidade I
Organização Celular dos Seres Vivos
47º CONGRESSO NACIONAL DE SANEAMENTO DA ASSEMAE
Professor Rodrigo Menezes
Capítulo 23 TERMODINÂMICA
Quando o Superfaturamento é legal ...
1 Construção de uma pilha. APL 1 - Construção de uma pilha com determinada diferença de potencial elétrico.
Mercado de capitais AULA 1
Aluna: Flávia Brandão Ramalho de Brito Orientador: Luiz Bueno da Silva
Crescimento, desenvolvimento econômico E saúde
Processos Hidrológicos CST 318 / SER 456 Tema 8 -Métodos estatísticos aplicados à hidrologia ANO 2017 Camilo Daleles Rennó Laura De Simone Borma
Multimídia – Técnicas de Compactação e Compressão
O Debate sobre a Estagnação Secular
Principles of Maritime Trade
O que é um sistema elétrico?
Projetos de Redes de Computadores
Ramo da eletricidade que estuda as cargas em movimento.
Professor Rodrigo Menezes
Aula 4 – Corrente Elétrica e Circuitos Elétricos
Resistência elétrica FÍSICA
Professor Renato Madeira
MICROPROCESSADORES E MICROCONTROLADORES
Turbulência II Médias de Reynolds.
Técnicas Aplicadas ao Seis Sigma
Prof. Ionildo José Sanches
Métricas de Desenvolvimento e Custo de Software
INQUÉRITO À EMPREGABILIDADE DOS DIPLOMADOS DA ULISBOA EM 2013/14
AULA 4 – LENTES ESFÉRICAS
Prof. Dr. Sidney Seckler Ferreira Filho Prof. Dr. José Carlos Mierzwa
Nome: Barbara Hass Disciplina Análise Espacial
PROGRAMA DE ENGENHARIA QUÍMICA – COPPE/UFRJ
Contratos Futuro de Taxa de Câmbio
Sejam todos bem-vindos!
ANÁLISE MODAL DE RESERVATÓRIO ELEVADO
ETE BOSQUE DAS PALMEIRAS
Disciplina: Economia Internacional
Metalurgia Extrativa Manganês Caio Cipriano Guilherme Torrens Wünsch
FM 05 Vetores.
Análise dimensional e Unidades de Engenharia

INSTALAÇÕES HIDRÁULICAS E SANITÁRIAS
JOGO ELETRÔNICO BASEADO EM RPG DE MESA, COM USO DO MOTOR DE JOGO UNITY PARA A PLATAFORMA DE MULTIPROJEÇÃO MINICAVE Aluno: Alexandre Salvador Fernandes.
Tributação e meio ambiente – aula 4 Cátedra Escolhas: Economia e Meio Ambiente Bernard Appy Março/abril de 2017.
Transcrição da apresentação:

Avaliação de Impacto Experimental: Teoria e Prática PPGE-UFRGS 27 e 28 de Junho de 2017 Caio Piza – caiopiza@worldbank.org Unidade de Avaliação de Impacto do Banco Mundial (DIME) http://www.worldbank.org/en/research/dime

Motivação O governo brasileiro implementa um programa de combate à pobreza: Brasil sem Miséria Após um ano da implementação do programa, um Texto para Discussão do Ipea é publicado mostrando que a renda domiciliar per capita das famílias participantes aumentou, na media, 10%. O autor do paper se emploga e atribui o aumento da renda média ao programa. Você concorda?

Motivação Você lê o paper e reflete: Finalmente um governo que faz algo pelos pobres! Porém, lembra-se do que aprendeu no curso de avaliação de impacto: mas como teria evoluído a renda domiciliar média dessas famílias na ausência do programa? Problema fundamental de inferência causal: o que teria acontecido com os participantes caso não tivessem participado do programa/intervenção?

Problema Fundamental de Inferência Causal Papers seminais: Holland (1986) e Lalonde (1986) Gerber and Green: Glennerster and Takavarasha:

Problemas potenciais com o argumento do paper O programa foi implementado no N e NE apenas: a escolha da região onde a intervenção ocorreu tem alta incidência de pobreza – sample selection; O programa foi implementado em todo o Brasil, porém a adesão (take-up) variou de região para região (e.g. maior no S e SE do que no N e NE) Auto-seleção; e/ou Implementação (diferença em infra-estrutura) A renda média da economia aumentou; Alto leakage do programa (não-pobres incluídos);

Como identificar o contra-factual? Experimentos aleatórios (Randomized Controlled Trial – RCT); Quase-experimentos: Seleção em observáveis (propensity score matching e IPW) Seleção em não-observáveis (RDD, diff-in-diff e IV)

Como identificar o contra-factual? Experimentos aleatórios (Randomized Controlled Trial – RCT); Quase-experimentos: Seleção em observáveis (propensity score matching e IPW) Seleção em não-observáveis (RDD, diff-in-diff e IV)

RCTs: A Teoria

Experimentos aleatórios – gold standard Definições importantes: Experimento aleatório NÃO É o mesmo que amostra aleatória Unidade de intervenção/aleatorização vs. unidade de análise (implicações para a estimação do erro-padrão) Parâmetros de interesse Efeito médio do tratamento: ATE Efeito médio do tratamento sobre os tratados: ATT Efeito médio do tratamento sobre os elegíveis (Intenção de tratar): ITT Efeito médio do tratamento local: LATE

Mundo Ideal: O Clone Perfeito Fulanito Clone do Fulanito X 6 balas 4 balas IMPACTO=6-4=2 Balas

Na prática, usamos estatística Tratamento Controle X Média Y=6 Balas Média Y=4 Balas IMPACTO=6-4=2 Balas

Seleção aleatório dos grupos de tratamento e controle 3. Sorteio 1. População-alvo 2. Amostra para a avaliação X Controle For presentation (with animation effects) Tratamento = Ineligíveis Validade Externa Validade Interna = Eligíveis

Mais intuição… “Um programa é desenvolvido para ajudar pequenas empresas que mais necessitam de apoio” score Automaticamento excluídos -- ineligíveis Automaticamente incluídos Pode ou não receber o apoio – eligíveis

Mais intuição… “Um programa é desenvolvido para ajudar pequenas empresas que mais necessitam de apoio” Automaticamento excluídos -- ineligíveis Automaticamente incluídos Pode ou não receber o apoio – sortear apenas as firmas deste grupo

Avaliação de impacto somente para este grupo Mais intuição… “Um programa é desenvolvido para ajudar pequenas empresas que mais necessitam de apoio” Automaticamento excluídos -- ineligíveis Automaticamente incluídos Avaliação de impacto somente para este grupo

Unidade de Aleatorização Choose according to type of program Individual/Household School/Health Clinic/catchment area Block/Village/Community/Region As a rule of thumb, randomize at the smallest viable unit of implementation. Keep in mind Need “sufficiently large” number of units to detect minimum desired impact: Power. Clustering reduces effective sample size Standard Errors need to be “clustered” Spillovers/contamination Operational and survey costs

Experimentos aleatórios: Comparação de Médias Sejam os resultados potenciais da i-ésima unidade de decisão (e.g. indivíduo, família, empresa, diretor, professor, gerente etc.) quando ele é submetido ao tramento ou não. Nós observamos i.e., quando Ti=1 e quando Ti=0. O parâmetro que gostaríamos de observar é: Problema de missing data

Experimentos aleatórios: Comparação de Médias Holland (1986): The fundamental problem of causal inference Sob aleatorização, Então,

Antes e Depois – Naive approach Linha de base (baseline) Fonte: Ravallion, WB

Diferença de Médias em t=1 𝛽= 𝑌 1 − 𝑌 1 ∗ Fonte: Ravallion, WB.

Experimentos aleatórios: Comparação de Médias Como estimar o efeito médio do programa? Single difference: Double difference (ou diff-in-diff): onde T é a dummy de tratamento e D a dummy de tempo (antes e depois); o efeito do programa é dado pelo coeficiente do termo da interação. Obs: mesmo com RCTs recomenda-se a inclusão de controles que sejam correlacionados com as variáveis de resultado (Y) para aumentar a eficiência da estimativa. Um ótimo controle costuma ser a variável dependente defasada.

Experimentos aleatórios: Comparação de Médias Intention-to-treat - ITT Suponha que nós não observamos os indivíduos efetivamente tratados, mas apenas os elegíveis a receber o tratamento. Seja Z uma função indicador que identifica o grupo de elegíveis. O ITT pode ser estimado como (pode ser via diff-in-diff também): Note que o ATT > ITT em termos absolutos. Como recuperar o ATT a partir do ITT? Mencionar o método ANCOVA.

Nível da aleatorização A aleatorização pode ocorrer no nível da unidade de análise ou em níveis acima. Exemplo: aleatorizar escolas para receberem um determinado programa (e.g. Círculo da Matemática) e medir o efeito no desempenho dos alunos Por que e quando se opta por tal desenho? Qual a implicação desse tipo de desenho (cluster randomized trial - CRT) para a estimação do efeito do programa?

Por que e quando se opta por tal desenho? Spillovers Mais fácil de justificar politicamente Expansão gradual do programa

Qual a implicação desse tipo de desenho…? O erro-padrão da estimativa do efeito do tratamento será maior e, portanto, maior será o risco de erro tipo II (não rejeitar a nula quando deveria). Por que?!

Nível da aleatorização CRT: intracluster correlation (correlação entre clusters) Fórmula: ρ= 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑐𝑙𝑢𝑠𝑡𝑒𝑟𝑠 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 + 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑑𝑒𝑛𝑡𝑟𝑜 Ou seja, qto menor a variância entre e maior a variância dentro, melhor. Intuição: se ICC for 0, é como se não houvesse diferença entre clusters e, portanto, o cluster não desempenha nenhuma função (melhor dos mundos); se o ICC for 1, então todos dentro do cluster são idênticos e número de obs é igual ao número de clusters (pior dos mundos) Geralmente, a variância “entre clusters” é grande e “dentro do cluster” pequena Pode-se ganhar poder estatístico com estratificação!

Nível de aleatorização Design effect: usado para medir o aumento na amostra requerido quando se tem um cluster design Design effect= 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑓𝑜𝑟 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 𝑠𝑎𝑚𝑝𝑙𝑖𝑛𝑔 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑓𝑜𝑟 𝑠𝑖𝑚𝑝𝑙𝑒 𝑟𝑎𝑛𝑑𝑜𝑚 𝑠𝑎𝑚𝑝𝑙𝑖𝑛𝑔 Effective sample size = actual sample size/DEff Um DEff de 2 significa que um cluster sample precisa do dobro da amostra de um simple random sampling (individual randomization) para ter a mesma precisão (ou poder estatístico).

Nível de aleatorização D𝐸𝑓𝑓=1+ 𝑚−1 𝜌, onde m é o número de indivíduos por cluster Var(y=1)= 𝑝 1−𝑝 𝑛 1+ 𝑚−1 𝜌 , para um outcome binário

RCTs: A Prática

RCT na prática Passo 1: entender muito bem a intervenção – qual o seu objetivo final e como atingi-lo; Passo 2: a partir dos objetivos geral e específicos elaborar a teoria da mudança (theory of change); Passo 3: desenhar a intervenção e realizar cálculos de poder estatístico para definir: Qual o tamanho da amostra necessário para detectar um efeito do programa de X% (ou SD) na variável de resultado Y; Se CRT, verificar como o power varia com diferentes valores do ICC; e Quantos braços de tratamento a intervenção suporta; Qual ondas de coletas de dados serão necessárias (importante para o poder estatístico e alguns outcomes) Vários trade-offs na prática! (veja este blogpost do Berk Ozler)

Desafios Aleatorizar é a parte mais simples da avaliação! A condição de ortogonalidade propiciada pelo sorteio requer muito esforço durante a implementação para se manter válida durante o exercício de avaliação A qualidade da implementação e dos dados coletados fazem toda a diferença Adesão (take-up), delivery, atrito e spillovers (SUTVA) Monitoramento… piloto vs. escalabilidade (veja esses exemplos em educação: link1 e link2)

Opções de Aleatorização Aleatorização Pura (Sorteio) apenas alguns participam do piloto Entrada gradual todos entram eventualmente Desenho de incentivo (no caso de adesão parcial) Todos podem entrar, alguns são encorajados a fazê-lo Variação no tratamento cobertura integral, diferentes opções 32

Oportunidades para Experimentos Aleatorização Pura (Sorteio) Entrada gradual (Phase-in Design) Encorajamento Variação no tratamento ou múltiplos tratamentos

Entrada Gradual Restrição orçamentária e/ou de logística sorteio Mais firmas elegíveis do que o programa é capaz de comportar/atender Número insuficiente de consultores para treinar todos ao mesmo tempo Solução: sorteio para definir quem entra primeiro Capacidade limitada  Aleatorizar a ordem de entrada Os que ficarem no final da lista de entrada desempenham o papel do grupo de controle

Oportunidades para Experimentos Aleatorização Pura (Sorteio) Entrada gradual (Phase-in Design) Encorajamento Variação no tratamento ou múltiplos tratamentos

Excesso de demanda!

Baixa adesão (take-up) é um problema bastante frequente Excesso de otimismo!

A real-life example Matching grant application vs. completion rates

Encorajamento Suponha que haja pouca adesão por parte das pequenas e medias empresas ao Cartão BNDES. O que pode ser feito? Você pode sugerir um experimento com encorajamento Objetivo: aumentar a adesão Selecionar o grupo de firmas elegíveis que não aderiram ao programa Dividir, via sorteio, as firmas elegíveis em dois grupos, as que serão encorajadas e as que não serão (controle) Observação: O incentivo tem de ser efeitvo e você poderá ter de encorajar muitas firmas

Divulgação Aleatoria (Desenho de Encorajamento) Com encorajamento Sem encorajamento

Divulgação Aleatoria (Desenho de Encorajamento) Sem encorajamento Com encorajamento Não tratados Verdinhos = never takers Amarelinhos = always takers Azuizinhos = compliers O efeito é medido entre os azuizinhos (compliers) Tratados

Oportunidades para Experimentos Aleatorização Pura (Sorteio) Entrada gradual (Phase-in Design) Encorajamento Variação no tratamento ou múltiplos tratamentos

Variação no tratamento O Sebrae-RJ já oferece um serviço há bastante tempo Se a adesão for alta não haverá espaço para encorajamento Nesse caso você pode variar o tratamento Oferecer dois formatos do serviço, o padrão e um alternativo (e.g. 1 visita in loco vs. consulta online) Ofecer apenas o currículo padrão com diferentes intensidades (e.g. 1 visita vs. 2 visitas) Não haverá grupo de controle puro mas grupos recebendo diferentes tratamentos

RESULTADOS DE MÉDIO PRAZO RESULTADOS DE LONGO PRAZO Teoria da Mudança: Exemplo do programa Sebrae na sua Empresa (Sebrae-RJ) ATIVIDADES PRODUTOS INTERVENÇÕES RESULTADOS DE MÉDIO PRAZO RESULTADOS DE LONGO PRAZO Consultores visitam as empresas para coletar informações sobre as práticas de gestão e perfil do empreendedor Diagnóstico sobre práticas de gestão Feedback padrão (abordagem atual) Nº de empresas que adotaram melhores práticas de gestão Aumento de vendas Maiores lucros Maior produtividade Mais empregados Diagnóstico do perfil do empreendedor Feedback com benchmark e referência de melhores práticas Adoção de melhores práticas, de acordo com o perfil do empreendedor Quantidade de empresas visitadas Emails e SMS enviados às empresas com links de acesso aos materiais gratuitos do SEBRAE Nº de empresas que acessaram o material Feedback com benchmark + informações sobre retornos esperados Adoção de melhores práticas via materiais e serviços fornecidos pelo SEBRAE Feedback com benchmark + informações de retornos + vídeos com depoimentos de casos de sucesso Indicador de” Espírito Empreendedor” Nº de empresas que buscaram o SEBRAE para apoio adicional

Aidan Coville Development Impact Evaluation (DIME), World Bank Practical sampling Aidan Coville Development Impact Evaluation (DIME), World Bank This presentation draws from work from Laura Chioda and many other DIME colleagues IE Target for Growth Impact Evaluation Workshop Mexico City, 1 March 2017 *This presentation draws from work from Laura Chioda and many other DIME colleagues

Why is it important for IE? We want to know the true impact But we need to estimate this impact from a sample Estimation means we can sometimes make mistakes Making mistakes can be costly…

What influences the sample size I need? Size of impact Variation in outcome Level of clustering Take up

What influences the sample size I need? Size of impact Variation in outcome Level of clustering Take up

Size of impact Who is taller? Big impacts are easy to identify An intuitive way to explain why it’s harder to distinguish between groups that are very similar: Who is taller? Very easy to tell things apart when the difference is large. Big impacts are easy to identify Small impacts are more difficult Need more precision/accuracy Larger sample needed

Minimum detectable effect We need a sample size able to detect the smallest effect size of importance. To guide this decision we need to ask: “What is the smallest effect size that, if it were any smaller, the intervention would not be worth the effort?”

Mo money mo power If we want to detect small effects, the sample size requirements quickly get out of hand

Need to be realistic

What influences the sample size I need? Size of impact Variation in outcome Level of clustering Take up

Which group has more to sell? How does the variance of the outcome affect our ability to detect an impact?

Now… which group has more to sell? How does the variance of the outcome affect our ability to detect an impact?

Which instance requires a more precise measuring device? Graphs from JPAL Executive Education course. Low standard deviation: We can definitely tell these two groups apart. Medium standard deviation: It’s a little harder to tell them apart High standard deviation: Can we say anything here? Relationship between sample size and variance: Recall the 5 firm and 1,000 firm cases. The 1,000 firm case had much lower variance.

Variation in outcomes (summary) In sum: More underlying variance (heterogeneity)  more difficult to detect difference  need larger sample size Tricky: How do we know about heterogeneity before we decide our sample size and collect our data? Ideal: pre-existing data … but often non-existent Can use pre-existing data from a similar population Example: enterprise surveys, labor force surveys Common sense

What influences the sample size I need? Size of impact Variation in outcome Level of clustering Take up

Clustering (1/4) For logistical or spillover reasons we may want to randomize at the group level. Sample size required increases, the higher the level of intervention assignment Business level Business group level Village/port/… Province? Even if unit of analysis is the firm, if level of randomization is at province (cluster) level, we run into challenges quickly…

Clustering (2/4) What is the added value of more samples in the same cluster? Village 3 Village 1 Village 4 Village 2

Clustering (3/4) Village 3 Village 1 Village 4 Village 2

Clustering (4/4) Takeaway Larger within cluster correlation (guys in same cluster are similar) lower marginal value per extra sampled unit in the cluster higher sample size/more clusters needed than a simple random sample. Rule of thumb: at least 40 clusters per treatment arm

What influences the sample size I need? Size of impact Variation in outcome Level of clustering Take up

Take up vs. sample size

The larger the sample size Overview Who to interview is ultimately determined by our research/policy questions How Many: Elements: Implication for Sample Size: The smaller effects that we want to detect The larger the sample size will have to be The more underlying heterogeneity (variance) The more clustering in samples The lower take up

How can we boost power Focus on homogenous group (if applicable) High frequency data on core indicators Increase take up better quality data (its worth it…) Avoid clustering where possible but if its important (e.g. because of spillovers), try to maximize number of clusters

Q2: How many cluster should my sample have?

The answer is… = 42