A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Prof. Eduardo Bezerra (CEFET/RJ)

Apresentações semelhantes


Apresentação em tema: "Prof. Eduardo Bezerra (CEFET/RJ)"— Transcrição da apresentação:

1 Prof. Eduardo Bezerra (CEFET/RJ) ebezerra@cefet-rj.br
O Método Bootstrap Prof. Eduardo Bezerra (CEFET/RJ)

2 Motivação Para estudar uma população, produzimos uma amostra para fazer um estudo indireto. Como saber se a resposta obtida com a amostra é próxima da resposta que seria obtida na população? Uma maneira: produzir a resposta para muitas amostras da população. Impraticável! Para contornar, adotamos pressupostos sobre a forma da população. e.g., premissa de que a população é normalmente distribuída

3 Motivação (cont.) Mas, e se tivermos apenas a amostra empírica e não sabemos nada sobre a população? Alternativa: produzir amostras (com reposição) a partir da própria amostra empírica. Justificativa: é provável que a forma da amostra empírica seja parecida com a população original (contanto que o tamanho dessa amostra seja razoavelmente grande).

4 Motivação (cont.) A amostragem "com substituição" é uma maneira conveniente de tratar a amostra empírica como uma população e amostrar a partir dela de uma forma que reflete sua forma.

5 Princípio do bootstrap (bootstrap principle)
Suponha que temos uma amostra empírica de uma população desejamos estudar uma estatística que estima algum parâmetro dessa população, mas não conhecemos a distribuição amostral. O princípio do bootstrap sugere usar a distribuição definida pela amostra para realizar inferências sobre a distribuição amostral. O método bootstrap é baseado no princípio do bootstrap. Com relação às suposições, compare com o caso de estudar a distribuição da média amostral de uma amostra grande, o que pode ser feito com o uso do TLC.

6 Método Bootstrap - introdução
O método bootstrap é útil para estimar a distribuição de uma estatística (e.g., média, variância, ...) quando não podemos usar a premissa de normalidade (e.g., z-teste, t-teste). baseado no no princípio do bootstrap. Exemplos de uso: calcular um IC para a média quando a população não é normal e o tamanho da amostra é pequeno. calcular uma IC para outros parâmetros, como a mediana da população ou outros percentis. IC = intervalo de confiança

7 Método Bootstrap - procedimento
Considere uma amostra empírica X de n observações de uma população cuja distribuição é desconhecida. Suponha que o objetivo seja estimar um parâmetro θ da população (por exemplo: média, mediana, desvio padrão, quartil superior etc.) Uma reamostra (bootstrap sample) é uma amostra com reposição de tamanho n, retirada da amostra empírica X. Vamos denotar a i-ésima reamostra por X*i.

8 Método Bootstrap - procedimento
Produzir uma amostra X de tamanho n a partir da população de interesse. Gerar B reamostras (cada uma de tamanho n) a partir de X: X*1, X*2, ..., X*B. Calcular B estimativas do parâmetro de interesse a partir de cada uma das B reamostras: Usar a distribuição resultante (bootstrap estimate) para fazer inferências sobre No passo 1, é importante realizar as reamostragens com reposição.

9 Exemplo Suponha que uma amostra empírica de pesos de dez indivíduos é retirada de uma população: Um pesquisador está interessado em estimar a mediana do peso da população e ter uma medida de incerteza em torno dessa estimativa.

10 Exemplo (cont.) Suponha que esse pesquisador produz 50 amostras com substituição das observações, sendo cada nova amostra de tamanho igual ao original (n = 10). As tabelas ao lado: três amostras (do total de 50) de bootstrap resultantes da reamostragem.

11 Exemplo (cont.) Observe que
o indivíduo 1 aparece duas vezes na primeira amostra do bootstrap, mas não aparece na segunda o indivíduo 2 aparece apenas na segunda amostra.

12 Exemplo (cont.)

13 Estudo de caso

14 Produção das reamostras
São produzidas reamostras a partir da distribuição empírica. B < resamples <- matrix(sample(x, n * B, replace = TRUE), B, n) B < resamples <- matrix(sample(x, n * B, replace = TRUE), B, n) resampleMedians <- apply(resamples, 1, median) sample(x, n * B, replace = TRUE) Se precisamos de B datasets completos, então devemos realizar n * B amostragens. Esse comando corresponde a amostrar a partir de uma distribuição empírica definida pela amostra original, sendo que essa distribuição atribui probabilidade 1/n para cada ponto de dado. matrix(., B, n) Organiza os dados em uma matriz com B linhas e n colunas. Sendo assim, cada linha da variável resamples corresponde a uma reamostra (i.e., um conjunto de dados) com as mesmas dimensões do dataset original.

15 Produção das reamostras
Se precisamos de B datasets completos, então devemos realizar n * B amostragens. Comando a seguir corresponde a amostrar a partir de uma distribuição empírica definida pela amostra original, sendo que essa distribuição atribui probabilidade 1/n para cada ponto de dado. sample(x, n * B, replace = TRUE) B < resamples <- matrix(sample(x, n * B, replace = TRUE), B, n) resampleMedians <- apply(resamples, 1, median) sample(x, n * B, replace = TRUE) Se precisamos de B datasets completos, então devemos realizar n * B amostragens. Esse comando corresponde a amostrar a partir de uma distribuição empírica definida pela amostra original, sendo que essa distribuição atribui probabilidade 1/n para cada ponto de dado. matrix(., B, n) Organiza os dados em uma matriz com B linhas e n colunas. Sendo assim, cada linha da variável resamples corresponde a uma reamostra (i.e., um conjunto de dados) com as mesmas dimensões do dataset original.

16 Produção das reamostras
Comando a seguir organiza os dados em uma matriz com B linhas e n colunas. Sendo assim, cada linha da variável resamples corresponde a uma reamostra i.e., um conjunto de dados com as mesmas dimensões do dataset original. matrix(., B, n) B < resamples <- matrix(sample(x, n * B, replace = TRUE), B, n) resampleMedians <- apply(resamples, 1, median) sample(x, n * B, replace = TRUE) Se precisamos de B datasets completos, então devemos realizar n * B amostragens. Esse comando corresponde a amostrar a partir de uma distribuição empírica definida pela amostra original, sendo que essa distribuição atribui probabilidade 1/n para cada ponto de dado. matrix(., B, n) Organiza os dados em uma matriz com B linhas e n colunas. Sendo assim, cada linha da variável resamples corresponde a uma reamostra (i.e., um conjunto de dados) com as mesmas dimensões do dataset original.

17 Histograma das reamostras
hist(resampleMedians) Esse histograma é uma estimativa da distribuição amostral das medianas. Se conhecêssemos a distribuição da população, e produzíssemos um histograma das medianas a partir de diversas amostras retiradas dessa distribuição (da população), esse histograma seria bastante similar aos obtidos acima. Entretanto, com base no princípio do bootstrap, nós usamos a amostra empírica da população como substituto para a distribuição da população. Uma alternativa para a geração é usar a função ggplot: g = ggplot(data.frame(medians = resampleMedians), aes(x = resampleMedians)) g = g + geom_histogram(color = "black", fill = "lightblue", binwidth = .05) g

18 quantile(resampleMedians, c(.025, 0.975))
Inferências Uma vez que temos a distribuição de reamostras, é possível realizar inferências. e.g., produzir o erro padrão estimado para a mediana: sd(resampleMedians) e.g., produzir um intervalo de confiança de 95% para a mediana: quantile(resampleMedians, c(.025, 0.975)) resampleMedians <- apply(resamples, 1, median) Já que a estatística em que estamos interessados é a mediana, aplicamos a função median a cada um dos B conjuntos de dados reamostrados. sd(resampleMedians) Essa chamada produz o erro padrão estimado para a mediana. quantile(resampleMedians, c(.025, 0.975)) Essa chamada produz um intervalo de confiança de 95% para a mediana. Repare que o intervalo produzido é bem pequeno, devido à quantidade grande de dados da amostra original (em geral, quanto mais amostras, mas preciso o intervalo de confiança). Compare esse intervalo com o valor produzido com a função quantile(resampleMedians, c(.025, 0.975))


Carregar ppt "Prof. Eduardo Bezerra (CEFET/RJ)"

Apresentações semelhantes


Anúncios Google