A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Estatística: Aplicação ao Sensoriamento Remoto SER 204 - ANO 2017 Técnicas de Reamostragem Camilo Daleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/

Apresentações semelhantes


Apresentação em tema: "Estatística: Aplicação ao Sensoriamento Remoto SER 204 - ANO 2017 Técnicas de Reamostragem Camilo Daleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/"— Transcrição da apresentação:

1 Estatística: Aplicação ao Sensoriamento Remoto SER 204 - ANO 2017 Técnicas de Reamostragem
Camilo Daleles Rennó

2 Distribuição Amostral
Testes paramétricos clássicos utilizam estatísticas (calculadas a partir de uma amostra) cujas distribuições amostrais teóricas são conhecidas. Exemplo: Se for verdadeira, então Nem todos os estimadores têm suas distribuições amostrais facilmente definidas, mesmo quando se conhece a distribuição original da variável aleatória estudada. Exemplo: Quando a amostra é pequena, certas suposições podem não ser válidas, dificultando a obtenção da distribuição amostral de um estimador qualquer. Exemplo: se n for grande (TLC)

3 Reamostragem A reamostragem é o nome que se dá a um conjunto de técnicas ou métodos que se baseiam em calcular estimativas a partir de repetidas amostragens dentro da mesma amostra (única). Estas técnicas se propõem a avaliar as incertezas relacionadas a obtenção de estatísticas com distribuições amostrais desconhecidas. Também podem ser utilizadas para avaliar a significância de testes cujas estatísticas básicas não têm suas propriedades bem estabelecidas ou cujas premissas não podem ser consideradas verdadeiras. Exemplos de técnicas de reamostragem:  Testes de Aleatorização (Testes de Permutação)  Jackknife  Bootstrap  Validação Cruzada

4 Testes de Aleatorização
Testes de aleatorização (ou testes de permutação ou testes exatos) são típicos testes de significância onde a distribuição da estatística testada é obtida calculando-se todos os possíveis valores desta estatística rearranjando-se os valores da amostra considerando uma hipótese nula verdadeira. estatística usada no teste t Exemplo do teste Wilcoxon: É melhor usar 2 imagens? Dif média = 14,25 Qual valor esperado caso não houvesse diferença na área corretamente classificada quando uma ou duas imagens forem utilizadas? Quão raro seria encontrar o valor 14,25 nesse caso? Ou seja, qual o valor-P associado a esta estatística? Solução: calcular todos os valores possíveis de diferença média quando trocamos ou não os valores entre as 2 abordagens para cada amostra. Com isso, obtém-se a distribuição amostral desta estatística . Região Área corretamente classificada 1 imagem 2 imagens 1 70 117 2 51 48 3 60 63 4 57 90 5 43 41 6 15 21 7 25 36 8 103 122 Dif 47 -3 3 33 -2 6 11 19

5 Testes de Aleatorização
H0: não há diferença entre as abordagens (Dif média = 0) H1: usar 2 imagens é melhor que usar apenas 1 imagem (Dif média > 0) Se H0 é verdadeira, então haverá 28 possibilidades de trocas, gerando 256 resultados diferentes Região Área corretamente classificada Dif 1 imagem 2 imagens 1 70 117 47 2 48 51 3 60 63 4 57 90 33 5 41 43 6 15 21 7 25 36 11 8 103 122 19 Dif média 15,5 Dif -47 -3 3 33 -2 6 -11 -19 -5 Região Área corretamente classificada Dif 1 imagem 2 imagens 1 117 70 -47 2 51 48 -3 3 63 60 4 90 57 -33 5 43 41 -2 6 21 15 -6 7 36 25 -11 8 122 103 -19 Dif média -15,5 ... ... (ver Aleatorização em Reamostragem.xls)

6 Testes de Aleatorização
H0: não há diferença entre as abordagens (Dif média = 0) H1: usar 2 imagens é melhor que usar apenas 1 imagem (Dif média > 0) Se H0 é verdadeira, então haverá 28 possibilidades de trocas, gerando 256 resultados diferentes 14,25 97,66% Valor-P = P(Dif média H0 verdadeiro  Dif média observada) = 2,34% Conclusão: rejeita-se H0 a 5% de significância, ou seja, é melhor usar 2 imagens

7 Jackknife Também chamado “leave-one-out test”
Usado para estimar a variância e a tendência de um estimador qualquer. Baseia-se na remoção de 1 amostra (podendo ser mais) do conjunto total observado (n), recalculando-se o estimador a partir dos valores restantes (n-1). É de fácil implementação e possui número fixo de iterações (igual a n, caso se retire apenas 1 amostra por vez).

8 Jackknife População,  X1, X2, ..., Xn estimado por amostragem
inferência estimado por amostragem X1, X2, ..., Xn X2, X3, ..., Xn X1, X2, ..., Xn-1 X1, X3, ..., Xn reamostragem n vezes estatísticas

9 Jackknife Suponha que um determinado parâmetro  possa ser estimado a partir de uma amostra de n valores, ou seja, Então a i-ésima replicação Jackknife corresponde ao valor estimado sem a amostra i: Define-se o i-ésimo pseudovalor como: Com base nos pseudovalores, pode-se calcular então: onde (n grande) Efron, B.; Stein, C. The Jacknife estimate of variance. The Annals of Statistics, 9(3):

10 (ver exemplo JK em Reamostragem.xls)
Jackknife Suponha que se deseja saber qual é a média geométrica de uma população e para isso obteve-se uma amostra de 10 valores: Qual é o valor da média geométrica desta amostra e qual a variância deste estimador? X mg(i) 1 2,2 6,688 2 3,5 6,352 3 3,4 6,372 4 6,7 5,910 5 6,2 5,961 6 8,2 5,779 7 9,2 5,705 8 7,9 5,803 9 9,0 5,719 10 10,1 5,646 X 1 2,2 2 3,5 3 3,4 4 6,7 5 6,2 6 8,2 7 9,2 8 7,9 9 9,0 10 10,1 X mg(i) x*(i) 1 2,2 6,688 -0,350 2 3,5 6,352 2,677 3 3,4 6,372 2,492 4 6,7 5,910 6,656 5 6,2 5,961 6,196 6 8,2 5,779 7,837 7 9,2 5,705 8,497 8 7,9 5,803 7,621 9 9,0 5,719 8,372 10 10,1 5,646 9,027 (amostra completa) (ver exemplo JK em Reamostragem.xls)

11 Bootstrap Pode ser considerado uma estratégia mais abrangente que o Jackknife por permitir um maior número de replicações. Também é usado para estimar a variância e a tendência de um estimador qualquer. Baseia-se na geração de uma nova amostra de mesmo tamanho da amostra original, a partir do sorteio aleatório com reposição de seus elementos.

12 Bootstrap População,  X1, X2, ..., Xn estimado por amostragem
inferência estimado por amostragem X1, X2, ..., Xn Y1, Y2, ..., Yn Y1, Y2, ..., Yn Y1, Y2, ..., Yn reamostragem m vezes Yk é um dos Xi (com repetição) estatísticas

13 Bootstrap Suponha que um determinado parâmetro  pode ser estimado a partir de uma amostra de n valores, ou seja, Então a cada iteração j o valor estimado a partir da amostra será: onde yk é um dos valores da amostra (com reposição) Com base nas estimativas de m iterações, pode-se calcular então: (n grande) Recomenda-se que m  n2 , ou pelo menos, m = n ln(n)

14 (ver exemplo BS em Reamostragem.xls)
Bootstrap Suponha que se deseja saber qual é a média geométrica de uma população e para isso obteve-se uma amostra de 10 valores: Qual é o valor da média geométrica desta amostra e qual a variância deste estimador? X 1 2,2 2 3,5 3 3,4 4 6,7 5 6,2 6 8,2 7 9,2 8 7,9 9 9,0 10 10,1 (amostra completa) (ver exemplo BS em Reamostragem.xls)

15 Validação Cruzada Tipicamente, na validação cruzada, a amostra é particionada aleatoriamente em dois subconjuntos: um de treinamento e outro de teste (validação). Esta técnica é aplicada principalmente quando um modelo é gerado e posteriormente este modelo é utilizado para se fazer predição. É importante observar que as avaliações feitas sobre o mesmo conjunto amostral de treinamento (única amostra) sempre são superestimadas, uma vez que o modelo encontrado tenta minimizar os erros de cada observação em relação ao modelo desejado. Para reduzir a casualidade do resultado encontrado após uma única divisão arbitrária, pode-se repetir o processo de partição aleatoriamente muitas vezes (validação cruzada exaustiva) e avaliar cada uma delas, sintetizando os resultados em uma medida de tendência central (média, mediana, etc). Outra abordagem bastante utilizada é reservar apenas 1 amostra por vez para teste e usar as demais para treinamento. Este método é conhecido como Validação Cruzada LOO (Leave One Out).

16 (ver exemplo VCruzada em Reamostragem.xls)
Validação Cruzada Num estudo de regressão, por exemplo, um conjunto pode ser usado para calcular os coeficientes da equação e o outro para comparar com os valores estimados por esta regressão. Treinamento Teste X Y 1,2 16,4 2,5 12,8 1,9 13,3 3,6 22,1 2,8 18,4 5,6 23,3 4,3 21,4 7,8 24,7 5,5 27,7 10,1 31,9 7,2 23,0 11,1 34,0 9,1 25,8 12,0 38,0 11,7 35,2 12,4 39,2 13,0 34,5 13,7 44,2 14,9 42,4 14,7 41,0 Yest erro 17,3 -4,5 19,3 2,8 23,0 0,3 27,0 -2,3 31,2 0,7 33,0 1,0 34,6 3,4 35,4 3,8 37,7 6,5 39,5 1,5 (ver exemplo VCruzada em Reamostragem.xls)


Carregar ppt "Estatística: Aplicação ao Sensoriamento Remoto SER 204 - ANO 2017 Técnicas de Reamostragem Camilo Daleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/"

Apresentações semelhantes


Anúncios Google