A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Técnicas.

Apresentações semelhantes


Apresentação em tema: "Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Técnicas."— Transcrição da apresentação:

1 Camilo Daleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/ Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Técnicas de Reamostragem

2 Distribuição Amostral Testes paramétricos clássicos utilizam estatísticas (calculadas a partir de uma amostra) cujas distribuições amostrais teóricas são conhecidas. Exemplo: Sefor verdadeira, então Nem todos os estimadores têm suas distribuições amostrais facilmente definidas, mesmo quando se conhece a distribuição original da variável aleatória estudada. Exemplo: Quando a amostra é pequena, certas suposições podem não ser válidas, dificultando a obtenção da distribuição amostral de um estimador qualquer. Exemplo: se n for grande (TLC) 2

3 Reamostragem A reamostragem é o nome que se dá a um conjunto de técnicas ou métodos que se baseiam em calcular estimativas a partir de repetidas amostragens dentro da mesma amostra (única). Estas técnicas se propõem a avaliar as incertezas relacionadas a obtenção de estatísticas com distribuições amostrais desconhecidas. Também podem ser utilizadas para avaliar a significância de testes cujas estatísticas básicas não têm suas propriedades bem estabelecidas ou cujas premissas não podem ser consideradas verdadeiras. Exemplos de técnicas de reamostragem:  Testes de Aleatorização (Testes de Permutação)  Jackknife  Bootstrap  Validação Cruzada 3

4 Testes de Aleatorização Testes de aleatorização (ou testes de permutação ou testes exatos) são típicos testes de significância onde a distribuição da estatística testada é obtida calculando-se todos os possíveis valores desta estatística rearranjando-se os valores da amostra considerando uma hipótese nula verdadeira. Região Área corretamente classificada 1 imagem2 imagens 170117 25148 36063 45790 54341 61521 72536 8103122 Dif média = 14,25 Qual valor esperado caso não houvesse diferença na área corretamente classificada quando uma ou duas imagens forem utilizadas? Quão raro seria encontrar o valor 14,25 nesse caso? Ou seja, qual o valor-P associado a esta estatística? Solução: calcular todos os valores possíveis de diferença média quando trocamos ou não os valores entre as 2 abordagens para cada amostra. Com isso, obtém-se a distribuição amostral desta estatística. Dif 47 -3 3 33 -2 6 11 19 4

5 Testes de Aleatorização Região Área corretamente classificada Dif 1 imagem2 imagens 17011747 248513 360633 4579033 541432 615216 7253611 810312219 Dif média15,5 (ver Aleatorização em Reamostragem.xls) H 0 : não há diferença entre as abordagens (Dif média = 0) H 1 : usar 2 imagens é melhor que usar apenas 1 imagem (Dif média > 0) Região Área corretamente classificada Dif 1 imagem2 imagens 111770-47 25148-3 36360-3 49057-33 54341-2 62115-6 73625-11 8122103-19 Dif média-15,5 Dif -47 -3 3 33 -2 6 -11 -19 -5... Valor-P = P(Dif média H 0 verdadeiro  Dif média observada) Se H 0 é verdadeira, então haverá 2 8 possibilidades de trocas, gerando 256 resultados diferentes Conclusão: rejeita-se H 0 a 5% de significância, ou seja, é melhor usar 2 imagens = 2,34% 5

6 Jackknife Também chamado “leave-one-out test” Usado para estimar a variância e a tendência de um estimador qualquer. Baseia-se na remoção de 1 amostra (podendo ser mais) do conjunto total observado, recalculando-se o estimador a partir dos valores restantes. É de fácil implementação e possui número fixo de iterações (n caso se retire apenas 1 amostra por vez). 6

7 Jackknife População,  reamostragem amostragem n vezes inferência estatísticas X 1, X 2,..., X n X 2, X 3,..., X n X 1, X 3,..., X n X 1, X 2,..., X n-1 estimado por 7

8 Jackknife Suponha que um determinado parâmetro  pode ser estimado a partir de uma amostra de n valores, ou seja, Então a i-ésima replicação Jackknife corresponde ao valor estimado sem a amostra i: Define-se o i-ésimo pseudovalor como: Com base nos pseudovalores, pode-se calcular então: onde Efron, B.; Stein, C. The Jacknife estimate of variance. The Annals of Statistics, 9(3): 586-596. 1981 ( n grande) 8

9 Jackknife Suponha que se deseja saber qual é a média geométrica de uma população e para isso obteve-se uma amostra de 10 valores: Qual é o valor da média geométrica desta amostra e qual a variância deste estimador? (amostra completa) X 12,2 23,5 33,4 46,7 56,2 68,2 79,2 87,9 99,0 1010,1 X mg (i) 12,26,688 23,56,352 33,46,372 46,75,910 56,25,961 68,25,779 79,25,705 87,95,803 99,05,719 1010,15,646 X mg (i) x* (i) 12,26,688-0,350 23,56,3522,677 33,46,3722,492 46,75,9106,656 56,25,9616,196 68,25,7797,837 79,25,7058,497 87,95,8037,621 99,05,7198,372 1010,15,6469,027 (ver exemplo JK em Reamostragem.xls) 9

10 Bootstrap Pode ser considerado uma estratégia mais abrangente que o Jackknife por permitir um maior número de replicações. Também é usado para estimar a variância e a tendência de um estimador qualquer. Baseia-se na geração de uma nova amostra de mesmo tamanho da amostra original, a partir do sorteio aleatório com reposição de seus elementos. 10

11 Bootstrap População,  reamostragem amostragem m vezes inferência estatísticas X 1, X 2,..., X n Y 1, Y 2,..., Y n estimado por Y k é um dos X i (com repetição) 11

12 Bootstrap Suponha que um determinado parâmetro  pode ser estimado a partir de uma amostra de n valores, ou seja, Então a cada iteração j o valor estimado a partir da amostra será: onde y k é um dos valores da amostra (com reposição) Com base nas estimativas de m iterações, pode-se calcular então: Recomenda-se que m  n 2, ou pelo menos, m = n ln(n) ( n grande) 12

13 Bootstrap Suponha que se deseja saber qual é a média geométrica de uma população e para isso obteve-se uma amostra de 10 valores: Qual é o valor da média geométrica desta amostra e qual a variância deste estimador? (amostra completa) X 12,2 23,5 33,4 46,7 56,2 68,2 79,2 87,9 99,0 1010,1 (ver exemplo BS em Reamostragem.xls) 13

14 Validação Cruzada Tipicamente, na validação cruzada, a amostra é particionada aleatoriamente em dois subconjuntos: um de treinamento e outro de teste (validação). Esta técnica é aplicada principalmente quando um modelo é gerado e posteriormente este modelo é utilizado para se fazer predição. É importante observar que as avaliações feitas sobre o mesmo conjunto amostral de treinamento (única amostra) sempre são superestimadas uma vez que o modelo encontrado tenta minimizar os erros de cada observação em relação ao modelo desejado. Para reduzir a casualidade do resultado encontrado após uma única divisão arbitrária, pode-se repetir o processo de partição aleatoriamente muitas vezes (validação cruzada exaustiva) e avaliar cada uma delas, sintetizando os resultados em uma medida de tendência central (média, mediana, etc). Outra abordagem bastante utilizada é reservar apenas 1 amostra por vez para teste e usar as demais para validação. Este método é conhecido como Validação Cruzada LOO (Leave One Out). 14

15 Validação Cruzada (ver exemplo VCruzada em Reamostragem.xls) Num estudo de regressão, por exemplo, um conjunto pode ser usado para calcular os coeficientes da equação e o outro para comparar com os valores estimados por esta regressão. TreinamentoTeste X Y X Y 1,216,42,512,8 1,913,33,622,1 2,818,45,623,3 4,321,47,824,7 5,527,710,131,9 7,223,011,134,0 9,125,812,038,0 11,735,212,439,2 13,034,513,744,2 14,942,414,741,0 Y est erro 17,3-4,5 19,32,8 23,00,3 27,0-2,3 31,20,7 33,01,0 34,63,4 35,43,8 37,76,5 39,51,5 15


Carregar ppt "Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Técnicas."

Apresentações semelhantes


Anúncios Google