Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2016 Técnicas.

Slides:



Advertisements
Apresentações semelhantes
Correlação e Regressão
Advertisements

DISTRIBUIÇÕES AMOSTRAIS
Estatística: Aplicação ao Sensoriamento Remoto ANO 2010
Amostragem em Pesquisas Sócio-Econômicas
Aprendizado de Máquina
Analise de Regressão Parte 2.
CAPÍTULO 7 TESTE DE HIPÓTESE
ANÁLISE DISCRIMINANTE
CAPÍTULO 7 TESTE DE HIPÓTESE
Mineração de Dados Avaliação de Classificadores
Estimação Não-Paramétrica
Capítulo 6 Estimativas e Tamanho de Amostras
Estatística: Aplicação ao Sensoriamento Remoto ANO 2010
Estatística: Aplicação ao Sensoriamento Remoto ANO 2010
Erros no Teste de Hipóteses
Estatística: Aplicação ao Sensoriamento Remoto ANO 2010
ME623A Planejamento e Pesquisa
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2014 Teoria da amostragem Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2014 Técnicas de Reamostragem Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2014 Inferência Estatística Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2014 Intervalo de Confiança Camilo Daleles Rennó
DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO DA AMOSTRA OU
DISTRIBUIÇÃO AMOSTRAL DA MÉDIA DA AMOSTRA OU DISTRIBUIÇÃO AMOSTRAL DE
Estatística e Probabilidade
DISTRIBUIÇÕES AMOSTRAIS
O que é Estatística, afinal de contas?
Aula 6 - Método não-experimental ou de seleção não-aleatória
Site: Estatística Prof. Edson Nemer Site:
Inferência Estatística
Aula 5 - Método experimental ou de seleção aleatória
Introdução à Estatística
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Intervalo de Confiança Camilo Daleles Rennó
Noções de Inferência Estatística
Aula 11 - Teste de hipóteses, teste de uma proporção
Aplicações Estatísticas uma rápida abordagem
Estatística e Probabilidade
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Variância (ANOVA) Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Técnicas de Reamostragem Camilo Daleles Rennó
TESTE DE HIPÓTESES TESTE t STUDENT
Professor Antonio Carlos Coelho
Distribuição da Amostra
Aula 12 - Teste de associação1 DATAAulaCONTEÚDO PROGRAMÁTICO 10/03Segunda1Níveis de mensuração, variáveis, organização de dados, apresentação tabular 12/03Quarta2Apresentação.
Regressão e Previsão Numérica.
Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 2 Prof. Cristina Ortiz Valete.
análise dos estimadores
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Inferência Estatística Camilo Daleles Rennó
ERROS E TRATAMENTO DE DADOS ANALÍTICOS
M ÉTODOS E STATÍSTICOS PARA E XATIDÃO DE M APEAMENTO E A VALIAÇÃO DE M ODELOS Camilo Daleles Rennó Referata Biodiversidade 8 novembro 2007.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Teorema do Limite Central Camilo Daleles Rennó
Aula 4 – Estatística- Conceitos básicos
Métodos Estatísticos Aplicados às Ciências Biológicas - 7ª aula -
INTERVALOS DE CONFIANÇA
PPGTI AULA 3 Prof. Dr. Márcio A. Fiori –
Estimação: Estimativa Pontual Estimativa Intervalar
Regressão Linear Simples
Prof. Miguel Angel Uribe Opazo
GESTÃO E GARANTIA DA QUALIDADE
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Estimação e Intervalo de Confiança. Estimação Frequentemente necessitamos, por meio das amostras, conhecer informações gerais da população. A estimação.
Inferência Estatística
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Distribuição Amostral 3 Miguel Angel Uribe Opazo.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Teoria da amostragem Camilo Daleles Rennó
DETEÇÃO E ESTIMAÇÃO Aula 18: Simulação de Monte Carlo – Parte 2.
DETEÇÃO E ESTIMAÇÃO Aula X+1: Simulação de Monte Carlo.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Apresentação da Disciplina Camilo Daleles Rennó
Estatística Aplicada à Adminitração Prof. Alessandro Moura Costa UNIVERSIDADE FEDERAL DO PAMPA BACHARELADO EM ADMINISTRAÇÃO DE EMPRESAS.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Distribuições de Probabilidade Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Teste de Hipótese Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2017 Técnicas de Reamostragem Camilo Daleles Rennó
Transcrição da apresentação:

Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Técnicas de Reamostragem

Distribuição Amostral Testes paramétricos clássicos utilizam estatísticas (calculadas a partir de uma amostra) cujas distribuições amostrais teóricas são conhecidas. Exemplo: Sefor verdadeira, então Nem todos os estimadores têm suas distribuições amostrais facilmente definidas, mesmo quando se conhece a distribuição original da variável aleatória estudada. Exemplo: Quando a amostra é pequena, certas suposições podem não ser válidas, dificultando a obtenção da distribuição amostral de um estimador qualquer. Exemplo: se n for grande (TLC) 2

Reamostragem A reamostragem é o nome que se dá a um conjunto de técnicas ou métodos que se baseiam em calcular estimativas a partir de repetidas amostragens dentro da mesma amostra (única). Estas técnicas se propõem a avaliar as incertezas relacionadas a obtenção de estatísticas com distribuições amostrais desconhecidas. Também podem ser utilizadas para avaliar a significância de testes cujas estatísticas básicas não têm suas propriedades bem estabelecidas ou cujas premissas não podem ser consideradas verdadeiras. Exemplos de técnicas de reamostragem:  Testes de Aleatorização (Testes de Permutação)  Jackknife  Bootstrap  Validação Cruzada 3

Testes de Aleatorização Testes de aleatorização (ou testes de permutação ou testes exatos) são típicos testes de significância onde a distribuição da estatística testada é obtida calculando-se todos os possíveis valores desta estatística rearranjando-se os valores da amostra considerando uma hipótese nula verdadeira. Região Área corretamente classificada 1 imagem2 imagens Dif média = 14,25 Qual valor esperado caso não houvesse diferença na área corretamente classificada quando uma ou duas imagens forem utilizadas? Quão raro seria encontrar o valor 14,25 nesse caso? Ou seja, qual o valor-P associado a esta estatística? Solução: calcular todos os valores possíveis de diferença média quando trocamos ou não os valores entre as 2 abordagens para cada amostra. Com isso, obtém-se a distribuição amostral desta estatística. Dif

Testes de Aleatorização Região Área corretamente classificada Dif 1 imagem2 imagens Dif média15,5 (ver Aleatorização em Reamostragem.xls) H 0 : não há diferença entre as abordagens (Dif média = 0) H 1 : usar 2 imagens é melhor que usar apenas 1 imagem (Dif média > 0) Região Área corretamente classificada Dif 1 imagem2 imagens Dif média-15,5 Dif Valor-P = P(Dif média H 0 verdadeiro  Dif média observada) Se H 0 é verdadeira, então haverá 2 8 possibilidades de trocas, gerando 256 resultados diferentes Conclusão: rejeita-se H 0 a 5% de significância, ou seja, é melhor usar 2 imagens = 2,34% 5

Jackknife Também chamado “leave-one-out test” Usado para estimar a variância e a tendência de um estimador qualquer. Baseia-se na remoção de 1 amostra (podendo ser mais) do conjunto total observado, recalculando-se o estimador a partir dos valores restantes. É de fácil implementação e possui número fixo de iterações (n caso se retire apenas 1 amostra por vez). 6

Jackknife População,  reamostragem amostragem n vezes inferência estatísticas X 1, X 2,..., X n X 2, X 3,..., X n X 1, X 3,..., X n X 1, X 2,..., X n-1 estimado por 7

Jackknife Suponha que um determinado parâmetro  pode ser estimado a partir de uma amostra de n valores, ou seja, Então a i-ésima replicação Jackknife corresponde ao valor estimado sem a amostra i: Define-se o i-ésimo pseudovalor como: Com base nos pseudovalores, pode-se calcular então: onde Efron, B.; Stein, C. The Jacknife estimate of variance. The Annals of Statistics, 9(3): ( n grande) 8

Jackknife Suponha que se deseja saber qual é a média geométrica de uma população e para isso obteve-se uma amostra de 10 valores: Qual é o valor da média geométrica desta amostra e qual a variância deste estimador? (amostra completa) X 12,2 23,5 33,4 46,7 56,2 68,2 79,2 87,9 99,0 1010,1 X mg (i) 12,26,688 23,56,352 33,46,372 46,75,910 56,25,961 68,25,779 79,25,705 87,95,803 99,05, ,15,646 X mg (i) x* (i) 12,26,688-0,350 23,56,3522,677 33,46,3722,492 46,75,9106,656 56,25,9616,196 68,25,7797,837 79,25,7058,497 87,95,8037,621 99,05,7198, ,15,6469,027 (ver exemplo JK em Reamostragem.xls) 9

Bootstrap Pode ser considerado uma estratégia mais abrangente que o Jackknife por permitir um maior número de replicações. Também é usado para estimar a variância e a tendência de um estimador qualquer. Baseia-se na geração de uma nova amostra de mesmo tamanho da amostra original, a partir do sorteio aleatório com reposição de seus elementos. 10

Bootstrap População,  reamostragem amostragem m vezes inferência estatísticas X 1, X 2,..., X n Y 1, Y 2,..., Y n estimado por Y k é um dos X i (com repetição) 11

Bootstrap Suponha que um determinado parâmetro  pode ser estimado a partir de uma amostra de n valores, ou seja, Então a cada iteração j o valor estimado a partir da amostra será: onde y k é um dos valores da amostra (com reposição) Com base nas estimativas de m iterações, pode-se calcular então: Recomenda-se que m  n 2, ou pelo menos, m = n ln(n) ( n grande) 12

Bootstrap Suponha que se deseja saber qual é a média geométrica de uma população e para isso obteve-se uma amostra de 10 valores: Qual é o valor da média geométrica desta amostra e qual a variância deste estimador? (amostra completa) X 12,2 23,5 33,4 46,7 56,2 68,2 79,2 87,9 99,0 1010,1 (ver exemplo BS em Reamostragem.xls) 13

Validação Cruzada Tipicamente, na validação cruzada, a amostra é particionada aleatoriamente em dois subconjuntos: um de treinamento e outro de teste (validação). Esta técnica é aplicada principalmente quando um modelo é gerado e posteriormente este modelo é utilizado para se fazer predição. É importante observar que as avaliações feitas sobre o mesmo conjunto amostral de treinamento (única amostra) sempre são superestimadas uma vez que o modelo encontrado tenta minimizar os erros de cada observação em relação ao modelo desejado. Para reduzir a casualidade do resultado encontrado após uma única divisão arbitrária, pode-se repetir o processo de partição aleatoriamente muitas vezes (validação cruzada exaustiva) e avaliar cada uma delas, sintetizando os resultados em uma medida de tendência central (média, mediana, etc). Outra abordagem bastante utilizada é reservar apenas 1 amostra por vez para teste e usar as demais para validação. Este método é conhecido como Validação Cruzada LOO (Leave One Out). 14

Validação Cruzada (ver exemplo VCruzada em Reamostragem.xls) Num estudo de regressão, por exemplo, um conjunto pode ser usado para calcular os coeficientes da equação e o outro para comparar com os valores estimados por esta regressão. TreinamentoTeste X Y X Y 1,216,42,512,8 1,913,33,622,1 2,818,45,623,3 4,321,47,824,7 5,527,710,131,9 7,223,011,134,0 9,125,812,038,0 11,735,212,439,2 13,034,513,744,2 14,942,414,741,0 Y est erro 17,3-4,5 19,32,8 23,00,3 27,0-2,3 31,20,7 33,01,0 34,63,4 35,43,8 37,76,5 39,51,5 15