A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Estimativa por Krigagem

Apresentações semelhantes


Apresentação em tema: "Estimativa por Krigagem"— Transcrição da apresentação:

1 Estimativa por Krigagem
Técnicas de Validação Cruzada Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS

2 Estrutura da apresentação
Introdução Distribuição do erro Distribuição bivariada de valores verdadeiros e estimados Validação como ferramenta qualitativa Referências bibliográficas

3 Introdução A validação cruzada é a técnica que permite, através da comparação entre valores reais e estimados das informações disponíveis, escolher entre diferentes procedimentos de estimativa, entre diferentes estratégias de busca ou entre diferentes modelos variográficos. Nessa técnica, as opções de estimativa são testadas nas localizações de amostras existentes. Um valor de uma amostra para uma dada localização é temporariamente descartado do banco de dados, sendo então estimado um valor para essa localização a partir das amostras remanescentes. Uma vez que a estimativa tenha sido obtida, podemos compará-la com o valor verdadeiro que havia sido inicialmente removido. Esse procedimento é repetido para todos os dados disponíveis.

4 Cross validation x Jacknife
Cross Validation cada datum é removido individualmente (um por vez) e re-estimado com os remanescentes. Jacknife remove vários dados de cada vez e com os remanescentes reestima-os. Após cada remoção de um sub conjunto deve-se reestimar inclusive os parâmetros estatísticos (histograma e variograma). Deve ser repetido para vários subconjuntos removidos. Extremamente laborioso.

5 ?

6 Arquivo de saída típico na validação cruzada.

7 Distribuição do erro Em cada localização onde uma estimativa foi realizada, temos um dado verdadeiro (v) e uma estimativa (v*). O erro em cada localização é a diferença entre os valores estimados e verdadeiros: Erro = r = v* - v Se r é positivo, então nós temos uma superestimativa dos valores verdadeiros; se r é negativo então nós temos uma subestimativa. Freqüentemente, esses erros são chamados de resíduos. A média da distribuição do erro é chamada de viés e um objetivo razoável de qualquer método de estimativa é produzir estimativas não-tendenciosa, ou seja, com uma média próxima de zero.

8 Média do erro negativa, refletindo uma tendência geral de ocorrências de subestimativas.
Média do erro positiva como resultado de abundância de superestimativas. Equilíbrio entre superestimativas e subestimativas.

9 Outra feição que gostaríamos de observar em nossas distribuições de erro é um pequeno espalhamento. Na figura, são apresentadas duas distribuições de erro: em (a) uma distribuição não-tendenciosa, mas com um grande espalhamento ou variância ao redor da média e em (b) uma distribuição com muito menos variância, mas com um leve viés. (a) (b)

10 Histograma de freqüência de resíduos para estimativa por KO no Walker Lake dataset.

11 Distribuição bivariada de valores verdadeiros e estimados
Um scatterplot de valores verdadeiros versus valores estimados fornece uma evidência adicional do nível de acerto atingido pelo método de estimativa. No caso de uma estimativa “perfeita”, os valores verdadeiros e os estimados plotariam segundo uma reta a 45o no scatterplot.

12 No entanto, na prática, teremos sempre que conviver com algum nível de erro em nossas estimativas e nossos scatterplots de valores verdadeiros versus estimados aparecerão sempre como uma nuvem de pontos. Dessa forma, o espalhamento dessa nuvem de pontos ao redor da reta ideal (x = y) também pode nos fornecer um indicativo do nível de acerto de nossas estimativas. O coeficiente de correlação é um bom índice para sumarizar o quão perto os pontos em um scatterplot vêm a se aproximar da reta e freqüentemente é feito uso desse índice na comparação entre as opções de busca ou métodos de estimativa.

13 Validação como ferramenta qualitativa
Uma análise do arranjo espacial dos resíduos, freqüentemente pode ser utilizada para investigar a existência de possíveis artefatos criados pelas opções ou métodos de estimativa utilizados. Como preferimos estimativas condicionalmente não- tendenciosas com respeito a qualquer faixa de valores, é justo que se pretenda também que as estimativas sejam condicionalmente não-tendenciosas com respeito a suas localizações. Para qualquer região, queremos que o centro seja o mais próximo possível de 0 e com o menor espalhamento. Um mapa de distribuição de resíduos pode revelar áreas onde as estimativas são consistentemente tendenciosas, enquanto mapas de estatística de janelas móveis podem ser usados para mostrar como o espalhamento dos resíduos variam pela área.

14 Mapa dos resíduos mostrando a não-existência de áreas em que ocorram preferencialmente subestimativas ou superestimativas para o Walker Lake dataset, obtidos por estimativas por KO.

15 Checagem da não tendencionidade do modelo
Valores estimados Z*(u) versus erro e (u) devem oscilar em torno de e(u)=0

16 Checando as realizações simuladas
Ligeiramente diferente de quando usado para krigagem. Teremos pares (output file) de valores verdadeiros e distribuição de incerteza, i.e. a cdf {Z(ui); FZ(ui,z), i = 1,..., n} Diferentes algoritmos ou decisões de modelamento (variograma, estratégia de busca, etc) irão produzir diferentes FZ(ui,z)`s

17 FZ(ui,z) ou ccdf provém de:
L realizações Estimado por lK diretamente Usando modelo MG com média, variância e normalização (back) Objetivo é checar quão adequada é a distribuição de incerteza (ccdf) Essa ccdf será checada para precisão e acuracidade

18 Precisão e Acuracidade de FZ(ui,z)
A verificação de acuracidade e precisão é feita baseada na real fração de valores verdadeiros incluídos em um intervalo simétrico de probabilidade com largura variável p. A ccdf será acurada se a fração de valores verdadeiros (omitidos um a um na validação cruzada) que caem no intervalo p exceda a p para qualquer valores p em [0,1] A precisão de uma ccdf acurada é medida pela proximidade entre a fração de valores reais e p para todos em [0,1]

19 Etapas para cálculo da precisão e acuracidade
Calcular a probabilidade associada a cada valor verdadeiro Z(ui), i=1,...n usando o modelo de incerteza F*(ui,Z(ui)|n(ui)], i=1,...,n Exemplo: Se o valor real está na mediana dos valores da ccdf então F(ui,Z(ui)[n(ui)]=0,5 Considerar um intervalo (range) de intervalo de probabilidade (IP) simétricos com probabilidade p, por exemplo entre os centis 0,01 e 0,99 com incrementos de 0,01. O intervalo IP-p simétrico é definido com limite superior e inferior.

20 Cálculo da precisão PI-p
Exemplo se p=0,9; pinf=0,05 e psup=0,95 Definir uma função indicatriz (ui;p) em cada localização ui: (ui;p) = 1 se F(ui;z(ui)|n(ui)] Є (pinf,psup] = 0 caso contrário Tomar a média de (ui;p) em todos n (pontos amostrais) ui: Essa expressão define a proporção de locais onde o valor real está inserido no PI-p

21 Interpretando a precisão e acuracidade da simulação (ccdf)
Gráfico da acuracidade Acurado mas impreciso Acurado e preciso Acurado e impreciso

22 Referências bibliográficas
ISAAKS, E.H. & SRIVASTAVA, M.R An Introduction to Applied Geostatistics, Oxford University Press, New York, 561 p. GOOVAERTS, P Geostatistics for Natural Resources Evaluation, Oxford University Press, New York, 483 p. DEUTSCH, C.V. & JOURNEL, A.G GSLIB: Geostatistical Software Library and User´s Guide, Oxford University Press, New York, 369 p. DEUTSCH, C.V Geostatistical Reservoir Modeling, Oxford University Press, New York, 376 p.


Carregar ppt "Estimativa por Krigagem"

Apresentações semelhantes


Anúncios Google