A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Estatística Não Paramétrica Camilo Daleles Rennó

Apresentações semelhantes


Apresentação em tema: "Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Estatística Não Paramétrica Camilo Daleles Rennó"— Transcrição da apresentação:

1 Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Estatística Não Paramétrica Camilo Daleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estat istica/

2 Que Análise Estatística Usar? TM R5G4B3TM R3G4B5TM R4G3B5TM R5G3B4 Qual destas composições coloridas tem a melhor interpretabilidade? a)Detecção de desmatamentos b)Avaliação de áreas degradadas c)Definição de níveis de regeneração d)Delimitação de corpos dágua Podemos dizer que há uma composição preferencial para uma dada aplicação? R5G4B3R3G4B5R4G3B5R5G3B4 4321 3421 3412 4321 1243 4312 4312... 3421 (1 – melhor; 4 – pior)

3 Que Análise Estatística Usar? Duas amostras foram obtidas a partir de duas populações distintas: Amostra 1: 1003, 545, 875, 442, 13, 1209, 996, 57, 2356, 397(n 1 = 10) Amostra 2: 233, 43, 157, 338, 113, 5, 99, 302, 475(n 2 = 9) Podemos afirmar que a população 1 apresenta uma tendência de ter valores maiores que a população 2?

4 Que Análise Estatística Usar? A partir de uma amostra de 200 valores obteve-se o seguinte histograma: Podemos afirmar que esta população possui uma distribuição uniforme? Frequência absoluta

5 Estatística Paramétrica X Não Paramétrica Estatísticas Paramétricas exigem grande número de condições para que sejam válidas e tenham alto poder ( 1 –, probabilidade de rejeitar H 0 quando H 0 for falso). Estas condições, em geral, são supostas válidas (ou previamente testadas) Por exemplo, a Análise de Variância (ANOVA) pressupõe: independência das amostras; tratamentos normalmente distribuídos; e tratamentos homocedásticos (mesmas variâncias) Estatísticas Não Paramétricas baseiam-se em suposições mais brandas e, quase sempre, consideram a ordem dos dados e não seus valores numéricos. Além disso, podem trabalhar diretamente com dados categóricos (classes)

6 Tipo de Mensuração Nominal (Classes): o atributo (numérico ou não) é usado apenas para identificar a que grupo ou classe cada elemento da população pertence exemplo:classe de uso e ocupação (floresta, pastagem, água, cidade, etc) tipo de água (branca, preta e clara) código DDD Ordinal (Postos ou Rank): o atributo (numérico ou não) tem significado de posicionamento numa lista (crescente ou decrescente) exemplo:nível de cinza de uma imagem proximidade (junto, perto, longe) ordem da bacia hidrográfica (método de Strahler)

7 Alguns Testes Não Paramétricos Uma amostra Teste de Aderência Teste de Kolmogorov-Smirnov Duas amostras relacionadas Teste dos Sinais Teste de Wilcoxon Duas amostras independentes Teste de Independência Teste de Mann-Withney Teste de Kolmogorov-Smirnov para duas amostras

8 Valor do dado123456 Freq. Abs. Obs.1802071912032102091200 Freq. Abs. Esp.? Valor do dado123456 Freq. Abs. Obs.1802071912032102091200 Freq. Abs. Esp.200 1200 Teste de Aderência Exemplo: Deseja-se testar a hipótese de que um dado seja honesto. Para tanto, joga-se o mesmo 1200 vezes anotando-se os resultados: Valor do dado123456 Freq. Abs. Obs.1802071912032102091200 H 0 : ? H 0 : p i = 1/6 (i = 1, 2,..., 6) (dado honesto) H 1 : pelo menos algum p i 1/6 Se H 0 é verdadeira, então c é o número de classes 0 + H 0 verd. H 0 falso

9 Valor do dado123456 Freq. Abs. Obs.1802071912032102091200 Freq. Abs. Esp.? Valor do dado123456 Freq. Abs. Obs.1802071912032102091200 Freq. Abs. Esp.200 1200 Teste de Aderência Exemplo: Deseja-se testar a hipótese de que um dado seja honesto. Para tanto, joga-se o mesmo 1200 vezes anotando-se os resultados: Valor do dado123456 Freq. Abs. Obs.1802071912032102091200 H 0 : ? H 0 : p i = 1/6 (i = 1, 2,..., 6) (dado honesto) H 1 : pelo menos algum p i 1/6 Se H 0 é verdadeira, então c é o número de classes 0 + ac. H 0 rej. H 0

10 Valor do dado123456 Freq. Abs. Obs.1802071912032102091200 Freq. Abs. Esp.200 1200 Teste de Aderência Exemplo: Deseja-se testar a hipótese de que um dado seja honesto. Para tanto, joga-se o mesmo 1200 vezes anotando-se os resultados (tabela abaixo). H 0 : p i = 1/6 (i = 1, 2,..., 6) (dado honesto) H 1 : p i 1/6 Se H 0 é verdadeira, então Conclusão: considerando 5% de significância, aceita-se H 0, ou seja, não há razões para discordar que o dado seja honesto. 0 + = 0,05

11 Teste de Aderência OBSERVAÇÕES: -Para variáveis aleatórias contínuas, deve-se agrupar os dados em 2 a 20 classes excludentes; -Com apenas 2 classes, o valor esperado de cada uma deve ser 5; -Considerando-se mais que 2 classes, não mais de 20% dos valores esperados devem ser menores que 5, e nenhum deve ser nulo; -Não é necessário que as classes sejam equiprováveis (mas é desejável); -Este teste não é sensível ao ordenamento das classes; e -Caso o teste seja usado para verificar a adequação do uso de alguma distribuição específica com parâmetros desconhecidos, perde-se também 1 grau de liberdade para cada parâmetro estimado. Ex: para testar uma distribuição que possui 2 parâmetros desconhecidos, o teste de aderência teria c - 3 graus de liberdade.

12 2,24,13,54,55,03,73,02,63,41,6 3,13,33,83,14,73,72,54,34,93,6 2,93,33,93,14,83,13,74,43,24,1 1,93,44,73,83,02,63,93,04,23,5 Teste de Aderência / Teste de Normalidade Exemplo: Considere os dados abaixo, resultantes da observação de 40 valores de uma variável aleatória qualquer Y. Deseja-se testar a hipótese de que esta variável aleatória tenha distribuição normal. H 0 : Y ~ N( = 3,5275; 2 = 0,6528) H 1 : Y ~ ? H 0 : (Y – 3,5275)/0,8080 = Z ~ N(0,1) H 1 : (Y – 3,5275)/0,8080 ~ ? Valores padronizados: -1,640,71-0,031,201,820,21-0,65-1,15-0,16-2,39 -0,53-0,280,34-0,531,450,21-1,270,961,700,09 -0,78-0,280,46-0,531,57-0,530,211,08-0,410,71 -2,01-0,161,450,34-0,65-1,150,46-0,650,83-0,03

13 LimitesFAObs - a -1,0686 -1,068 a -0,5664 -0,566 a -0,1807 -0,180 a 0,1805 0,180 a 0,5667 0,566 a 1,0684 1,068 a + 7 LimitesFAObsFAEsp - a -1,068640/7 -1,068 a -0,566440/7 -0,566 a -0,180740/7 -0,180 a 0,180540/7 0,180 a 0,566740/7 0,566 a 1,068440/7 1,068 a + 740/7 Teste de Aderência / Teste de Normalidade Exemplo: Considere os dados abaixo, resultantes da observação de 40 valores de uma variável aleatória qualquer Y. Deseja-se testar a hipótese de que esta variável aleatória tenha distribuição normal. Valores padronizados: Agrupando-se os valores padronizados em 7 classes equiprováveis tem-se X = 2 0 + = 0,05 Conclusão: aceita-se H 0 a 5% sig., ou seja, Y ~ N -1,640,71-0,031,201,820,21-0,65-1,15-0,16-2,39 -0,53-0,280,34-0,531,450,21-1,270,961,700,09 -0,78-0,280,46-0,531,57-0,530,211,08-0,410,71 -2,01-0,161,450,34-0,65-1,150,46-0,650,83-0,03 7-1-2 = 4

14 Teste de Kolmogorov-Smirnov 2,24,13,54,55,03,73,02,63,41,6 3,13,33,83,14,73,72,54,34,93,6 2,93,33,93,14,83,13,74,43,24,1 1,93,44,73,83,02,63,93,04,23,5 Exemplo: Considere os dados abaixo, resultantes da observação de 40 valores de uma variável aleatória qualquer Y. Deseja-se testar a hipótese de que esta variável aleatória tenha distribuição normal. H 0 : Y ~ N( = 3,5275; 2 = 0,6528) H 1 : Y ~ ? H 0 : (Y – 3,5275)/0,8080 = Z ~ N(0,1) H 1 : (Y – 3,5275)/0,8080 ~ ? Valores padronizados: -1,640,71-0,031,201,820,21-0,65-1,15-0,16-2,39 -0,53-0,280,34-0,531,450,21-1,270,961,700,09 -0,78-0,280,46-0,531,57-0,530,211,08-0,410,71 -2,01-0,161,450,34-0,65-1,150,46-0,650,83-0,03

15 Valores padronizados ordenados: -2,39-2,01-1,64-1,27-1,15 -0,78-0,65 -0,53 -0,41-0,28 -0,16 -0,03 0,090,21 0,34 0,46 0,71 0,830,961,081,201,45 1,571,701,82 Teste de Kolmogorov-Smirnov Exemplo: Considere os dados abaixo, resultantes da observação de 40 valores de uma variável aleatória qualquer X. Deseja-se testar a hipótese de que esta variável aleatória tenha distribuição normal com média igual a 3,6 e variância 2 igual a 0,8. valores críticos tabelados! Se D maior que D crít, então rejeita-se H 0 e conclui-se que a distribuição teórica não é válida, com certo nível de significância. Se H 0 verdadeira

16 Valores Críticos do Teste KS Tamanho da amostra ( N ) Nível de significância para D crít = máx | F obs (X) - F esp (X) | 0,200,150,100,050,01 10,9000,9250,9500,9750,995 20,6840,7260,7760,8420,929 30,5650,5970,6420,7080,828 40,4940,5250,5640,6240,733 50,4460,4740,5100,5650,669 60,4100,4360,4700,5210,618 70,3810,4050,4380,4860,577 80,3580,3810,4110,4570,543 90,3390,3600,3880,4320,514 100,3220,3420,3680,4100,490 110,3070,3260,3520,3910,468 120,2950,3130,3380,3750,450 130,2840,3020,3250,3610,433 140,2740,2920,3140,3490,418 150,2660,2830,3040,3380,404 160,2580,2740,2950,3280,392 170,2500,2660,2860,3180,381 180,2440,2590,2780,3090,371 190,2370,2520,2720,3010,363 200,2310,2460,2640,2940,356 250,210,220,240,270,32 300,190,200,220,240,29 350,180,190,210,230,27 Mais de 35

17 Teste de Kolmogorov-Smirnov Conclusão: pode-se aceitar a hipótese de que os dados provenham de uma distribuição normal a 5% de significância. Valores padronizados ordenados: -2,39-2,01-1,64-1,27-1,15 -0,78-0,65 -0,53 -0,41-0,28 -0,16 -0,03 0,090,21 0,34 0,46 0,71 0,830,961,081,201,45 1,571,701,82 Exemplo: Considere os dados abaixo, resultantes da observação de 40 valores de uma variável aleatória qualquer X. Deseja-se testar a hipótese de que esta variável aleatória tenha distribuição normal com média igual a 3,6 e variância 2 igual a 0,8.

18 Teste de Kolmogorov-Smirnov OBSERVAÇÕES: -É o teste mais apropriado para dados ordenados; -Ideal quando a variável tem distribuição contínua; e -Não há uma modificação quando se estima os parâmetros de uma distribuição (não há perdas de graus de liberdade como no teste 2 ).

19 Teste dos Sinais Exemplo: Uma determinada técnica de processamento digital é conhecida por melhorar a interpretabilidade visual de imagens. A fim de comprovar sua eficiência, 20 imagens (de diferentes regiões e de usos e ocupação) foram processadas e apresentadas a um especialista que as classificou (em notas de 1 a 5), de forma totalmente independente, segundo a facilidade em distinguir os diferentes alvos presentes. Os resultados são apresentados abaixo (dados fictícios). Baseando-se nesses resultados, pode-se concluir que esta técnica realmente melhora a interpretabilidade das imagens? ImagemAntesDepois 145 235 322 443 534 612 754 834 913 1055 ImagemAntesDepois 1123 1232 1334 1434 1535 1613 1744 1824 1945 2023 # negativos: 3 # positivos: 14 # nulos: 3 + + 0 - + + - + + 0 + - + + + + 0 + + + Critérios: Positivo: melhorou Negativo: piorou Nulo: indiferente

20 Teste dos Sinais Exemplo: Uma determinada técnica de processamento digital é conhecida por melhorar a interpretabilidade visual de imagens. A fim de comprovar sua eficiência, 20 imagens (de diferentes regiões e de usos e ocupação) foram processadas e apresentadas a um especialista que as classificou (em notas de 1 a 5), de forma totalmente independente, segundo a facilidade em distinguir os diferentes alvos presentes. Os resultados são apresentados abaixo (dados fictícios). Baseando-se nesses resultados, pode-se concluir que esta técnica realmente melhora a interpretabilidade das imagens? Se X representa o número de resultados positivos nas n observações, então X ~ Binomial p = 0,5 (se H 0 verdadeira) n = 17 (os empates são desconsiderados) H 0 : p(+) = 0,5 (a técnica não tem efeito sobre a interpretabilidade de imagens) H 1 : p(+) > 0,5 (a técnica melhora a interpretabilidade de imagens)

21 Teste dos Sinais Exemplo: Uma determinada técnica de processamento digital é conhecida por melhorar a interpretabilidade visual de imagens. A fim de comprovar sua eficiência, 20 imagens (de diferentes regiões e de usos e ocupação) foram processadas e apresentadas a um especialista que as classificou (em notas de 1 a 5), de forma totalmente independente, segundo a facilidade em distinguir os diferentes alvos presentes. Os resultados são apresentados abaixo (dados fictícios). Baseando-se nesses resultados, pode-se concluir que esta técnica realmente melhora a interpretabilidade das imagens? H 0 : p(+) = 0,5 (a técnica não tem efeito sobre a interpretabilidade de imagens) H 1 : p(+) > 0,5 (a técnica melhora a interpretabilidade de imagens) H 0 falso Adotando-se 5% de significância, rejeita-se H 0 se forem observados 13 ou mais valores positivos, já que P(X 12) = 7,2% P(X 13) = 2,5% ac. H 0 rej. H 0 Conclusão: rejeito H 0 a 5%, ou seja, a técnica parece mesmo melhorar a interpretabilidade de imagens # positivos observados: 14

22 Teste dos Sinais OBSERVAÇÕES: -É comum calcular-se o valor-p = mín[P(X x obs ); P(X x obs )], que indica o quão raro é observar valores tão extremos quanto o observado -Para grandes amostras ( n > 25 ), a distribuição binomial aproxima-se da normal e então um teste z (com correção de continuidade) pode ser empregado -Considera apenas o sentido da mudança e não sua grandeza -É equivalente ao teste paramétrico t pareado (cujo poder é superior para amostras grandes e quando as condições prévias recomendadas são verdadeiras)

23 Teste de Wilcoxon Exemplo (fictício): Para estimar a área plantada de uma cultura qualquer, um classificador automático pode utilizar uma ou mais imagens de uma mesma região. Espera-se que a utilização de imagens de duas datas resulte numa classificação melhor do que quando é utilizada apenas uma imagem, dependendo da época que estas imagens são obtidas. A fim de verificar se o classificador realmente melhora seu desempenho ao utilizar duas imagens ao invés de uma única imagem, 8 regiões foram selecionadas e a área de plantio corretamente classificada foi avaliada usando-se uma ou duas imagens. Os resultados são apresentados abaixo. O que se pode concluir? Região Área corretamente classificada 1 imagem2 imagens 170117 25148 36063 45790 54341 61521 72536 8103122 Se a análise fosse feita usando-se o Teste dos Sinais: H 0 : p(+) = 0,5 H 1 : p(+) > 0,5 Se H 0 verdadeira: X ~ Binomial p = 0,5 n = 8 Como o # positivos = 6 e H 0 verdadeira: + - + + - + + + Valor-P = P(X 6) = 14,5% Conclusão: aceita-se H 0

24 Teste de Wilcoxon Exemplo (fictício): Para estimar a área plantada... pode concluir? Região Área corretamente classificada Dif 1 imagem2 imagens 17011747 25148-3 360633 4579033 54341-2 615216 7253611 810312219 Procedimento: a)Calculam-se as diferenças

25 Teste de Wilcoxon Exemplo (fictício): Para estimar a área plantada... pode concluir? Região Área corretamente classificada Dif Post o 1 imagem2 imagens 170117478 25148-32,5 3606332,5 45790337 54341-21 6152164 72536115 8103122196 Procedimento: a)Calculam-se as diferenças b)Obtém-se os postos das diferenças em módulo, desprezando-se as diferenças nulas. Para diferenças repetidas, são atribuídos postos médios

26 Teste de Wilcoxon Exemplo (fictício): Para estimar a área plantada... pode concluir? Região Área corretamente classificada Dif Post o 1 imagem2 imagens 170117478 25148-3-2,5 3606332,5 45790337 54341-2 6152164 72536115 8103122196 Procedimento: a)Calculam-se as diferenças b)Obtém-se os postos das diferenças em módulo, desprezando-se as diferenças nulas. Para diferenças repetidas, são atribuídos postos médios c) Agregam-se os sinais das diferenças aos respectivos postos

27 Teste de Wilcoxon Exemplo (fictício): Para estimar a área plantada... pode concluir? Região Área corretamente classificada Dif Post o 1 imagem2 imagens 170117478 25148-3-2,5 3606332,5 45790337 54341-2 6152164 72536115 8103122196 Procedimento: a)Calculam-se as diferenças b)Obtém-se os postos das diferenças em módulo, desprezando-se as diferenças nulas. Para diferenças repetidas, são atribuídos postos médios c) Agregam-se os sinais das diferenças aos respectivos postos d)Calcula-se a menor soma dos postos de mesmo sinal T(-) = 3,5 T(+) = 27,5

28 Teste de Wilcoxon Exemplo (fictício): Para estimar a área plantada... pode concluir? Região Área corretamente classificada Dif Post o 1 imagem2 imagens 170117478 25148-3-2,5 3606332,5 45790337 54341-2 6152164 72536115 8103122196 Procedimento: a)Calculam-se as diferenças b)Obtém-se os postos das diferenças em módulo, desprezando-se as diferenças nulas. Para diferenças repetidas, são atribuídos postos médios c) Agregam-se os sinais das diferenças aos respectivos postos d)Calcula-se a menor soma dos postos de mesmo sinal T obs = 3,5 H 0 : T(+) = T(-) Não há diferença no uso de 2 imagens H 1 : T(+) > T(-) A segunda imagem melhora a classificação e)Compara-se o valor obtido com o valor crítico (tabelado). Se valor observado for igual ou menor que o tabelado, rejeita-se H 0. Caso contrário, aceita-se H 0.

29 Valores Críticos do Teste de Wilcoxon Tamanho da amostra ( N ) Nível de significância (unilateral) 0,050,0250,010,005 Nível de significância (bilateral) 0,10,050,020,01 620--- 7420 86420 98632 1011853 141175 121714107 1321171310 1426211613 1530252016 36302420 1741352823 1847403328 1954463832 2060524338 2168594943 2275665649 2383736255 2492816961 25101897768

30 Teste de Wilcoxon Exemplo (fictício): Para estimar a área plantada... pode concluir? Região Área corretamente classificada Dif Post o 1 imagem2 imagens 170117478 25148-3-2,5 3606332,5 45790337 54341-2 6152164 72536115 8103122196 Procedimento: a)Calculam-se as diferenças b)Obtém-se os postos das diferenças em módulo, desprezando-se as diferenças nulas. Para diferenças repetidas, são atribuídos postos médios c) Agregam-se os sinais das diferenças aos respectivos postos d)Calcula-se a menor soma dos postos de mesmo sinal T obs = 3,5 H 0 : T(+) = T(-) Não há diferença no uso de 2 imagens H 1 : T(+) > T(-) A segunda imagem melhora a classificação e)Compara-se o valor obtido com o valor crítico (tabelado). Se valor observado for igual ou menor que o tabelado, rejeita-se H 0. Caso contrário, aceita-se H 0. T crít 5% = 6 Conclusão: rejeita-se H 0, ou seja, a inclusão de uma nova imagem melhora o desempenho do classificador a 5% de significância

31 Teste de Wilcoxon OBSERVAÇÕES: -Este teste é mais poderoso que o Teste dos Sinais, pois permite atribuir maior peso aos pares com maiores diferenças (o Teste dos Sinais considera apenas o sentido da mudança) -É equivalente ao teste paramétrico t pareado -Para grandes amostras ( n > 25 ), a estatística T pode ser aproximada para uma normal. Nesse caso, utiliza-se a estatística z : - + 0 z crít -z crít aceitação de H 0 rejeição de H 0 rejeição de H 0 Teste Bilateral

32 Teste de Mann-Withney Exemplo (fictício): As plantas possuem diferentes mecanismos de dispersão de sementes de modo que, para algumas espécies, há a formação de agrupamentos enquanto que, para outras, há uma tendência de maior dispersão. A fim de avaliar a comportamento de duas espécies quaisquer, selecionou-se aleatoriamente algumas plântulas recém-germinadas e anotou-se a distância mínima que esta plântula estava de um indivíduo adulto da mesma espécie. Os resultados são apresentados abaixo. O que se pode concluir? Distância (m) Espécie AEspécie B 45,76,3 67,12,1 5,31,5 132,112,0 153,03,2 289,75,1 12,85,0 156,26,7 223,29,8 54,011,3 19,1 10,8 Será que estes resultados poderiam ser obtidos mesmo que ambas espécies tivessem o mesmo comportamento de dispersão ou será que eles evidenciam a diferença entre estas espécies?

33 Teste de Mann-Withney Exemplo (fictício): As plantas possuem... pode concluir? Espécie APostoEspécie BPosto 45,7156,37 67,1172,12 5,361,51 132,11812,012 153,0193,23 289,7225,15 12,8135,04 156,2206,78 223,2219,89 54,01611,311 19,114 10,810 Procedimento: a)Obtém-se o posto de cada observação, independentemente do grupo a qual pertença

34 Teste de Mann-Withney Exemplo (fictício): As plantas possuem... pode concluir? Espécie APostoEspécie BPosto 45,7156,37 67,1172,12 5,361,51 132,11812,012 153,0193,23 289,7225,15 12,8135,04 156,2206,78 223,2219,89 54,01611,311 19,114 10,810 Procedimento: a)Obtém-se o posto de cada observação, independentemente do grupo a qual pertença b)Soma-se os postos de cada grupo, obtendo-se R 1 (associado à menor amostra, n 1 ) e R 2 (associado à maior amostra, n 2 ) R 2 = 191R 1 = 62

35 Teste de Mann-Withney Exemplo (fictício): As plantas possuem... pode concluir? Espécie APostoEspécie BPosto 45,7156,37 67,1172,12 5,361,51 132,11812,012 153,0193,23 289,7225,15 12,8135,04 156,2206,78 223,2219,89 54,01611,311 19,114 10,810 Procedimento: a)Obtém-se o posto de cada observação, independentemente do grupo a qual pertença b)Soma-se os postos de cada grupo, obtendo-se R 1 (associado à menor amostra, n 1 ) e R 2 (associado à maior amostra, n 2 ) c)Calcula-se a estatística U R 2 = 191R 1 = 62 U = 7 BBBBBABBBABBAAAAAAAAAA 1 1 1 2 2 7 U representa o número de vezes que um posto no grupo A precede um posto do grupo B

36 Teste de Mann-Withney Exemplo (fictício): As plantas possuem... pode concluir? Espécie APostoEspécie BPosto 45,7156,37 67,1172,12 5,361,51 132,11812,012 153,0193,23 289,7225,15 12,8135,04 156,2206,78 223,2219,89 54,01611,311 19,114 10,810 R 2 = 191R 1 = 62 H 0 : Não há diferença no comportamento das 2 espécies H 1 : A espécie A dispersa-se mais do que a espécie B (unilateral) d)Compara-se o valor obtido com o valor crítico (tabelado). Se valor observado for igual ou menor que o tabelado, rejeita-se H 0. Caso contrário, aceita-se H 0. Procedimento: a)Obtém-se o posto de cada observação, independentemente do grupo a qual pertença b)Soma-se os postos de cada grupo, obtendo-se R 1 (associado à menor amostra, n 1 ) e R 2 (associado à maior amostra, n 2 ) c)Calcula-se a estatística U

37 Valores Críticos do Teste de Mann-Withney Teste Bilateral ( = 1% ) n1n1 n2n2 34567891011121314151617181920 3 ––––––000111222233 4 –––001122334556678 5 ––01123456778910111213 6 –0123456791011121315161718 7 –013467910121315161819212224 8 –1246791113151718202224262830 9 013579111316182022242729313336 10 0246911131618212426293134373942 11 02571013161821242730333639424548 12 1369 15182124273134374144475154 13 137101317202427313438424549535660 14 147111518222630343842465054586367 15 258121620242933374246515560646973 16 259131822273136414550556065707479 17 2610151924293439444954606570758186 18 2611162126313742475358647075818792 19 3712172228333945515663697481879399 20 38131824303642485460677379869299105

38 Valores Críticos do Teste de Mann-Withney Teste Bilateral ( = 5% ) n1n1 n2n2 34567891011121314151617181920 3 ––0112233445566778 4 –012344567891011 121314 5 012356789111213141517181920 6 123568101113141617192122242527 7 1356810121416182022242628303234 8 24681013151719222426293134363841 9 247101215172023262831343739424548 10 358111417202326293336394245485255 11 369131619232630333740444751555862 12 4711141822262933374145495357616569 13 4812162024283337414550545963677276 14 5913172226313640455055596467747883 15 51014192429343944495459647075808590 16 61115212631374247535964707581869298 17 611172228343945515763677581879399105 18 7121824303642485561677480869399106112 19 71319253238455258657278859299106113119 20 814202734414855626976839098105112119127

39 Valores Críticos do Teste de Mann-Withney Teste Unilateral ( = 1% ) n1n1 n2n2 34567891011121314151617181920 3 ––––00111222334445 4 ––01123345567789910 5 –0123456789 111213141516 6 –12346789111213151618192022 7 01346791112141617192123242628 8 024679111315172022242628303234 9 1357911141618212326283133363840 10 13681113161922242730333638414447 11 14791215182225283134374144475053 12 258111417212428313538424649535660 13 259121620232731353943475155596367 14 2610131722263034384347515660656973 15 3711151924283337424751566166707580 16 3712162126313641465156616671768287 17 4813182328333844495560667177828893 18 49141924303641475359657076828894100 19 491520263238445056636975828894101107 20 51016222834404753606773808793100107114

40 Valores Críticos do Teste de Mann-Withney Teste Unilateral ( = 5% ) n1n1 n2n2 34567891011121314151617181920 3 00122344556778991011 4 01234567891011121415161718 5 12456891112131516181920222325 6 2357810121416171921232526283032 7 24681113151719212426283033353739 8 358101315182023262831333639414447 9 469121518212427303336394245485154 10 4711141720242731343741444851555862 11 5812161923273134384246505457616569 12 5913172126303438424751556064687277 13 61015192428333742475156616570758084 14 71116212631364146515661667177828792 15 712182328333944505561667277838894100 16 8141925303642485460657177838995101107 17 91520263339455157647077838996102109115 18 916222835414855616875828895102109116123 19 10172330374451586572808794101109116123130 20 111825323947546269778492100107115123130138

41 H 0 : Não há diferença no comportamento das 2 espécies H 1 : A espécie A dispersa-se mais do que a espécie B (unilateral) Teste de Mann-Withney Exemplo (fictício): As plantas possuem... pode concluir? Espécie APostoEspécie BPosto 45,7156,37 67,1172,12 5,361,51 132,11812,012 153,0193,23 289,7225,15 12,8135,04 156,2206,78 223,2219,89 54,01611,311 19,114 10,810 R 2 = 191R 1 = 62 U obs = 7 U crít 5% = 34 d)Compara-se o valor obtido com o valor crítico (tabelado). Se valor observado for igual ou menor que o tabelado, rejeita-se H 0. Caso contrário, aceita-se H 0. Procedimento: a)Obtém-se o posto de cada observação, independentemente do grupo a qual pertença b)Soma-se os postos de cada grupo, obtendo-se R 1 (associado à menor amostra, n 1 ) e R 2 (associado à maior amostra, n 2 ) c)Calcula-se a estatística U Conclusão: rejeita-se H 0, ou seja, a espécie A parece dispersar-se mais do que a espécie B, adotando-se 5% de significância

42 Teste de Mann-Withney OBSERVAÇÕES: -É um dos testes não paramétricos mais poderosos, sendo uma alternativa muito útil ao teste t -Para grandes amostras ( n 2 > 20 ), a estatística U pode ser aproximada para uma normal. Nesse caso, utiliza-se a estatística z : -Quando ocorrem empates dentro do mesmo grupo, o valor U não é afetado. No entanto, quando o empate ocorre entre grupos diferentes, uma correção em U é necessária: onde: t i é o número de observações do posto empatado i n T é o número postos empatados

43 Teste de Independência Exemplo (fictício): Algumas espécies de pássaro ocupam diferentes ambientes dentro da floresta. A fim de comprovar se algumas espécies de uma família de pássaros têm esta característica, durante um ano, um pesquisador identificou e contou os pássaros capturados em 3 diferentes ambientes da floresta. Os resultados encontram-se na tabela a seguir. O que se pode concluir? Podemos afirmar que algumas espécies desta família se distribuem preferencialmente em algum ambiente? Espécie Ambiente Total InteriorBordaClareira I522128 II1438 III342339 IV263130 Total661128105 p i = probabilidade de encontrar a espécie i em qualquer ambiente p j = probabilidade de encontrar qualquer espécie no ambiente j H 0 : p ij = p i * p j as espécies não têm preferência por um ambiente específico H 1 : p ij p i * p j as espécies ocupam preferencialmente um determinado ambiente

44 Teste de Independência H 0 : p ij = p i * p j H 1 : p ij p i * p j Observado Se H 0 é verdadeira, então Esperado Exemplo (fictício): Algumas espécies de pássaro... em algum ambiente? Espécie Ambiente Total InteriorBordaClareira I522128 II1438 III342339 IV263130 Total661128105 Espécie Ambiente Total InteriorBordaClareira I?28 II8 III39 IV30 Total661128105

45 Teste de Independência l = n o linhas c = n o colunas Exemplo (fictício): Algumas espécies de pássaro... em algum ambiente? H 0 : p ij = p i * p j H 1 : p ij p i * p j Observado Se H 0 é verdadeira, então Esperado Espécie Ambiente Total InteriorBordaClareira I522128 II1438 III342339 IV263130 Total661128105 Espécie Ambiente Total InteriorBordaClareira I 17,602,937,47 28 II 5,030,842,13 8 III 24,514,0910,40 39 IV 18,863,148,00 30 Total661128105 0 + aceitação de H 0 rejeição de H 0

46 Teste de Independência 0 + = 0,05 Conclusão: rejeita-se H 0 a 5%, ou seja, as espécies não ocupam a floresta independentemente do ambiente (há uma preferência de cada espécie) Exemplo (fictício): Algumas espécies de pássaro... em algum ambiente? H 0 : p ij = p i * p j H 1 : p ij p i * p j Observado Se H 0 é verdadeira, então Esperado Espécie Ambiente Total InteriorBordaClareira I522128 II1438 III342339 IV263130 Total661128105 Espécie Ambiente Total InteriorBordaClareira I 17,602,937,47 28 II 5,030,842,13 8 III 24,514,0910,40 39 IV 18,863,148,00 30 Total661128105

47 onde N = A + B + C + D ; -Só pode ser aplicado quando no máximo 20% dos valores esperados sejam menores que 5 e nenhum seja inferior a 1; e -Este teste não é sensível ao ordenamento das classes. Teste de Independência OBSERVAÇÕES: -Para l = c = 2, ou seja, para tabelas de contingência 2x2, usa-se a estatística ABA+B CDC+D A+CB+DN

48 Teste de Kolmogorov-Smirnov (2 amostras) Exemplo: Um pesquisador deseja saber se duas regiões de uma mesma imagem apresentam a mesma distribuição de valores (desconhecida). Para testar esta hipótese, amostrou- se 15 pontos independentes de cada região. Os valores observados são apresentados na tabela abaixo. O que se conclui a partir destes valores? Região ARegião B 8156 7855 6176 8954 6983 5897 6485 8466 8978 8380 8861 5669 8771 9555 7591 OBS: Apesar de n A = n B = n, os valores são independentes entre si (não são dados pareados)

49 Teste de Kolmogorov-Smirnov (2 amostras) Exemplo: Um pesquisador deseja saber se duas regiões de uma mesma imagem apresentam a mesma distribuição de valores (desconhecida). Para testar esta hipótese, amostrou- se 15 pontos independentes de cada região. Os valores observados são apresentados na tabela abaixo. O que se conclui a partir destes valores? Procedimento: a)Organiza-se uma lista ordenada com todos os valores de ambas regiões (valores repetidos aparecem apenas uma vez) b)Calcula-se a Freqüência Relativa Acumulada de cada grupo Região ARegião B 8156 7855 6176 8954 6983 5897 6485 8466 8978 8380 8861 5669 8771 9555 7591 ValorFRA A FRA B 5401/15 5503/15 561/154/15 582/154/15 613/155/15 644/155/15 664/156/15 695/157/15 715/158/15 756/158/15 766/159/15 787/1510/15 807/1511/15 818/1511/15 839/1512/15 8410/1512/15 8510/1513/15 8711/1513/15 8812/1513/15 8914/1513/15 9114/15 9515/1514/15 9715/15

50 Teste de Kolmogorov-Smirnov (2 amostras) Exemplo: Um pesquisador deseja saber se duas regiões de uma mesma imagem apresentam a mesma distribuição de valores (desconhecida). Para testar esta hipótese, amostrou- se 15 pontos independentes de cada região. Os valores observados são apresentados na tabela abaixo. O que se conclui a partir destes valores? Procedimento: a)Organiza-se uma lista ordenada com todos os valores de ambas regiões (valores repetidos aparecem apenas uma vez) b)Calcula-se a Freqüência Relativa Acumulada de cada valor para cada região c)Calcula-se a diferença, em módulo, das Freqüências Relativas Acumuladas de cada valor ValorFRA A FRA B |Dif| 5401/15 5503/15 561/154/153/15 582/154/152/15 613/155/152/15 644/155/151/15 664/156/152/15 695/157/152/15 715/158/153/15 756/158/152/15 766/159/153/15 787/1510/153/15 807/1511/154/15 818/1511/153/15 839/1512/153/15 8410/1512/152/15 8510/1513/153/15 8711/1513/152/15 8812/1513/151/15 8914/1513/151/15 9114/15 0 9515/1514/151/15 9715/15 0 d)Identificar a maior diferença relativa ( D obs ) e/ou o seu numerador ( KD obs ), considerando que o denominador é igual a n ( = n A = n B ). D obs = 4/15 KD obs = 4 e)Compara-se o valor obtido com o valor crítico (tabelado). Se valor observado for igual ou maior que o tabelado, rejeita-se H 0. Caso contrário, aceita-se H 0. H 0 : As duas amostras provêem da mesma população H 1 : As duas amostras provêem de populações diferentes (bilateral)

51 Valores Críticos de KD para o Teste KS (2 amostras) n UnilateralBilateral (n 1 = n 2 ) = 0,05 = 0,01 = 0,05 = 0,01 33--- 44-4- 54555 65656 75666 85667 96767 106778 116878 126878 137879 147889 157989 1679810 1789810 n UnilateralBilateral (n 1 = n 2 ) = 0,05 = 0,01 = 0,05 = 0,01 188109 198109 20810911 21810911 229119 239111011 249111012 259111012 269111012 279121012 2810121113 2910121113 3010121113 3511131214 4011141315 n > 40 Unilateral

52 Teste de Kolmogorov-Smirnov (2 amostras) Exemplo: Um pesquisador deseja saber se duas regiões de uma mesma imagem apresentam a mesma distribuição de valores (desconhecida). Para testar esta hipótese, amostrou- se 15 pontos independentes de cada região. Os valores observados são apresentados na tabela abaixo. O que se conclui a partir destes valores? Procedimento: a)Organiza-se uma lista ordenada com todos os valores de ambas regiões (valores repetidos aparecem apenas uma vez) b)Calcula-se a Freqüência Relativa Acumulada de cada valor para cada região c)Calcula-se a diferença, em módulo, das Freqüências Relativas Acumuladas de cada valor ValorFRA A FRA B |Dif| 5401/15 5503/15 561/154/153/15 582/154/152/15 613/155/152/15 644/155/151/15 664/156/152/15 695/157/152/15 715/158/153/15 756/158/152/15 766/159/153/15 787/1510/153/15 807/1511/154/15 818/1511/153/15 839/1512/153/15 8410/1512/152/15 8510/1513/153/15 8711/1513/152/15 8812/1513/151/15 8914/1513/151/15 9114/15 0 9515/1514/151/15 9715/15 0 d)Identificar a maior diferença relativa ( D obs ) e/ou o seu numerador ( KD obs ), considerando que o denominador é igual a n ( = n A = n B ). e)Compara-se o valor obtido com o valor crítico (tabelado). Se valor observado for igual ou maior que o tabelado, rejeita-se H 0. Caso contrário, aceita-se H 0. Conclusão: aceita-se H 0, ou seja, as duas amostras provêem da mesma população, adotando-se 5% de significância D obs = 4/15 KD obs = 4 H 0 : As duas amostras provêem da mesma população H 1 : As duas amostras provêem de populações diferentes (bilateral) KD crít 5% = 8

53 Teste de Kolmogorov-Smirnov (2 amostras) OBSERVAÇÕES: -para amostras pequenas com n 1 n 2, deve-se buscar tabelas específicas para encontrar os valores críticos (http://www.jstor.org/stable/2285616) -para amostras grandes, pode-se definir um número arbitrário de intervalos para os quais serão calculadas as freqüências relativas acumuladas de cada grupo (utilizar tantos intervalos quanto possível)


Carregar ppt "Estatística: Aplicação ao Sensoriamento Remoto SER 203 - ANO 2014 Estatística Não Paramétrica Camilo Daleles Rennó"

Apresentações semelhantes


Anúncios Google