A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Testes de Hipóteses 1 Testes de Hipóteses Paulo J Azevedo DI - Universidade do Minho 2009 Revisão à análise de significância estatística.

Apresentações semelhantes


Apresentação em tema: "Testes de Hipóteses 1 Testes de Hipóteses Paulo J Azevedo DI - Universidade do Minho 2009 Revisão à análise de significância estatística."— Transcrição da apresentação:

1 Testes de Hipóteses 1 Testes de Hipóteses Paulo J Azevedo DI - Universidade do Minho 2009 Revisão à análise de significância estatística

2 Testes de Hipóteses 2 Testes de Significância Determinar o grau de confiança com que se pode concluir que os factos observados reflectem mais do que simples coincidência do acaso. Em Data Mining/Machine Learning são tipicamente usados para avaliar se a amostra que estamos a estudar (factos observados) é fruto do acaso (se é ou não significativa). Neste contexto são muitas vezes usados para detectar falsas descobertas. Permitem também avaliar se tem cabimento esperar que os padrões extraídos dos dados de treino (amostra) ocorram em dados futuros. Todos os testes envolvem duas componentes: –Um valor observado (obtido da amostra), –O valor esperado se nada mais do que variabilidade aleatória (acaso) operar nesta situação. Vários testes disponíveis dependendo do tipo de situação:.

3 Testes de Hipóteses 3 Testes de Significância (2) Quando executamos um teste de significância estatística assumimos duas teses: –A hipótese especifica que a nossa investigação pretende averiguar (Hipótese alternativa H 1 ), –A antítese da hipótese a investigar (Hipótese nula H 0 ) Exemplo com um ensaio médico: Avaliar se os resultados de um ensaio com um novo medicamente para prevenir AVCs aplicado a 1000 pacientes com 400 resultados positivos é significativo: –H 0 - o novo medicamento não tem efeito significativo –H 1 – o medicamento tem algum grau de eficácia na prevenção de AVCs Em termos estatísticos: –H 0 – o número de resultados positivos não é significativamente diferente do valor esperado por variabilidade aleatória MCE (mean chance expectation) –H 1 – o valor observado é significativamente diferente do valor esperado.

4 Testes de Hipóteses 4 Direccionalidade da Hipótese Alternativa Dependendo do tipo de questão que queremos endereçar com a nossa hipótese alternativa, esta pode ser direccional ou não-direccional. –Não direccional, se não considerar em que sentido os valores observados se afastam do valor esperado (MCE). Assim temos: H0: valor observado = MCE H1: valor observado MCE –Direccional, se considera em que sentido os valores observados se afastam do valor esperado (MCE). Ho: valor observado = MCE H1: valor observado > MCE, ou em alternativa H1: valor observado < MCE.

5 Testes de Hipóteses 5 Exemplo Lançar 100 vezes uma moeda ao ar. Verificar se o número de caras obtido (59) é significativo (se a moeda é equilibrada o valor esperado é 50% do número de testes). Usando a Binomial, com N=100,k=59,p=0.5,q=0.5. Notar que há mais 9 caras do que o esperado! De todos os possíveis cenários com 100 lançamentos, apenas 4.46% têm no mínimo 59 caras. O resultado dos nossos lançamentos é significativo (probabilidade 0.05) H 1 : nº caras > MCE. (Hipótese direccional) One-sided ou One- tailed test Este valor é denominado por p-value.

6 Testes de Hipóteses 6 Exemplo Agora para uma hipótese alternativa não direccional. No nosso caso, H 1 : nº de caras MCE. Ou seja, responder à pergunta: Em 100 lançamentos, qual é a probabilidade de obter um excesso de caras ou coroas (>50) tão grande ou igual ao valor obtido (59). Neste teste, o valor observado não é significativo ( > 0.05) A pergunta do teste anterior era: Em 100 lançamentos, qual é a probabilidade de obter um excesso de caras (>50) tão grande ou igual ao valor obtido (59) H 1 : nº caras MCE. (Hipótese direccional) Two-sided ou Two- tailed test Valor da estatística das observações. z = ((k - μ ) ± 0.5) / σ

7 Testes de Hipóteses 7 Algumas Definições p-value: é a probabilidade de obter (de forma aleatória) um resultado tão ou mais extremo do que o que foi observado, assumindo que a hipótese nula é verdadeira. Isto é P(Obs MCE | H 0 ) Interpretação alternativa, p-value é o grau de contradição da hipótese nula pelas observações na amostra estudada. Quanto menor, maior o grau de contradição. α é o grau de significância. O valor tradicional é 5%, mas pode também ser de 1% ou outros valores entre [0,1]. grau de confiança (1 - α). α também define a região critica i.e. região onde a hipótese nula é rejeitada. α está relacionado com o erro Tipo I. Erro tipo I, rejeitar H 0 quando ela é verdadeira (α). Erro tipo II, não rejeitar H 0 quando ela é falsa (β). Força do teste (power of the test): probabilidade de correctamente rejeitar H 0. quando esta é falsa e não rejeitá-la quando ela é verdadeira. É, respectivamente, (1 - α) e (1 – β).

8 Testes de Hipóteses 8 Intervalos de Confiança Em alternativa aos p-values, podemos usar intervalos de confiança. Usa-se para estimar parâmetros da população usando a amostra e.g. estimar média (μ) de uma população usando média da amostra (x). O grau de confiança C = 1- α determina a probabilidade de o intervalo produzido pelo método usado incluir o verdadeiro valor do parâmetro a estimar. Trabalha sempre com a estatística do teste. Para C =0.95, z*=1.96, então IC = [x-1.96+σ/n, x σ/n]

9 Testes de Hipóteses 9 Teste Binomial Testa a significância do desvio de uma amostra representando um conjunto de experiências de Bernoulli em relação à distribuição teórica esperada dessas observações i.e as variáveis são dicotómicas – sucesso/insucesso. É um teste exacto ! –Um teste de significância exacto é um teste onde todas as condições assumidas para a derivação da distribuição onde o teste estatístico é baseado são satisfeitas. Consequentemente, leva também à obtenção de um p-value exacto (e não aproximado). –Um teste aproximado é um teste onde a aproximação pode ser feita o mais precisa possível à custa da obtenção de uma amostra suficientemente grande.

10 Testes de Hipóteses 10 Teste Binomial (2) Parâmetros: –n, tamanho da amostra. –k, número de observações com sucessos em n. –p, probabilidade esperada para sucesso –q, probabilidade esperado para insucesso. –p = 1 – q (categorias dicotómicas!) –Para one-sided test (H 1 : observações > MCE): p-value = prob(k,n,p,q) + prob(k+1,n,p,q)+ prob(k+2,p,q) + … + prob(n,n,p,q). Cálculo computacionalmente pesado! Por vezes faz-se uma aproximação à Gaussiana (Normal)

11 Testes de Hipóteses 11 Testes Paramétricos Estão relacionados com um ou mais parâmetros da população (distribuição assumida) e.g. média, desvio padrão. Tipicamente é assumida a Gaussiana. Testes de localização: relacionados com o valor esperado da população (média), onde o centro da população está localizado. Vários tipos: –Uma amostra: dada uma amostra e um valor esperado de uma população, testar se a amostra foi tirada da população com o valor esperado dado. –Duas amostras independentes: dadas duas amostras independentes, testar se as amostra são originadas de populações com o mesmo valor esperado. –Duas amostras dependentes: dadas duas amostras dependentes (paired), testar se as amostra são tiradas de uma população com o mesmo valor esperado (tipicamente 0 para verificar significância da diferença).

12 Testes de Hipóteses 12 Student t-test Assume uma distribuição Gaussiana (Normal) Ideal para aplicar a amostra com N<30, para N30 devemos usar o z-teste. É um teste de médias. H 0 : μ = μ 0 ( μ 0 é o valor esperado da população ) H 1 : μ μ 0, μ μ 0 (dependendo de ser two-sided ou one-sided) Estatística do teste: –onde N é o tamanho da amostra, X média na amostra, S desvio padrão na amostra. Quando H 0 é verdadeira a TS segue uma distribuição t N-1 ( N - 1 graus de liberdade i.e. nº de parâmetros que podem ser variados independentemente ).

13 Testes de Hipóteses 13 Student t-test (one sample) Para um dado α fazemos o seguinte teste (sendo TS definida como): Para –H 1 : μ μ 0, TS -t N-1 (α/2) ou TS t N-1 (α/2) –H 1 : μ < μ 0, TS < t N-1 (α) –H 1 : μ > μ 0, TS > t N-1 (α) Rejeitar H 0 se o teste for positivo. Os valores críticos de t N-1 podem ser obtidos de uma tabela…

14 Testes de Hipóteses 14 Distribuição t-student Upper critical values of Student's t distribution with degrees of freedom Probability of exceeding the critical value Graus de liberdade Valor crítico α Valor da t-estatística

15 Testes de Hipóteses 15 Student t-test (amostras independentes) Usado para verificar se as amostras provêm de populações com diferentes médias. Três situações possíveis (e respectivas def. de TS ): 1.Amostras de tamanhos e variância diferente, 2.Amostras de tamanhos diferentes mas variância igual, 3.Amostras de tamanhos e variância igual. Se H 0 for verdadeira TS segue uma distribuição t DF : δ 0 é a diferença entre valores esperados das populações

16 Testes de Hipóteses 16 Student t-test (2) (amostras independentes) Três situações possíveis para testar H 0 –H 0 : μ A - μ B = δ 0 Para um dado valor de α, rejeitar H 0 se as condições forem satisfeitas: –H 1 : μ A - μ B δ 0, se TS - t GL (α/2) ou TS t GL (α/2) –H 1 : μ A - μ B < δ 0, se TS < t GL (α) –H 1 : μ A - μ B > δ 0, se TS > t GL (α) Os valores críticos de t GL são os mesmo da tabela apresentada anteriormente.

17 Testes de Hipóteses 17 Student t-test (paired test) É o t-test que nos vais ser mais útil. Assume amostra emparelhadas (por exemplo referente a observações no mesmo local ou tempo, etc). Determina se as amostras diferem de uma forma significativa, considerando as condições de que as diferenças entre pares são independentes e que seguem uma distribuição Normal. Hipóteses: –H 0 : μ Δ = 0 –H 1 : μ Δ 0, μ Δ 0 Onde –Δ = X A – X B é a diferença emparelhada entre as duas amostras, –μ Δ o valor esperado da diferença das populações. –Onde Δ é a média das diferenças nas amostras, N o tamanho das amostras e S Δ o desvio padrão das diferenças nas amostras.

18 Testes de Hipóteses 18 Quando H 0 é verdadeira TS segue uma distribuição t N - 1 Para um dado α fazemos os seguintes testes: –H 1 : μ Δ 0, se TS - t N - 1 (α/2) ou TS t N - 1 (α/2) –H 1 : μ Δ < 0, se TS < t N - 1 (α) –H 1 : μ Δ > 0, se TS > t N - 1 (α) rejeitando H 0 quando eles são verdadeiros. Os valores críticos de t N – 1 são os mesmo da tabela anterior. Notar que este teste acaba por ser one-sample (as diferenças entre pares formam uma só amostra)! Testes alternativos –Z-test quando N>30, –Mann-Whitney para amostras independentes de populações não Normais. –Binomial, Wilcoxon para amostras emparelhadas de populações não Normais. Student t-test (2) (paired test)

19 Testes de Hipóteses 19 Teste de Mann-Whitney-Wilcoxon Teste não paramétrico de localização. Avalia se duas amostras tem origem na mesma população. Uma alternativa ao paired t-test. Assume que as observações são independentes e contínuas ou ordinais i.e. é possível estabelecer uma ordem sobre as observações. Testa (em vez de comparar médias) se as populações são idênticas. É um teste de ranks sinalizados (signed rank). Determina se há uma tendência em seriar mais alto uma amostra (observação) em relação à outra e.g. valores médicos antes e depois de tratamento. Hipótese nula assume que não há tendência. Hipóteses: –H 0 :η A = η B (nº de valores positivos nº de negativos i.e. não há tendência) –H 1 :η A η B, η A > η B ou η A < η B

20 Testes de Hipóteses 20 Geração de ranks (com ties) Amostra A Amostra B Diferença entre amostras rank das diferenças em valor absoluto Valor absoluto da diferença W é a soma dos ranks (sem valores nulos) Diferenças nulas são ignoradas Rank das diferenças com sinal Tratamento de empates (ties): se duas ou mais diferenças têm o mesmo valor então todos passam a ter o valor médio desses ranks. e.g. 3º,4º e 5ª dá rank 4 para todos.

21 Testes de Hipóteses 21 Teste de Mann-Whitney-Wilcoxon Procedimento: –Calcular X A – X B, ignorar casos com valor zero, –Calcular |X A – X B |, rank deste valor e o rank sinalizado: + se X A – X B > 0 - se X A – X B < 0 –(soma de um rank = N(N-1)/2, sendo N o nº de observações) –Calcular W = soma dos signed ranks –Calcular δ W onde N é o nº de signed ranks considerados (sem os nulos). –Estatística do teste é: Consultar valores críticos de z numa tabela própria. Com N > 20 aproxima à Normal.

22 Testes de Hipóteses 22 Teste de Associação Testes não paramétricos que medem o grau de dependência entre duas variáveis aleatórias. Não assumem nenhum tipo de distribuição. Assume observações de frequência de variáveis categóricas. As variáveis da amostra estão divididas em categorias. As observações das duas variáveis são agrupadas em classes independentes (disjuntas). Tipicamente, os dados do teste estão representados em tabelas de contingência 2 x 2. No entanto podemos ter mais do que 2 dimensões. Testes a estudar –Teste do Χ 2 (chi quadrado) –Teste exacto de Fisher,

23 Testes de Hipóteses 23 Teste do Χ 2 Hipóteses: –H 0 : as variáveis são independentes –H 1 : as variáveis não são independentes Sendo X e Y as nossas variáveis estas podem ser agrupadas em I (i=1,..I) e J (j=1,..,J) categorias numa tabela de contingência: Onde N ij é a frequência observada da var X com a categoria i conjuntamente com a var Y com a categoria j.

24 Testes de Hipóteses 24 Teste do Χ 2 (2) Estatística do teste: e ij é a frequência esperada para a célula ( i,j ): Se H 0 for verdadeira, a TS segue a distribuição Χ 2 (I-1)(J-1). Nº de graus de liberdade = (I-1) x (J-1) Para um dado α, rejeitamos a hipótese nula se: – TS > Χ 2 (I-1)(J-1) (α)

25 Testes de Hipóteses 25 H 0 : tipo de tuberculose que causa a morte a estes indivíduos é independente do seu sexo. e 11 = (4853 x 3804) / 5375 = Χ 2 = (3534 – ) 2 / (1319 – ) 2 / ….. + (252 – 152.6) 2 / = Para α=0.05 temos Χ 2 (1)(1) (0.05) =3.84. Rejeitamos H 0 se Χ 2 > 3.84 o que é o caso. Conclusão: a proporção de homens que morre de tuberculose tipo SR é diferente da proporção de mulheres. Isto é, há evidências de uma associação entre tipo de TB e sexo. Exemplo com tabela 2 x 2 HomensMulheresTotal TB no SR Outras TB Total Valor obtido da tabela de distribuição do Χ 2. TB SEXO

26 Testes de Hipóteses 26 Características do teste do Χ 2 É um teste não direccional. É sempre two-sided. É um teste aproximado. O p-value é obtido por aproximação. No problema anterior p-value < Para observações pequenas é um teste pouco fiável. Para valores esperado pequenos ( e ij < 5) não deve ser usado. No caso específico de tabelas 2 x 2 devemos usar a Correcção de Yates para continuidade. Para o problema anterior, Yates Χ 2 =

27 Testes de Hipóteses 27 Teste Exacto de Fisher O teste ideal para aplicar com tabelas de contingência de dados pequenos esparsos e não balanceados. Não sofre dos mesmos problemas do teste Χ 2 Embora seja aplicável noutras situações, vamos sempre usar em tabelas 2 x 2 e com hipóteses alternativas direccionais (one-sided) i.e. afasta-se de H 0 numa direcção específica! É um teste exacto, portanto um p-value exacto. A ideia geral é considerando a tabela de observações, gerar as tabelas com as mesmas margens, que são mais extremas que a observada, na mesma direcção da nossa observação e.g. que a proporção TB do tipo SR nas mulheres é menor que proporção TB tipo SR nos homens.

28 Testes de Hipóteses 28 Teste Exacto de Fisher (2) Considerando a tabela de contingência 2 x 2 geral, temos: A probabilidade de obter (de forma aleatória) as observações desta tabela é: O p-value = p das tabelas tão ou mais extremas do que a observada. (tipicamente p : p < p observada ) Para o exemplo anterior p-value = e -22 Y1Y1 Y2Y2 Total X1X1 aba + b X2X2 cdc + d Total a + cb + dn n = a+b+c+d As margens estão a azul

29 Testes de Hipóteses 29 Goodness-of-fit ( testes para a qualidade do ajuste) No nosso caso, vai servir para verificar se duas amostras foram retiradas de uma mesma população. Tradicionalmente são utilizados para verificar a qualidade da adequação (fit) de uma distribuição teórica em relação a um conjunto de observações (amostra) e.g. testar a Normalidade de uma amostra. Testes não paramétricos: –Para amostras de valores contínuos Kolgomorov-Smirnov –Para amostras de valores categóricos Pearsons goodness-of-fit (Χ 2 )

30 Testes de Hipóteses 30 Χ 2 Goodness-of-fit Verifica se duas amostras têm origem em populações idênticas. H 0 : populações A e B são idênticas H 1 : populações A e B são diferentes As observações N A e N B são agrupadas em K ( K > 2 ) categorias (disjuntas). Em cada amostra é contada a frequência absoluta de cada diferente k i categoria, com k i K. As frequências esperadas são calculadas da seguinte forma: com N k = N kA + N kB, N = N A + N B sendo e kA = N A e e kB = N B

31 Testes de Hipóteses 31 Χ 2 Goodness-of-fit (2) A estatística do teste é: H 0 é verdadeira se TS segue uma distribuição Χ 2 K-1 Para um dado α, rejeitamos H 0 se: – TS > Χ 2 K-1 (α)

32 Testes de Hipóteses 32 Teste de Kolgomorov-Smirnov (duas amostras) É um teste exacto (Χ 2 é aproximado) para amostras de valores contínuos. Assume distribuições contínuas onde a forma e os parâmetros da função densidade de probabilidade são conhecidos O teste compara a proximidade entre as funções de densidade acumulada (CDF) de cada amostra (também conhecidas por funções de distribuição empirica). Encontra a máxima discrepância entre as duas CDFs e verifica se esta é estatisticamente significativa. CDF das amostras são definidas como ( N = x i ):

33 Testes de Hipóteses 33 Teste de Kolgomorov-Smirnov (2) (duas amostras) H 0 : F A (x) = F B (x) H 1 : F A (x) F B (x) A estatística do teste é: Para um dado α, rejeitamos H 0 se o seguinte teste for verdadeiro: Os valores críticos de [(N A N B )/(N A + N B )]D(α) podem ser consultados na tabela da distribuição de Kolgomorov.

34 Testes de Hipóteses 34 Teste de Kolgomorov-Smirnov (3) (execução)

35 Testes de Hipóteses 35 Múltiplas Hipóteses Controle da capitalização do acaso. Exemplo de situação típica: –Queremos contratar um corrector para investir na bolsa. A função deste corrector é emitir previsões sobre a subida/descida do indicador PSI20 ao fim de cada dia. Queremos ter a garantia que não contratamos um charlatão (alguém cujas previsões não são melhores do que o acaso). Para avaliar esta possibilidade usamos um teste de 14 dias de bolsa. Se o consultar acertar em 11 ou mais dias então aceitamo-lo como fiável. –São 11 em 14 dias porque há 50% de hipóteses de acertar em cada dia, logo há só 2.87% de acertar ao acaso em 11 ou mais dias. –Assim, se um corrector for contratado porque passou o teste dos 11 dias, temos uma probabilidade de contratar um charlatão. Teste Binomial com: n=14, k=11, p=0.5, q=0.5, e H1: obs > MCE

36 Testes de Hipóteses 36 Múltiplas Hipóteses Nova situação: –Vamos imaginar agora que aceitamos 10 candidatos para esta função, onde vamos seleccionar o corrector com maior precisão. –Para n candidatos, n > 1, cada charlatão tem 2.87% de passar o teste. –Em geral, a probabilidade de seleccionar um charlatão é 1 - (1 – ) n. No caso de n=10, esta probabilidade é 25.3% –Conclusão: Se não ajustarmos o nosso limite α, que define quando um corrector passa a ser considerado um charlatão, aumentamos a probabilidade de ocorrer um erro do tipo I. –Com um nº suficientemente grande de charlatães entre os candidatos, iremos quase de certeza ter pelo menos um deles com um desempenho que passa qualquer limite α (sem a garantia de ele não ser um charlatão).

37 Testes de Hipóteses 37 Múltiplas Hipóteses (2) Problema das Multiplas Comparações. Risco de erro tipo I é não mais do que α. Probabilidade de ocorrer um erro de tipo I aumenta com o número de testes. Para n testes α real = 1 - (1 - α) n Usar Ajustamento de Bonferroni: – (corrigir α para n testes como sendo κ= α/n ) – tendência a ser um crivo demasiado fino! Usar Ajustamento de Holm ( k em vez de α). –Requer ordenação crescente dos p-values e ter disponíveis todos estes valores antes de determinar valor de ajustamento ( k ). –Para n testes,

38 Testes de Hipóteses 38 Ajustamento de Bonferroni (utilização típica em Data Mining) Usar Ajustamento de Bonferroni (corrigir α para n testes como sendo κ= α/n ). Usar layered critical values, Em vezes de um cutoff global que corrige o α inicial, obter vários α L para cada nível L. Onde S L é o nº de padrões possíveis de gerar com tamanho L. L max é o tamanho máximo de um padrão. Temos a garantia que:

39 Testes de Hipóteses 39 Resumo Testes de significância, Inferência estatística e controle de fenómenos fruto do acaso, Tipos de erro, Testes paramétricos e não paramétricos, Direccionalidade, poder do teste, região crítica, p-value e intervalos de confiança, Testes de localização, associação e goodness- of-fit, Múltiplas hipóteses e controle de erro, Ajustamento do valor de significância (α).


Carregar ppt "Testes de Hipóteses 1 Testes de Hipóteses Paulo J Azevedo DI - Universidade do Minho 2009 Revisão à análise de significância estatística."

Apresentações semelhantes


Anúncios Google