A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Testes de Hipóteses Paulo J Azevedo DI - Universidade do Minho 2009

Apresentações semelhantes


Apresentação em tema: "Testes de Hipóteses Paulo J Azevedo DI - Universidade do Minho 2009"— Transcrição da apresentação:

1 Testes de Hipóteses Paulo J Azevedo DI - Universidade do Minho 2009
Revisão à análise de significância estatística Testes de Hipóteses

2 Testes de Significância
Determinar o grau de confiança com que se pode concluir que os factos observados reflectem mais do que simples coincidência do acaso. Em Data Mining/Machine Learning são tipicamente usados para avaliar se a amostra que estamos a estudar (factos observados) é fruto do acaso (se é ou não significativa). Neste contexto são muitas vezes usados para detectar falsas descobertas. Permitem também avaliar se tem cabimento esperar que os padrões extraídos dos dados de treino (amostra) ocorram em dados futuros. Todos os testes envolvem duas componentes: Um valor observado (obtido da amostra), O valor esperado se nada mais do que variabilidade aleatória (acaso) operar nesta situação. Vários testes disponíveis dependendo do tipo de situação:. Testes de Hipóteses

3 Testes de Significância (2)
Quando executamos um teste de significância estatística assumimos duas teses: A hipótese especifica que a nossa investigação pretende averiguar (Hipótese alternativa H1), A antítese da hipótese a investigar (Hipótese nula H0) Exemplo com um ensaio médico: Avaliar se os resultados de um ensaio com um novo medicamente para prevenir AVCs aplicado a 1000 pacientes com 400 resultados positivos é significativo: H0 - o novo medicamento não tem efeito significativo H1 – o medicamento tem algum grau de eficácia na prevenção de AVCs Em termos estatísticos: H0 – o número de resultados positivos não é significativamente diferente do valor esperado por variabilidade aleatória MCE (mean chance expectation) H1 – o valor observado é significativamente diferente do valor esperado. Testes de Hipóteses

4 Direccionalidade da Hipótese Alternativa
Dependendo do tipo de questão que queremos endereçar com a nossa hipótese alternativa, esta pode ser direccional ou não-direccional. Não direccional, se não considerar em que sentido os valores observados se afastam do valor esperado (MCE). Assim temos: H0: valor observado = MCE H1: valor observado ≠ MCE Direccional, se considera em que sentido os valores observados se afastam do valor esperado (MCE). Ho: valor observado = MCE H1: valor observado > MCE, ou em alternativa H1: valor observado < MCE. Testes de Hipóteses

5 Exemplo Lançar 100 vezes uma moeda ao ar. Verificar se o número de caras obtido (59) é significativo (se a moeda é equilibrada o valor esperado é 50% do número de testes). Usando a Binomial, com N=100,k=59,p=0.5,q=0.5. Notar que há mais 9 caras do que o esperado! De todos os possíveis cenários com 100 lançamentos, apenas 4.46% têm no mínimo 59 caras. O resultado dos nossos lançamentos é significativo (probabilidade ≤ 0.05) One-sided ou One-tailed test H1: nº caras > MCE. (Hipótese direccional) Este valor é denominado por p-value. Testes de Hipóteses

6 Exemplo Agora para uma hipótese alternativa não direccional.
No nosso caso, H1: nº de caras ≠ MCE. Ou seja, responder à pergunta: “Em 100 lançamentos, qual é a probabilidade de obter um excesso de caras ou coroas (>50) tão grande ou igual ao valor obtido (59)”. Neste teste, o valor observado não é significativo ( > 0.05) A pergunta do teste anterior era: “Em 100 lançamentos, qual é a probabilidade de obter um excesso de caras (>50) tão grande ou igual ao valor obtido (59)” H1: nº caras ≠ MCE. (Hipótese direccional) Two-sided ou Two-tailed test Valor da estatística das observações. z = ((k - μ ) ± 0.5) / σ Testes de Hipóteses

7 Algumas Definições p-value: é a probabilidade de obter (de forma aleatória) um resultado tão ou mais extremo do que o que foi observado, assumindo que a hipótese nula é verdadeira Isto é P(Obs ≥ MCE | H0) Interpretação alternativa, p-value é o grau de contradição da hipótese nula pelas observações na amostra estudada. Quanto menor, maior o grau de contradição. α é o grau de significância. O valor tradicional é 5%, mas pode também ser de 1% ou outros valores entre [0,1]. grau de confiança (1 - α). α também define a região critica i.e. região onde a hipótese nula é rejeitada. α está relacionado com o erro Tipo I. Erro tipo I, rejeitar H0 quando ela é verdadeira (α). Erro tipo II, não rejeitar H0 quando ela é falsa (β). Força do teste (power of the test): probabilidade de correctamente rejeitar H0. quando esta é falsa e não rejeitá-la quando ela é verdadeira. É, respectivamente, (1 - α) e (1 – β). Testes de Hipóteses

8 Intervalos de Confiança
Em alternativa aos p-values, podemos usar intervalos de confiança. Usa-se para estimar parâmetros da população usando a amostra e.g. estimar média (μ) de uma população usando média da amostra (x). O grau de confiança C = 1- α determina a probabilidade de o intervalo produzido pelo método usado incluir o verdadeiro valor do parâmetro a estimar. Trabalha sempre com a estatística do teste. Para C =0.95, z*=1.96, então IC = [x-1.96+σ/√n , x σ/√n] Testes de Hipóteses

9 Teste Binomial Testa a significância do desvio de uma amostra representando um conjunto de experiências de Bernoulli em relação à distribuição teórica esperada dessas observações i.e as variáveis são dicotómicas – sucesso/insucesso. É um teste exacto ! Um teste de significância exacto é um teste onde todas as condições assumidas para a derivação da distribuição onde o teste estatístico é baseado são satisfeitas. Consequentemente, leva também à obtenção de um p-value exacto (e não aproximado). Um teste aproximado é um teste onde a aproximação pode ser feita o mais precisa possível à custa da obtenção de uma amostra suficientemente grande. Testes de Hipóteses

10 Teste Binomial (2) Parâmetros: n, tamanho da amostra.
k, número de observações com sucessos em n. p, probabilidade esperada para sucesso q, probabilidade esperado para insucesso. p = 1 – q (categorias dicotómicas!) Para one-sided test (H1: observações > MCE): p-value = prob(k,n,p,q) + prob(k+1,n,p,q)+ prob(k+2,p,q) + … + prob(n,n,p,q). Cálculo computacionalmente pesado! Por vezes faz-se uma aproximação à Gaussiana (Normal) Testes de Hipóteses

11 Testes Paramétricos Estão relacionados com um ou mais parâmetros da população (distribuição assumida) e.g. média, desvio padrão. Tipicamente é assumida a Gaussiana. Testes de localização: relacionados com o valor esperado da população (média), onde o centro da população está localizado. Vários tipos: Uma amostra: dada uma amostra e um valor esperado de uma população, testar se a amostra foi tirada da população com o valor esperado dado. Duas amostras independentes: dadas duas amostras independentes, testar se as amostra são originadas de populações com o mesmo valor esperado. Duas amostras dependentes: dadas duas amostras dependentes (paired), testar se as amostra são tiradas de uma população com o mesmo valor esperado (tipicamente 0 para verificar significância da diferença). Testes de Hipóteses

12 Student t-test Assume uma distribuição Gaussiana (Normal)
Ideal para aplicar a amostra com N<30, para N≥30 devemos usar o z-teste. É um teste de médias. H0: μ = μ0 (μ0 é o valor esperado da população) H1: μ ≠ μ0, μ < μ0, μ > μ0 (dependendo de ser two-sided ou one-sided) Estatística do teste: onde N é o tamanho da amostra, X média na amostra, S desvio padrão na amostra. Quando H0 é verdadeira a TS segue uma distribuição tN-1 (N - 1 graus de liberdade i.e. nº de parâmetros que podem ser variados independentemente). Testes de Hipóteses

13 Student t-test (one sample)
Para um dado α fazemos o seguinte teste (sendo TS definida como): Para H1: μ ≠ μ0, TS ≤ -tN-1(α/2) ou TS ≥ tN-1(α/2) H1: μ < μ0, TS < tN-1(α) H1: μ > μ0, TS > tN-1(α) Rejeitar H0 se o teste for positivo. Os valores críticos de tN-1 podem ser obtidos de uma tabela… Testes de Hipóteses

14 Distribuição t-student
Graus de liberdade Valor crítico α Valor da t-estatística Upper critical values of Student's t distribution with degrees of freedom Probability of exceeding the critical value Testes de Hipóteses

15 Student t-test (amostras independentes)
Usado para verificar se as amostras provêm de populações com diferentes médias. Três situações possíveis (e respectivas def. de TS): Amostras de tamanhos e variância diferente, Amostras de tamanhos diferentes mas variância igual, Amostras de tamanhos e variância igual. Se H0 for verdadeira TS segue uma distribuição tDF: δ0 é a diferença entre valores esperados das populações Testes de Hipóteses

16 Student t-test (2) (amostras independentes)
Três situações possíveis para testar H0 H0: μA - μB = δ0 Para um dado valor de α, rejeitar H0 se as condições forem satisfeitas: H1: μA - μB ≠ δ0 , se TS ≤ -tGL(α/2) ou TS ≥ tGL(α/2) H1: μA - μB < δ0 , se TS < tGL(α) H1: μA - μB > δ0 , se TS > tGL(α) Os valores críticos de tGL são os mesmo da tabela apresentada anteriormente. Testes de Hipóteses

17 Student t-test (paired test)
É o t-test que nos vais ser mais útil. Assume amostra emparelhadas (por exemplo referente a observações no mesmo local ou tempo, etc). Determina se as amostras diferem de uma forma significativa, considerando as condições de que as diferenças entre pares são independentes e que seguem uma distribuição Normal. Hipóteses: H0: μΔ = 0 H1: μΔ ≠ 0 , μΔ < 0 ou μΔ > 0 Onde Δ = XA – XB é a diferença emparelhada entre as duas amostras, μΔ o valor esperado da diferença das populações. Onde Δ é a média das diferenças nas amostras, N o tamanho das amostras e SΔ o desvio padrão das diferenças nas amostras. Testes de Hipóteses

18 Student t-test (2) (paired test)
Quando H0 é verdadeira TS segue uma distribuição tN - 1 Para um dado α fazemos os seguintes testes: H1: μΔ ≠ 0 , se TS ≤ -tN - 1(α/2) ou TS ≥ tN - 1(α/2) H1: μΔ < 0 , se TS < tN - 1(α) H1: μΔ > 0 , se TS > tN - 1(α) rejeitando H0 quando eles são verdadeiros. Os valores críticos de tN – 1 são os mesmo da tabela anterior. Notar que este teste acaba por ser one-sample (as diferenças entre pares formam uma só amostra)! Testes alternativos Z-test quando N>30, Mann-Whitney para amostras independentes de populações não Normais. Binomial, Wilcoxon para amostras emparelhadas de populações não Normais. Testes de Hipóteses

19 Teste de Mann-Whitney-Wilcoxon
Teste não paramétrico de localização. Avalia se duas amostras tem origem na mesma população. Uma alternativa ao paired t-test. Assume que as observações são independentes e contínuas ou ordinais i.e. é possível estabelecer uma ordem sobre as observações. Testa (em vez de comparar médias) se as populações são idênticas. É um teste de ranks sinalizados (signed rank). Determina se há uma tendência em seriar mais alto uma amostra (observação) em relação à outra e.g. valores médicos antes e depois de tratamento. Hipótese nula assume que não há tendência. Hipóteses: H0:ηA = ηB (nº de valores positivos ≈ nº de negativos i.e. não há tendência) H1:ηA ≠ ηB , ηA > ηB ou ηA < ηB Testes de Hipóteses

20 Geração de ranks (com ties)
rank das diferenças em valor absoluto Rank das diferenças com sinal Diferenças nulas são ignoradas Tratamento de empates (ties): se duas ou mais diferenças têm o mesmo valor então todos passam a ter o valor médio desses ranks. e.g. 3º,4º e 5ª dá rank 4 para todos. W é a soma dos ranks (sem valores nulos) Amostra A Amostra B Valor absoluto da diferença Diferença entre amostras Testes de Hipóteses

21 Teste de Mann-Whitney-Wilcoxon
Procedimento: Calcular XA – XB, ignorar casos com valor zero, Calcular |XA – XB|, rank deste valor e o rank sinalizado: + se XA – XB > 0 - se XA – XB < 0 (soma de um rank = N(N-1)/2, sendo N o nº de observações) Calcular W = soma dos signed ranks Calcular δW onde N é o nº de signed ranks considerados (sem os nulos). Estatística do teste é: Consultar valores críticos de z numa tabela própria. Com N > 20 aproxima à Normal. Testes de Hipóteses

22 Teste de Associação Testes não paramétricos que medem o grau de dependência entre duas variáveis aleatórias. Não assumem nenhum tipo de distribuição. Assume observações de frequência de variáveis categóricas. As variáveis da amostra estão “divididas” em categorias. As observações das duas variáveis são agrupadas em classes independentes (disjuntas). Tipicamente, os dados do teste estão representados em tabelas de contingência 2 x 2. No entanto podemos ter mais do que 2 dimensões. Testes a estudar Teste do Χ2 (chi quadrado) Teste exacto de Fisher, Testes de Hipóteses

23 Teste do Χ2 Hipóteses: H0 : as variáveis são independentes
H1 : as variáveis não são independentes Sendo X e Y as nossas variáveis estas podem ser agrupadas em I (i=1,..I) e J (j=1,..,J) categorias numa tabela de contingência: Onde Nij é a frequência observada da var X com a categoria i conjuntamente com a var Y com a categoria j. Testes de Hipóteses

24 Teste do Χ2 (2) Estatística do teste:
eij é a frequência esperada para a célula (i,j): Se H0 for verdadeira, a TS segue a distribuição Χ2(I-1)(J-1). Nº de graus de liberdade = (I-1) x (J-1) Para um dado α, rejeitamos a hipótese nula se: TS > Χ2(I-1)(J-1)(α) Testes de Hipóteses

25 Valor obtido da tabela de distribuição do Χ2.
Exemplo com tabela 2 x 2 SEXO Homens Mulheres Total TB no SR 3534 1319 4853 Outras TB 270 252 522 3804 1571 5375 TB H0 : tipo de tuberculose que causa a morte a estes indivíduos é independente do seu sexo. e11 = (4853 x 3804) / 5375 = Χ2 = (3534 – )2 / (1319 – )2 / ….. + (252 – 152.6)2 / = Para α=0.05 temos Χ2(1)(1)(0.05) =3.84. Rejeitamos H0 se Χ2 > 3.84 o que é o caso. Conclusão: a proporção de homens que morre de tuberculose tipo SR é diferente da proporção de mulheres. Isto é, há evidências de uma associação entre tipo de TB e sexo. Valor obtido da tabela de distribuição do Χ2. Testes de Hipóteses

26 Características do teste do Χ2
É um teste não direccional. É sempre two-sided. É um teste aproximado. O p-value é obtido por aproximação. No problema anterior p-value < Para observações pequenas é um teste pouco fiável. Para valores esperado pequenos (eij < 5) não deve ser usado. No caso específico de tabelas 2 x 2 devemos usar a Correcção de Yates para continuidade. Para o problema anterior, Yates Χ2 = Testes de Hipóteses

27 Teste Exacto de Fisher O teste ideal para aplicar com tabelas de contingência de dados pequenos esparsos e não balanceados. Não sofre dos mesmos problemas do teste Χ2 Embora seja aplicável noutras situações, vamos sempre usar em tabelas 2 x 2 e com hipóteses alternativas direccionais (one-sided) i.e. afasta-se de H0 numa direcção específica! É um teste exacto, portanto um p-value exacto. A ideia geral é considerando a tabela de observações, “gerar” as tabelas com as mesmas margens, que são mais extremas que a observada, na mesma direcção da nossa observação e.g. que a proporção TB do tipo SR nas mulheres é menor que proporção TB tipo SR nos homens. Testes de Hipóteses

28 Teste Exacto de Fisher (2)
Considerando a tabela de contingência 2 x 2 geral, temos: A probabilidade de obter (de forma aleatória) as observações desta tabela é: O p-value = ∑ p das tabelas tão ou mais extremas do que a observada. (tipicamente ∑ p: p < pobservada) Para o exemplo anterior p-value = e-22 As margens estão a azul Y1 Y2 Total X1 a b a + b X2 c d c + d a + c b + d n n = a+b+c+d Testes de Hipóteses

29 Goodness-of-fit (testes para a qualidade do ajuste)
No nosso caso, vai servir para verificar se duas amostras foram retiradas de uma mesma população. Tradicionalmente são utilizados para verificar a qualidade da adequação (fit) de uma distribuição teórica em relação a um conjunto de observações (amostra) e.g. testar a Normalidade de uma amostra. Testes não paramétricos: Para amostras de valores contínuos Kolgomorov-Smirnov Para amostras de valores categóricos Pearson’s goodness-of-fit (Χ2) Testes de Hipóteses

30 Χ2 Goodness-of-fit Verifica se duas amostras têm origem em populações idênticas. H0 : populações A e B são idênticas H1: populações A e B são diferentes As observações NA e NB são agrupadas em K (K > 2) categorias (disjuntas). Em cada amostra é contada a frequência absoluta de cada diferente ki categoria, com ki∈K. As frequências esperadas são calculadas da seguinte forma: com Nk = NkA + NkB , N = NA + NB sendo ∑ekA= NA e ∑ekB= NB Testes de Hipóteses

31 Χ2 Goodness-of-fit (2) A estatística do teste é:
H0 é verdadeira se TS segue uma distribuição Χ2K-1 Para um dado α, rejeitamos H0 se: TS > Χ2K-1(α) Testes de Hipóteses

32 Teste de Kolgomorov-Smirnov (duas amostras)
É um teste exacto (Χ2 é aproximado) para amostras de valores contínuos. Assume distribuições contínuas onde a forma e os parâmetros da função densidade de probabilidade são conhecidos O teste compara a proximidade entre as funções de densidade acumulada (CDF) de cada amostra (também conhecidas por funções de distribuição empirica). Encontra a máxima discrepância entre as duas CDFs e verifica se esta é estatisticamente significativa. CDF das amostras são definidas como (N = ∑xi): Testes de Hipóteses

33 Teste de Kolgomorov-Smirnov (2) (duas amostras)
H0 : FA(x) = FB(x) H1 : FA(x) ≠ FB(x) A estatística do teste é: Para um dado α, rejeitamos H0 se o seguinte teste for verdadeiro: Os valores críticos de √[(NANB )/(NA + NB )]D’(α) podem ser consultados na tabela da distribuição de Kolgomorov. Testes de Hipóteses

34 Teste de Kolgomorov-Smirnov (3) (execução)
Testes de Hipóteses

35 Múltiplas Hipóteses Controle da capitalização do acaso.
Exemplo de situação típica: Queremos contratar um corrector para investir na bolsa. A função deste corrector é emitir previsões sobre a subida/descida do indicador PSI20 ao fim de cada dia. Queremos ter a garantia que não contratamos um charlatão (alguém cujas previsões não são melhores do que o acaso). Para avaliar esta possibilidade usamos um teste de 14 dias de bolsa. Se o consultar acertar em 11 ou mais dias então aceitamo-lo como fiável. São 11 em 14 dias porque há 50% de hipóteses de acertar em cada dia, logo há só 2.87% de acertar ao acaso em 11 ou mais dias. Assim, se um corrector for contratado porque passou o teste dos 11 dias, temos uma probabilidade ≤ de contratar um charlatão. Teste Binomial com: n=14, k=11, p=0.5, q=0.5, e H1: obs > MCE Testes de Hipóteses

36 Múltiplas Hipóteses Nova situação:
Vamos imaginar agora que aceitamos 10 candidatos para esta função, onde vamos seleccionar o corrector com maior precisão. Para n candidatos, n > 1, cada charlatão tem 2.87% de passar o teste. Em geral, a probabilidade de seleccionar um charlatão é ≤ 1 - (1 – )n. No caso de n=10, esta probabilidade é ≤ 25.3% Conclusão: Se não ajustarmos o nosso limite α, que define quando um corrector passa a ser considerado um charlatão, aumentamos a probabilidade de ocorrer um erro do tipo I. Com um nº suficientemente grande de charlatães entre os candidatos, iremos quase de certeza ter pelo menos um deles com um desempenho que passa qualquer limite α (sem a garantia de ele não ser um charlatão). Testes de Hipóteses

37 Múltiplas Hipóteses (2)
Problema das Multiplas Comparações. Risco de erro tipo I é não mais do que α. Probabilidade de ocorrer um erro de tipo I aumenta com o número de testes. Para n testes αreal = 1 - (1 - α)n Usar Ajustamento de Bonferroni: (corrigir α para n testes como sendo κ= α/n) tendência a ser um crivo demasiado fino! Usar Ajustamento de Holm (k em vez de α). Requer ordenação crescente dos p-values e ter disponíveis todos estes valores antes de determinar valor de ajustamento (k). Para n testes, Testes de Hipóteses

38 Ajustamento de Bonferroni (utilização típica em Data Mining)
Usar Ajustamento de Bonferroni (corrigir α para n testes como sendo κ= α/n). Usar layered critical values, Em vezes de um cutoff global que corrige o α inicial, obter vários α’L para cada nível L. Onde SL é o nº de padrões possíveis de gerar com tamanho L. Lmax é o tamanho máximo de um padrão. Temos a garantia que: Testes de Hipóteses

39 Resumo Testes de significância,
Inferência estatística e controle de fenómenos fruto do acaso, Tipos de erro, Testes paramétricos e não paramétricos, Direccionalidade, poder do teste, região crítica, p-value e intervalos de confiança, Testes de localização, associação e goodness-of-fit, Múltiplas hipóteses e controle de erro, Ajustamento do valor de significância (α). Testes de Hipóteses


Carregar ppt "Testes de Hipóteses Paulo J Azevedo DI - Universidade do Minho 2009"

Apresentações semelhantes


Anúncios Google