Inferência Estatística

Slides:



Advertisements
Apresentações semelhantes
Estatística amintas paiva afonso.
Advertisements

Distribuição T - Student
T- Teste: A distribuição t de Student
Estimação e Intervalo de Confiança. Estimação Frequentemente necessitamos, por meio das amostras, conhecer informações gerais da população. A estimação.
INTERVALO DE CONFIANÇA PARA A MEDIA POPULACIONAL (σ 2 desconhecido ) Sabemos que se o tamanho da amostra for superior a 30 a distribuição amostral das.
Inferência Estatística e Teste de Hipóteses
CAPÍTULO 5 - Intervalo de confiança Controle Estatístico de Processo (CEP) Professor: Robert Wayne Samohyl Ph.D. Josué Alberton.
Testes de hipótese com uma amostra. Testes de hipóteses para média (amostras grandes) 1. Declare afirmação verbal e matemáticamente. Identifique as hipóteses.
Análise de dados Experimentais: Utilização dos Programas Estatísticos
Testes de hipótese com uma amostra. Teste de hipótese  Um processo que usa estatísticas amostrais para testar a afirmação sobre o valor de um parâmetro.
PRINCIPAIS MODELOS CONTÍNUOS Modelo uniforme Uma v.a. contínua X tem distribuição uniforme com parâmetros  e  (  <  ) se sua função densidade.
Variáveis multinomiais ordenadas. Variável dependente ordenada: aplicações Avaliação de pesquisas de satisfação de clientes – Kreke et al. (1995): avaliação.
Comparação de duas médias amostrais Tratamento Paramétrico.
Distribuições e Teorema do Limite Central Distribuições: Binomial, Poisson e Normal Mimi, você é a única normal nessa sala?! Normal em que sentido?
Amostragem Cuidados a ter na amostragem Tipos de amostragem
Estatística aplicada a ensaios clínicos
Comparando k amostras (k>2)
Comparação de proporções
Testes de Hipóteses VPS126.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2017 Técnicas de Reamostragem Camilo Daleles Rennó
Profa Dra. Denise Pimentel Bergamaschi
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2017 Inferência Estatística Camilo Daleles Rennó
O OBJETIVO FUNDAMENTAL DA DISCIPLINA
Medidas de Dispersão para uma amostra
Métodos Básicos de Análise de Dados
Medidas de Dispersão Aula 8.
HEP 175 – Bioestatística Aula 13 Estimação de uma média populacional com variância conhecida e desconhecida.
Análise da Regressão múltipla: Inferência Revisão
Prof. Dr. Adolpho Walter Pimazoni Canton
Profa Dra. Denise Pimentel Bergamaschi
Modelos de variáveis qualitativas multinomiais ordenadas
Experiências aleatórias
ESTATÍSTICA Aula 5.
Probabilidade e Estatística Aplicadas à Contabilidade II
Inferência Estatística aplicada à Pesquisa em Saúde.
TMEC011 – ESTATÍSTICA APLICADA
Propriedades assintóticas dos estimadores MQO
Teste t para amostras independentes (EX. DE QUESTÃO)
Bioestatística Professora Livre Docente Suely Godoy Agostinho Gimeno
Regressão Logística Modelos de regressão não linear são usados, em geral, em duas situações: casos em que as variáveis respostas são qualitativas e os.
NOÇÕES DE TESTE DE HIPÓTESES (I)
Ajustamento de Observações
Tópicos em Econometria I
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2017 Intervalo de Confiança (Extra) Camilo Daleles Rennó
ANOVA II.
TESTES DE HIPÓTESES.
Análise de Variância (ANOVA) de 1 via
Testes de Hipóteses (cont.).
Medidas de Dispersão Mostra quanto dispersos estão os dados em torno da média Amplitude Variância Desvio-padrão Comparação da dispersão dos elementos dos.
Prof. Eduardo Bezerra (CEFET/RJ)
Aproximação da binomial pela normal
Ms.Rosebel Trindade Cunha Prates
9. Testes de Hipóteses Paramétricos
Introdução às distribuições normais AULA 5. Propriedades de uma distribuição normal Suas média, mediana e moda são iguais. Tem forma de sino e é simétrica.
Ch. 6 Larson/Farber Estatística Aplicada Larson Farber 6 Intervalos de confiança.
Estatística Aplicada Larson Farber 9 Correlação e regressão.
Estatística: Conceitos Básicos
Procedimentos antes e após coleta dos dados
Testes de Significância Estatística para Avaliação de Algoritmos
Estatística amintas paiva afonso.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2018 Estimação Pontual Camilo Daleles Rennó
Mestrado Profissional em Física Médica
Estatística amintas paiva afonso.
Econometria Inferência.
Inferência Estatística
Teste de hipótese em R.
UNIDADE 8 Analisar os dados -1 Carlos Arriaga Costa
Probabilidade e Estatística Aplicadas à Contabilidade II
Prof. Sidomar
Políticas Públicas de Saúde Bioestatística - Amostragem
Transcrição da apresentação:

Inferência Estatística Prof. Eduardo Bezerra (CEFET/RJ) ebezerra@cefet-rj.br

Testes de Hipóteses – parte II

Conteúdo Testes (em uma amostra) com variância desconhecida Testes em (duas) amostras pareadas Testes em (duas) amostras independentes

Tipos de Amostras - exemplos Verificar se a quantidade de vitamina em pães de forma está de acordo com os padrões nacionais. Comparar a quantidade de vitamina em pães de forma imediatamente após a fabricação versus a quantidade (nos mesmo pães) 3 dias após a fabricação. Comparar a quantidade de vitamina em pães de forma imediatamente após a fabricação versus a quantidade em pães fabricados há 3 dias. Amostra única  Verificar se a quantidade de vitamina em pães de forma está de acordo com os padrões nacionais. Amostras pareadas  Comparar a quantidade de vitamina em pães de forma imediatamente após a fabricação versus a quantidade (nos mesmo pães) 3 dias após a fabricação. Amostras independentes  Comparar a quantidade de vitamina em pães de forma imediatamente após a fabricação versus a quantidade em pães fabricados há 3 dias

Testes com variância desconhecida

Teste sobre amostra única (revisão) Hipótese nula H0: µ = µ0 onde µ0 representa a média da população esperada pela hipótese nula Hipóteses alternativas Ha: µ < µ0 (one-sided, left) Ha: µ > µ0 (one-sided, right) Ha: µ ≠ µ0 (two-sided)

E se σ for desconhecido? Até aqui: consideramos que o valor de σ é conhecido  podemos usar zstat para inferir sobre hipóteses acerca da média µ Quando σ é desconhecido, devemos computar o desvio padrão s e usá-lo para computar o erro padrão:

William Sealy Gosset (1876–1937) Incerteza adicional O uso de s em vez de σ adiciona incerteza às inferências. Nesse caso não podemos usar o z-teste. Em vez disso, devemos usar o t-teste, baseado na Distribuição t de Student William Sealy Gosset (1876–1937)

Distribuição t de Student Família de distribuições de probabilidades Membros dessa família são identificados por graus de liberdade (degrees of freedom, df) Similar à distribuição normal, mas com caudas mais largas df aumenta → caudas se tornam mais finas → t se aproxima de z Uma distribuição t com infinitos graus de liberdade é igual à distribuição normal padrão.

Teste t de única amostra (one sample t test) Objetivo: verificar uma alegação feita acerca da média de uma população. Contexto de uso: comparação entre uma média amostral e um valor dado, quando a variância da população é desconhecida. Condições de aplicabilidade: Amostra aleatória simples A população é normal ou a amostra é grande

Estatística de teste t onde média amostral média populacional considerando que H0 é verdadeira A estatística tstat possui n – 1 graus de liberdade.

Exemplo Seja testar a seguinte hipótese usando uma amostra de tamanho10: “Bebês com SIDS possuem peso de nascimento médio diferente daquele encontrado na população, i.e., µ0 = 3300 gramas?” H0: µ0 = 3300 Ha: µ0 ≠ 3300 (two-sided) 2998 3740 2031 2804 2454 2780 2203 3803 3948 2144 Considere que a tabela à direita corresponde ao pesos de nascimento, medidos em gramas, de 10 bebês.

Exemplo (cont.) A partir da amostra aleatória simples (n = 10) de pesos (medidos em gramas) no nascimento de bebês com SIDS, calculamos: 2998 3740 2031 2804 2454 2780 2203 3803 3948 2144 SRS = = simple random sample

Exemplo (cont.) A seguir, computamos a estatística tstat:

Exemplo (cont.) Graficamente, temos:

Exemplo (cont.) Interpretação Estamos testando H0: µ0 = 3300 gramas No teste bicaudal com nível de confiança igual a 90%, encontramos p-value > .10 Conclusão: evidência fraca contra H0  a média amostral (2890,5 gramas) NÃO é significativamente diferente de 3300 gramas.

Função t.test do R a = c(2998, 3740, 2031, 2804, 2454, 2780, 2203, 3803, 3948, 2144) t.test(a, mu=3300, conf.level = .9) a = c(2998, 3740, 2031, 2804, 2454, 2780, 2203, 3803, 3948, 2144) t.test (a, mu=3300, conf.level = .9) qt(0.9, 9) Use ?t.test

Testes sobre amostras pareadas

Amostras Pareadas (paired samples) Amostras pareadas: cada elemento em uma amostra está associado a um ponto de dado na outra amostra. Nesse caso, devemos considerar a variável aleatória obtida pela diferença entre as médias amostrais das duas amostras.

Amostras Pareadas - estatística Para amostras pareadas, a estatística de teste tstat a utilizar é a seguinte:

Exemplo Aveia Out Bran reduz colesterol LDL? Iniciou com Metade dos indivíduos na dieta com CORNFLK Outra metade com dieta OATBRAN Após 2 semanas: medição do colesterol LDL Período de latência Troca de subgrupos para a outra dieta Subject CORNFLK OATBRAN ---- ------- ------- 1 4.61 3.84 2 6.42 5.57 3 5.40 5.85 4 4.54 4.80 5 3.98 3.68 6 3.82 2.96 7 5.01 4.41 8 4.34 3.72 9 3.80 3.49 10 4.56 3.84 11 5.35 5.26 12 3.89 3.73

O procedimento é agora direcionado para a variável DELTA Exemplo (cont.) Defina DELTA = CORNFLK - OATBRAN Para as primeiras três observações: Subject CORNFLK OATBRAN ---- ------- ------- 1 4.61 3.84 2 6.42 5.57 3 5.40 5.85 4 4.54 4.80 5 3.98 3.68 6 3.82 2.96 7 5.01 4.41 8 4.34 3.72 9 3.80 3.49 10 4.56 3.84 11 5.35 5.26 12 3.89 3.73 ID CORNFLK OATBRAN DELTA ---- ------- ------- ----- 1 4.61 3.84 0.77 2 6.42 5.57 0.85 3 5.40 5.85 -0.45 O procedimento é agora direcionado para a variável DELTA cornflk = c(4.61, 6.42, 5.40, 4.54, 3.98, 3.82, 5.01, 4.34, 3.80, 4.56, 5.35, 3.89) outbran = c(3.84, 5.57, 5.85, 4.80, 3.68, 2.96, 4.41, 3.72, 3.49, 3.84, 5.26, 3.73) delta = cornflk - outbran

Exemplo (cont.) DELTA: 0.77, 0.85, −0.45, −0.26, 0.30, 0.86, 0.60, 0.62, 0.31, 0.72, 0.09, 0.16 subscrito d denota “diferença” xdiff = mean(delta) sddiff = sd(delta)

Exemplo – teste de hipótese Alegação: dieta com aveia está associada com a diminuição (one-sided) ou mudança (two-sided) do colesterol LDL. Teste H0: µd = µ0, onde µ0 = 0 Ha: µd > µ0 (one-sided) Ha: µd ≠ µ0 (two-sided)

Exemplo – cálculo da estatística

Exemplo – uso da função t.test cornflk = c(4.61, 6.42, 5.40, 4.54, 3.98, 3.82, 5.01, 4.34, 3.80, 4.56, 5.35, 3.89) outbran = c(3.84, 5.57, 5.85, 4.80, 3.68, 2.96, 4.41, 3.72, 3.49, 3.84, 5.26, 3.73) t.test(cornflk,outbran, paired=TRUE, conf.level = .99)

Exemplo – interpretação Testando H0: µd = 0 Two-tailed P = 0.011 Temos boas razões (evidências) para duvidar de H0 Importante: a diferença é “significante” no nível α = .05, mas não no nível α = .01

A Condição de Normalidade Aplicação do t test requer que a população seja normalmente distribuída ou que a amostra seja grande Dicas. Use t teste quando: População é normal População é simétrica e n ≥ 10 População é assimétrica, mas n ≥ ~45 (depende na severidade do enviesamento)

Testes em amostras independentes

Teste t independente (unpaired t-test) Duas amostras são independentes se elas são originárias de distribuições distintas (i.e., não relacionadas). Aqui, presumimos novamente que essas duas amostras são provenientes de distribuições normais.

Estatística de Teste

Amostras independentes - exemplo Homens com personalidade do tipo A (n = 20) 233, 291, 312, 250, 246, 197, 268, 224, 239, 239, 254, 276, 234, 181, 248, 252, 202, 218, 212, 325 Homens com personalidade do tipo B (n = 20) 344, 185, 263, 246, 224, 212, 188, 250, 148, 169, 226, 175, 242, 252, 153, 183, 137, 202, 194, 213 Esse exemplo apresenta os níveis de colesterol LDL para duas amostras de indivíduos do sexo masculino. Cada grupo é composto de 20 indivíduos. À direita são apresentados a média e o desvio padrão de cada uma das amostras. a1 = c(233, 291, 312, 250, 246, 197, 268, 224, 239, 239, 254, 276, 234, 181, 248, 252, 202, 218, 212, 325) a2 = c(344, 185, 263, 246, 224, 212, 188, 250, 148, 169, 226, 175, 242, 252, 153, 183, 137, 202, 194, 213) Há diferença entre as médias das populações?

Notação Estatísticas (amostra) Grupo 1 n1 s1 Grupo 2 n2 s2 Parâmetros (população) Grupo 1 N1 µ1 σ1 Grupo 2 N2 µ2 σ2

Exemplo (cont.) Grupo n média Desvio padrão 1 20 245.05 36.64 2 210.30 48.34 Nas amostras, indivíduos do tipo A possuem nível médio de colesterol 35 mg/dL mais alto.

Graus de Liberdade Há duas formas de calcular os graus de liberdade: dfWelch dfconserv. = mínimo entre (n1 – 1) e (n2 – 1) Para o exemplo anterior: dfWelch = 35.4 (via R) dfconserv. = mínimo entre (n1–1) e (n2 – 1) = 20 – 1 = 19

Teste de Hipótese Testar alegação de que “não há diferença entre as médias populacionais” Hipótese Nula: H0: μ1 – μ2 = 0 (equivalentemente H0: μ1 = μ2) Hipótese Alternativa Ha: μ1 – μ2 ≠ 0 (two-sided) OU Ha: μ1 – μ2 > 0 (“right-sided”) OU Ha: μ1 – μ2 < 0 (“left-sided”) Nota: diferenças grandes entre as médias podem surgir apenas por obra do acaso.

Estatística de Teste dfWelch= 35.4 (usando o R) dfconserv. = 19

Uso da função t.test No teste bicaudal, obtemos p-valor entre .01 e .02 .01 < p-valor < .02 fornece boa evidência contra H0  diferença observada é estatisticamente significante. a1 = c(233, 291, 312, 250, 246, 197, 268, 224, 239, 239, 254, 276, 234, 181, 248, 252, 202, 218, 212, 325) a2 = c(344, 185, 263, 246, 224, 212, 188, 250, 148, 169, 226, 175, 242, 252, 153, 183, 137, 202, 194, 213) t.test(a1, a2)

Teste t independente - sumário H0: μ1 –μ2 = 0 C. Calcular p-valor e interpretar