Aula 5. Intervalos de Confiança

Aula 5. Intervalos de Confiança

Duas Fases da Estatística
Estatística Descritiva: descrever e estudar uma amostra Estatística Indutiva (inferencial): a partir de uma amostra inferir sobre as características de uma população Fonte Diagrama: Projecto ALEA – Noçoes de Estatística

População vs. Amostra Podemos inferir (deduzir) determinadas características de uma população se extraímos uma amostra representativa desta População: colecção de unidades individuais (pessoas ou resultados experimentais) com uma ou mais características comuns, que se pretendem estudar. Amostra: Conjunto de dados ou observações, recolhidos a partir de um subconjunto da população, que se estuda com o objectivo de tirar conclusões para a população de onde foi recolhida amostragem Imagens extraídas da referência 2

Amostragem Processo pelo qual se extraem dados de uma população
Existem vários tipos de amostragem: Vamos usar apenas este tipo Amostragem Aleatória Simples: cada elemento da amostra é retirado aleatoriamente de toda a população (com ou sem reposição)  cada possível amostra tem a mesma probabilidade de ser recolhida Amostragem Estratificada: subdividir a população em, pelo menos, dois subgrupos distintos que partilham alguma característica e, em seguida, recolher uma amostra de cada um dos subgrupos (estratos) Amostragem por clusters: dividir a população em secções (clusters); seleccionar aleatoriamente alguns desses clusters; escolher todos os membros dos clusters seleccionados.

Inferência Estatística
inferir certas características da população n indivíduos (ou objetos) da população ex: sortear n pixels de uma imagem (com ou sem reposição) n realizações de uma v.a. X ex: medir a reflectância de um objeto n vezes amostra  distribuição conhecida/desconhecida e/ou parâmetros desconhecidos a amostra constitui um conjunto de n v.a. X1, X2, ..., Xn independentes e identicamente distribuídas com distribuição FX  Amostra Aleatória acetato adaptado de referencia 3

Amostra Aleatória Note que usamos letras minúsculas pois estamos a definir concretizações (observações) de variáveis aleatórias Note que usamos letras maiúsculas, pois estamos a definir variáveis aleatórias e medidas em função dessas variáveis acetato adaptado de referencia 1

Parâmetro vs. Estatística
Parâmetro – Medida usada para descrever a distribuição da população a média μ e o desvio padrão σ2 são parâmetros de uma distribuição Normal - N(μ,σ2) a probabilidade de sucesso p é um parâmetro da distribuição Binomial - B(n,p) Estatística – Função de uma amostra aleatória que não depende de parâmetros desconhecidos Média amostral: Variância amostral: Amplitude da amostra:

Parâmetro vs. Estatística
Proporção dos inquiridos de raça branca numa população e numa amostra   p exemplo extraído da referência 2

Estimação de Parâmetros
População Amostra Distribuição da População Parâmetros Distribuição Amostral Estatísticas estimar (valor fixo) (função da amostra) Estimação pontual (estatísticas) por intervalo (intervalos de confiança) OBS: estatística: é a v.a. que estima (pontualmente) um parâmetro (populacional) as vezes é chamada simplesmente de estimador estimativa: é o valor do estimador obtido para uma amostra específica acetato adaptado de referencia 3

Estimação do nº de Votos
Fonte: Projecto ALEA – Noçoes de Estatística

Construindo a Amostra Fonte: Projecto ALEA – Noçoes de Estatística

Conclusões Resultado: (60,5%, 66,5%) de lisboetas vão votar no presidente com um grau de confiança de 95%

Intervalo de Confiança
Um intervalo de confiança para um parâmetro , a um grau de confiança 1-, é um intervalo aleatório (Linf, Lsup) tal que: P(Linf <  < Lsup) = 1- ,   (0,1) onde  deve ser um valor muito reduzido por forma a temos confianças elevadas Valores usuais para o grau de confiança: 95%, 99% e 90%

Intervalo de Confiança (IC)
IC para a média  com variância conhecida Caso 1: população Normal Caso 2: população qualquer (n>>30) aproximada pela Normal IC para a média  com variância desconhecida IC para a diferença de médias de duas populações Normais Caso 1: duas amostras independentes, variâncias conhecidas Caso 2: duas amostras independentes, variâncias desconhecidas Caso 3: amostras emparelhadas, variâncias desconhecidas IC para uma proporção

IC para  com variância conhecida Caso 1: População Normal
 desconhecido, mas 2 conhecido - + z -z centrando e reduzindo: Z (Normal Padrão) z /2 z1 - /2 quantil de ordem 1-/2 quantil de ordem /2 IC para m a grau de confiança 1- Linf Lsup acetato adaptado de referencia 3

Determinando o Quantil de Ordem 1-/2 Distribuição Normal Padronizada
Para nível de significância =  grau de confiança 95% (z) = P(Z < z) = 1 - /2  z = z 1 - / quantil de ordem 1-/ (z) = P(Z < z) = 1- (0.05/ 2) = buscar valor de z na tabela: (z) =  z = 1.96 Tabela 3.a. Normal Distribution Grau de Confiança Valor z 90% 1.65 95% 1.96 99% 2.58 90% grau de confiança – existem 10 possibilidades de 100 que o IC não contenha a média populacional 95% grau de confiança – existem 5 possibilidades de 100 que o IC não contenha a média populacional 99% grau de confiança – existe possibilidade de 100 que o IC não contenha a média populacional

Interpretação do IC para 
Para uma amostra aleatória de tamanho 50 seguindo uma distribuição Normal com média  = 10 e variância 2 = , determinamos o IC para  com 95% de grau confiança: =10 Interpretação: 95% dos possíveis ICs obtidos a partir de uma amostra de tamanho 50, conterão de facto o verdadeiro valor da média =10

IC para  com variância conhecida Caso 1: População Normal
Exemplo: Uma v.a. qualquer tem uma distribuição Normal com média  desconhecida e variância 2 = 16. Retira-se uma amostra de 25 valores e calcula-se a média amostral. Construa um IC de 95% para  supondo que - + 95% z -z 2,5% ? z0,9750=1,96

IC & Grau de Confiança Como poderia obter intervalos de confiança mais estreitos, ou seja, com limites mais próximos a média verdadeira? Diminuindo o grau de confiança figura extraída da referência 2 Diminuindo o grau de confiança de 99% a 95%, aumentamos o risco de estar errados: de 1% de risco passamos a 5% de risco, ou seja temos mais possibilidades (5/100 em vez de 1/100) de que o IC não contenha a média populacional. Ao aumentar o risco, o intervalo deve ser mais preciso

IC & Dimensão da Amostra
Como poderia obter intervalos de confiança mais estreitos, ou seja, com limites mais próximos a média verdadeira? Aumentando a dimensão da amostra Tabela extraída da referência 2

IC para  com variância conhecida Caso 2: População Genérica aproximada pela Normal
Se uma distribuição qualquer tiver média  (desconhecida) e variância 2 (conhecida) e se forem validas as condições do TLC (n>>30) podemos obter um IC aproximado para a média  IC para m a grau de confiança 1-

IC para  com variância conhecida Resumo
IC para  a grau de confiança 1-  desconhecido, mas 2 conhecido 1º caso 2º caso quanto maior z  IC menos preciso quanto maior n  menor o erro padrão  IC mais preciso Se aumentarmos o grau de confiança  a precisão diminui porque aumenta o valor z se 90%  z = se 95%  z = se 99%  z = 2.58 A expressão é chamada erro padrão (standard error)

IC para  com variância desconhecida
Se o valor de 2 é desconhecido  substituir por uma estimativa Estimadores pontuais para o desvio padrão  : desvio padrão amostral não-corrigido desvio padrão amostral corrigido Se 2 desconhecida podemos distinguir dois casos: Caso1. população Normal  usar distr.t de Student Caso2. q.q. distribuição aproximada pela Normal, amostras grandes  usar distribuição Normal padronizada

IC para  com variância desconhecida Caso 1: População Normal
Exemplo: Uma v.a. qualquer tem uma distribuição Normal com média  e variância 2 desconhecidas. Retira-se uma amostra de 25 valores e calcula-se a média amostral e variância amostral . Construa um IC de 95% para  supondo que e S2 = 16 - + t -t 2,5% Distribuição t de Student com 24 graus de liberdade 95% ? t0,9750, 24 = 2,064

Determinando t1-/2, n-1 - quantil de ordem 1-/2 de uma distribuição t-Student com n-1 graus de liberdade Por definição de quantil de ordem 1-/2: z = z 1 - /2  F(z) = P(Z < z) =1 - /2 Para grau de confiança 95%  nível de significância = F(z) = P(Z < z) = 1- (0.05/ 2) =  F(z) = Para n=25  24 graus de liberdade Determinar t0.9750, 24 usando Tabela 8: Tabela 8. Student s t-Distribution t0.9750, 24 = 2.06

IC para  com variância desconhecida Caso 1: População Normal
exercício 5, capítulo 4 Uma amostra aleatória de 20 cigarros foi analisada para estimar a quantidade de nicotina por cigarro, observando-se a média de 1,2 mg e variância amostral corrigida de 0.4. Pressupondo que as observações têm distribuição Normal, determine um IC para o valor médio da quantidade de nicotina por cigarro, grau de confiança de 99% Usando esta amostra determinamos um IC aproximado para  a 99%: Para grau de confiança 99%: (1-) x 100% = 99%  (1-) =0.99  =0.01 Por definição de quantil de ordem 1-/2: F(z) = P(Z < z) = 1- (0.01/ 2) = 0,995  F(z) = Para n=20  19 graus de liberdade Determinar t0.995, 19 usando Tabela 8 t0.995, 19 = 2.86

IC para  com variância desconhecida Exemplo: População qualquer, amostra grande
Ingressos dos emigrantes hispânicos em EU segundo censo de 1980 Origem Nº pessoas amostra Rendimento Médio Desvio Padrão Amostral cubanos 3895 $16 368 $3 069 mexicanos 5729 $13 342 $9 414 porto-riquenhos 5908 $12 587 $8 647 IC para m a grau de confiança 95% cubanos: mexicanos: porto-riq.: IC  ( 16272, ) IC ( 13098, ) IC  ( 12367, )

IC para  com variância desconhecida Exemplo: População qualquer, amostra grande
Exemplo adaptado de referência 2

Inferência entre parâmetros de duas populações
Mesmo não se conhecendo as médias 1 e 2, seria possível verificar se elas são iguais a partir de seus valores amostrais? Se 1 e 2 são iguais, então 1 - 2 = 0. Podemos a partir da diferença das médias amostrais inferir o valor da diferença das médias de duas populações acetato adaptado de referencia 3

Intervalo de Confiança para 1 - 2 Duas populações Normais
Intervalo de Confiança para 1 - 2 Duas populações Normais. Amostras independentes Sejam X1,…, Xn e Y1, …, Ym duas amostras aleatórias constituídas por observações independentes e provenientes de duas populações Normais N(X, X2) e N(Y, Y2), respectivamente Caso 1: variâncias conhecidas Caso 2: variâncias desconhecidas mas iguais IC para m1-m2 a grau de confiança 1-

ScD – desvio padrão amostral corrigido das diferenças
Intervalo de Confiança para 1 - 2 Populações Normais. Amostras emparelhadas Sejam X1,…, Xn e Y1, …, Yn duas amostras provenientes de populações Normais Amostras emparelhadas: se pares de observações (Xi, Yi) são dependentes sendo todos os restantes pares (Xi, Yj), ij independentes Consideram-se as diferenças: D = X- Y – diferença das médias populacionais D – desvio padrão das diferenças - desconhecido mas pode ser estimado através das diferenças D1, …, Dn D1, D2, ...Dn – a.a. com população Normal e variância desconhecida ScD – desvio padrão amostral corrigido das diferenças IC para D= X-Y a grau de confiança 1-

Intervalo de Confiança para Proporção
Considere que uma urna contêm bolas vermelhas e azúis e que n bolas são escolhidas ao acaso (com reposição), definindo-se X como o número de bolas vermelhas entre as n seleccionadas , Yi ~ Bernoulli sendo p = P(Xi = 1), a probabilidade de se seleccionar um bola vermelha Se p- desconhecido, um estimador pontual para p é a proporção amostral: (se n é grande, pelo TLC) centrando e reduzindo: Z I.C. para Z com grau de confiança 1-

Intervalo de Confiança para Proporção
Seja a proporção de indivíduos com uma certa característica de interesse numa amostra aleatória de dimensão n, e p a proporção de indivíduos com essa característica na população. Um intervalo de confiança aproximado para p, a um grau de confiança 1-, é dado por:

Usando esta amostra determinamos um IC aproximado para p a 95%:
IC para uma proporção Exemplo: Proporção de acessos a páginas de Internet nacionais exercício 16, capítulo 4 Em 100 acessos a páginas de internet escolhidos ao acaso 30 são as páginas nacionais. Determine um IC a 95% para a proporção de acessos a páginas nacionais X - número de acessos á páginas de internet nacionais p – proporção de acessos a páginas nacionais (em geral) p – desconhecido Usando esta amostra determinamos um IC aproximado para p a 95%: com e 1º. Determinar z1-/2 para =0,05 z0,9750=1,96 2º. Determinar as estimativas p e Sp ^ 3º. Substituir na fórmula:

Formulário F O R M U L Á I extraído do formulário da disciplina Métodos Numéricos e Estatísticos disponível no blackboard (buscar em lista disciplinas do curso: Lic. Biotecnologia (1º ciclo))

Referências Livro: Grande Maratona de Estatística no SPSS
Andreia Hall, Cláudia Neves e António Pereira Capítulo 4.1 Intervalos de Confiança Acetatos disponíveis on-line usados na elaboração destes acetatos: Estatística Inferencial e Intervalos de Confiança, Amostragem Andreia Hall URL: Chapter 11: Sampling and Sampling Distribution, Chapter 12: Estimation Prof. J. Schwab , University of Texas at Austin disciplina: Data Analysis I (spring 2004) URL: Estimação Camilo Daleles Rennó, Instituto Nacional de Pesquisas Espaciais, Brasil disciplina:Estatística: Aplicação ao Sensoriamento Remoto (2008) URL: Estimação por Intervalos Ana Pires, IST Lisboa disciplina: Probabilidades e Estatística URL: :

Aula 5. Intervalos de Confiança

Apresentações semelhantes

Apresentação em tema: "Aula 5. Intervalos de Confiança"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Aula 5. Intervalos de Confiança

Apresentações semelhantes

Apresentação em tema: "Aula 5. Intervalos de Confiança"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback