A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

DISTRIBUIÇÕES AMOSTRAIS

Apresentações semelhantes


Apresentação em tema: "DISTRIBUIÇÕES AMOSTRAIS"— Transcrição da apresentação:

1 DISTRIBUIÇÕES AMOSTRAIS
Lei dos grandes números – Extraia observações aleatórias e independentes de uma população de média  À medida que o número de observações aumenta, a média amostral aproxima-se cada vez mais da média da população . Características de uma população podem ser descritas pelos parâmetros. Os parâmetros são quantidades desconhecidas, a serem estimadas via amostra. As distribuições amostrais podem ser vistas como: Distribuição de probabilidades de uma estatística amostral Indicam como variam as estatísticas devido a variações no processo de amostragem.

2 DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS
Obtida a partir da média aritmética de uma série de amostras de tamanho n, extraída de uma população que tem média m e desvio padrão s. A média da distribuição amostral de médias é igual à média populacional O desvio-padrão da distribuição amostral de médias é dada por: A distribuição amostral de médias é aproximadamente normal, para n grande. A estatística correspondente à equação abaixo é aproximadamente N(0,1).

3 DISTRIBUIÇÃO AMOSTRAL DE PROPORÇÕES
Obtida a partir da proporção de elementos em uma amostra que possuem certa característica de interesse. A média da distribuição amostral da proporção é igual à proporção populacional. O desvio-padrão da distribuição amostral da proporção é dado por: A distribuição amostral da proporção é aproximadamente normal, para n grande. A estatística correspondente à equação abaixo é aproximadamente N(0,1).

4 ESTIMAÇÃO: NOÇÕES GERAIS
Inferência: campo da estatística no qual são tomadas decisões sobre populações, com base na informação extraída de uma amostra. Estimativas sobre os parâmetros populacionais Estimativas pontuais Estimativas por intervalos Formulação de testes de hipóteses sobre os mesmos

5 INTERVALO DE CONFIANÇA PARA A MÉDIA – com desvio padrão conhecido
Objetivo do IC: estimar um parâmetro desconhecido com uma indicação da precisão da estimativa. Formato: estimativa +/- margem de erro Nível de confiança: probabilidade de que o método forneça uma resposta correta. A média amostral varia de amostra para amostra Para levar em consideração esta fato devemos construir um intervalo de confiança para a verdadeira média populacional, com base na média amostral. Tal intervalo tem uma probabilidade (nível de confiança) de estar estimando corretamente (conter) o parâmetro.

6 INTERVALO DE CONFIANÇA PARA A MÉDIA – com desvio padrão conhecido
O intervalo para a média, com desvio-padrão conhecido, pode ser representado pela expressão:

7 INTERVALO DE CONFIANÇA PARA A PROPORÇÃO
O intervalo para uma proporção pode ser representado pela expressão:

8   TESTES DE HIPÓTESES Constituem uma outra face do trabalho de inferência estatística e também fazendo uso da informação amostral. Uma hipótese estatística: afirmação sobre parâmetros populacionais. Teste de hipóteses: processo de decisão relativo a uma hipótese particular. A informação de uma amostra é utilizada para avaliar a plausibilidade da hipótese formulada Se tal informação for consistente com a hipótese tenderemos a concluir que não há evidências que favoreçam sua rejeição. O fato de utilizar apenas uma amostra não nos permite concluir com certeza sobre a veracidade ou não de uma hipótese formulada.

9 TESTES DE HIPÓTESES: exemplo com desvio-padrão conhecido
Uma empresa produtora de detergente deseja avaliar se a máquina que enche as garrafas plásticas está adequadamente regulada, para o valor especificado de 5 litros, por garrafa. O desvio padrão do processo é da ordem de 0,5 litros. Caso a máquina esteja devidamente regulada, espera-se que o valor médio de uma amostra de garrafas concorde com um valor médio de 5 litros.

10 TESTES DE HIPÓTESES Hipóteses envolvidas: H0: hipótese nula
H1: hipótese alternativa A hipótese nula (H0) é a que é sempre testada. A hipótese alternativa: oposto de H0. H0 se refere a um valor especificado para um parâmetro da população. H0 geralmente contém um sinal de igualdade. H1 nunca contém sinal de igualdade, pode ser representada por: ¹, < ou >.

11 TESTES DE HIPÓTESES: exemplo com desvio-padrão conhecido
Formula-se então a chamada hipótese nula (H0) como sendo: H0: m = 5, indicando que a máquina está regulada. No caso, suponha que a hipótese alternativa seja definida como: H1: m ¹ 5. Caso a hipótese nula seja verdadeira espera-se que a amostra forneça um valor médio próximo do especificado pela mesma. Porém, devido às variações decorrentes do processo amostral, mesmo que a hipótese nula seja verdadeira, é possível que valores diferentes da mesma sejam obtidos. A metodologia dos testes de hipóteses nos vai fornecer elementos claros para melhor avaliar essas diferenças e tomar uma decisão, com base em critérios probabilísticos.

12   TESTES DE HIPÓTESES Erros envolvidos:

13 TESTES DE HIPÓTESES  Um teste de hipóteses nos auxilia a responder a questão:

14 TESTES DE HIPÓTESES

15 TESTES DE HIPÓTESES: as etapas
Formulação das hipóteses nula e alternativa Escolha do nível de significância Escolha do tamanho da amostra Determinação da técnica apropriada e estatística do teste Determinação dos valores críticos (região de rejeição/regra de decisão) Coleta de dados e cálculo da estatística do teste. Decisão Expressar a decisão no contexto do problema.

16 TESTES DE HIPÓTESES: aplicação
Formulação das hipóteses nula e alternativa H0: m = 5 H1: m ¹ 5 Escolha do nível de significância a=0,05 (5%) Escolha do tamanho da amostra Vamos tomar uma amostra de n=25 caixas. Determinação da técnica apropriada e estatística do teste Determinação dos valores críticos (região de rejeição/regra de decisão) Se z>1,96 ou z<-1,96, rejeitamos H0.

17 TESTES DE HIPÓTESES: aplicação
Coleta de dados e cálculo da estatística do teste. Supondo que a média amostral foi de 4,75 l, tem-se que: Decisão Como o valor de Z=-2,5<-1,96, não existem evidências que favoreçam a hipótese nula. (rejeitamos H0) Expressar a decisão no contexto do problema. Concluímos que a máquina está mal regulada e, portanto, requer uma intervenção no processo para sanar o problema.

18 TESTES DE HIPÓTESES: o método do valor-p
Supondo H0 verdade, o valor-p ou nível de significância do teste, representa a probabilidade de se obter, para uma amostra n observações, um valor amostral tão ou mais discrepante que a média observada. Se tal probabilidade for muito pequena, a média amostral observada não é compatível com a hipótese H0 e a hipótese formulada tende a ser rejeitada. No exemplo em questão, o teste é bi-lateral, logo a probabilidade de que seja tão extrema é dada por: Como tal valor-p é menor que o especificado (5%), concluímos pela não aceitação de H0, como anteriormente. TESTES DE HIPÓTESES: o método do valor-p

19 Teste de hipóteses para duas populações: amostras independentes
Problema: Dois catalizadores estão sendo testados para se determinar como afetam um processo químico. O catalisador 1 é o que está sendo usado atualmente. Como o catalisador 2 tem menor custo, ele poderia ser adotado, desde que não alterasse o rendimento do processo. Um experimento foi realizado e os rendimentos dos 2 catalisadores foi medido. Os dados são apresentados a seguir. Poderemos afirmar que o rendimento dos 2 catalisadores é o mesmo, ao nível de 5% de significância?

20 Dados dos rendimentos para as amostras dos 2 catalisadores.

21 Estatísticas descritivas dos rendimentos dos catalisadores

22 Resultados teste-t

23 Concluindo o problema dos catalisadores
Como o valor-p foi da ordem de 0, ele supera o valor de 0,05 e portanto o teste conclui pela aceitação da hipótese de igualdade nos rendimentos dos 2 catalisadores, assim o catalisador 2, de menor custo deve ser preferido.

24 Teste t para 2 amostras: emparelhamento
Situação tipo Antes X Depois ou Duas medições feitas em cada elemento Formação de pares de observações Utilização de indivíduos gêmeos

25 Teste t para 2 amostras: emparelhamento
Suponha que estamos interessados em testar 2 tipos de ponteira em uma máquina de teste de dureza. A máquina pressiona com certa força a ponteira sobre o material metálico, medindo-se a profundidade da depressão causada. Amostras independentes poderiam causar resultados enganosos nesse caso, devido a possível falta de uniformidade das placas metálicas a serem testadas, em virtudes de fatores externos ao experimento. Nesse caso o ideal seria perfurar cada placa metálica com 2 furos, um com cada ponteira.

26 Teste t para 2 amostras: emparelhamento
Um artigo do Journal of strain analysis (v.18,n2) compara vários métodos para prever a resistencia ao cisalhamento de vigas planas de aço. Dados para 2 desses métodos, Karlsuhe e Lehigh, foram obtidos para uma amostra de 9 vigas e são apresentado a seguir:

27 Teste t para 2 amostras: emparelhamento

28 Teste t para 2 amostras: emparelhamento
Conclusão: Uma vez que o valor-p=0,001<0,05, rejeita-se a hipótese de igualdade dos métodos, concluindo-se que o Método de Karlsuhe produz previsões maiores que o método de Lehigh.

29 TESTES DE HIPÓTESES: outros testes
Testes para a média com desvio-padrão desconhecido Testes para proporções Testes para diferenças de médias (amostras independentes) Variâncias conhecidas Variâncias desconhecidas e iguais Variâncias desconhecidas e diferentes Testes para diferenças de médias (amostras pareadas ou relacionadas) Testes para diferenças de proporções Testes tipo qui-quadrado Testes não-paramétricos Análise de variância (comparações múltiplas)

30 EXPLORANDO A RELAÇÃO ENTRE VARIÁVEIS
Mensurar o tipo e grau de associação entre duas ou mais variáveis. Foco inicial: duas variáveis quantitativas Etapas: Abordagem gráfica: diagrama de dispersão Cálculo do coeficiente de correlação linear de Pearson,

31 Diagrama de dispersão Gráfico utilizado para a visualização do tipo de relacionamento entre 2 variáveis quantitativas Este entendimento contribui para aumentar a eficiencia dos métodos de controle de um processo

32 Construção do diagrama de dispersão
Coletar ao menos 30 pares de observações (x,y) das variáveis a serem estudadas; Registrar os dados em uma tabela; Escolher uma variável a ser representada no eixo ‘x’ (preditora) e outra variável em ‘y’ (dependente); Determinar os valores máximo e mínimo para cada variável; Escolher as escalas para ‘x’ e ‘y’ Representar no gráfico os pares de observações (x,y). Registrar informações importantes que devem constar no gráfico: título, legendas, unidades de medidas, etc

33 Interpretação de diagramas de dispersão
Correlação positiva: à medida que x aumenta, y também aumenta.

34 Interpretação de diagramas de dispersão
Moderada correlação positiva: y tende a aumentar com x, porém com elevada variabilidade.

35 Interpretação de diagramas de dispersão
Ausência de correlação: os valores das variáveis não estão relacionados.

36 Interpretação de diagramas de dispersão
Moderada correlação negativa: y tende a diminuir com o aumento de x.

37 Interpretação de diagramas de dispersão
Forte correlação negativa: à medida que x aumenta, y diminui.

38 Interpretação de diagramas de dispersão
Outliers: São observações extremas não condizentes com o restante dos dados.

39 CORRELAÇÃO Quando as variáveis crescem no mesmo sentido temos o caso de correlação positiva. Quando as variáveis crescem em sentidos opostos temos uma correlação negativa. Se os dados estão perfeitamente alinhados sobre uma reta temos uma correlação perfeita. Quando o crescimento de uma variável é acompanhado de variações casuais da outra variável a correlação é nula. Cálculo da correlação: coeficiente de correlação linear de Pearson (rxy) – função correl no Excel.

40 Relação entre 2 variáveis quantitativas: exemplo
A corrosão em barras de aço é o problema de durabilidade mais importante em estruturas de concreto. A carbonação do concreto resulta de uma reação química que reduz o nível de PH para iniciar a corrosão do concreto armado. Os dados a seguir representam uma amostra de espécimes retirados de um prédio, sendo: X = nível de carbonação (em mm) e Y = resistência em Mpa. Coeficiente de correlação rxy=-0,935, indicando uma forte correlação negativa entre as variáveis, ou seja, quanto maior os nívels de carbonação menor a resistência do concreto.

41 Modelos de regressão: relações entre variáveis
Em muitos problemas 2 ou mais variáveis estão relacionadas Interessa modelar e explorar esta relação Obter o grau de relacionamento (correlação) Modelar a relação Obter previsão de uma variável em função da(s) outra(s) Relações determinísticas ou não- determinísticas.

42 Modelos de regressão: relações entre variáveis
Exemplo de uma relação determinística: Suponha que o aluguel de um carro custe $ 25 mais 0,30 por Km rodado. Seja Y=valor do aluguel e X=número de kilometros rodados. Portanto Y=25+0,3X O custo para rodar 100 km será Y=25+0,3(100)= $ 55

43 Modelos de regressão: relações entre variáveis
Exemplos de uma relações não- determinísticas: Y=altura e X=peso de indivíduos Y=consumo familiar e X=renda familiar Y=porosidade e X=peso em amostras de concreto. Y=resistência de amostras de concreto e X=nível de carbonação das amostras

44 Modelos de regressão: relações entre variáveis
Análise de regressão: investiga a relação entre duas ou mais variáveis, relacionadas de modo não determinísticos. O Modelo de Regressão Linear Simples: Y = a +bX + e onde: Y= variável dependente X=variável explicativa e = variável aleatória residual

45 Modelos de regressão: estimação dos parâmetros do modelo (“a” e “b”)
Os parâmetros “a”e “b” são estimados pelo método dos mínimos quadrados, que encontra a equação da reta que mais se aproxima dos dados, ou seja, minimizando o erro de predição. QUALIDADE DO AJUSTE: avaliada pelo Coeficiente de Determinação: R2, que varia de 0 a 1 e mede a proporção de variabilidade devida ao modelo ajustado. Quanto mais próximo de 1 melhor a qualidade do ajuste. TESTE DE SIGNIFICÂNCIA DOS PARÂMETROS: feita pela estatística T, geralmente os pacotes fornecem o Valor-p.

46 Ajuste do modelo de regressão linear simples aos dados do exemplo anterior
A equação ajustada foi: Y=28,7-0,3387X com um poder explicativo de 87,5% O teste do coeficiente b foi significativo, indicando que quanto maior o nível de Carbonação menor a resistência do concreto. Poderíamos então usar o modelo ajustado para fazer predições da resistência Para qualquer nível de carbonação, por ex: a resistencia estimada para um ni- Vel de crbonação de 40, seria: Y=28,7-0,338(40)=15,18

47 O Modelo de Regressão Linear Múltipla
Exemplo: Considera-se que a força de frenagem desenvolvida pelo motor de um automóvel seja função da velocidade do motor, do número de octanagem do combustível e da compressão do motor. Realiza-se um teste e os dados são apresentados a seguir. Ajustar um modelo de regressão múltipla e avaliar a qualidade do ajuste.


Carregar ppt "DISTRIBUIÇÕES AMOSTRAIS"

Apresentações semelhantes


Anúncios Google