A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Amostragem Pontos mais importantes:

Apresentações semelhantes


Apresentação em tema: "Amostragem Pontos mais importantes:"— Transcrição da apresentação:

1 Amostragem Pontos mais importantes:
-amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição empírica e histograma -escolha de amostras aleatórias -amostragem de distribuição normal, teorema de limite central -distribuições t e c2 -amostragem de distribuição binomial 1

2 Num estudo confronta-se com uma grande colecção (quantidade) de elementos de interesse ou população. Geralmente as conclusões sobre a população está baseada de analise de um número (pouco) de observações ou amostra. amostra população amostragem analise conclusões Definição: Um conjunto de v.a-s independentes X1, X2,...,Xn com a mesma distribuição Fx constitui uma amostra da distribuição Fx. 2

3 Para tirar conclusões válidas (correctas) sobre qualquer população, a amostra tem de ser representativa Amostra Como tirar uma amostra representativa? Tamanho? Amostra mais representativa é uma amostra aleatória Amostra aleatória: qualquer membro de população têm a mesma probabilidade de ser escolhido como uma mostra 3

4 Uma medida directamente associada a população:
Parâmetros Estatísticas Uma medida directamente associada a população: - valor de esperança (m) - variância - etc. Quantidades calculadas (completamente determinadas pela) de uma amostra: -média amostral -variância amostral -etc. As estatísticas são estimativas dos parâmetros da população. Cada amostra duma população resulta noutra estimativa estatísticas são v.a.-s. 4

5 Medidas de tendência central:
Valor média (pesada) de v.a. X: E[X]=m Definição de média amostral: 5

6 é uma v.a., por isso: No caso que m não ser conhecido, a média amostral representa uma estimativa natural. 6

7 A mediana (m), é o valor central de distribuição (Fx(m)) no sentido em que é igualmente provável obter x superior ou inferior a m. P(Xm)=P(Xm)= 1/2 ou F(m)=1/2 Suponha que nos queremos escolher c numa forma que o erro absoluto |X-c| (ou E[|X-c|]) de previsão de X seja mínimo: 7

8 xk=0.5(x(0.5n)+x0.5n+1) se n é par xk= x(0.5(n+1)) se n é ímpar
Nota: De igual modo, podemos definir outros Percentis(x), e.g 25%, 50% (m), 75% Exemplo: calcule a mediana de distribuição Weibull, x>0 Definição da mediana amostral (xk): seja X1 X2 ...  Xn uma amostra ordenada, a mediana amostral é: xk=0.5(x(0.5n)+x0.5n+1) se n é par xk= x(0.5(n+1)) se n é ímpar A mediana amostral representa uma estimativa natural de m 8

9 Exemplo: n=7, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41 e 0.42 -> mediana (i=4): n=8, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41, e 0.42 -> mediana ((x4+x5)/2): 9

10 O valor mais frequente numa população chama-se moda (a):
A moda de uma amostra aleatória é o valor que ocorre com a maior frequência. Exemplo: n=8, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41, e 0.42 -> moda : 10

11 Medidas de dispersão: Variância da v.a. X: Var[X]=s2= E[(X-m)2]
A estatística, variância e desvio padrão amostral, é definida pela: e ou 11

12 12 Grau de liberdade: a expressão anterior também se escreve,
onde n é o grau de liberdade. Porque n=n-1? Isto implica que qualquer n-1 y determine o n-issimo elemento. Só n-1 elementos são independentes. 12

13 O que podemos dizer sobre o valor de esperança de S2?
Agora sabendo: ; ; Temos: e A variância amostral representa uma estimativa natural de s2 13

14 Distribuições empíricas:
Às vezes, podemos querer obter informação global sobre a distribuição da população (não só sobre os parâmetros). A função de distribuição empírica Fn(x), onde -<x< , é definida pela V.a. discreta, a função de distr. de probabilidade empírica(pn): pn(j) também chama-se proporção. 14

15 Exemplo: Amostra: Amostra ordenada: Distribuição empírica: 1 2 3 4 5 6 p(xi) 6/30 4/30 8/30 5/30 3/30 F(xi) 10/30 18/30 23/30 27/30 30/30

16 V.a. continua, a função de distr. de frequência (fn):
O gráfico de distribuição de frequência chama-se histograma: 60 50 40 frequency 30 20 10 2 4 6 8 10 16 F-value, min

17 Selecção de amostras aleatórias:
Descrição mais representativa das propriedades da população é fornecida por uma amostra aleatória, onde qualquer membro da população têm a mesma probabilidade de ser escolhido. Como? Distribuição uniforme(U(a,b)): f(x) (b-a)-1 E[X]= (b+a)/2 a b Var(X)= (b-a)2 /12 U(0,1) chama-se número aleatório 17

18 Seja k uma amostra aleatória de n elementos. Para j=1,2,
Seja k uma amostra aleatória de n elementos. Para j=1,2,...,n vamos definir: Para o primeiro elemento I1: P(I1=1)=k/n Para o segundo elemento I2: P(I2=1| I1=1)=(k-1)/(n-1) e, P(I2=1| I1=0)=(k)/(n-1) ou P(I2=1| I1)=(k-I1)/(n-1) Em geral: 18

19 Seja U um número aleatório (U(0,1)), assim P(U<a)=a
19

20 Escolha aleatoriamente k=2 de n=5
20

21 U1( )>0.4 U2( )<0.5  (2,X) U3( )>1/3 U4( )>0.5 (2,5) 21

22 Amostragem de distribuição normal:
Distribuição normal (N(m,s2)): A distribuição normal tem importância elevada entre as distribuições especiais, porque muitos fenómenos seguem, pelo menos aproximadamente, distribuição normal: -altura de pessoas -movimento “Braun” das moléculas -o erro na medição de uma quantidade física 22

23 E[X]=m Var[X]=s2 s- inflexão m m-s 23

24 Seja X N(m,s2), a Y=aX+B é uma v.a. N(am+b,a2s2).
Por isso a variável Z=(x-m)/s tem uma N(0,1): Z chama-se distr. normal padrão, e permite-nos facilmente calcular as probabilidades de X em termos de probabilidade de Z. 24

25 P(X>m-s, X<m+s)68% P(X>m-2s, X<m+2s) 96%
f(x) P(X>m-s, X<m+s)68% P(X>m-2s, X<m+2s) 96% -tabelas de P(z<x)=f(x) para calcular probabilidades -Exemplo: m=3 e s2=16, calcule X<7 25

26 f(z) 26

27 Teorema de limite central: A soma de um grande número de variáveis aleatórias independentes tem uma distribuição normal. Fenómenos físicos (e não só) estão afectados por um grande número de factores, consequentemente seguem uma distr. normal. Seja X1, X2,..., Xn v.a.s independentes com a mesma distribuição (mas não necessariamente normal) com m e s2. Então para n grande: Muitas técnicas de estatística estão baseadas de pre-suposição de normalidade -exemplo: distr. da média do lançamento de n dados 27

28 28

29 Recordar: e Assim: Variância da população é estimada pela s2. O que podemos dizer sobre a distribuição de t=(x-m)/s ou ? t tem uma distribuição conhecida que chama-se distribuição Student “t” com n grau de liberdade. 29

30 f(t)- complicado (tabelas)
Distribuição Student tn: Seja Z [N(0,1)] e X (c2n) duas v.a. independentes. Distribuição t está definida pela, -  t   n f(t)- complicado (tabelas) E[t]=0 Var[t]=n/(n-2) para n grande t~Z 30

31 31

32 tem uma distribuição chi-quadrado com n graus de liberdade. X>0
Outra característica importante da amostra de uma distribuição normal, é que X e s2 são independentes, e a v.a. (n-1)s2/s2 tem uma distribuição c2 com n-1 grau de liberdade Distribuição “Chi-quadrado”, c2(n): Se foram Z,1, Z2,... Zn v.a. normais padrão. A v.a. X: X= Z21+ Z22,...+ Z2n tem uma distribuição chi-quadrado com n graus de liberdade. X>0 n f(x)- complicado (tabelas) E[X]=n Var[X]=2n 32

33 33

34 Porquê é importante saber a distribuição de e X=(n-1)s2/s2 ?
Porque podemos dar respostas sobre questões como: -qual é a probabilidade da média da população ser m , se a média de amostra é x -qual é a probabilidade da variância da população ser s2 , se a variância de amostra é s2 34

35 Amostragem de distribuição binomial:
Distribuição Bernoulli e binomial (Bi(n,p)): Seja X é uma v.a. Bernoulli tal que, X=1 quando um acontecimento ocorre (sucesso) e X=0 no caso que não ocorre (falha). E.g. resposta “sim” num inquérito tipo sim/não P(X=0)= 1-p P(X=1)= p E[X]=1P(X=1) + 0P(X=0)= p Var(X)=E[X2]- E2[X]=p-p2=p(1-p) 35

36 Suponha que faça-se n experiências independentes de uma variável aleatória Bernoulli com probabilidade P de sucesso. Neste caso o número de sucesso X, chama-se uma variável binomial (Bi(n,p)) com a função distr. de probabilidade: O valor de esperança matemática e a variância é dada por: 36

37 37

38 Aplicando o teorema de limite central, temos que a v. a. X= X1+ X2,
Aplicando o teorema de limite central, temos que a v.a. X= X1+ X2,..., +Xn tem uma distribuição aproximadamente normal. Se for np suficientemente grande, Assim, 38


Carregar ppt "Amostragem Pontos mais importantes:"

Apresentações semelhantes


Anúncios Google