Utilizando o R. Técnicas para Predição de Dados2 17/8/2008 Amostragem aleatória  sample (1:40,5) Jogando moedas com reposição  sample (c(“H”,”T”),10,replace=T)

Utilizando o R

Técnicas para Predição de Dados2 17/8/2008 Amostragem aleatória  sample (1:40,5) Jogando moedas com reposição  sample (c(“H”,”T”),10,replace=T) Calculando a probabilidade de uma dada apostra sem reposição =1/(40*39*38*37*36)  1/prod(40:36)

Técnicas para Predição de Dados3 17/8/2008 Densidades Densidade da distribuição normal  x = seq(-4,4,0.1)  plot (x,dnorm(x), type=“l”) Ou ainda  curve (dnomr(x), from=-4, to 4) Gráfico com a distribuição binomial  (pin diagram)  X=0:50  plot (x,dbinom(x,size=50,prob=.33),type="h")

Técnicas para Predição de Dados4 17/8/2008 Estatísticas descritivas x=rnomr(50) mean(x) # média sd(x) # desvio padrão var(x) # variância median(x) # mediana quantile(x)

Técnicas para Predição de Dados5 17/8/2008 Estatísticas descritivas library (ISwr) # carrega pacote data (juul) # carrega dados hospitalares attach(jull) # disponibiliza os dados mean(igf1) # gera um erro mean(igf1, na.rm=T) length(ifg1) # conta todos os valores opção  sum(!is.na(igf1)) # TRUE = 1 e FALSE = 0

Técnicas para Predição de Dados6 17/8/2008 Estatísticas descritivas summary (igf1) n=length (x) plot(sort(x),(1:n)/n,type="s",ylim=c(0,1)) Onde:  “s” = step function  (1:n)/n  divide o intervalo 1:n em n valores

Técnicas para Predição de Dados7 17/8/2008 Testes para uma amostra t-teste – uma amostra  (n<30 e σ desconhecido)  suposições dados vem de uma distribuição normal X~N(µ,σ 2 )  Deseja-se testar a hipótese nula h0: µ = µ 0  Pode-se estimar os parâmetros µ e σ pela média empirica e pelo desvio padrão amostral s.

Técnicas para Predição de Dados8 17/8/2008 Testes para uma amostra t-teste – uma amostra onde SEM = standard error of the mean Se o experimento for repetido (x) vezes e forem tiradas (x) médias, então essas médias seguirão a distribuição que gerou a amostra

Técnicas para Predição de Dados9 17/8/2008 Testes para uma amostra Para dados normalmente distribuídos há 95% de chance de µ ± 2σ Espera-se que se µ 0 for a verdadeira média, então deveria estar a 2 SEM dela. RangeProporção µ ± 1σ68,3% µ ± 2σ95,5% µ ± 2σ99,7%

Técnicas para Predição de Dados10 17/8/2008 Testes para uma amostra formalmente  ou para ver se t está no limite da região de aceitação, cujo nível de significância é 5% Se t está fora da região de aceitação, então devemos rejeitar a hipótese nula para aquele nível de significância. A região de aceitação está próximo de -2 e 2

Técnicas para Predição de Dados11 17/8/2008 Testes para uma amostra A região de aceitação está próximo de -2 e 2

Técnicas para Predição de Dados12 17/8/2008 Testes para uma amostra Pode-se também calcular o p-value que é a probabilidade de se obter um valor tão grande ou maior que o valor t observado. Não se deve rejeitar h0 se o p-value está próximo do nível de significância α Rejeita-se h0 se o p-value é muito pequeno em relação ao nível de significância α

Técnicas para Predição de Dados13 17/8/2008 Testes para uma amostra daily.intake = c(5260,5470,5640,6180,6390,6515,6805,7515,7 515,8230,8770) # energia ingerida em kJ por 11 mulheres mean(daily.intake) sd(daily.intake) quantile(daily.intake) Os dados amostrais (com média = 6753,639 kJ) constituem evidência suficiente para rejeitar a afirmação de que as mulheres ingerem 7725kJ em média?

Técnicas para Predição de Dados14 17/8/2008 Testes para uma amostra Supondo que os dados vieram de uma distribuição normal, o objetivo é testar se essa distribuição pode ter média µ = 7725 t.test (daily.intake, mu=7725)

Técnicas para Predição de Dados15 17/8/2008 Testes para uma amostra t.test (daily.intake, mu=7725) One Sample t-test data: daily.intake t = -2.8208, df = 10, p-value = 0.01814 alternative hypothesis: true mean is not equal to 7725 95 percent confidence interval: 5986.348 7520.925 # sample estimates: mean of x 6753.636

Técnicas para Predição de Dados16 17/8/2008 Testes t para dados emparelhados Usado para duas medidas no mesmo experimento Trata as diferenças entre as medidas, reduzindo o problema para teste t – uma amostra Deseja-se investigar o grau de ingestão de calorias por mulheres antes e depois da menstruação

Técnicas para Predição de Dados17 17/8/2008 Testes t para dados emparelhados data(intake) attach(intake) intake post – pre # diferença antes e depois h0: (post - pre) = 0 h1: (post - pre) ≠ 0 Todos os valores na amostra foram negativos, dando indícios que as mulheres têm baixa ingestão de calorias depois da menstruação.

Técnicas para Predição de Dados18 17/8/2008 Testes t para dados emparelhados t.test(pre,post, paired=T) Paired t-test data: pre and post t = 11.9414, df = 10, p-value = 3.059e-07 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1074.072 1566.838 sample estimates: mean of the differences 1320.455

Utilizando o R

Utilizando o R. Técnicas para Predição de Dados2 17/8/2008 Amostragem aleatória  sample (1:40,5) Jogando moedas com reposição  sample (c(“H”,”T”),10,replace=T)

Apresentações semelhantes

Apresentação em tema: "Utilizando o R. Técnicas para Predição de Dados2 17/8/2008 Amostragem aleatória  sample (1:40,5) Jogando moedas com reposição  sample (c(“H”,”T”),10,replace=T)"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Utilizando o R. Técnicas para Predição de Dados2 17/8/2008 Amostragem aleatória  sample (1:40,5) Jogando moedas com reposição  sample (c(“H”,”T”),10,replace=T)

Apresentações semelhantes

Apresentação em tema: "Utilizando o R. Técnicas para Predição de Dados2 17/8/2008 Amostragem aleatória  sample (1:40,5) Jogando moedas com reposição  sample (c(“H”,”T”),10,replace=T)"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback