A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Utilizando o R. Técnicas para Predição de Dados2 Regressão e correlação Desejamos descrever a relação entre duas variáveis usando o conceito de regressão.

Apresentações semelhantes


Apresentação em tema: "Utilizando o R. Técnicas para Predição de Dados2 Regressão e correlação Desejamos descrever a relação entre duas variáveis usando o conceito de regressão."— Transcrição da apresentação:

1 Utilizando o R

2 Técnicas para Predição de Dados2 Regressão e correlação Desejamos descrever a relação entre duas variáveis usando o conceito de regressão linear Método dos mínimos quadrados Outro método Mais outro

3 Técnicas para Predição de Dados3 Modelo de Regressão Linear Simples Y é a variável resposta; X é a variável independente; representa o erro.

4 Técnicas para Predição de Dados4 Estudo da relação entre variáveis Investigar a presença ou ausência de relação linear sob dois pontos de vista  Quantificando a força dessa relação: correlação  Explicitando a forma dessa relação: regressão Diagrama (Mapa) de dispersão: representação gráfica das duas variáveis quantitativas

5 Técnicas para Predição de Dados5 Correlação No entanto, antes de propor um modelo de regressão é importante verificar o grau de correlação entre as variáveis independentes x e a variável resposta y Além disso nem sempre uma correlação elevada entre variáveis indica que faz sentido propor um modelo de regressão  Exemplo: produção de bananas versus taxa de natalidade

6 Técnicas para Predição de Dados6 Correlação negativa: à medida que x cresce, y decresce. x = horas de treinamento y = número de acidentes Mapas de dispersão e tipos de correlação Horas de treinamento Acidentes

7 Técnicas para Predição de Dados7 Correlação positiva: à medida que x cresce, y cresce também. x = nota no vestibular y = média de notas na graduação Média de notas na graduação Mapas de dispersão e tipos de correlação 4,00 3,75 3,50 3,00 2,75 2,50 2,25 2,00 1,50 1,75 3, Nota no vestibular

8 Técnicas para Predição de Dados8 Não há correlação linear. x = altura y = QI Mapas de dispersão e tipos de correlação Altura QI

9 Técnicas para Predição de Dados9 Coeficiente de Correlação Linear Mede a intensidade e a direção da relação linear entre duas variáveis. n = tamanho da amostra x = variável dependentei = 1, …, n. y = variável independente

10 Técnicas para Predição de Dados10 Coeficiente de Correlação Linear O intervalo de r vai de –1 a 1. Se r está próximo de 1, há uma forte correlação positiva. Se r está próximo a –1, há uma forte correlação negativa. Se r está próximo de 0, não há correlação linear. –1 0 1

11 Técnicas para Predição de Dados11 x y Faltas Nota final Aplicação Nota final X Faltas

12 Técnicas para Predição de Dados12 Regressão e correlação O conjunto de dados “thuesen” tem 24 linha e duas colunas. Os dados estão relacionados com uma anomalia chamada “ventricular shortening velocity” e com o nível de açúcar no sange de pacientes diabéticos tipo I. data(thuesen) attach(thuesen) thuesen

13 Técnicas para Predição de Dados13 Regressão e correlação cor(short.velocity, blood.glucose)  # cálculo da correlação lm (short.velocity ~ blood.glucose) Call: lm(formula = short.velocity ~ blood.glucose) Coefficients: (Intercept) blood.glucose short.velocity = blood.glucose

14 Técnicas para Predição de Dados14 Regressão e correlação summary(lm (short.velocity ~ blood.glucose)) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) e-09 *** blood.glucose * --- Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: on 21 degrees of freedom (1 observation deleted due to missingness) Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 21 DF, p-value:

15 Técnicas para Predição de Dados15 Regressão e correlação plot(blood.glucose,short.velocity) abline(lm (short.velocity ~ blood.glucose))

16 Técnicas para Predição de Dados16 Regressão e correlação Resíduos e valores ajustados  lm.velo= lm (short.velocity ~ blood.glucose)  Valores ajustados fitted(lm.velo)  Valores dos resíduos resid (lm.velo) plot (blood.glucose, short.velocity ) lines (blood.glucose, fitted(lm.velo)) ou lines (blood.glucose[!is.na(short.velocity)], fitted(lm.velo))

17 Técnicas para Predição de Dados17 Regressão e correlação plot (blood.glucose, short.velocity ) lines (blood.glucose, fitted(lm.velo)) ou lines (blood.glucose[!is.na(short.velocity)], fitted(lm.velo)) segments (blood.glucose,fitted(lm.velo), blood.glucose,short.velocity)

18 Técnicas para Predição de Dados18 Exercício 2 (montgomery) Um motor de foguete é fabricado unindo um propelente de ignição a um propelente para manter o foguete em vôo. O poder da força da junção dos propelentes é uma característica de qualidade importante. Suspeita-se que o “poder” dessa força está relacionado com a “idade” do recipiente do propelente. O arquivo de dados datafile4.dat contém os dados relativos a 20 observações da força da junção comparados com a idade do recipiente do propelente.

19 Técnicas para Predição de Dados19 Exercício 2 (montgomery) Plote o gráfico de dispersão. Encontre covariância entre os dois vetores de dados Encontre a correlação entre os dois vetores de dados Encontre a média dos dois vetores de dados Encontre os valores de S xx e S xy Encontre os estimadores β 0 e β 1 Dado o modelo y = β 0 + β 1 x, encontre os valores ajustados para a variável resposta para cada observação da variável explicativa Encontre o resíduo e i e verifique se ∑ e i = 0 Finalmente, aplique os métodos do exercício 1 ao arquivo datafile4.dat e compare os resultados. A tabela 2.2 do livro do montgomery apresenta os resultados acima.

20 Utilizando o R


Carregar ppt "Utilizando o R. Técnicas para Predição de Dados2 Regressão e correlação Desejamos descrever a relação entre duas variáveis usando o conceito de regressão."

Apresentações semelhantes


Anúncios Google