A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise Exploratória de Dados R – LIG/09. Objetivos  obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados;  apresentar outros.

Apresentações semelhantes


Apresentação em tema: "Análise Exploratória de Dados R – LIG/09. Objetivos  obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados;  apresentar outros."— Transcrição da apresentação:

1 Análise Exploratória de Dados R – LIG/09

2 Objetivos  obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados;  apresentar outros critérios para a determinação de uma reta que se ajuste aos dados;  realizar análises exploratórias dos resíduos do modelo ajustado. Análise de duas variáveis quantitativas:

3 Critério de mínimos quadrados  Como são obtidos os coeficientes da reta de mínimos quadrados? Nossos dados podem ser pensados como uma coleção bivariada: Foi considerado adequado o modelo para explicar.

4 Critério de mínimos quadrados Resíduo (r i ): diferença entre o valor observado da variável resposta e o valor ajustado pelo modelo: valor observado valor ajustado pelo modelo

5 Critério de Mínimos Quadrados  Escolha  =a e  =b de tal maneira que a soma de quadrados dos resíduos seja um mínimo. Minimizar

6 Coeficientes da reta de mínimos quadrados  Solução: Coeficiente de inclinação da reta Coeficiente linear da reta (intercepto)

7 Coeficientes da reta de mínimos quadrados Coeficiente angular da reta de mínimos quadrados

8 Exemplo 1: Idade versus altura1  Fonte:  Referência: Moore, David S., and George P. McCabe (1989). Introduction to the Practice of Statistics, p  A altura de uma criança aumenta ao longo do tempo. Como o padrão de crescimento varia de criança para criança, uma forma de compreender o padrão geral de crescimento é usar a média das alturas de várias crianças, como é feito com os dados a seguir.

9 Idade versus altura  Descrição: Alturas médias de um grupo de crianças de Kalama, um povoado egípcio que é o local de um estudo de nutrição em países em desenvolvimento. Os dados foram obtidos medindo-se as alturas de 161 crianças no povoado cada mês.  Número de casos: 12  Nomes das variáveis:  idade: idade em meses  altura: altura média em cm

10 Idade versus altura: Dados  idadealtura            

11 Idade versus altura  Investigue possíveis relações entre idade e altura nesta base de dados.  Diagrama de dispersão  Coeficiente de correlação  Os dados estão no arquivo idadealtura.txt, com a primeira linha indicando os nomes das variáveis.

12

13 cor(dados$idade,dados$altura) [1] É visível a forte relação entre a idade em meses e a altura!

14 Comentário A altura de uma criança não é estável, mas cresce ao longo do tempo. Como o padrão de crescimento varia de criança para criança, uma forma de compreender o modelo geral de crescimento é usar a média de altura de várias crianças, como apresentado neste conjunto de dados. O diagrama de dispersão da altura versus idade é quase uma linha reta, mostrando um modelo de crescimento linear.

15 Extrapolação  Deve-se tomar cuidado com previsões fora do campo de variação da variável explicativa.  Quanto mais distante estiver o valor da variável explicativa do conjunto de valores efetivamente observado, mais imprecisa será a previsão.  De fato, nada garante que fora deste intervalo, a relação linear obtida continue valendo.

16 Comentários  O caso deste exemplo é típico.  A altura média pode crescer linearmente com a idade em meses nos primeiros anos de vida, mas a curva de altura de uma pessoa certamente não é linear ao longo de sua vida!  Quando falamos em modelos, uma das coisas que se deve ter em mente é a abrangência deles.

17 Reta de mínimos quadrados  reta1<-lm(dados$altura~dados$idade)  Coefficients:  (Intercept) dados$idade  Modelo ajustado: altura= xidade variável resposta variável explicativa

18

19 Outros métodos para obter a reta O critério de minimização da soma dos resíduos ao quadrado não é o único! Há outros critérios para obter uma reta que se ajuste aos dados. Um deles é minimizar a soma dos resíduos tomados em valor absoluto. Este critério é conhecido como critério L1. Escolha  e  de modo a minimizar:

20 Métodos robustos de ajuste da reta Métodos conhecidos como robustos, envolvem minimizar alguma função dos resíduos ao quadrado ordenados. 1) (lmsreg) least median squares: escolha  e  de modo a minimizar: Neste caso, não há uma solução analítica como no caso do critério de mínimos quadrados. O algoritmo para a obtenção dos coeficientes é bem mais complexo. O R possui uma função que nos retorna este coeficiente: lmsreg no pacote MASS.

21 Métodos robustos de ajuste da reta Para usar funções do pacote MASS, há a necessidade de carregar o pacote. O único pacote que não precisa ser carregado no R é o base, que contém as funções básicas que trabalhamos até agora (pie, barplot,mean,sd,summary,boxplot, quantile,plot,lm,round,etc.)

22 Carregando o pacote MASS Clique em 1) Packages (barra de menus na parte superior da tela) 2) load packages 3) MASS

23 Exemplo 2 Voltemos aos dados do arquivo fumo.txt, trabalhados na aula passada. Compare as retas de mínimos quadrados e via critério lms (least median squares) (lmsreg). dados<-read.table(“m:\\aed\\fumo.txt”,header=T) reta1<-lm(dados$imorte~dados$ifumo) reta2<-lmsreg(dados$imorte~dados$ifumo) plot(dados$ifumo,dados$imorte,main=“Fumo versus câncer”) abline(reta1$coefficients,col=“blue”) abline(reta2$coefficientes,col=“red”)

24

25 Métodos robustos de ajuste da reta 2) Um outro método é o lts (least trimmed squares) que consiste em escolha  e  de modo a minimizar: onde r (i) representa os resíduos ordenados, i=1,...,n, e h é um natural menor que n, ou seja, minimiza-se a soma dos h menores resíduos ao quadrado. No R a função que realiza este ajuste também está disponível no pacote MASS: ltsreg.

26 Continuação do exemplo Compare com os outros dois ajustes obtidos, a reta ajustada via ltsreg. reta3<-ltsreg(dados$imorte~dados$ifumo) abline(reta3$coefficients,col=“green”)

27

28 Comentários 1) Quando os dados não apresentarem observações muito diferentes das demais (outliers) e forem aproximadamente “normais”, não haverá muita diferença das retas robustas para a reta de mínimos quadrados. 2) Depois de ajustado um modelo é fundamental realizar a etapa de validação do modelo em que boa parte consiste numa análise exploratória detalhada dos resíduos do modelo. 3) Apenas após a etapa de validação e a escolha do modelo é que podemos partir para a etapa de previsões.

29 Análise dos resíduos Por exemplo, o diagrama de pontos dos resíduos NÃO deve apresentar nenhuma estrutura aparente. Caso, o diagrama de pontos apresente alguma estrutura é sinal de que o modelo proposto para os dados ainda não está suficientemente adequado e deve ser reformulado. Vejamos como está o diagrama dos resíduos da reta de mínimos quadrados para este último ajuste.

30 Diagrama de pontos dos resíduos da reta de mínimos quadrados dotchart(reta1$residuals,main=“Diagrama de pontos da reta de mínimos quadrados”)

31 Outra possibilidade >plot(reta1$residuals,main="Dispersão dos resíduos da reta de mínimos quadrados",type=”l") > abline(h=0,lty=2)

32 Resíduos versus valores ajustados Outro gráfico que também não deve apresentar nenhuma estrutura é o diagrama de dispersão dos valores ajustados versus os resíduos do modelo. plot(reta1$fitted,reta1$residuals,main=“Valores ajustados versus resíduos”)

33 Outros critérios Construa o diagrama de pontos dos resíduos e o diagrama de dispersão dos resíduos versus valores ajustados para os outros dois ajustes deste exemplo (reta2 e reta3).

34 Exemplo 3: Contas de energia Os dados a seguir referem-se à temperatura média mensal e a quantidade de energia elétrica (em $) na conta mensal. Os dados foram armazenados no arquivo energia.txt os nomes das variáveis são data, temp e conta. Fonte: Rossman & Chance (1998). Workshop Statistics: Discovery with data and Minitab. Springer. (Capítulo 9, pg. 159).

35 Contas de energia (cont.) Antes de examinar a relação entre temperatura média e conta de energia, examine a distribuição dos dados referentes a contas de energia. Descreva a forma da distribuição dos valores das contas. Construa o diagrama de dispersão de temperatura versus conta e avalie uma possível associação positiva ou negativa entre estas variáveis.

36

37

38 Contas de energia (cont.) Observe que em regiões com temperaturas muito baixas, diferente de regiões quentes, o consumo de energia é maior quanto menor for a temperatura! Calcule a correlação entre temperatura e conta de energia. Obtenha as retas de mínimos quadrados, lms e lts para estes dados.

39 > cor(dados$temp,dados$conta) [1] reta1<-lm(dados$conta~dados$temp)

40

41 Coefficients: (Intercept) dados$temp Modelo ajustado: Conta= x(temperatura)

42 Contas de energia (cont.) Usando a reta de mínimos quadrados, determine o resíduo e o valor ajustado para o mês de março de Faça um boxplot dos resíduos da reta de mínimos quadrados e verifique se há algum ponto exterior. Em caso afirmativo, identifique qual a data a que este resíduo se refere.

43 > reta1$residuals[12] > reta1$fitted[12] mar/92: temp=41, conta=44.43

44

45 É possível verirficar que a observação cujo resíduo é um ponto exterior no boxplot é a de julho de 1993.

46 Contas de energia (cont.) Faça um dotchart dos resíduos e comente sobre a forma do mesmo. “Um modelo é adequado entre outras coisas, se o diagrama de pontos dos resíduos não apresentar nenhum tipo de estrutura”. De acordo com a afirmação anterior, você diria que o modelo é adequado?

47

48

49 Parece que nessa figura os resíduos tendem a ser positivos nos extremos e negativos no meio. Talvez o modelo linear não seja adequado nesse caso.

50 Retas robustas  Investigue o comportamento dos resíduos para os critérios lms e lts.


Carregar ppt "Análise Exploratória de Dados R – LIG/09. Objetivos  obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados;  apresentar outros."

Apresentações semelhantes


Anúncios Google