A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x.

Apresentações semelhantes


Apresentação em tema: "Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x."— Transcrição da apresentação:

1 Análise Exploratória de Dados

2 Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x quantis. Trabalhar os exemplos computacionais do livro-texto (páginas 93 e 94) que envolvem uma análise bivariada de variáveis dos arquivos dados9bm.txt (mercado) e dados7bm.txt (veículos).

3 Gráfico quantis x quantis Suponha dados os valores da variável X e valores da variável Y, todos medidos pela mesma unidade. Por exemplo, notas parciais de uma disciplina, ou temperaturas de duas cidades, ou porcenta- gens da renda familiar gastas com saúde e educação.

4 Gráfico quantis x quantis (1) O gráfico qxq é um gráfico dos quantis da variável X contra os quantis da variável Y. Se m=n o gráfico qxq é um gráfico dos dados ordenados de X contra os dados ordenados de Y. Se as distribuições dos dois conjuntos de dados fossem idênticas, os pontos estariam sobre a reta y=x.

5 Gráfico quantis x quantis (2) Enquanto que um gráfico de dispersão fornece uma possível relação global entre as variáveis, o gráfico qxq mostra se valores pequenos de X estão relacionados com valores pequenos de Y, se valores intermediários de X estão relacionados com valores intermediários de Y, se valores grandes de X estão relacionados com valores grandes de Y.

6 Gráfico quantis x quantis (3) Num gráfico de dispersão, podemos ter x 1 y 2. Num gráfico qxq, não é possível ter x 1 y 2, pois os valores em ambos os eixos estão ordenados, do menor para o maior.

7 Exemplo 1 Na tabela a seguir temos as notas de 20 alunos em duas provas de Estatística. alunoP1P2 18.58.0 23.52.8 37.26.5 45.56.2 59.59.0 67.07.5 74.85.2 86.67.2 92.54.0 107.06.8 117.46.5 125.65.0 136.36.5 143.03.0 158.19.0 163.84.0 176.85.5 1810.010.0 194.55.5 205.95.0 Estes dados estão arquivados em notasEst.txt.

8 Exemplo 1 (cont) Comando que constrói o gráfico de quantis no R, após ler os dados: qqplot(dados$P1,dados$P2,main=“ Gráfico qxq para as notas em duas provas de Estatística”,xlab=“Quantis da primeira prova”, ylab=“Quantis da segunda prova”) Para inserir no gráfico a reta y=x, acrescente abline(0,1) # o primeiro número indica o coeficiente linear da reta desejada e, o segundo, o coeficiente angular.

9

10 Exemplo 1: (cont.) Do gráfico de quantis, podemos perceber que as notas em Estatística das provas 1 e 2 tem distribuições muito parecidas, pois os pontos do qqplot estão muito próximos da reta y=x com desvios bem pequenos.

11 Exemplo 2: Dados: Temperaturas médias mensais em Ubatuba e Cananéia (SP) na base dados5bm.txt. Construa o gráfico qxq das temperaturas de Cananéia contra as de Ubatuba.

12

13 Exemplo 2: (cont.) Observe que a maior parte dos pontos está acima da reta y=x, mostrando que as temperaturas de Ubatuba são, em geral, maiores do que as de Cananéia, para valores maiores do que 17 graus. Obs.: Quando m  n, é necessário modificar os valores de p para os quantis da variável com maior número de pontos. O R aceita vetores de tamanhos diferentes para o qqplot.

14 Qqplot quando m  n Suponha n>m. Neste caso, usamos interpolação nos quantis da variável X para corresponder aos quantis da variável Y no gráfico, pois há menos observações na variável Y. Exemplo: Suponha n=40 e m=20.

15 Qqplot quando m  n (1) Neste caso, para cada valor ordenado de Y, correspondemos um valor médio dos valores ordenados de X.

16 Qqplot quando m  n (2) Mais geralmente, quando n>m correspondemos os quantis y (i) aos quantis de X: onde Se j for inteiro, fazemos o gráfico de y (i) versus x (j). Caso contrário, se j=k+r, onde k é inteiro e 0 { "@context": "http://schema.org", "@type": "ImageObject", "contentUrl": "http://images.slideplayer.com.br/10/2700949/slides/slide_16.jpg", "name": "Qqplot quando m  n (2) Mais geralmente, quando n>m correspondemos os quantis y (i) aos quantis de X: onde Se j for inteiro, fazemos o gráfico de y (i) versus x (j).", "description": "Caso contrário, se j=k+r, onde k é inteiro e 0

17 Exercício 34 do livro A 65 54 49 60 70 25 87 100 70 102 40 47 B 48 35 45 50 52 20 72 102 46 82 Faça o gráfico qxq para os dois conjuntos A e B abaixo: Observe que neste caso n=12 e m=10 Quantis de X cálculos

18 Exercício 34 do livro

19 Exemplo 3: Dados: salários em dados6bm.txt. Faça o gráfico qxq da variável salário de professor secundário contra salário de administrador. A variável nivelmedio da base representa os salários do professor de ensino médio. Faça comentários sobre a forma do gráfico obtido.

20

21 Comentário É possível perceber claramente, pelo gráfico qxq que os salários de professores do nível médio são menores do que os salários dos administradores.

22 Exemplos computacionais

23 Exemplo C1: Duas variáveis quantitativas Dados: mercado em dados9bm.txt Dispõe-se dos preços de fechamento diários de ações da telebrás (Y) e os índices IBOVESPA(X), de 2 de janeiro a 24 de fevereiro de 1995, num total de n= 39 observações. Construa o diagrama de dispersão destes dados.

24

25 Comentários A nuvem de pontos do diagrama de dispersão de IBOVESPA contra o preço das ações da Telebrás mostra que há forte correlação positiva entre estas variáveis. Represente no diagrama de dispersão obtido a reta de mínimos quadrados, onde IBOVESPA é a variável independente e preço das ações da Telebrás, a variável dependente.

26 Reta de mínimos quadrados

27 Correlação cor(dados$indice,dados$telebras) [1] 0.9818552

28 Reta de mínimos quadrados Coefficients: (Intercept) dados$indice -3.7588 0.8808 Modelo: Preco_Telebras=-3.7588+0.8808 x (IBOVESPA)

29 Valores ajustados versus resíduos

30 Exemplo C2: Dados sobre veículos em dados7bm.txt. Dispõe-se de preço, comprimento e a capacidade do motor de veículos vendido no Brasil em duas categorias: Nacional e Importado. Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos, indicando por N se o carro for nacional e I, caso contrário.

31 Exemplo C2: (cont.) Para a construção de tal diagrama de dispersão, vamos primeiramente ordenar a base de dados pela variável origem (nacional ou importado). dados<- read.table(“m:\\natalie\\aed\\dados7bm.txt”,header=T) indice<-order(dados$origem) table(dados$origem) dadosord<-dados[indice,]

32 Exemplo C2: (cont.) I N 12 18 Assim, em dadosord, as observações de 1 a 12 referem-se a veículos importados e de 13 a 30 referem-se a veículos nacionais.

33 Exemplo C2: (cont.) plot(dadosord$comprimento[13:30],dadosord$preco[13:3 0],pch="N",col="red",main="Gráfico de dispersão simbólico das variáveis comprimento e preco",sub="N: nacional, I:importado",ylab="preco",xlab="comprimento”, ylim=c(5000,39000),xlim=c(3,5)) points(dadosord$comprimento[1:12],dadosord$preco[1:1 2],pch="I",col="blue")

34

35 Motor e preço

36 Motor e comprimento

37 Origem versus outras variáveis Considere os pares de variáveis: origem e preço, origem e motor e, origem e comprimento. Há algum par de variáveis apresentando associação? Construa os boxplots por origem e da distribuição global. Calcule o R 2.

38

39

40 > aov(dados$preco~dados$origem) Call: aov(formula = dados$preco ~ dados$origem) Terms: dados$origem Residuals Sum of Squares 514601743 1648021011 Deg. of Freedom 1 28 Residual standard error: 7671.89 514601743/(514601743+1648021011) [1] 0.2379526 R.: Cerca de 24% da variação total de preço é explicada pela origem do veículo (nacional ou importado).

41

42

43 > aov(dados$comprimento~dados$origem) Call: aov(formula = dados$comprimento ~ dados$origem) Terms: dados$origem Residuals Sum of Squares 0.159609 3.750911 Deg. of Freedom 1 28 Residual standard error: 0.366007 > 0.159609/(0.159609+3.750911) [1] 0.04081529 R.: A origem explica apenas cerca de 4% da variação total devida ao comprimento.

44

45

46 > aov(dados$motor~dados$origem) Call: aov(formula = dados$motor ~ dados$origem) Terms: dados$origem Residuals Sum of Squares 164.356 21328.444 Deg. of Freedom 1 28 Residual standard error: 27.59946 > 164.356/(164.356+21328.444) [1] 0.007647026 R.: A origem explica apenas 0,7% da variação total de motor.

47 Comentário Das análises realizadas, podemos perceber que apenas o par origem e preço apresenta alguma associação com os preços mais altos para importados. A origem explica cerca de 24% da variação total de preço.

48 Qqplot

49 Exemplo C3 (Tabela de contingência) Referência: Moore, David S., and George P. McCabe (1989). Introduction to the Practice of Statistics. Original source: World Almanac and Book of Facts, 1986 Descrição: Nível de escolaridade de americanos por idade em 1984. As contagens estão em milhares de pessoas. Fonte: U.S. Bureau of the Census. Americanos de menos de 25 anos não foram incluídos porque muitos ainda não completaram sua formação educacional.

50 Exemplo C3 (Tabela de contingência)

51 Perfis-linha

52 Perfis-coluna O qui-quadrado desta tabela é alto: 22373.57 resultando num coeficiente de contingência de Pearson de 0.382194.

53 Funções do R usadas na aula de hoje: read.table qqplot lm abline plot points aov chisq.test


Carregar ppt "Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x."

Apresentações semelhantes


Anúncios Google