A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x.

Apresentações semelhantes


Apresentação em tema: "Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x."— Transcrição da apresentação:

1 Análise Exploratória de Dados

2 Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x quantis. Trabalhar os exemplos computacionais do livro-texto (páginas 93 e 94) que envolvem uma análise bivariada de variáveis dos arquivos dados9bm.txt (mercado) e dados7bm.txt (veículos).

3 Gráfico quantis x quantis Suponha dados os valores da variável X e valores da variável Y, todos medidos pela mesma unidade. Por exemplo, notas parciais de uma disciplina, ou temperaturas de duas cidades, ou porcenta- gens da renda familiar gastas com saúde e educação.

4 Gráfico quantis x quantis (1) O gráfico qxq é um gráfico dos quantis da variável X contra os quantis da variável Y. Se m=n o gráfico qxq é um gráfico dos dados ordenados de X contra os dados ordenados de Y. Se as distribuições dos dois conjuntos de dados fossem idênticas, os pontos estariam sobre a reta y=x.

5 Gráfico quantis x quantis (2) Enquanto que um gráfico de dispersão fornece uma possível relação global entre as variáveis, o gráfico qxq mostra se valores pequenos de X estão relacionados com valores pequenos de Y, se valores intermediários de X estão relacionados com valores intermediários de Y, se valores grandes de X estão relacionados com valores grandes de Y.

6 Gráfico quantis x quantis (3) Num gráfico de dispersão, podemos ter x 1 y 2. Num gráfico qxq, não é possível ter x 1 y 2, pois os valores em ambos os eixos estão ordenados, do menor para o maior.

7 Exemplo 1 Na tabela a seguir temos as notas de 20 alunos em duas provas de Estatística. alunoP1P Estes dados estão arquivados em notasEst.txt.

8 Exemplo 1 (cont) Comando que constrói o gráfico de quantis no R, após ler os dados: qqplot(dados$P1,dados$P2,main=“ Gráfico qxq para as notas em duas provas de Estatística”,xlab=“Quantis da primeira prova”, ylab=“Quantis da segunda prova”) Para inserir no gráfico a reta y=x, acrescente abline(0,1) # o primeiro número indica o coeficiente linear da reta desejada e, o segundo, o coeficiente angular.

9

10 Exemplo 1: (cont.) Do gráfico de quantis, podemos perceber que as notas em Estatística das provas 1 e 2 tem distribuições muito parecidas, pois os pontos do qqplot estão muito próximos da reta y=x com desvios bem pequenos.

11 Exemplo 2: Dados: Temperaturas médias mensais em Ubatuba e Cananéia (SP) na base dados5bm.txt. Construa o gráfico qxq das temperaturas de Cananéia contra as de Ubatuba.

12

13 Exemplo 2: (cont.) Observe que a maior parte dos pontos está acima da reta y=x, mostrando que as temperaturas de Ubatuba são, em geral, maiores do que as de Cananéia, para valores maiores do que 17 graus. Obs.: Quando m  n, é necessário modificar os valores de p para os quantis da variável com maior número de pontos. O R aceita vetores de tamanhos diferentes para o qqplot.

14 Qqplot quando m  n Suponha n>m. Neste caso, usamos interpolação nos quantis da variável X para corresponder aos quantis da variável Y no gráfico, pois há menos observações na variável Y. Exemplo: Suponha n=40 e m=20.

15 Qqplot quando m  n (1) Neste caso, para cada valor ordenado de Y, correspondemos um valor médio dos valores ordenados de X.

16 Qqplot quando m  n (2) Mais geralmente, quando n>m correspondemos os quantis y (i) aos quantis de X: onde Se j for inteiro, fazemos o gráfico de y (i) versus x (j). Caso contrário, se j=k+r, onde k é inteiro e 0

17 Exercício 34 do livro A B Faça o gráfico qxq para os dois conjuntos A e B abaixo: Observe que neste caso n=12 e m=10 Quantis de X cálculos

18 Exercício 34 do livro

19 Exemplo 3: Dados: salários em dados6bm.txt. Faça o gráfico qxq da variável salário de professor secundário contra salário de administrador. A variável nivelmedio da base representa os salários do professor de ensino médio. Faça comentários sobre a forma do gráfico obtido.

20

21 Comentário É possível perceber claramente, pelo gráfico qxq que os salários de professores do nível médio são menores do que os salários dos administradores.

22 Exemplos computacionais

23 Exemplo C1: Duas variáveis quantitativas Dados: mercado em dados9bm.txt Dispõe-se dos preços de fechamento diários de ações da telebrás (Y) e os índices IBOVESPA(X), de 2 de janeiro a 24 de fevereiro de 1995, num total de n= 39 observações. Construa o diagrama de dispersão destes dados.

24

25 Comentários A nuvem de pontos do diagrama de dispersão de IBOVESPA contra o preço das ações da Telebrás mostra que há forte correlação positiva entre estas variáveis. Represente no diagrama de dispersão obtido a reta de mínimos quadrados, onde IBOVESPA é a variável independente e preço das ações da Telebrás, a variável dependente.

26 Reta de mínimos quadrados

27 Correlação cor(dados$indice,dados$telebras) [1]

28 Reta de mínimos quadrados Coefficients: (Intercept) dados$indice Modelo: Preco_Telebras= x (IBOVESPA)

29 Valores ajustados versus resíduos

30 Exemplo C2: Dados sobre veículos em dados7bm.txt. Dispõe-se de preço, comprimento e a capacidade do motor de veículos vendido no Brasil em duas categorias: Nacional e Importado. Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos, indicando por N se o carro for nacional e I, caso contrário.

31 Exemplo C2: (cont.) Para a construção de tal diagrama de dispersão, vamos primeiramente ordenar a base de dados pela variável origem (nacional ou importado). dados<- read.table(“m:\\natalie\\aed\\dados7bm.txt”,header=T) indice<-order(dados$origem) table(dados$origem) dadosord<-dados[indice,]

32 Exemplo C2: (cont.) I N Assim, em dadosord, as observações de 1 a 12 referem-se a veículos importados e de 13 a 30 referem-se a veículos nacionais.

33 Exemplo C2: (cont.) plot(dadosord$comprimento[13:30],dadosord$preco[13:3 0],pch="N",col="red",main="Gráfico de dispersão simbólico das variáveis comprimento e preco",sub="N: nacional, I:importado",ylab="preco",xlab="comprimento”, ylim=c(5000,39000),xlim=c(3,5)) points(dadosord$comprimento[1:12],dadosord$preco[1:1 2],pch="I",col="blue")

34

35 Motor e preço

36 Motor e comprimento

37 Origem versus outras variáveis Considere os pares de variáveis: origem e preço, origem e motor e, origem e comprimento. Há algum par de variáveis apresentando associação? Construa os boxplots por origem e da distribuição global. Calcule o R 2.

38

39

40 > aov(dados$preco~dados$origem) Call: aov(formula = dados$preco ~ dados$origem) Terms: dados$origem Residuals Sum of Squares Deg. of Freedom 1 28 Residual standard error: /( ) [1] R.: Cerca de 24% da variação total de preço é explicada pela origem do veículo (nacional ou importado).

41

42

43 > aov(dados$comprimento~dados$origem) Call: aov(formula = dados$comprimento ~ dados$origem) Terms: dados$origem Residuals Sum of Squares Deg. of Freedom 1 28 Residual standard error: > /( ) [1] R.: A origem explica apenas cerca de 4% da variação total devida ao comprimento.

44

45

46 > aov(dados$motor~dados$origem) Call: aov(formula = dados$motor ~ dados$origem) Terms: dados$origem Residuals Sum of Squares Deg. of Freedom 1 28 Residual standard error: > /( ) [1] R.: A origem explica apenas 0,7% da variação total de motor.

47 Comentário Das análises realizadas, podemos perceber que apenas o par origem e preço apresenta alguma associação com os preços mais altos para importados. A origem explica cerca de 24% da variação total de preço.

48 Qqplot

49 Exemplo C3 (Tabela de contingência) Referência: Moore, David S., and George P. McCabe (1989). Introduction to the Practice of Statistics. Original source: World Almanac and Book of Facts, 1986 Descrição: Nível de escolaridade de americanos por idade em As contagens estão em milhares de pessoas. Fonte: U.S. Bureau of the Census. Americanos de menos de 25 anos não foram incluídos porque muitos ainda não completaram sua formação educacional.

50 Exemplo C3 (Tabela de contingência)

51 Perfis-linha

52 Perfis-coluna O qui-quadrado desta tabela é alto: resultando num coeficiente de contingência de Pearson de

53 Funções do R usadas na aula de hoje: read.table qqplot lm abline plot points aov chisq.test


Carregar ppt "Análise Exploratória de Dados. Objetivos Apresentar outra possibilidade de representação gráfica para duas variáveis quantitativas: gráfico quantis x."

Apresentações semelhantes


Anúncios Google