A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das.

Apresentações semelhantes


Apresentação em tema: "Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das."— Transcrição da apresentação:

1 Box - Plot Análise Exploratória de Dados

2 Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.

3 Exercício: Emissão de Dióxido de Carbono dados<- read.table(m:\\aulas\\natalie\\aed\\dados13bm.txt",head er=T) dados<- read.table(m:\\aulas\\natalie\\aed\\dados13bm.txt",head er=T) names(dados) [1] "pais" "emissao" names(dados) [1] "pais" "emissao" quantile(dados$emissao,c(0.25,0.5,0.75)) quantile(dados$emissao,c(0.25,0.5,0.75)) 25% 50% 75% % 50% 75% quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9)) quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9)) 10% 20% 30% 40% 50% 60% 70% 80% 90% % 20% 30% 40% 50% 60% 70% 80% 90%

4 Exercício: Emissão de Dióxido de Carbono > mean(dados$emissao) > mean(dados$emissao) [1] [1] > sd(dados$emissao) > sd(dados$emissao) [1] [1] A mediana é e portanto, o coeficiente de assimetria de Pearson, dado por ( 3*(média-mediana))/desvio-padrão, é aproximadamente 1.35>0. A mediana é e portanto, o coeficiente de assimetria de Pearson, dado por ( 3*(média-mediana))/desvio-padrão, é aproximadamente 1.35>0.

5 Dados em histograma das emissões $breaks [1] $counts [1] $mids [1] round(histEmissao$counts/72,digits=2) # freqüências relativas [1] # freqüências relativas acumuladas Fazendo hist1<-hist(dados$emissao), podemos listar as informações usadas na construção do histograma.

6 Histograma das emissões

7 Tabela usada para o histograma

8

9 Esquema dos cinco números É uma lista de informações da distribuição que inclui cinco medidas, a saber, x (1), Q1, Q2, Q3 e x (n). É uma lista de informações da distribuição que inclui cinco medidas, a saber, x (1), Q1, Q2, Q3 e x (n). Estes cinco valores são importantes para se ter uma boa idéia da assimetria dos dados. Estes cinco valores são importantes para se ter uma boa idéia da assimetria dos dados.

10 Esquema dos cinco números Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter: (a) Q2- x (1) x (n) -Q2; (b) Q2-Q1 Q3-Q2; (c) Q1- x (1) x (n) -Q3; (d) distâncias entre mediana e Q1, Q3 menores do que distâncias entre os extremos e Q1, Q3. Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter: (a) Q2- x (1) x (n) -Q2; (b) Q2-Q1 Q3-Q2; (c) Q1- x (1) x (n) -Q3; (d) distâncias entre mediana e Q1, Q3 menores do que distâncias entre os extremos e Q1, Q3.

11

12 Comandos summary() e fivenum() O R possui uma função que retorna as informações do esquema dos cinco números: fivenum(x), se x é o vetor que contém os dados. O R possui uma função que retorna as informações do esquema dos cinco números: fivenum(x), se x é o vetor que contém os dados. Exemplo: Exemplo: x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10) x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10) fivenum(x) [1] fivenum(x) [1]

13 Comandos summary() e fivenum() summary(x) summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max Min. 1st Qu. Median Mean 3rd Qu. Max O comando summary(x), quando x é um vetor numérico, produz as informações do esquema dos cinco números e a média. O comando summary(x), quando x é um vetor numérico, produz as informações do esquema dos cinco números e a média.

14 Desenho Esquemático (Box Plots) A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama, conhecido como box plot. A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama, conhecido como box plot. A figura a seguir, ilustra o boxplot. A figura a seguir, ilustra o boxplot.

15

16 Boxplot O retângulo no boxplot é traçado de tal maneira que as bases menores têm alturas correspondentes aos primeiro e terceiro quartis da distribuição. O retângulo no boxplot é traçado de tal maneira que as bases menores têm alturas correspondentes aos primeiro e terceiro quartis da distribuição. O retângulo é cortado por um segmento paralelo às bases, na altura correspondente ao segundo quartil. O retângulo é cortado por um segmento paralelo às bases, na altura correspondente ao segundo quartil. Assim, o retângulo do boxplot corresponde aos 50% valores centrais da distribuição. Assim, o retângulo do boxplot corresponde aos 50% valores centrais da distribuição.

17

18 Cosntruindo o boxplot Depois de desenhado o retângulo, traça- se um segmento paralelo ao eixo, partindo do ponto médio da base superior do retângulo até o maior valor observado que NÃO supera o valor de Q3+(1,5)*IIQ. Depois de desenhado o retângulo, traça- se um segmento paralelo ao eixo, partindo do ponto médio da base superior do retângulo até o maior valor observado que NÃO supera o valor de Q3+(1,5)*IIQ. O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-(1,5)*IIQ. O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-(1,5)*IIQ.

19 Fechando o boxplot As observações que estiverem acima de Q3+(1,5)*IIQ ou abaixo de Q1-(1,5)*IIQ são chamadas pontos exteriores e representadas por asteriscos. As observações que estiverem acima de Q3+(1,5)*IIQ ou abaixo de Q1-(1,5)*IIQ são chamadas pontos exteriores e representadas por asteriscos. Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos ou valores extremos. Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos ou valores extremos.

20

21 Observações Não necessariamente haverá a presença de pontos exteriores num boxplot. Não necessariamente haverá a presença de pontos exteriores num boxplot. Quando for este o caso, o esquema terá a seguinte aparência: Quando for este o caso, o esquema terá a seguinte aparência:

22 A função boxplot no R Experimente pedir ao R para construir um boxplot dos dados sobre emissões de dióxido de carbono: boxplot(dados$emissao) Experimente pedir ao R para construir um boxplot dos dados sobre emissões de dióxido de carbono: boxplot(dados$emissao)

23

24 Alguns argumentos da função boxplot Observação: é possível construir vários boxplot na mesma função. Observação: é possível construir vários boxplot na mesma função. boxwex: controla a largura dos retângulos no boxplot. O default é 0.8. boxwex: controla a largura dos retângulos no boxplot. O default é 0.8. outline: valor lógico. Se T, os pontos exteriores são assinalados (default). Se F, os pontos exteriores não são assinalados outline: valor lógico. Se T, os pontos exteriores são assinalados (default). Se F, os pontos exteriores não são assinalados

25 Exemplo 1 Vamos trabalhar com os dados sobre salários para diferentes profissões/formações do conjunto dados6bm.txt. Vamos trabalhar com os dados sobre salários para diferentes profissões/formações do conjunto dados6bm.txt. dados<-read.table(m:\\aed\\dados6bm.txt,header=T) dados<-read.table(m:\\aed\\dados6bm.txt,header=T) Há quatro profissões diferentes, a saber, nivelmedio, mecanico, administrador, engeletrico. Há quatro profissões diferentes, a saber, nivelmedio, mecanico, administrador, engeletrico. boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c (nivel medio,mecanico,administrador,eng.eletrico)) boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c (nivel medio,mecanico,administrador,eng.eletrico))

26

27 Cores col - cor de preenchimento dos retângulos

28 Boxplots horizontais horizontal - valor lógico, se T o boxplot fica na posição horizontal. Se F (default) fica na posição vertical. horizontal - valor lógico, se T o boxplot fica na posição horizontal. Se F (default) fica na posição vertical.

29 Outros argumentos ylim: controla a escala de valores ylim: controla a escala de valores main: título main: título sub: sub-título sub: sub-título names: vetor com os rótulos dos conjuntos de dados, quando são pedidos mais de um boxplot. names: vetor com os rótulos dos conjuntos de dados, quando são pedidos mais de um boxplot. pch: específica o caracter a ser usado nos pontos exteriores. Ex.: pch=*. pch: específica o caracter a ser usado nos pontos exteriores. Ex.: pch=*.

30 Exemplo 2 No domingo, dia 4 de abril de 2004, o jornal O Globo publicou uma reportagem sobre o dinheiro da União disponível para investimentos nas prefeituras em No domingo, dia 4 de abril de 2004, o jornal O Globo publicou uma reportagem sobre o dinheiro da União disponível para investimentos nas prefeituras em Nesta reportagem, foram publicados os dados sobre 25 capitais, os partidos dos prefeitos destas capitais, o número de habitantes e o total em reais disponível. Nesta reportagem, foram publicados os dados sobre 25 capitais, os partidos dos prefeitos destas capitais, o número de habitantes e o total em reais disponível.

31 Exemplo 2 Estes dados foram armazenados no arquivo dadosaula6.txt com o número de habitantes em milhares e o investimento em milhares de reais. Estes dados foram armazenados no arquivo dadosaula6.txt com o número de habitantes em milhares e o investimento em milhares de reais. Os nomes atribuídos às variáveis foram: Os nomes atribuídos às variáveis foram: cidade, partido, hab1000 e invest1000.

32 Exemplo 2 dados<- read.table("c:\\flavia\\aed\\dadosaula6.txt",header=T) dados<- read.table("c:\\flavia\\aed\\dadosaula6.txt",header=T) Construa o boxplot dos investimentos. Construa o boxplot dos investimentos.

33

34 Construa também um boxplot do número de habitantes.

35 Olhando apenas para a relação investimento sobre número de habitantes, sem levar em conta outros fatores, você diria que foi justa esta distribuição?

36 O título da reportagem no jornal foi Aos amigos, mais da metade. Você concorda com este título? Por que? Ordenando os dados por partido: indice<-order(dados$partido) dadosord<-dados[indice,]

37 Depois de ordenar os dados por partido em dadosord, é possível ver que de 1 a 17 tem-se outros partidos e de 18 a 25 tem-se o PT.

38 resumo<-matrix(0,2) #variável que vai receber o total # de investimentos, na posição 1: outros partidos # na posição 2: PT resumo[1]<-sum(dadosord$invest1000[1:17]) resumo[2]<-sum(dadosord$invest1000[18:25]) total<-resumo[1]+resumo[2] parcial<-matrix(0,2) parcial<-resumo/total

39 Resultado parcial [1]

40

41 Exemplo 3 Voltemos aos dados sobre temperaturas médias mensais. Lembre-se da última atividade sugerida na aula 5 do LIG. Com as temperaturas médias mensais, separadas mês a mês, para cada cidade, construa boxplots para analisar o comportamento das mesmas, para cada cidade.

42

43


Carregar ppt "Box - Plot Análise Exploratória de Dados. Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das."

Apresentações semelhantes


Anúncios Google