Carregar apresentação
A apresentação está carregando. Por favor, espere
1
Análise Exploratória de Dados
Box - Plot
2
Exercício: Emissão de Dióxido de Carbono
Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.
3
Exercício: Emissão de Dióxido de Carbono
dados<-read.table(”m:\\aulas\\natalie\\aed\\dados13bm.txt",header=T) names(dados) [1] "pais" "emissao" quantile(dados$emissao,c(0.25,0.5,0.75)) 25% 50% 75% quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9)) 10% 20% 30% 40% 50% 60% 70% 80% 90%
4
Exercício: Emissão de Dióxido de Carbono
> mean(dados$emissao) [1] > sd(dados$emissao) [1] A mediana é e portanto, o coeficiente de assimetria de Pearson, dado por (3*(média-mediana))/desvio-padrão, é aproximadamente 1.35>0.
5
Dados em histograma das emissões
Fazendo hist1<-hist(dados$emissao), podemos listar as informações usadas na construção do histograma. $breaks [1] $counts [1] $mids [1] round(histEmissao$counts/72,digits=2) # freqüências relativas [1] # freqüências relativas acumuladas
6
Histograma das emissões
7
Tabela usada para o histograma
9
Esquema dos cinco números
É uma lista de informações da distribuição que inclui cinco medidas, a saber, x(1), Q1, Q2, Q3 e x(n). Estes cinco valores são importantes para se ter uma boa idéia da assimetria dos dados.
10
Esquema dos cinco números
Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter: (a) Q2- x(1) x(n)-Q2; (b) Q2-Q1 Q3-Q2; (c) Q1- x(1) x(n)-Q3; (d) distâncias entre mediana e Q1, Q menores do que distâncias entre os extremos e Q1, Q3.
12
Comandos summary() e fivenum()
O R possui uma função que retorna as informações do esquema dos cinco números: fivenum(x), se x é o vetor que contém os dados. Exemplo: x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10) fivenum(x) [1]
13
Comandos summary() e fivenum()
summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max O comando summary(x), quando x é um vetor numérico, produz as informações do esquema dos cinco números e a média.
14
Desenho Esquemático (Box Plots)
A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama, conhecido como box plot. A figura a seguir, ilustra o boxplot.
16
Boxplot O retângulo no boxplot é traçado de tal maneira que as bases menores têm alturas correspondentes aos primeiro e terceiro quartis da distribuição. O retângulo é cortado por um segmento paralelo às bases, na altura correspondente ao segundo quartil. Assim, o retângulo do boxplot corresponde aos 50% valores centrais da distribuição.
18
Cosntruindo o boxplot Depois de desenhado o retângulo, traça-se um segmento paralelo ao eixo, partindo do ponto médio da base superior do retângulo até o maior valor observado que NÃO supera o valor de Q3+(1,5)*IIQ. O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-(1,5)*IIQ.
19
Fechando o boxplot As observações que estiverem acima de Q3+(1,5)*IIQ ou abaixo de Q1-(1,5)*IIQ são chamadas pontos exteriores e representadas por asteriscos. Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos ou valores extremos.
21
Observações Não necessariamente haverá a presença de pontos exteriores num boxplot. Quando for este o caso, o esquema terá a seguinte aparência:
22
A função boxplot no R Experimente pedir ao R para construir um boxplot dos dados sobre emissões de dióxido de carbono: boxplot(dados$emissao)
24
Alguns argumentos da função boxplot
Observação: é possível construir vários boxplot na mesma função. boxwex: controla a largura dos retângulos no boxplot. O default é 0.8. outline: valor lógico. Se T, os pontos exteriores são assinalados (default). Se F, os pontos exteriores não são assinalados
25
Exemplo 1 Vamos trabalhar com os dados sobre salários para diferentes profissões/formações do conjunto dados6bm.txt. dados<-read.table(“m:\\aed\\dados6bm.txt”,header=T) Há quatro profissões diferentes, a saber, nivelmedio, mecanico, administrador, engeletrico. boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c(“nivel medio”,”mecanico”,”administrador”,”eng.eletrico”))
27
Cores col - cor de preenchimento dos retângulos
28
Boxplots horizontais horizontal - valor lógico, se T o boxplot fica na posição horizontal. Se F (default) fica na posição vertical.
29
Outros argumentos ylim: controla a escala de valores main: título
sub: sub-título names: vetor com os rótulos dos conjuntos de dados, quando são pedidos mais de um boxplot. pch: específica o caracter a ser usado nos pontos exteriores. Ex.: pch=“*”.
30
Exemplo 2 No domingo, dia 4 de abril de 2004, o jornal O Globo publicou uma reportagem sobre o dinheiro da União disponível para investimentos nas prefeituras em 2004. Nesta reportagem, foram publicados os dados sobre 25 capitais, os partidos dos prefeitos destas capitais, o número de habitantes e o total em reais disponível.
31
Exemplo 2 Estes dados foram armazenados no arquivo dadosaula6.txt com o número de habitantes em milhares e o investimento em milhares de reais. Os nomes atribuídos às variáveis foram: cidade, partido, hab1000 e invest1000.
32
Exemplo 2 Construa o boxplot dos investimentos.
dados<-read.table("c:\\flavia\\aed\\dadosaula6.txt",header=T) Construa o boxplot dos investimentos.
34
Construa também um boxplot do número de habitantes.
35
Olhando apenas para a relação investimento sobre número de
habitantes, sem levar em conta outros fatores, você diria que foi justa esta distribuição?
36
O título da reportagem no jornal foi Aos amigos, mais da
metade. Você concorda com este título? Por que? Ordenando os dados por partido: indice<-order(dados$partido) dadosord<-dados[indice,]
37
Depois de ordenar os dados por partido em dadosord,
é possível ver que de 1 a 17 tem-se outros partidos e de 18 a 25 tem-se o PT.
38
resumo<-matrix(0,2) #variável que vai receber o total
# de investimentos, na posição 1: outros partidos # na posição 2: PT resumo[1]<-sum(dadosord$invest1000[1:17]) resumo[2]<-sum(dadosord$invest1000[18:25]) total<-resumo[1]+resumo[2] parcial<-matrix(0,2) parcial<-resumo/total
39
Resultado parcial [1]
41
Exemplo 3 Voltemos aos dados sobre temperaturas médias mensais.
Lembre-se da última atividade sugerida na aula 5 do LIG. Com as temperaturas médias mensais, separadas mês a mês, para cada cidade, construa boxplots para analisar o comportamento das mesmas, para cada cidade.
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.