A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise Exploratória de Dados

Apresentações semelhantes


Apresentação em tema: "Análise Exploratória de Dados"— Transcrição da apresentação:

1 Análise Exploratória de Dados
Box - Plot

2 Exercício: Emissão de Dióxido de Carbono
Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.

3 Exercício: Emissão de Dióxido de Carbono
dados<-read.table(”m:\\aulas\\natalie\\aed\\dados13bm.txt",header=T) names(dados) [1] "pais" "emissao" quantile(dados$emissao,c(0.25,0.5,0.75)) 25% 50% 75% quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9)) 10% 20% 30% 40% 50% 60% 70% 80% 90%

4 Exercício: Emissão de Dióxido de Carbono
> mean(dados$emissao) [1] > sd(dados$emissao) [1] A mediana é e portanto, o coeficiente de assimetria de Pearson, dado por (3*(média-mediana))/desvio-padrão, é aproximadamente 1.35>0.

5 Dados em histograma das emissões
Fazendo hist1<-hist(dados$emissao), podemos listar as informações usadas na construção do histograma. $breaks [1] $counts [1] $mids [1] round(histEmissao$counts/72,digits=2) # freqüências relativas [1] # freqüências relativas acumuladas

6 Histograma das emissões

7 Tabela usada para o histograma

8

9 Esquema dos cinco números
É uma lista de informações da distribuição que inclui cinco medidas, a saber, x(1), Q1, Q2, Q3 e x(n). Estes cinco valores são importantes para se ter uma boa idéia da assimetria dos dados.

10 Esquema dos cinco números
Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter: (a) Q2- x(1)  x(n)-Q2; (b) Q2-Q1  Q3-Q2; (c) Q1- x(1)  x(n)-Q3; (d) distâncias entre mediana e Q1, Q menores do que distâncias entre os extremos e Q1, Q3.

11

12 Comandos summary() e fivenum()
O R possui uma função que retorna as informações do esquema dos cinco números: fivenum(x), se x é o vetor que contém os dados. Exemplo: x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10) fivenum(x) [1]

13 Comandos summary() e fivenum()
summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max O comando summary(x), quando x é um vetor numérico, produz as informações do esquema dos cinco números e a média.

14 Desenho Esquemático (Box Plots)
A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama, conhecido como box plot. A figura a seguir, ilustra o boxplot.

15

16 Boxplot O retângulo no boxplot é traçado de tal maneira que as bases menores têm alturas correspondentes aos primeiro e terceiro quartis da distribuição. O retângulo é cortado por um segmento paralelo às bases, na altura correspondente ao segundo quartil. Assim, o retângulo do boxplot corresponde aos 50% valores centrais da distribuição.

17

18 Cosntruindo o boxplot Depois de desenhado o retângulo, traça-se um segmento paralelo ao eixo, partindo do ponto médio da base superior do retângulo até o maior valor observado que NÃO supera o valor de Q3+(1,5)*IIQ. O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-(1,5)*IIQ.

19 Fechando o boxplot As observações que estiverem acima de Q3+(1,5)*IIQ ou abaixo de Q1-(1,5)*IIQ são chamadas pontos exteriores e representadas por asteriscos. Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos ou valores extremos.

20

21 Observações Não necessariamente haverá a presença de pontos exteriores num boxplot. Quando for este o caso, o esquema terá a seguinte aparência:

22 A função boxplot no R Experimente pedir ao R para construir um boxplot dos dados sobre emissões de dióxido de carbono: boxplot(dados$emissao)

23

24 Alguns argumentos da função boxplot
Observação: é possível construir vários boxplot na mesma função. boxwex: controla a largura dos retângulos no boxplot. O default é 0.8. outline: valor lógico. Se T, os pontos exteriores são assinalados (default). Se F, os pontos exteriores não são assinalados

25 Exemplo 1 Vamos trabalhar com os dados sobre salários para diferentes profissões/formações do conjunto dados6bm.txt. dados<-read.table(“m:\\aed\\dados6bm.txt”,header=T) Há quatro profissões diferentes, a saber, nivelmedio, mecanico, administrador, engeletrico. boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c(“nivel medio”,”mecanico”,”administrador”,”eng.eletrico”))

26

27 Cores col - cor de preenchimento dos retângulos

28 Boxplots horizontais horizontal - valor lógico, se T o boxplot fica na posição horizontal. Se F (default) fica na posição vertical.

29 Outros argumentos ylim: controla a escala de valores main: título
sub: sub-título names: vetor com os rótulos dos conjuntos de dados, quando são pedidos mais de um boxplot. pch: específica o caracter a ser usado nos pontos exteriores. Ex.: pch=“*”.

30 Exemplo 2 No domingo, dia 4 de abril de 2004, o jornal O Globo publicou uma reportagem sobre o dinheiro da União disponível para investimentos nas prefeituras em 2004. Nesta reportagem, foram publicados os dados sobre 25 capitais, os partidos dos prefeitos destas capitais, o número de habitantes e o total em reais disponível.

31 Exemplo 2 Estes dados foram armazenados no arquivo dadosaula6.txt com o número de habitantes em milhares e o investimento em milhares de reais. Os nomes atribuídos às variáveis foram: cidade, partido, hab1000 e invest1000.

32 Exemplo 2 Construa o boxplot dos investimentos.
dados<-read.table("c:\\flavia\\aed\\dadosaula6.txt",header=T) Construa o boxplot dos investimentos.

33

34 Construa também um boxplot do número de habitantes.

35 Olhando apenas para a relação investimento sobre número de
habitantes, sem levar em conta outros fatores, você diria que foi justa esta distribuição?

36 O título da reportagem no jornal foi Aos amigos, mais da
metade. Você concorda com este título? Por que? Ordenando os dados por partido: indice<-order(dados$partido) dadosord<-dados[indice,]

37 Depois de ordenar os dados por partido em dadosord,
é possível ver que de 1 a 17 tem-se outros partidos e de 18 a 25 tem-se o PT.

38 resumo<-matrix(0,2) #variável que vai receber o total
# de investimentos, na posição 1: outros partidos # na posição 2: PT resumo[1]<-sum(dadosord$invest1000[1:17]) resumo[2]<-sum(dadosord$invest1000[18:25]) total<-resumo[1]+resumo[2] parcial<-matrix(0,2) parcial<-resumo/total

39 Resultado parcial [1]

40

41 Exemplo 3 Voltemos aos dados sobre temperaturas médias mensais.
Lembre-se da última atividade sugerida na aula 5 do LIG. Com as temperaturas médias mensais, separadas mês a mês, para cada cidade, construa boxplots para analisar o comportamento das mesmas, para cada cidade.

42

43


Carregar ppt "Análise Exploratória de Dados"

Apresentações semelhantes


Anúncios Google