A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise Exploratória de Dados - 2006 R - LIG -07.

Apresentações semelhantes


Apresentação em tema: "Análise Exploratória de Dados - 2006 R - LIG -07."— Transcrição da apresentação:

1 Análise Exploratória de Dados R - LIG -07

2 summary(notas) Min. 1st Qu. Median Mean 3rd Qu. Max Resultados da Prova 1 turma MAA: 20 alunos

3 Resultados da Prova 1 turma MAA: 38 alunos Min. 1,8 Q1 5,35 Q2 6,75 Q3 8,075 Max. 9,5 Média 6,45 Desvio-padrão 2,13

4 Objetivos Definir e construir gráficos de quantis. Definir e construir gráficos de quantis. Trabalhar com transformações de variáveis buscando simetrizar os dados. Trabalhar com transformações de variáveis buscando simetrizar os dados. Definir medidas de assimetria. Definir medidas de assimetria.

5 Gráficos de quantis É possível construir uma representação gráfica dos quantis de uma distribuição de freqüências, chamada gráfico de quantis. É possível construir uma representação gráfica dos quantis de uma distribuição de freqüências, chamada gráfico de quantis. No eixo das abscissas colocamos os valores de p e no eixo das ordenadas os valores de q(p). No eixo das abscissas colocamos os valores de p e no eixo das ordenadas os valores de q(p). Depois, unimos os pontos obtidos por segmentos de retas, para que se possa obter q(p) para todo p. Depois, unimos os pontos obtidos por segmentos de retas, para que se possa obter q(p) para todo p.

6 Gráficos de quantis: exemplo Considere os dados sobre os 30 municípios mais populosos do Brasil em dados2bm.txt. Considere os dados sobre os 30 municípios mais populosos do Brasil em dados2bm.txt. dados=read.table(http://www.im.ufrj.br/~flavia/ aed06/dados2bm.txt,header=T) dados=read.table(http://www.im.ufrj.br/~flavia/ aed06/dados2bm.txt,header=T) Defina o vetor de valores de p da seguinte forma: Defina o vetor de valores de p da seguinte forma: prop=c(0:10) prop=c(0:10) prop=prop/10 prop=prop/10

7 Gráficos de quantis: exemplo Calcule os quantis correspondentes aos valores em prop para os tamanhos das populações: Calcule os quantis correspondentes aos valores em prop para os tamanhos das populações: quantis=quantile(dados$pop10mil,prop) quantis=quantile(dados$pop10mil,prop) Finalmente, trace o gráfico usando a função plot: Finalmente, trace o gráfico usando a função plot: plot(prop,quantis,main=Gráfico de quantis dos dados sobre população,sub=30 maiores municípios brasileiros) plot(prop,quantis,main=Gráfico de quantis dos dados sobre população,sub=30 maiores municípios brasileiros)

8 volta

9 Para que os pontos sejam unidos por segmentos, insira o argumento type=l na função plot.

10 Para que ambos pontos e linhas entre pontos apareçam no gráfico, insira o argumento type=b na função plot.

11 Gráficos de quantis (cont.) O gráfico de quantis pode ser útil para verificar se a distribuição dos dados é simétrica (ou aproximadamente simétrica). O gráfico de quantis pode ser útil para verificar se a distribuição dos dados é simétrica (ou aproximadamente simétrica). Se os dados forem aproximadamente simétricos, os pontos no topo superior direito do gráfico de quantis comportam- se como os pontos do canto inferior esquerdo. Se os dados forem aproximadamente simétricos, os pontos no topo superior direito do gráfico de quantis comportam- se como os pontos do canto inferior esquerdo.

12 Gráficos de quantis (cont.) Se os dados forem assimétricos à direita, os pontos do topo superior direito são mais inclinados do que os pontos no canto inferior esquerdo. Se os dados forem assimétricos à direita, os pontos do topo superior direito são mais inclinados do que os pontos no canto inferior esquerdo. No exemplo anterior, claramente percebemos uma assimetria positiva. No exemplo anterior, claramente percebemos uma assimetria positiva.

13 Gráficos de quantis: exemplo Vejamos um exemplo com dados aproximadamente simétricos. Vejamos um exemplo com dados aproximadamente simétricos. source(http://www.im.ufrj.br/~flavia/aed 06/exemplo2a7.txt) source(http://www.im.ufrj.br/~flavia/aed 06/exemplo2a7.txt) volta

14 Gráficos de quantis: exemplo Vejamos um exemplo de conjunto de dados com assimetria negativa. Vejamos um exemplo de conjunto de dados com assimetria negativa. source(http://www.im.ufrj.br/~flavia/aed 06/exemplo3a7.txt) source(http://www.im.ufrj.br/~flavia/aed 06/exemplo3a7.txt) volta

15 Exercício 1 Construa o gráfico de quantis, para os dados do exemplo 13: emissão de dióxido de Carbono. Construa o gráfico de quantis, para os dados do exemplo 13: emissão de dióxido de Carbono. volta

16 Transformações Diversas técnicas estatísticas são baseadas na suposição de que os dados provêm de uma distribuição normal ou, pelo menos, aproximadamente simétrica. Diversas técnicas estatísticas são baseadas na suposição de que os dados provêm de uma distribuição normal ou, pelo menos, aproximadamente simétrica.

17

18 Transformações Porém, em muitas situações, os dados em que estamos interessados apresentam assimetria e/ou podem conter valores atípicos. Porém, em muitas situações, os dados em que estamos interessados apresentam assimetria e/ou podem conter valores atípicos.

19

20 Transformações (cont.) Existem métodos estatísticos que são desenvolvidos para dados não normais. Existem métodos estatísticos que são desenvolvidos para dados não normais. Porém, se quisermos utilizar algum método para dados normais, quando os dados não parecem ter esse tipo de comportamento, o que se pode fazer é uma transformação desses dados visando a simetrização. Porém, se quisermos utilizar algum método para dados normais, quando os dados não parecem ter esse tipo de comportamento, o que se pode fazer é uma transformação desses dados visando a simetrização.

21 Transformações (cont.) Uma família de transformações freqüentemente explorada é Uma família de transformações freqüentemente explorada é Normalmente, o que se faz é experimentar valores de p na seqüência...,-3,-2,-1,-1/2,-1/3,-1/4,0,1/4, 1/3,1/2,1,2,3,...

22 Transformações (cont.) Para cada valor de p construímos gráficos apropriados (histogramas, boxplots, quantis,...) para os dados originais e transformados, de forma a poder escolher o valor de p apropriado. Para cada valor de p construímos gráficos apropriados (histogramas, boxplots, quantis,...) para os dados originais e transformados, de forma a poder escolher o valor de p apropriado. Para dados positivos, a distribuição é geralmente assimétrica à direita. Para dados positivos, a distribuição é geralmente assimétrica à direita.

23 Transformações (cont.) Para essas distribuições, a transformação sugerida com 0

24 Dados sobre emissão de dióxido de carbono Vimos que a distribuição das emissões de dióxido de carbono é bastante assimétrica à direita. Vimos que a distribuição das emissões de dióxido de carbono é bastante assimétrica à direita. Proponha uma distribuição que torne os dados aproximadamente simétricos. Proponha uma distribuição que torne os dados aproximadamente simétricos.

25 Continuação do exemplo Pela sugestão anterior, devemos buscar por um valor de p que esteja entre 0 e 1. Aqui, teríamos problema com a transformação logarítmica, pois há uma observação com emissão 0. Na figura a seguir, foi solicitado um boxplot para valores de p que variaram da seguinte forma: 1/2,1/3,1/4,1/5, 1/6 e 1/7.

26

27 Continuação do exemplo É possível verificar, a partir da figura anterior, que os valores de p entre 1/5 e ¼ são os que resultaram numa distribuição aproximadamente simétrica. É possível verificar, a partir da figura anterior, que os valores de p entre 1/5 e ¼ são os que resultaram numa distribuição aproximadamente simétrica. Podemos continuar e escolher um valor de p entre 1/5 e ¼, por exemplo, (1/5+1/4)/2. Podemos continuar e escolher um valor de p entre 1/5 e ¼, por exemplo, (1/5+1/4)/2.

28

29

30 Exercício 2 Analise a distribuição dos dados sobre notas em Estatística (dados3bm.txt) quanto à assimetria, construindo um gráfico de quantis para estes dados. Analise a distribuição dos dados sobre notas em Estatística (dados3bm.txt) quanto à assimetria, construindo um gráfico de quantis para estes dados.

31

32 Exercício 2 (conclusão) Pelo gráfico de quantis dos dados sobre notas em Estatística, podemos perceber que a distribuição é aproximadamente simétrica. Pelo gráfico de quantis dos dados sobre notas em Estatística, podemos perceber que a distribuição é aproximadamente simétrica. Isto pode ser confirmado pelo boxplot e pelo histograma das notas. Isto pode ser confirmado pelo boxplot e pelo histograma das notas.

33

34 Exercício 3 Análise a forma da distribuição da variável densidade demográfica em dados sobre o Brasil (dados1bm.txt). Análise a forma da distribuição da variável densidade demográfica em dados sobre o Brasil (dados1bm.txt). Proponha uma transformação buscando tornar a distribuição aproximadamente simétrica. Proponha uma transformação buscando tornar a distribuição aproximadamente simétrica.

35 Exercicio 3(cont.) Construindo o boxplot de densidade demográfica, percebe-se, claramente, forte assimetria positiva. Construindo o boxplot de densidade demográfica, percebe-se, claramente, forte assimetria positiva.

36 Transformações Como os dados são todos positivos, podemos começar tentando a transformação logarítmica. Como os dados são todos positivos, podemos começar tentando a transformação logarítmica. boxplot(log(dados$dd)) boxplot(log(dados$dd))

37

38

39 Exercício 4 Trabalhe com a base de dados sobre veículos. Trabalhe com a base de dados sobre veículos. Para cada variável entre preço, tamanho e motor, analise as distribuições quanto à assimetria. Para cada variável entre preço, tamanho e motor, analise as distribuições quanto à assimetria. Nos casos onde há assimetria, proponha, se possível, uma transformação de simetrização. Nos casos onde há assimetria, proponha, se possível, uma transformação de simetrização.

40 Leitura e organização dos dados dados=read.table(http://www.im.ufrj.br/~flavia/aed06/da dos7bm.txt,header=T) dados=read.table(http://www.im.ufrj.br/~flavia/aed06/da dos7bm.txt,header=T)

41 Continuação É possível verificar que a distribuição da variável preço apresenta assimetria positiva. É possível verificar que a distribuição da variável preço apresenta assimetria positiva. Tente a transformação logarítmica, pois os preços são todos positivos. Tente a transformação logarítmica, pois os preços são todos positivos.

42

43

44 Exercício 5 Considere a variável CO(gás carbônico nos dados sobre poluição (dados4bm.txt). Considere a variável CO(gás carbônico nos dados sobre poluição (dados4bm.txt). Calcule as principais medidas de posição e dispersão. Calcule as principais medidas de posição e dispersão. Construa um histograma, ramo-e- folhas e boxplot. Construa um histograma, ramo-e- folhas e boxplot. Comente sobre a forma da distribuição desta variável. Comente sobre a forma da distribuição desta variável.

45 dados=read.table(http://www.im.ufrj.br/~flavia/ aed06/dados4bm.txt",header=T) names(dados) [1] "data" "CO" "O3" "temp" "umid" summary(dados$CO) Min. 1st Qu. Median Mean 3rd Qu. Max sd(dados$CO)[1] range(dados$CO)[1] IQR(dados$CO)[1] 1.725

46

47

48 4 | 77 5 | 12 5 | | | | | | | | | | | 8 11 | 4 11 | | 0 12 | 5 Ramo-e-folhas

49

50 Forma da distribuição Os dados apresentam assimetria positiva não muito acentuada. Os dados apresentam assimetria positiva não muito acentuada. Verifique como fica a distribuição na escala logarítmica desta variável. Verifique como fica a distribuição na escala logarítmica desta variável. Repita esta análise uni-variada para as outras variáveis dos dados sobre poluição (ozônio, umidade, temperatura). Repita esta análise uni-variada para as outras variáveis dos dados sobre poluição (ozônio, umidade, temperatura).

51 Medidas de assimetria 1. Coeficiente de assimetria de Pearson: média desvio-padrão mediana

52 Medidas de assimetria Uma outra media de assimetria é dada por: Uma outra media de assimetria é dada por: o mesmo vale para sk P

53 Calcular as medidas de assimetria para os exemplos trabalhados no início da aula Exemplo 1: dados sobre as populações dos 30 maiores municípios brasileiros. Exemplo 1: dados sobre as populações dos 30 maiores municípios brasileiros. > skp=3*(mean(dados[,2])-median(dados[,2]))/sd(dados[,2]) > skp [1]

54 continuação scubo=0 for (i in 1:30){scubo=scubo+(dados[i,2]-mean(dados[,2]))^3} > scubo=scubo/30 > sk=scubo/(sd(dados[,2])^3) > sk [1] Como confirmado, ambas apresentam valor maior que zero indicando assimetria à direita. Fig. Ex1.

55 Exemplo 2: Lembre que o segundo exemplo ilustrou dados simétricos gerados artificialmente no vetor x. (exemplo2a7.txt) Lembre que o segundo exemplo ilustrou dados simétricos gerados artificialmente no vetor x. (exemplo2a7.txt) > skp=3*(mean(x)-median(x))/sd(x) > skp [1] > scubo=0 > for (i in 1:1000){scubo=scubo+(x[i]-mean(x))^3} > scubo=scubo/n > sk=scubo/(sd(x)^3) > sk [1] Conforme o esperado, ambos são aproximadamente zero. Fig. Ex2.

56 Exemplo 3: O terceiro exemplo ilustrou dados com assimetria negativa gerados artificialmente no vetor x. (exemplo3a7.txt) O terceiro exemplo ilustrou dados com assimetria negativa gerados artificialmente no vetor x. (exemplo3a7.txt) Conforme o esperado, ambos são menores que zero. skp=3*(mean(x)-median(x))/sd(x) > skp [1] > scubo=0 > for (i in 1:100){scubo=scubo+(x[i]-mean(x))^3} > scubo=scubo/100 > sk=scubo/(sd(x)^3) > sk [1] Fig. Ex3Fig. Ex3.

57 Exemplo 4: medidas de assimetria para emissões de dióxido de carbono > x=dados$emissao > skp=3*(mean(x)-median(x))/sd(x) > skp [1] > scubo=0 > for (i in 1:72){scubo=scubo+(x[i]- mean(x))^3} > scubo=scubo/72 > sk=scubo/(sd(x)^3) > sk [1] Como esperado, ambos são maiores que zero. Figura ex4.

58 Medidas de achatamento ou curtose Na figura a seguir temos duas distribuições de freqüências com mesma média, mesma variância e simétricas.

59 Apesar das distribuições apresentarem a mesma média, mesma variância e simetria, verifica-se que na vizinhança da média elas diferem quanto às freqüências, uma distribuição apresentando valores maiores. Dizemos que essas distribuições diferem quanto a um novo aspecto conhecido como achatamento ou curtose.

60 Medida de curtose Uma medida usada para avaliar o grau de achatamento de uma distribuição de freqüências é dada por: Uma medida usada para avaliar o grau de achatamento de uma distribuição de freqüências é dada por:

61 Medida de curtose Se k=3, dizemos que a distribuição é mesocúrtica. Se k=3, dizemos que a distribuição é mesocúrtica. Se k<3, dizemos que a distribuição é platicúrtica (mais achatada). Se k<3, dizemos que a distribuição é platicúrtica (mais achatada). Se k>3, dizemos que a distribuição é leptocúrtica. Se k>3, dizemos que a distribuição é leptocúrtica.

62 Exemplo: Calcular a medida de curtose para os dados sobre emissões. s4=0 for (i in 1:72){s4=s4+(dados$emissao[i]-mean(dados$emissao))^4} s4=s4/72 k=s4/(sd(dados$emissao)^4) k Como k>3, temos uma distribuição leptocúrtica.

63

64 A curtose para dados provenientes de uma distribuição normal (curva em forma de sino) é aproximadamente igual a 3, pois a Curtose de uma distribuição normal é 3. Uma distribuição normal é a referência para uma distribuição mesocúrtica.


Carregar ppt "Análise Exploratória de Dados - 2006 R - LIG -07."

Apresentações semelhantes


Anúncios Google