A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

R – Medidas de Dispersão Análise Exploratória de Dados.

Apresentações semelhantes


Apresentação em tema: "R – Medidas de Dispersão Análise Exploratória de Dados."— Transcrição da apresentação:

1 R – Medidas de Dispersão Análise Exploratória de Dados

2 Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis, desvio-médio, variância e desvio- padrão. Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis, desvio-médio, variância e desvio- padrão. Definir e calcular o coeficiente de variação amostral. Definir e calcular o coeficiente de variação amostral. Definir e calcular quantis de uma distribuição de freqüências. Definir e calcular quantis de uma distribuição de freqüências.

3 Exemplo 1 Suponha que um grupo de 120 estudantes foi aleatoriamente distribuído em 6 grupos de 20. Suponha que um grupo de 120 estudantes foi aleatoriamente distribuído em 6 grupos de 20. Cada grupo recebeu um tipo de treinamento e depois todos foram submetidos a um mesmo teste. Cada grupo recebeu um tipo de treinamento e depois todos foram submetidos a um mesmo teste. Ao teste é atribuída uma nota de zero a 10. Ao teste é atribuída uma nota de zero a 10.

4 Exemplo 1 (continuação) Os dados (fictícios) com as notas dos testes para os seis grupos estão no arquivo notas.txt. Os dados (fictícios) com as notas dos testes para os seis grupos estão no arquivo notas.txt. notas<- read.table(m:\\natalie\\aed\\notas.txt) notas<- read.table(m:\\natalie\\aed\\notas.txt) names(notas)<-c(G1,G2,G3,G4,G5,G6) names(notas)<-c(G1,G2,G3,G4,G5,G6)

5 Exemplo 1 (continuação) Calcule a média e a mediana das notas para cada grupo. Calcule a média e a mediana das notas para cada grupo. É possível ver que todos os grupos apresentam a mesma média 5 e a mesma mediana 5. É possível ver que todos os grupos apresentam a mesma média 5 e a mesma mediana 5. Será que podemos afirmar que as performances foram iguais para os diferentes grupos? Será que podemos afirmar que as performances foram iguais para os diferentes grupos?

6 > mean(notas$G1) 5 > median(notas$G1) 5 > mean(notas$G2) 5 > median(notas$G2) 5 > mean(notas$G3) 5 > median(notas$G3) 5 > mean(notas$G4) 5 > median(notas$G4) 5 > mean(notas$G5) 5 > median(notas$G5) 5 > mean(notas$G6) 5 > median(notas$G6) 5

7 Dotchart das notas Para responder a pergunta anterior, podemos construir numa única janela os diagramas de pontos para observar os diferentes grupos. Para responder a pergunta anterior, podemos construir numa única janela os diagramas de pontos para observar os diferentes grupos. Obs.: As notas foram digitadas em ordem crescente. Obs.: As notas foram digitadas em ordem crescente. Para que todos os diagramas fiquem na mesma janela, podemos usar par(mfrow=c(2,3)) Para que todos os diagramas fiquem na mesma janela, podemos usar par(mfrow=c(2,3))

8 Dotchart das notas

9 Comparação Pela figura podemos ver que há diferenças entre os desempenhos dos diferentes grupos. Pela figura podemos ver que há diferenças entre os desempenhos dos diferentes grupos. Por exemplo, no grupo 1 não houve variação: todos os 20 estudantes obtiveram nota 5. Por exemplo, no grupo 1 não houve variação: todos os 20 estudantes obtiveram nota 5. Já no grupo 6, nenhum estudante obteve nota 5: ou as notas foram 1 e 2 ou 8 e 9. Já no grupo 6, nenhum estudante obteve nota 5: ou as notas foram 1 e 2 ou 8 e 9. Enfim, a partir deste exemplo, percebe-se a necessidade de outras medidas para caracterizar um conjunto de dados além de medidas tais como média e mediana. Enfim, a partir deste exemplo, percebe-se a necessidade de outras medidas para caracterizar um conjunto de dados além de medidas tais como média e mediana.

10 Medidas de Dispersão É necessário caracterizar o conjunto também usando medidas que avaliam a variabilidade dos dados no conjunto. É necessário caracterizar o conjunto também usando medidas que avaliam a variabilidade dos dados no conjunto. A seguir, apresentaremos algumas medidas de dispersão comuns. A seguir, apresentaremos algumas medidas de dispersão comuns.

11 Amplitude Amostral R A amplitude amostral é uma das medidas de dispersão mais simples. A amplitude amostral é uma das medidas de dispersão mais simples. É dada pela diferença entre os valores máximo e mínimo observados na amostra. É dada pela diferença entre os valores máximo e mínimo observados na amostra. Se x é o vetor que contém os dados, podemos calcular a amplitude amostral como amplitude<-max(x)-min(x). Se x é o vetor que contém os dados, podemos calcular a amplitude amostral como amplitude<-max(x)-min(x).

12 Amplitude amostral (continuação) Obtenha a amplitude amostral dos diferentes grupos. Obtenha a amplitude amostral dos diferentes grupos. É claro que no grupo 1 a amplitude amostral é zero. É claro que no grupo 1 a amplitude amostral é zero. Vemos que nos grupos 2, 4 e 6, a amplitude é 8; e nos grupos 3 e 5 são respectivamente 2 e 3. Vemos que nos grupos 2, 4 e 6, a amplitude é 8; e nos grupos 3 e 5 são respectivamente 2 e 3.

13 Desvantagens da amplitude amostral A grande desvantagem da amplitude amostral como medida para caracterizar a dispersão num conjunto de dados é que ela só leva em conta o mínimo e o máximo dos dados, ignorando todo o resto. A grande desvantagem da amplitude amostral como medida para caracterizar a dispersão num conjunto de dados é que ela só leva em conta o mínimo e o máximo dos dados, ignorando todo o resto. Observe que há diferenças nos grupos 2, 4 e 6. Porém, todos eles têm a mesma amplitude amostral. Observe que há diferenças nos grupos 2, 4 e 6. Porém, todos eles têm a mesma amplitude amostral.

14 Função range() Se x é um vetor numérico, a função range(x) retorna o valor mínimo e o valor máximo em x. Se x é um vetor numérico, a função range(x) retorna o valor mínimo e o valor máximo em x. Assim, range(x)[2]-range(x)[1] é equivalente à max(x)-min(x). Assim, range(x)[2]-range(x)[1] é equivalente à max(x)-min(x).

15 Intervalo Inter-Quartílico ou Distância entre quartis Uma medida de dispersão um pouco mais refinada que a amplitude amostral é a distância entre quartis (IIQ ou DEQ). Uma medida de dispersão um pouco mais refinada que a amplitude amostral é a distância entre quartis (IIQ ou DEQ). Depois de ordenada a amostra, divide-se ela em quatro partes de freqüência relativa ¼. Tomam-se então os valores que correspondem à freqüência relativa acumulada de ¼ e ¾, que são chamados respectivamente de primeiro e terceiro quartis (Q1 e Q3). Depois de ordenada a amostra, divide-se ela em quatro partes de freqüência relativa ¼. Tomam-se então os valores que correspondem à freqüência relativa acumulada de ¼ e ¾, que são chamados respectivamente de primeiro e terceiro quartis (Q1 e Q3).

16

17 Distância entre quartis IIQ=Q3-Q1 IIQ=Q3-Q1 No R, podemos calcular a distância entre quartis para um vetor de dados x da seguinte forma: No R, podemos calcular a distância entre quartis para um vetor de dados x da seguinte forma: iiq<-IQR(x) iiq<-IQR(x) Para as notas do exemplo temos os valores para as distâncias entre quartis dos grupos 1, 2, 3, 4, 5 e 6, respectivamente. Para as notas do exemplo temos os valores para as distâncias entre quartis dos grupos 1, 2, 3, 4, 5 e 6, respectivamente.

18 Distância entre quartis (continuação) Podemos ver que a distância entre quartis apresenta diferenças que não foram detectadas pela amplitude amostral entre os diferentes grupos. Podemos ver que a distância entre quartis apresenta diferenças que não foram detectadas pela amplitude amostral entre os diferentes grupos. Mas, esta medida, ainda tem a desvantagem de só levar em conta dois valores do conjunto, ignorando os extremos e o meio. Mas, esta medida, ainda tem a desvantagem de só levar em conta dois valores do conjunto, ignorando os extremos e o meio.

19 Função quantile(x,p) A função quantile(x,p) retorna o valor que na distribuição de freqüências tem freqüência relativa acumulada p, 0

20

21 Desvio médio É uma medida de dispersão que leva em conta todos os valores no conjunto de dados. É uma medida de dispersão que leva em conta todos os valores no conjunto de dados. Primeiro vamos definir desvio absoluto da média. Primeiro vamos definir desvio absoluto da média. Se x1,x2,...,xn são os valores observados no vetor x, um desvio absoluto da média é o módulo da diferença entre xi e mean(x): |xi-mean(x)| Se x1,x2,...,xn são os valores observados no vetor x, um desvio absoluto da média é o módulo da diferença entre xi e mean(x): |xi-mean(x)|

22 Desvio médio O desvio médio (dm) é definido como a média aritmética dos desvios absolutos da média no vetor x, isto é, dm=Soma |xi-mean(x)|/n. O desvio médio (dm) é definido como a média aritmética dos desvios absolutos da média no vetor x, isto é, dm=Soma |xi-mean(x)|/n. Para calcular os desvios médios das notas para os diferentes grupos podemos pedir Para calcular os desvios médios das notas para os diferentes grupos podemos pedir dms<-c(0,0,0,0,0,0) #define um vetor nulo com 6 posições for (i in 1:6){for (j in 1:20){ dms[i]<-dms[i]+abs(notas[j,i]-mean(notas[,i]))}} # armazena os totais dos desvios absolutos da média # correspondentes a cada grupo dms<-dms/20 #calcula a média

23 Desvio médio

24 Desvio médio (cont.) Os comandos foram armazenados no arquivo desviomedio.txt. Para calcular os desvios médios, digite: Os comandos foram armazenados no arquivo desviomedio.txt. Para calcular os desvios médios, digite: source(m:\\natalie\\aed\\desviomedio.txt) source(m:\\natalie\\aed\\desviomedio.txt) Depois peça para listar dms, o vetor que contém os desvios médios absolutos para os seis grupos. Depois peça para listar dms, o vetor que contém os desvios médios absolutos para os seis grupos.

25 Desvios médios no exemplo Para as notas nos seis grupos podemos ver que os desvios médios são, respectivamente, Para as notas nos seis grupos podemos ver que os desvios médios são, respectivamente,

26 Variância É a média dos desvios da média tomados ao quadrado. É a média dos desvios da média tomados ao quadrado. Veremos na disciplina Introdução à Estatística, que no caso particular da variância, é comum adotar o denominador da média em n-1. Veremos na disciplina Introdução à Estatística, que no caso particular da variância, é comum adotar o denominador da média em n-1. O R possui uma função própria para calcular a variância com denominador n-1 dada por var(x), se x é o vetor contendo os valores cuja variância está para ser calculada. O R possui uma função própria para calcular a variância com denominador n-1 dada por var(x), se x é o vetor contendo os valores cuja variância está para ser calculada.

27 Variância amostral

28 Variância de notas Neste exemplo, temos para os grupos, respectivamente, as variâncias (arredondadas para duas casas decimais): Neste exemplo, temos para os grupos, respectivamente, as variâncias (arredondadas para duas casas decimais): No R, peça var(notas[,i]), onde i=1,2,3,4,5,6; para obter cada variância. No R, peça var(notas[,i]), onde i=1,2,3,4,5,6; para obter cada variância.

29 Desvio-padrão É a raiz quadrada positiva da variância: sqrt(var(x)) ou sd(x). É a raiz quadrada positiva da variância: sqrt(var(x)) ou sd(x). Neste exemplo, temos os seguintes desvios-padrão (arredondados para duas casas decimais): Neste exemplo, temos os seguintes desvios-padrão (arredondados para duas casas decimais):

30 Resumo GrupoRDEQdms2s2 s

31 Histogramas na escala das freqüências

32 Histogramas com as escalas uniformizadas

33 Coeficiente de Variação Amostral É uma medida da variação relativa em um conjunto de valores numéricos. É uma medida da variação relativa em um conjunto de valores numéricos. Costuma ser expresso em termos percentuais. Costuma ser expresso em termos percentuais. Mede a dispersão dos dados em relação à média aritmética. Mede a dispersão dos dados em relação à média aritmética. É definido por CV=(DP/média)x100%, onde DP é o desvio-padrão dos dados e média é a média aritmética dos dados. É definido por CV=(DP/média)x100%, onde DP é o desvio-padrão dos dados e média é a média aritmética dos dados.

34 Exemplo 2: Considere os três conjuntos de dados abaixo:

35 Exemplo 2: (cont.) Calcule a variância de cada um dos três conjuntos de dados. dadosA<-c(12,15,23,22,23,16) dadosB<-c(0.65,3.65,11.65,10.65,11.65,4.65) dadosC<-c(551,554,555,562,562,561) var(dadosA) 22.7 var(dadosB) 22.7 var(dadosC) 22.7 mean(dadosA) 18.5 mean(dadosB) 7.15 mean(dadosC) Os comandos estão em exemplo2.txt

36 Exemplo 2: (cont.) dotchart(dadosA,main="A") dotchart(dadosB,main="B") dotchart(dadosC,main="C")

37 Exemplo 2: coeficiente de variação CV para o conjunto A: CV para o conjunto A: sqrt(var(dadosA))*100/mean(dadosA) 25.75% sqrt(var(dadosA))*100/mean(dadosA) 25.75% CV para o conjunto B: CV para o conjunto B: sqrt(var(dadosB))*100/mean(dadosB) 66.66% sqrt(var(dadosB))*100/mean(dadosB) 66.66% CV para o conjunto C: CV para o conjunto C: sqrt(var(dadosC))*100/mean(dadosC) 0.85% sqrt(var(dadosC))*100/mean(dadosC) 0.85% Conclusão: O conjunto C é o que apresenta menor variabilidade relativa à média. Conclusão: O conjunto C é o que apresenta menor variabilidade relativa à média.

38 Quantis de uma distribuição de freqüências Tanto a média como o desvio-padrão podem não ser medidas adequadas para representar um conjunto de dados, pois: Tanto a média como o desvio-padrão podem não ser medidas adequadas para representar um conjunto de dados, pois: (i) são afetados, de forma exagerada, por valores extremos; (i) são afetados, de forma exagerada, por valores extremos; (ii) apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição dos dados. (ii) apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição dos dados.

39 Quantis de uma distribuição de freqüências (2) Por exemplo, vimos que a mediana é o valor que deixa 50% dos dados (depois de ordenados) abaixo dela e 50%, acima dela. Por exemplo, vimos que a mediana é o valor que deixa 50% dos dados (depois de ordenados) abaixo dela e 50%, acima dela. Analogamente, podemos definir outras medidas, variando o percentual 50% (abaixo e acima de), para um percentual qualquer. Analogamente, podemos definir outras medidas, variando o percentual 50% (abaixo e acima de), para um percentual qualquer.

40 Quantis de uma distribuição de freqüências (3) De um modo geral, podemos definir uma medida chamada QUANTIL de ordem p, ou p-quantil, onde p é uma proporção qualquer, 0

41

42 Quantis Especiais: QUARTIS q(0,25),q(0,50) e q(0,75) q(0,25),q(0,50) e q(0,75) q(0,25): primeiro quartil (Q1) ou vigésimo- quinto percentil; q(0,25): primeiro quartil (Q1) ou vigésimo- quinto percentil; q(0,50): segundo quartil (Q2), ou mediana ou qüinquagésimo percentil; q(0,50): segundo quartil (Q2), ou mediana ou qüinquagésimo percentil; q(0,75): terceiro quartil (Q3) ou septuagésimo-quinto percentil. q(0,75): terceiro quartil (Q3) ou septuagésimo-quinto percentil.

43

44 Quantis Especiais: DECIS q(0,1),q(0,2),q(0,3),...,q(0,9) q(0,1),q(0,2),q(0,3),...,q(0,9) q(0,1): primeiro decil (D1) ou décimo percentil; q(0,1): primeiro decil (D1) ou décimo percentil; q(0,2): segundo decil (D2), ou vigésimo percentil; q(0,2): segundo decil (D2), ou vigésimo percentil; q(0,3): terceiro decil (D3), ou trigésimo percentil; q(0,3): terceiro decil (D3), ou trigésimo percentil; etc. etc.

45

46 Quantis Especiais: PERCENTIS q(0,01),q(0,02),q(0,03),...,q(0,99) q(0,01),q(0,02),q(0,03),...,q(0,99) q(0,01): primeiro percentil; q(0,01): primeiro percentil; q(0,02): segundo percentil; q(0,02): segundo percentil; q(0,03): terceiro percentil; q(0,03): terceiro percentil; etc. etc.

47 Determinação dos quantis usando o R A função apropriada do R para obter os quantis de um vetor numérico x é a função quantile. A função apropriada do R para obter os quantis de um vetor numérico x é a função quantile. Se x é o vetor contendo os dados, e desejamos determinar os três quartis, pedimos quantile(x,c(0.25,0.5,0.75)). Se x é o vetor contendo os dados, e desejamos determinar os três quartis, pedimos quantile(x,c(0.25,0.5,0.75)). Se desejamos o quinto e o nonagésimo- quinto percentis, pedimos quantile(x,c(0.05,0.95)) etc. Se desejamos o quinto e o nonagésimo- quinto percentis, pedimos quantile(x,c(0.05,0.95)) etc.

48 Exemplo 3: Emissão de Dióxido de Carbono Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados são do ano de Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados são do ano de Fonte: Stabilizing The Atmosphere: Population, Consumption and Greenhouse Gases. Fonte: Stabilizing The Atmosphere: Population, Consumption and Greenhouse Gases.

49 Exemplo 3: Emissão de Dióxido de Carbono (cont.) Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.

50 Exemplo 3: Emissão de Dióxido de Carbono (cont.) dados<- read.table(m:\\natalie\\aed\\dados13bm.txt",header=T) dados<- read.table(m:\\natalie\\aed\\dados13bm.txt",header=T) names(dados) names(dados) [1] "pais" "emissao" [1] "pais" "emissao" quantile(dados$emissao,c(0.25,0.5,0.75)) quantile(dados$emissao,c(0.25,0.5,0.75)) 25% 50% 75% 25% 50% 75% quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9)) quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9)) 10% 20% 30% 40% 50% 60% 70% 80% 90% 10% 20% 30% 40% 50% 60% 70% 80% 90%

51 Exemplo 3: Emissão de Dióxido de Carbono (cont.) > mean(dados$emissao) > mean(dados$emissao) [1] [1] > sqrt(var(dados$emissao)) > sqrt(var(dados$emissao)) [1] [1]

52 Histograma das emissões

53

54 Dados em histograma das emissões $breaks [1] $counts [1] $mids [1] round(histEmissao$counts/72,digits=2) # freqüências relativas [1] # freqüências relativas acumuladas

55 Quantis para dados agrupados Uma aproximação para obter o p-quantil quando os dados estão agrupados em classes é a seguinte. Uma aproximação para obter o p-quantil quando os dados estão agrupados em classes é a seguinte. Passo 1: Encontre a classe que contém o p-quantil. Seja [a,b[ o intervalo da classe e F p a freqüência relativa acumulada desta classe. Passo 1: Encontre a classe que contém o p-quantil. Seja [a,b[ o intervalo da classe e F p a freqüência relativa acumulada desta classe. Passo 2: Calcule q(p) como a+m(p-F p-1 ), onde m é dado por (b-a)/(F p - F p-1 ). Passo 2: Calcule q(p) como a+m(p-F p-1 ), onde m é dado por (b-a)/(F p - F p-1 ).

56 Quantis para dados agrupados (a,b) - classe que compreende q(p); F p - freqüência acumulada da classe (a,b); F p-1 - freqüência acumulada da classe imediatamente anterior

57 Caso agrupado (comparação) O R nos forneceu como terceiro quartil para emissões o valor: O R nos forneceu como terceiro quartil para emissões o valor: Para usar a aproximação sugerida no slide anterior vemos que a classe que contém o primeiro quartil é a classe [1,2[ e que F=0,81 e F anterior é 0,64. Logo, o terceiro quartil é aproximadamente 1+( )/( )= Para usar a aproximação sugerida no slide anterior vemos que a classe que contém o primeiro quartil é a classe [1,2[ e que F=0,81 e F anterior é 0,64. Logo, o terceiro quartil é aproximadamente 1+( )/( )=

58 Dados agrupados Ao tentar obter aproximações para quantis mais baixos desta distribuição, obteremos resultados pobres, pois as classes mais baixas apresentam uma freqüência muito alta neste exemplo. Ao tentar obter aproximações para quantis mais baixos desta distribuição, obteremos resultados pobres, pois as classes mais baixas apresentam uma freqüência muito alta neste exemplo. Este tipo de aproximação será necessário quando não dispusermos dos dados brutos. Este tipo de aproximação será necessário quando não dispusermos dos dados brutos.

59 Atividade Trabalhe com os dados sobre temperaturas médias mensais de Cananéia e Ubatuba no estado de São Paulo. Trabalhe com os dados sobre temperaturas médias mensais de Cananéia e Ubatuba no estado de São Paulo. Selecione as temperaturas de janeiro, para as duas cidades, ao longo dos anos estudados. Selecione as temperaturas de janeiro, para as duas cidades, ao longo dos anos estudados. Determine os quartis das temperaturas médias de janeiro para as duas cidades Determine os quartis das temperaturas médias de janeiro para as duas cidades

60 Atividade (continuação) Repita a atividade anterior para os outros meses do ano. Repita a atividade anterior para os outros meses do ano. Faça um resumo dos resultados obtidos numa tabela. Faça um resumo dos resultados obtidos numa tabela.


Carregar ppt "R – Medidas de Dispersão Análise Exploratória de Dados."

Apresentações semelhantes


Anúncios Google