Análise Exploratória de Dados

Slides:



Advertisements
Apresentações semelhantes
Análise Exploratória de Dados
Advertisements

Geoestatística Aplicada à Agricultura de Precisão I
Separatrizes As separatrizes são medidas de posição que permitem calcularmos valores da variável que dividem ou separam a distribuição em partes iguais.
Medidas de Dispersão.
Estatística Descritiva Aula 02
Medidas de Tendência Central DADOS AGRUPADOS
Geoestatística Aplicada à Agricultura de Precisão I
Capítulo 5 Medidas Descritivas.
ALGUMAS MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS
MEDIDAS DE DISPERSÃO Medidas de tendência central fornecem um resumo parcial das informações de um conjunto de dados. A necessidade de uma medida de variação.
Estatística Descritiva
Análise Exploratória de Dados
Estatística e Probabilidade
Estatística Descritiva (I)
Análise Exploratória de Dados
MBA em Gestão de Empreendimentos Turísticos
Estatística Descritiva
Estatística Para um dado conjunto de dados, podemos calcular as seguintes grandezas: 1) Medidas de posição 2) Medidas de dispersão 3) Parâmetros de simetria.
Aula 08 Medidas de posição - Prof. Diovani Milhorim
ESTATÍSTICA DECRITIVA
Mediana É um valor real que separa o rol em duas partes deixando à sua esquerda o mesmo número de elementos que a sua direita. Portanto, a mediana é um.
CLASSES: SÃO INTERVALOS DE VARIAÇÃO DA VARIÁVEL.
Site: Estatística Prof. Edson Nemer Site:
Aula 10 Medidas de dispersão Prof. Diovani Milhorim
Medidas Descritivas ESTATISTICA Aula 5 PROF: CÉLIO SOUZA.
Aula 05 Distribuição de freguência Prof. Diovani Milhorim
Medidas de localização
CURSO DE ARQUIVOLOGIA CCBSA - UEPB – Campus V
Aula 09 Medidas de posição – As separatrizes Prof. Diovani Milhorim
Parte III - Separatrizes
Estatística Descritiva
Medidas Descritivas ESTATISTICA Aula 5 PROF: CÉLIO SOUZA.
MEDIDAS DE VARIABILIDADE, ASSIMETRIA E CURTOSE
Medidas de Dispersão O que é dispersão?
Estatística Descritiva
Medidas Descritivas ESTATISTICA Aula 5 PROF: CÉLIO SOUZA.
Aula 8A ESTATÍSTICA E PROBABILIDADE
Estatística Descritiva. 2 oO que é a estatística ? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são.
Medidas Estatísticas.
Disciplina Engenharia da Qualidade II
Separatrizes Quartis Decis Percentis TIPOS:
Estatística Descritiva
PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA
Noções de Estatística - I
Medidas de posição e de dispersão
Probabilidade Análise Exploratória de Dados: Medidas de Centro
MEDIDAS DE TENDÊNCIA CENTRAL MEDIDAS DE DISPERSÃO
É o conjunto de métodos estatísticos usados no tratamento da variabilidade nas ciências médicas e biológicas. A Bioestatística fornece métodos para decisões,
Albertazzi.Tratamento de Dados.Descritores (1.1) Tratamento de Dados 1.
1 Estatística Descritiva (I). 2 O que é Estatística A Estatística originou-se com a coleta e construção de tabelas de dados para o governo. A situação.
AULA 2 Prof. Dr. Márcio A. Fiori -
MEDIDAS DE POSIÇÃO MÉDIAS MODA MEDIANA QUARTIS PERCENTIS.
MEDIDAS DE DISPERSÃO Profa Ana Clara Guedes. MEDIDAS DE DISPERSÃO Observe os dois quadros abaixo e compare a Dispersão dos pontos azuis, em torno do ponto.
ESTATÍSTICA.
Variância A variância baseia-se nos desvios em torno da média aritmética, porém determinando a média aritmética dos quadrados dos desvios (lembremos que.
Professor: Jerry A. Domingos
MEDIDAS DE POSIÇÃO Representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo horizontal. As medidas de posições.
ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA
Distribuição. de freqüência
Aula 5 Bioestatística. Estatísticas para uma variável.
MIM 2011/2012 FMUC ESTATÍSTICA DESCRITIVA Bárbara Oliveiros Biomatemática.
Distribuição de freqüências
Estatística Aplicada à Administração Prof. Alessandro Moura costa UNIVERSIDADE FEDERAL DO PAMPA BACHARELADO EM ADMINISTRAÇÃO DE EMPRESAS.
Profª Juliana Schivani MEDIDAS.
Marcos Antonio Estremote – Aula 2.  Estatística Descritiva:  Resumo ou descrição das características importantes de um conjunto conhecido de dados populacionais.
Análise descritiva de dados (4) Medidas de dispersão.
Marcos Antonio Estremote – Aula 3.  Determina a característica de variação de um conjunto de dados.  Amplitude  Desvio  Desvio médio ou desvio absoluto.
Profª Juliana Schivani MEDIDAS.
Utiliza-se a MoP para a análise da assimetria
Transcrição da apresentação:

Análise Exploratória de Dados Medidas de Dispersão

Objetivos da aula Definir e calcular medidas de dispersão: amplitude amostral, distância entre quartis, desvio-médio, variância e desvio-padrão. Definir e calcular o coeficiente de variação amostral. Definir e calcular quantis de uma distribuição de freqüências.

Exemplo 1 Suponha que um grupo de 120 estudantes foi aleatoriamente distribuído em 6 grupos de 20. Cada grupo recebeu um tipo de treinamento e depois todos foram submetidos a um mesmo teste. Ao teste é atribuída uma nota de zero a 10.

Exemplo 1 (continuação) Os dados (fictícios) com as notas dos testes para os seis grupos estão no arquivo notas.txt. notas<-read.table(“m:\\aed\\notas.txt”) names(notas)<-c(“G1”,”G2”,”G3”,”G4”,”G5”,”G6”)

Exemplo 1 (continuação) Calcule a média e a mediana das notas para cada grupo. É possível ver que todos os grupos apresentam a mesma média 5 e a mesma mediana 5. Será que podemos afirmar que as performances foram iguais para os diferentes grupos?

> mean(notas$G1) 5 > median(notas$G1) 5 > mean(notas$G2) 5 > median(notas$G2) 5 > mean(notas$G3) 5 > median(notas$G3) 5 > mean(notas$G4) 5 > median(notas$G4) 5 > mean(notas$G5) 5 > median(notas$G5) 5 > mean(notas$G6) 5 > median(notas$G6) 5

Medidas de Dispersão É necessário caracterizar o conjunto também usando medidas que avaliam a variabilidade dos dados no conjunto. A seguir, apresentaremos algumas medidas de dispersão comuns.

Amplitude Amostral R A amplitude amostral é uma das medidas de dispersão mais simples. É dada pela diferença entre os valores máximo e mínimo observados na amostra. Se x é o vetor que contém os dados, podemos calcular a amplitude amostral como amplitude<-max(x)-min(x).

Amplitude amostral (continuação) Obtenha a amplitude amostral dos diferentes grupos. É claro que no grupo 1 a amplitude amostral é zero. Vemos que nos grupos 2, 4 e 6, a amplitude é 8; e nos grupos 3 e 5 são respectivamente 2 e 3.

Desvantagens da amplitude amostral A grande desvantagem da amplitude amostral como medida para caracterizar a dispersão num conjunto de dados é que ela só leva em conta o mínimo e o máximo dos dados, ignorando todo o resto. Observe que há diferenças nos grupos 2, 4 e 6. Porém, todos eles têm a mesma amplitude amostral.

Função range() Se x é um vetor numérico, a função range(x) retorna o valor mínimo e o valor máximo em x. Assim, range(x)[2]-range(x)[1] é equivalente à max(x)-min(x).

Intervalo interquartílico ou Distância entre quartis (IIQ) Uma medida de dispersão um pouco mais refinada que a amplitude amostral é a distância entre quartis (IIQ). Depois de ordenada a amostra, divide-se ela em quatro partes de freqüência relativa ¼. Tomam-se então os valores que correspondem à freqüência relativa acumulada de ¼ e ¾, que são chamados respectivamente de primeiro e terceiro quartis (Q1 e Q3).

Distância entre quartis IIQ=Q3-Q1 No R, podemos calcular a distância entre quartis para um vetor de dados x da seguinte forma : iiq<-IQR(x) Para as notas do exemplo temos os valores 0.00 4.00 2.00 6.00 2.05 8.00 para as distâncias entre quartis dos grupos 1, 2, 3, 4, 5 e 6, respectivamente.

Distância entre quartis (continuação) Podemos ver que a distância entre quartis apresenta diferenças que não foram detectadas pela amplitude amostral entre os diferentes grupos. Mas, esta medida, ainda tem a desvantagem de só levar em conta dois valores do conjunto, ignorando os extremos e o meio.

Função quantile(x,p) A função quantile(x,p) retorna o valor que na distribuição de freqüências tem freqüência relativa acumulada p, 0<p<1. Assim, pedir IRQ(x) é equivalente à pedir quantile(x,0.75)-quantile(x,0.25).

Variância É a média dos desvios da média tomados ao quadrado. Veremos na disciplina Introdução à Estatística, que no caso particular da variância, é comum adotar o denominador da média em n-1. O R possui uma função própria para calcular a variância com denominador n-1 dada por var(x), se x é o vetor contendo os valores cuja variância está para ser calculada.

Variância amostral

Variância de notas Neste exemplo, temos para os grupos, respectivamente, as variâncias (arredondadas para duas casas decimais): 0.00 5.47 0.63 9.58 1.11 13.89 No R, peça var(notas[,i]), onde i=1,2,3,4,5,6; para obter cada variância.

Desvio-padrão É a raiz quadrada positiva da variância: sqrt(var(x)) ou sd(x). Neste exemplo temos os seguintes desvios-padrão (arredondados para duas casas decimais): 0.00 2.34 0.79 3.09 1.06 3.73

Resumo Grupo R IIQ s2 s 1 2 8 4.00 5.47 2.34 3 2.00 0.63 0.79 4 6.00 9.58 3.09 5 2.05 1.11 1.06 6 8.00 13.89 3.73

Histogramas na escala das freqüências

Histogramas com as escalas uniformizadas

Coeficiente de Variação Amostral É uma medida da variação relativa em um conjunto de valores numéricos. Costuma ser expresso em termos percentuais. Mede a dispersão dos dados em relação à média aritmética. É definido por CV=(DP/média)x100%, onde DP é o desvio-padrão dos dados, média é a média aritmética dos dados.

Exemplo 2: Considere os três conjuntos de dados abaixo:

Exemplo 2: (cont.) Os comandos estão em exemplo2.txt Calcule a variância de cada um dos três conjuntos de dados. dadosA<-c(12,15,23,22,23,16) dadosB<-c(0.65,3.65,11.65,10.65,11.65,4.65) dadosC<-c(551,554,555,562,562,561) var(dadosA) 22.7 var(dadosB) var(dadosC) mean(dadosA) 18.5 mean(dadosB) 7.15 mean(dadosC) 557.5

Exemplo 2: coeficiente de variação CV para o conjunto A: sqrt(var(dadosA))*100/mean(dadosA) 25.75% CV para o conjunto B: sqrt(var(dadosB))*100/mean(dadosB) 66.66% CV para o conjunto C: sqrt(var(dadosC))*100/mean(dadosC) 0.85% Conclusão: O conjunto C é o que apresenta menor variabilidade relativa à média.

Quantis de uma distribuição de freqüências Tanto a média como o desvio-padrão podem não ser medidas adequadas para representar um conjunto de dados, pois: (i) são afetados, de forma exagerada por valores extremos; (ii) apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição dos dados.

Quantis de uma distribuição de freqüências (2) Por exemplo, vimos que a mediana é o valor que deixa 50% dos dados (depois de ordenados) abaixo dela e 50%, acima dela. Analogamente, podemos definir outras medidas, variando o percentual 50% (abaixo e acima de), para um percentual qualquer.

Quantis de uma distribuição de freqüências (3) De um modo geral, podemos definir uma medida chamada QUANTIL de ordem p, ou p-quantil, onde p é uma proporção qualquer, 0<p<1, tal que 100p% das observações sejam menores do que o p-quantil. NOTAÇÃO: q(p)

Quantis Especiais: QUARTIS q(0,25),q(0,50) e q(0,75) q(0,25): primeiro quartil (Q1) ou vigésimo-quinto percentil; q(0,50): segundo quartil (Q2), ou mediana ou qüinquagésimo percentil; q(0,75): terceiro quartil (Q3) ou septuagésimo-quinto percentil.

Quantis Especiais: DECIS q(0,1),q(0,2),q(0,3),...,q(0,9) q(0,1): primeiro decil (D1) ou décimo percentil; q(0,2): segundo decil (D2), ou vigésimo percentil; q(0,3): terceiro decil (D3), ou trigésimo percentil; etc.

Quantis Especiais: PERCENTIS q(0,01),q(0,02),q(0,03),...,q(0,99) q(0,01): primeiro percentil; q(0,02): segundo percentil; q(0,03): terceiro percentil; etc.

Determinação dos quantis usando o R A função apropriada do R para obter os quantis de um vetor numérico x é a função quantile. Se x é o vetor contendo os dados, e desejamos determinar os três quartis, pedimos quantile(x,c(0.25,0.5,0.75)). Se desejamos o quinto e o nonagésimo-quinto percentis, pedimos quantile(x,c(0.05,0.95)), etc.

Exemplo 3: Emissão de Dióxido de Carbono Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados são do ano de 1995. Fonte: Stabilizing The Atmosphere: Population, Consumption and Greenhouse Gases.

Exemplo 3: Emissão de Dióxido de Carbono (cont.) Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.

Exemplo 3: Emissão de Dióxido de Carbono (cont.) dados<-read.table(”m:\\aed\\dados13bm.txt",header=T) names(dados) [1] "pais" "emissao" quantile(dados$emissao,c(0.25,0.5,0.75)) 25% 50% 75% 0.0675 0.4150 1.4725 quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9)) 10% 20% 30% 40% 50% 60% 70% 80% 90% 0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02

Exemplo 3: Emissão de Dióxido de Carbono (cont.) > mean(dados$emissao) [1] 1.174167 > sqrt(var(dados$emissao)) [1] 1.689093

Histograma das emissões

Dados em histograma das emissões $breaks [1] 0 1 2 3 4 5 6 7 8 9 $counts [1] 46 12 6 3 2 1 0 1 1 $mids [1] 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 round(histEmissao$counts/72,digits=2) # freqüências relativas [1] 0.64 0.17 0.08 0.04 0.03 0.01 0.00 0.01 0.01 # freqüências relativas acumuladas 0.64 0.81 0.89 0.93 0.96 0.97 0.97 0.98 1.00

Quantis para dados agrupados Uma aproximação para obter o p-quantil quando os dados estão agrupados em classes é a seguinte. Passo 1: Encontre a classe que contém o p-quantil. Seja [a,b[ o intervalo da classe e Fp a freqüência relativa acumulada desta classe. Passo 2: Calcule q(p) como a+m(p-Fp-1), onde m é dado por (b-a)/(Fp- Fp-1).

Quantis para dados agrupados (a,b) - classe que compreende q(p); Fp - freqüência acumulada da classe (a,b); Fp-1 - freqüência acumulada da classe imediatamente anterior

Caso agrupado (comparação) O R nos forneceu como terceiro quartil para emissões o valor: 1.4725 Para usar a aproximação sugerida no slide anterior vemos que a classe que contém o primeiro quartil é a classe [1,2[ e que F=0,81 e F anterior é 0,64. Logo, o terceiro quartil é aproximadamente 1+(0.75-0.64)/(0.81-0.64)=1.647059.

Dados agrupados Ao tentar obter aproximações para quantis mais baixos desta distribuição, obteremos resultados pobres, pois as classes mais baixas apresentam uma freqüência muito alta neste exemplo. Este tipo de aproximação será necessário quando não dispusermos dos dados brutos.

Atividade Trabalhe com os dados sobre temperaturas médias mensais de Cananéia e Ubatuba no estado de São Paulo. Selecione as temperaturas de janeiro, para as duas cidades, ao longo dos anos estudados. Determine os quartis das temperaturas médias de janeiro para as duas cidades

Atividade (continuação) Repita a atividade anterior para os outros meses do ano. Faça um resumo dos resultados obtidos numa tabela.