Análise Exploratória de Dados

Slides:



Advertisements
Apresentações semelhantes
DEMONSTRAÇÃO RESULTADO DO EXERCÍCIO – 01/07/10 – 30/06/2011
Advertisements

HALL OF FAME Liga Chaparral. ANTÓNIO CASTILHO Presenças: 8 Vitórias Semanais: 54 Pagamentos: 71 (8,8/ano) Pontos Obtidos: (2127,8/ano) Palmarés.
Utilizando o R.
Análise Exploratória de Dados
REUNIÃO NACIONAL DE MULHERES DIRETORAS DA FORÇA SINCAL.
Análise Exploratória de Dados
Exercícios Porcentagem.
Medidas de Tendência Central DADOS AGRUPADOS
Curso de ADMINISTRAÇÃO
Estatística 1 - Introdução.
Estatística 8 - Distribuições Amostrais
Estatística Básica Utilizando o Excel
N2 + 3H2  2NH3 Equilíbrio Químico Tempo (min) mol
FÍSICA E QUÍMICA A 10º A.
•percentual •mínima ou empírica •molecular
Progressão Aritmética
MASSAS MEDIDAS
UEPB (2009 – 2012) NÚMEROS E GRÁFICOS. EVOLUÇÃO DAS DESPESAS POR FONTE DE RECURSO * Crescimento de aproximadamente 27,01%.
Hotel em Angola Imagem tridimensional do alçado principal Abril 2010
ANÁLISE ESTATÍSTICA PROF. CLAUDIO MACIEL AULA DE REVISÃO.
ESTATÍSTICA.
Análise Exploratória de Dados
Renda até 2 SM.
Diagnósticos Educativos = Diagnósticos Preenchidos 100% = 1.539
MASSAS MEDIDAS.
Aula 0. Doces Lembranças de MAE0219
Resultados do IDESP DIRETORIA DE ENSINO REGIÃO DE BRAGANÇA PAULISTA.
Monitoria de Probabilidade e Estatística
Análise Exploratória de Dados
LINHAS MAIS RECLAMADAS Ranking Negativo para Fiscalização Direcionada Conservação - Frota ANO IV – Nº 11.
ESTATÍSTICA.
FISCALIZAÇÃO DIRECIONADA CONDUTA - AUXILIAR ANO IV – Nº 04.
Coeficiente de Variação de Pearson
DISTRIBUIÇÕES DE PROBABILIDADES DE VARIÁVEIS ALEATÓRIAS DISCRETAS
Medidas de Dispersão ou de Variabilidade:
Dissipador de energia Tipo IX rampa dentada
Funcionários - Grau de Satisfação 2096 avaliações
Estatística – Unidade 2.
Tributação da Exportação nas Empresas optantes pelo Simples Nacional
Aula de Matemática prof. Neilton Satel ANÁLISE COMBINATÓRIA.
Aula 12 Dia – 08/11.
Comercial Gerdau Brasília - DF.
AULA DE ESTATÍSTICA PROFESSOR RODRIGÃO.
Modelagem Estatística
ESTATÍSTICA.
CLASSES: SÃO INTERVALOS DE VARIAÇÃO DA VARIÁVEL.
Exercícios Ibq = 47,08uA e Icq = 2,35mA. Vceq=6,83 V
Estatística.
Estatística Aula 9 – 28/02/2011.
Distribuição de Freqüências Variável Discreta Uma vez que o interessado tenha colocado os dados na forma de distribuição de freqüência, ele poderá rapidamente.
Revisão.
MASSAS MEDIDAS.
CONCEITOS FUNDAMENTAIS
Olhe fixamente para a Bruxa Nariguda
50 cm 70 cm CARGA E DESCARGA Início MODELO 01
LINHAS MAIS RECLAMADAS Ranking Negativo para Fiscalização Direcionada Nível de Serviço ANO II – Nº 08.
QUESTÃO - 01.
PAUTA: 1.- EDUC 2.- INADIMPLÊNCIA 3.- PERSPECTIVAS ECONÔMICAS
Medidas Descritivas ESTATISTICA Aula 5 PROF: CÉLIO SOUZA.
Medidas de tendência central e de dispersão
Medidas Descritivas ESTATISTICA Aula 5 PROF: CÉLIO SOUZA.
Estatística Descritiva
Medidas Estatísticas.
Análise Exploratória de Dados
Probabilidade Análise Exploratória de Dados: Medidas de Centro
Albertazzi.Tratamento de Dados.Descritores (1.1) Tratamento de Dados 1.
MEDIDAS DE POSIÇÃO MÉDIAS MODA MEDIANA QUARTIS PERCENTIS.
Variância A variância baseia-se nos desvios em torno da média aritmética, porém determinando a média aritmética dos quadrados dos desvios (lembremos que.
ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA
Utiliza-se a MoP para a análise da assimetria
Transcrição da apresentação:

Análise Exploratória de Dados Box - Plot

Exercício: Emissão de Dióxido de Carbono Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.

Exercício: Emissão de Dióxido de Carbono dados<-read.table(”m:\\aulas\\natalie\\aed\\dados13bm.txt",header=T) names(dados) [1] "pais" "emissao" quantile(dados$emissao,c(0.25,0.5,0.75)) 25% 50% 75% 0.0675 0.4150 1.4725 quantile(dados$emissao,c(0.1,0.2,.3,.4,.5,.6,.7,.8,0.9)) 10% 20% 30% 40% 50% 60% 70% 80% 90% 0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02

Exercício: Emissão de Dióxido de Carbono > mean(dados$emissao) [1] 1.174167 > sd(dados$emissao) [1] 1.689093 A mediana é 0.4150 e portanto, o coeficiente de assimetria de Pearson, dado por (3*(média-mediana))/desvio-padrão, é aproximadamente 1.35>0.

Dados em histograma das emissões Fazendo hist1<-hist(dados$emissao), podemos listar as informações usadas na construção do histograma. $breaks [1] 0 1 2 3 4 5 6 7 8 9 $counts [1] 46 12 6 3 2 1 0 1 1 $mids [1] 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 round(histEmissao$counts/72,digits=2) # freqüências relativas [1] 0.64 0.17 0.08 0.04 0.03 0.01 0.00 0.01 0.01 # freqüências relativas acumuladas 0.64 0.81 0.89 0.93 0.96 0.97 0.97 0.98 1.00

Histograma das emissões

Tabela usada para o histograma

Esquema dos cinco números É uma lista de informações da distribuição que inclui cinco medidas, a saber, x(1), Q1, Q2, Q3 e x(n). Estes cinco valores são importantes para se ter uma boa idéia da assimetria dos dados.

Esquema dos cinco números Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter: (a) Q2- x(1)  x(n)-Q2; (b) Q2-Q1  Q3-Q2; (c) Q1- x(1)  x(n)-Q3; (d) distâncias entre mediana e Q1, Q3 menores do que distâncias entre os extremos e Q1, Q3.

Comandos summary() e fivenum() O R possui uma função que retorna as informações do esquema dos cinco números: fivenum(x), se x é o vetor que contém os dados. Exemplo: x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10) fivenum(x) [1] 1.0 2.0 3.5 5.5 10.0

Comandos summary() e fivenum() summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 2.00 3.50 4.10 5.25 10.00 O comando summary(x), quando x é um vetor numérico, produz as informações do esquema dos cinco números e a média.

Desenho Esquemático (Box Plots) A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama, conhecido como box plot. A figura a seguir, ilustra o boxplot.

Boxplot O retângulo no boxplot é traçado de tal maneira que as bases menores têm alturas correspondentes aos primeiro e terceiro quartis da distribuição. O retângulo é cortado por um segmento paralelo às bases, na altura correspondente ao segundo quartil. Assim, o retângulo do boxplot corresponde aos 50% valores centrais da distribuição.

Cosntruindo o boxplot Depois de desenhado o retângulo, traça-se um segmento paralelo ao eixo, partindo do ponto médio da base superior do retângulo até o maior valor observado que NÃO supera o valor de Q3+(1,5)*IIQ. O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-(1,5)*IIQ.

Fechando o boxplot As observações que estiverem acima de Q3+(1,5)*IIQ ou abaixo de Q1-(1,5)*IIQ são chamadas pontos exteriores e representadas por asteriscos. Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos ou valores extremos.

Observações Não necessariamente haverá a presença de pontos exteriores num boxplot. Quando for este o caso, o esquema terá a seguinte aparência:

A função boxplot no R Experimente pedir ao R para construir um boxplot dos dados sobre emissões de dióxido de carbono: boxplot(dados$emissao)

Alguns argumentos da função boxplot Observação: é possível construir vários boxplot na mesma função. boxwex: controla a largura dos retângulos no boxplot. O default é 0.8. outline: valor lógico. Se T, os pontos exteriores são assinalados (default). Se F, os pontos exteriores não são assinalados

Exemplo 1 Vamos trabalhar com os dados sobre salários para diferentes profissões/formações do conjunto dados6bm.txt. dados<-read.table(“m:\\aed\\dados6bm.txt”,header=T) Há quatro profissões diferentes, a saber, nivelmedio, mecanico, administrador, engeletrico. boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c(“nivel medio”,”mecanico”,”administrador”,”eng.eletrico”))

Cores col - cor de preenchimento dos retângulos

Boxplots horizontais horizontal - valor lógico, se T o boxplot fica na posição horizontal. Se F (default) fica na posição vertical.

Outros argumentos ylim: controla a escala de valores main: título sub: sub-título names: vetor com os rótulos dos conjuntos de dados, quando são pedidos mais de um boxplot. pch: específica o caracter a ser usado nos pontos exteriores. Ex.: pch=“*”.

Exemplo 2 No domingo, dia 4 de abril de 2004, o jornal O Globo publicou uma reportagem sobre o dinheiro da União disponível para investimentos nas prefeituras em 2004. Nesta reportagem, foram publicados os dados sobre 25 capitais, os partidos dos prefeitos destas capitais, o número de habitantes e o total em reais disponível.

Exemplo 2 Estes dados foram armazenados no arquivo dadosaula6.txt com o número de habitantes em milhares e o investimento em milhares de reais. Os nomes atribuídos às variáveis foram: cidade, partido, hab1000 e invest1000.

Exemplo 2 Construa o boxplot dos investimentos. dados<-read.table("c:\\flavia\\aed\\dadosaula6.txt",header=T) Construa o boxplot dos investimentos.

Construa também um boxplot do número de habitantes.

Olhando apenas para a relação investimento sobre número de habitantes, sem levar em conta outros fatores, você diria que foi justa esta distribuição?

O título da reportagem no jornal foi Aos amigos, mais da metade. Você concorda com este título? Por que? Ordenando os dados por partido: indice<-order(dados$partido) dadosord<-dados[indice,]

Depois de ordenar os dados por partido em dadosord, é possível ver que de 1 a 17 tem-se outros partidos e de 18 a 25 tem-se o PT.

resumo<-matrix(0,2) #variável que vai receber o total # de investimentos, na posição 1: outros partidos # na posição 2: PT resumo[1]<-sum(dadosord$invest1000[1:17]) resumo[2]<-sum(dadosord$invest1000[18:25]) total<-resumo[1]+resumo[2] parcial<-matrix(0,2) parcial<-resumo/total

Resultado parcial [1] 0.4077745 0.5922255

Exemplo 3 Voltemos aos dados sobre temperaturas médias mensais. Lembre-se da última atividade sugerida na aula 5 do LIG. Com as temperaturas médias mensais, separadas mês a mês, para cada cidade, construa boxplots para analisar o comportamento das mesmas, para cada cidade.