ANÁLISE EXPLORATÓRIA DE DADOS

Slides:



Advertisements
Apresentações semelhantes
Estatística Computacional
Advertisements

ESTATÍSTICA PARA QUALIDADE
Análise Exploratória de Dados
GRÁFICOS... COMO EU LEIO ISSO?
Estudando um capítulo importante
INTRODUÇÃO A BIOESTATÍSTICA
Dados qualitativos e dados quantitativos
Noções de Regressão Profa. Marli.
GERAÇÃO DE MAPAS DIGITAIS NO PROGRAMA COMPUTACIONAL GS+ (Gamma Design)
Métodos Quantitativos
Regressão linear A regressão linear é usada para determinar o valor de uma variável dependente contínua baseando-se na sua relação linear com uma (regressão.
Continuação da Oficina
Introdução ao Stata 16 de abril de 2013
Procedimentos para o uso da calculadora:
ESTATÍSTICA.
ESTATÍSTICA: O estudo numérico dos fatos sociais
Análise Exploratória de Dados
A Estatística é um ramo da Matemática Aplicada e teve origem (assim como a própria Matemática) do convívio social, das trocas da contagem; tudo baseado.
Germinação de Sementes Irradiadas Projecto Radiação Ambiente 2010 Escola Secundária de S. Pedro do Sul – Ano lectivo 2010/11.
MATRIZES Introdução Altura(m) Peso(kg) Idade(anos) Aluno A 1,
Análise Exploratória de Dados
ANÁLISE EXPLORATÓRIA DE DADOS
PROF. BRENO RICARDO 2º ANO – W.S.
Coordenação Geral de Ensino da Faculdade
Estatística Computacional
ESTATÍSTICA DECRITIVA
ESTATÍSTICA 1.
Capítulo 10 - Estatística 10.1 Introdução:
CLASSES: SÃO INTERVALOS DE VARIAÇÃO DA VARIÁVEL.
ANÁLISE EXPLORATÓRIA DE DADOS
Análise Exploratória de Dados R – LIG/09. Objetivos  obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados;  apresentar outros.
Estatística Introdução.
Planilha eletrônica Fórmulas e Funções Informática Aplicada a Saúde I
Métodos Quantitativos
Matemática 5.º Ano Estatística.
Estatística Descritiva
Aula de Estatística Descritiva Material do livro Estatística Aplicada à Administração e Economia Anderson, Sweeney & Williams.
Estatística Descritiva
GRÁFICOS ESTATÍSTICOS
MENU ARQUIVO Comando Imprimir Imprimi o documento atual # Impressora
Professor: Carlos Alberto de Albuquerque intranet.ifs.ifsuldeminas.edu.br/~carlos.albuquerque Estatística.
Adaptado Pelo Professor: Wildson Cruz
Censos: indicações para o trabalho individual. Critérios de avaliação a) capacidade de exploração do site Censos b) capacidade de interpretação da informação.
DISTRIBUIÇÕES DE FREQÜÊNCIAS POR CLASSE Cecilia Queiroz Rokembach.
Estatística Descritiva. 2 oO que é a estatística ? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são.
GRÁFICOS ESTATÍSTICOS
Definição de Estatística
PROFESSORAS : DENISE E SIMONE
Mtm 4B – Aula 10 Estatística.
Variáveis Quantitativas Contínuas
Vamos conversar sobre …
APRESENTANDO O BROFFICE CALC
TABELAS UNIVERSIDADE FEDERAL DE PERNABUCO - UFPE
EXCEL Aula 5. Noções de variáveis Variável Quantitativa: é aquela de natureza numérica, ou seja, apresenta como possíveis realizações (valores) números.
Estatística Básica usando o José CARDOSO Neto Professor Associado Departamento de Estatística - UFAM 26 a 30 de outubro de 2015 IX.
TEU 08/10/2013: Software Statistica Profª: Francieli Dalcanton.
Matemática Financeira
Albertazzi.Tratamento de Dados.Descritores (1.1) Tratamento de Dados 1.
DISTRIBUIÇÃO NORMAL Estudámos distribuições de probabilidade para variáveis aleatórias discretas. No final do capítulo falaremos da distribuição binomial.
VARIÁVEL ALEATÓRIA Profa. Ana Clara Guedes. Tomemos o exemplo da variável “peso ao nascer”. A variabilidade dos pesos ao nascer de meninos, com mesma.
ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA
Distribuição de Freqüências
CEPZ1 – 2015 – AULA 06 PROFESSORA: BRUNA CAVALLINI E RODRIGUES
Profª Juliana Schivani MÉTODO ESTATÍSTIC O.
Distribuição de freqüências
Aula 4 Bioestatística Probabilidade para variáveis aleatórias.
Análise descritiva de dados (2) Apresentação de dados em gráficos.
Profª Juliana Schivani GRÁFICOS.
Unidade I Estatística Descritiva Profª. Maria Ester Domingues de Oliveira.
Prof. João Saturnino GRÁFICOS.
Transcrição da apresentação:

ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma e Ramo-e-Folhas

Objetivos: trabalhar com dados quantitativos contínuos; especificar intervalos de classe; construir histogramas; construir mais de um gráfico na mesma janela.

Exemplo 1: Tipo sangüíneo, peso (em Kg) e altura (em cm). A base de dados que será trabalhada hoje contém a informação de 100 indivíduos sobre tipo sangüíneo, peso (kg) e altura (cm). Forma dos dados na planilha com 100 linhas e três colunas. arquivo: m:\\aed\\dados1.txt Fonte: dados fictícios.

Exemplo (continuação) Os dados deste exemplo podem ser obtidos como: dados<-read.table(“m:\\aed\\dados1.txt”) Observe que aqui, não usamos o argumento header=T, pois os nomes das variáveis não estão no arquivo de dados. Mas, se preferirmos, podemos definir os nomes das variáveis em dados. names(dados)<-c(“tsangue”,”peso”,”altura”)

Acesso aos valores Assim, você pode se referir às colunas desta base tanto usando dados[,n], em que n é o número da coluna desejada, como dados$nomedavariável. Por exemplo, para ver o conteúdo da coluna 1, podemos tanto usar dados[,1] como dados$tsangue.

VARIÁVEIS QUANTITATIVAS Veremos agora como construir a distribuição de freqüências de uma variável quantitativa. Para isso, usaremos os dados do exemplo referentes ao peso e à altura dos indivíduos.

VARIÁVEIS QUANTITATIVAS Se você pedir table(dados[,2]) ou table(dados[,3]) o efeito da saída será quase que reproduzir os valores observados de forma ordenada. table(dados[,2]) 57.1 59 61.4 61.9 62.1 62.4 62.8 63.3 63.9 64.2 64.8 66.1 66.3 66.7 67.6 67.8 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 68 68.1 68.9 69.4 69.9 70.1 70.2 70.4 70.9 71.2 71.3 71.5 71.7 71.9 72.1 72.2 1 2 1 1 1 2 2 1 3 1 1 2 1 2 1 1 72.6 73.2 73.4 73.7 74.1 74.6 74.9 75.2 75.3 76 76.3 76.5 76.9 77 77.5 77.6 2 2 1 2 1 4 1 1 1 2 1 1 2 1 1 1 77.8 77.9 78.2 78.4 78.5 78.6 79.1 79.5 79.8 80 80.5 80.6 80.7 80.8 80.9 81.1 2 1 1 1 1 1 2 1 1 1 1 1 3 1 1 1 81.2 81.3 81.7 82.2 82.4 82.7 82.8 83.2 84.3 85 86 86.1 86.7 94.4 95.8 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1

VARIÁVEIS QUANTITATIVAS Portanto, o comando table não é, em geral, útil para dados contínuos. Ele talvez poderá ser útil se estivermos trabalhando com uma variável discreta cuja quantidade de respostas possíveis é pequena.

VARIÁVEIS QUANTITATIVAS Vimos que no caso de dados contínuos, há a necessidade de se definir primeiro intervalos de classe para depois construir a tabela de freqüências e, então, usá-la para construir o histograma. O R possui uma função que pode gerar esta distribuição de forma automática.

VARIÁVEIS QUANTITATIVAS Esta função também tem a flexibilidade de nos permitir fixar os intervalos ou sugerir o número de intervalos. Esta mesma função também gera o histograma dos dados e seu nome no R é hist.

Uso da função hist Para começar peça a função hist apenas com o argumento obrigatório que é um vetor contendo os valores para os quais queremos construir o histograma, isto é, peça hist(dados$peso).

Argumentos da função hist x (obrigatório): vetor de valores para os quais deseja-se construir o histograma. breaks (opcional): um entre * vetor fornecendo os limites dos intervalos de classe, * número fornecendo o número de intervalos (é apenas uma sugestão). freq (opcional): lógica; se `freq=T', o histograma é uma representação da distribuição na escala das freqüências absolutas, se `freq=F', é uma representação na escala da densidade de freqüência relativa, que é definida como a razão entre freqüência relativa e a amplitude da classe.

Exemplo: argumentos breaks e freq hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F)

Exemplo (continuação) Para melhorar o gráfico podemos definir o título e os rótulos para os eixos ox e oy. hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F,main= “Histograma dos pesos”,xlab=“kg”,ylab=“dens.freq.rel”, col=“blue”)

Mudando a escala dos eixos Comandos xlim e ylim. Para visualizar o eixo 0x de 40 até 110kg, inclua o argumento xlim=c(40,110). Para visualizar o eixo 0y de 0 até 0.06, quando freq=F, inclua o argumento ylim=c(0,0.06).

Exemplo (continuação) hist(dados$peso,breaks= c(50,60,70,80,90,100), freq=F,main="Histograma dos pesos",xlab="Kg", ylab="dens.freq.rel", col="gray",xlim=c(40,110), ylim=c(0,0.06))

Exemplo (continuação) A função hist gera um objeto do R. Assim, podemos criar uma variável que recebe o objeto gerado por hist. Por exemplo, faça hist1<-hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F,main=“...”) Depois, liste o conteúdo de hist1.

Exemplo (continuação) hist1 com freq=F $breaks (LIMITES DOS INTERVALOS DE CLASSE) [1] 50 60 70 80 90 100 $counts (FREQÜÊNCIAS ABSOLUTAS DOS INTERVALOS DE CLASSE) [1] 2 20 53 23 2 $intensities [1] 0.001999996 0.020000000 0.053000000 0.023000000 0.002000000 $density (densidade de freqüência relativa=freq.rel/amp.do intervalo) $mids (PONTOS MÉDIOS DOS INTERVALOS DE CLASSE) [1] 55 65 75 85 95 $xname (NOME DO EIXO 0x) [1] "dados$peso" $equidist (VARIÁVEL LÓGICA INFORMANDO SE AS AMPLITUDES DOS INTERVALOS DE CLASSE SÃO IGUAIS (TRUE) OU DESIGUAIS (FALSE)). [1] TRUE attr(,"class") [1] "histogram"

Exemplo (continuação) Repita agora os mesmos passos com hist2<-hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=T,main=“...”)

Exemplo (continuação) > hist2 $breaks [1] 50 60 70 80 90 100 $counts [1] 2 20 53 23 2 $intensities [1] 0.001999996 0.020000000 0.053000000 0.023000000 0.002000000 $density $mids [1] 55 65 75 85 95 $xname [1] "dados$peso" $equidist [1] TRUE attr(,"class") [1] "histogram"

O que mudou? freq=F freq=T

Observações Se os intervalos de classe tiverem amplitudes desiguais, será obrigatório usar o argumento freq=F. Caso contrário, o R retornará com uma mensagem de erro. Warning message: the AREAS in the plot are wrong -- rather use `freq=FALSE'! in: plot.histogram(r, freq = freq, col = col, border = border, angle = angle,

Argumentos xlim e ylim Estes dois argumentos são muito úteis quando queremos comparar diversos histogramas. Para uma comparação, é necessário trabalhar com escalas iguais.

Ramo e folhas de peso Para estudarmos outras possibilidades de intervalos para o histograma de pesos, é interessante aqui pedir uma ramo-e-folhas dos pesos: stem(dados$peso). The decimal point is 1 digit(s) to the right of the | 5 | 79 6 | 12223344 6 | 56678888899 7 | 00000011111222222233333444 7 | 5555555666777788888889999 8 | 000111111111122223334 8 | 56667 9 | 4 9 | 6

Construindo 9 intervalos de classe A amplitude amostral é aproximadamente 97-56=41 Para 9 intervalos, podemos calcular 41/9 que é 4.555556, e arredondando para 5 temos as amplitudes das classes. Observe que ficaremos com uma amplitude total igual à 45, 4 a mais da verificada. Podemos então repartir o excesso igualmente para cima e para baixo, começando com 54 e terminando em 99: hist(dados$peso,breaks=c(54,59,64,69,74,79,84,89,94,99), col=“palegreen”,main=“Histograma dos pesos”,xlab=“kg”, ylab=“dens.freq.rel.”,freq=F)

de freqüências, não deve haver classes intermediárias vazias! Numa distribuição de freqüências, não deve haver classes intermediárias vazias! Portanto, essa distribuição deve ser refeita. Possibilidades: sugerir 8 intervalos ou juntar as duas classes finais, passando a ter classes de amplitudes desiguais.

Construa o histograma usando 8 intervalos de classe. Sugestão: breaks=c(53.5,59.5,65.5,71.5,77.5,83.5,89.5,95.5,101.5)

Continuação Sugestão: breaks=8 Lembre que 8 é apenas uma sugestão para o número de classes.

Outros argumentos da função hist right: valor lógico; se ’right=T’, os intervalos serão fechados à direita e abertos à esquerda. Se ’right=F’, os intervalos serão abertos à direita e fechados à esquerda. density: densidade das linhas que preenchem os retângulos. O default é 'NULL‘, implicando que nenhuma linha é desenhada. Valores não-positivos de ‘density' também inibem o desenho das linhas.

Argumento density Inserindo o argumento density=4, obtemos

Outros argumentos Sugerimos que os demais argumentos da função hist sejam explorados por vocês.

Exemplo 2 (alturas) Construa agora um histograma das alturas (cm), especificando os limites dos intervalos, considerando 9 intervalos. Passo 1: Magnitude dos dados para avaliar amplitude. Sugestão: Ramo-e-folhas. stem(dados$altura)

Ramo-e-folhas das alturas 14 | 1399 15 | 024555666799 16 | 0111222222334444445555666666666778888899999 17 | 0000111111222233345556667777 18 | 001222223349 19 | 4 Amplitude amostral aproximada: 195-140=55 cm Amplitude dos intervalos: 55/9=6.1111...cm Arredondamos para 7 7*9=63 (8 a mais)

Intervalos de classe hist(dados[,3],breaks=c(137, 144,151,158,165,172,179, 186,193,200),ylab=“dens. freq. Rel.”,main=“ Histograma das alturas”,xlab=“cm”,density=4)

ATIVIDADE 1) Construa agora o histograma das alturas com 7 intervalos de classe. 2) Calcule a média das alturas nesta amostra e localize-a no histograma obtido no item 2.

Histograma com 7 classes Amplitude amostral aproximada: 195-140=55 cm Amplitude dos intervalos: 55/7->7.85cm Arredondamos para 8. breaks=c(139.5,147.5,155.5,163.5,171.5,179.5,187.5,195.5)

Comando par(mfrow=c(l,n)) É possível construir vários histogramas numa única janela de gráfico. Por exemplo, se quisermos apresentar o histograma das alturas e o histograma dos pesos numa mesma janela, antes de pedir os histogramas, devemos informar que a janela conterá dois gráficos. Podemos configurar a janela com dois gráficos numa única linha ou dois gráficos numa única coluna.

Comando par(mfrow=c(l,n)) par(mfrow=c(1,2)) # uma linha duas colunas ou par(mfrow=c(2,1)) # duas linhas uma coluna. Depois é só pedir os respectivos histogramas.

hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F, par(mfrow=c(1,2)) hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F, ylab="densidade de freq. rel.",ylim=c(0,0.07),xlim=c(50,110)) hist(dados$altura, main="Histograma das alturas",xlab="cm",freq=F, ylab="densidade de freq. rel.",ylim=c(0,0.06),xlim=c(130,200))

hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F, par(mfrow=c(2,1)) hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F, ylab="densidade de freq. rel.",ylim=c(0,0.07),xlim=c(50,110)) hist(dados$altura, main="Histograma das alturas",xlab="cm",freq=F, ylab="densidade de freq. rel.",ylim=c(0,0.06),xlim=c(130,200))

Principais comandos da aula par(mfrow=c(r,s)) (especifica que deverão entrar na janela rs figuras em r linhas e s colunas) Argumentos importantes da função hist: main=“Título do Gráfico”,sub=“sub-título para o gráfico”, ylim=c(min,max) escala do eixo y, ylab=“rótulo para o eixo”, (xlim e xlab), etc. read.table (para ler bases de dados multivariadas) names (para definir nomes das variáveis que compõem o objeto) hist (constrói um histograma) stem (constrói um ramo-e-folhas)