A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

ANÁLISE EXPLORATÓRIA DE DADOS

Apresentações semelhantes


Apresentação em tema: "ANÁLISE EXPLORATÓRIA DE DADOS"— Transcrição da apresentação:

1 ANÁLISE EXPLORATÓRIA DE DADOS
R – Histograma / Medidas de Posição e Dispersão

2 Objetivos: trabalhar com dados quantitativos contínuos:
especificar intervalos de classe; construir histogramas; construir mais de um gráfico na mesma janela; definir as medidas: média, mediana e moda

3 Exemplo 1: Tipo sangüíneo, peso (em Kg) e altura (em cm).
A base de dados que será trabalhada hoje contém a informação de 100 indivíduos sobre tipo sangüíneo, peso (kg) e altura (cm). Forma dos dados na planilha com 100 linhas e três colunas. arquivo: m:\\aed\\dados1.txt Fonte: dados fictícios.

4 Exemplo (continuação)
Os dados deste exemplo podem ser obtidos como: dados<-read.table(“m:\\aed\\dados1.txt”) Observe que aqui, não usamos o argumento header=T, pois os nomes das variáveis não estão no arquivo de dados. Mas, se preferirmos, podemos definir os nomes das variáveis em dados. names(dados)<-c(“tsangue”,”peso”,”altura”)

5 Acesso aos valores Assim, você pode se referir às colunas desta base tanto usando dados[,n], em que n é o número da coluna desejada, como dados$nomedavariável. Por exemplo, para ver o conteúdo da coluna 1, podemos tanto usar dados[,1] como dados$tsangue.

6 VARIÁVEIS QUANTITATIVAS
Veremos agora como construir a distribuição de freqüências de uma variável quantitativa. Para isso, usaremos os dados do exemplo referentes ao peso e à altura dos indivíduos.

7 VARIÁVEIS QUANTITATIVAS
Se você pedir table(dados[,2]) ou table(dados[,3]) o efeito da saída será quase que reproduzir os valores observados de forma ordenada. table(dados[,2])

8 VARIÁVEIS QUANTITATIVAS
Portanto, o comando table não é, em geral, útil para dados contínuos. Ele talvez poderá ser útil se estivermos trabalhando com uma variável discreta cuja quantidade de respostas possíveis é pequena.

9 VARIÁVEIS QUANTITATIVAS
Vimos que no caso de dados contínuos, há a necessidade de se definir primeiro intervalos de classe para depois construir a tabela de freqüências e, então, usá-la para construir o histograma. O R possui uma função que pode gerar esta distribuição de forma automática.

10 VARIÁVEIS QUANTITATIVAS
Esta função também tem a flexibilidade de nos permitir fixar os intervalos ou sugerir o número de intervalos. Esta mesma função também gera o histograma dos dados e seu nome no R é hist.

11 Uso da função hist Para começar peça a função hist apenas com o argumento obrigatório que é um vetor contendo os valores para os quais queremos construir o histograma, isto é, peça hist(dados$peso).

12 Argumentos da função hist
x (obrigatório): vetor de valores para os quais deseja-se construir o histograma. breaks (opcional): um entre * vetor fornecendo os limites dos intervalos de classe, * número fornecendo o número de intervalos (é apenas uma sugestão). freq (opcional): lógica; se `freq=T', o histograma é uma representação da distribuição na escala das freqüências absolutas, se `freq=F', é uma representação na escala da densidade de freqüência relativa, que é definida como a razão entre freqüência relativa e a amplitude da classe.

13 Exemplo: argumentos breaks e freq
hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F)

14 Exemplo (continuação)
Para melhorar o gráfico podemos definir o título e os rótulos para os eixos ox e oy. hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F,main= “Histograma dos pesos”,xlab=“kg”,ylab=“dens.freq.rel”, col=“blue”)

15 Mudando a escala dos eixos
Comandos xlim e ylim. Para visualizar o eixo 0x de 40 até 110kg, inclua o argumento xlim=c(40,110). Para visualizar o eixo 0y de 0 até 0.06, quando freq=F, inclua o argumento ylim=c(0,0.06).

16 Exemplo (continuação)
hist(dados$peso,breaks= c(50,60,70,80,90,100), freq=F,main="Histograma dos pesos",xlab="Kg", ylab="dens.freq.rel", col="gray",xlim=c(40,110), ylim=c(0,0.06))

17 O que mudou? freq=F freq=T

18 Observações Se os intervalos de classe tiverem amplitudes desiguais, será obrigatório usar o argumento freq=F. Caso contrário, o R retornará com uma mensagem de erro. Warning message: the AREAS in the plot are wrong -- rather use `freq=FALSE'! in: plot.histogram(r, freq = freq, col = col, border = border, angle = angle,

19 Argumentos xlim e ylim Estes dois argumentos são muito úteis quando queremos comparar diversos histogramas. Para uma comparação, é necessário trabalhar com escalas iguais.

20 Outros argumentos Sugerimos que os demais argumentos da função hist
sejam explorados por vocês.

21 Comando par(mfrow=c(l,n))
É possível construir vários histogramas numa única janela de gráfico. Por exemplo, se quisermos apresentar o histograma das alturas e o histograma dos pesos numa mesma janela, antes de pedir os histogramas, devemos informar que a janela conterá dois gráficos. Podemos configurar a janela com dois gráficos numa única linha ou dois gráficos numa única coluna.

22 Comando par(mfrow=c(l,n))
par(mfrow=c(1,2)) # uma linha duas colunas ou par(mfrow=c(2,1)) # duas linhas uma coluna. Depois é só pedir os respectivos histogramas.

23 hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F,
par(mfrow=c(1,2)) hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F, ylab="densidade de freq. rel.",ylim=c(0,0.07),xlim=c(50,110)) hist(dados$altura, main="Histograma das alturas",xlab="cm",freq=F, ylab="densidade de freq. rel.",ylim=c(0,0.06),xlim=c(130,200))

24

25 hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F,
par(mfrow=c(2,1)) hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F, ylab="densidade de freq. rel.",ylim=c(0,0.07),xlim=c(50,110)) hist(dados$altura, main="Histograma das alturas",xlab="cm",freq=F, ylab="densidade de freq. rel.",ylim=c(0,0.06),xlim=c(130,200))

26

27 Data(islands) Os dados a seguir fazem parte do elenco de exemplos do R. Descrição: áreas em milhares de milhas quadradas das maiores massas de terra do mundo (maiores que milhas quadradas). data(islands) Formato: vetor rotulado de comprimento 48. Para mais detalhes vamos usar o help.

28 help(islands) islands package:base R Documentation
Areas of the World's Major Landmasses (áreas das maiores massas de terra do mundo) Descrição: contém as áreas em milhares de milhas quadradas das massas de terra, que excedem à milhas quadradas. Uso: data(islands) Formato: está num vetor rotulado de comprimento 48. Os rótulos referem-se ao local. Fonte: The World Almanac and Book of Facts, 1975, page 406.

29 Islands Africa Antarctica Asia Australia 11506 5500 16988 2968
Axel Heiberg Baffin Banks Borneo Britain Celebes Celon Cuba Devon Ellesmere Europe Greenland Hainan Hispaniola Hokkaido Honshu Iceland Ireland Java Kyushu Luzon Madagascar Melville Mindanao etc.

30 Medidas de posição: média e mediana
A média é a soma dos valores observados sobre o número de observações (média aritmética). No histograma, ela representa o ponto de equilíbrio.

31

32 Mediana A mediana de uma distribuição de valores é o valor que ocupa a posição central quando os dados estão ordenados. Exemplo: considere o conjunto cujos valores são 11,23,14,15,16,20 e 21. Valores ordenados: 11,14,15,16,20,21,23

33 Mediana 11,14,15,16,20,21,23 Valor que ocupa a posição central
Logo, a mediana deste conjunto é 16.

34 Média e mediana no R A função que calcula a média aritmética de um vetor de dados numéricos x é mean(x). A função mean(x,trim=0.5) também serve para retornar o valor da mediana dos dados no vetor x. Mas, também, podemos usar a função median(x).

35 Data(islands): média e mediana
mean(islands) produz median(islands) produz 41 mean(islands,trim=0.5) produz 41. Não é uma mera coincidência os dois valores acima serem iguais, pois a mediana é o valor que ocupa a posição central quando os dados estão ordenados.

36 Média e mediana (cont.) O argumento trim na função mean tem o efeito de “aparar as pontas” quando os dados estão ordenados na fração atribuída a trim, que pode ser um valor de 0 (default) até 0.5. Observe que quando trim=0.5, depois de “aparar as pontas”, sobra justamente o valor que ocupa a posição central.


Carregar ppt "ANÁLISE EXPLORATÓRIA DE DADOS"

Apresentações semelhantes


Anúncios Google