A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Utilizando o R. Técnicas para Predição de Dados 2 17/8/2008 Introdução ao R R é um linguagem (ambiente) de programação para computação estatística e gráfica.

Apresentações semelhantes


Apresentação em tema: "Utilizando o R. Técnicas para Predição de Dados 2 17/8/2008 Introdução ao R R é um linguagem (ambiente) de programação para computação estatística e gráfica."— Transcrição da apresentação:

1 Utilizando o R

2 Técnicas para Predição de Dados 2 17/8/2008 Introdução ao R R é um linguagem (ambiente) de programação para computação estatística e gráfica Baseada na linguagem S (S-Plus) O ambiente R é flexível Pode ser estendido através de pacotes Open source e gratuito

3 Técnicas para Predição de Dados 3 17/8/2008 Introdução ao R Desenvolva um pacote e torne-se um colaborador do projeto Homepage do projeto http://cran.r-project.org/ O R é atualizado pelo menos a cada 6 meses R version 2.9.0 has been released on 2009- 12-14.

4 Técnicas para Predição de Dados 4 17/8/2008 Introdução ao R Códigos desenvolvidos em versões anteriores podem não funcionar em versões mais recentes Existem ferramentas GUI para o R http://www.sciviews.org/Tinn-R/index.html

5 Técnicas para Predição de Dados 5 17/8/2008 Instalando o R O pacote R e os principais manuais podem ser obtidos a partir http://cran.r-project.org/ ou em um mirror Siga as instruções para instalar o pacote base do R Não esqueça de instalar os manuais on-line

6 Técnicas para Predição de Dados 6 17/8/2008 Instalando o R Instalando pacotes de dados Do livro Introdutory Statistics with R chooseCRANmirror() install.packages(ISwR", dependencies = TRUE) library (ISwR) Do livro Data Analysis and Graphics Using R install.packages(DAAG", dependencies = TRUE) library (DAAG)

7 Técnicas para Predição de Dados 7 17/8/2008 Primeiros passos Somando dois valores 2 + 2 Atribuindo uma operação a uma variável a = 2 + 2 a <- 2 + 2 Para ver o resultado, digite a variável a [1] 4 ou print (a)

8 Técnicas para Predição de Dados 8 17/8/2008 Primeiros passos Entrando com dados com concatenate valores = c (6,7,4,3,2,0,0,6) valores OBS 1: Dados são armazenados no R como um vetor a=4 a[1] OBS 2: O índice da primeira posição do vetor é 1 OBS 3: Comentários devem ser precedidos por # Aplicando funções a um conjunto de dados length (valores) min (valores) max (valores)

9 Técnicas para Predição de Dados 9 17/8/2008 Primeiros passos Para sair >q () Para ajuda >help ( ) Se não sabe o nome corretamente >help.search ( ) >apropos(parte do nome do comando)

10 Técnicas para Predição de Dados 10 17/8/2008 Gerando valores vetor <- c(1:9) vetor = (1:9) vetor = (9:1) seq(1, 9, by = 2) seq(1, 9, by = pi ) seq(1, 9, by = 0.5) rep(1,10) rep(vetor,5) rep (vetor, each = 5)

11 Técnicas para Predição de Dados 11 17/8/2008 Matrizes m <- matrix(c(1,2,3,11,12,13), nrow = 2, ncol=3, byrow=TRUE, dimnames = list(c(linha1", linha2"), c(col1,col2,col3))) >m Experimente retirar a cláusula byrow

12 Técnicas para Predição de Dados 12 17/8/2008 Matrizes x <- matrix(1:9,nrow=3)matrix x [,1] [,2] [,3] [1,] 1 4 7 [2,] 2 5 8 [3,] 3 6 9

13 Técnicas para Predição de Dados 13 17/8/2008 Operações matemáticas entre números (incluindo constantes e variáveis simples) soma: + subtração: - produto: * divisão: / potência: ^ divisão inteira: % / % mod: %

14 Técnicas para Predição de Dados 14 17/8/2008 Operações matemáticas entre matrizes e números: se x é uma matriz, temos: soma: x + 2 subtração: x - 2 produto: x * 2 divisão: x / 2 potência: x ^ 2 divisão inteira: x % / % 2 mod: x % 2

15 Técnicas para Predição de Dados 15 17/8/2008 Operações matemáticas entre matrizes: se x e y são matrizes, temos: soma: x + y subtração: x - y produto: x %*% y

16 Técnicas para Predição de Dados 16 17/8/2008 Operadores lógicos maior que: >, >= menor que: <, <= igual a: == diferente de: != para expressões: and: & or: | not: !

17 Técnicas para Predição de Dados 17 17/8/2008 Exemplo peso = c (60, 72, 57, 90, 95, 72) altura= c(1.75, 1.80, 1.65, 1.90, 1.74, 1.91) nome=c(jó, josé,joão, zé, noé, mané) peso > 70 peso (peso > 70) nome [(peso > 70)] nome [(peso > 70) & (peso < 80)] IMC = peso / altura ^ 2 nome [IMC > 25]

18 Técnicas para Predição de Dados 18 17/8/2008 Operações básicas com vetores Somatório sum( ) Produtório prod( ) Tamanho do vetor length( ) Ordenação sort( )

19 Técnicas para Predição de Dados 19 17/8/2008 Operações básicas Valor absoluto abs( ) Raíz quadrada sqrt( )

20 Técnicas para Predição de Dados 20 17/8/2008 Operações estatísticas Média aritmética mean( ) Mediana median( ) Desvio padrão sd( )

21 Técnicas para Predição de Dados 21 17/8/2008 Exemplos Média aritmética mean(peso) ou Media = sum (peso) / length (peso) Mediana median( ) ou hist (peso) Desvio padrão sd(peso) ou mediaPeso= sum (peso) / length (peso) sqrt (sum((peso - mediaPeso) ^ 2)/ (length (peso) - 1))

22 Técnicas para Predição de Dados 22 17/8/2008 Operações estatísticas Variância var ( ) Covariância cov(, ) Correlação cor(, ) Regressão simples lm (y~x)

23 Técnicas para Predição de Dados 23 17/8/2008 Missing values Algumas operações podem retornar resultados inexistentes, chamadosmissing values Inf: infinito positivo -Inf: infinito negativo NaN: Not a Number NA: Not Available

24 Técnicas para Predição de Dados 24 17/8/2008 Missing values Existem funções para testar se algum desses valores foi retornado is.finite(x) is.infinite(x) is.nan(x) onde x pode ser um vetor

25 Técnicas para Predição de Dados 25 17/8/2008 exemplos is.finite (peso[5]) is.finite (peso[5]/0) is.na (peso[10]) onde x pode ser um vetor

26 Técnicas para Predição de Dados 26 17/8/2008 Geração de números Uniformes runif(n, min, max) Normais rnorm(n, média, desvio padrão) t-Student rt(n, graus de liberdade) Qui-Quadrado rchisq(n, graus de liberdade)

27 Técnicas para Predição de Dados 27 17/8/2008 Geração de gráficos x=c(1:9) y=c(1:9) plot(x,y) plot(x,y,xlab=valores de x, ylab=valores de y) plot(x,y,type=l)

28 Técnicas para Predição de Dados 28 17/8/2008 Geração de gráficos x=rnorm(500,0,1) mean(x) median(x) sd(x) var(x) hist(x)

29 Técnicas para Predição de Dados 29 17/8/2008 Lendo arquivos de dados O arquivo datafile.dat é composto pelos seguintes dados: Tamanho lote de terra homens/hora necessários para uma determinada atividade (arar, limpar, colher, plantar) 30 73 20 50 60 128 80 170 40 87 50 108 60 135 30 69 70 148 60 132

30 Técnicas para Predição de Dados 30 17/8/2008 Lendo arquivos de dados Ajustando o diretório de trabalho setwd(c:/temp) Para ler arquivos com nomes de colunas na primeira linha, use dataset <- read.table (datafile.dat, header=TRUE) Para obter os vetores dataset$tamanho_lote dataset$homens_hora

31 Técnicas para Predição de Dados 31 17/8/2008 Lendo arquivos – parte II Ajustando o diretório de trabalho setwd(c:/temp) Para ler arquivos sem nomes de colunas na primeira linha, use dataset <- scan (datafile2.dat, what=list (x=0,y=0)) Para obter os vetores dataset$x dataset$y

32 Técnicas para Predição de Dados 32 17/8/2008 Lendo dados – parte III stack.dat<-scan(what=list(tamanho_lote=0,homens_hora=0)) 30 73 20 50 60 128 80 170 40 87 50 108 60 135 attach (stack.dat) stack.dat$tamanho_lote stack dat$homens_hora Os comandos acima podem ser inseridos em um arquivo ou diretamente a partir da linha de comando do R

33 Técnicas para Predição de Dados 33 17/8/2008 Lendo arquivos de dados O arquivo datafile3.dat é composto por dados que representam o nome do aluno e a natureza do ensino de nível médio joao publico mario privado cristiano privado maria publico talita privado mariana privado adelia publico monique publico carlos privado bruno privado

34 Técnicas para Predição de Dados 34 17/8/2008 Lendo arquivos – parte IV Ajustando o diretório de trabalho setwd(c:/temp) Para ler arquivos com nomes de colunas na primeira linha, use dataset <- scan (datafile3.dat, what=list (x=,y=)) Para obter os vetores dataset$x dataset$y

35 Técnicas para Predição de Dados 35 17/8/2008 Lendo arquivos – parte V Para ler arquivos separados por vírgula ou ponto e vírgula, use dados <-read.csv(dados.csv", sep=";", dec=",",header=FALSE) Para obter os vetores dados$x dados$y

36 Técnicas para Predição de Dados 36 17/8/2008 Entrando com dados no R Usando a função edit() dados <- edit(data.frame())

37 Técnicas para Predição de Dados 37 17/8/2008 O pacote Rcmdr > library(Rcmdr)

38 Técnicas para Predição de Dados 38 17/8/2008 Usando pacotes Carregando um pacote no workspace library ( ) Site com pacotes de colaboradores http://cran.r-project.org/web/packages/ Instalando pacotes options (CRAN="http://cran.r-project.org") Install.packages ( )

39 Técnicas para Predição de Dados 39 17/8/2008 Conselhos úteis Ler os manuais no site do projeto CRAN Usar a página wiki do projeto CRAN http://wiki.r-project.org/ Usar http://www.rseek.org/ ao invés do googlehttp://www.rseek.org/ Aprender com os errros ?lm dá uma ajuda sobre a função lm. Ler arquivos de help pode ajudar bastante Assine a lista do R (https://stat.ethz.ch/mailman/listinfo/r-help)https://stat.ethz.ch/mailman/listinfo/r-help Crie seu script personalizado de bibliotecas

40 Técnicas para Predição de Dados 40 17/8/2008 Exercício 1 setwd(c:/temp) trabalho=scan(datafile2.dat, what=list (x=0,y=0)) attach (trabalho) x=trabalho$x y=trabalho$y plot (x,y, xlab=valores de x, ylab=valores de y) ajuste=lm(y~x) summary (ajuste) abline (ajuste)

41 Técnicas para Predição de Dados 41 17/8/2008 Exercício 2 (montgomery) Um motor de foguete é fabricado unindo um propelente de ignição a um propelente para manter o foguete em vôo. O poder da força da junção dos propelentes é uma característica de qualidade importante. Suspeita-se que o poder dessa força está relacionado com a idade do recipiente do propelente. O arquivo de dados datafile4.dat contém os dados relativos a 20 observações da força da junção comparados com a idade do recipiente do propelente.

42 Técnicas para Predição de Dados 42 17/8/2008 Exercício 2 (montgomery) Plote o gráfico de dispersão. Encontre covariância entre os dois vetores de dados Encontre a correlação entre os dois vetores de dados Encontre a média dos dois vetores de dados Encontre os valores de S xx e S xy Encontre os estimadores β 0 e β 1 Dado o modelo y = β 0 + β 1 x, encontre os valores ajustados para a variável resposta para cada observação da variável explicativa Encontre o resíduo e i e verifique se e i = 0 Finalmente, aplique os métodos do exercício 1 ao arquivo datafile4.dat e compare os resultados. A tabela 2.2 do livro do montgomery apresenta os resultados acima.

43 Utilizando o R


Carregar ppt "Utilizando o R. Técnicas para Predição de Dados 2 17/8/2008 Introdução ao R R é um linguagem (ambiente) de programação para computação estatística e gráfica."

Apresentações semelhantes


Anúncios Google