Utilizando o R. Técnicas para Predição de Dados 2 17/8/2008 Introdução ao R R é um linguagem (ambiente) de programação para computação estatística e gráfica.

Slides:



Advertisements
Apresentações semelhantes
«Forte do Bom Sucesso (Lisboa) – Lápides 1, 2, 3» «nomes gravados, 21 de Agosto de 2008» «Ultramar.TerraWeb»
Advertisements

Utilizando o R.
Programação em Java Prof. Maurício Braga
Introdução ao processamento de dados e à estatística - parte 02
Geração de Tráfego Auto-Similar e Estimação do Parâmetro de Hurst através do método R/S Thiago Souto Maior.
Data: 10 a 12 de fevereiro de 2009 e
Palestras, oficinas e outras atividades
ESTATÍSTICA INFERÊNCIA ESTATÍSTICA
Operações envolvendo imagens
Introdução à Programação usando Processing Programação Gráfica 2D Animações Exercício Animações 14/10/09 Bruno C. de Paula 2º Semestre 2009 > PUCPR >
14/10/09 Uma animação possui: Início; Passo; Fim; 1.
Exercício do Tangram Tangram é um quebra-cabeças chinês no qual, usando 7 peças deve-se construir formas geométricas.
Nome : Resolve estas operações começando no centro de cada espiral. Nos rectângulos põe o resultado de cada operação. Comprova se no final.
Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 2.
Introdução aos Computadores e Programação DI-FCT-UNL-2004/2005 Introdução 1.1 Octave Introdução.
Múltiplos Os múltiplos de um número inteiro obtêm-se multiplicando esse número por 0, 1, 2, 3, 4, 5, 6, ... Exemplos: M5= {0, 5, 10, 15, 20,
Excel Profa. Cristina M. Nunes.
Estatística Descritiva Aula 02
Análise de regressão linear simples: abordagem matricial
Vi 1 Editando com vi. vi 2 Por que vi? l Editar arquivos de configuração l Editar scripts de shell l Disponível em todas as distribuições l Necessita.
1 MODELAGEM COM A UML (UNIFIED MODELING LANGUAGE) BREVE HISTÓRICO CARACTERÍSTICAS CONCEITOS DE PROGRAMAÇÃO ORIENTADA A OBJETOS MODELAGEM DE ANÁLISE E DE.
Estatística Básica Utilizando o Excel
Estatística 8 - Distribuições Amostrais
BCC101 – Matemática Discreta
Rganização de Computadores Melhorias de Desempenho com Pipelines Capítulo 6 – Patterson & Hennessy Organização de Computadores Melhorias de Desempenho.
R Profa. Suzi
Auditoria de Segurança da Informação
Classes e objetos Arrays e Sobrecarga
INTRODUÇÃO À PROGRAMAÇÃO
Provas de Concursos Anteriores
Geração de random variates
ESTATÍSTICA.
Financeiro - Cadastro de Conta Contábil
ESTATÍSTICA.
R BÁSICO PARA D ATA M INING Diego Cesar F. de Queiroz - dcfq.
BIO Métodos Quantitativos Aplicados à Ecologia
Fórmulas Estatísticas MS Excel®
Estatística Descritiva (I)
ME623A Planejamento e Pesquisa
ME623 Planejamento e Pesquisa
4. Experimentos em Blocos
Mestrado Profissional em Gestão Ambiental
Conceitos básicos1, aula 4
Estatística Conceitos básicos1.
1 ESTATÍSTICA. 2 UDIII - Relação Entre Duas ou Mais Variáveis ESTATÍSTICA Ass 01: Regressão Simples.
ESTATÍSTICA.
Aula 02 Variáveis, Matrizes, Gráficos
Quais são, suas médias, medianas e modas?
Quais são, suas médias, medianas e modas?
Principais operações em Listas TPA Listas Simples Inserção no Final 1.void insereNofinalDaLista(Lista *l, Elemento e){ 2.Lista paux,p; 3. p.
ESTATÍSTICA.
É u m e l e m e n t o f u n d a m e n t a l
Mestrado Profissional em Gestão Ambiental
Utilizando o R. Técnicas para Predição de Dados2 17/8/2008 Amostragem aleatória  sample (1:40,5) Jogando moedas com reposição  sample (c(“H”,”T”),10,replace=T)
ANÁLISE ESTATÍSTICA II
1 2 Observa ilustração. Cria um texto. Observa ilustração.
CALENDÁRIO SEXY Ele & Ela. CALENDÁRIO SEXY Ele & Ela.
Exercício - 1. Criar no SPSS o banco de dados com as informações fornecidas 2. Salvar o banco com o nome atividade física na pasta pos pilates 3.
Diagramas de Venn e de Carroll Não se chamam propriamente ferramentas/instrumentos estatísticos mas ajudam a organizar de uma forma simples alguns tipos.
Rio Verde - Goiás - Brasil
Professor Antonio Carlos Coelho
POTENCIAÇÃO E RAIZ QUADRADA DE NÚMEROS RACIONAIS
Medidas Descritivas ESTATISTICA Aula 5 PROF: CÉLIO SOUZA.
Medidas de tendência central e de dispersão
Modelagem Estatística
GINÁSTICA LABORAL UM NOVO CAMINHO.
Contagem Sequencial do Estoque
MATLAB - Matrix Laboratory Adaptado de Profa
Regressão e Previsão Numérica.
Monitoria de Estatística e Probabilidade para Computação
Transcrição da apresentação:

Utilizando o R

Técnicas para Predição de Dados 2 17/8/2008 Introdução ao R R é um linguagem (ambiente) de programação para computação estatística e gráfica Baseada na linguagem S (S-Plus) O ambiente R é flexível Pode ser estendido através de pacotes Open source e gratuito

Técnicas para Predição de Dados 3 17/8/2008 Introdução ao R Desenvolva um pacote e torne-se um colaborador do projeto Homepage do projeto O R é atualizado pelo menos a cada 6 meses R version has been released on

Técnicas para Predição de Dados 4 17/8/2008 Introdução ao R Códigos desenvolvidos em versões anteriores podem não funcionar em versões mais recentes Existem ferramentas GUI para o R

Técnicas para Predição de Dados 5 17/8/2008 Instalando o R O pacote R e os principais manuais podem ser obtidos a partir ou em um mirror Siga as instruções para instalar o pacote base do R Não esqueça de instalar os manuais on-line

Técnicas para Predição de Dados 6 17/8/2008 Instalando o R Instalando pacotes de dados Do livro Introdutory Statistics with R chooseCRANmirror() install.packages(ISwR", dependencies = TRUE) library (ISwR) Do livro Data Analysis and Graphics Using R install.packages(DAAG", dependencies = TRUE) library (DAAG)

Técnicas para Predição de Dados 7 17/8/2008 Primeiros passos Somando dois valores Atribuindo uma operação a uma variável a = a < Para ver o resultado, digite a variável a [1] 4 ou print (a)

Técnicas para Predição de Dados 8 17/8/2008 Primeiros passos Entrando com dados com concatenate valores = c (6,7,4,3,2,0,0,6) valores OBS 1: Dados são armazenados no R como um vetor a=4 a[1] OBS 2: O índice da primeira posição do vetor é 1 OBS 3: Comentários devem ser precedidos por # Aplicando funções a um conjunto de dados length (valores) min (valores) max (valores)

Técnicas para Predição de Dados 9 17/8/2008 Primeiros passos Para sair >q () Para ajuda >help ( ) Se não sabe o nome corretamente >help.search ( ) >apropos(parte do nome do comando)

Técnicas para Predição de Dados 10 17/8/2008 Gerando valores vetor <- c(1:9) vetor = (1:9) vetor = (9:1) seq(1, 9, by = 2) seq(1, 9, by = pi ) seq(1, 9, by = 0.5) rep(1,10) rep(vetor,5) rep (vetor, each = 5)

Técnicas para Predição de Dados 11 17/8/2008 Matrizes m <- matrix(c(1,2,3,11,12,13), nrow = 2, ncol=3, byrow=TRUE, dimnames = list(c(linha1", linha2"), c(col1,col2,col3))) >m Experimente retirar a cláusula byrow

Técnicas para Predição de Dados 12 17/8/2008 Matrizes x <- matrix(1:9,nrow=3)matrix x [,1] [,2] [,3] [1,] [2,] [3,] 3 6 9

Técnicas para Predição de Dados 13 17/8/2008 Operações matemáticas entre números (incluindo constantes e variáveis simples) soma: + subtração: - produto: * divisão: / potência: ^ divisão inteira: % / % mod: %

Técnicas para Predição de Dados 14 17/8/2008 Operações matemáticas entre matrizes e números: se x é uma matriz, temos: soma: x + 2 subtração: x - 2 produto: x * 2 divisão: x / 2 potência: x ^ 2 divisão inteira: x % / % 2 mod: x % 2

Técnicas para Predição de Dados 15 17/8/2008 Operações matemáticas entre matrizes: se x e y são matrizes, temos: soma: x + y subtração: x - y produto: x %*% y

Técnicas para Predição de Dados 16 17/8/2008 Operadores lógicos maior que: >, >= menor que: <, <= igual a: == diferente de: != para expressões: and: & or: | not: !

Técnicas para Predição de Dados 17 17/8/2008 Exemplo peso = c (60, 72, 57, 90, 95, 72) altura= c(1.75, 1.80, 1.65, 1.90, 1.74, 1.91) nome=c(jó, josé,joão, zé, noé, mané) peso > 70 peso (peso > 70) nome [(peso > 70)] nome [(peso > 70) & (peso < 80)] IMC = peso / altura ^ 2 nome [IMC > 25]

Técnicas para Predição de Dados 18 17/8/2008 Operações básicas com vetores Somatório sum( ) Produtório prod( ) Tamanho do vetor length( ) Ordenação sort( )

Técnicas para Predição de Dados 19 17/8/2008 Operações básicas Valor absoluto abs( ) Raíz quadrada sqrt( )

Técnicas para Predição de Dados 20 17/8/2008 Operações estatísticas Média aritmética mean( ) Mediana median( ) Desvio padrão sd( )

Técnicas para Predição de Dados 21 17/8/2008 Exemplos Média aritmética mean(peso) ou Media = sum (peso) / length (peso) Mediana median( ) ou hist (peso) Desvio padrão sd(peso) ou mediaPeso= sum (peso) / length (peso) sqrt (sum((peso - mediaPeso) ^ 2)/ (length (peso) - 1))

Técnicas para Predição de Dados 22 17/8/2008 Operações estatísticas Variância var ( ) Covariância cov(, ) Correlação cor(, ) Regressão simples lm (y~x)

Técnicas para Predição de Dados 23 17/8/2008 Missing values Algumas operações podem retornar resultados inexistentes, chamadosmissing values Inf: infinito positivo -Inf: infinito negativo NaN: Not a Number NA: Not Available

Técnicas para Predição de Dados 24 17/8/2008 Missing values Existem funções para testar se algum desses valores foi retornado is.finite(x) is.infinite(x) is.nan(x) onde x pode ser um vetor

Técnicas para Predição de Dados 25 17/8/2008 exemplos is.finite (peso[5]) is.finite (peso[5]/0) is.na (peso[10]) onde x pode ser um vetor

Técnicas para Predição de Dados 26 17/8/2008 Geração de números Uniformes runif(n, min, max) Normais rnorm(n, média, desvio padrão) t-Student rt(n, graus de liberdade) Qui-Quadrado rchisq(n, graus de liberdade)

Técnicas para Predição de Dados 27 17/8/2008 Geração de gráficos x=c(1:9) y=c(1:9) plot(x,y) plot(x,y,xlab=valores de x, ylab=valores de y) plot(x,y,type=l)

Técnicas para Predição de Dados 28 17/8/2008 Geração de gráficos x=rnorm(500,0,1) mean(x) median(x) sd(x) var(x) hist(x)

Técnicas para Predição de Dados 29 17/8/2008 Lendo arquivos de dados O arquivo datafile.dat é composto pelos seguintes dados: Tamanho lote de terra homens/hora necessários para uma determinada atividade (arar, limpar, colher, plantar)

Técnicas para Predição de Dados 30 17/8/2008 Lendo arquivos de dados Ajustando o diretório de trabalho setwd(c:/temp) Para ler arquivos com nomes de colunas na primeira linha, use dataset <- read.table (datafile.dat, header=TRUE) Para obter os vetores dataset$tamanho_lote dataset$homens_hora

Técnicas para Predição de Dados 31 17/8/2008 Lendo arquivos – parte II Ajustando o diretório de trabalho setwd(c:/temp) Para ler arquivos sem nomes de colunas na primeira linha, use dataset <- scan (datafile2.dat, what=list (x=0,y=0)) Para obter os vetores dataset$x dataset$y

Técnicas para Predição de Dados 32 17/8/2008 Lendo dados – parte III stack.dat<-scan(what=list(tamanho_lote=0,homens_hora=0)) attach (stack.dat) stack.dat$tamanho_lote stack dat$homens_hora Os comandos acima podem ser inseridos em um arquivo ou diretamente a partir da linha de comando do R

Técnicas para Predição de Dados 33 17/8/2008 Lendo arquivos de dados O arquivo datafile3.dat é composto por dados que representam o nome do aluno e a natureza do ensino de nível médio joao publico mario privado cristiano privado maria publico talita privado mariana privado adelia publico monique publico carlos privado bruno privado

Técnicas para Predição de Dados 34 17/8/2008 Lendo arquivos – parte IV Ajustando o diretório de trabalho setwd(c:/temp) Para ler arquivos com nomes de colunas na primeira linha, use dataset <- scan (datafile3.dat, what=list (x=,y=)) Para obter os vetores dataset$x dataset$y

Técnicas para Predição de Dados 35 17/8/2008 Lendo arquivos – parte V Para ler arquivos separados por vírgula ou ponto e vírgula, use dados <-read.csv(dados.csv", sep=";", dec=",",header=FALSE) Para obter os vetores dados$x dados$y

Técnicas para Predição de Dados 36 17/8/2008 Entrando com dados no R Usando a função edit() dados <- edit(data.frame())

Técnicas para Predição de Dados 37 17/8/2008 O pacote Rcmdr > library(Rcmdr)

Técnicas para Predição de Dados 38 17/8/2008 Usando pacotes Carregando um pacote no workspace library ( ) Site com pacotes de colaboradores Instalando pacotes options (CRAN=" Install.packages ( )

Técnicas para Predição de Dados 39 17/8/2008 Conselhos úteis Ler os manuais no site do projeto CRAN Usar a página wiki do projeto CRAN Usar ao invés do googlehttp:// Aprender com os errros ?lm dá uma ajuda sobre a função lm. Ler arquivos de help pode ajudar bastante Assine a lista do R ( Crie seu script personalizado de bibliotecas

Técnicas para Predição de Dados 40 17/8/2008 Exercício 1 setwd(c:/temp) trabalho=scan(datafile2.dat, what=list (x=0,y=0)) attach (trabalho) x=trabalho$x y=trabalho$y plot (x,y, xlab=valores de x, ylab=valores de y) ajuste=lm(y~x) summary (ajuste) abline (ajuste)

Técnicas para Predição de Dados 41 17/8/2008 Exercício 2 (montgomery) Um motor de foguete é fabricado unindo um propelente de ignição a um propelente para manter o foguete em vôo. O poder da força da junção dos propelentes é uma característica de qualidade importante. Suspeita-se que o poder dessa força está relacionado com a idade do recipiente do propelente. O arquivo de dados datafile4.dat contém os dados relativos a 20 observações da força da junção comparados com a idade do recipiente do propelente.

Técnicas para Predição de Dados 42 17/8/2008 Exercício 2 (montgomery) Plote o gráfico de dispersão. Encontre covariância entre os dois vetores de dados Encontre a correlação entre os dois vetores de dados Encontre a média dos dois vetores de dados Encontre os valores de S xx e S xy Encontre os estimadores β 0 e β 1 Dado o modelo y = β 0 + β 1 x, encontre os valores ajustados para a variável resposta para cada observação da variável explicativa Encontre o resíduo e i e verifique se e i = 0 Finalmente, aplique os métodos do exercício 1 ao arquivo datafile4.dat e compare os resultados. A tabela 2.2 do livro do montgomery apresenta os resultados acima.

Utilizando o R