Monitoria de Estatística e Probabilidade para Computação

Slides:



Advertisements
Apresentações semelhantes
Criando aplicações WEB
Advertisements

Utilizando o R. Técnicas para Predição de Dados 2 17/8/2008 Introdução ao R R é um linguagem (ambiente) de programação para computação estatística e gráfica.
Administração de sistemas operacionais
Shell Script Professor: João Paulo
Introdução a Programação Renata Freire
THOBER CORADI DETOFENO, MSC. Aula 07
Folha de cálculo Conceitos básicos Criação de uma folha de cálculo
Estatística e Probabilidade
Prof. Natalia Castro Fernandes Mestrado em Telecomunicações – UFF 2º semestre/2012.
R BÁSICO PARA D ATA M INING Diego Cesar F. de Queiroz - dcfq.
Aula – Introdução ao Excel. Nesta aula serão apresentados os conceitos básicos sobre o Microsoft Excel.
Mestrado Profissional em Gestão Ambiental
Prof. Natalia Castro Fernandes Engenharia de Telecomunicações – UFF 2º semestre/2012.
Prof. Natalia Castro Fernandes Mestrado em Telecomunicações – UFF 2º semestre/2012.
Linguagem de Programação II Parte VII
Linguagem de Programação II Parte IX
FOLHA DE CÁLCULO.
Treinamento do Microsoft® Access® 2010
VALORES ESPERADOS.
Estatística Para um dado conjunto de dados, podemos calcular as seguintes grandezas: 1) Medidas de posição 2) Medidas de dispersão 3) Parâmetros de simetria.
Interpretador Python.
Mestrado Profissional em Gestão Ambiental
Amostragem Pontos mais importantes:
Matlab Mini Curso PET 2012.
Linguagem de Programação JAVA
Vetores Imagine que você tem que receber o nome e a nota de 50 alunos de uma escola, e depois listar o nome de cada um e a média final de cada aluno e.
Linguagem de Programação JAVA Técnico em Informática Professora Michelle Nery.
Linux Prof. Fabio Santos, D.Sc
FTAD Formação Técnica em Administração
09/04/2017 Linux Comandos básicos.
Aula 05 Distribuição de freguência Prof. Diovani Milhorim
Matemática Financeira
Programação e Aplicações Gráficas
Funções Matemáticas e de String
Acabias Marques Luiz. I - Introdução ao Ruby Parte 1 – Introdução a linguagem  O que é Ruby  Instalação  O IRB  Operadores Aritméticos  Tipos de.
Introdução ao MATLAB 5.3 para Hidrólogos
Programação I Aula 4 (Expressões Booleanas e Expressões de Seleção) Prof. Gilberto Irajá Müller Última atualização 17/3/2009.
SQLite Banco de Dados II.
Aula Prática 1 Monitoria IP/CC (~if669) (A partir do slide elaborado por Luís Gabriel)
DISTRIBUIÇÃO NORMAL.
Série Geográfica (espaço).
Acabias Marques Luiz. III – Variáveis, constantes e executáveis Parte 1 – Introdução a linguagem  Variáveis e Constantes  Atalhos na manipulação de.
Editor de Texto do Dosvox
Programação Computacional Aula 8: Entrada e Saída pelo Console Prof a. Madeleine Medrano
Separatrizes Quartis Decis Percentis TIPOS:
Aula Prática 1 Aula de Apresentação Monitoria
 A linguagem Java tem diversas classes para a manipulação dos conjuntos de dados. Esses dados podem ser organizados de duas maneiras diferentes: ◦ Vetores.
Noções de Estatística - I
Shell Script Parte 2.
Metodologia da Pesquisa em Ensino de Ciências I
Profº Cláudio Barbosa VBScript Introdução  Visual Basic - Linguagem de uso geral da Microsoft.  VBScript (Visual Basic.
Felipe Nunes Flores – Programa de Educação Tutorial.
R – Funções, Gráficos e Tabelas
Distribuição Normal de Probabilidade
Linguagem de Programação
Programação para Web I AULA 2 BANCO DE DADOS.
Matemática Financeira
Profª Dalila Borges Justino Lins
Sistemas para Internet Algoritmos e Lógica de Programação
Arrays Outline 7.1 Introdução 7.2 Arrays 7.3 Declarando e Criando Arrays 7.4 Exemplos usando arrays 7.5 Ordenando arrays 7.6 Procurando em.
Coordenação de Ensino - Duque de Caxias OpenOffice Calc Fórmulas e Funções.
MEDIDAS DE DISPERSÃO Profa Ana Clara Guedes. MEDIDAS DE DISPERSÃO Observe os dois quadros abaixo e compare a Dispersão dos pontos azuis, em torno do ponto.
Aula Prática 1 Aula de apresentação Monitoria
CEPZ1 – 2015 – AULA 06 PROFESSORA: BRUNA CAVALLINI E RODRIGUES
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Distribuição. de freqüência
Felipe Nunes Flores – Programa de Educação Tutorial.
Informática – Senai. Include e Require O PHP tem duas formas normalmente usadas para incluir o conteúdo de um arquivo PHP, em uma outra página. São elas:
Como Usar a Linguagem de Programação R. I. Introdução J M Fernandes.
Folha de cálculo - EXCEL. O que é a folha de cálculo Folha de cálculo integrada: – Funções de base de dados – Possibilidade de criação de gráficos – Ferramentas.
Transcrição da apresentação:

Monitoria de Estatística e Probabilidade para Computação R – Conceitos Básicos Monitoria de Estatística e Probabilidade para Computação

Introdução ao R R é um linguagem (ambiente) de programação para computação estatística e gráfica Baseada na linguagem S (S-Plus) O ambiente R é flexível Pode ser estendido através de pacotes Open source e gratuito Homepage do projeto: http://cran.r-project.org/ Utilizando o R

Introdução ao R No projeto, pode ser usado tanto o R em console ou para Windows, quanto IDEs IDE recomendada: Rstudio (http://www.rstudio.com/) Disponível para Windows, Linux e Ubuntu Instalado apenas nos PCs dos Grads 1 e 5 Utilizando o R

Instalando o R O pacote R e os principais manuais podem ser obtidos a partir do site http://cran.r-project.org/ ou em um mirror Versões para Windows, Linux e Mac No Ubuntu, basta instalar a partir da central de aplicativos, ou executar no terminal: sudo apt-get install r-base Utilizando o R

Utilizando o R pela primeira vez O R é tanto uma linguagem de linha de comando quanto de execução de scripts Ou seja, é possível executar comandos como um terminal, e também desenvolver e executar scripts No Windows, a interface contém um terminal e um editor de scripts No Linux, o R só é acessível pelo terminal (digite R para abrir) Executando linhas de comando Atalho: Ctrl + R (Windows) Utilizando o R

RGui Console Editor de Scripts Utilizando o R

RStudio Variáveis/ Histórico de comandos Editor de scripts Arquivos/ Plots/ Pacotes/ Ajuda Console Utilizando o R

Primeiros passos Atribuições de variáveis > string = "Hello World" > a <- 2 + 2 > 2 + 2 -> a Para ver o conteúdo de uma variável > a [1] 4 > print(a) > string [1] "Hello World" Utilizando o R

Tipos básicos de dados Numérico Caractere Lógico > b = 7 / 0 # Infinite value > c = 0 / 0 # Not a Number Caractere > c = "Hello World" Lógico > d = (7 > 3) NA # Not avaliable Obs.: para se determinar o tipo de uma variável, pode-se usar as funções mode(), typeof() ou class() Utilizando o R

Observações importantes Comandos são separados por “;” ou por novas linhas b = 2 + 2; print(b) [1] 4 Para ajuda > help(<nome do comando>) > ?<nome do comando> Se não sabe o nome corretamente > help.search("<parte do comando>") > apropos("parte do nome do comando") Utilizando o R

Operadores R suporta uma série de operadores matemáticos para variáveis numéricas, bem como operadores lógicos para variáveis booleanas +, -, *, /, ^, %/% (divisão inteira), %% (mod) > , >=, < , <=, ==, != &, |, ! Os operadores podem ser utilizados tanto em valores únicos quanto em vetores! Obs.: para concatenação de strings, utilize a função paste() Utilizando o R

Vetores Entrando com dados com "c"oncatenate > valores = c(6, 7, 4, 3, 2, 0, 0, 6) > valores [1] 6 7 4 3 2 0 0 6 Inserindo e editando variáveis > data.entry(x) > x = de(x) > x = edit(x) Utilizando o R

Vetores Selecionando valores de vetores > valores[1] # O índice da primeira posição do vetor é 1 [1] 6 > valores[4] [1] 3 > valores[3:5] [1] 3 2 0 > valores[-3] # Seleciona todos os valores, menos o terceiro [1] 6 7 3 2 0 0 6 Todos os dados são armazenados no R como vetores > a = 4 > a[1] [1] 4 Utilizando o R

Gerando valores automaticamente > vetor <- c(1:9) > vetor = (1:9) > vetor = (9:1) > seq(1, 9, by = 2) > seq(1, 9, by = pi) > seq(1, 9, by = 0.5) > rep(1, 10) > rep(vetor, 5) > rep(vetor, each = 5) Utilizando o R

Compreensão de listas > peso = c(60, 72, 57, 90, 95, 72) > altura = c(1.75, 1.80, 1.65, 1.90, 1.74, 1.91) > nome = c("jó", "josé", "joão", "zé", "noé", "mané") > peso > 70 > peso [peso > 70] > nome [(peso > 70)] > nome [(peso > 70) & (peso < 80)] > IMC = peso / altura ^ 2 > Nome [IMC > 25] Utilizando o R

Operações básicas com vetores Somatório sum(<variável>) Produtório prod(<variável>) Tamanho do vetor length(<variável>) Ordenação sort(<variável>) Valor absoluto abs(<variável>) Raiz quadrada sqrt(<variável>) Valor mínimo min(<variável>) Valor máximo max(<variável>) Utilizando o R

Operações estatísticas Média aritmética mean(<nome do vetor>) Mediana median(<nome do vetor>) Variância var(<nome do vetor>, na.rm = FALSE) Desvio padrão sd(<nome do vetor>, na.rm = FALSE) se na = TRUE, os missing values serão removidos Utilizando o R

Exemplos Média aritmética Mediana Desvio padrão e variância mean(peso) ou media = sum(peso) / length(peso) Mediana median(<nome do vetor>) Desvio padrão e variância sd(peso) ou mediaPeso = sum(peso) / length(peso) sqrt(sum((peso - mediaPeso) ^ 2)/ (length(peso) - 1)) Utilizando o R

Missing values Algumas operações podem retornar resultados "inexistentes", chamados “missing values” Inf: infinito positivo -Inf: infinito negativo NA: "Not Available“ Existem funções para testar se algum desses valores foi retornado, onde x pode ser um vetor: is.finite(x) is.infinite(x) is.na(x) O retorno dessas funções é um Booleano, definido em R como TRUE ou FALSE Utilizando o R

Distribuições de variáveis O R suporta uma variedade de distribuições (Normal, Binomial, Poisson, t-Student, etc.) Para consultar todas as distribuições disponíveis, digite “?distributions” no console Verifique os parâmetros de cada distribuição Para cada distribuição, o R possui 4 funções. Por exemplo, para a Normal: dnorm – função de densidade pnorm – função de probabilidade qnorm – função quantil rnorm – geração de um número aleatório Utilizando o R

Exemplos de uso do R Problema 1 – suponha que você anota a quilometragem do carro a cada abastecimento de 30 litros. As últimas anotações foram: 65311 65624 65908 66219 66499 66821 67145 67447 Qual o consumo médio do seu carro por litro? km = c(65311, 65624, 65908, 66219, 66499, 66821, 67145, 67447) x = diff(km) mean(x/30) Utilizando o R

Exemplos de uso do R Problema 2 – Uma pesquisa pergunta se as pessoas fumam ou não. As respostas foram: x = c("Yes", "No", "No", "Yes", "Yes", "No", "No", "Yes") Verificando a frequência table(x) factor(x) # verifica os níveis dos dados Utilizando o R

Lendo arquivos de dados O arquivo datafile.dat é composto pelos seguintes dados: tamanho lote de terra homens/hora 30 73 20 50 60 128 80 170 40 87 50 108 60 135 30 69 70 148 60 132 Utilizando o R

Lendo arquivos de dados Antes de ler arquivos, nós precisamos estabelecer o diretório de trabalho, através do comando setwd() (set work directory) > setwd("c:/temp") Observação no Windows O R se confunde se você usar um caminho como: “c:\mydocuments\myfile.txt” Isto se deve ao R enxergar a "\"com outra funcionalidade. Use: “c:\\mydocuments\\myfile.txt” ou “c:/mydocuments/myfile.txt” Utilizando o R

Lendo arquivos de dados Para ler arquivos com nomes de colunas na primeira linha, use > dataset <- read.table ("datafile.dat", header = TRUE) Para obter os vetores > dataset$tamanho_lote > dataset$homens_hora Utilizando o R

Lendo arquivos – parte II Para ler arquivos SEM nomes de colunas na primeira linha, use > dataset <- scan ("datafile2.dat", what = list (x = 0, y = 0)) Obs: a variável ficará no formato de lista, e não de tabela. Para obter os vetores > dataset$x > dataset$y Utilizando o R

Lendo dados – parte III > stack.dat <- scan(what = list(tamanho_lote = 0, homens_hora = 0)) 30 73 20 50 60 128 80 170 40 87 50 108 60 135 > attach(stack.dat) > stack.dat$tamanho_lote > stack.dat$homens_hora Os comandos acima podem ser inseridos em um arquivo ou diretamente a partir da linha de comando do R Utilizando o R

Referências úteis Manuais no site do projeto CRAN (http://cran.r-project.org/) Página wiki do projeto CRAN (http://wiki.r-project.org/) Site de busca http://www.rseek.org/ Tutoriais: http://www.statmethods.net/ http://www.cyclismo.org/tutorial/R/index.html http://www.r-tutor.com/ http://tryr.codeschool.com/ Utilizando o R

Exercício 1 Defina um diretório de trabalho que contenha os DataFiles disponibilizados pela monitoria (sugestão: C:\Temp). Leia o arquivo datafile1.dat (ou datafile2.dat) Calcule a média de tamanho_lote e homens_hora Calcule o desvio padrão de tamanho_lote e homens_hora Escreva um comando para mostrar o tamanho do lote que tem o maior número de homens/hora Utilizando o R

Exercício 2 O arquivo datafile3.dat é composto por dados que representam o nome do aluno e a natureza do ensino de nível médio Através da compreensão de listas, crie um vetor que contém os alunos que estudam em escola pública e outro que estudam em escola privada Desafio: crie uma tabela que mostre a quantidade de alunos desse arquivo que estuda em escola pública e privada Utilizando o R

Exercício 3 (montgomery) Um motor de foguete é fabricado unindo um propelente de ignição a um propelente para manter o foguete em vôo. O poder da força da junção dos propelentes é uma característica de qualidade importante. Suspeita-se que o "poder" dessa força está relacionado com a "idade" do recipiente do propelente. O arquivo de dados datafile4.dat contém os dados relativos a 20 observações da força da junção comparados com a idade do recipiente do propelente. Utilizando o R

Exercício 3 (montgomery) Encontre a média dos dois vetores de dados Para verificar se o poder do propelente está realmente relacionado com a sua idade, compare a média da força de junção (shear strength) dos propelentes com idades abaixo da média com a média da força de junção dos propelentes com idades acima da média. Como seria o código escrito em R para esta verificação? Teste se, em vez da média, nós separássemos a idade dos propelentes de acordo com a mediana. O resultado seria o mesmo? Utilizando o R

Dúvidas? Monitoria de Estatística e Probabilidade para Computação Utilizando o R

Projeto de R Análise estatística de um conjunto de dados Escolha de duas variáveis: uma discreta e outra contínua Medidas estatísticas (média, moda, mediana...) Histogramas, tabelas de frequência Intervalos de confiança Entre outros... Especificação completa do projeto estará disponível em: www.cin.ufpe.br/~et586cc Utilizando o R

Projeto de R Grupos Entrega Cinco (5) pessoas (no máximo!) O grupo poderá ser o mesmo dos miniprojetos. Serão disponibilizadas bases de dados para que os grupos possam trabalhar em cima delas (se o grupo tiver alguma sugestão, pode ser enviada) Entrega Datas de entrega e apresentação serão definidas na especificação Utilizando o R

Mais dúvidas? (agora sim o slide acabou =P) Monitoria de Estatística e Probabilidade para Computação Utilizando o R