Análise Exploratória de Dados R – LIG/09. Objetivos  obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados;  apresentar outros.

Slides:



Advertisements
Apresentações semelhantes
Correlação e Regressão
Advertisements

Escola Politécnica de Pernambuco Departamento de Ensino Básico
Estatística amintas paiva afonso.
Prof. Darlan Marcelo Delgado
ANÁLISES DE REGRESSÃO.
Analise de Regressão Parte 2.
AJUSTE DE CURVAS 6.1 Introdução 6.2 Método dos quadrados mínimos
Análise de Sensibilidade
MÉTODOS QUANTITATIVOS
Análise de Resposta em Freqüência Introdução. 8. 2
REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por.
Noções de Regressão Profa. Marli.
Alexandre Suaide Ed. Oscar Sala sala 246 ramal 7072
Prof. M.Sc. Fábio Francisco da Costa Fontes Outubro
Problemas de Forma Não-padrão
Regressão Linear Aula 09 Prof. Christopher Freire Souza
Diagramas de dispersão
Função do 1º grau. Função do 1º grau A temperatura de uma substância é 30 ºC A temperatura de uma substância é 30 ºC. Vamos analisar duas situações.
ANÁLISE EXPLORATÓRIA DE DADOS
Regressão Linear Simples
BIO Métodos Quantitativos Aplicados à Ecologia
Tópicos em Gestão de Serviços – Regressão Linear
Profª. Sheila Regina Oro
Métodos Numéricos Computacionais
Análise Exploratória de Dados R – LIG/08 – maio de 2008.
Análise Exploratória de Dados R – LIG/09 – maio de 2008.
Laís Araújo Lopes de Souza
Correlação e Regressão
1 ESTATÍSTICA. 2 UDIII - Relação Entre Duas ou Mais Variáveis ESTATÍSTICA Ass 01: Regressão Simples.
PRINCIPAIS DELINEAMENTOS DE PESQUISA
Quadrados Mínimos.
ANÁLISE EXPLORATÓRIA DE DADOS
MBA em Gestão de Empreendimentos Turísticos
Regressão Múltipla Profas: Gardênia da Silva Abbad Elaine Rabelo Neiva
Aula 6 - Método não-experimental ou de seleção não-aleatória
Mario de Andrade Lira Junior lira.pro.br\wordpress 2/4/2015 lira.pro.br\wordpress - Reservados todos os direitos autorais.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Regressão Camilo Daleles Rennó
Professor Antonio Carlos Coelho
Professores André Fernando André Cavalieri
Regressão Linear.
Formas de calibração 1º - Padrões externos É a forma mais utilizada de calibração. São utilizadas soluções contendo concentrações conhecidas do analito.
Interpolação e Ajuste de Curvas
Puc-Minas / Pós Graduação 2006 Gestão Estratégica de RH Mensuração em RH Realidade X Modelo Realidade: Mundo real – nem sempre compreendida ou entendida.
Modelagem Estatística
Regressão e Previsão Numérica.
Revisão Premissa: seja y e x duas variáveis representando alguma população, deseja-se explicar y em termos de x. Ex: y=salário hora e x=anos de escolaridade.
7 Ajuste de Curvas UFSC.PósMCI.FME.Ajuste de curvas. (11.1)
Regressão.
Ajuste do Modelo Avaliação dos Coeficientes
Definição de Estatística
Curva padrão Sucessão crescente ou decrescente de pontos obtidos da relação entre A concentração da espécie padrão pela sua intensidade de sinal proveniente.
Metodologia da Pesquisa em Ensino de Ciências I
Descrição Bivariada Comparando Duas Distribuições
Estatística e Probabilidade
CORRELAÇÃO E REGRESSÃO
QUI 154/150 – Química Analítica V Análise Instrumental
Métodos Estatísticos Aplicados às Ciências Biológicas
PPGTI AULA 3 Prof. Dr. Márcio A. Fiori –
Métodos Estatísticos Aplicados às Ciências Biológicas - 11ª aula -
Regressão Linear Simples
Correlação e regressão
AULA 3 – O Modelo de Regressão Simples
CEPZ1 – 2015 – AULA 09 PROFESSORA: BRUNA CAVALLINI E RODRIGUES
Regressão linear simples
Correlação Análise do grau de relacionamento entre duas variáveis quantitativas.
AULA 11 – REGRESSÃO Parte I
LINEARIDADE Kamila Dias Nayara Rayanne Pereira Renata Fernandes Solange Araújo.
Regressão Linear (aula 14 – Parte 2).
Regressão Linear Bioestatística Básica. Introdução  Interesse em estudar como uma variável varia em função da outra  EX.: Idade e altura (correlação.
Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.
Transcrição da apresentação:

Análise Exploratória de Dados R – LIG/09

Objetivos  obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados;  apresentar outros critérios para a determinação de uma reta que se ajuste aos dados;  realizar análises exploratórias dos resíduos do modelo ajustado. Análise de duas variáveis quantitativas:

Critério de mínimos quadrados  Como são obtidos os coeficientes da reta de mínimos quadrados? Nossos dados podem ser pensados como uma coleção bivariada: Foi considerado adequado o modelo para explicar.

Critério de mínimos quadrados Resíduo (r i ): diferença entre o valor observado da variável resposta e o valor ajustado pelo modelo: valor observado valor ajustado pelo modelo

Critério de Mínimos Quadrados  Escolha  =a e  =b de tal maneira que a soma de quadrados dos resíduos seja um mínimo. Minimizar

Coeficientes da reta de mínimos quadrados  Solução: Coeficiente de inclinação da reta Coeficiente linear da reta (intercepto)

Coeficientes da reta de mínimos quadrados Coeficiente angular da reta de mínimos quadrados

Exemplo 1: Idade versus altura1  Fonte:  Referência: Moore, David S., and George P. McCabe (1989). Introduction to the Practice of Statistics, p  A altura de uma criança aumenta ao longo do tempo. Como o padrão de crescimento varia de criança para criança, uma forma de compreender o padrão geral de crescimento é usar a média das alturas de várias crianças, como é feito com os dados a seguir.

Idade versus altura  Descrição: Alturas médias de um grupo de crianças de Kalama, um povoado egípcio que é o local de um estudo de nutrição em países em desenvolvimento. Os dados foram obtidos medindo-se as alturas de 161 crianças no povoado cada mês.  Número de casos: 12  Nomes das variáveis:  idade: idade em meses  altura: altura média em cm

Idade versus altura: Dados  idadealtura            

Idade versus altura  Investigue possíveis relações entre idade e altura nesta base de dados.  Diagrama de dispersão  Coeficiente de correlação  Os dados estão no arquivo idadealtura.txt, com a primeira linha indicando os nomes das variáveis.

cor(dados$idade,dados$altura) [1] É visível a forte relação entre a idade em meses e a altura!

Comentário A altura de uma criança não é estável, mas cresce ao longo do tempo. Como o padrão de crescimento varia de criança para criança, uma forma de compreender o modelo geral de crescimento é usar a média de altura de várias crianças, como apresentado neste conjunto de dados. O diagrama de dispersão da altura versus idade é quase uma linha reta, mostrando um modelo de crescimento linear.

Extrapolação  Deve-se tomar cuidado com previsões fora do campo de variação da variável explicativa.  Quanto mais distante estiver o valor da variável explicativa do conjunto de valores efetivamente observado, mais imprecisa será a previsão.  De fato, nada garante que fora deste intervalo, a relação linear obtida continue valendo.

Comentários  O caso deste exemplo é típico.  A altura média pode crescer linearmente com a idade em meses nos primeiros anos de vida, mas a curva de altura de uma pessoa certamente não é linear ao longo de sua vida!  Quando falamos em modelos, uma das coisas que se deve ter em mente é a abrangência deles.

Reta de mínimos quadrados  reta1<-lm(dados$altura~dados$idade)  Coefficients:  (Intercept) dados$idade  Modelo ajustado: altura= xidade variável resposta variável explicativa

Outros métodos para obter a reta O critério de minimização da soma dos resíduos ao quadrado não é o único! Há outros critérios para obter uma reta que se ajuste aos dados. Um deles é minimizar a soma dos resíduos tomados em valor absoluto. Este critério é conhecido como critério L1. Escolha  e  de modo a minimizar:

Métodos robustos de ajuste da reta Métodos conhecidos como robustos, envolvem minimizar alguma função dos resíduos ao quadrado ordenados. 1) (lmsreg) least median squares: escolha  e  de modo a minimizar: Neste caso, não há uma solução analítica como no caso do critério de mínimos quadrados. O algoritmo para a obtenção dos coeficientes é bem mais complexo. O R possui uma função que nos retorna este coeficiente: lmsreg no pacote MASS.

Métodos robustos de ajuste da reta Para usar funções do pacote MASS, há a necessidade de carregar o pacote. O único pacote que não precisa ser carregado no R é o base, que contém as funções básicas que trabalhamos até agora (pie, barplot,mean,sd,summary,boxplot, quantile,plot,lm,round,etc.)

Carregando o pacote MASS Clique em 1) Packages (barra de menus na parte superior da tela) 2) load packages 3) MASS

Exemplo 2 Voltemos aos dados do arquivo fumo.txt, trabalhados na aula passada. Compare as retas de mínimos quadrados e via critério lms (least median squares) (lmsreg). dados<-read.table(“m:\\aed\\fumo.txt”,header=T) reta1<-lm(dados$imorte~dados$ifumo) reta2<-lmsreg(dados$imorte~dados$ifumo) plot(dados$ifumo,dados$imorte,main=“Fumo versus câncer”) abline(reta1$coefficients,col=“blue”) abline(reta2$coefficientes,col=“red”)

Métodos robustos de ajuste da reta 2) Um outro método é o lts (least trimmed squares) que consiste em escolha  e  de modo a minimizar: onde r (i) representa os resíduos ordenados, i=1,...,n, e h é um natural menor que n, ou seja, minimiza-se a soma dos h menores resíduos ao quadrado. No R a função que realiza este ajuste também está disponível no pacote MASS: ltsreg.

Continuação do exemplo Compare com os outros dois ajustes obtidos, a reta ajustada via ltsreg. reta3<-ltsreg(dados$imorte~dados$ifumo) abline(reta3$coefficients,col=“green”)

Comentários 1) Quando os dados não apresentarem observações muito diferentes das demais (outliers) e forem aproximadamente “normais”, não haverá muita diferença das retas robustas para a reta de mínimos quadrados. 2) Depois de ajustado um modelo é fundamental realizar a etapa de validação do modelo em que boa parte consiste numa análise exploratória detalhada dos resíduos do modelo. 3) Apenas após a etapa de validação e a escolha do modelo é que podemos partir para a etapa de previsões.

Análise dos resíduos Por exemplo, o diagrama de pontos dos resíduos NÃO deve apresentar nenhuma estrutura aparente. Caso, o diagrama de pontos apresente alguma estrutura é sinal de que o modelo proposto para os dados ainda não está suficientemente adequado e deve ser reformulado. Vejamos como está o diagrama dos resíduos da reta de mínimos quadrados para este último ajuste.

Diagrama de pontos dos resíduos da reta de mínimos quadrados dotchart(reta1$residuals,main=“Diagrama de pontos da reta de mínimos quadrados”)

Outra possibilidade >plot(reta1$residuals,main="Dispersão dos resíduos da reta de mínimos quadrados",type=”l") > abline(h=0,lty=2)

Resíduos versus valores ajustados Outro gráfico que também não deve apresentar nenhuma estrutura é o diagrama de dispersão dos valores ajustados versus os resíduos do modelo. plot(reta1$fitted,reta1$residuals,main=“Valores ajustados versus resíduos”)

Outros critérios Construa o diagrama de pontos dos resíduos e o diagrama de dispersão dos resíduos versus valores ajustados para os outros dois ajustes deste exemplo (reta2 e reta3).

Exemplo 3: Contas de energia Os dados a seguir referem-se à temperatura média mensal e a quantidade de energia elétrica (em $) na conta mensal. Os dados foram armazenados no arquivo energia.txt os nomes das variáveis são data, temp e conta. Fonte: Rossman & Chance (1998). Workshop Statistics: Discovery with data and Minitab. Springer. (Capítulo 9, pg. 159).

Contas de energia (cont.) Antes de examinar a relação entre temperatura média e conta de energia, examine a distribuição dos dados referentes a contas de energia. Descreva a forma da distribuição dos valores das contas. Construa o diagrama de dispersão de temperatura versus conta e avalie uma possível associação positiva ou negativa entre estas variáveis.

Contas de energia (cont.) Observe que em regiões com temperaturas muito baixas, diferente de regiões quentes, o consumo de energia é maior quanto menor for a temperatura! Calcule a correlação entre temperatura e conta de energia. Obtenha as retas de mínimos quadrados, lms e lts para estes dados.

> cor(dados$temp,dados$conta) [1] reta1<-lm(dados$conta~dados$temp)

Coefficients: (Intercept) dados$temp Modelo ajustado: Conta= x(temperatura)

Contas de energia (cont.) Usando a reta de mínimos quadrados, determine o resíduo e o valor ajustado para o mês de março de Faça um boxplot dos resíduos da reta de mínimos quadrados e verifique se há algum ponto exterior. Em caso afirmativo, identifique qual a data a que este resíduo se refere.

> reta1$residuals[12] > reta1$fitted[12] mar/92: temp=41, conta=44.43

É possível verirficar que a observação cujo resíduo é um ponto exterior no boxplot é a de julho de 1993.

Contas de energia (cont.) Faça um dotchart dos resíduos e comente sobre a forma do mesmo. “Um modelo é adequado entre outras coisas, se o diagrama de pontos dos resíduos não apresentar nenhum tipo de estrutura”. De acordo com a afirmação anterior, você diria que o modelo é adequado?

Parece que nessa figura os resíduos tendem a ser positivos nos extremos e negativos no meio. Talvez o modelo linear não seja adequado nesse caso.

Retas robustas  Investigue o comportamento dos resíduos para os critérios lms e lts.