Regressão e Previsão Numérica.

Slides:



Advertisements
Apresentações semelhantes
Correlação e Regressão
Advertisements

Escola Politécnica de Pernambuco Departamento de Ensino Básico
Estatística amintas paiva afonso.
Prof. Darlan Marcelo Delgado
ANÁLISES DE REGRESSÃO.
Analise de Regressão Parte 2.
AJUSTE DE CURVAS 6.1 Introdução 6.2 Método dos quadrados mínimos
Análise de Variância da Regressão
Intervalos de Confiança
MÉTODOS QUANTITATIVOS
TESTE PARA ESTRUTURA ESPECIAL DE CORRELAÇÃO
Design & Analysis of Experiments 7E 2009 Montgomery
REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por.
EE-240 Análise de Tendência: Regressão Linear.
Modelos de Regressão Múltipla.
Regressão Linear Aula 09 Prof. Christopher Freire Souza
MANOVA Análise de variância multivariada
MB751 – Modelos de previsão
Distribuição F Considere duas populações com distribuição de Gauss com médias 1, 2 e variâncias 12 e 22 . Retire uma amostra aleatória de tamanho.
Diagramas de dispersão
Métodos Numéricos Computacionais
Análise da Regressão múltipla: Inferência Revisão da graduação
Laís Araújo Lopes de Souza
Modelos de regressão Cláudio Monteiro
Estatística e Probabilidade
DISTRIBUIÇÕES AMOSTRAIS
Quadrados Mínimos.
Regressão Pontos mais importantes: -objectivo -regressão linear
Aula 6 - Método não-experimental ou de seleção não-aleatória
Teste de Hipótese.
Mario de Andrade Lira Junior lira.pro.br\wordpress 2/4/2015 lira.pro.br\wordpress - Reservados todos os direitos autorais.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Regressão Camilo Daleles Rennó
Professor Antonio Carlos Coelho
Estatística e Probabilidade
Regressão Linear.
Interpolação e Ajuste de Curvas
GRÁFICO DE CORRELAÇÃO É um método gráfico de análise que permite verificar a existência ou não de relação entre duas variáveis de natureza quantitativa,
2.3 Experimentos Fatoriais 22 Efeitos das Interações
UFSC.PósMCI.FME.Inferências Envolvendo Variâncias. (8.1) 6 Inferências Envolvendo Variâncias.
Modelagem Estatística
Professor Antonio Carlos Coelho
Introdução ao Stata 03 de maio de 2013
Aula 12 - Teste de associação1 DATAAulaCONTEÚDO PROGRAMÁTICO 10/03Segunda1Níveis de mensuração, variáveis, organização de dados, apresentação tabular 12/03Quarta2Apresentação.
análise dos estimadores
7 Ajuste de Curvas UFSC.PósMCI.FME.Ajuste de curvas. (11.1)
Regressão.
Ajuste do Modelo Avaliação dos Coeficientes
Regressão Linear Múltipla
Disciplina Engenharia da Qualidade II
Multicolinearidade.
Introdução a planejamento e otimização de experimentos
Metodologia da Pesquisa em Ensino de Ciências I
Descrição Bivariada Comparando Duas Distribuições
ME623A Planejamento e Pesquisa
Estatística e Probabilidade
Métodos Estatísticos Aplicados às Ciências Biológicas
PPGTI AULA 3 Prof. Dr. Márcio A. Fiori –
Métodos Estatísticos Aplicados às Ciências Biológicas - 11ª aula -
Estimação: Estimativa Pontual Estimativa Intervalar
Regressão Linear Simples
Correlação e regressão
GESTÃO E GARANTIA DA QUALIDADE
Regressão linear simples
Regressão linear simples
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
AULA 11 – REGRESSÃO Parte I
LINEARIDADE Kamila Dias Nayara Rayanne Pereira Renata Fernandes Solange Araújo.
Regressão Linear (aula 14 – Parte 2).
Variância/ Covariância, Correlação Regressão. Variância.
Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.
Transcrição da apresentação:

Regressão e Previsão Numérica

Objetivos Amostra Planejamento Obter um modelo que explique o comportamento dos exemplos observados (respostas) e usar esse modelo para fazer predições Amostra A amostra de dados deve ser representativa, isto é, cobrir amplamente o domínio do problema considerando as operações rotineiras, e as exceções Planejamento Definição da metodologia a ser aplicada, avaliação da adequação do modelo e interpretação dos resultados

Previsão Previsão é similar à Classificação Primeiro construa um modelo Depois, use o modelo para a previsão do valor desconhecido O método mais importante de previsão é a regressão Regressão linear e múltipla Regressão não linear Previsão é diferente de Classificação Na classificação, a variável a “explicar” é categórica Na previsão, a variável a “explicar” é contínua

Relação entre Variáveis Com muita freqüência, na prática, verifica-se que existe uma relação entre duas ou mais varáveis. Exemplo: Peso x Altura Circunferência x Raio Quantidade de vapor x Temperatura

Ajustamento de curva Para ajustar uma equação que relacione as variáveis, é necessário: Colecionar dados que indiquem valores Colocar os dados em um sistema de coordenadas cartesianas (Diagrama de dispersão) Visualizar a curva de dispersão (curva regular que aproxima os dados)

Correlação Linear É quando os dados parecem estar bem próximos a uma linha reta. É o tipo mais simples de ajustamento e pode ser descrito pela equação: Y = 0 + 1 X

Correlação Não-Linear Quando os dados não estão próximos a uma linha reta. Existem várias equações: Y = 0 + 1 X + 2 X2 Y = 0 + 1 X + 2 X2 + 3 X3 Y = 0 + 1 X + 2 X2 + 3 X3+ ... + nXn

Regressão Linear Múltipla Sejam os valores de uma variável dependente (resposta) Y relacionados com os valores valores de m variáveis independentes Xk por meio de um modelo estocástico Yt = 0+ 1X1+ 2X2+...+ mXm + t t = 1,...,n k – parâmetro desconhecido que indica o grau de associação linear da variável independente Xk com a variável dependente Y t – erro aleatório devido a natureza estocástica de Y

Suposições para a análise do modelo de Regressão Linear Resíduos com variância constante, não correlacionados e média zero Normalidade nos resíduos (não necessariamente) Número de parâmetros menor que o número de observações (problema de overfitting)

Métodos de Estimação dos Parâmetros Mínimos Quadrados Modelo  Y = X +  Y – vetor de respostas (n  1) X - matriz de observações independentes (n  p) - vetor de parâmetros  - vetor de erros (n  1)

Método dos mínimos quadrados Para evitar o critério individual na construção de retas, parábolas ou outras curvas de ajustamento que se adaptem ao conjunto de dados, é necessário instituir uma definição da “melhor reta de ajustamento”, da “melhor parábola de ajustamento”, etc. Para um dado valor X, por exemplo X1, haverá uma diferença entre o valor Y1 e o valor correspondente na curva. Representamos esta diferença por  1 que é muitas vezes designado como desvio, erro ou resíduo e pode ser positivo negativo ou nulo.

Método dos mínimos quadrados De todas as curvas que se ajustam a um conjunto de pontos, a que tem a propriedade de apresentar um mínimo valor de  12+  22 +  32 + ...+  n2 é denominada a melhor curva de ajustamento. Diz-se que uma curva, que apresenta esta propriedade, ajusta os dados no sentido dos mínimos quadrados é denominada curva de mínimos quadrados.

Métodos de Mínimos Quadrados com suposição de normalidade A idéia é obter uma estimativa b para o vetor de parâmetros  que minimize a soma de quadrados dos erros ’ Como E()=0 então o modelo é expresso por E(Y) = X A soma de quadrados de resíduos ’  = (Y - X)’ (Y - X) = Y’ Y - ’X’Y – Y’X + ’X’X = Y’ Y - 2’X’Y + ’X’X

Condição de mínimo A solução do sistema é Vetor de valores ajustados

O erro nas observações é: Para n observações, a média do erro é:

Supondo que a média do erro é zero Substituindo b0 na equação de erro vamos obter:

Experimento 1 25 pares de observações onde Y =quantidade de vapor usado por mês e X = temperatura em graus Farenheit No obs. Y X No obs. Y X 1 10.98 35.3 13 11.88 28.1 2 11.13 29.7 14 9.57 39.1 3 12.51 30.8 15 10.94 46.8 4 8.40 58.8 16 9.58 48.5 5 9.27 61.4 17 10.09 59.3 6 8.73 71.3 18 8.11 70.0 7 6.36 74.4 19 6.83 70.0 8 8.50 76.7 20 8.88 74.5 9 7.82 70.7 21 7.68 72.1 10 9.14 57.5 22 8.47 58.1 11 8.24 46.4 23 8.86 44.6 12 12.19 28.9 24 10.36 33.4 25 11.08 28.6

Para n = 25 e Portanto

Gráfico 1: Temperatura versus Qtd de vapor Gráfico 2: Temperatura versus valores ajustados O gráfico 1 mostra que existe uma relação linear entre a qtd de vapor e a temperatura. O gráfico 2 ilustra a regressão linear.

Avaliação de desempenho do modelo de Regressão Estatística R2 – mede a variabilidade de explicada pelo modelo de regressão Exemplo: Para os dados do experimento 1

Teste de aceitação do modelo H0:  = 0 H1:   0 Tabela 1 : Análise de Variância Soma de Quadrados ( SS) Soma de Quadrados média (MS) Estatística do teste (F) Graus de Liberdade Variação Regressão p-1 SSReg/(p-1) Resíduo n-p s2 = SSRes/(n-p) Total correto por n-1 F tem distribuição com p-1,n-p graus de liberdade e nível de significância 1-

Teste de aceitação do modelo H0: Rejeita-se o modelo H1: Aceita-se o modelo Região de aceitação da hipótese H0

Exemplo: Considere o modelo do exemplo anterior Tabela 1 : Análise de Variância Regressão Resíduo Variação Graus de Liberdade 1 23 24 Total correto por Soma de Quadrados ( SS) Quadrados média MS 45.59 0.79 Valor da Estatística do teste (F) 45.59 57.54 18.22 63.81 Valor de F1,22(0,95) = 4.28 Como a estatística F=57.54 > 4.28 rejeitamos H0

Teste de significância do vetor de parâmetros () H0: i = 0 (i = 1,...,p) H1: i  0 Estatística do teste T tem distribuição t-student com n-p graus de liberdade Região de aceitação da hipótese H0

Regression Analysis: C1 versus C2 The regression equation is C1 = 13,6 - 0,0798 C2 Predictor Coef SE Coef T P Constant 13,6230 0,5815 23,43 0,000 C2 -0,07983 0,01052 -7,59 0,000 S = 0,8901 R-Sq = 71,4% R-Sq(adj) = 70,2% Analysis of Variance Source DF SS MS F P Regression 1 45,592 45,592 57,54 0,000 Residual Error 23 18,223 0,792 Total 24 63,816

Intervalo de confiança para o vetor b b tem distribuição t-student(n-p) i = 1,...p Exemplo: Continuando com o exemplo anterior H0: 1 = 0 (i = 1,...,p) H1: 1  0 |T| =| -0.07980/0.0105| = 7.6 > t23(0.975)=2.069 Rejeita H0 Intervalo de confiança : -0.1016 < 1< -0.0581

Diagnóstico da Regressão Análise do modelo Exemplo 1 Os resultados do ajustamento revelam que : a variável temperatura é significativa no modelo (|t|=2.069 > 2) a variabilidade dos dados explicada pelo modelo é boa (R2 = 0.71) o valor da F=57.54 > F1,23(5%) indica que a regressão é significativa ao nível de confiança de 95%

Diagnóstico da Regressão Análise gráfica dos resíduos 1 – Normalidade da variável resposta 2 – Independência das observações 3 – Se uma variável explicativa não incluída no modelo é relevante

Diagnóstico da Regressão Os resíduos são aleatórios. Os valores ajustados não apresentam tendência

Diagnóstico da Regressão Os resíduos apresentam normalidade. O modelo proposto se ajusta aos dados, pois as hipóteses básicas da regressão clássica são satisfeitas.

Modelos de Regressão Não Linear A não linearidade é dada pela função de regressão Yt = 0+ 1X1+ X2 + t t = 1,...,n Um método de estimação: Mínimos Quadrados não Lineares