A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Regressão e Previsão Numérica.

Apresentações semelhantes


Apresentação em tema: "Regressão e Previsão Numérica."— Transcrição da apresentação:

1 Regressão e Previsão Numérica

2 Objetivos Amostra Planejamento Obter um modelo que explique o
comportamento dos exemplos observados (respostas) e usar esse modelo para fazer predições Amostra A amostra de dados deve ser representativa, isto é, cobrir amplamente o domínio do problema considerando as operações rotineiras, e as exceções Planejamento Definição da metodologia a ser aplicada, avaliação da adequação do modelo e interpretação dos resultados

3 Previsão Previsão é similar à Classificação
Primeiro construa um modelo Depois, use o modelo para a previsão do valor desconhecido O método mais importante de previsão é a regressão Regressão linear e múltipla Regressão não linear Previsão é diferente de Classificação Na classificação, a variável a “explicar” é categórica Na previsão, a variável a “explicar” é contínua

4 Relação entre Variáveis
Com muita freqüência, na prática, verifica-se que existe uma relação entre duas ou mais varáveis. Exemplo: Peso x Altura Circunferência x Raio Quantidade de vapor x Temperatura

5 Ajustamento de curva Para ajustar uma equação que relacione as variáveis, é necessário: Colecionar dados que indiquem valores Colocar os dados em um sistema de coordenadas cartesianas (Diagrama de dispersão) Visualizar a curva de dispersão (curva regular que aproxima os dados)

6 Correlação Linear É quando os dados parecem estar bem próximos a uma linha reta. É o tipo mais simples de ajustamento e pode ser descrito pela equação: Y = 0 + 1 X

7 Correlação Não-Linear
Quando os dados não estão próximos a uma linha reta. Existem várias equações: Y = 0 + 1 X + 2 X2 Y = 0 + 1 X + 2 X2 + 3 X3 Y = 0 + 1 X + 2 X2 + 3 X nXn

8 Regressão Linear Múltipla
Sejam os valores de uma variável dependente (resposta) Y relacionados com os valores valores de m variáveis independentes Xk por meio de um modelo estocástico Yt = 0+ 1X1+ 2X mXm + t t = 1,...,n k – parâmetro desconhecido que indica o grau de associação linear da variável independente Xk com a variável dependente Y t – erro aleatório devido a natureza estocástica de Y

9 Suposições para a análise do modelo de Regressão Linear
Resíduos com variância constante, não correlacionados e média zero Normalidade nos resíduos (não necessariamente) Número de parâmetros menor que o número de observações (problema de overfitting)

10 Métodos de Estimação dos Parâmetros
Mínimos Quadrados Modelo  Y = X +  Y – vetor de respostas (n  1) X - matriz de observações independentes (n  p) - vetor de parâmetros  - vetor de erros (n  1)

11 Método dos mínimos quadrados
Para evitar o critério individual na construção de retas, parábolas ou outras curvas de ajustamento que se adaptem ao conjunto de dados, é necessário instituir uma definição da “melhor reta de ajustamento”, da “melhor parábola de ajustamento”, etc. Para um dado valor X, por exemplo X1, haverá uma diferença entre o valor Y1 e o valor correspondente na curva. Representamos esta diferença por  1 que é muitas vezes designado como desvio, erro ou resíduo e pode ser positivo negativo ou nulo.

12 Método dos mínimos quadrados
De todas as curvas que se ajustam a um conjunto de pontos, a que tem a propriedade de apresentar um mínimo valor de  12+  22 +   n2 é denominada a melhor curva de ajustamento. Diz-se que uma curva, que apresenta esta propriedade, ajusta os dados no sentido dos mínimos quadrados é denominada curva de mínimos quadrados.

13 Métodos de Mínimos Quadrados com suposição de normalidade
A idéia é obter uma estimativa b para o vetor de parâmetros  que minimize a soma de quadrados dos erros ’ Como E()=0 então o modelo é expresso por E(Y) = X A soma de quadrados de resíduos ’  = (Y - X)’ (Y - X) = Y’ Y - ’X’Y – Y’X + ’X’X = Y’ Y - 2’X’Y + ’X’X

14 Condição de mínimo A solução do sistema é Vetor de valores ajustados

15 O erro nas observações é:
Para n observações, a média do erro é:

16 Supondo que a média do erro é zero
Substituindo b0 na equação de erro vamos obter:

17 Experimento 1 25 pares de observações onde Y =quantidade de vapor usado por mês e X = temperatura em graus Farenheit No obs. Y X No obs. Y X 1 10.98 35.3 13 11.88 28.1 2 11.13 29.7 14 9.57 39.1 3 12.51 30.8 15 10.94 46.8 4 8.40 58.8 16 9.58 48.5 5 9.27 61.4 17 10.09 59.3 6 8.73 71.3 18 8.11 70.0 7 6.36 74.4 19 6.83 70.0 8 8.50 76.7 20 8.88 74.5 9 7.82 70.7 21 7.68 72.1 10 9.14 57.5 22 8.47 58.1 11 8.24 46.4 23 8.86 44.6 12 12.19 28.9 24 10.36 33.4 25 11.08 28.6

18 Para n = 25 e Portanto

19 Gráfico 1: Temperatura versus Qtd de vapor Gráfico 2: Temperatura versus valores ajustados O gráfico 1 mostra que existe uma relação linear entre a qtd de vapor e a temperatura. O gráfico 2 ilustra a regressão linear.

20 Avaliação de desempenho do modelo de Regressão
Estatística R2 – mede a variabilidade de explicada pelo modelo de regressão Exemplo: Para os dados do experimento 1

21 Teste de aceitação do modelo
H0:  = 0 H1:   0 Tabela 1 : Análise de Variância Soma de Quadrados ( SS) Soma de Quadrados média (MS) Estatística do teste (F) Graus de Liberdade Variação Regressão p-1 SSReg/(p-1) Resíduo n-p s2 = SSRes/(n-p) Total correto por n-1 F tem distribuição com p-1,n-p graus de liberdade e nível de significância 1-

22 Teste de aceitação do modelo
H0: Rejeita-se o modelo H1: Aceita-se o modelo Região de aceitação da hipótese H0

23 Exemplo: Considere o modelo do exemplo anterior
Tabela 1 : Análise de Variância Regressão Resíduo Variação Graus de Liberdade 1 23 24 Total correto por Soma de Quadrados ( SS) Quadrados média MS 45.59 0.79 Valor da Estatística do teste (F) 45.59 57.54 18.22 63.81 Valor de F1,22(0,95) = 4.28 Como a estatística F=57.54 > 4.28 rejeitamos H0

24 Teste de significância do vetor de parâmetros ()
H0: i = (i = 1,...,p) H1: i  0 Estatística do teste T tem distribuição t-student com n-p graus de liberdade Região de aceitação da hipótese H0

25 Regression Analysis: C1 versus C2
The regression equation is C1 = 13,6 - 0,0798 C2 Predictor Coef SE Coef T P Constant , , , ,000 C , , , ,000 S = 0, R-Sq = 71,4% R-Sq(adj) = 70,2% Analysis of Variance Source DF SS MS F P Regression , , , ,000 Residual Error , ,792 Total ,816

26 Intervalo de confiança para o vetor b
b tem distribuição t-student(n-p) i = 1,...p Exemplo: Continuando com o exemplo anterior H0: 1 = (i = 1,...,p) H1: 1  0 |T| =| /0.0105| = 7.6 > t23(0.975)=2.069 Rejeita H0 Intervalo de confiança : < 1<

27 Diagnóstico da Regressão
Análise do modelo Exemplo 1 Os resultados do ajustamento revelam que : a variável temperatura é significativa no modelo (|t|=2.069 > 2) a variabilidade dos dados explicada pelo modelo é boa (R2 = 0.71) o valor da F=57.54 > F1,23(5%) indica que a regressão é significativa ao nível de confiança de 95%

28 Diagnóstico da Regressão
Análise gráfica dos resíduos 1 – Normalidade da variável resposta 2 – Independência das observações 3 – Se uma variável explicativa não incluída no modelo é relevante

29 Diagnóstico da Regressão
Os resíduos são aleatórios. Os valores ajustados não apresentam tendência

30 Diagnóstico da Regressão
Os resíduos apresentam normalidade. O modelo proposto se ajusta aos dados, pois as hipóteses básicas da regressão clássica são satisfeitas.

31 Modelos de Regressão Não Linear
A não linearidade é dada pela função de regressão Yt = 0+ 1X1+ X2 + t t = 1,...,n Um método de estimação: Mínimos Quadrados não Lineares


Carregar ppt "Regressão e Previsão Numérica."

Apresentações semelhantes


Anúncios Google