Carregar apresentação
A apresentação está carregando. Por favor, espere
1
Prof. Antonio Lopo Martinez
Revisão Estatística Análise de Regressão Prof. Antonio Lopo Martinez Lopo Martinez 2004
2
Introdução Tipos de Modelos:
- Determinísticos: relação entre as variáveis é exata: Exemplo: F=m.a - Probabilísticos: relação entre as variáveis não é exata: Exemplo: vendas=10*gastos com propagandas + erro Y= 10*X + e Características da análise de Regressão: - Estuda a relação entre as variáveis - Variável dependente: quantitativa - Variáveis independentes: quantitativas ou qualitativas - Usada para previsões e estimações - Pode ser linear ou não-linear
3
Modelos de Regressão Modelos de regressão 1 variável independente
2 ou mais variáveis independentes Simples Múltipla Não Não Linear Linear Linear Linear
4
Análise de Regressão Simples
A relação entre as variáveis é uma função linear: Y 0 1= coeficiente angular X Intercepto da população Erro aleatório Variável dependente Inclinação da população Variável independente
5
$ $ $ $ $ $ $ População x Amostra População Amostra
Os valores amostrais e populacionais são geralmente diferentes!
6
Ajuste da reta Qual reta se encaixa melhor aos dados?
É a reta que minimiza soma dos resíduos ao quadrado. (Reta de mínimos quadrados)
7
Interpretação dos Coeficientes
^ 1. Inclinação (1) Estima-se que Y aumente em média 1 unidades para cada aumento de uma unidade de X Exemplo: vendas(Y)=2*propaganda(X)+erro Se 1 = 2, estima-se que as vendas (Y) aumentem em média 2 unidades para cada unidade a mais de propaganda (X) 2. Intercepto (0) Valor médio de Y quando X = 0. Nem sempre é interpretável!! ^ ^ ^
8
Exemplo (excel)
9
Exemplo: Prever valor de um imóvel pelo seu tamanho
Y População Y Amostra X X Y= valor de um imóvel com X m2 b1= aumento no valor médio de um imóvel para cada m2 a mais. E(Y)= valor médio de um imóvel com X m2 e = erro = diferença entre o valor de um imóvel com X m2 e o valor médio dos imóveis com X m2 Y= valor de um imóvel com X m2 b1= estimativa do aumento no valor médio de um imóvel para cada m2 a mais. Y= estimativa do valor médio de um imóvel com X m2 e = diferença entre o valor de um imóvel com X m2 e o valor estimado pela reta de regressão ^
10
Suposições do Modelo 1 - Erros são independentes;
2 - Erro tem média zero; 3 - Erro tem distribuição normal com variância 4 - Variância do erro é constante ao longo do eixo X
11
Partição da soma de quadrados
1. Soma de quadrados total (SSyy) Variação de Yi em torno da médiaY 2. Soma de quadrados da regressão (SSR) Variação de Y em torno da reta de regressão 3. Soma de quadrados do erro (SSE) Variação de Yi em torno da reta de regressão (não explicada)
12
Partição da soma de quadrados
É possível provar que:
13
Partição da soma de quadrados
Variabilidade devida à regressão Variabilidade TOTAL Variabilidade residual + = y y SQTotal (SST) = SQRes (SSE) + SQReg (SSR)
14
R2 - Coeficiente de Determinação
- É o quadrado do coeficiente de correlação. - Mede quanto a variável X explica a variabilidade de Y - Fórmula: SST = SSE SSR Inclusão de outras variáveis: aumenta o R2 Transformação dos dados: pode aumentar R2 e melhorar comportamento do resíduo: - tirar logarítmo, raiz quadrada,etc..
15
Tabela de ANOVA Estimativa dos parâmetros Intercepto 1 X 1
= estimador de s Estimativa dos parâmetros Variável g.l Estimativa erro padrão estatística t p-valor Intercepto 1 X
16
Existe relação linear entre X e Y?
Isto é, 1 é diferente de zero? Hipóteses: H0: 1 = 0 (não há relação linear entre as variáveis) Ha: 1 0 (há relação linear entre as variáveis) A estatística do teste é: Se F> FCRÍTICO, rejeito H0. Essa informação está contida na tabela de ANOVA
17
Testes para cada um dos Betas
Outro teste, equivalente, pode ser feito para cada um dos betas. Nesse exemplo, vamos testar se b1 é zero: Pode-se mostrar que, sob H0, b1 tem distribuição normal com média b1 * e desvio-padrão Como esse desvio-padrão não é conhecido, utilizaremos ^ 1 S ^ Então, tem distribuição t-student com n-2 g.l. * valor de b1 sob H0. Geralmente, será 0.
18
Resíduos O resíduo (e) é a diferença entre o valor observado e o valor
previsto pela regressão ^ Valor observado Resíduo Valor previsto pela regressão Pode-se também escrever que Os resíduos devem ser independentes e normalmente distribuídos para que as suposições do modelo de regressão estejam satisfeitas.
19
Resíduos padronizados
Às vezes, é mais fácil analisar os resíduos padronizados. O resíduo padronizado é o resíduo dividido pelo desvio-padrão: Se é o desvio-padrão do resíduo, estimado aqui pela raiz do QMErro. Se um resíduo padronizado apresentar um valor alto (em módulo), por exemplo, maior que 3, é sinal que esta observação está distante da reta e deve ser considerada um outlier.
20
Gráficos dos Resíduos Variância não é constante
Como verificar se as suposições do modelo são válidas? Variância não é constante Distribuição não é normal freqüência resíduo Renda resíduo Erros não são independentes resíduo Renda
21
Pontos Influentes A inclusão desse ponto muda muito a inclinação da reta
22
Exercício Faça uma análise de regressão completa para prever as vendas em função do valor gasto em propaganda. Propaganda $ Vendas Estime a venda média quando o gasto com propaganda é igual a $4 com a= .05 .
23
Resolução do Exercício - Excel
24
TH para o coeficiente angular b1
Estatística do teste: Decisão: Conclusão: H0: 1 = 0 Ha: 1 0 .05 gl = 3 Valores críticos: Rejeito H0 com = .05 Há relação linear entre as variáveis
25
Cálculos Intervalo de Confiança:
26
Regressão Múltipla Modelo populacional: Inclinações Erro aleatório
- Uma variável dependente (Y) - Várias variáveis independentes (X1, X2, X3, etc..) Modelo populacional: Inclinações Erro aleatório Intercepto Variável dependente Variáveis independentes i = indexador do indivíduo
27
Interpretação dos parâmetros
Exemplo: prever preço de um imóvel (Y) pelo tamanho (X1) e idade (X2) População Amostra b0: valor médio de um imóvel quando X1=0 e X2=0. b1: aumento no valor médio de um imóvel quando aumento 1m2 no tamanho, mantendo constante a idade. b2: aumento no valor médio de um imóvel quando aumento 1 ano na idade, mantendo constante o tamanho. E(Y)= valor médio de um imóvel com determinada idade e tamanho. : valor médio de um imóvel quando X1=0 e X2=0. : estimativa do aumento no valor médio de um imóvel quando aumento 1m2 no tamanho, mantendo constante a idade. : estimativa do aumento no valor médio de um imóvel quando aumento 1 ano na idade, mantendo constante o tamanho. : preço médio estimado de um imóvel com determinada idade e tamanho.
28
Suposições e Hipóteses do Modelo
-erro tem distribuição normal com média 0 e variância s2 -erros são independentes Hipóteses: H0: 1 = 2 = ... = k = k=número de variáveis independentes Não há relação linear Ha: Pelo menos um coeficiente é diferente de zero (Pelo menos uma variável afeta o número de respostas Y) Fonte de variação Soma de quadrados Graus de liberdade Quadrado médio F (estatística do teste) QMReg QMErro k SQR/k F= Regressão SQR(SSR) Erro SQE(SSE) n-k-1 SQE/(n-k-1) Total SQT(SST) n-1
29
Suposições e Hipóteses do Modelo
Se F > Fcrítico=Fk , n-k-1;a => rejeito H0=> pelo menos uma variável tem relação linear com Y. Qual é essa variável? Variável g.l. Estimativa erro padrão estatística t p-valor Intercepto 1 X Xk
30
Estimação dos Parâmetros
- Fórmula para calcular betas, intervalos de confiança e intervalos de predição são complicadas - Serão utilizadas informações presentes na saída do software Intervalo de confiança de (1-a)% para bi:
31
Ajuste do Modelo - Chamado de coeficiente múltiplo de determinação
Revisão Estatística Ajuste do Modelo - Chamado de coeficiente múltiplo de determinação - R2 aumenta com o acréscimo de variáveis Solução: olhar R2 ajustado para comparar modelos com diferentes números de variáveis O coeficiente ajustado é sempre menor que o R2. k: número de variáveis do modelo Lopo Martinez 2004
32
Exemplo Número de respostas (Y) de acordo com o tamanho do anúncio e com a circulação do jornal
33
Saída do Excel P-valor Intervalo de confiança
34
Análise de Resíduos A análise de resíduos deve ser feita antes de se chegar a alguma conclusão. Se as suposições do modelo não estiverem satisfeitas, o modelo não é válido. Suposições do modelo: erro tem distribuição normal com variância constante (mesmas suposições da regressão simples). Como verificar as suposições: gráficos de dispersão e histograma dos resíduos. Resíduo Resíduo Freq Valor previsto para Y Variável X Resíduo Um gráfico para cada variável X
35
Análise de Resíduos - exemplo anterior
Conclusão: não parece haver nenhuma suposição não satisfeita, exceto a normalidade. É necessário fazer um teste de hipóteses específico para verificar a normalidade dos resíduos.
36
Conclusão Admitindo que as suposições estão satisfeitas, podemos continuar a análise. p-valor <0,05 => rejeito H0: pelo menos uma das variáveis tem relação linear com Y Qual variável? Circulação: p-valor=0,001 Tamanho: p-valor=0,713 Deve-se ajustar um novo modelo de regressão apenas com circulação como variável independente, pois variáveis que não são significantes não devem permanecer.
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.