Carregar apresentação
A apresentação está carregando. Por favor, espere
1
AULA 11 – REGRESSÃO Parte I
Flávia F. Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento Agosto de 2014
2
Inferência Estatística se resumindo a uma equação…
Saídai = (Modeloi) + erroi Ou seja, os dados que observamos podem ser previstos pelo modelo que escolhemos para ajustar os dados mais um erro
3
Média como um modelo estatístico
Uma maneira útil de descrever um grupo como um todo: Qual é a renda média das famílias residentes na Mooca? Qual é a altura média dos edifícios em São Caetano? Qual é o PIB médio dos municípios localizados no arco do desmatamento?
4
Para além de médias… Modelos Lineares
São modelos baseados sobre uma linha reta, utilizados para representar a relação entre variáveis Ou seja, geralmente estamos tentando resumir as RELAÇÕES observadas a partir de nossos dados observados em termos de uma linha reta. RELAÇÃO ENTRE CONSUMO DE ÁGUA E RENDA Consumo de Água per Capita (m3/dia/ano) Renda per Capita (R$)
5
É uma medida do relacionamento linear entre duas variáveis
CORRELAÇÃO É uma medida do relacionamento linear entre duas variáveis Duas variáveis podem estar: Positivamente relacionadas quando maior a renda, maior o consumo de água Negativamente relacionadas quanto maior a renda, menor o consumo de água Não há relação entre as variáveis
6
COEFICIENTE DE CORRELAÇÃO DE PEARSON Valor de r situa-se entre -1 e +1
Medida padronizada da correlação entre variáveis COEFICIENTE DE CORRELAÇÃO DE PEARSON Valor de r situa-se entre -1 e +1 r = +1 duas variáveis estão perfeitamente correlacionadas de forma positiva (se uma aumenta, a outra aumenta proporcionalmente) r = -1 relacionamento negativo perfeito (se uma aumenta, a outra diminui em valor proporcional r = 0 indica ausência de relacionamento linear
7
Teste de Significância do r de Pearson
Para testar a significância do r, calculamos uma estatística teste conhecida como “razão t”, com graus de liberdade igual a N-2. Neste caso, os graus de liberdade indicam o quão próxima a distribuição t está da distribuição normal. Qto maior, mais póximo da dist. normal. Olhar na tabela o valor crítico de t, com graus de liberdade “N-2” e α=0,05 Se tcalculado > tcrítico, podemos rejeitar a hipótese nula de que ρ=0.
8
(Lembrando que não estamos lidando com relações de causa-efeito)
No entanto, a correlação nada nos informa sobre o “poder preditivo” das variáveis Vamos avançar um passo em relação à correlação… Vamos tentar “prever” algum tipo de saída/resultado (ex., consumo de água) a partir de uma ou mais variáveis previsoras (ex., renda) Esta é a essência da ANÁLISE DE REGRESSÃO (Lembrando que não estamos lidando com relações de causa-efeito)
9
ANÁLISE DE REGRESSÃO Análise de regressão é uma ferramenta estatística que utiliza a relação entre duas ou mais variáveis tal que uma variável possa ser explicada (Y variável resposta/ dependente/ saída) pela outra ou outras (X variáveis indicadoras/ previsoras/ explicativas/ independentes). Y = aX + b NETER J. et al. Applied Linear Statistical Models. Boston, MA: McGraw-Hill, 1996.
10
Exemplos Alunos Criminalidade (+) X Renda (-), Investimentos (-)
Longevidade (+) X Escolaridade (+), Renda (+) Consumo de Água (+) X Renda per Capita (+) ...
11
Objetivos da Análise de Regressão
Determinar como duas ou mais variáveis se relacionam. Estimar a função que determina a relação entre duas variáveis. Usar a equação para projetar/estimar valores futuros da variável dependente. Lembrete importante: A existência de uma relação estatística entre a variável resposta Y e a variável explicativa X não implica na existência de uma relação causal entre elas.
12
Diagrama de Dispersão Os dados para a análise de regressão são da forma: (x1, y1), (x2, y2), ..., (xi, yi), ... (xn, yn) Com os dados constrói-se o diagrama de dispersão. Este deve exibir uma tendência linear para que se possa usar a regressão linear. Ou seja, o diagrama permite decidir empiricamente se um relacionamento linear entre X e Y deve ser assumido.
13
Diagrama de Dispersão Sugerem uma regressão/relação linear. Assim, a relação entre as variáveis poderá ser descrita por uma equação linear.
14
Diagrama de Dispersão Sugerem uma regressão/relação não linear.
Assim, a relação entre as variáveis poderá ser descrita por uma equação não linear. (ou podemos verificar a possibilidade de “linearizar” a relação através de transformações nas variáveis)
15
Diagrama de Dispersão Por análise do diagrama de dispersão pode-se também concluir (empiricamente) se o grau de relacionamento linear entre as variáveis é forte ou fraco, conforme o modo como se situam os pontos ao redor de uma reta imaginária que passa através da concentração de pontos.
16
Diagrama de Dispersão Existência de correlação linear positiva: em média, quanto maior o X, maior será o Y Existência de correlação linear negativa: em média, quanto maior o X, menor será o Y
17
Modelos de Regressão Um modelo de regressão contendo somente uma variável preditora (X) é denominado modelo de regressão simples. Um modelo com mais de uma variável preditora (X) é denominado modelo de regressão múltiplo.
18
Regressão Linear Simples Saídai = (Modeloi) + erroi
onde: Yi é o valor da variável resposta na i-ésima observação; 0 e 1 são parâmetros; Xi é uma constante conhecida; é o valor da variável preditora na i-ésima observação; i é um termo de erro aleatório com média zero e variância constante 2 (E(i)=0 e 2 (i)= 2 ) i e j são não correlacionados (independentes) para i j (2 (i,j)= 0 ) Lembrando: Saídai = (Modeloi) + erroi
19
Regressão Linear Simples
Inclinação Populacional Intercepto Erro Aleatório Variável Preditora Variável Resposta Yi=0+1Xi +i Yi i X Y b0 1 Coeficiente angular Y = E(Y) = 0 + 1 X Ŷi=b0+b1Xi i =Yi-Ŷi Modelo estimado Resíduo
20
Significado de 0 e 1 Os parâmetros 0 e 1 são denominados coeficientes de regressão: 1 é a inclinação da reta de regressão. Ela indica a mudança na média de Y quando X é acrescido de uma unidade. 0 é o intercepto em Y da equação de regressão (é o valor de Y quando X = 0.) 0 só tem significado se o modelo incluir X = 0. X
21
0 x x+1 x=1 y yi = 0 + 1xi 0 (intercepto); quando a região experimental inclui X=0, 0 é o valor da média da distribuição de Y em X=0, cc, não tem significado prático como um termo separado (isolado) no modelo; 1 (inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre a mudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidade de Y por unidade de acréscimo em X. Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em
22
Como encontrar a “linha” que melhor se ajusta aos nossos dados?
Ou seja: Como estimar os valores de 0 e 1? Yi i X Y b0 1 Coeficiente angular Y = 0 + 1 X
23
Estimação dos Parâmetros
Em geral não se conhece os valores de 0 e 1 . Eles podem ser estimados através de dados obtidos por amostras. O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado (E(Yi )): i = Yi – (0 + 1 Xi)
24
Estimação dos Parâmetros
Em particular, o método dos mínimos quadrados requer que a soma dos n desvios quadrados, denotado por Q, seja mínima:
25
Estimação dos Parâmetros
Procedimento matemático para minimizar Q (soma dos desvios quadrados): Q deve ser derivado em relação a 0 e 1: Com derivadas parciais igualadas à zero, obtêm-se os valores estimados de 0 e 1: Teorema de Gauss Markov
26
Como avaliar o quão bem nossa “linha” adere aos dados?
Ou seja: Como avaliar a qualidade de ajuste do modelo?
27
Análise da Variância da Regressão
28
Análise da Variância da Regressão
Desvio Total = Desvio Explicado Pelo Modelo + Desvio Não Explicado Pelo Modelo Desvio Total Diferença entre dados observados (Yi) e média de Y Desvio Não Explicado Pelo Modelo Diferença entre dados observados (Yi) e o modelo (linha de regressão) Desvio Explicado Pelo Modelo Diferença entre média de Y e Modelo (linha de regressão)
29
Análise da Variância da Regressão
30
Inferência: Análise da Variância
Desvio Total Desvio Explicado pelo Modelo Desvio Não-explicado pelo Modelo Elevando-se ao quadrado os dois lados da igualdade e fazendo-se a soma para todas as observações de uma determinada amostra tem-se que: Soma dos quadrados total (SQT) Soma dos quadrados do modelo (SQM) Soma dos quadrados residual (SQR)
31
Particionando a Soma dos Quadrados
Se SQT=0, então todas as observações Y são iguais. Quanto maior for SQT, maior será a variação entre os Y´s. SQT é uma medida da variação dos Y´s quando não se leva em consideração a variável independente X. Se SQR = 0, então as observações caem na linha de regressão. Quanto maior SQR, maior será a variação das observações Y ao redor da linha de regressão. Se a linha de regressão for horizontal, de modo que então SQM = 0.
32
Particionando a Soma dos Quadrados
SQTotal = SQModelo + SQResíduos. Um modo de se saber quão útil será a linha de regressão para a predição é verificar quanto da SQT está na SQM e quanto está na SQR. Idealmente, gostaríamos que SQM fosse muito maior que SQR. Gostaríamos, portanto, que fosse próximo de 1.
33
Coeficiente de Determinação
Uma medida do efeito de X em reduzir a variabilidade do Y é: Note que: 0 R2 1 R2 é denominado coeficiente de determinação. Em um modelo de regressão simples, o coeficiente de determinação é o quadrado do coeficiente de correlação de Pearson (r) entre Y e X. Note que em um modelo de regressão simples
34
Coeficiente de Determinação
Temos dois casos extremos: R2 = 1 todas as observações caem na linha de regressão ajustada. A variável preditora X explica toda a variação nas observações. R2 = isto ocorre quando b1 = 0. Não existe relação linear em Y e X. A variável X não ajuda a explicar a variação dos Yi .
35
Outra maneira de avaliar o modelo utilizando a soma dos quadrados é por meio do Teste F
O Teste F tem por base a razão F, que é a razão de melhoria devida ao modelo e a diferença entre o modelo e os dados observas A razão F é uma medida do quanto o modelo melhorou na previsão de valores comparado com o nível de não precisão do modelo
36
Tabela ANOVA - F Graus de Liberdade (df) Soma dos quadrados (SQ)
Quadrado médio QM=SQ/df Razão da variância Regressão(X) Resíduo 1 (p-1) 28 (n-p) SQT-SQR= SQM= SQR= (QMModelo) 299.77 (QMResíduo) 21.33(p<0.001) Total 29 (n-1) SQT = P=número de parâmetros (bo e b1) Quadrado médio do Resíduo (QMR) é um estimados nao tendencioso da variância dos erros no modelo de regressão. SQT, gl = n-1, 1 grau de liberdade é perdido porque a média da amostra é usada para estimar a média populacional
37
Um bom modelo deverá ter uma razão F grande
Tabela ANOVA - F Graus de Liberdade (df) Soma dos quadrados (SQ) Quadrado médio QM=SQ/df Razão da variância Regressão(X) Resíduo 1 (p-1) 28 (n-p) SQT-SQR= SQM= SQR= (QMModelo) 299.77 (QMResíduo) 21.33(p<0.001) Total 29 (n-1) SQT = P=número de parâmetros (bo e b1) Quadrado médio do Resíduo (QMR) é um estimados nao tendencioso da variância dos erros no modelo de regressão. SQT, gl = n-1, 1 grau de liberdade é perdido porque a média da amostra é usada para estimar a média populacional Importante Lembrar! A razão F é uma medida do quanto o modelo melhorou na previsão de valores comparado com o nível de não precisão do modelo Um bom modelo deverá ter uma razão F grande
38
Inferência: Teste F (Adequação Global)
onde Fc ~ F p-1, n-p MQM= média dos quadrados do modelo / MQR = média dos quadrados do resíduo F for próximo de 1 confirma H0 // F muito alto confirma Ha Se F*> F(; p-1,n-p), rejeitamos a hipótese nula, caso contrário, aceitamos a hipótese.
39
Inferência: Significância de b
Testando se a inclinação é zero. Construir intervalos de confiança para : Teste de hipótese para : - + t1-a/2;n-2 tn-2 -t1-a/2;n-2 a/2 Studentized statistic (b1 – beta1)/s{b1} distribuição t(n-2) Se = 0 , significa que não há correlação entre X e Y. Rejeitar , significa que o modelo que inclui X é melhor do que o modelo que não inclui X mesmo que a linha reta não seja a relação mais apropriada.
40
Inferência Construir intervalos de confiança para : Média: Variância
estimada: Distribuição da estatística studentizada (σ é desconhecido) Studentized statistic (b1 – beta1)/s{b1} distribuição t(n-2) Intervalo de confiança
41
Inferência 2. Teste estatístico formal: feito de maneira padrão usando a distribuição de Student - + t1-a/2;n-2 tn-2 -t1-a/2;n-2 a/2 Studentized statistic (b1 – beta1)/s{b1} distribuição t(n-2) Qual a probabilidade de que t* tenha ocorrido por acaso se o valor de b1 fosse de fato zero? Se esse valor (significância) for menor do que 0,05 (5%), b1 é significativamente diferente de zero
42
Inferência De forma semelhante testamos se é zero
Se a hipótese nula H0= 0 não for rejeitada, pode-se excluir a constante do modelo, já que a reta inclui a origem.
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.