AULA 11 – REGRESSÃO Parte I

AULA 11 – REGRESSÃO Parte I
Flávia F. Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento Agosto de 2014

Inferência Estatística se resumindo a uma equação…
Saídai = (Modeloi) + erroi Ou seja, os dados que observamos podem ser previstos pelo modelo que escolhemos para ajustar os dados mais um erro

Média como um modelo estatístico
Uma maneira útil de descrever um grupo como um todo: Qual é a renda média das famílias residentes na Mooca? Qual é a altura média dos edifícios em São Caetano? Qual é o PIB médio dos municípios localizados no arco do desmatamento?

Para além de médias… Modelos Lineares
São modelos baseados sobre uma linha reta, utilizados para representar a relação entre variáveis Ou seja, geralmente estamos tentando resumir as RELAÇÕES observadas a partir de nossos dados observados em termos de uma linha reta. RELAÇÃO ENTRE CONSUMO DE ÁGUA E RENDA Consumo de Água per Capita (m3/dia/ano) Renda per Capita (R$)

É uma medida do relacionamento linear entre duas variáveis
CORRELAÇÃO É uma medida do relacionamento linear entre duas variáveis Duas variáveis podem estar: Positivamente relacionadas  quando maior a renda, maior o consumo de água Negativamente relacionadas  quanto maior a renda, menor o consumo de água Não há relação entre as variáveis

COEFICIENTE DE CORRELAÇÃO DE PEARSON Valor de r situa-se entre -1 e +1
Medida padronizada da correlação entre variáveis COEFICIENTE DE CORRELAÇÃO DE PEARSON Valor de r situa-se entre -1 e +1 r = +1  duas variáveis estão perfeitamente correlacionadas de forma positiva (se uma aumenta, a outra aumenta proporcionalmente) r = -1  relacionamento negativo perfeito (se uma aumenta, a outra diminui em valor proporcional r = 0  indica ausência de relacionamento linear

Teste de Significância do r de Pearson
Para testar a significância do r, calculamos uma estatística teste conhecida como “razão t”, com graus de liberdade igual a N-2. Neste caso, os graus de liberdade indicam o quão próxima a distribuição t está da distribuição normal. Qto maior, mais póximo da dist. normal. Olhar na tabela o valor crítico de t, com graus de liberdade “N-2” e α=0,05 Se tcalculado > tcrítico, podemos rejeitar a hipótese nula de que ρ=0.

(Lembrando que não estamos lidando com relações de causa-efeito)
No entanto, a correlação nada nos informa sobre o “poder preditivo” das variáveis Vamos avançar um passo em relação à correlação… Vamos tentar “prever” algum tipo de saída/resultado (ex., consumo de água) a partir de uma ou mais variáveis previsoras (ex., renda) Esta é a essência da ANÁLISE DE REGRESSÃO (Lembrando que não estamos lidando com relações de causa-efeito)

ANÁLISE DE REGRESSÃO Análise de regressão é uma ferramenta estatística que utiliza a relação entre duas ou mais variáveis tal que uma variável possa ser explicada (Y  variável resposta/ dependente/ saída) pela outra ou outras (X  variáveis indicadoras/ previsoras/ explicativas/ independentes). Y = aX + b NETER J. et al. Applied Linear Statistical Models. Boston, MA: McGraw-Hill, 1996.

Exemplos Alunos Criminalidade (+) X Renda (-), Investimentos (-)
Longevidade (+) X Escolaridade (+), Renda (+) Consumo de Água (+) X Renda per Capita (+) ...

Objetivos da Análise de Regressão
Determinar como duas ou mais variáveis se relacionam. Estimar a função que determina a relação entre duas variáveis. Usar a equação para projetar/estimar valores futuros da variável dependente. Lembrete importante: A existência de uma relação estatística entre a variável resposta Y e a variável explicativa X não implica na existência de uma relação causal entre elas.

Diagrama de Dispersão Os dados para a análise de regressão são da forma: (x1, y1), (x2, y2), ..., (xi, yi), ... (xn, yn) Com os dados constrói-se o diagrama de dispersão. Este deve exibir uma tendência linear para que se possa usar a regressão linear. Ou seja, o diagrama permite decidir empiricamente se um relacionamento linear entre X e Y deve ser assumido.

Diagrama de Dispersão Sugerem uma regressão/relação linear. Assim, a relação entre as variáveis poderá ser descrita por uma equação linear.

Diagrama de Dispersão Sugerem uma regressão/relação não linear.
Assim, a relação entre as variáveis poderá ser descrita por uma equação não linear. (ou podemos verificar a possibilidade de “linearizar” a relação através de transformações nas variáveis)

Diagrama de Dispersão Por análise do diagrama de dispersão pode-se também concluir (empiricamente) se o grau de relacionamento linear entre as variáveis é forte ou fraco, conforme o modo como se situam os pontos ao redor de uma reta imaginária que passa através da concentração de pontos.

Diagrama de Dispersão Existência de correlação linear positiva: em média, quanto maior o X, maior será o Y Existência de correlação linear negativa: em média, quanto maior o X, menor será o Y

Modelos de Regressão Um modelo de regressão contendo somente uma variável preditora (X) é denominado modelo de regressão simples. Um modelo com mais de uma variável preditora (X) é denominado modelo de regressão múltiplo.

Regressão Linear Simples Saídai = (Modeloi) + erroi
onde: Yi é o valor da variável resposta na i-ésima observação; 0 e 1 são parâmetros; Xi é uma constante conhecida; é o valor da variável preditora na i-ésima observação; i é um termo de erro aleatório com média zero e variância constante 2 (E(i)=0 e 2 (i)= 2 ) i e j são não correlacionados (independentes) para i j (2 (i,j)= 0 ) Lembrando: Saídai = (Modeloi) + erroi

Regressão Linear Simples
Inclinação Populacional Intercepto Erro Aleatório Variável Preditora Variável Resposta Yi=0+1Xi +i Yi i X Y b0 1 Coeficiente angular Y = E(Y) = 0 + 1 X Ŷi=b0+b1Xi i =Yi-Ŷi Modelo estimado Resíduo

Significado de 0 e 1 Os parâmetros 0 e 1 são denominados coeficientes de regressão: 1 é a inclinação da reta de regressão. Ela indica a mudança na média de Y quando X é acrescido de uma unidade. 0 é o intercepto em Y da equação de regressão (é o valor de Y quando X = 0.) 0 só tem significado se o modelo incluir X = 0. X

0  x x+1 x=1 y yi = 0 + 1xi 0 (intercepto); quando a região experimental inclui X=0, 0 é o valor da média da distribuição de Y em X=0, cc, não tem significado prático como um termo separado (isolado) no modelo; 1 (inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre a mudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidade de Y por unidade de acréscimo em X. Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em

Como encontrar a “linha” que melhor se ajusta aos nossos dados?
Ou seja: Como estimar os valores de 0 e 1? Yi i X Y b0 1 Coeficiente angular Y = 0 + 1 X

Estimação dos Parâmetros
Em geral não se conhece os valores de 0 e 1 . Eles podem ser estimados através de dados obtidos por amostras. O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado (E(Yi )): i = Yi – (0 + 1 Xi)

Em particular, o método dos mínimos quadrados requer que a soma dos n desvios quadrados, denotado por Q, seja mínima:

Procedimento matemático para minimizar Q (soma dos desvios quadrados): Q deve ser derivado em relação a 0 e 1: Com derivadas parciais igualadas à zero, obtêm-se os valores estimados de 0 e 1: Teorema de Gauss Markov

Como avaliar o quão bem nossa “linha” adere aos dados?
Ou seja: Como avaliar a qualidade de ajuste do modelo?

Análise da Variância da Regressão

Desvio Total = Desvio Explicado Pelo Modelo + Desvio Não Explicado Pelo Modelo Desvio Total Diferença entre dados observados (Yi) e média de Y Desvio Não Explicado Pelo Modelo Diferença entre dados observados (Yi) e o modelo (linha de regressão) Desvio Explicado Pelo Modelo Diferença entre média de Y e Modelo (linha de regressão)

Inferência: Análise da Variância
Desvio Total Desvio Explicado pelo Modelo Desvio Não-explicado pelo Modelo Elevando-se ao quadrado os dois lados da igualdade e fazendo-se a soma para todas as observações de uma determinada amostra tem-se que: Soma dos quadrados total (SQT) Soma dos quadrados do modelo (SQM) Soma dos quadrados residual (SQR)

Particionando a Soma dos Quadrados
Se SQT=0, então todas as observações Y são iguais. Quanto maior for SQT, maior será a variação entre os Y´s. SQT é uma medida da variação dos Y´s quando não se leva em consideração a variável independente X. Se SQR = 0, então as observações caem na linha de regressão. Quanto maior SQR, maior será a variação das observações Y ao redor da linha de regressão. Se a linha de regressão for horizontal, de modo que então SQM = 0.

Particionando a Soma dos Quadrados
SQTotal = SQModelo + SQResíduos. Um modo de se saber quão útil será a linha de regressão para a predição é verificar quanto da SQT está na SQM e quanto está na SQR. Idealmente, gostaríamos que SQM fosse muito maior que SQR. Gostaríamos, portanto, que fosse próximo de 1.

Coeficiente de Determinação
Uma medida do efeito de X em reduzir a variabilidade do Y é: Note que: 0  R2  1 R2 é denominado coeficiente de determinação. Em um modelo de regressão simples, o coeficiente de determinação é o quadrado do coeficiente de correlação de Pearson (r) entre Y e X. Note que em um modelo de regressão simples

Coeficiente de Determinação
Temos dois casos extremos: R2 = 1 todas as observações caem na linha de regressão ajustada. A variável preditora X explica toda a variação nas observações. R2 = isto ocorre quando b1 = 0. Não existe relação linear em Y e X. A variável X não ajuda a explicar a variação dos Yi .

Outra maneira de avaliar o modelo utilizando a soma dos quadrados é por meio do Teste F
O Teste F tem por base a razão F, que é a razão de melhoria devida ao modelo e a diferença entre o modelo e os dados observas A razão F é uma medida do quanto o modelo melhorou na previsão de valores comparado com o nível de não precisão do modelo

Tabela ANOVA - F Graus de Liberdade (df) Soma dos quadrados (SQ)
Quadrado médio QM=SQ/df Razão da variância Regressão(X) Resíduo 1 (p-1) 28 (n-p) SQT-SQR= SQM= SQR= (QMModelo) 299.77 (QMResíduo) 21.33(p<0.001) Total 29 (n-1) SQT = P=número de parâmetros (bo e b1)  Quadrado médio do Resíduo (QMR) é um estimados nao tendencioso da variância dos erros no modelo de regressão. SQT, gl = n-1, 1 grau de liberdade é perdido porque a média da amostra é usada para estimar a média populacional

Um bom modelo deverá ter uma razão F grande
Tabela ANOVA - F Graus de Liberdade (df) Soma dos quadrados (SQ) Quadrado médio QM=SQ/df Razão da variância Regressão(X) Resíduo 1 (p-1) 28 (n-p) SQT-SQR= SQM= SQR= (QMModelo) 299.77 (QMResíduo) 21.33(p<0.001) Total 29 (n-1) SQT = P=número de parâmetros (bo e b1)  Quadrado médio do Resíduo (QMR) é um estimados nao tendencioso da variância dos erros no modelo de regressão. SQT, gl = n-1, 1 grau de liberdade é perdido porque a média da amostra é usada para estimar a média populacional Importante Lembrar! A razão F é uma medida do quanto o modelo melhorou na previsão de valores comparado com o nível de não precisão do modelo Um bom modelo deverá ter uma razão F grande

Inferência: Teste F (Adequação Global)
onde Fc ~ F p-1, n-p MQM= média dos quadrados do modelo / MQR = média dos quadrados do resíduo F for próximo de 1 confirma H0 // F muito alto confirma Ha Se F*> F(; p-1,n-p), rejeitamos a hipótese nula, caso contrário, aceitamos a hipótese.

Inferência: Significância de b
Testando se a inclinação é zero. Construir intervalos de confiança para : Teste de hipótese para : - + t1-a/2;n-2 tn-2 -t1-a/2;n-2 a/2 Studentized statistic (b1 – beta1)/s{b1}  distribuição t(n-2) Se = 0 , significa que não há correlação entre X e Y. Rejeitar , significa que o modelo que inclui X é melhor do que o modelo que não inclui X mesmo que a linha reta não seja a relação mais apropriada.

Inferência Construir intervalos de confiança para : Média: Variância
estimada: Distribuição da estatística studentizada (σ é desconhecido) Studentized statistic (b1 – beta1)/s{b1}  distribuição t(n-2) Intervalo de confiança

Inferência 2. Teste estatístico formal: feito de maneira padrão usando a distribuição de Student - + t1-a/2;n-2 tn-2 -t1-a/2;n-2 a/2 Studentized statistic (b1 – beta1)/s{b1}  distribuição t(n-2) Qual a probabilidade de que t* tenha ocorrido por acaso se o valor de b1 fosse de fato zero? Se esse valor (significância) for menor do que 0,05 (5%), b1 é significativamente diferente de zero

Inferência De forma semelhante testamos se é zero
Se a hipótese nula H0= 0 não for rejeitada, pode-se excluir a constante do modelo, já que a reta inclui a origem.

AULA 11 – REGRESSÃO Parte I

Apresentações semelhantes

Apresentação em tema: "AULA 11 – REGRESSÃO Parte I"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

AULA 11 – REGRESSÃO Parte I

Apresentações semelhantes

Apresentação em tema: "AULA 11 – REGRESSÃO Parte I"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback