A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

AULA 11 – REGRESSÃO Parte I

Apresentações semelhantes


Apresentação em tema: "AULA 11 – REGRESSÃO Parte I"— Transcrição da apresentação:

1 AULA 11 – REGRESSÃO Parte I
Flávia F. Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento Agosto de 2014

2 Inferência Estatística se resumindo a uma equação…
Saídai = (Modeloi) + erroi Ou seja, os dados que observamos podem ser previstos pelo modelo que escolhemos para ajustar os dados mais um erro

3 Média como um modelo estatístico
Uma maneira útil de descrever um grupo como um todo: Qual é a renda média das famílias residentes na Mooca? Qual é a altura média dos edifícios em São Caetano? Qual é o PIB médio dos municípios localizados no arco do desmatamento?

4 Para além de médias… Modelos Lineares
São modelos baseados sobre uma linha reta, utilizados para representar a relação entre variáveis Ou seja, geralmente estamos tentando resumir as RELAÇÕES observadas a partir de nossos dados observados em termos de uma linha reta. RELAÇÃO ENTRE CONSUMO DE ÁGUA E RENDA Consumo de Água per Capita (m3/dia/ano) Renda per Capita (R$)

5 É uma medida do relacionamento linear entre duas variáveis
CORRELAÇÃO É uma medida do relacionamento linear entre duas variáveis Duas variáveis podem estar: Positivamente relacionadas  quando maior a renda, maior o consumo de água Negativamente relacionadas  quanto maior a renda, menor o consumo de água Não há relação entre as variáveis

6 COEFICIENTE DE CORRELAÇÃO DE PEARSON Valor de r situa-se entre -1 e +1
Medida padronizada da correlação entre variáveis COEFICIENTE DE CORRELAÇÃO DE PEARSON Valor de r situa-se entre -1 e +1 r = +1  duas variáveis estão perfeitamente correlacionadas de forma positiva (se uma aumenta, a outra aumenta proporcionalmente) r = -1  relacionamento negativo perfeito (se uma aumenta, a outra diminui em valor proporcional r = 0  indica ausência de relacionamento linear

7 Teste de Significância do r de Pearson
Para testar a significância do r, calculamos uma estatística teste conhecida como “razão t”, com graus de liberdade igual a N-2. Neste caso, os graus de liberdade indicam o quão próxima a distribuição t está da distribuição normal. Qto maior, mais póximo da dist. normal. Olhar na tabela o valor crítico de t, com graus de liberdade “N-2” e α=0,05 Se tcalculado > tcrítico, podemos rejeitar a hipótese nula de que ρ=0.

8 (Lembrando que não estamos lidando com relações de causa-efeito)
No entanto, a correlação nada nos informa sobre o “poder preditivo” das variáveis Vamos avançar um passo em relação à correlação… Vamos tentar “prever” algum tipo de saída/resultado (ex., consumo de água) a partir de uma ou mais variáveis previsoras (ex., renda) Esta é a essência da ANÁLISE DE REGRESSÃO (Lembrando que não estamos lidando com relações de causa-efeito)

9 ANÁLISE DE REGRESSÃO Análise de regressão é uma ferramenta estatística que utiliza a relação entre duas ou mais variáveis tal que uma variável possa ser explicada (Y  variável resposta/ dependente/ saída) pela outra ou outras (X  variáveis indicadoras/ previsoras/ explicativas/ independentes). Y = aX + b NETER J. et al. Applied Linear Statistical Models. Boston, MA: McGraw-Hill, 1996.

10 Exemplos Alunos Criminalidade (+) X Renda (-), Investimentos (-)
Longevidade (+) X Escolaridade (+), Renda (+) Consumo de Água (+) X Renda per Capita (+) ...

11 Objetivos da Análise de Regressão
Determinar como duas ou mais variáveis se relacionam. Estimar a função que determina a relação entre duas variáveis. Usar a equação para projetar/estimar valores futuros da variável dependente. Lembrete importante: A existência de uma relação estatística entre a variável resposta Y e a variável explicativa X não implica na existência de uma relação causal entre elas.

12 Diagrama de Dispersão Os dados para a análise de regressão são da forma: (x1, y1), (x2, y2), ..., (xi, yi), ... (xn, yn) Com os dados constrói-se o diagrama de dispersão. Este deve exibir uma tendência linear para que se possa usar a regressão linear. Ou seja, o diagrama permite decidir empiricamente se um relacionamento linear entre X e Y deve ser assumido.

13 Diagrama de Dispersão Sugerem uma regressão/relação linear. Assim, a relação entre as variáveis poderá ser descrita por uma equação linear.

14 Diagrama de Dispersão Sugerem uma regressão/relação não linear.
Assim, a relação entre as variáveis poderá ser descrita por uma equação não linear. (ou podemos verificar a possibilidade de “linearizar” a relação através de transformações nas variáveis)

15 Diagrama de Dispersão Por análise do diagrama de dispersão pode-se também concluir (empiricamente) se o grau de relacionamento linear entre as variáveis é forte ou fraco, conforme o modo como se situam os pontos ao redor de uma reta imaginária que passa através da concentração de pontos.

16 Diagrama de Dispersão Existência de correlação linear positiva: em média, quanto maior o X, maior será o Y Existência de correlação linear negativa: em média, quanto maior o X, menor será o Y

17 Modelos de Regressão Um modelo de regressão contendo somente uma variável preditora (X) é denominado modelo de regressão simples. Um modelo com mais de uma variável preditora (X) é denominado modelo de regressão múltiplo.

18 Regressão Linear Simples Saídai = (Modeloi) + erroi
onde: Yi é o valor da variável resposta na i-ésima observação; 0 e 1 são parâmetros; Xi é uma constante conhecida; é o valor da variável preditora na i-ésima observação; i é um termo de erro aleatório com média zero e variância constante 2 (E(i)=0 e 2 (i)= 2 ) i e j são não correlacionados (independentes) para i j (2 (i,j)= 0 ) Lembrando: Saídai = (Modeloi) + erroi

19 Regressão Linear Simples
Inclinação Populacional Intercepto Erro Aleatório Variável Preditora Variável Resposta Yi=0+1Xi +i Yi i X Y b0 1 Coeficiente angular Y = E(Y) = 0 + 1 X Ŷi=b0+b1Xi i =Yi-Ŷi Modelo estimado Resíduo

20 Significado de 0 e 1 Os parâmetros 0 e 1 são denominados coeficientes de regressão: 1 é a inclinação da reta de regressão. Ela indica a mudança na média de Y quando X é acrescido de uma unidade. 0 é o intercepto em Y da equação de regressão (é o valor de Y quando X = 0.) 0 só tem significado se o modelo incluir X = 0. X

21 0 x x+1 x=1 y yi = 0 + 1xi 0 (intercepto); quando a região experimental inclui X=0, 0 é o valor da média da distribuição de Y em X=0, cc, não tem significado prático como um termo separado (isolado) no modelo; 1 (inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre a mudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidade de Y por unidade de acréscimo em X. Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em

22 Como encontrar a “linha” que melhor se ajusta aos nossos dados?
Ou seja: Como estimar os valores de 0 e 1? Yi i X Y b0 1 Coeficiente angular Y = 0 + 1 X

23 Estimação dos Parâmetros
Em geral não se conhece os valores de 0 e 1 . Eles podem ser estimados através de dados obtidos por amostras. O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado (E(Yi )): i = Yi – (0 + 1 Xi)

24 Estimação dos Parâmetros
Em particular, o método dos mínimos quadrados requer que a soma dos n desvios quadrados, denotado por Q, seja mínima:

25 Estimação dos Parâmetros
Procedimento matemático para minimizar Q (soma dos desvios quadrados): Q deve ser derivado em relação a 0 e 1: Com derivadas parciais igualadas à zero, obtêm-se os valores estimados de 0 e 1: Teorema de Gauss Markov

26 Como avaliar o quão bem nossa “linha” adere aos dados?
Ou seja: Como avaliar a qualidade de ajuste do modelo?

27 Análise da Variância da Regressão

28 Análise da Variância da Regressão
Desvio Total = Desvio Explicado Pelo Modelo + Desvio Não Explicado Pelo Modelo Desvio Total Diferença entre dados observados (Yi) e média de Y Desvio Não Explicado Pelo Modelo Diferença entre dados observados (Yi) e o modelo (linha de regressão) Desvio Explicado Pelo Modelo Diferença entre média de Y e Modelo (linha de regressão)

29 Análise da Variância da Regressão

30 Inferência: Análise da Variância
Desvio Total Desvio Explicado pelo Modelo Desvio Não-explicado pelo Modelo Elevando-se ao quadrado os dois lados da igualdade e fazendo-se a soma para todas as observações de uma determinada amostra tem-se que: Soma dos quadrados total (SQT) Soma dos quadrados do modelo (SQM) Soma dos quadrados residual (SQR)

31 Particionando a Soma dos Quadrados
Se SQT=0, então todas as observações Y são iguais. Quanto maior for SQT, maior será a variação entre os Y´s. SQT é uma medida da variação dos Y´s quando não se leva em consideração a variável independente X. Se SQR = 0, então as observações caem na linha de regressão. Quanto maior SQR, maior será a variação das observações Y ao redor da linha de regressão. Se a linha de regressão for horizontal, de modo que então SQM = 0.

32 Particionando a Soma dos Quadrados
SQTotal = SQModelo + SQResíduos. Um modo de se saber quão útil será a linha de regressão para a predição é verificar quanto da SQT está na SQM e quanto está na SQR. Idealmente, gostaríamos que SQM fosse muito maior que SQR. Gostaríamos, portanto, que fosse próximo de 1.

33 Coeficiente de Determinação
Uma medida do efeito de X em reduzir a variabilidade do Y é: Note que: 0  R2  1 R2 é denominado coeficiente de determinação. Em um modelo de regressão simples, o coeficiente de determinação é o quadrado do coeficiente de correlação de Pearson (r) entre Y e X. Note que em um modelo de regressão simples

34 Coeficiente de Determinação
Temos dois casos extremos: R2 = 1 todas as observações caem na linha de regressão ajustada. A variável preditora X explica toda a variação nas observações. R2 = isto ocorre quando b1 = 0. Não existe relação linear em Y e X. A variável X não ajuda a explicar a variação dos Yi .

35 Outra maneira de avaliar o modelo utilizando a soma dos quadrados é por meio do Teste F
O Teste F tem por base a razão F, que é a razão de melhoria devida ao modelo e a diferença entre o modelo e os dados observas A razão F é uma medida do quanto o modelo melhorou na previsão de valores comparado com o nível de não precisão do modelo

36 Tabela ANOVA - F Graus de Liberdade (df) Soma dos quadrados (SQ)
Quadrado médio QM=SQ/df Razão da variância Regressão(X) Resíduo 1 (p-1) 28 (n-p) SQT-SQR= SQM= SQR= (QMModelo) 299.77 (QMResíduo) 21.33(p<0.001) Total 29 (n-1) SQT = P=número de parâmetros (bo e b1)  Quadrado médio do Resíduo (QMR) é um estimados nao tendencioso da variância dos erros no modelo de regressão. SQT, gl = n-1, 1 grau de liberdade é perdido porque a média da amostra é usada para estimar a média populacional

37 Um bom modelo deverá ter uma razão F grande
Tabela ANOVA - F Graus de Liberdade (df) Soma dos quadrados (SQ) Quadrado médio QM=SQ/df Razão da variância Regressão(X) Resíduo 1 (p-1) 28 (n-p) SQT-SQR= SQM= SQR= (QMModelo) 299.77 (QMResíduo) 21.33(p<0.001) Total 29 (n-1) SQT = P=número de parâmetros (bo e b1)  Quadrado médio do Resíduo (QMR) é um estimados nao tendencioso da variância dos erros no modelo de regressão. SQT, gl = n-1, 1 grau de liberdade é perdido porque a média da amostra é usada para estimar a média populacional Importante Lembrar! A razão F é uma medida do quanto o modelo melhorou na previsão de valores comparado com o nível de não precisão do modelo Um bom modelo deverá ter uma razão F grande

38 Inferência: Teste F (Adequação Global)
onde Fc ~ F p-1, n-p MQM= média dos quadrados do modelo / MQR = média dos quadrados do resíduo F for próximo de 1 confirma H0 // F muito alto confirma Ha Se F*> F(; p-1,n-p), rejeitamos a hipótese nula, caso contrário, aceitamos a hipótese.

39 Inferência: Significância de b
Testando se a inclinação é zero. Construir intervalos de confiança para : Teste de hipótese para : - + t1-a/2;n-2 tn-2 -t1-a/2;n-2 a/2 Studentized statistic (b1 – beta1)/s{b1}  distribuição t(n-2) Se = 0 , significa que não há correlação entre X e Y. Rejeitar , significa que o modelo que inclui X é melhor do que o modelo que não inclui X mesmo que a linha reta não seja a relação mais apropriada.

40 Inferência Construir intervalos de confiança para : Média: Variância
estimada: Distribuição da estatística studentizada (σ é desconhecido) Studentized statistic (b1 – beta1)/s{b1}  distribuição t(n-2) Intervalo de confiança

41 Inferência 2. Teste estatístico formal: feito de maneira padrão usando a distribuição de Student - + t1-a/2;n-2 tn-2 -t1-a/2;n-2 a/2 Studentized statistic (b1 – beta1)/s{b1}  distribuição t(n-2) Qual a probabilidade de que t* tenha ocorrido por acaso se o valor de b1 fosse de fato zero? Se esse valor (significância) for menor do que 0,05 (5%), b1 é significativamente diferente de zero

42 Inferência De forma semelhante testamos se é zero
Se a hipótese nula H0= 0 não for rejeitada, pode-se excluir a constante do modelo, já que a reta inclui a origem.


Carregar ppt "AULA 11 – REGRESSÃO Parte I"

Apresentações semelhantes


Anúncios Google