A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise de Regressão.

Apresentações semelhantes


Apresentação em tema: "Análise de Regressão."— Transcrição da apresentação:

1 Análise de Regressão

2 Análise de Regressão É um tipo de análise que usa modelos matemáticos para relacionar o comportamento de uma variável Y com o de outra X. Modelo Simples Y = f (X) Modelo Multivariado Y = f (X1, X2,...Xn)

3 Análise de Regressão Para que serve saber a relação entre duas variáveis? Para fazer PREVISÕES sobre o comportamento futuro de um fenômeno atual extrapola-se para o futuro o comportamento presente das variáveis: - Ex: Prever a população de uma cidade no futuro. - Ex: Prever a natalidade infantil para o ano 2050. - Ex: Prever a demanda futura por habitação Para SIMULAR os efeitos de uma variável X sobre uma variável Y. avalia-se as relações de causa-efeito entre 2 variáveis - Ex: Simular os efeitos sobre a segurança na cidade (Y) em função do aumento do policiamento ostensivo nas ruas (X) . - Ex: Simular o efeito sobre o trânsito (Y) de uma cidade em função da elevação do preço da gasolina (X).

4 Análise de Regressão Os Modelos de Regressão são aqueles que simulam o relacionamentos entre 2 ou mais variáveis. O modelo é SIMPLES quando envolve o relacionamento entre duas variáveis. Esse relacionamento pode ser: Simples Linear (equação da reta) ou, Simples Não linear (equação exponencial, geométrica, ...) O modelo é MULTIVARIADO quando envolve o relacionamento entre mais de duas variáveis: Multivariado Linear (equação do plano) Multivariado Não Linear

5 Análise de Regressão: Modelos
A relação entre as variáveis é: direta (ou positiva) quando os valores de Y aumentam em decorrência do aumento dos valores de X . Y X inversa (ou negativa) quando os valores de Y variam inversamente em relação aos de X. Y X

6 Análise de Regressão: Diagrama de Dispersão
É uma “nuvem” de pontos plotados num gráfico cartesiano. Os pontos são definidos pelos valores da variável X e da variável Y. Numa pesquisa toda vez que os valores de X e Y forem apurados um par de informação referente a cada ponto é gerado. Os valores das variáveis x e y serão as coordenadas de cada ponto plotado no gráfico.

7 Análise de Regressão: Diagrama de Dispersão
Relação Direta

8 Análise de Regressão: Diagrama de Dispersão
Observação X Y 1 30 4300 2 21 3350 3 35 5200 4 42 4900 5 37 4700 6 20 2100 7 8 1950 17 2700 9 4000 10 25 4800 Relação Direta Idade X Renda mensal

9 Análise de Regressão: Diagrama de Dispersão
Relação Direta Idade x Renda

10 Análise de Regressão: Diagrama de Dispersão
Relação Inversa

11 Análise de Regressão: Diagrama de Dispersão
x y 30 370 21 480 35 195 45 20 420 8 520 17 450 40 210 25 400 5 580 3 640 Relação Inversa Distancia em relação do centro da cidade X Renda familiar

12 Análise de Regressão: Diagrama de Dispersão

13 Análise de Regressão: Diagrama de Dispersão
Sem relação

14 Modelo Linear Simples

15 Análise de Regressão: Modelo Linear
A Análise de Regressão é o processo matemático para calcular os parâmetros “a” e “b” de uma função f (X). Y = a + b X Estes parâmetros determinam as características da função que relaciona ‘Y’ com ‘X’. No caso do modelo linear esta função é representada por uma reta chamada de reta de regressão.

16 Análise de Regressão: Modelo Linear
Observação X Y 1 30 4300 2 21 3350 3 35 5200 4 42 4900 5 37 4700 6 20 2100 7 8 1950 17 2700 9 4000 10 25 4800 Relação entre as variáveis: X = Idade Y = Renda mensal

17 Análise de Regressão: Modelo Linear

18 Análise de Regressão: Modelo Linear
A reta de regressão explica teoricamente ou modela a relação entre X e Y. Isto significa que o valor de Y observado nem sempre é igual ao valor de Y’ estimado (ou previsto) pela reta de regressão.

19 Análise de Regressão: Modelo Linear
Erro ou Desvio Haverá sempre alguma diferença entre o valor observado Y e o valor estimado Y’. Essa diferença em estatística é chamada de erro ou desvio: e = Y – Y’ O erro indica que: que as variações de Y não são perfeitamente explicadas pelas variações de X ou; que existem outras variáveis das quais Y depende ou; que os valores de X e Y são obtidos de uma amostra particular que não é representativa da realidade .

20 Análise de Regressão: Modelo Linear
A regressão significa que os pontos plotados no gráfico são regredidos, isto é, são definidos ou modelados por uma reta que corresponde à menor distância entre cada ponto plotado e a reta. Y = α + β X equação da reta a partir dos dados coletados Y’ = a + b X’ equação da reta a partir das estimativas

21 Análise de Regressão: Modelo Linear
A regressão significa que os pontos plotados no gráfico são regredidos, isto é, são definidos ou modelados por uma reta que corresponde à menor distância entre cada ponto plotado e a reta.

22 ! ! ! ! ! ! ! O objetivo da regressão ! ! ! ! ! ! !
Análise de Regressão: Modelo Linear ! ! ! ! ! ! ! O objetivo da regressão ! ! ! ! ! ! ! Reduzir a diferença entre Y (plotado) e Y’(estimado) ou; Tornar mínimo os somatórios dos desvios entre Y e Y’.  (Y – Y’) = (y1-y’1)+(y2-y’2)+....+(yn - y’n) = mínimo

23 Análise de Regressão: Modelo Linear

24 Análise de Regressão: Modelo Linear
Método dos Mínimos Quadrados É o método matemático para calcular os parâmetros a e b da reta regressão. O método dos mínimos quadrados define uma reta que minimiza a soma das distâncias ao quadrado entre os pontos plotados (X, Y) e a reta (X’,Y’). A reta que minimiza as distâncias ou as diferenças (ou o erro) entre Y e Y’ é chamada de curva de regressão Equações Normais: Σ XY = a Σ X + b Σ X2 Σ Y = Na + b Σ X

25 Análise de Regressão: Modelo Linear

26 Análise de Regressão: Modelo Linear Erro padrão da estimativa
UTILIDADE DA RETA DE REGRESSÃO A reta de regressão é apenas uma aproximação da realidade. É um modo útil para indicar a tendência dos dados. Mas até que ponto a reta de regressão é uma aproximação confiável para avaliar a tendência da realidade? Duas medidas são usadas para indicar o quanto confiável, útil ou aproximada da realidade é a reta: Erro padrão da estimativa Coeficiente de determinação

27 Análise de Regressão: Modelo Linear
Erro Padrão da Estimativa - Se Mede o desvio entre os valores reais de Y e os valores estimados Y’. Ele informa a extensão do erro entre os valores de Y’ obtidos das estimativas e os valores de Y fornecidos pela amostra. Se é medido na unidade de Y. O que se busca é obter o menor valor possível de Se. Pode-se interpretar o Se como um desvio padrão dos resíduos.

28 Análise de Regressão: Modelo Linear
Y Y’ Y Y Y’ Y’ Y’ Y’ Y’ Y’ Y’ Y Y

29 Análise de Regressão: Modelo Linear
Erro Padrão da Estimativa Se Assumindo que estes resíduos são "normalmente distribuídos", pode-se dizer então que: 68% dos pontos (plotados) encontram-se dentro do intervalo de 1 desvio padrão entorno da média: -1 ≤ Se ≥ +1 95% dos pontos encontram-se dentro do intervalo de 2 desvios padrão ao redor da média:  -2 ≤ Se ≥ +2 Fórmula Σ (Y – Y’) Σ (Y – Y’)2 Se2 = Se = N – N – 2

30 Análise de Regressão: Modelo Linear
Coeficiente de Determinação Observe que os pontos (xi,yi) estão distribuídos acima e abaixo da reta de regressão. Para cada ponto (Y) coletado no levantamento de campo : o seu valor estimado Y’ (na reta de regressão) o seu valor médio Y* (na reta paralela ao eixo X)

31 Análise de Regressão: Modelo Linear
Y’ Y Y Y Y Y’ Y Y’ Y Y* Y* Y’ Y’ Y’ Y’ Y Y

32 Análise de Regressão: Modelo Linear
A diferença entre o valor de Y e o valor de Y* é a variação total. Y - Y* A diferença entre o valor de Y e o valor de Y’ é chamada de variação Não explicada. Y – Y’ A diferença entre o valor de Y* e o valor de Y’ é o chamada de variação explicada Y’ – Y*

33 Análise de Regressão: Modelo Linear
A soma dos desvios ao quadrado entre todos os pontos e a média de Y é chamada de Variação Total Σ (Y – Y*)2 A soma dos desvios ao quadrado entre os valores de Y e os valores de Y’ é chamada de Variação Não Explicada Σ ( Y – Y’)2 A soma dos desvios ao quadrado entre os valores de Y* e os valores de Y’ é chamada de Variação Explicada Σ ( Y’ – Y*)2

34 Σ (Y – Y*)2 = Σ (Y – Y’)2 + Σ (Y’ – Y*)2
Análise de Regressão: Modelo Linear Coeficiente de Determinação Σ (Y – Y*)2 Variação Total Σ (Y – Y’)2 Variação Não Explicada Σ (Y’ – Y*)2 Variação Explicada Variação Total = Variação não Explicada + Variação Explicada Σ (Y – Y*)2 = Σ (Y – Y’)2 + Σ (Y’ – Y*)2

35 Análise de Regressão: Modelo Linear
Coeficiente de Determinação r2 Σ (Y’ – Y*) Variação Explicada r2 = _________________ Σ (Y – Y*)2 Variação Total O coeficiente de determinação deve ser interpretado como: a proporção entre a variação total da variável dependente Y e a variação de Y que é explicada pela da variável independente X. O porcentual de variação da variável Y que é explicado pela variável X.

36 Análise de Regressão: Modelo Linear
CÁLCULO DO COEFICIENTE DE DETERMINAÇÃO Variação x y y’ Explicada Não Explicada Total 30 4300 4092,14 853,48 43204,01 250000 21 3350 3215,71 3.413,93 18033,41 202500 35 5200 4579,05 6.069,21 385577,2 42 4900 5260,72 21.337,07 130119,9 37 4700 4773,81 9.483,14 5448,54 810000 20 2100 3118,33 4.646,74 8 1950 1949,75 34.234,14 0,061027 17 27000 2826,19 15922,85 4000 335300,5 40000 25 4800 3605,24 379,33 Soma 95.969,39 33.980,61 ,00 Media y 380 b 97,4 Coeficiente de Determinação 0,7385 a 1170,07

37 Análise de Regressão: Modelo Linear
CÁLCULO DO COEFICIENTE DE DETERMINAÇÃO Variação x y Projeção Explicada Não Explicada 30 430 4092,14 853,48 432,04 21 335 3215,71 3.413,93 180,33 35 520 4579,05 6.069,21 3.855,77 42 490 5260,72 21.337,07 1.301,20 37 470 4773,81 9.483,14 54,49 20 210 3118,33 4.646,74 10.369,96 8 195 1949,75 34.234,14 17 270 2826,19 159,23 400 3.353,01 25 480 3605,24 379,33 14.274,58 Media y 380 Soma 95.969,39 33.980,61 b 97,4 a 1170,7 Coeficiente de Determinação 0,7385

38 Análise de Regressão: Modelo Linear
Coeficiente de Correlação Simples “ r ” O coeficiente de correlação é igual a raiz quadrada do coeficiente de determinação. No exemplo anterior: Podemos obter o coeficiente de correlação a partir do coeficiente de determinação. : r2 = 0,738 coeficiente de determinação r = 0,85 coeficiente de correlação. O coeficiente de determinação é sempre positivo. O coeficiente de correlação assume valores negativos e positivos.

39 Análise de Regressão: Modelo Linear
Coeficiente de Correlação Simples Valores de r igual ou próximos de 1 ou –1 indicam que existe uma forte correlação entre as variáveis: Valores próximos de relação : direta Alta correlação entre Valores próximos de as variáveis relação: inversa Valores próximos de não há relação entre as variáveis. (zero) O coeficiente de determinação indica o grau de ajuste (fit) da reta de regressão. O coeficiente de correlação é uma medida que indica a força da relação entre as variáveis - 1 ≤ r ≤ + 1

40 Análise de Regressão: Modelo Linear
Resumindo Os valores de r estão limitados entre -1 ≤ r ≤ +1 O coeficiente de correlação tem um valor único para a população ou amostra.  Coeficiente de correlação padroniza dentro dos horizontes acima as variações da covariância

41 Análise de Regressão: Modelo Linear
Por isso o coeficiente de correlação pode ser expresso: Cov (X,Y) rX,Y = σX  σY σX – desvio padrão da variável X σY – desvio padrão da variável Y Cov (X,Y) – Covariância de X e Y

42 Análise de Regressão: Modelo Linear
Análise dos coeficientes Em razão da variação amostral, o modelo de regressão calculado é apenas um dos possíveis modelos extraídos da população. Supondo que o modelo baseado na população seja: Y = α +β X e o modelo obtido da amostra seja: Y’ = a +b X + e Onde e é o erro entre as observações e as estimativas da equação Temos que os valores dos coeficientes a e b da equação de regressão obtidos de uma amostragem aleatória não são iguais aos valores α e β da população.

43 Análise de Regressão: Modelo Linear
Erro Padrão do Coeficiente ‘b’ (Sb) O erro padrão de b indica o quanto o coeficiente b da equação de regressão se distancia do coeficiente β da população. S2e Se Fórmula Sb = √ S2b = = (n-1) x Var (x) √ (n-1) x Var (x) Pela fórmula conclui-se que o erro padrão do coeficiente b: • é diretamente proporcional ao erro padrão da estimativa Se, e; • e inversamente proporcional ao valor do desvio padrão de x e o tamanho da amostra menos 1.

44 Análise de Regressão: Modelo Linear
Erro Padrão do Coeficiente ‘a’ (Sa) O erro padrão do coeficiente a indica o quanto o coeficiente a da equação de regressão se distancia (ou desvia) do coeficiente α da população. X2 Fórmula Sa = Se √ n (n-1) x S2x Pela fórmula conclui-se que o erro padrão do coeficiente a: • é também diretamente proporcional ao erro padrão da estimativa Se, e; • reduz seu valor com o valor do desvio padrão de x e o tamanho da amostra menos 1.

45 Modelo Linear Complexo

46 Análise de Regressão: Modelo Multivariado
Modelo Linear Complexo Quando há relação linear com mais de uma variável independente: Y = a + b1 X1 + b2 X bk Xk Quando existirem 2 variáveis independentes os pontos serão plotados em gráfico tridimensional, isto é, um gráfico com três eixos (y, x1 e x2). Nestes casos os pontos não serão regredidos para uma linha reta, mas para um plano. Quando mais de 2 variáveis independentes são usadas na equação os pontos são regredidos para o que é chamado de Hiperplano. As hipóteses do modelo linear continuam válidas no modelo do plano: intervalos de confiança, distribuição normal do erro e correlação.

47 Análise de Regressão: Modelo Multivariado

48 Análise de Regressão: Modelo Multivariado
Ajuste do Plano: Método dos Mínimos Quadrados O ajuste do plano (plane best fit), é também calculado pelo método dos mínimos quadrados (neste caso as equações normais são escritas na forma de matriz). Minimizar Σ (Yi -Y’)2 = d2 Minimizar Σ [Yi – a - b1 (X1 – X1*) – b2 (X2 – X2*) ] 2 d11 d b = g1 d21 d b g2 Equações Normais Σ Yi = a n + b1 ΣX1i + b2 ΣX2i Σ Yi X1i = a Σ X1i + b1 Σ( X1i )2 + b2 Σ ( X1i X2i ) Σ Yi X2i = a Σ X2i + b1 Σ (X1i X2i ) + b2 Σ ( X2i )2

49 Análise de Regressão: Modelo Multivariado
Erro Padrão da Estimativa para modelos multivariados O cálculo do desvio padrão das diferenças entre o Yi (levantado) e o Y’ (estimado) é igual ao do modelo linear simples: 1 S2eec = Ʃ (yi – a – b1x1 – b2x2) n-k-1 k – no. de variáveis N-k-1 – graus de liberdade

50 Análise de Regressão: Modelo Multivariado
Coeficiente de Correlação Complexo “ R” Semelhante ao coeficiente de correlação simples (regressão linear). Neste caso deve-se cuidar para evitar intercorrelação ou multicolinearidade entre as variáveis independentes. Nos modelos lineares complexos a correlação entre duas variáveis independentes (r) não deve ser maior ou mesmo próxima da correlação complexa (R), entre y e as duas x independentes. R2YX1 + R2YX2 – 2 RYX1 RYX2 RX1X2 R2YX1X2 = 1 – R2X1X2

51 Análise de Regressão: Modelo Multivariado
Coeficiente de Correlação Complexo “ R” b1 Σ Yi ( X1 i – X1* + b2 Σ Yi ( X2 i – X2* bn Σ Yi ( Xn i – Xn* RYX1X2 = Σ (Yi – Y*)2 R2YX1 + R2YX2 – 2 RYX1 RYX2 RX1X2 RYX1X2 = 1 – R2X1X2

52 Análise de Regressão: Modelo Multivariado
Coeficientes de Correlação Parciais RYX1 = Σ (Y’ – Y*)2 -1/2 Coeficiente de Correlação Parcial YX1 Σ (Y – Y*)2 RYX2 = Σ (Y’ – Y*)2 -1/2 Coeficiente de Correlação Parcial YX2 RX1X2 = Σ (Y’ – Y*)2 -1/2 Coeficiente de Correlação Parcial X1X2

53 Análise de Regressão: Modelo Multivariado
R2Y1X1X2 = R2YX1+R2YX2 -2RYX1RYX2RX1X2 1 – R2X1X2 Y Y-X1 Y-X Y-X Y-X2 x1-x X1 x1-x X2 X X2 R2Y1X1X2 = R2YX1 + R2YX2

54 Análise de Regressão: Modelo Multivariado
Regressão por Etapas (stepwise regression) É o processo de inclusão/exclusão de variáveis independentes em função da contribuição das mesmas para a explicação das variações de Y (isto é, para o incremento de R) . A variável independente x com a maior correlação parcial em relação a variável dependente y deve ser mantida. O pesquisador deve avaliar até que ponto ele deve adicionar mais variáveis independentes ao modelo: este ponto é atingido quando a adição de uma variável pouco contribui para incrementar R.


Carregar ppt "Análise de Regressão."

Apresentações semelhantes


Anúncios Google