A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por.

Apresentações semelhantes


Apresentação em tema: "REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por."— Transcrição da apresentação:

1 REGRESSÃO LINEAR

2 O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por exemplo, uma correlação fortemente positiva entre as variáveis X e Y não significa afirmar que variações da variável X provocam variações na variável Y, ou vice-versa. O coeficiente de correlação sozinho não identifica a relação causa- efeito entre as duas variáveis; entretanto, numa regressão linear a relação causa-efeito deve ser definida no início da análise. Iniciaremos com a apresentação da relação linear simples entre duas amostras ou variáveis aleatórias, e termina com a apresentação da relação de dependência linear múltipla entre três ou mais amostras ou variáveis aleatórias.

3 Na regressão linear simples será deduzida e analisada a reta que melhor explica essa relação, tendo previamente definido a variável independente e a variável dependente. A regressão linear múltipla será apresentada através de um exemplo resolvido com a ferramenta de análise Regressão. Todos os dias, a mídia se encarrega de informar resultados de análises e pesquisas do tipo: O valor da empresa depende do lucro futuro, a taxa de juro depende da inflação. O salário depende da escolaridade do trabalhador etc.

4 O objetivo da análise de regressão é encontrar uma função linear que permita: Descrever e compreender a relação entre uma variável dependente e uma ou mais variáveis independentes. Projetar ou estimar uma variável em função de uma ou mais variáveis independentes; por exemplo, as vendas para diferentes valores de investimento em propaganda, a demanda em função do preço unitário e do investimento em propaganda etc.

5 Exemplo O objetivo do diretor de vendas de uma rede de varejo é analisar a relação entre o investimento realizado em propaganda e as vendas das lojas da rede, para realizar projeções de vendas de futuros investimentos em propaganda. A tabela seguinte registra uma amostra representativa extraída dos registros históricos das lojas de tamanho equivalente, com os valores de Propaganda e Vendas em milhões. Analisar a possibilidade de definir um modelo que represente a relação entre as duas variáveis ou amostras.

6 Solução Para analisar a relação entre as duas variáveis foi construído o gráfico de dispersão das vendas anuais em função do investimento anual em propaganda. Nesse gráfico pode-se ver que, nos últimos dez anos, o aumento de investimento em propaganda gerou aumento das vendas, e vice-versa.

7 O gráfico de dispersão mostra que as vendas e o investimento em propaganda estão correlacionados de forma positiva, com um coeficiente de correlação próximo de +1. Uma reta como a linha tracejada no gráfico de dispersão acima poderá ser utilizada para realizar projeções das vendas futuras em função do investimento em propaganda. A linha tracejada foi ajustada tentando equilibrar os pontos acima da reta com os pontos abaixo dela. Essa reta é uma das muitas possíveis retas que poderiam ser ajustadas.

8 Modelo do Ajuste de uma Reta O ajuste de uma reta é um modelo linear que relaciona a variável dependente y e a variável independente x por meio da equação de uma reta do tipo: É importante observar que, da mesma forma como a média resume uma variável aleatória, a reta de regressão resume a relação linear entre duas variáveis aleatórias e, conseqüentemente, da forma como a média varia entre amostras do mesmo tamanho extraídas da mesma população, as retas também variarão entre amostras da mesma população.

9 O objetivo deste Exemplo é ajustar uma reta a partir dos valores das amostras retiradas da população, considerando que o investimento em propaganda é a variável independente x, e as vendas anuais, a variável dependente y. Uma primeira forma de fazer isso é ajustar manualmente essa reta tentando equilibrar os pontos acima e abaixo dessa reta, como foi feito no gráfico deste Exemplo. Como esse procedimento permite o ajuste de diversas retas, é necessário estabelecer um objetivo de eficiência de ajuste possível de medir, como é mostrado a seguir.

10 Uma primeira forma é ajustar uma reta horizontal de valor igual à média dos valores da variável dependente y, que é uma reta de regressão com b=0. Esse critério não necessita de regressão, entretanto, será uma referência útil para medir o grau de explicação da reta de regressão. Outra forma é ajustar uma reta que divida os pontos observados de forma que a soma dos desvios seja nula. Entretanto, como há muitas retas que cumprem com essa condição, esse critério não poderá ser utilizado. Outra forma é ajustar uma reta de forma que minimize a soma dos quadrados dos desvios, lembrando a definição de variância.

11

12 Verifique que se aumentar ou diminuir o valor do intercepto ao redor de 380, mantendo a declividade igual a zero, a soma dos quadrados dos desvios sempre aumentará. Por quê? Porque o valor de intercepto é a própria média da amostra y, e esse valor é sempre um mínimo.

13 O modelo do slide anterior foi preparado para este Exemplo com o objetivo de mostrar o que ocorre com a tentativa de ajuste manual com pouca precisão da reta de regressão. Clicando nos dois controles giratórios pode-se tentar outros valores de intercepto combinado com valores diferentes de declividade. Por exemplo, fixando um valor menor de declividade, será possível ajustar o valor de intercepto que minimiza o resultado da célula H16, ou conseguir a soma mínima dos quadrados dos desvios dos dez valores da amostra y com relação à reta de regressão. Dentre todos esses possíveis valores mínimos deve haver um que seja o menor de todos. O slide seguinte mostra o mínimo encontrado manualmente, intercepto 110, declividade 10 e erro

14

15 O procedimento manual para encontrar a soma mínima dos quadrados dos desvios dos dez valores da amostra y com relação à reta de regressão é bastante trabalhoso e com resultado aproximado. É claro que melhorando a escala dos controles giratórios será possível ajustar essa aproximação. Entretanto, sempre haverá um erro, pois nem todos os pares de valores das duas amostras estarão contidos na reta ajustada, eles estarão distribuídos ao redor dessa reta. Somente se os pares de valores formassem uma reta o erro seria zero. Entretanto, o procedimento manual de ajuste da regressão tem o crédito de visualizar o caminho para estabelecer o critério de ajuste da reta de regressão. O objetivo é encontrar os coeficientes a e b da reta de regressão que minimizam a soma dos quadrados dos desvios dos valores da amostra y com relação aos correspondentes valores da reta de regressão.

16

17 Com a equação obtida com o comando linha de tendência será possível representar o comportamento das vendas em função do investimento em propaganda com um modelo linear e realizar projeções. Mas qual o critério utilizado pelo comando linha de tendência para obter os coeficientes dessa reta de regressão? A resposta a essa questão o leitor deve ter deduzido, os coeficientes a e b da reta de regressão minimizam a soma dos quadrados dos desvios dos valores da amostra y com relação aos correspondentes valores da reta de regressão. Outra questão, quão bem a reta representa o fenômeno amostrado se alguns dos pontos do gráfico de dispersão não estão contidos na reta de regressão?

18 Coeficientes de Regressão

19

20

21

22

23

24

25 Se os n pares de valores das duas amostras formassem uma reta, então a equação da reta ajustada representaria esses n pares de valores. Entretanto, nem todos os n pares de valores estarão contidos na reta, eles estarão distribuídos ao redor da reta ajustada. A minimização da soma dos quadrados dos desvios é apenas uma propriedade desejada de ajuste da reta e, portanto, não garante que se tenha a melhor reta ajustada.

26 O método de ajuste pelo método dos quadrados mínimos é preferível, pois: Obtém as melhores estimativas, pois elas serão não- viesadas. Onera os desvios maiores, fato desejável que evita grandes desvios. Permite realizar testes de significância na equação de regressão. A reta de regressão passa pelo ponto formado pelos valores das médias das duas amostras.

27 Exemplo Com os dados das amostras na próxima planilha obter a reta de regressão linear.

28

29 Coeficiente b Substituindo os resultados parciais obtidos na planilha do slide anterior: Coeficiente a Substituindo os resultados parciais obtidos na planilha do slide anterior : Portanto, a equação da reta de regressão procurada é:

30

31

32

33 Projeção Uma das aplicações da regressão linear é projetar valores da variável dependente para valores definidos da variável independente. Para projetar valores de deve-se tomar o cuidado de escolher valores de x dentro do intervalo de valores da amostra independente x. De outra maneira, as interpolações dentro do intervalo de x são permitidas, entretanto, não devem ser realizadas projeções extrapolando o intervalo da amostra x.

34 As Medidas Estatísticas Embora as expressões dos coeficientes de regressão a e b não mostrem que estão sendo utilizadas medidas estatísticas das séries de valores de onde foram obtidos, esses conceitos estão presentes nessas expressões. Se nas expressões de a e b forem realizadas transformações algébricas adequadas, obteremos outra forma de calcular a e b, como mostram as expressões seguintes deduzidas no final do Apêndice 2.

35 Considerando que: O coeficiente b poderá ser calculado com a expressão: Prescindindo dos índices do coeficiente de correlação, as expressões dos coeficientes de regressão com coeficiente de correlação r serão:

36 Como regra geral, recomenda-se lembrar que: O coeficiente b é o resultado de dividir a covariância das variáveis pela variância da variável independente. De outra maneira, o coeficiente b é o resultado de multiplicar o coeficiente de correlação das variáveis pelo resultado de dividir o resultado de multiplicar o desvio padrão da variável dependente pelo desvio padrão da variável independente. O coeficiente a é o resultado de subtrair o produto do coeficiente b pela média da variável independente da média da variável dependente.

37 Uma vantagem adicional desse procedimento de cálculo é a possibilidade de calcular as duas possíveis retas de regressão linear com as mesmas medidas estatísticas, permutando apenas as posições das variáveis. Por exemplo, se y for a variável independente e x a variável dependente, os coeficientes da reta de regressão serão calculados com as fórmulas:

38 MEDIDAS DE VARIAÇÃO Nem todos os valores das amostras estão contidos na reta de regressão, e quanto mais afastados estiverem pior, a reta representará a relação entre as amostras. A reta obtida pelo método dos quadrados mínimos é um resumo útil da tendência entre as variáveis, pois não explica perfeitamente os dados. Quão útil é a reta de regressão obtida pelo procedimento apresentado? Para responder essa pergunta primeiro será analisada a característica dos desvios.

39 Vamos supor que escolhemos como modelo de regressão a reta de regressão horizontal, a equação que representa a média da variável dependente y. Nesse caso, o coeficiente b da reta de regressão é igual a zero e, conseqüentemente, o coeficiente de correlação também é nulo. Embora a reta da média pouco explique, ela é um ponto importante de partida para medir variações. Analisando a reta de regressão com os coeficientes a e b, pode-se ver que a maioria dos valores das amostras está dispersa ao redor da reta, como mostra a figura do slide seguinte para um par de valores fora da reta.

40

41 Variação total é o resultado da soma dos quadrados dos desvios dos valores y com relação à média: Variação explicada é o resultado da soma dos quadrados dos desvios dos valores estimados com relação à média: Variação não-explicada é o resultado da soma dos quadrados dos desvios de y com relação aos valores projetados:

42 Demonstra-se que:

43 Coeficiente de Determinação O coeficiente de determinação r 2 é definido como a relação que mede a proporção da variação total da variável dependente, que é explicada pela variação da variável independente: Substituindo as expressões matemáticas na expressão anterior temos:

44 Coeficiente de Determinação A expressão mostra que o coeficiente de determinação r 2 é sempre um número positivo entre zero e um. Da própria fórmula pode-se deduzir que quanto maior for r 2 melhor será o poder de explicação da reta de regressão.

45 Coeficiente de Determinação O coeficiente de determinação r 2, também denominado r- quadrado, é sempre um número positivo dentro do intervalo (0; 1) e deve ser interpretado como a proporção da variação total da variável dependente y, que é explicada pela variação da variável independente x. Observe que o coeficiente de correlação mede as variações dos dados da amostra y com relação aos valores projetados da reta, sempre na direção de y.

46 Embora na determinação do coeficiente de correlação não seja necessário separar as variáveis entre independente e dependente, há uma relação importante entre correlação e regressão. Uma delas é a declividade da reta de regressão, que é função do coeficiente de correlação. Demonstra-se também que o coeficiente de determinação é igual ao quadrado do coeficiente de correlação, e vice- versa. Partindo do coeficiente de correlação r=0, obtido na planilha do Exemplo 15.4, se obtém o valor do coeficiente de determinação r 2 =0, que é o mesmo valor já determinado.

47 O coeficiente de correlação é mais indicado para medir a força da relação linear entre as variáveis, e o coeficiente de determinação é mais apropriado para medir a explicação da reta de regressão. Dessa maneira, para apreciar o ajuste de uma reta é melhor utilizar o coeficiente de determinação que mede o sucesso da regressão em explicar y. O coeficiente de correlação também pode ser calculado a partir do coeficiente de determinação. Entretanto, como o coeficiente de determinação é sempre positivo, o sinal de r será o mesmo que o sinal do coeficiente b da reta de regressão.

48 Erro Padrão da Estimativa Ao ajustar uma reta, espera-se que ela explique o grupo de valores amostrados. Embora a reta de regressão tenha sido obtida minimizando a soma dos quadrados dos desvios, sempre haverá uma variabilidade dos dados ao redor da reta, exceto se os dados fizerem parte da própria reta de regressão. O desvio padrão dos dados ao redor da reta de regressão é denominado erro padrão da estimativa S e cuja medida é obtida da variância com (n-2) graus de liberdade definida com a fórmula, onde SSE mede a parte não explicada pela regressão: O conceito do erro padrão da estimativa é equivalente ao do desvio padrão que mede a variabilidade dos valores da amostra ao redor da média aritmética desses valores.

49 O erro padrão da estimativa é também uma medida da qualidade do ajustamento da reta. Atendidas as premissas da regressão linear, por exemplo, espera-se que aproximadamente 95% dos valores da amostra y se encontrem no intervalo 2 S e de seus respectivos valores projetados pela reta de regressão.

50 Premissas A amostragem aleatória utilizada para obter a reta de regressão captura alguns pontos da população. A regressão linear realizada é uma estimativa da relação entre as variáveis, relação que é desconhecida. Portanto, os coeficientes de regressão a e b são estimativas pontuais dos correspondentes parâmetros da população e. O valor e (resíduo) representa a dispersão na população, pois não há um relacionamento perfeito entre as duas variáveis na população. De outra maneira, há outras variáveis não consideradas na regressão que também influem na relação, pois a regressão foi realizada com apenas duas variáveis do experimento.

51 Devido à variabilidade amostral, deve-se aceitar que cada amostra aleatória gerará uma equação de regressão diferente. Portanto, o coeficiente a é um estimador de e b é um estimador de. Se toda a população fosse amostrada, o coeficiente a seria igual a e b igual a. A dispersão na população significa que há diversos valores de y para cada valor de x. Portanto, para cada valor de x há uma distribuição de freqüências de y que o modelo de regressão linear supõe seja uma distribuição normal denominada distribuição condicional, pois depende da condição x. Todas as distribuições condicionais de y têm o mesmo desvio padrão, denominado desvio padrão condicional.

52 As premissas do modelo de regressão linear são: Para cada valor de x há um grupo de valores de y, e todos os grupos de y têm distribuição normal com o mesmo desvio padrão. As médias das distribuições normais de y pertencem à reta de regressão. A média dos desvios ou erros é nula, pois a variância é mínima. A variância dos desvios é constante e igual à variância da população, pois se supõe que todos os desvios têm a mesma variância. Os desvios são variáveis aleatórias independentes e têm distribuição normal. Portanto, o coeficiente de correlação entre os desvios tomados dois a dois é nulo, e os desvios e a variável independente x não têm nenhuma correlação.

53 Intervalo de Projeção Qual é a variação do valor projetado y para um determinado x considerando as possíveis amostras da mesma população? A resposta dependerá do objetivo da projeção: A média de todas as projeções y para um determinado x. Projeção denominada média y. A projeção de um único valor y para um determinado x. Projeção denominada específico y.

54

55 Operando com o modelo, podemos observar as seguintes características: O ponto com coordenadas iguais às médias das amostras x e y pertence à reta de regressão. O intervalo de confiança da projeção da Média y é menor do que da projeção Específico y. A estimativa correspondente à média da amostra x tem o menor intervalo de todas as estimativas dentro do intervalo de amostragem de x. Quanto mais afastado de sua média o valor x estiver, maior será o erro de estimativa. Pela forma das curvas do intervalo, as estimativas fora do intervalo de amostragem de x não devem ser realizadas. Variando o nível de significância na célula C22 será possível verificar o comportamento do intervalo de estimativa.

56 FdeA - Regressão

57

58 R-quadrado ajustado. O coeficiente de determinação ajustado é uma medida utilizada em regressão linear múltipla. Partindo da regressão linear simples, com uma única variável independente, o significado do coeficiente de determinação é a porcentagem de explicação dessa regressão. Ao adicionar uma ou mais variáveis independentes, demonstra-se que o r 2 não deverá diminuir, devendo aumentar em alguns casos. O tenta compensar o aumento natural de explicação provocado pelo aumento do número de variáveis independentes e o tamanho da amostra, sendo calculado com a expressão:

59 A figura seguinte mostra a segunda parte.

60

61

62

63 A figura seguinte mostra a terceira parte.

64 Há casos em que é possível saber antecipadamente que a reta de regressão passa pela origem. Por exemplo, um provedor de Internet cujo faturamento depende somente da venda de contratos mensais de fornecimento de acessos, se não tiver contratos, não terá faturamento. Outro caso, a reta de regressão entre os custos mensais de envio de produtos vendidos mensalmente pela TV com despesas de envio incluídas também passa pela origem, pois se num mês não for vendido nenhum produto, as despesas de envio serão igual a zero. A fórmula da declividade b da equação :

65 Completando os resultados da FdeA - Regressão

66 Resíduos A análise dos resíduos é um procedimento gráfico que permite analisar o ajuste da reta de regressão. As medidas de variação que definiram o coeficiente de determinação e o erro de estimativa partiram do conceito de desvios medidos a partir da média da amostra y dos desvios medidos ao redor da reta de regressão. Ao desvio do valor projetado com relação ao valor observado é denominado resíduo, como mostra a fórmula:

67 Lembrando que uma das premissas do modelo de regressão linear estabelece que a média dos desvios ou erros é nula, pois a variância é mínima, a forma do gráfico dos desvios em função dos valores x da amostra ajudará a verificar o acerto da reta de regressão. Se os desvios não mantêm nenhum padrão com os valores x, pode-se deduzir que a reta de regressão é uma boa representação dos dados observados, como mostra o gráfico seguinte construído pela ferramenta.

68

69

70 REGRESSÃO LINEAR MÚLTIPLA O modelo de regressão linear que foi apresentado é o mais simples deles e nem sempre atende à modelagem mais complexa. Por exemplo, as vendas não dependem somente do investimento em propaganda, pois há uma parte da variação das vendas que não é explicada pela propaganda. Da mesma maneira, a demanda de um determinado produto pode ser explicada pela combinação do preço unitário e do investimento em propaganda.

71 Em geral, a aplicação quantitativa de conceitos econômicos requer a estimação de funções de oferta, demanda, custo etc. Os modelos lineares com mais de uma variável independente são denominados modelos de regressão linear múltipla. O desenvolvimento da equação de regressão linear múltipla é similar ao da equação de regressão linear simples incluindo a dependência de duas ou mais variáveis independentes.

72 Dispondo de um grupo de amostras do mesmo tamanho, sendo uma variável dependente y e n variáveis independentes x i, o objetivo é determinar os coeficientes da equação da reta: cujos coeficientes minimizam a soma dos quadrados dos desvios da variável com relação a y.

73 Exemplo O analista de marketing de uma rede de varejo acredita que um modelo que relacione a quantidade (y em milhares) de peças de roupa íntima vendidas por trimestre com o preço médio de (x 1 em $) e o investimento em propaganda (x 2 em $milhares) poderá ser útil para projetar a quantidade de peças do trimestre seguinte e reduzir o custo unitário ocasionado pelo menor risco de encalhe. Para encontrar essa relação linear foi extraída a amostra de valores trimestrais registrada na tabela seguinte. Determinar a equação de regressão e analisar quão bem ela se ajusta às necessidades do analista.

74

75

76


Carregar ppt "REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por."

Apresentações semelhantes


Anúncios Google