A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Estatística Universidade Federal de Alagoas Centro de Tecnologia Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaborado.

Apresentações semelhantes


Apresentação em tema: "Estatística Universidade Federal de Alagoas Centro de Tecnologia Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaborado."— Transcrição da apresentação:

1 Estatística Universidade Federal de Alagoas Centro de Tecnologia Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaborado pelo Prof. Christiano Cantarelli Rodrigues

2 Aula 25 Análise de Regressão Análise de Regressão Correlação Correlação

3 Existe relação entre o tempo em sala de aula e o salário? Existe relação entre a temperatura e o nível de oxigênio dissolvido em um rio? Existe relação entre a fração de área impermeável em um lote e a vazão gerada após uma chuva? Existe relação entre o nível de fibra de carbono em um material em que é fabricada uma estrutura e a resistência desta ao impacto? Existe relação entre as vazões médias mensais de 2 postos de monitoramento próximos? Existe relação entre o n o de motos vendidas e o n o de acidentes de trânsito? Introdução

4 Técnica estatística usada para modelar e investigar a relação entre 2 ou mais variáveis a partir de dados amostrais 1) Pode ser usada para construir um modelo para prever um fenômeno exemplo: ano que vem, se forem vendidas x motos, teremos y acidentes... 2) Pode ser usado também para otimizar um processo, determinar as variáveis que melhoram resposta de um processo ou para controlar um processo exemplo: modificar a temperatura num experimento não modifica em nada os resultados, mas se for modificado tal composto, o efeito é o desejado Análise de Regressão

5 Suponha que um engenheiro esteja interessado em saber se a porcentagem de hidrocarbonetos presente em um condensador principal de uma unidade de destilação tem relação com a pureza do oxigênio produzido em um processo químico Análise de Regressão Chamando de x a pureza (%) e y a quantidade de hidrocarboneto (reagente, também em %) traçar- se primeiramente um diagrama de dispersão A seguir os dados e o gráfico

6 Análise de Regressão Observação ReagentePureza X(%)Y(%) 10,9990,01 21,0289,05 31,1591,43 41,2993,74 51,4696,73 61,3694,45 70,8787,59 81,2391,77 91,5599,42 101,4093,65 111,1993,54 121,1592,52 130,9890,56 141,0189,54 151,1189,85 161,2090,39 171,2693,25 181,3093,41 191,4394,98 200,9587,33 Diagrama de dispersão Embora não vejamos uma curva, mas sim pontos dispersos, há forte indicação de que eles repousam aleatoriamente em torno de uma reta

7 Análise de Regressão Tomando x = 1,2, esperaríamos que seu valor de y caísse na reta

8 Análise de Regressão esperaríamos que y(1,2) caísse aqui Mas caiu aqui Isto ocorre porque Y é uma v.a.

9 Análise de Regressão Se Y é uma v.a. possui uma distribuição de probabilidade possui valor esperado e possui variância Para um dado valor de x (tal como x = 1,2), Y possui valor esperado ou média que é aquele que esperaríamos que caísse bem na reta Então a média da v.a. Y está relacionada com x pela relação linear seguinte:

10 Análise de Regressão

11 Coeficientes de Regressão Interseção da reta Inclinação da reta A média de Y é uma função linear de x Mas um valor real qualquer observado y não cai exatamente na reta

12 Análise de Regressão Modelo Linear Probabilístico maneira mais apropriada para generalizar Erro aleatório Modelo de Regressão Linear Simples x Y|x) = x y y = Y|x) +

13 Análise de Regressão Modelo de regressão linear simples possui apenas uma variável independente x regressor v. a. Y: Valor esperado Variância

14 Análise de Regressão Supondo que a v.a. tenha valor esperado (média) 0 e variância 2 1)o modelo verdadeiro de regressão é uma linha de valores médios 1 é a mudança média de Y para uma mudança unítária de x

15 Análise de Regressão Supondo que a v.a. tenha valor esperado (média) 0 e variância 2 3)A variabilidade de Y, em um valor particular de x, é determinada pela variância do erro 2 4)Essa variância é a mesma para cada x distribuição de valores ao redor da média ( Y |x)

16 Regressão Linear Simples Possui apenas uma variável independente x regressor Possui apenas uma variável dependente aleatória Y variável de resposta Nosso objetivo é estimar os parâmetros populacionais 0 e 1, ou seja, teremos estimativas pontuais, vindas de amostras retirada de 2 populações Estimar Que populações?

17 Regressão Linear Simples 0 e 1 X Y As populações são de X e Y A regressão linear simples supõe ser possível uma relação linear entre as 2 populações Amostra x 1, x 2,..., x n Amostra y 1, y 2,..., y n Estimativas pontuais de 0 e 1 A estimativa dos parâmetros do modelo pode ser feita pela estimativa dos mínimos quadrados:

18 Regressão Linear Simples Reta que melhor se ajusta aos pontos Fórmulas

19 Modelo de Regressão Linear Simples Resíduo do Modelo de Regressão Linear Simples Regressão Linear Simples Amostras x,y

20 Como se obtiveram estas fórmulas? Logo, isolando o resíduo i Regressão Linear Simples Para cada ponto x i, y i Criando a função abaixo, derivando em relação aos estimadores de 0 e 1 e igualando a zero chagamos nas fórmulas e método dos mínimos quadrados

21 Aplicações Exemplo da relação entre a porcentagem de hidrocarbonetos e a pureza do oxigênio produzido em um processo químico Observação ReagentePureza X(%)Y(%) 10,9990,01 21,0289,05 31,1591,43 41,2993,74 51,4696,73 61,3694,45 70,8787,59 81,2391,77 91,5599,42 101,4093,65 111,1993,54 121,1592,52 130,9890,56 141,0189,54 151,1189,85 161,2090,39 171,2693,25 181,3093,41 191,4394,98 200,9587,33

22 Exemplo: Aplicações

23 Aplicações

24 Observação ReagentePureza ModeloResíduo X(%)Y(%) 10,9990,0189,020,99 21,0289,0589,47-0,42 31,1591,4391,420,01 41,2993,7493,510,23 51,4696,7396,060,67 61,3694,4594,56-0,11 70,8787,5987,220,37 81,2391,7792,61-0,84 91,5599,4297,402,02 101,4093,6595,16-1,51 111,1993,5492,011,53 121,1592,5291,421,10 130,9890,5688,871,69 141,0189,5489,320,22 151,1189,8590,82-0,97 161,2090,3992,16-1,77 171,2693,2593,060,19 181,3093,4193,66-0,25 191,4394,9895,61-0,63 200,9587,3388,42-1,09 Resíduo do Modelo de Regressão Linear Simples Aplicações

25 Propriedades dos estimadores Já vimos que Y e são variáveis aleatórias Vimos também que Var( Y ) = Var ( ) = 2, mas E( Y ) = Y/x (reta de regressão) e E( ) = 0

26 Propriedades dos estimadores Os estimadores também são variáveis aleatórias Pode-se mostrar que onde: SQ soma dos quadrados, dos erros (SQE) e total (SQT) Estimador não tendencioso de 2

27 Testes de hipóteses na regressão linear O primeiro teste que veremos é para a significância da regressão, ou seja, responder a pergunta: existe evidência suficiente para afirmarmos que há uma relação linear entre x e y? Isto pode ser feito de 2 formas Teste t Tabela ANOVA teste F Suposições: 1)A componente do erro no modelo é uma v.a. que segue uma distribuição normal com média 0 e variância 2 ~ N(0, 2 ); 2)Quanto as demais v.a. Y ~ N( o + 1 x, 2 ), e

28 Testes de hipóteses na regressão linear Usando o teste t para 1 : H 0 : 1 = 1,0 a inclinação da reta é igual a um valor constante 1,0 H 1 : 1 1,0 Estatística de teste: Se as suposições estiverem certas esta estatística segue a distribuição t com gl = n-2, sujeito a H 0 acima. Rejeitamos H 0 se | t | > t c, onde t c = t,n-2

29 Testes de hipóteses na regressão linear Usando o teste t para 0 : H 0 : 0 = 0,0 a inclinação da reta é igual a um valor constante 0,0 H 1 : 0 0,0 Estatística de teste: Se as suposições estiverem certas esta estatística segue a distribuição t com gl = n-2, sujeito a H 0 acima. Rejeitamos H 0 se | t | > t c, onde t c = t,n-2

30 Testes de hipóteses na regressão linear Usaremos o teste t para 1 para 1,0 = 0, ou seja: H 0 : 1 = a inclinação da reta é nula não há relação linear entre x e Y H 1 : 1 Estatística de teste: Verificaremos a significância da regressão Casos onde H 0 : 1 = não é rejeitada

31 Testes de hipóteses na regressão linear Verificaremos a significância da regressão Casos onde H 0 : 1 = é rejeitada

32 Aplicações Continuação do exemplo Observação ReagentePureza X(%)Y(%) 10,9990,01 21,0289,05 31,1591,43 41,2993,74 51,4696,73 61,3694,45 70,8787,59 81,2391,77 91,5599,42 101,4093,65 111,1993,54 121,1592,52 130,9890,56 141,0189,54 151,1189,85 161,2090,39 171,2693,25 181,3093,41 191,4394,98 200,9587,33 H 0 : 1 = H 1 : 1 Calculados antes Precisamos agora

33 Aplicações Continuação do exemplo Onde S xy = 10,18 (calculado antes) adotando = 0,05 (2 caudas), com gl = n-2 = 18: t c = 2,101 rejeita H 0 há evidências suficiente para a afirmação da relação linear entre x e y

34 ANOVA: testar a significância da regressão Col 1Col 2Col 3Col 4Col 5 Fonte de variação Soma dos Quadrados (SQ) Graus de liberdade Média Quadrática (MQ) Estatística de teste F Regressão 1 Num = Col 2/Col 3 Num / Den ErroSQ E =SQ T -SQ R n – 2 Den = Col 2/Col 3 Total SQ T n – 1 Outra forma de fazer o mesmo teste é através da tabela ANOVA

35 Aplicações Continuação do exemplo Col 1Col 2Col 3Col 4Col 5 Fonte de variação Soma dos Quadrados (SQ) Graus de liberdade Média Quadrática (MQ) Estatística de teste F Regressão 152, ,25 Erro 20, ,17 Total 173,38 19 F c = F 0,05;1;18 = 4,4139 rejeita H 0

36 ANOVA: testar a significância da regressão Qual o significado de cada soma SQ da ANOVA? Soma Quadrática Total variabilidade total Soma Quadrática dos Erros variabilidade residual sem explicação pela linha de regressão Soma Quadrática da Regressão variabilidade devido à linha de regressão

37 ANOVA: testar a significância da regressão Qual o significado de cada soma SQ da ANOVA? Desvio ou variação explicada é melhor a estimativa 13 do que simplesmente a média 9 para o valor real 19

38 IC para a resposta média Para um valor especificado de x, tal como x 0, pode ser construído um IC para a resposta média IC em torno da linha de regressão No ponto x 0, o valor esperado é Já a estimativa do valor esperado é

39 - Nível de confiança IC para a resposta média Ex0Ex0 + Ex0Ex0 x x0x0 Estimador não tendencioso de

40 IC para a resposta média Como temos normalmente distribuídos: Usando como estimativa de Margem de erro da predição em x 0 t c = t,n-2 (2 caudas)

41 Aplicações Continuação do exemplo Construir o intervalo de confiança para a resposta média, adotando NC = 95% Estimativa pontual para qualquer x 0 t c = 2,101 Margem de erro para qualquer x 0

42 Calculando a resposta média e a margem de erro para vários valores de x 0, surge o gráfico abaixo Aplicações

43 Adequação do modelo de regressão Ajustar um modelo de regressão requer várias suposições A estimação dos parâmetros 0 e 1 requer que os erros sejam v.a. não correlacionadas com média zero e variância 2 constante Testes de hipótese e construção de IC requerem que os erros tenham distribuição normal A análise dos resíduos ou análise residual e o coeficiente de determinação R 2 nos ajudam a verificar se o modelo é realmente adequado

44 Adequação análise dos resíduos A análise dos resíduos é útil para verificar se eles seguem a distribuição normal Histograma de frequência dos resíduos Gráfico de probabilidade normal dos resíduos Gráficos dos resíduos contra valores de y ou x Pode-se construir Vamos ver nas aplicações

45 Aplicações Continuação do exemplo Observação ReagentePureza Pureza previstaErro X(%)Y(%) (%) 10,9990,01 87,222,786 21,0289,05 88,420,628 31,1591,43 88,872,559 41,2993,74 89,024,720 51,4696,73 89,327,410 61,3694,45 89,474,981 70,8787,59 90,82-3,227 81,2391,77 91,420,354 91,5599,42 91,428, ,4093,65 92,011, ,1993,54 92,161, ,1592,52 92,61-0, ,9890,56 93,06-2, ,0189,54 93,51-3, ,1189,85 93,66-3, ,2090,39 94,56-4, ,2693,25 95,16-1, ,3093,41 95,61-2, ,4394,98 96,06-1, ,9587,33 97,40-10,074

46 Aplicações Continuação do exemplo Gráficos dos resíduos contra valores de y ou x

47 Que tipos de gráficos podem aparecer? Situação idealVariância crescendo Crescendo com o tempo ou com a magnitude de y ou x Variâncias desiguais Modelo linear inadequado Testar outros modelos (parabólico, por exemplo) Adequação análise dos resíduos

48 Adequação coeficiente R 2 Lembrando... Soma Quadrática Total variabilidade total Soma Quadrática dos Erros variabilidade residual sem explicação pela linha de regressão Soma Quadrática da Regressão variabilidade devido à linha de regressão

49 Adequação coeficiente R 2 Dividindo a equação por SQ T Coeficiente de determinação Frequentemente usado para julgar a adequação do modelo quantidade de variabilidade nos dados explicada ou considerada pelo modelo de regressão 0 R 2 1

50 Adequação coeficiente R 2 O coeficiente de determinação deve ser utilizado com cuidado 1)R 2 sempre aumentará se adicionarmos uma variável ao modelo, porém isso não significa necessariamente que o modelo novo é melhor que o antigo 2)Mesmo se x e y estiverem relacionados de maneira não linear, R 2 será frequentemente grande 3)Mesmo com R 2 grande, isto não implica que o modelo de regressão forneça previsões exatas para observações futuras

51 Adequação coeficiente R 2 Os 2 casos abaixo podem ter R 2 grande, mas o caso 2 não é um caso de linearidade

52 Nosso exemplo Aplicações

53 Correlação Vimos que o engenheiro extrai dados para seus estudos de duas maneiras: experimental x 1, x 2,..., x n Sistema estudado Entrada controlada saída não controlada y 1, y 2,..., y n observacional x 1, x 2,..., x n Sistema estudado Entrada não controlada saída não controlada y 1, y 2,..., y n

54 Correlação Vimos que o engenheiro extrai dados para seus estudos de duas maneiras: experimental observacional Exemplo da Eng. Civil: de forma controlada e cuidadosa, altero a forma como as formas são assentadas na construção observo se a velocidade no cronograma é alterada Exemplo da Eng. Ambiental: realizo o monitoramento da quantidade de enxofre lançado na atmosfera por indústrias meço o pH da chuva na mesma região

55 Correlação Fazemos uma análise de regressão quando supomos que a variável x seja uma variável matemática, medida com erro desprezível e a variável Y seja aleatória caso típico de experimentos Usamos o termo correlação quando as 2 variáveis x e Y são aleatórias. Neste caso, elas são distribuídas conjuntamente caso típico de observações Pode-se mostrar que o modelo matemático de regressão com as variáveis X e Y aleatórias é equivalente aquele mesmo modelo, considerando X controlada ou matemática

56 Correlação Mas isto somente ocorre se X e Y forem distribuídas normal e conjuntamente Para o caso linear, surge então o chamado coeficiente de correlação R Pode-se mostrar que ele é a raiz quadrada do coeficiente de determinação que vimos antes Coef. de determinação Coef. de correlação linear amostral O coeficiente R é, na verdade o estimador do coeficiente de correlação populacional existe teste de hipótese para verificar se = 0 ou 0

57 Casos não lineares redutíveis ao linear

58

59 Erros comuns envolvendo regressão 1)Concluir que a correlação implica em causalidade: podemos encontrar correlação entre o aumento de mortes de motociclistas e a venda de motos, mas não significa que mais motos vendidas causem mais mortes; 2) Outro erro surge de dados que se baseiam em médias: médias suprimem a variação individual e podem aumentar o R; 3) Outro erro envolve a propriedade de linearidade: pode existir uma relação entre x e y mesmo quando não há correlação linear significativa

60 Resumo Tudo que foi visto pode ser resumido nos passos: 1)Traçar diagrama de dispersão verificar se o modelo linear é o que deve ser buscado 2)se for modelo linear passo 3, senão linearizar a equação passos adiante com x e y linearizados 3)Determinar a reta com o método dos mínimos quadrados 4)Fazer o teste para o estimador do coeficiente angular 5)Fazer o teste com a tabela ANOVA 6)Construir o intervalo de confiança 7)Verificar a adequação do modelo

61 Densidade Habitacional (hab/ha) Fração da área impermeável (%) 2511,3 4026,7 6036,7 8046, , , , , ,8 Aplicações Temos abaixo uma tabela com dados de densidade habitacional e fração de área impermeável, acompanhada do diagrama de dispersão. Podemos concluir que existe alguma relação entre as variáveis? Se positivo, seria linear ou não linear? Faça o estudo.

62 Estatística Universidade Federal de Alagoas Centro de Tecnologia Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaborado pelo Prof. Christiano Cantarelli Rodrigues


Carregar ppt "Estatística Universidade Federal de Alagoas Centro de Tecnologia Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaborado."

Apresentações semelhantes


Anúncios Google