A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Estatística Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves

Apresentações semelhantes


Apresentação em tema: "Estatística Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves"— Transcrição da apresentação:

1 Estatística Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves
Universidade Federal de Alagoas Centro de Tecnologia Estatística Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaborado pelo Prof. Christiano Cantarelli Rodrigues

2 Aula 25 Análise de Regressão Correlação

3 Introdução Existe relação entre o tempo em sala de aula e o salário?
Existe relação entre a temperatura e o nível de oxigênio dissolvido em um rio? Existe relação entre a fração de área impermeável em um lote e a vazão gerada após uma chuva? Existe relação entre o nível de fibra de carbono em um material em que é fabricada uma estrutura e a resistência desta ao impacto? Existe relação entre as vazões médias mensais de 2 postos de monitoramento próximos? Existe relação entre o no de motos vendidas e o no de acidentes de trânsito?

4 Análise de Regressão Técnica estatística usada para modelar e investigar a relação entre 2 ou mais variáveis a partir de dados amostrais 1) Pode ser usada para construir um modelo para prever um fenômeno  exemplo: ano que vem, se forem vendidas x motos, teremos y acidentes ... 2) Pode ser usado também para otimizar um processo, determinar as variáveis que melhoram resposta de um processo ou para controlar um processo  exemplo: modificar a temperatura num experimento não modifica em nada os resultados, mas se for modificado tal composto, o efeito é o desejado

5 A seguir os dados e o gráfico
Análise de Regressão Suponha que um engenheiro esteja interessado em saber se a porcentagem de hidrocarbonetos presente em um condensador principal de uma unidade de destilação tem relação com a pureza do oxigênio produzido em um processo químico Chamando de x a pureza (%) e y a quantidade de hidrocarboneto (reagente, também em %)  traçar-se primeiramente um diagrama de dispersão A seguir os dados e o gráfico

6 Análise de Regressão Diagrama de dispersão
Observação Reagente Pureza X(%) Y(%) 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,40 93,65 11 1,19 93,54 12 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,20 90,39 17 1,26 93,25 18 1,30 93,41 19 1,43 94,98 20 0,95 87,33 Diagrama de dispersão Embora não vejamos uma curva, mas sim pontos dispersos, há forte indicação de que eles repousam aleatoriamente em torno de uma reta

7 Tomando x = 1,2, esperaríamos que seu valor de y caísse na reta
Análise de Regressão Tomando x = 1,2, esperaríamos que seu valor de y caísse na reta

8 Análise de Regressão esperaríamos que y(1,2) caísse aqui Mas caiu aqui
Isto ocorre porque Y é uma v.a.

9 Análise de Regressão Se Y é uma v.a.  possui uma distribuição de probabilidade  possui valor esperado e possui variância Para um dado valor de x (tal como x = 1,2), Y possui valor esperado ou média que é aquele que esperaríamos que caísse bem na reta Então a média da v.a. Y está relacionada com x pela relação linear seguinte:

10 Análise de Regressão

11 Coeficientes de Regressão
Análise de Regressão Coeficientes de Regressão Interseção da reta Inclinação da reta A média de Y é uma função linear de x Mas um valor real qualquer observado y não cai exatamente na reta

12 Análise de Regressão y e y = m(Y|x) + e m(Y|x) = b0 + b1x x
Modelo Linear Probabilístico  maneira mais apropriada para generalizar Erro aleatório Modelo de Regressão Linear Simples

13 Análise de Regressão Modelo de regressão linear simples  possui apenas uma variável independente x  regressor v. a. Y: Valor esperado Variância

14 Análise de Regressão Supondo que a v.a. e tenha valor esperado (média) 0 e variância s2 o modelo verdadeiro de regressão é uma linha de valores médios b1 é a mudança média de Y para uma mudança unítária de x

15 Análise de Regressão Supondo que a v.a. e tenha valor esperado (média) 0 e variância s2 A variabilidade de Y, em um valor particular de x, é determinada pela variância do erro s2 Essa variância é a mesma para cada x  distribuição de valores ao redor da média m(Y|x)

16 Regressão Linear Simples
Possui apenas uma variável independente x  regressor Possui apenas uma variável dependente aleatória Y  variável de resposta Nosso objetivo é estimar os parâmetros populacionais b0 e b1, ou seja, teremos estimativas pontuais, vindas de amostras retirada de 2 populações Estimar Que populações?

17 Estimativas pontuais de b0 e b1
Regressão Linear Simples As populações são de X e Y X Y b0 e b1 A regressão linear simples supõe ser possível uma relação linear entre as 2 populações Amostra x1, x2, ..., xn y1, y2, ..., yn Estimativas pontuais de b0 e b1 A estimativa dos parâmetros do modelo pode ser feita pela estimativa dos mínimos quadrados:

18 Regressão Linear Simples
Fórmulas Reta que melhor se ajusta aos pontos

19 Regressão Linear Simples
Modelo de Regressão Linear Simples Amostras x,y Resíduo do Modelo de Regressão Linear Simples

20 Regressão Linear Simples
Como se obtiveram estas fórmulas? Para cada ponto xi, yi  Logo, isolando o resíduo ei  Criando a função abaixo, derivando em relação aos estimadores de b0 e b1 e igualando a zero  chagamos nas fórmulas e  método dos mínimos quadrados

21 Aplicações Observação Reagente Pureza X(%) Y(%) 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,40 93,65 11 1,19 93,54 12 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,20 90,39 17 1,26 93,25 18 1,30 93,41 19 1,43 94,98 20 0,95 87,33 Exemplo da relação entre a porcentagem de hidrocarbonetos e a pureza do oxigênio produzido em um processo químico

22 Aplicações Exemplo:

23 Aplicações

24 Aplicações Resíduo do Modelo de Regressão Linear Simples Observação
Reagente Pureza Modelo Resíduo X(%) Y(%) 1 0,99 90,01 89,02 2 1,02 89,05 89,47 -0,42 3 1,15 91,43 91,42 0,01 4 1,29 93,74 93,51 0,23 5 1,46 96,73 96,06 0,67 6 1,36 94,45 94,56 -0,11 7 0,87 87,59 87,22 0,37 8 1,23 91,77 92,61 -0,84 9 1,55 99,42 97,40 2,02 10 1,40 93,65 95,16 -1,51 11 1,19 93,54 92,01 1,53 12 92,52 1,10 13 0,98 90,56 88,87 1,69 14 1,01 89,54 89,32 0,22 15 1,11 89,85 90,82 -0,97 16 1,20 90,39 92,16 -1,77 17 1,26 93,25 93,06 0,19 18 1,30 93,41 93,66 -0,25 19 1,43 94,98 95,61 -0,63 20 0,95 87,33 88,42 -1,09 Resíduo do Modelo de Regressão Linear Simples

25 Propriedades dos estimadores
Já vimos que Y e e são variáveis aleatórias Vimos também que Var(Y) = Var(e) = s2, mas E(Y) = mY/x (reta de regressão) e E(e) = 0

26 Propriedades dos estimadores
Os estimadores também são variáveis aleatórias Pode-se mostrar que  Estimador não tendencioso de s2 onde: SQ  soma dos quadrados, dos erros (SQE) e total (SQT)

27 Testes de hipóteses na regressão linear
O primeiro teste que veremos é para a significância da regressão, ou seja, responder a pergunta: existe evidência suficiente para afirmarmos que há uma relação linear entre x e y? Teste t Tabela ANOVA  teste F Isto pode ser feito de 2 formas Suposições: A componente do erro no modelo é uma v.a. que segue uma distribuição normal com média 0 e variância s2  e ~ N(0, s2); Quanto as demais v.a.  Y ~ N(bo+b1x, s2), e

28 Testes de hipóteses na regressão linear
Usando o teste t para b1 : H0: b1 = b1,0  a inclinação da reta é igual a um valor constante b1,0 H1: b1 ≠ b1,0 Estatística de teste: Se as suposições estiverem certas esta estatística segue a distribuição t com gl = n-2, sujeito a H0 acima. Rejeitamos H0 se |t| > tc, onde tc = ta,n-2

29 Testes de hipóteses na regressão linear
Usando o teste t para b0 : H0: b0 = b0,0  a inclinação da reta é igual a um valor constante b0,0 H1: b0 ≠ b0,0 Estatística de teste: Se as suposições estiverem certas esta estatística segue a distribuição t com gl = n-2, sujeito a H0 acima. Rejeitamos H0 se |t| > tc, onde tc = ta,n-2

30 Testes de hipóteses na regressão linear
Usaremos o teste t para b1 para b1,0 = 0, ou seja: H0: b1 = 0  a inclinação da reta é nula  não há relação linear entre x e Y H1: b1 ≠ 0 Estatística de teste: Verificaremos a significância da regressão Casos onde H0: b1 = 0 não é rejeitada

31 Testes de hipóteses na regressão linear
Verificaremos a significância da regressão Casos onde H0: b1 = 0 é rejeitada

32 Aplicações Continuação do exemplo H0: b1 = 0 H1: b1 ≠ 0
Observação Reagente Pureza X(%) Y(%) 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,40 93,65 11 1,19 93,54 12 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,20 90,39 17 1,26 93,25 18 1,30 93,41 19 1,43 94,98 20 0,95 87,33 H0: b1 = 0 H1: b1 ≠ 0 Calculados antes  Precisamos agora

33 Aplicações Continuação do exemplo Onde Sxy = 10,18 (calculado antes)
adotando a = 0,05 (2 caudas), com gl = n-2 = 18: tc = 2,101  rejeita H0  há evidências suficiente para a afirmação da relação linear entre x e y

34 Soma dos Quadrados (SQ)
ANOVA: testar a significância da regressão Outra forma de fazer o mesmo teste é através da tabela ANOVA Col 1 Col 2 Col 3 Col 4 Col 5 Fonte de variação Soma dos Quadrados (SQ) Graus de liberdade Média Quadrática (MQ) Estatística de teste F Regressão 1 Num = Col 2/Col 3 Num / Den Erro SQE =SQT-SQR n – 2 Den = Col 2/Col 3 Total SQT n – 1

35 Soma dos Quadrados (SQ)
Aplicações Continuação do exemplo Col 1 Col 2 Col 3 Col 4 Col 5 Fonte de variação Soma dos Quadrados (SQ) Graus de liberdade Média Quadrática (MQ) Estatística de teste F Regressão 152,395 1 130,25 Erro 20,985 18 1,17 Total 173,38 19 Fc = F0,05;1;18 = 4,4139  rejeita H0

36 ANOVA: testar a significância da regressão
Qual o significado de cada soma SQ da ANOVA? Soma Quadrática Total  variabilidade total Soma Quadrática da Regressão  variabilidade devido à linha de regressão Soma Quadrática dos Erros  variabilidade residual sem explicação pela linha de regressão

37 ANOVA: testar a significância da regressão
Qual o significado de cada soma SQ da ANOVA? Desvio ou variação explicada  é melhor a estimativa 13 do que simplesmente a média 9 para o valor real 19

38 IC para a resposta média
Para um valor especificado de x, tal como x0, pode ser construído um IC para a resposta média  IC em torno da linha de regressão No ponto x0, o valor esperado é Já a estimativa do valor esperado é

39 - + Ex0 Ex0 x x0 IC para a resposta média Nível de confiança
 Estimador não tendencioso de x

40 IC para a resposta média
Como temos normalmente distribuídos: Usando como estimativa de Margem de erro da predição em x0 tc = ta,n-2 (2 caudas)

41 Aplicações Continuação do exemplo
Construir o intervalo de confiança para a resposta média, adotando NC = 95% Estimativa pontual para qualquer x0 Margem de erro para qualquer x0 tc = 2,101

42 Aplicações Calculando a resposta média e a margem de erro para vários valores de x0, surge o gráfico abaixo

43 Adequação do modelo de regressão
Ajustar um modelo de regressão requer várias suposições A estimação dos parâmetros b0 e b1 requer que os erros e sejam v.a. não correlacionadas com média zero e variância s2 constante Testes de hipótese e construção de IC requerem que os erros e tenham distribuição normal A análise dos resíduos ou análise residual e o coeficiente de determinação R2 nos ajudam a verificar se o modelo é realmente adequado

44 Vamos ver nas aplicações
Adequação  análise dos resíduos A análise dos resíduos é útil para verificar se eles seguem a distribuição normal Histograma de frequência dos resíduos Gráfico de probabilidade normal dos resíduos Pode-se construir Gráficos dos resíduos contra valores de y ou x Vamos ver nas aplicações

45 Aplicações Continuação do exemplo Pureza prevista Erro (%) 1 0,99
Observação Reagente Pureza Pureza prevista Erro X(%) Y(%) (%) 1 0,99 90,01 87,22 2,786 2 1,02 89,05 88,42 0,628 3 1,15 91,43 88,87 2,559 4 1,29 93,74 89,02 4,720 5 1,46 96,73 89,32 7,410 6 1,36 94,45 89,47 4,981 7 0,87 87,59 90,82 -3,227 8 1,23 91,77 91,42 0,354 9 1,55 99,42 8,004 10 1,40 93,65 92,01 1,636 11 1,19 93,54 92,16 1,376 12 92,52 92,61 -0,093 13 0,98 90,56 93,06 -2,502 14 1,01 89,54 93,51 -3,971 15 1,11 89,85 93,66 -3,811 16 1,20 90,39 94,56 -4,169 17 1,26 93,25 95,16 -1,908 18 1,30 93,41 95,61 -2,197 19 1,43 94,98 96,06 -1,076 20 0,95 87,33 97,40 -10,074

46 Aplicações Continuação do exemplo
Gráficos dos resíduos contra valores de y ou x

47 Modelo linear inadequado
Adequação  análise dos resíduos Que tipos de gráficos podem aparecer? Crescendo com o tempo ou com a magnitude de y ou x Situação ideal Variância crescendo Testar outros modelos (parabólico, por exemplo) Variâncias desiguais Modelo linear inadequado

48 Adequação  coeficiente R2
Lembrando ... Soma Quadrática Total  variabilidade total Soma Quadrática da Regressão  variabilidade devido à linha de regressão Soma Quadrática dos Erros  variabilidade residual sem explicação pela linha de regressão

49 Adequação  coeficiente R2
Dividindo a equação por SQT  Coeficiente de determinação Frequentemente usado para julgar a adequação do modelo  quantidade de variabilidade nos dados explicada ou considerada pelo modelo de regressão 0 ≤ R2 ≤ 1

50 Adequação  coeficiente R2
O coeficiente de determinação deve ser utilizado com cuidado R2 sempre aumentará se adicionarmos uma variável ao modelo, porém isso não significa necessariamente que o modelo novo é melhor que o antigo Mesmo se x e y estiverem relacionados de maneira não linear, R2 será frequentemente grande Mesmo com R2 grande, isto não implica que o modelo de regressão forneça previsões exatas para observações futuras

51 Adequação  coeficiente R2
Os 2 casos abaixo podem ter R2 grande, mas o caso 2 não é um caso de linearidade

52 Aplicações Nosso exemplo

53 Correlação Vimos que o engenheiro extrai dados para seus estudos de duas maneiras: experimental Sistema estudado x1, x2, ..., xn   y1, y2, ..., yn Entrada controlada saída não controlada observacional Sistema estudado x1, x2, ..., xn   y1, y2, ..., yn Entrada não controlada saída não controlada

54 Correlação Vimos que o engenheiro extrai dados para seus estudos de duas maneiras: experimental Exemplo da Eng. Civil: de forma controlada e cuidadosa, altero a forma como as formas são assentadas na construção  observo se a velocidade no cronograma é alterada observacional Exemplo da Eng. Ambiental: realizo o monitoramento da quantidade de enxofre lançado na atmosfera por indústrias  meço o pH da chuva na mesma região

55 Correlação Fazemos uma análise de regressão quando supomos que a variável x seja uma variável matemática, medida com erro desprezível e a variável Y seja aleatória  caso típico de experimentos Usamos o termo correlação quando as 2 variáveis x e Y são aleatórias. Neste caso, elas são distribuídas conjuntamente  caso típico de observações Pode-se mostrar que o modelo matemático de regressão com as variáveis X e Y aleatórias é equivalente aquele mesmo modelo, considerando X controlada ou matemática

56 Coef. de determinação Coef. de correlação linear amostral
Mas isto somente ocorre se X e Y forem distribuídas normal e conjuntamente Para o caso linear, surge então o chamado coeficiente de correlação R Pode-se mostrar que ele é a raiz quadrada do coeficiente de determinação que vimos antes Coef. de determinação Coef. de correlação linear amostral O coeficiente R é, na verdade o estimador do coeficiente de correlação populacional r  existe teste de hipótese para verificar se r = 0 ou r ≠ 0

57 Casos não lineares redutíveis ao linear

58 Casos não lineares redutíveis ao linear

59 Erros comuns envolvendo regressão
Concluir que a correlação implica em causalidade: podemos encontrar correlação entre o aumento de mortes de motociclistas e a venda de motos, mas não significa que mais motos vendidas causem mais mortes; 2) Outro erro surge de dados que se baseiam em médias: médias suprimem a variação individual e podem aumentar o R; 3) Outro erro envolve a propriedade de linearidade: pode existir uma relação entre x e y mesmo quando não há correlação linear significativa

60 Resumo Tudo que foi visto pode ser resumido nos passos:
Traçar diagrama de dispersão  verificar se o modelo linear é o que deve ser buscado se for modelo linear  passo 3, senão linearizar a equação  passos adiante com x e y linearizados Determinar a reta com o método dos mínimos quadrados Fazer o teste para o estimador do coeficiente angular Fazer o teste com a tabela ANOVA Construir o intervalo de confiança Verificar a adequação do modelo

61 Aplicações Temos abaixo uma tabela com dados de densidade habitacional e fração de área impermeável, acompanhada do diagrama de dispersão. Podemos concluir que existe alguma relação entre as variáveis? Se positivo, seria linear ou não linear? Faça o estudo. Densidade Habitacional (hab/ha) Fração da área impermeável (%) 25 11,3 40 26,7 60 36,7 80 46,6 100 49 120 53,4 140 57,2 160 60,4 180 63,2 200 65,8

62 Estatística Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves
Universidade Federal de Alagoas Centro de Tecnologia Estatística Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaborado pelo Prof. Christiano Cantarelli Rodrigues


Carregar ppt "Estatística Aula 25 Prof. Marllus Gustavo Ferreira Passos das Neves"

Apresentações semelhantes


Anúncios Google