Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouGiuliana Bastos Santos Alterado mais de 5 anos atrás
1
Estatística Aula 13 Prof. Marllus Gustavo Ferreira Passos das Neves
Universidade Federal de Alagoas Centro de Tecnologia Estatística Aula 13 Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaborado pelo Prof. Christiano Cantarelli Rodrigues
2
Aula 13 Análise de Regressão Correlação
3
Introdução Existe relação entre o tempo em sala de aula e o salário?
Existe relação entre a temperatura e o nível de oxigênio dissolvido em um rio? Existe relação entre a fração de área impermeável em um lote e a vazão gerada após uma chuva? Existe relação entre o nível de fibra de carbono em um material em que é fabricada uma estrutura e a resistência desta ao impacto?
4
Introdução Existe relação entre as vazões médias mensais de 2 postos de monitoramento próximos? Existe relação entre o no de motos vendidas e o no de acidentes de trânsito? Análise de regressão Técnica estatística usada para modelar e investigar a relação entre 2 ou mais variáveis a partir de dados amostrais
5
Análise de Regressão Pode ser usada para:
1) construir um modelo para prever um fenômeno exemplo: ano que vem, se forem vendidas x motos, teremos y acidentes ... 2) otimizar um processo, determinar as variáveis que melhoram resposta de um processo ou para controlar um processo exemplo: modificar a temperatura num experimento não modifica em nada os resultados, mas se for modificado tal composto, o efeito é o desejado
6
Análise de Regressão Exemplo 1
Observação Reagente Pureza X(%) Y(%) 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,40 93,65 11 1,19 93,54 12 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,20 90,39 17 1,26 93,25 18 1,30 93,41 19 1,43 94,98 20 0,95 87,33 Será que a porcentagem de hidrocarbonetos presente em um condensador principal de uma unidade de destilação tem relação com a pureza do oxigênio produzido em um processo químico? Chamando de y a pureza (%) e x a quantidade de hidrocarboneto (reagente, também em %)
7
Análise de Regressão Diagrama de dispersão
Embora haja pontos dispersos, há forte indicação de que eles repousam aleatoriamente em torno de uma reta
8
Análise de Regressão Tomando x = 1,2, esperaríamos que seu valor de y caísse na reta Aqui Mas caiu aqui Isto ocorre porque Y é uma VA
9
Análise de Regressão Y é uma VA possui uma distribuição de probabilidade possui valor esperado e possui variância Para um dado valor de X (tal como x = 1,2), Y possui valor esperado ou média que é aquele que esperaríamos que caísse bem na reta Então a média da VA Y está relacionada com x pela relação linear seguinte
10
Análise de Regressão A média de Y é uma função linear de x
11
Coeficientes de Regressão
Análise de Regressão Coeficientes de Regressão Interseção da reta Inclinação da reta m(Y|x) = b0 + b1x y e Mas um valor real qualquer observado y não cai exatamente na reta y = m(Y|x) + e x
12
Análise de Regressão Modelo de regressão linear simples possui apenas uma variável independente x regressor VA Y: Valor esperado Variância
13
Análise de Regressão Supondo que a VA e tenha valor esperado (média) 0 e variância s2
14
Análise de Regressão Supondo que a VA e tenha valor esperado (média) 0 e variância s2
15
Análise de Regressão Supondo que a VA e tenha valor esperado (média) 0 e variância s2 A variabilidade de Y, em um valor particular de x, é determinada pela variância do erro s2 Essa variância é a mesma para cada x distribuição de valores ao redor da média m(Y|x)
16
Regressão Linear Simples (RLS)
Apenas uma variável independente x regressor Apenas uma variável dependente aleatória Y variável de resposta Objetivo estimar os parâmetros populacionais b0 e b1, ou seja, teremos estimativas pontuais, vindas de amostras retirada de 2 populações Estimar Que populações?
17
Estimativas pontuais de b0 e b1
Regressão Linear Simples (RLS) As populações são de X e Y X Y b0 e b1 A RLS supõe ser possível uma relação linear entre as 2 populações Amostra x1, x2, ..., xn y1, y2, ..., yn Estimativas pontuais de b0 e b1 Amostra população
18
Regressão Linear Simples (RLS)
Método dos mínimos quadrados Para cada ponto xi, yi Logo, isolando o resíduo ei Criando a função abaixo, derivando em relação a b0 e b1 e igualando a zero ponto de mínimo e
19
Regressão Linear Simples (RLS)
Reta que melhor se ajusta aos pontos
20
Regressão Linear Simples (RLS)
Modelo de RLS Amostras x,y Resíduo do Modelo de RLS
21
Aplicações Exemplo da relação entre a porcentagem de hidrocarbonetos e a pureza do oxigênio produzido em um processo químico Observação Reagente Pureza X(%) Y(%) 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,40 93,65 11 1,19 93,54 12 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,20 90,39 17 1,26 93,25 18 1,30 93,41 19 1,43 94,98 20 0,95 87,33
22
Aplicações Exemplo:
23
Aplicações Resíduo do Modelo de Regressão Linear Simples Observação
Reagente Pureza Modelo Resíduo X(%) Y(%) 1 0,99 90,01 89,02 2 1,02 89,05 89,47 -0,42 3 1,15 91,43 91,42 0,01 4 1,29 93,74 93,51 0,23 5 1,46 96,73 96,06 0,67 6 1,36 94,45 94,56 -0,11 7 0,87 87,59 87,22 0,37 8 1,23 91,77 92,61 -0,84 9 1,55 99,42 97,40 2,02 10 1,40 93,65 95,16 -1,51 11 1,19 93,54 92,01 1,53 12 92,52 1,10 13 0,98 90,56 88,87 1,69 14 1,01 89,54 89,32 0,22 15 1,11 89,85 90,82 -0,97 16 1,20 90,39 92,16 -1,77 17 1,26 93,25 93,06 0,19 18 1,30 93,41 93,66 -0,25 19 1,43 94,98 95,61 -0,63 20 0,95 87,33 88,42 -1,09 Resíduo do Modelo de Regressão Linear Simples
24
Aplicações y = 90,39 yprev = 92,16 e = -1,77
25
Propriedades dos estimadores
Já vimos que Y e e são variáveis aleatórias Vimos também que Var(Y) = Var(e) = s2, mas E(Y) = mY/x (reta de regressão) e E(e) = 0
26
Propriedades dos estimadores
Os estimadores também são VA Pode-se mostrar que Estimador não tendencioso de s2 soma dos quadrados dos erros soma dos quadrados total
27
Testes de hipótese na regressão linear
Teste para a significância da regressão existe evidência suficiente para afirmarmos que há uma relação linear entre x e y? Pode ser feito de 2 formas Teste t Tabela ANOVA teste F Suposições: Componente do erro é uma VA que segue uma distribuição normal com média 0 e variância s2 e~N(0, s2); Demais VA Y~N(bo+b1x, s2), e
28
Rejeitamos H0 se |t| > tc, onde tc = ta,n-2
Testes de hipótese na regressão linear Usando o teste t para b1 H0: b1 = b1,0 a inclinação da reta é igual a um valor constante b1,0 H1: b1 ≠ b1,0 Estatística de teste: Se as suposições estiverem certas t segue a distribuição t com gl = n-2, sujeito a H0 acima Rejeitamos H0 se |t| > tc, onde tc = ta,n-2
29
Rejeitamos H0 se |t| > tc, onde tc = ta,n-2
Testes de hipótese na regressão linear Usando o teste t para b0 H0: b0 = b0,0 a inclinação da reta é igual a um valor constante b0,0 H1: b0 ≠ b0,0 Estatística de teste: Se as suposições estiverem certas t segue a distribuição t com gl = n-2, sujeito a H0 acima. Rejeitamos H0 se |t| > tc, onde tc = ta,n-2
30
Rejeitamos H0 se |t| > tc, onde tc = ta,n-2
Testes de hipótese na regressão linear Usaremos o teste t para b1 (b1,0 = 0), ou seja H0: b1 = 0 a inclinação da reta é nula não há relação linear entre x e Y H1: b1 ≠ 0 Estatística de teste: Rejeitamos H0 se |t| > tc, onde tc = ta,n-2
31
Testes de hipótese na regressão linear
Verificaremos a significância da regressão Casos onde H0: b1 = 0 não é rejeitada Casos onde H0: b1 = 0 é rejeitada
32
Aplicações Continuação do exemplo H0: b1 = 0 H1: b1 ≠ 0
Observação Reagente Pureza X(%) Y(%) 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,40 93,65 11 1,19 93,54 12 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,20 90,39 17 1,26 93,25 18 1,30 93,41 19 1,43 94,98 20 0,95 87,33 H0: b1 = 0 H1: b1 ≠ 0 Calculados antes Precisamos agora
33
Aplicações Continuação do exemplo onde Sxy = 10,18 (calculado antes)
Adotando a = 0,05 (2 caudas), com gl = n-2 = 18: tc = 2,101 rejeita H0 há evidências suficiente para a afirmação da relação linear entre x e y
34
Qual o significado de cada soma de quadrados (SQ)?
ANOVA: testar a significância da regressão Qual o significado de cada soma de quadrados (SQ)? Desvio ou variação explicada é melhor a estimativa 13 do que simplesmente a média 9 para o valor real 19
35
Qual o significado de cada soma de quadrados (SQ)?
ANOVA: testar a significância da regressão Qual o significado de cada soma de quadrados (SQ)? Soma Quadrática (SQ) Total variabilidade total SQ da Regressão variabilidade devido à linha de regressão SQ dos Erros variabilidade residual sem explicação pela linha de regressão
36
ANOVA: testar a significância da regressão
Outra teste tabela ANOVA Baseado na ideia de que, se SQE é muito maior que SQR, existe evidência contra a regressão teste semelhante ao teste de hipótese de diferenças de variância Se a estatística F = (SQR/glR)/(SQE/glE) for grande SQR/glR > SQE/glE evidências para haver correlação linear glR = 1, glE = n-2
37
Soma dos Quadrados (SQ)
ANOVA: testar a significância da regressão Outra teste tabela ANOVA H0: modelo de regressão adequado H1: modelo de regressão não adequado Col 1 Col 2 Col 3 Col 4 Col 5 Fonte de variação Soma dos Quadrados (SQ) Graus de liberdade Média Quadrática (MQ) Estatística de teste F Regressão 1 Num = Col 2/Col 3 Num / Den Erro SQE =SQT-SQR n – 2 Den = Col 2/Col 3 Total SQT n – 1
38
Soma dos Quadrados (SQ)
Aplicações Continuação do exemplo Col 1 Col 2 Col 3 Col 4 Col 5 Fonte de variação Soma dos Quadrados (SQ) Graus de liberdade Média Quadrática (MQ) Estatística de teste F Regressão 152,395 1 130,25 Erro 20,985 18 1,17 Total 173,38 19 Fc = F0,05;1;18 = 4,4139 rejeita H0
39
IC para a resposta média
Para um valor especificado de x, tal como x0, pode ser construído um IC para a resposta média IC em torno da linha de regressão No ponto x0, o valor esperado é Já a estimativa do valor esperado é
40
- + Ex0 Ex0 x x0 IC para a resposta média Nível de confiança
Estimador não tendencioso de x
41
IC para a resposta média
Como temos normalmente distribuídos Usando como estimativa de Margem de erro da predição em x0 tc = ta,n-2 (2 caudas)
42
Aplicações Continuação do exemplo
Construir o intervalo de confiança para a resposta média, adotando NC = 95% Estimativa pontual para qualquer x0 Margem de erro para qualquer x0 tc = 2,101
43
Aplicações Calculando a resposta média e a margem de erro para vários valores de x0, surge o gráfico abaixo
44
Adequação do modelo de regressão
Ajustar um modelo de regressão requer várias suposições A estimação dos parâmetros b0 e b1 requer que os erros e sejam VA não correlacionadas com média zero e variância s2 constante Testes de hipótese e construção de IC requerem que os erros e tenham distribuição normal Análise dos resíduos ou análise residual e o coeficiente de determinação R2 nos ajudam a verificar se o modelo é realmente adequado
45
Adequação análise dos resíduos
A análise dos resíduos é útil para verificar se eles seguem a distribuição normal Histograma de frequência dos resíduos Gráfico de probabilidade normal dos resíduos (quantis normais) Pode-se construir Gráficos dos resíduos contra valores de y ou x Teste de aderência
46
Aplicações Continuação do exemplo Pureza prevista Erro (%) 1 0,99
Observação Reagente Pureza Pureza prevista Erro X(%) Y(%) (%) 1 0,99 90,01 87,22 2,786 2 1,02 89,05 88,42 0,628 3 1,15 91,43 88,87 2,559 4 1,29 93,74 89,02 4,720 5 1,46 96,73 89,32 7,410 6 1,36 94,45 89,47 4,981 7 0,87 87,59 90,82 -3,227 8 1,23 91,77 91,42 0,354 9 1,55 99,42 8,004 10 1,40 93,65 92,01 1,636 11 1,19 93,54 92,16 1,376 12 92,52 92,61 -0,093 13 0,98 90,56 93,06 -2,502 14 1,01 89,54 93,51 -3,971 15 1,11 89,85 93,66 -3,811 16 1,20 90,39 94,56 -4,169 17 1,26 93,25 95,16 -1,908 18 1,30 93,41 95,61 -2,197 19 1,43 94,98 96,06 -1,076 20 0,95 87,33 97,40 -10,074
47
Aplicações Continuação do exemplo
Gráficos dos resíduos contra valores de y ou x
48
Modelo linear inadequado
Adequação análise dos resíduos Que tipos de gráficos podem aparecer? Crescendo com o tempo ou com a magnitude de y ou x Situação ideal Variância crescendo Testar outros modelos (parabólico, por exemplo) Variâncias desiguais Modelo linear inadequado
49
ANOVA: testar a significância da regressão
Lembrando Soma Quadrática (SQ) Total variabilidade total SQ da Regressão variabilidade devido à linha de regressão SQ dos Erros variabilidade residual sem explicação pela linha de regressão
50
Adequação coeficiente R2
Dividindo a equação por SQT Coeficiente de determinação 0 ≤ R2 ≤ 1 Usado para julgar a adequação quantidade de variabilidade nos dados explicada ou considerada pelo modelo
51
Adequação coeficiente R2
O coeficiente de determinação deve ser utilizado com cuidado R2 sempre aumentará se adicionarmos uma variável ao modelo, porém isso não significa necessariamente que o modelo novo é melhor que o antigo Mesmo se x e y estiverem relacionados de maneira não linear, R2 será frequentemente grande Mesmo com R2 grande, isto não implica que o modelo de regressão forneça previsões exatas para observações futuras
52
Adequação coeficiente R2
Os 2 casos abaixo podem ter R2 grande, mas o caso 2 não é um caso de linearidade
53
Aplicações Nosso exemplo
54
Correlação Vimos que o engenheiro extrai dados para seus estudos de duas maneiras: experimental Sistema estudado x1, x2, ..., xn y1, y2, ..., yn Entrada controlada saída não controlada observacional Sistema estudado x1, x2, ..., xn y1, y2, ..., yn Entrada não controlada saída não controlada
55
Correlação Exemplo experimental de forma controlada e cuidadosa, altero a forma como as formas são assentadas na construção observo se a velocidade no cronograma é alterada Exemplo observacional realizo o monitoramento da quantidade de enxofre lançado na atmosfera por indústrias meço o pH da chuva na mesma região
56
Correlação Análise de regressão quando supomos que a variável x seja uma variável matemática, medida com erro desprezível e a variável Y seja aleatória caso típico de experimentos Termo correlação quando as 2 variáveis x e Y são aleatórias. Neste caso, elas são distribuídas conjuntamente caso típico de observações
57
Correlação Pode-se mostrar que o modelo matemático de regressão com as variáveis X e Y aleatórias é equivalente aquele mesmo modelo, considerando X controlada ou matemática Mas isto somente ocorre se X e Y forem distribuídas normal e conjuntamente
58
Coef. de determinação Coef. de correlação linear amostral
Para o caso linear, surge então o chamado coeficiente de correlação R Ele é a raiz quadrada do coeficiente de determinação que vimos antes Coef. de determinação Coef. de correlação linear amostral R estimador do coeficiente de correlação populacional r existe teste de hipótese para verificar se r = 0 ou r ≠ 0
59
Casos não lineares redutíveis ao linear
60
Casos não lineares redutíveis ao linear
61
Resumo Tudo que foi visto pode ser resumido nos passos:
Traçar diagrama de dispersão verificar se o modelo linear é o que deve ser buscado se for modelo linear passo 3, senão linearizar a equação passos adiante com x e y linearizados Determinar a reta com o método dos mínimos quadrados Fazer o teste para o estimador do coeficiente angular Fazer o teste com a tabela ANOVA Construir o intervalo de confiança Verificar a adequação do modelo (resíduos e R2)
62
Aplicações Temos abaixo uma tabela com dados de densidade habitacional e fração de área impermeável, acompanhada do diagrama de dispersão. Podemos concluir que existe alguma relação entre as variáveis? Se positivo, seria linear ou não linear? Faça o estudo. Densidade Habitacional (hab/ha) Fração da área impermeável (%) 25 11,3 40 26,7 60 36,7 80 46,6 100 49 120 53,4 140 57,2 160 60,4 180 63,2 200 65,8
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.