A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Estatística Aula 13 Prof. Marllus Gustavo Ferreira Passos das Neves

Apresentações semelhantes


Apresentação em tema: "Estatística Aula 13 Prof. Marllus Gustavo Ferreira Passos das Neves"— Transcrição da apresentação:

1 Estatística Aula 13 Prof. Marllus Gustavo Ferreira Passos das Neves
Universidade Federal de Alagoas Centro de Tecnologia Estatística Aula 13 Prof. Marllus Gustavo Ferreira Passos das Neves Adaptado do material elaborado pelo Prof. Christiano Cantarelli Rodrigues

2 Aula 13 Análise de Regressão Correlação

3 Introdução Existe relação entre o tempo em sala de aula e o salário?
Existe relação entre a temperatura e o nível de oxigênio dissolvido em um rio? Existe relação entre a fração de área impermeável em um lote e a vazão gerada após uma chuva? Existe relação entre o nível de fibra de carbono em um material em que é fabricada uma estrutura e a resistência desta ao impacto?

4 Introdução Existe relação entre as vazões médias mensais de 2 postos de monitoramento próximos? Existe relação entre o no de motos vendidas e o no de acidentes de trânsito? Análise de regressão  Técnica estatística usada para modelar e investigar a relação entre 2 ou mais variáveis a partir de dados amostrais

5 Análise de Regressão Pode ser usada para:
1) construir um modelo para prever um fenômeno  exemplo: ano que vem, se forem vendidas x motos, teremos y acidentes ... 2) otimizar um processo, determinar as variáveis que melhoram resposta de um processo ou para controlar um processo  exemplo: modificar a temperatura num experimento não modifica em nada os resultados, mas se for modificado tal composto, o efeito é o desejado

6 Análise de Regressão Exemplo 1
Observação Reagente Pureza X(%) Y(%) 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,40 93,65 11 1,19 93,54 12 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,20 90,39 17 1,26 93,25 18 1,30 93,41 19 1,43 94,98 20 0,95 87,33 Será que a porcentagem de hidrocarbonetos presente em um condensador principal de uma unidade de destilação tem relação com a pureza do oxigênio produzido em um processo químico? Chamando de y a pureza (%) e x a quantidade de hidrocarboneto (reagente, também em %)

7 Análise de Regressão Diagrama de dispersão
Embora haja pontos dispersos, há forte indicação de que eles repousam aleatoriamente em torno de uma reta

8 Análise de Regressão Tomando x = 1,2, esperaríamos que seu valor de y caísse na reta Aqui Mas caiu aqui Isto ocorre porque Y é uma VA

9 Análise de Regressão Y é uma VA  possui uma distribuição de probabilidade  possui valor esperado e possui variância Para um dado valor de X (tal como x = 1,2), Y possui valor esperado ou média que é aquele que esperaríamos que caísse bem na reta Então a média da VA Y está relacionada com x pela relação linear seguinte

10 Análise de Regressão A média de Y é uma função linear de x

11 Coeficientes de Regressão
Análise de Regressão Coeficientes de Regressão Interseção da reta Inclinação da reta m(Y|x) = b0 + b1x y e Mas um valor real qualquer observado y não cai exatamente na reta y = m(Y|x) + e x

12 Análise de Regressão Modelo de regressão linear simples  possui apenas uma variável independente x  regressor VA Y: Valor esperado Variância

13 Análise de Regressão Supondo que a VA e tenha valor esperado (média) 0 e variância s2

14 Análise de Regressão Supondo que a VA e tenha valor esperado (média) 0 e variância s2

15 Análise de Regressão Supondo que a VA e tenha valor esperado (média) 0 e variância s2 A variabilidade de Y, em um valor particular de x, é determinada pela variância do erro s2 Essa variância é a mesma para cada x  distribuição de valores ao redor da média m(Y|x)

16 Regressão Linear Simples (RLS)
Apenas uma variável independente x  regressor Apenas uma variável dependente aleatória Y  variável de resposta Objetivo  estimar os parâmetros populacionais b0 e b1, ou seja, teremos estimativas pontuais, vindas de amostras retirada de 2 populações Estimar Que populações?

17 Estimativas pontuais de b0 e b1
Regressão Linear Simples (RLS) As populações são de X e Y X Y b0 e b1 A RLS supõe ser possível uma relação linear entre as 2 populações Amostra x1, x2, ..., xn y1, y2, ..., yn Estimativas pontuais de b0 e b1 Amostra população

18 Regressão Linear Simples (RLS)
Método dos mínimos quadrados Para cada ponto xi, yi  Logo, isolando o resíduo ei  Criando a função abaixo, derivando em relação a b0 e b1 e igualando a zero  ponto de mínimo e

19 Regressão Linear Simples (RLS)
Reta que melhor se ajusta aos pontos

20 Regressão Linear Simples (RLS)
Modelo de RLS Amostras x,y Resíduo do Modelo de RLS

21 Aplicações Exemplo da relação entre a porcentagem de hidrocarbonetos e a pureza do oxigênio produzido em um processo químico Observação Reagente Pureza X(%) Y(%) 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,40 93,65 11 1,19 93,54 12 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,20 90,39 17 1,26 93,25 18 1,30 93,41 19 1,43 94,98 20 0,95 87,33

22 Aplicações Exemplo:

23 Aplicações Resíduo do Modelo de Regressão Linear Simples Observação
Reagente Pureza Modelo Resíduo X(%) Y(%) 1 0,99 90,01 89,02 2 1,02 89,05 89,47 -0,42 3 1,15 91,43 91,42 0,01 4 1,29 93,74 93,51 0,23 5 1,46 96,73 96,06 0,67 6 1,36 94,45 94,56 -0,11 7 0,87 87,59 87,22 0,37 8 1,23 91,77 92,61 -0,84 9 1,55 99,42 97,40 2,02 10 1,40 93,65 95,16 -1,51 11 1,19 93,54 92,01 1,53 12 92,52 1,10 13 0,98 90,56 88,87 1,69 14 1,01 89,54 89,32 0,22 15 1,11 89,85 90,82 -0,97 16 1,20 90,39 92,16 -1,77 17 1,26 93,25 93,06 0,19 18 1,30 93,41 93,66 -0,25 19 1,43 94,98 95,61 -0,63 20 0,95 87,33 88,42 -1,09 Resíduo do Modelo de Regressão Linear Simples

24 Aplicações y = 90,39 yprev = 92,16 e = -1,77

25 Propriedades dos estimadores
Já vimos que Y e e são variáveis aleatórias Vimos também que Var(Y) = Var(e) = s2, mas E(Y) = mY/x (reta de regressão) e E(e) = 0

26 Propriedades dos estimadores
Os estimadores também são VA Pode-se mostrar que  Estimador não tendencioso de s2  soma dos quadrados dos erros  soma dos quadrados total

27 Testes de hipótese na regressão linear
Teste para a significância da regressão  existe evidência suficiente para afirmarmos que há uma relação linear entre x e y? Pode ser feito de 2 formas Teste t Tabela ANOVA  teste F Suposições: Componente do erro é uma VA que segue uma distribuição normal com média 0 e variância s2  e~N(0, s2); Demais VA  Y~N(bo+b1x, s2), e

28 Rejeitamos H0 se |t| > tc, onde tc = ta,n-2
Testes de hipótese na regressão linear Usando o teste t para b1 H0: b1 = b1,0  a inclinação da reta é igual a um valor constante b1,0 H1: b1 ≠ b1,0 Estatística de teste: Se as suposições estiverem certas  t segue a distribuição t com gl = n-2, sujeito a H0 acima Rejeitamos H0 se |t| > tc, onde tc = ta,n-2

29 Rejeitamos H0 se |t| > tc, onde tc = ta,n-2
Testes de hipótese na regressão linear Usando o teste t para b0 H0: b0 = b0,0  a inclinação da reta é igual a um valor constante b0,0 H1: b0 ≠ b0,0 Estatística de teste: Se as suposições estiverem certas  t segue a distribuição t com gl = n-2, sujeito a H0 acima. Rejeitamos H0 se |t| > tc, onde tc = ta,n-2

30 Rejeitamos H0 se |t| > tc, onde tc = ta,n-2
Testes de hipótese na regressão linear Usaremos o teste t para b1 (b1,0 = 0), ou seja H0: b1 = 0  a inclinação da reta é nula  não há relação linear entre x e Y H1: b1 ≠ 0 Estatística de teste: Rejeitamos H0 se |t| > tc, onde tc = ta,n-2

31 Testes de hipótese na regressão linear
Verificaremos a significância da regressão Casos onde H0: b1 = 0 não é rejeitada Casos onde H0: b1 = 0 é rejeitada

32 Aplicações Continuação do exemplo H0: b1 = 0 H1: b1 ≠ 0
Observação Reagente Pureza X(%) Y(%) 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,40 93,65 11 1,19 93,54 12 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,20 90,39 17 1,26 93,25 18 1,30 93,41 19 1,43 94,98 20 0,95 87,33 H0: b1 = 0 H1: b1 ≠ 0 Calculados antes  Precisamos agora

33 Aplicações Continuação do exemplo onde Sxy = 10,18 (calculado antes)
Adotando a = 0,05 (2 caudas), com gl = n-2 = 18: tc = 2,101  rejeita H0  há evidências suficiente para a afirmação da relação linear entre x e y

34 Qual o significado de cada soma de quadrados (SQ)?
ANOVA: testar a significância da regressão Qual o significado de cada soma de quadrados (SQ)? Desvio ou variação explicada  é melhor a estimativa 13 do que simplesmente a média 9 para o valor real 19

35 Qual o significado de cada soma de quadrados (SQ)?
ANOVA: testar a significância da regressão Qual o significado de cada soma de quadrados (SQ)? Soma Quadrática (SQ) Total  variabilidade total SQ da Regressão  variabilidade devido à linha de regressão SQ dos Erros  variabilidade residual sem explicação pela linha de regressão

36 ANOVA: testar a significância da regressão
Outra teste  tabela ANOVA Baseado na ideia de que, se SQE é muito maior que SQR, existe evidência contra a regressão  teste semelhante ao teste de hipótese de diferenças de variância Se a estatística F = (SQR/glR)/(SQE/glE) for grande  SQR/glR > SQE/glE  evidências para haver correlação linear glR = 1, glE = n-2

37 Soma dos Quadrados (SQ)
ANOVA: testar a significância da regressão Outra teste  tabela ANOVA H0: modelo de regressão adequado H1: modelo de regressão não adequado Col 1 Col 2 Col 3 Col 4 Col 5 Fonte de variação Soma dos Quadrados (SQ) Graus de liberdade Média Quadrática (MQ) Estatística de teste F Regressão 1 Num = Col 2/Col 3 Num / Den Erro SQE =SQT-SQR n – 2 Den = Col 2/Col 3 Total SQT n – 1

38 Soma dos Quadrados (SQ)
Aplicações Continuação do exemplo Col 1 Col 2 Col 3 Col 4 Col 5 Fonte de variação Soma dos Quadrados (SQ) Graus de liberdade Média Quadrática (MQ) Estatística de teste F Regressão 152,395 1 130,25 Erro 20,985 18 1,17 Total 173,38 19 Fc = F0,05;1;18 = 4,4139  rejeita H0

39 IC para a resposta média
Para um valor especificado de x, tal como x0, pode ser construído um IC para a resposta média  IC em torno da linha de regressão No ponto x0, o valor esperado é Já a estimativa do valor esperado é

40 - + Ex0 Ex0 x x0 IC para a resposta média Nível de confiança
 Estimador não tendencioso de x

41 IC para a resposta média
Como temos normalmente distribuídos Usando como estimativa de Margem de erro da predição em x0 tc = ta,n-2 (2 caudas)

42 Aplicações Continuação do exemplo
Construir o intervalo de confiança para a resposta média, adotando NC = 95% Estimativa pontual para qualquer x0 Margem de erro para qualquer x0 tc = 2,101

43 Aplicações Calculando a resposta média e a margem de erro para vários valores de x0, surge o gráfico abaixo

44 Adequação do modelo de regressão
Ajustar um modelo de regressão requer várias suposições A estimação dos parâmetros b0 e b1 requer que os erros e sejam VA não correlacionadas com média zero e variância s2 constante Testes de hipótese e construção de IC requerem que os erros e tenham distribuição normal Análise dos resíduos ou análise residual e o coeficiente de determinação R2 nos ajudam a verificar se o modelo é realmente adequado

45 Adequação  análise dos resíduos
A análise dos resíduos é útil para verificar se eles seguem a distribuição normal Histograma de frequência dos resíduos Gráfico de probabilidade normal dos resíduos (quantis normais) Pode-se construir Gráficos dos resíduos contra valores de y ou x Teste de aderência

46 Aplicações Continuação do exemplo Pureza prevista Erro (%) 1 0,99
Observação Reagente Pureza Pureza prevista Erro X(%) Y(%) (%) 1 0,99 90,01 87,22 2,786 2 1,02 89,05 88,42 0,628 3 1,15 91,43 88,87 2,559 4 1,29 93,74 89,02 4,720 5 1,46 96,73 89,32 7,410 6 1,36 94,45 89,47 4,981 7 0,87 87,59 90,82 -3,227 8 1,23 91,77 91,42 0,354 9 1,55 99,42 8,004 10 1,40 93,65 92,01 1,636 11 1,19 93,54 92,16 1,376 12 92,52 92,61 -0,093 13 0,98 90,56 93,06 -2,502 14 1,01 89,54 93,51 -3,971 15 1,11 89,85 93,66 -3,811 16 1,20 90,39 94,56 -4,169 17 1,26 93,25 95,16 -1,908 18 1,30 93,41 95,61 -2,197 19 1,43 94,98 96,06 -1,076 20 0,95 87,33 97,40 -10,074

47 Aplicações Continuação do exemplo
Gráficos dos resíduos contra valores de y ou x

48 Modelo linear inadequado
Adequação  análise dos resíduos Que tipos de gráficos podem aparecer? Crescendo com o tempo ou com a magnitude de y ou x Situação ideal Variância crescendo Testar outros modelos (parabólico, por exemplo) Variâncias desiguais Modelo linear inadequado

49 ANOVA: testar a significância da regressão
Lembrando Soma Quadrática (SQ) Total  variabilidade total SQ da Regressão  variabilidade devido à linha de regressão SQ dos Erros  variabilidade residual sem explicação pela linha de regressão

50 Adequação  coeficiente R2
Dividindo a equação por SQT  Coeficiente de determinação 0 ≤ R2 ≤ 1 Usado para julgar a adequação  quantidade de variabilidade nos dados explicada ou considerada pelo modelo

51 Adequação  coeficiente R2
O coeficiente de determinação deve ser utilizado com cuidado R2 sempre aumentará se adicionarmos uma variável ao modelo, porém isso não significa necessariamente que o modelo novo é melhor que o antigo Mesmo se x e y estiverem relacionados de maneira não linear, R2 será frequentemente grande Mesmo com R2 grande, isto não implica que o modelo de regressão forneça previsões exatas para observações futuras

52 Adequação  coeficiente R2
Os 2 casos abaixo podem ter R2 grande, mas o caso 2 não é um caso de linearidade

53 Aplicações Nosso exemplo

54 Correlação Vimos que o engenheiro extrai dados para seus estudos de duas maneiras: experimental Sistema estudado x1, x2, ..., xn   y1, y2, ..., yn Entrada controlada saída não controlada observacional Sistema estudado x1, x2, ..., xn   y1, y2, ..., yn Entrada não controlada saída não controlada

55 Correlação Exemplo experimental  de forma controlada e cuidadosa, altero a forma como as formas são assentadas na construção  observo se a velocidade no cronograma é alterada Exemplo observacional  realizo o monitoramento da quantidade de enxofre lançado na atmosfera por indústrias  meço o pH da chuva na mesma região

56 Correlação Análise de regressão  quando supomos que a variável x seja uma variável matemática, medida com erro desprezível e a variável Y seja aleatória  caso típico de experimentos Termo correlação  quando as 2 variáveis x e Y são aleatórias. Neste caso, elas são distribuídas conjuntamente  caso típico de observações

57 Correlação Pode-se mostrar que o modelo matemático de regressão com as variáveis X e Y aleatórias é equivalente aquele mesmo modelo, considerando X controlada ou matemática Mas isto somente ocorre se X e Y forem distribuídas normal e conjuntamente

58 Coef. de determinação Coef. de correlação linear amostral
Para o caso linear, surge então o chamado coeficiente de correlação R Ele é a raiz quadrada do coeficiente de determinação que vimos antes Coef. de determinação Coef. de correlação linear amostral R  estimador do coeficiente de correlação populacional r  existe teste de hipótese para verificar se r = 0 ou r ≠ 0

59 Casos não lineares redutíveis ao linear

60 Casos não lineares redutíveis ao linear

61 Resumo Tudo que foi visto pode ser resumido nos passos:
Traçar diagrama de dispersão  verificar se o modelo linear é o que deve ser buscado se for modelo linear  passo 3, senão linearizar a equação  passos adiante com x e y linearizados Determinar a reta com o método dos mínimos quadrados Fazer o teste para o estimador do coeficiente angular Fazer o teste com a tabela ANOVA Construir o intervalo de confiança Verificar a adequação do modelo (resíduos e R2)

62 Aplicações Temos abaixo uma tabela com dados de densidade habitacional e fração de área impermeável, acompanhada do diagrama de dispersão. Podemos concluir que existe alguma relação entre as variáveis? Se positivo, seria linear ou não linear? Faça o estudo. Densidade Habitacional (hab/ha) Fração da área impermeável (%) 25 11,3 40 26,7 60 36,7 80 46,6 100 49 120 53,4 140 57,2 160 60,4 180 63,2 200 65,8


Carregar ppt "Estatística Aula 13 Prof. Marllus Gustavo Ferreira Passos das Neves"

Apresentações semelhantes


Anúncios Google