Nota: Na literatura distingue-se a associação (vars. categóricas

Slides:



Advertisements
Apresentações semelhantes
Correlação e Regressão
Advertisements

Estatística amintas paiva afonso.
Deve ser selecionado o modo
Prof. Darlan Marcelo Delgado
ANÁLISES DE REGRESSÃO.
Analise de Regressão Parte 2.
AJUSTE DE CURVAS 6.1 Introdução 6.2 Método dos quadrados mínimos
MÉTODOS QUANTITATIVOS
ANÁLISE DISCRIMINANTE
ANÁLISE DISCRIMINANTE
Problemas de Forma Não-padrão
Modelos de Regressão Múltipla.
MB751 – Modelos de previsão
Rejane Sobrino Pinheiro Tania Guillén de Torres
Diagramas de dispersão
Análise da Regressão múltipla: Inferência Revisão da graduação
Laís Araújo Lopes de Souza
Modelos de regressão Cláudio Monteiro
Estatística e Probabilidade
DELINEAMENTOS CORRELACIONAIS
Site: Estatística Prof. Edson Nemer Site:
MBA em Gestão de Empreendimentos Turísticos
Regressão Múltipla Profas: Gardênia da Silva Abbad Elaine Rabelo Neiva
Aula 6 - Método não-experimental ou de seleção não-aleatória
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Regressão Camilo Daleles Rennó
Professor Antonio Carlos Coelho
Regressão Linear.
Interpolação e Ajuste de Curvas
GRÁFICO DE CORRELAÇÃO É um método gráfico de análise que permite verificar a existência ou não de relação entre duas variáveis de natureza quantitativa,
2.3 Experimentos Fatoriais 22 Efeitos das Interações
Modelagem Estatística
Professor Antonio Carlos Coelho
Aula 12 - Teste de associação1 DATAAulaCONTEÚDO PROGRAMÁTICO 10/03Segunda1Níveis de mensuração, variáveis, organização de dados, apresentação tabular 12/03Quarta2Apresentação.
Regressão e Previsão Numérica.
análise dos estimadores
7 Ajuste de Curvas UFSC.PósMCI.FME.Ajuste de curvas. (11.1)
Regressão.
Ajuste do Modelo Avaliação dos Coeficientes
Estatística para Cursos de Engenharia e Informática
Regressão Linear Múltipla
Noções de Estatística - I
Metodologia da Pesquisa em Ensino de Ciências I
Descrição Bivariada Comparando Duas Distribuições
Testes de Hipóteses.
Estatística e Probabilidade
Prof. Marllus Gustavo Ferreira Passos das Neves
CORRELAÇÃO E REGRESSÃO
Sistemas de Controle III N8SC3
Métodos Estatísticos Aplicados às Ciências Biológicas
PPGTI AULA 3 Prof. Dr. Márcio A. Fiori –
- Testes Qui-quadrado - Aderência e Independência
Métodos Estatísticos Aplicados às Ciências Biológicas - 11ª aula -
Regressão Linear Simples
Testes de Hipóteses.
Correlação e regressão
AULA 3 – O Modelo de Regressão Simples
Regressão Linear. Introdução A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão.
Regressão linear simples
Regressão linear simples
Correlação Análise do grau de relacionamento entre duas variáveis quantitativas.
Experimentação e Instrumentação Regressão Linear e Múltipla
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
AULA 07 CORRELAÇÃO Igor Menezes.
1. C.Dougherty “Introduction to Econometrics” 2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição.
AULA 11 – REGRESSÃO Parte I
LINEARIDADE Kamila Dias Nayara Rayanne Pereira Renata Fernandes Solange Araújo.
Profa Dra. Denise Pimentel Bergamaschi
Regressão Linear (aula 14 – Parte 2).
Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.
Nota: Na literatura distingue-se a associação (vars. categóricas
Transcrição da apresentação:

Nota: Na literatura distingue-se a associação (vars. categóricas Nas relações entre 2 duas variáveis vimos as situações referentes à relação entre uma var. quantitativa (lembre que as qualitativas ordinais acabam comportando-se como quantitativas discretas) e um categórica (qualquer tipo de variável pode ser categorizada)  Testes t (independentes e pareados) e ANOVA e seus similares não-paramétricos. Abordaremos doravante a situação referente a duas vars. quantitativas, através do coeficiente de correlação e da análise de regressão. Nota: Na literatura distingue-se a associação (vars. categóricas da correlação (vars. numéricas). Coeficiente de correlação de Pearson (r): É uma medida (coeficiente) do grau de relação linear entre duas variáveis “quantitativas”.

Valores próximos a 0 (negativos ou positivos)indicam uma relação de O coeficiente de correlação varia de -1 a 1, sendo que valores negativos indicam uma relação inversamente proporcio- nal entre as vars., à medida que os valores de uma var. crescem os da outra decrescem. Exemplo: Mortalidade infantil X Percentual de mães com pré-natal. Valores positivos do coeficiente indicam uma relação diretamente proporcional entre as vars., à medida que os valores de uma var. crescem os da outra também crescem. Exemplo: Peso X Altura Valores próximos a 0 (negativos ou positivos)indicam uma relação de independência entre as vars. o fato dos valores de uma var. aumentarem ou diminuírem não exerce influência sobre a outra var. Exemplo: Nota na prova X Altura. O 1o. passo quando estudamos duas variáveis quantitativas é construir- mos um gráfico conhecido por Diagrama de Dispersão (Scatterplot), que é simplesmente colocar uma var. no eixo X e outra no eixo Y

Na fig. Ao lado temos exemplos de uma cor. positiva perfeita (a), de uma cor. negativa perfeita (b),de uma independência perfeita (c) e de uma situação em que r não é a estatística mais apropriada, quando a relação entre as vars. não é linear A suposição envolvida no cálculo de r é que as vars. tenham distribuição Normal, logo necessário testá-las. A estimação de r dá-se através da seguinte fórmula: “Interpretações de r”: (em módulo) r entre 0 e 0.20 : Cor. fraquíssima, independência r entre 0.21 e 0.35: Cor. de fraca a razoável r entre 0.35 a 0.50: Cor. de razoável a boa r entre 0.50 a 0.70: Cor. boa r acima de 0.70: Cor. ótima

Entretanto atenção na utilização destas interpretações, cada estudo tem suas características, o que pode ser um valor de r baixo para determinado contexto pode ser considerado ótimo em outra situação. Ao coeficiente de correlação esta associado um teste de hipótese, que testa se o r calculado é ou não diferente de 0. Então H0 : r = 0 X H1: r  0. A estatística segue uma distribuição t com n-2 g.l. Portanto devo observar duas coisas: 1) A magnitude da correlação, i. é, o valor de r; 2) Se r é ou não significativo (p  0.05). Depende do N Desejo coeficientes ao menos razoáveis e significativos. r pode ser calculado tanto para amostras independentes como pareadas. Quero verificar se há relação entre entre a nota da prova e as horas de estudo, sabendo ambas normais. Vamos em ‘Graph’, depois em ‘Scatterplot”.

Nesta tela faço a opção pelo gráfico do tipo Simple e OK. Aloco minha var. nota em Y e horas em X, e OK O diagrama de dispersão já da uma boa noção que minhas vars. têm uma correlação (positiva), vamos então quantificá-la.

Vamos em ‘Basic statistics’ e daí em ‘Correlations’. Seleciono as duas variáveis e deixo ativa a célula “Display p-values”. e OK. No output tenho o valor do meu coeficiente de correlação linear de Pearson = 0.70, alto, e o p- value, demonstrando ser r significativamente diferente de 0.

E quando uma ou as duas vars. não tem distribuição Normal ? Coeficiente de correlação não-paramétrico de Spearman ou Kendall. O Minitab não calcula Spearman diretamente, para isto temos que realizar o seguinte procedimento: Tenho as vars X e Y, vou em ‘Manip’ e daí em ‘Rank’, este módulo atribuirá os ranks relativos a cada observação em uma nova variável (coluna). Aloco a var. X em ‘Rank data in:’ e específico a co- luna em que desejo arma- zenar os dados em ‘Store ranks in’ (C9). Faço o mesmo para Y em C10

ATENÇÃO: O coeficiente de correlação mede o grau de Agora com minhas ‘novas’ vars. C9 e C10 eu efetuo uma correlação de Pearson como anteriormente Apesar da saída fazer referência ao coeficiente de Pearson realizamos o de Spearman Correlations: C9; C10 Pearson correlation of C9 and C10 = 0,705 P-Value = 0,000 ATENÇÃO: O coeficiente de correlação mede o grau de correlação entre duas vars, mas absolutamente não significa que necessariamente haja uma relação de causa-efeito entre as vars. Quando encontramos uma correlação que se demonstra importante para o nosso estudo, normalmente desejamos extrair mais informações a respeito da relação entre as vars. , tais como estimar um modelo (equação matemática) que a represente, realizar predições, etc. Um modo de avançarmos mais nesta análise é realizarmos uma Análise de Regressão.

Quando realizo uma regressão linear quero estimar uma função linear ( f(Y) = a + bX) que represente a relação entre duas vars. Então primeiro preciso definir quem será a var. independente (X), a que “tentará” explicar a var. dependente (Y). Portanto desejo estimar a reta que melhor represente a relação entre as vars. X e Y, ou em outra palavras, o modelo linear (reta) que exprima a reação de Y conforme X varia Suposições para a realização da análise de regressão: 1) Cada observação das variáveis X e Y são independentes uma das outras 2) É necessário homocedasticidade das variâncias de Y para cada valor X Suposição contornável 3)IMPORTANTE: As vars. não precisam ter dist. Normal, mas o erro ou resíduo necessita dist. Normal. Pouco citado.

Então na reta Y = a +bX necessito estimar ‘a’ (B0) conhecido por coeficiente linear ou intercepto e ‘b’(B1) conhecido por coeficiente angular(slope) através do método dos mínimos quadrados. O método dos mínimos quadrados garante que a reta ajustada tem a propriedade que a soma das distâncias dos pontos (erros ou resíduos) à reta ajustada é a menor possível. O método mostra que b é estima- do através da seguinte fórmula:

Com a estimativa do slope (B1) posso estimar ‘a’ (B0) através da fórmula: No Minitab, Stats, ‘Regression’ e ‘Regression’ Na tela do Regression, aloco a var.Y a dependente, a que eu desejo que sejá explicada em “Response”; e a var.X, a independente, a que vai explicar, a preditora, que vai predizer, em “Predictors”. Vou também ativar os módulos “Graphs” e “Results”

Em Graphs deixo ‘Regular’ e marco “Residuals vs fits” Em Results marco a 2a. opção Interpretando a saída temos em (1) a reta ajustada, em (2) as estimativas dos parâmetros, seu erro padrão e um teste para a sua significância *, demonstrando que ambos são significativos, depois temos a estatística R2** e finalmente em (3) um tabela de ANOVA equivalente à já estudada

* O teste de hipótese associado ao p-value é H0: estimativa do slope = 0 X H1 Estimativa do slope (b ou B1)  0. Para que a regressão faça sentido, i é, o ajuste seja significativo é necessário REJEITAR H0, o slope têm de ser diferente de 0, senão, se for = 0 temos uma reta como da fig. abaixo. Neste caso para qualquer valor de X, a reta me fornecerá o mesmo valor de Y, logo não faz sentido este ajuste, não me serve para nada. ** A estatística R2 indica o quanto da variação de Y está sendo ‘explicada pela variação de X em percentual. No nosso caso 47% da variação de Y é explicada por X. O slope de 2,52 pode ser interpretado como que a cada aumento de 1 unidade de X equivale a um aumento de 2,5 unidades de Y em média.

O gráfico que pedimos no módulo Graphs é conhecido por Gráfico dos Resíduos e “mostra” a distância de cada ponto estimado do ponto observado. É importante que eles estejam aleatoriamente distribuídos em torno do 0 (linha tracejada) pois indica que o nosso ajuste não tem tendências. Um gráfico de resíduos como o ao lado indica que o ajuste quadrático é o mais indicado. Y =a + bX + cX2. Para cada gráfico de resíduos que foge da aleatoriedade há um motivo e correções no modelo são necessárias.

Existe uma exceção quanto à independência dos valores das vars Existe uma exceção quanto à independência dos valores das vars. X e Y é quando a var. X refere-se ao tempo e são realizadas medidas repetidas nas mesmas unidades amostrais ao longo do tempo, por exemplo, verifico se o volume do rim das gestantes aumenta ao longo do tempo, então observo o volume das mesmas gestantes ao longo de várias semanas gestacionais, ou o desempenho de atletas no tempo conforme os treinamentos vão ocorrendo. Semana Vol 8 15 8 14 12 20 Mesma observação, mesma unidade amostral 12 22 16 25 16 22 Lembre-se sempre de verificar o diagrama de dispersão para ver se é mesmo a reta o melhor ajuste, do mesmo modo pode-se ajustar modelos quadráticos, exponenciais, logísticos, ...

Tudo o que foi visto referia-se a uma relação linear entre as duas variáveis, porém nem sempre a relação entre 2 vars. é linear, ela pode seguir outro pa- drão: quadrática, cúbica, exponencial, etc... Quadrático: Y = a + bX + cX² Exponencial: Y = e↑(a + bX) No Minitab vamos em ´Regression´ depois em “Fitted Line Plot.”

Nesta tela colocamos na var. respos- ta (dependente) a var. consumo, e na var. preditora (independente) a var. temperatura. O interesse é verificar como o consumo de energia de uma máquina varia, depende, da tempera- tura. Inicialmente testamos um modelo linear, para isso basta clicar em ´Linear´ no “Type of Regression Model”. E OK. No output dos resultados temos um R² = 0% e um p = 0.67, portanto o ajuste linear não é adequado. No output gráfico temos a reta ajusta- da, onde fica claro que o modelo line- ar não é indicado para esta relação.

Fazendo a opção pelo modelo quadrático temos: No output de resultados temos a equação estimada (Consumo = 128,7 – 13,1*Tem + 0.328*Temp²), o R² = 73,4% , um p = 0.004 demonstrando que o ajuste qua- drático foi bastante significativo. No output gráfico verificamos que o ajuste quadrático realmente é bastante representativo da relação entre consumo e tempo.

Fazendo a opção pelo modelo cúbico temos: No output temos a equação estimada, o R² = 84.0% , e o “p“ do modelo (0.003) demonstrando ser o mesmo significativo. Abaixo temos o gráfico do modelo cúbico estimado. Observe que no último quadro da tela de resultados, temos uma tabela com probabilidades para o linear (0.67), o quadrático (0.001), e o cúbico (0.055), com base nesta tabela escolhemos o modelo quadrático como modelo final. O ganho do R² do cúbico para o qua- drático ( de 73,4% para 84%,0) é pou- co p/ justificar a inclusão de um ele- mento a mais na equação.

Normalmente, quando temos dois modelos visando esclarecer uma relação entre duas vars., se não há um ganho considerável de R² e de “p” opta-se pelo modelo mais simples, aquele que possuir menos ´elementos´na sua forma, na sua equação. Como visto anteriormente, podemos estar interessados em analisar o efeito de mais de uma variável independente sobre a var. dependente.Multivariada Tudo o que foi dito anteriormente sobre análise multivariada na aula de Anova é válido aqui,a diferença é que nossas vars. independentes são vars. numéricas ou qualitativas ordinais, quando não categorizadas. Nesta situação também pode-se testar a interação, mas é menos usual do que quando temos vars. categorizadas. Deseja-se estudar a influência das vars. idade, e9 e e10 sobre a variável Etotal. No módulo da “Regression” alocamos as variáveis independentes em “Predictors” e a dependente em “Response”. E OK.

No output temos a equação estimada: Etot = 22.2 + 0.27*Idade + 1.66*e9 + 2.01*e10. Temos uma tabela da Anova para o mo- delo completo (p < 0.001); o teste de hi- pótese a que se refere o p-value é que pelo menos um dos coeficientes das vars. preditoras é significativamente diferente de 0. Na tabela do meio temos as estimativas dos coeficientes de cada variável, seus respectivos erros padrões e um teste de significância para cada coefici- ente. Temos ainda um R² = 41.1% Podemos notar que a var. Idade não está contribuindo para o modelo, logo podemos realizar uma nova análise retirando a Idade do rol de vars. predito- ras. Basta ir no módulo regressão e retirar Idade a variável Idade e executar novamente.

No novo output temos a nova equação sem Idade. Observe que o modelo con- tinuou bastante significativo (p do mo- delo total < 0.001); o R² não sofreu al- teração, o que demonstra que Idade realmente não acrescentava nada na ´explicação’ de Etotal Na tabela do meio verificamos que as vars. que permaneceram no modelo têm todas p-value significativos, ou seja, contribuem para o modelo, por- tanto encerro minha análise com um modelo onde todas as vars. são sig- nificativas. Etotal = 27,9 +1.67*e9 + 2.01*e10.

Tal qual na Análise de Variância, podemos ter a situação em que há muitas variáveis independentes. Pode-se verificar o coef. de correlação de cada uma das vars. independen- tes com a var. independente e selecionarmos aquelas que apresentarem um valor do coef. de correlação acima de um determinado valor ou aquelas que forem significativas. Após a seleção das vars. que comporão o modelo inicial pode-se realizar o procedimento anteriormente visto de, passo a passo, ir excluindo-se as vars. que não forem significativas ( p ≤ 0.05). Passo a passo = Stepwise . Procedimento também fornecido pelo Minitab Neste tipo de análise também é possível verificar a interação entre duas ou vars. independentes, mas não é muito comum encontrarmos. A interação significativa aqui, como na Anova, indica que a relação entre uma var. de- pendente e a var. independente varia conforme os valores da outra var. dep. Na regressão multivariada pode ocorrer um problema chamado: MULTICOLINEARIDADE: Quando há um forte correlação(r > 0,60) en- tre duas ou mais das variáveis independentes Problemas com as estima- tivas e p-values. Solução é excluir uma (ou mais) das vars. da análise.