CORRELAÇÃO linear de Pearson ( r ) Prof. Ivan Balducci FOSJC / Unesp
Correlação: Há um Relacionamento entre as variáveis? Elas vão juntas? Aumentando uma variável, então aumenta também a outra? Exº de variáveis X ... Horas de estudo Y ... Notas na Prova
Exemplo 1: Notas vs Horas de estudo Variável independente é o número de horas estudadas. A nota do aluno é a var. dependente. A nota do aluno depende do nº de horas que ele estuda? Essas variáveis se relacionam? 75 2 F 68 3 E 88 5 D 57 1 C 63 B 82 6 A Nota Horas estudadas Aluno
Diagrama de Dispersão Por convenção, a variável independente é considerada no eixo horizontal x. A dependente é considerada no eixo vertical y.
Exemplo de Diagrama de Dispersão Horas Notas 1 57 2 63 2 75 3 68 5 88 6 82 C1: Horas de Estudo ; C2: Notas dos Alunos
Correlação Positiva Linear y y y x x x (a) Positiva (b) Forte positiva (c) Perfeita positiva
Correlação Negativa Linear y y y x x x (d) Negative (e) Strong negative (f) Perfect negative
Correlação Não Linear y y x x (g) Nenhuma Correlação (h) Correlação Não linear
Exemplos Quanto à Intensidade do Relacionamento
Coeficiente Correlação Linear r Definição: Coeficiente Correlação Linear r Mede a força do relacionamento linear entre valores pareados x e y na amostra
Fórmula do Coeficiente de Correlação Linear nSxy – (Sx)(Sy) n(Sx2) – (Sx)2 n(Sy2) – (Sy)2 r = Calculadoras Científicas (estatística) podem calcular r
Notação: Coeficiente de Correlação Linear n número de pares de dados presentes. S soma. Sx soma de todos os valores de x. Sx2 indica que cada x deve ser elevado ao quadrado e então aqueles quadrados somados. (Sx)2 indica que x deve ser somado e o total é elevado ao quadrado. Sxy indica que cada x deve ser primeiro multiplicadopor seu correspondente y. Após obter todos os produtos, somamos. r coeficiente correlação linear para a amostra
Exemplo 2: Idade vs Pressão 23104 4900 10640 152 70 F 112443 20399 47634 819 345 Soma 19881 4489 9447 141 67 E 20449 3721 8723 143 61 D 18225 3136 7560 135 56 C 14400 2304 5760 120 48 B 16384 1849 5504 128 43 A BP2 age2 Age*BP Blood Pressure Age Aluno Dados de idade e pressão sanguínea. Calculamos: x, y, xy, x2 e y2.
Substituímos na fórmula e resolvemos para r: Exemplo 2: Cálculo de r Substituímos na fórmula e resolvemos para r: r= {(6*47634)-(345*819)}/{[(6*20399)-3452][(6*112443)-8192]}0.5. r= 0.897 = 0.90 aprox. O coeficiente de correlação sugere um relacionamento forte positivo entre a idade e a pressão sanguínea.
interpretação do “r” A correlação é 0.9 Há um relacionamento positivo e forte entre idade e pressão sanguínea
Propriedades de r 1. –1 £ r £ 1 2. Valor de r não muda se todos os valores de ambas variáveis mudam (são convertidos) para a diferentes escalas 3. Trocando todos os valores x e y não mudarão r 4. r mede a força de um relacionamento linear
Erros Comuns sobre Correlação 1. Evite concluir que uma correlação entre duas variáveis implica em causalidade. 2. Nenhum relacionamento linear não implica nenhum relacionamento. Há uma possibilidade de um relacionamento não linear.
A magnitude refere-se à força de associação entre x e y. Por exemplo: Correlação O que se pode dizer sobre a intensidade do relacionamento entre x e y ? A magnitude refere-se à força de associação entre x e y. Por exemplo: Correlação Interpretação r = 0.00 Não há relacionamento entre x e y r = 0.20 Baixo, relacionamento entre x e y r = 0.40 Moderado relacianamento entre x e y r = 0.70 Alto relacionamento entre x e y r = 1.00 Perfeita correspondência entre x e y
Quanto à direção da relação entre x e y ? Correlação Quanto à direção da relação entre x e y ? A direção se refere ao como os altos e baixos valores em x e y estão associados. Por exemplo: Positiva Negativa Nenhuma Correlação Correlação Correlação r = +1.0 r = -1.0 r = 0.00 y y y x x x
Regressão
É estabelecida uma equação: Y = a + bx Regressão Analisa o relacionamento entre uma dependente variável e uma independente variável. Tenta explicar o relacionamento por ajustar uma linha (relacionamento linear). É estabelecida uma equação: Y = a + bx independente dependente
Linha de Regressão e Equação de Regressão Regressão equação: Y = a + b.X Variável Dependente (Y) Inclinação = b Intercepto = a Variável Independente (X)
Modelo Regressão Linear Uma linha reta que melhor ajusta ou descreve os dados é dada pela equação: Y = a + bX a = é o intercepto em Y (valor de Y quando X = 0) b = é a inclinação da linha (taxa de mudança)
Exemplo 1: nº de Frangos vs Batata frita Predizer o consumo french fries em função do nº de frangos consumidos Jantar nº Frangos nº fries 1 1 15 2 3 30 3 7 40 4 2 29 5 4 35 6 3 32
Exemplo 1: nº de Frangos vs Batata frita
Exemplo 2: Relacionamento Altura e Teor da droga das folhas Y: variável Dependente – teor da droga X: variável Independente – altura da folha
Pode-se predizer o teor da droga a partir da posição da folha Equação de Regressão Pode-se predizer o teor da droga a partir da posição da folha teor da droga posição da folha variável Dependente Independente
Exemplo 2: Altura das folhas e o teor das drogas X: Altura (m) Y:Droga (mg/g folha seca) 1.3 81 1.9 65 2.4 61 2.6 69 3.0 77 3.7 44 4.1 45 4.3 46 4.9 39 5.6 49 6.2 31 6.8 28 7.0 46 7.4 31 8.6 38
Avaliação Gráfica Inicial Fazemos um gráfico para garantir que não estamos diante de algum relacionamento não linear
É Importante Traçar o Diagrama de Dispersão
Quarteto de Anscombe Em todos os 4 casos: Y =3+0,5X e rxy=0,816
Teor da droga versus Altura da folha Exemplo 2 É razoável considerar linear Droga ( mg/g) Altura (m)
Escolhendo a linha de melhor ajuste Desvio do ponto à linha
Teor (mg/g) = 79,3 - 6,30 x Altura (m) Equação de Regressão Exemplo 5 Teor (mg/g) = 79,3 - 6,30 x Altura (m) O sinal menos indica um negativo relacionamento entre concentração da droga e altura. A figura apresenta uma inclinação negativa
Predizendo o teor da droga Exemplo 2 Predizer a concentração da droga em uma folha situada a uma altura de 5 m da árvore … Teor = 79,3 - 6,30 x Altura = 79,3 - 6,30 x 5 = 79,3 - 31,5 = 47,8 Concentração Prevista da droga = 47,8 mg/g
Extrapolação Exemplo 2 Predizer o teor da droga em uma folha colhida a 15 m da árvore … Teor da droga = 79,3 - 6,30 x Altura = 79,3 - 6,30 x 15 = 79,3 - 94,5 = -15,2 mg/g !?!?! resultado sem sentido
Interpolação versus Extrapolação Exemplo 2 Extrapolação Interpolação Extrapolação
Interpolação vs Extrapolação A Interpolação, em geral, é muito segura. A Extrapolação só é válida quando pode-se garantir relacionamento linear além da região de observação. Exemplo 2 (os teores seriam negativos em qualquer folha acima de 12 m)
Termos que devem ser familiares Correlação baixa moderada forte Regressão Linear inclinação interpolação extrapolação Diagrama de dispersão