A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

UNIDADE : MEDIDADS DE ASSOCIAÇÃO E CORRELAÇÃO

Apresentações semelhantes


Apresentação em tema: "UNIDADE : MEDIDADS DE ASSOCIAÇÃO E CORRELAÇÃO"— Transcrição da apresentação:

1

2 UNIDADE : MEDIDADS DE ASSOCIAÇÃO E CORRELAÇÃO
ROTEIRO Análise bivariada Medidas de associação Correlação Regressão

3 ANÁLISE BIVARIADA A Análise Estatística Bivariada permite a análise simultânea de duas variáveis. Permite estabelecer relações entre variáveis, isto é, determinar se as diferenças entre a distribuição de duas variáveis são estatisticamente significativas. São possíveis vários testes estatísticos, cuja escolha adequada depende muito do tipo de variáveis que o investigador está a trabalhar.

4 ANÁLISE BIVARIADA Se as variáveis são de natureza ordinal ou nominal e os valores se referem ao número ou frequência de casos que se situam em cada categoria (o que é muito comum em Sociologia) é possível efectuar tabelas de contingência ou cruzadas (comando Crosstabs). Nas tabelas de contingência podem cruzar-se variáveis pertencentes ao mesmo fenómeno, de modo a perceber as características mais importantes que o compõem, ou cruzar-se variáveis pertencentes a fenómenos diferentes, de forma a verificar a existência de relações de dependência.

5

6 ANÁLISE BIVARIADA Quando consideramos duas variáveis (ou dois conjuntos de dados) podemos ter três situações: as duas variáveis são qualitativas as duas variáveis são quantitativas uma variável é qualitativa e a outra é quantitativa

7 Variáveis qualitativas
Para ilustrar o tipo de análise: Tabela 4.2 – Grau de instrução por região de procedência dos trabalhadores da MB, São Paulo, 2000 Y Ensino V Fundamental Médio Superior Total Capital 4 5 2 11 Interior 3 7 12 Outra 6 13 18 36 Fonte: em relação ao total geral; em relação ao total de cada linha; ou em relação ao total de cada coluna.

8 Tabela 4.3 – Distribuição % em relação ao total geral das variáveis
Y Ensino V Fundamental Médio Superior Total Capital 11.1 13.9 5.6 30.6 Interior 8.3 19.4 33.3 Outra 16.7 36.1 50.0 100.0 11% dos empregados vêm da Capital e tem o ensino fundamental Fonte: Tabela 4.2 Tabela 4.4 – Distribuição % em relação aos totais de c/coluna das variáveis Entre os empregados com nível de instrução até o ensino fundamental 33% vem da capital. Y Ensino V Fundamental Médio Superior Total Capital 33.3 27.8 30.6 Interior 25.0 38.9 Outra 41.7 36.1 100.0 Fonte: Tabela 4.2

9 ASSOCIAÇÃO VARIÁVEIS QUALITATIVAS
Queremos verificar se existe ou não associação entre sexo e a carreira Escolhida por 200 alunos de Econômica e Administração. 200 60 140 Total 80 25 55 Administração 120 35 85 Economia Feminino Masculino Tabela 4.5 – Carreira escolhida pelos alunos segundo sexo Fonte: Dados hipoteticos... 100.0 Total 40.0 41.7 39.3 Administração 60.0 58.3 60.7 Economia Feminino Masculino Tabela 4.6 – Carreira escolhida pelos alunos segundo sexo Fonte: Tabela 4.5 Observando a Tabela 4.6, vemos que as proporções do sexo masculino e do sexo feminino são próximas das marginais Esses resultados parecem indicar não haver dependência entre as duas variáveis, para o conjunto de alunos considerados. Concluímos então que, neste caso, as variáveis sexo e escolha do curso parecem não associadas

10 Portanto, neste caso, as variáveis sexo e curso escolhido parecem ser
Um outro problema semelhante, envolvendo alunos da Física e Ciências Sociais 200 60 140 Total 80 40 C. Sociais 120 20 100 Física Feminino Masculino Tabela 4.7 – Distribuição freqüências segundo sexo e curso escolhido Fonte: Dados hipotéticos... 100.0 Total 40.0 66.7 28.6 C. Sociais 60.0 33.3 71.4 Física Feminino Masculino Tabela 4.8 – Distribuição % segundo sexo e curso escolhido Comparando a distribuição das proporções pelos cursos, independentemente do sexo , com as distribuições diferenciadas por sexo, observamos uma disparidade bem acentuada nas proporções. Parece, haver maior concentração de homens no curso de Física e de mulheres no de Ciências sociais. Portanto, neste caso, as variáveis sexo e curso escolhido parecem ser associadas. Fonte: Tabela 4.7

11 Quando existe associação entre variáveis, sempre é importante quantificar essa associação, e isso será objeto da próxima seção. - Como medir o grau de associação descrita pelos dados amostrais? (Coeficientes de associação) - Como testar se existe associação entre duas variáveis qualitativas? (Teste de associação qui-quadrado)

12 Comparação entre amostras
Comparação entre amostras em que a variável-resposta é qualitativa (categórica). Exemplo: comparação entre amostras de homens e de mulheres quanto ao tabagismo (fumante ou não-fumante) Como testar, com base em amostras, se as populações que geraram as amostras têm a mesma distribuição de probabilidades em termos das categorias da variável-resposta? (Teste de homogeneidade qui-quadrado)

13 Medidas de associação entre variáveis qualitativas
A quantificação do grau de associação entre duas variáveis é feita pelo chamado coeficiente de associação ou correlação São medidas que descrevem por um único número, a associação (ou dependência) entre duas variáveis. Para maior facilidade de compreensão, esses coeficientes usualmente variam: entre 0 e 1, ou entre -1 e +1, e a proximidade de zero indica falta de associação.

14 Análise de associação Existem muitas medidas que quantificam a associação entre variáveis qualitativas, apresentaremos duas delas: - Coeficiente de contingência (C) - Coeficiente de contingência modificado (C*)

15 Análise de associação Existe associação entre duas variáveis se o conhecimento de uma altera a probabilidade de algum resultado da outra. Exemplo: Queremos verificar se a criação de determinado tipo de cooperativa esta associada com algum fator regional. - Como medir o grau de associação descrita pelos dados amostrais? (Coeficientes de associação)

16 Tabela 4.8-Cooperativas autorizadas a funcionar por tipo e estado, 1974
Tipo de Cooperativa Fonte: BUSSAB, MORETI Fonte: Tabela 4.8

17 Cooperativas autorizadas a funcionar por tipo e estado, 1974
Tipo de Cooperativa Onde: O calculo das freqüências esperadas pode ser feita da seguinte forma e aplicado a cada célula Valores observados Valores esperados

18 Tabela 4.8-Cooperativas autorizadas a funcionar por tipo e estado, 1974
Tipo de Cooperativa Fonte: BUSSAB, MORETI VALORES ESPERADOS

19 Tabela 4.8-Cooperativas autorizadas a funcionar por tipo e estado, 1974
Tipo de Cooperativa OBSERVADOS ESPERADOS DESVIOS

20 Observando esta Tabela podemos tirar algumas conclusões:
DESVIOS Observando esta Tabela podemos tirar algumas conclusões: A soma total dos resíduos é nulo. ii) A casela Escola – São Paulo é a que apresenta o maior desvio da suposição de não associação (-65). Nessa casela esperávamos 143 casos. A casela Escola – Paraná também tem um desvio alto (59), mas o valor esperado é bem menor (67) Por tanto, se fossemos considerar os desvios relativos, aquele correspondente ao segundo caso seria bem maior. Uma maneira de observar esse fato é construir, para cada casela o X2

21 Observando esta Tabela podemos tirar algumas conclusões:
DESVIOS Observando esta Tabela podemos tirar algumas conclusões: A soma total dos resíduos é nulo. ii) A casela Escola – São Paulo é a que apresenta o maior desvio da suposição de não associação (-65). Nessa casela esperávamos 143 casos. A casela Escola – Paraná também tem um desvio alto (59), mas o valor esperado é bem menor (67) Por tanto, se fôsemos considerar os desvios relativos, aquele correspondente ao segundo caso seria bem maior. Uma maneira de observar esse fato é construir, para cada casela o X2

22 Quando as variáveis são independentes, as freqüências observadas tedem a ficar perto das freqüências esperadas: - neste caso o X2 deve ser pequeno, sinal que as variáveis podem ser independentes Quando as variáveis são dependentes, as freqüências observadas tedem a ficar longe das freqüências esperadas: - neste caso o X2 deve ser grande, sinal que entre as duas variáveis deve haver associação

23 Medidas de associação Um coeficiente de associação descreve, em termos das amostras observadas, o quanto os dados de duas variáveis se mostram associados. É uma medida descritiva da(s) amostra(s). Em geral, os coeficientes geram valores entre 0 (independência) e 1 (associação perfeita)

24 Coeficiente de contingência

25 Coeficiente de contingência modificado
onde k é o menor valor entre  (número de linhas da tabela) e c (número de colunas da tabela).

26 Exemplo: coeficiente de contingência modificado
 Independência!  Associação perfeita!

27

28

29 B1 B2 ... Bj Bs Total A1 n11 n12 n1j n1s n1. A2 n21 n22 n2j n2s n2. . Ai ni1 ni2 nij nis ni. Ar nr1 nr2 nrj nrs nr. n.1 n.2 n.j n.s n..

30 ROTEIRO Análise bivariada Medidas de associação Correlação Regressão
UNIDADE VIII: CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES ROTEIRO Análise bivariada Medidas de associação Correlação Regressão

31 Quando existe associação entre variáveis, sempre é importante quantificar essa associação,
- Como medir o grau de associação descrita pelos dados amostrais? (Coeficientes de associação) - Como testar se existe associação entre duas variáveis qualitativas? (Teste de associação qui-quadrado)

32 ANÁLISE BIVARIADA Quando consideramos duas variáveis (ou dois conjuntos de dados) podemos ter três situações: as duas variáveis são qualitativas as duas variáveis são quantitativa uma variável é qualitativa e a outra é quantitativa

33 Teste de associação qui-quadrado (equivalente ao teste de homogeneidade qui-quadrado)
Exemplo Num estudo exploratório está se examinando a recuperação funcional de pacientes submetidos a um certo ato cirúrgico, em 5 hospitais de uma cidade. Os hospitais A, B, C e D são hospitais comuns, enquanto que o Hospital E é um hospital de referencia, o qual recebe os casos mais graves. Hipóteses: H0 = os hospitais não são diferentes em quanto a à recuperação funcional de seus pacientes. H1 = os hospitais são diferentes em quanto a à recuperação funcional de seus pacientes.

34 Rec. Funcional A B C D E Total Nenhuma 13 5 8 21 43 90 Parcial 18 10
Tabela 1 – Recuperação funcional de pacientes segundo tipo de hospital Rec. Funcional A B C D E Total Nenhuma 13 5 8 21 43 90 Parcial 18 10 36 56 29 149 Completa 16 35 51 128 47 31 79 82 367 Hospitais Fonte: Barbeta, P.A., 2007 ou Onde: Freqüências observadas Freqüências esperadas niij= Freqüências observadas niij *= Freqüências esperadas

35 Tabela 1 – Recuperação funcional de pacientes segundo tipo de hospital
OBSERVADOS Tabela 2

36 Tabela 1 – Recuperação funcional de pacientes segundo tipo de hospital
O calculo das freqüências esperadas pode ser feita da seguinte forma e aplicado a cada célula F. OBSERVADOS Tabela 1 – Recuperação funcional de pacientes segundo tipo de hospital F.. ESPERADOS

37 Tabela 1 – Recuperação funcional de pacientes segundo tipo de hospital
OBSERVADOS Tabela 3 ESPERADOS =

38 Tabela 1 – Recuperação funcional de pacientes segundo tipo de hospital
OBSERVADOS Tabela 2 Tabela 3 ESPERADOS Tabela 4 DESVIOS

39 Quando as variáveis são independentes, as freqüências observadas tedem a ficar perto das freqüências esperadas: = Quando as variáveis são dependentes, as freqüências observadas tedem a ficar longe das freqüências esperadas: - neste caso o X2 deve ser grande, sinal que entre as duas variáveis deve haver associação

40 Exemplo: coeficiente de contingência modificado
Vamos medir o grau de associação entre HOSPITAL e RECUPERAÇÃO FUNCIONAL DE PACIENTES, classificados numa tabela 3x5. Assim: k = 3 ; X2 =56,7 ; N=367  Associação moderada

41 Quando existe associação entre variáveis, sempre é importante quantificar essa associação, e isso será objeto da próxima seção. - Como medir o grau de associação descrita pelos dados amostrais? (Coeficientes de associação) - Como testar se existe associação entre duas variáveis qualitativas? (Teste de associação qui-quadrado)

42 Distribuição de referência
Precisamos de uma distribuição de referencia, que permita julgar se um determinado valor do 2 pode ser considerado grande ou suficiente para rejeitar H0, em favor de H1. Suposições para usar a chamada distribuição qui-quadrado com referencia: os dados estejam dispostos numa tabela de contingência; as amostras sejam grandes. Supondo H0 verdadeiro e as condições 1 e 2, então os possíveis valores da estatística 2 seguem a chamada distribuição qui-quadrado com graus de liberdade, onde l é o número de linhas e c é o número de colunas da tabela.

43 Valor-p Nosso exemplo uma variável tem tres categorias e a outra tem 5 categorias, logo: Pela Tabela de distribuiççao Qui-Quadrado verificamos que a parobabilidade de significancia p é inferior a 0,001. Então, para qualquer nivel usual de significancia (por ex. alfa = 0,05), o teste detecta associação entre recuperação funcional de pacientes e hospital (pois p < alfa). Em outras palavras o teste mostrou que os hospitais em estudo são diferentes quando à recuperação funcional de seus pacientes.

44 MODELO PARA GESTÃO DO RISCO NAS PROPOSTAS DE SEGURO DE AUTOMÓVEL
Teste de associação qui-quadrado (equivalente ao teste de homogeneidade qui-quadrado) MODELO PARA GESTÃO DO RISCO NAS PROPOSTAS DE SEGURO DE AUTOMÓVEL Exemplo 2 Hipóteses: H0 = a ocorrência de sinistro não esta relacionada com o nível de educação dos segurados.. H1 = a ocorrência de sinistro esta relacionada com o nível de educação dos segurados

45 Fonte: Schott, et al., 2009, com base dados...
OBSERVADOS Tabela 2 – Ocorrência de sinistro segundo escolaridade do segurado, Brasil Analf. Fund. Médio Superior Mestrado Doutor Total sinistro 22 571 1179 975 15 2 2764 não sinist 127 3526 7288 7117 176 26 18260 total 149 4097 8467 8092 191 28 21024 Fonte: Schott, et al., 2009, com base dados... Analf. Fund. Médio Superior Mestrado Doutor Total sinistro 14,7651 13,93703 13,92465 12,04894 7,853403 7,142857 13,14688 não sinist 85,2349 86,06297 86,07535 87,95106 92,1466 92,85714 86,85312 total 100 19,58885 538,6277 1113,146 1063,846 25,11054 3,681126 2764 129,4111 3558,372 7353,854 7028,154 165,8895 24,31887 18260 149 4097 8467 8092 191 28 21024 2,411149 32,37234 65,85369 -88,8455 -10,1105 -1,68113 -2,41115 -32,3723 -65,8537 88,84551 10,11054 1,681126 ESPERADOS DESVIOS >> Análise rápida para ganhar tempo << 45

46 ESTUDO DA OCORRÊNCIA DE SINISTRO
TESTE QUI-QUADRADO - SEGUNDO: ESCOLARIDADE Analf. Fund. Médio Superior Mestrado Doutor sinistro 0,296783 1,945626 3,895902 7,419803 4,070921 0,76775 não sinist 0,044924 0,294508 0,589719 1,123129 0,616212 0,116214 X^2 21,18149 >> Análise rápida para ganhar tempo << 46

47 Distribuição de referência
Precisamos de uma distribuição de referencia, que permita julgar se um determinado valor do 2 pode ser considerado grande ou suficiente para rejeitar H0, em favor de H1. Suposições para usar a chamada distribuição qui-quadrado com referencia: os dados estejam dispostos numa tabela de contingência; as amostras sejam grandes. Supondo H0 verdadeiro e as condições 1 e 2, então os possiveis valores da estatística 2 seguem a chamada distribuição qui-quadrado com graus de liberdade, onde l é o número de linhas e c é o número de colunas da tabela.

48 ESTUDO DA OCORRÊNCIA DE SINISTRO
TESTE QUI-QUADRADO - SEGUNDO: ESCOLARIDADE Analf. Fund. Médio Superior Mestrado Doutor sinistro 0,296783 1,945626 3,895902 7,419803 4,070921 0,76775 não sinist 0,044924 0,294508 0,589719 1,123129 0,616212 0,116214 X^2 21,18149 >> Análise rápida para ganhar tempo << 48

49 Correlação


Carregar ppt "UNIDADE : MEDIDADS DE ASSOCIAÇÃO E CORRELAÇÃO"

Apresentações semelhantes


Anúncios Google