A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise Exploratória de Dados R – LIG/10. Objetivos  obter a tabela de contingência entre duas variáveis qualitativas;  calcular tabelas derivadas da.

Apresentações semelhantes


Apresentação em tema: "Análise Exploratória de Dados R – LIG/10. Objetivos  obter a tabela de contingência entre duas variáveis qualitativas;  calcular tabelas derivadas da."— Transcrição da apresentação:

1 Análise Exploratória de Dados R – LIG/10

2 Objetivos  obter a tabela de contingência entre duas variáveis qualitativas;  calcular tabelas derivadas da tabela de freqüências absolutas (distribuição conjunta, distribuições marginais-linha e coluna);  calcular (definir) medida de associação entre duas variáveis qualitativas. Análise de duas variáveis qualitativas:

3 Exemplo: pesquisa de mercado  Dados de telemarketing da AT&T (companhia de telefonia americana)  Fonte: James W. Watson (1986) (Splus).  Esta base de dados contém informação sobre 1000 domicílios (linhas). As 10 variáveis (colunas) incluem informações demográficas e informação específica sobre os serviços de telefonia no domicílio.

4 Exemplo (continuação)  Nome, descrição e código das variáveis:  1) cia – fator indicando se o domicílio usa os serviços de longa distância da companhia AT&T (ATT) ou de outras companhias (OCC).  2) renda – fator ordenado indicando o nível de renda do domicílio. Os níveis são: =75.

5 Nome, descrição e código das variáveis (cont.):  3) mudancas – fator ordenado indicando o número de vezes que o dono do domicílio mudou-se nos 10 anos precedentes. Os níveis são: 0, 1, 2, 3, 4, 5, 7 e 10.  4) idade – fator ordenado indicando a faixa etária do entrevistado. Os níveis são: 18-24, 25-34, 35-44, 45-54, 55-64, 65+.

6 Nome, descrição e código das variáveis (cont.):  5) instrucao – fator ordenado indicando o nível de escolaridade do entrevistado. Os níveis são: BA (Pós- graduação). 6) emprego – fator indicando o tipo de emprego do entrevistado. Os níveis são: F, P, R, S, H, U e D. 7) uso – vetor numérico fornecendo o uso médio mensal de telefone do domicílio.

7 Nome, descrição e código das variáveis (cont.):  8) nonpub – fator indicando se o domicílio possui um número de telefone não listado. 9) plano – fator indicando se o domicílio participou de um plano especial da AT&T, antes da atual política de serviços de telefonia. 10) cartao – fator indicando se o domicílio possuiu um serviço de cartão da AT&T, antes da atual política de serviços de telefonia.

8 Nome, descrição e código das variáveis (cont.):  Os níveis das variáveis nonpub, plano e cartao são Y(Sim), N(Não) e NA(Não disponível).  Os dados estão disponíveis no arquivo telemark.txt.  dados<- read.table(“m:\\aed\\telemark.txt”,header=T)

9 Atividade 1  Obter a tabela de dupla entrada das variáveis cia e plano.  Vimos que para obter os totais marginais das respostas por variável, podemos usar o comando table: > table(dados$cia) ATT OCC >table(dados$plano) N Y

10 Tabela de contingência  Para obter a tabela de dupla entrada, também usamos o comando table: table(dados$cia,dados$plano) N Y N Y ATT ATT OCC OCC Obs.: Dados não disponíveis não são levados em consideração.

11 Freqüências relativas  Para dispor as freqüências relativas em relação ao total, basta pedir round(table(dados$cia,dados$plano)/sum(table(dados$cia, dados$plano)),digits=3) N Y ATT OCC

12 Perfis-linha  Para obter a distribuição relativa ao total de cada linha, podemos definir uma matriz x com uma coluna e uma linha a mais que a tabela obtida, para representar a linha e a coluna de totais.  Neste exemplo, podemos definir x<-matrix(0,3,3) #x recebe uma matriz nula 3 por 3.

13 Perfis-linha (cont.)  x[1:2,1:2]<- table(dados$cia,dados$plano)  for (i in 1:2) {x[i,3]<-sum(x[i,])}  for (i in 1:2) {x[3,i]<-sum(x[,i])}  x[3,3]<-sum(x[1:2,1:2]) N Y total ATT OCC total

14 Perfis-linha  Para obter os perfis-linha, basta pedir pl<-x e  for (i in 1:3) {for (j in 1:3) { pl[i,j]<- pl[i,j]/pl[i,3]}}  round(pl,digits=2) N Y total ATT OCC Total

15 Comentário  Observe que independentemente da companhia, 94% não tinham o plano especial da AT&T e 6% tinham.  Quando olhamos por companhia temos 90% e 10% para a AT&T e 97% e 3% para outras companhias. N Y total ATT OCC Total

16 Atividade 2  Obtenha os perfis-coluna para estas variáveis.  pc<-x e  for (i in 1:3) {for (j in 1:3) { pc[j,i]<- pc[j,i]/pc[3,i]}}  round(pc,digits=2)

17 Perfis-coluna  N Y total  ATT  OCC  total  Percebe-se que o perfil-coluna de totais (51%- ATT e 49%-OCC) para as companhias é parecido com o perfil de quem não possuiu o tal plano (49%-ATT e 51%-OCC).  Mas, o perfil de totais é bem diferente do perfil de quem possuiu o plano (77%-ATT e 23%-OTT). Volta para exercícioVolta para exercício.

18 COMENTÁRIO  Desta última observação, podemos perceber que pode haver uma associação entre estas variáveis (cia e plano): o fato de ter possuído o plano da AT&T parece favorecer o domicílio a usar o serviço de longa distância da companhia AT&T(77%) e, caso contrário, não há prevalência da AT&T(49%).

19 Problema  Como quantificar a associação entre duas variáveis qualitativas?  Antes de responder esta pergunta, obtenha a tabela de contingência para cia e idade.  Depois, obtenha os perfis-linha e coluna da tabela obtida.

20 Companhia versus idade   ATT  OCC x<-matrix(0,3,7) x[1:2,1:6]<-table(dados$cia,dados$idade) for (i in 1:2) {x[i,7]<-sum(x[i,])} for (i in 1:7) {x[3,i]<-sum(x[,i])}

21 Companhia versus idade > x total ATT OCC total

22 Perfis-linha Distribuição das idades por companhia: pl<-x for (i in 1:7) {for (j in 1:3) {pl[j,i]<-pl[j,i]/pl[j,7]}} total ATT OCC total Obs.: Podemos perceber que, entre os clientes da AT&T, 54% estão entre os mais jovens, e entre os de outras companhias (OCC), 55% estão entre os mais velhos. Isto indica alguma associação entre estas variáveis.

23 Perfis-coluna  Distribuição marginal das companhias (ATT e OCC) por faixa de idade: total ATT OCC total pc<-x for (i in 1:3) {for (j in 1:7) {pc[i,j]<-pc[i,j]/pc[3,j]}}

24 Medida de associação  Se as duas variáveis em estudo são independentes, espera-se que a distribuição marginal de uma delas (sem discriminar por valores da outra) seja igual às distribuições condicionadas por valores da outra.  A partir desta idéia, podemos construir uma medida de associação entre duas variáveis qualitativas, conhecida como Qui-quadrado.

25 Exemplo: Suponha a seguinte tabela de contingência sexo Curso 1 Estatística Curso 2 Engenharia total Homens 40 (40%) 200 (67%) 240 (60%) Mulheres 60 (60%) 100 (33%) 160 (40%) total 100 (100%) 300 (100%) 400 (100%)

26 Curso versus sexo  Se sexo e matrículas nos cursos de Engenharia e Estatística fossem independentes, esperaria-se ter os seguintes perfis-coluna: sexoCurso 1 Estatística Curso 2 Engenharia total Homens60% Mulheres40% total100%

27 Valores esperados sob independência  Como são 100 alunos em Estatística e 300 alunos em Engenharia, (240 do sexo masculino e 160 do sexo feminino) esperaria-se, em caso de independência, ter a seguinte tabela de contingência: sexoCurso 1 Estatística Curso 2 Engenharia total Homens Mulheres total

28 sexoCurso 1 Estatística Curso 2 Engenharia total Homens Mulheres total Tabela com as freqüências observadas: sexoCurso 1 Estatística Curso 2 Engenharia total Homens Mulheres total Tabela com as freqüências esperadas no caso de não associação:

29 Qui-quadrado  O qui-quadrado é uma medida baseada na comparação entre os valores observados, que aqui denotaremos por o ij e os valores esperados que denotaremos por e ij.  Para cada célula da tabela de contingência calculamos:

30 Mulheres Homens totalCurso 2 Engenharia Curso 1 Estatística sexo total Tabela com as freqüências observadas: Mulheres Homens totalCurso 2 Engenharia Curso 1 Estatística sexo total Tabela com as freqüências esperadas no caso de não associação:

31 Qui-quadrado  O qui-quadrado é, então, onde l representa o número de categorias de resposta da primeira variável e c, representa o número de categorias de resposta da segunda variável.

32 Cálculo do qui-quadrado do exemplo dos estudantes de Estatística e Engenharia

33 Cálculo do Qui-quadrado usando o R  Há no R, uma função específica que calcula o qui-quadrado de uma tabela de contingência.  Interpretação: se a hipótese de não- associação entre as variáveis for verdadeira, o valor do qui-quadrado deve estar próximo de zero.  Quanto maior for o valor do qui- quadrado, mais forte é a associação entre as variáveis.

34 Cálculo do qui-quadrado usando o R  Suponha que x seja a matriz contendo os dados da tabela dos estudantes:  x<-matrix(0,2,2)  x[1,1]<-40  x[1,2]<-200  x[2,1]<-60  x[2,2]<-100

35 Cálculo do Qui-quadrado usando o R  Qui<-chisq.test(x,correct=F) Pearson's Chi-squared test data: x X-squared = (qui-quadrado), df = 1, (graus de liberdade) p-value = 2.428e-06 (P-valor) Pode ser usado como uma medida de avaliação da magnitude do qui-quadrado: - p-value<=0,05, indica que o qui-quadrado é grande, ou seja, indica uma possível associação entre as variáveis; -p-value>0,05, indica não associação ou associação fraca entre as variáveis. Notação científica: 0,

36 Comentários do exemplo  De acordo com o slide anterior, verifica-se que o Qui-quadrado obtido é alto, o que indica a presença de associação entre curso e sexo.  Mais ainda, pela análise das tabelas verificamos que essa associação ocorre de tal modo que no curso de Estatística a maioria (60%) dos estudantes tende a ser do sexo feminino e na Engenharia, a maioria (67%) tende a ser do sexo masculino.

37 Medidas derivadas do qui-quadrado  Pearson definiu uma medida de associação baseada no qui-quadrado e chamada de coeficiente de contingência, dado por: onde n é o tamanho da amostra.

38 Medidas derivadas do qui-quadrado  Interpreta-se o coeficiente de contingência de maneira análoga ao coeficiente de correlação.  Porém, o coeficiente de contingência não varia entre 0 e 1.  O valor máximo de C depende de l (número de categorias de resposta da primeira variável) e c (número de categorias de resposta da segunda variável).

39 Medidas derivadas do qui-quadrado  Outro coeficiente é dado por que pode atingir o máximo igual a 1, quando l=c.

40 Coeficientes para os dados do exemplo curso versus sexo  qui<  CP<-sqrt(qui/(qui+sum(x)))  CP  [1]  TC<-sqrt((qui/sum(x))/(1*1))  TC  [1]

41 Atividade 3:  Calcule o qui-quadrado, e os coeficientes C e T, das seguintes tabelas de contingência:  1) cia e plano;  2) cia e idade;  3) cia e cartao;  4) cia e nonpub;  5) cia e renda;  6) cia e instrucao;  7) cia e emprego.

42 3.1) cia versus plano x<-table(dados$cia,dados$plano) N Y ATT OCC chisq.test(table(dados$cia,dados$plano),correct=F) Pearson's Chi-squared test data: table(dados$cia, dados$plano) X-squared = , df = 1, p-value = 1.940e-05 qui< CP<-sqrt(qui/(qui+sum(x))) TC<-sqrt((qui/sum(x))/(1*1)) CP [1] TC [1]

43 Companhia versus plano  Como o valor de Qui-quadrado foi 18,2476, com um P-valor de 0, (bem menor do que 0,05), isso indica presença de associação entre as variáveis Companhia e Plano  Vimos que entre os que já participaram do plano, a maioria (77%) usa os serviços de longa distância da AT&T.  Entre os que não participaram do plano, a distribuição fica mais equilibrada, com 49% para AT&T e 51% para outras companhias. Ver tabelaVer tabela.

44 3.2) cia versus idade  x<-table(dados$cia,dados$idade)    ATT  OCC  chisq.test(table(dados$cia,dados$idade),correct=F)  Pearson's Chi-squared test  data: table(dados$cia, dados$idade)  X-squared = , df = 5, p-value =  > qui<  > CP<-sqrt(qui/(qui+sum(x)))  > TC<-sqrt((qui/sum(x))/(1*5))  > CP  [1]  > TC  [1]

45 3.3) cia versus cartao  x<-table(dados$cia,dados$cartao)  N Y  ATT  OCC  chisq.test(table(dados$cia,dados$cartao),correct=F)  Pearson's Chi-squared test with Yates' continuity correction  data: table(dados$cia, dados$cartao)  X-squared = , df = 1, p-value = 1.255e-05  > qui<  > CP<-sqrt(qui/(qui+sum(x)))  > TC<-sqrt((qui/sum(x))/(1*1))  > CP  [1]  > TC  [1]

46 3.4) cia versus nonpub  x<-table(dados$cia,dados$nonpub)  chisq.test(table(dados$cia,dados$nonpub),correct=F)  Pearson's Chi-squared test  data: table(dados$cia, dados$nonpub)  X-squared = , df = 1, p-value = 9.777e-05  > qui<  > x   N Y  ATT  OCC  > CP<-sqrt(qui/(qui+sum(x)))  > TC<-sqrt((qui/sum(x))/(1*1))  > CP  [1]  > TC  [1]

47 3.5 Companhia versus renda  chisq.test(table(dados$cia,dados$renda),correct=F )  Pearson's Chi-squared test  data: table(dados$cia, dados$renda)  Qui-quadrado = 11,1541,  df = 6,  P-valor = 0,08373 > 0,05  Logo, não parece haver associação entre companhia e renda.

48 3.6 Companhia e Instrução  chisq.test(table(dados$cia,dados$in strucao),correct=F)  Pearson's Chi-squared test  data: table(dados$cia, dados$instrucao)  Qui-quadrado = 28,623,  df = 5,  p-valor = 0,

49 3.7 Companhia e emprego  chisq.test(table(dados$cia,dados$e mprego),correct=F)  Pearson's Chi-squared test  data: table(dados$cia, dados$emprego)  Qui-quadrado = 13,4602,  df = 6,  p-valor = 0,03628


Carregar ppt "Análise Exploratória de Dados R – LIG/10. Objetivos  obter a tabela de contingência entre duas variáveis qualitativas;  calcular tabelas derivadas da."

Apresentações semelhantes


Anúncios Google