ANÁLISE DE VARIÂNCIA MULTIVARIADA - MANOVA Outubro de 2008
OBJETIVOS DA AULA Usar o R para realizar análises de variância univariadas (aov) e multivariadas (manova). Realizar comparações simultâneas no caso de rejeição da hipótese nula de ausência de efeito de tratamento.
EXEMPLO 1 Para começar vamos trabalhar com a base de dados milk.txt. Descrição dos dados: as unidades de observação referem-se a caminhões de transporte de leite e os dados observados são custos (combustível, consertos, capital) associados ao veículo. O fator refere-se ao tipo de combustível que pode ser gasolina ou diesel.
Dados de transporte de leite Primeiro, é necessário verificar se as suposições básicas do modelo são plausíveis: normalidade e variância constante. milk=read.table(http://www.im.ufrj.br/~flavia/mad484/milk.txt,header=T) Para isso vamos usar as funções Shapiro.test (verifica a normalidade dos dados) e var.test (realiza um teste de comparação das variâncias nos dois tipos de combustível).
Dados de transporte de leite Verificadas as suposições básicas, estamos prontos para realizar a análise de variância univariada para verificar a hipótese de não haver diferença nas médias de custo de combustível. comb=aov(milk$x1~milk$comb)
TABELA ANOVA PARA CUSTO DE COMBUSTÍVEL summary(comb) g.l. SQ QM F p-valor tratamento 1 19,96 19,96 2,7874 0,1007 resíduos 55 393,80 7,16 Total 56 413,76 Portanto, não rejeitamos a hipótese nula de igualdade entre os custos médios de combustível.
Análise de variância do custo sobre consertos cons=aov(milk$x2~milk$comb) summary(cons) g.l. SQ QM F p-valor tratamento 1 134,34 134.34 7,1096 0.01005 * resíduos 55 1039,26 18.90 Portanto, ao nível de significância de 5%, rejeitamos a hipótese nula de igualdade entre as médias de custo de conserto para os dois tipos de caminhão.
Análise de variância do custo sobre capital cap=aov(milk$x3~milk$comb) summary(cap) gl SQ QM F p-valor Tratamento 1 1016,25 1016,25 39,307 5.885e-08 Residuals 55 1421,98 25,85 Portanto, para esse custo também rejeitamos a hipótese nula.
Análise de variância multivariada Agora vamos realizar a análise de variância multivariada. Observe que aqui também é necessário verificar as suposições básicas do modelo, a saber, normalidade, variância igual e independência entre as diferentes observações. Será necessário carregar o pacote stats do R.
ESTATÍSTICAS PARA TESTAR A HIPÓTESE DE AUSÊNCIA DE EFEITO DE TRATAMENTO Vimos em aula a estatística lambda de Wilks dada pela razão entre os determinantes da matriz de somas de quadrados e produtos cruzados devida aos resíduos sobre o determinante da matriz de somas de quadrados e produtos cruzados da variação total. Quanto menor for o valor dessa estatística, maior a evidência a favor da hipótese nula de ausência de efeito de tratamento.
Estatística de Hotelling-Lawley: Estatística de Pillai: ESTATÍSTICAS PARA TESTAR A HIPÓTESE DE AUSÊNCIA DE EFEITO DE TRATAMENTO Outras estatísticas usadas para esse teste são baseadas nos auto-valores da matriz Sejam Estatística de Hotelling-Lawley: Estatística de Pillai: Estatística de Roy: os respectivos auto-valores
ESTATÍSTICAS PARA TESTAR A HIPÓTESE DE AUSÊNCIA DE EFEITO DE TRATAMENTO O R calcula todas essas estatísticas. Voltando aos dados de transporte de leite, suponha que após análise inicial, as suposições básicas do modelo tenham sido consideradas adequadas (normalidade, variâncias iguais e independência das observações).
MANOVA Após carregar o pacote stats, defina o vetor-resposta Y de dimensão 3 por: Y=cbind(milk$x1,milk$x2,milk$x3) Defina o fator combustível por classe=milk$comb Faça então: geral=manova(Y~classe) geral2=summary.manova(geral)
Call: manova(Y ~ classe) Terms: classe Residuals resp 1 19.9576 393.7967 resp 2 134.3407 1039.2641 resp 3 1016.249 1421.979 Deg. of Freedom 1 55 Residual standard error: 2.675806 4.34692 5.084699 geral2$SS $classe [,1] [,2] [,3] [1,] 19.95757 -51.77947 -142.4144 [2,] -51.77947 134.34071 369.4910 [3,] -142.41438 369.49102 1016.2490 $Residuals [1,] 393.7967 186.8572 157.6213 [2,] 186.8572 1039.2641 311.6113 [3,] 157.6213 311.6113 1421.9791
geralW=summary.manova(geral,test="Wilks") geralP=summary.manova(geral,test="Pillai") geralR=summary.manova(geral,test="Roy") geralHL=summary.manova(geral,test="Hotelling-Lawley") Df Wilks approx F num Df den Df Pr(>F) classe 1 0.5122 16.8262 3 53 8.358e-08 *** Df Pillai approx F num Df den Df Pr(>F) classe 1 0.4878 16.8262 3 53 8.358e-08 *** Df Roy approx F num Df den Df Pr(>F) classe 1 0.9524 16.8262 3 53 8.358e-08 *** Df Hotelling-Lawley approx F num Df den Df Pr(>F) classe 1 0.9524 16.8262 3 53 8.358e-08 *** Residuals 55 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Resultado Verifica-se então que os dados não trazem evidência a favor da hipótese nula, de modo que rejeita-se H0.
Comparações Múltiplas Quando a hipótese de ausência de efeito de tratamento é rejeitada, os efeitos que levaram à rejeição da hipótese são de interesse. Para comparações duas a duas, a abordagem de Bonferroni pode ser usada para construir intervalos simultâneos de confiança para as diferenças dos efeitos de tratamento tomados dois a dois. Esses intervalos serão mais estreitos que os intervalos simultâneos T2 obtidos para todos os contrastes.
MODELO
No exemplo de transporte de leite, a hipótese nula foi rejeitada. Obtenha os intervalos de confiança de Bonferroni. Observe que como k=2 e p=3, teremos ao todo 3 contrastes a serem analisados, referindo-se às diferenças nas médias de cada uma das três componentes.
Como exercício obtenha os três intervalos e tire Suas conclusões.
Como segunda atividade vamos analisar os dados crabs sobre medidas morfológicas de duas espécies de caranguejos. Será necessário carregar o pacote MASS para obter os dados.