Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 6 Prof. Cristina Ortiz Valete Prof. Adjunta de Pediatria Doutora em Epidemiologia
Análise de variância-ANOVA ▫Quando precisamos comparar mais de dois grupos de médias, precisamos lançar mão de outros testes, ao invés de comparar cada grupo de pares pelo teste t. ▫Uma única análise pode olhar para todo o conjunto de dados-ANOVA one-way (um fator-os grupos) ou two-way (dois fatores-os grupos + outro fator) ▫Teste paramétrico
Sabemos que existe uma variabilidade entre indivíduos de um mesmo grupo mas em geral o que interessa é buscar diferença entre grupos A análise baseia-se no pressuposto que as amostras vem de uma população com distribuição próxima a normal e são independentes Faz-se a estimativa da variação dentro de cada grupo A hipótese nula é de que as amostras não são diferentes, ou seja, possuem a mesma média e variância Trabalhamos com tabelas de distribuição F
Após rodar a análise de variância, observamos a variação dos indivíduos “ao redor” da média do grupo. A média do grupo é o valor ajustado (fitted) e a diferença entre os valores observados e ajustados é chamada de resíduo. Devemos construir gráficos dos resíduos para observar o pressuposto de normalidade (homocedasticidade) Obs: se rodarmos uma análise de variância para dois grupos, será o mesmo que um teste t
A variabilidade total é medida pelo total da soma dos quadrados, que baseia-se na soma dos quadrados das diferenças das observações em relação a media Este total surge da soma das diferenças dentro dos grupos e entre os grupos. Cada soma dos quadrados é transformada em mean square (media dos quadrados) através da divisão pelos graus de liberdade
variaçãoGraus de liberdade Soma dos quadrados Mean squares Fpvalor Entre grupos 2 (3 grupos) (é a razão entre as mean squares) 0.04 Dentro grupos 19 (retira- se uma observação de cada grupo) total Exemplo de uma saída comentada: nivel de folato em três grupos de cardiopatas independentes submetidos a diferentes doses de óxido nitroso (oneway). Altman Desvio padrão dos resíduos Os grupos não precisam ter o mesmo n
Sob a hipótese nula de igualdade de variâncias, a razão das variâncias seria 1 e Ho= 1= 2= 3; Ha: pelo menos um dos grupos é diferente Como a razão foi de 3.71 (valor de F 2,19, 0.95 =3.52), dizemos que a variância observada entre os grupos é 3.71 vezes maior do que a esperada (se a hipótese nula fosse verdadeira) e que há diferença entre as médias pois 3.71>3.52) Comparando o valor 3.71 na tabela F com 2 e 19 graus de liberdade, achamos valor p<0.05
Existe também a análise de variância não paramétrica-Kruskal Wallis (extensão do Mann Whitney) Este, não trabalha com a distribuição F
Se há dois fatores de classificação, a análise é chamada ANOVA two-way Neste tipo de análise é necessário ter o mesmo n em cada grupo, portanto, não pode haver missings
sujeitoTempo (minutos)médiaSD (4.1) (3.4) (2.5) (8.0) (4.9) (2.8) (2.4) (2.4) (2.6) média (SD)(16.4)(17.8)(17.2)(16.5)(16.4) Exemplo: efeito do enalapril no batimento cardíaco em vários momentos Altman
Novamente, existe variabilidade, intra individuos (o 1 com ele mesmo em outros momentos-within subjects) e entre sujeitos (between) É uma extensão do teste t pareado...
variaçãoGraus de liberdade Soma dos quadrados Mean squares Fpvalor sujeitos (compara- se com 8 e 24 graus de liberdade) < (este é o resultado principal) tempos (compara- se com 3 e 24 graus de liberdade) resíduo total Neste caso, o valor de F será obtido pela divisão dos mean squares pela variância dos resíduos Hipótese nula rejeitada; há diferença da frequência cardíaca em duas horas
Trabalhamos então neste caso com ▫A média global ▫O efeito do paciente ▫O efeito do tempo ▫Erro aleatório normal de média zero e variância constante
A diferença entre os valores observados e o valor ajustado, chamamos de resíduos, conforme citado; devem ter média zero e variância constante Não há necessidade de haver distribuição normal no ANOVA two-way, mas os resíduos devem ter distribuição normal Chamada também de repeated measures ANOVA
Outro exemplo: medidas de PC fetais por quatro examinadores obs 1obs2obs3obs4 Feto Feto Feto
variaçaoGraus de liberdade Soma dos quadrados Mean squares Fpvalor fetos < observadores Fetos x obs (interação) resíduos total Como a interação feto-observador não foi significativa, refaz-se o modelo sem esta variável
Modelos de regressão ▫Linear-modelagem estatística da associação entre variáveis contínuas ▫Logística ▫Deve ser sempre observado o gráfico de dispersão entre as variáveis
Para construir modelos de regressão linear simples precisamos observar o diagrama de dispersão e o método dos mínimos quadrados Modelo de regressão simples ▫Uma amostra com n observações ▫Duas variáveis contínuas, X e Y ▫Queremos saber como os valores de Y mudam em média a medida que X assume valores diferentes ▫Existe uma função de regressão de Y (variável dependente) em X (variável independente)
O modelo de regressão linear simples supõe que E (Y X =x)= + x, com distribuição normal e variância constante e as observações são não- correlacionadas, ou, Y i =E (Y i X =x i ) + i = + x i + i Os estimadores e
O valor de deve ser interpretado como o valor esperado da variável dependente Y quando a variável X for igual a zero. Na prática isso muitas vezes não faz sentido (ex. peso ao nascer). Por isso, substitui-se o conjunto de valores centrados na média; é o acréscimo esperado quando X – X=0 é o acréscimo esperado na variável dependente Y quando o valor da variável independente X é acrescido de uma unidade; pode ser diminuição e são os coeficientes de regressão
Método dos mínimos quadrados ▫É um critério de estimação de , e 2 que consiste em minimizar a soma dos quadrados dos erros ▫A estimação dá origem a , e s 2 (erro quadratico médio) ▫Y i = + x i ▫A reta de regressão é definida na expressão acima e passa entre os n pontos do diagrama de dispersão e minimiza a soma dos quadrados das distâncias dos pontos a reta de mínimos quadrados
O estimador dos minimos quadrados é a razão entre a soma dos quadrados dos resíduos e o respectivo número de graus de liberdade A partir da reta de regressão pode-se obter as previsões e os erros de previsão (residuos) O teste de hipótese mais importante é o que estabelece a significância de , que é a inclinação da reta de regressão (Ho: =0; H1: 0)
Diagnóstico do modelo de regressão ▫Fundamental! ▫Exame gráfico dos resíduos- não deve mostrar padrão definido
Resíduos x previsões
Na regressão linear múltipla são introduzidas n variáveis explicativas O estimador dos mínimos quadrados neste caso é obtido em notação matricial Ho: i =0 Ha: i 0 A estatística do teste é a razão t ou de Wald A ANOVA desempenha papel importante nos modelos lineares A soma dos quadrados das respostas (pela média-SQT) é igual a soma dos quadrados dos resíduos (SQE) mais a soma dos quadrados das previsões (do modelo-SQR) Para cada um dos parâmetros do modelo
Quanto menor SQE, melhor o modelo R 2 =SQR quanto maior, melhor SQT R 2 ajustado: quanto maior o numero de variaveis explicativas, maior será o R 2. Por isso, o consideramos quando há muitos parâmetros R 2 ajustado= 1 – (1 - R 2 ) n-1 n-p
Yi= 0 + 1 x 1 + 2 x i Faça sempre a regressão linear simples isolada de cada variável e depois rode o conjunto. Muitas variáveis significativas isoladamente, deixam de ser em conjunto (isso ocorre quando há multicolinearidade-as (variáveis possuem relações lineares). A matriz de correlação de Pearson pode sugerir associações prévias.
Seleção do melhor modelo ▫Pela análise dos resíduos (graficos var x resíduos studentizados e Q-Q plot ou gráfico de probabilidade normal) ▫Pela parcimônia (o menor número de parâmetros com maior poder de explicação) ▫Pelo R 2 ajustado (quanto maior, melhor)
Procedimentos em modelos de regressão ▫Stepwise forward-o modelo começa a ser construído pela variável mais significativa e daí por diante ▫Stepwise backward-o modelo é construído excluindo-se a variável independente de menor poder explicativo ▫O procedimento se encerra quando todas as variaveis incluidas são significativas de acordo com o estabelecido