A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 6 Prof. Cristina Ortiz Valete.

Apresentações semelhantes


Apresentação em tema: "Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 6 Prof. Cristina Ortiz Valete."— Transcrição da apresentação:

1 Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 6 Prof. Cristina Ortiz Valete Prof. Adjunta de Pediatria Doutora em Epidemiologia

2 Análise de variância-ANOVA ▫Quando precisamos comparar mais de dois grupos de médias, precisamos lançar mão de outros testes, ao invés de comparar cada grupo de pares pelo teste t. ▫Uma única análise pode olhar para todo o conjunto de dados-ANOVA one-way (um fator-os grupos) ou two-way (dois fatores-os grupos + outro fator) ▫Teste paramétrico

3 Sabemos que existe uma variabilidade entre indivíduos de um mesmo grupo mas em geral o que interessa é buscar diferença entre grupos A análise baseia-se no pressuposto que as amostras vem de uma população com distribuição próxima a normal e são independentes Faz-se a estimativa da variação dentro de cada grupo A hipótese nula é de que as amostras não são diferentes, ou seja, possuem a mesma média e variância Trabalhamos com tabelas de distribuição F

4 Após rodar a análise de variância, observamos a variação dos indivíduos “ao redor” da média do grupo. A média do grupo é o valor ajustado (fitted) e a diferença entre os valores observados e ajustados é chamada de resíduo. Devemos construir gráficos dos resíduos para observar o pressuposto de normalidade (homocedasticidade) Obs: se rodarmos uma análise de variância para dois grupos, será o mesmo que um teste t

5 A variabilidade total é medida pelo total da soma dos quadrados, que baseia-se na soma dos quadrados das diferenças das observações em relação a media Este total surge da soma das diferenças dentro dos grupos e entre os grupos. Cada soma dos quadrados é transformada em mean square (media dos quadrados) através da divisão pelos graus de liberdade

6 variaçãoGraus de liberdade Soma dos quadrados Mean squares Fpvalor Entre grupos 2 (3 grupos) 15 515.887757.93.71 (é a razão entre as mean squares) 0.04 Dentro grupos 19 (retira- se uma observação de cada grupo) 39 716.092090.3 total2155 231.97 Exemplo de uma saída comentada: nivel de folato em três grupos de cardiopatas independentes submetidos a diferentes doses de óxido nitroso (oneway). Altman Desvio padrão dos resíduos Os grupos não precisam ter o mesmo n

7 Sob a hipótese nula de igualdade de variâncias, a razão das variâncias seria 1 e Ho=  1=  2=  3; Ha: pelo menos um dos grupos é diferente Como a razão foi de 3.71 (valor de F 2,19, 0.95 =3.52), dizemos que a variância observada entre os grupos é 3.71 vezes maior do que a esperada (se a hipótese nula fosse verdadeira) e que há diferença entre as médias pois 3.71>3.52) Comparando o valor 3.71 na tabela F com 2 e 19 graus de liberdade, achamos valor p<0.05

8 Existe também a análise de variância não paramétrica-Kruskal Wallis (extensão do Mann Whitney) Este, não trabalha com a distribuição F

9 Se há dois fatores de classificação, a análise é chamada ANOVA two-way Neste tipo de análise é necessário ter o mesmo n em cada grupo, portanto, não pode haver missings

10 sujeitoTempo (minutos)médiaSD 03060120 19692869291.50(4.1) 2110106108114109.50(3.4) 38986858385.75(2.5) 49578 8383.50(8.0) 5128124118 122.00(4.9) 6100981009498.00(2.8) 77268677169.50(2.4) 8797574 75.50(2.4) 9100106104102103.00(2.6) média96.5692.5691.1192.3393.14 (SD)(16.4)(17.8)(17.2)(16.5)(16.4) Exemplo: efeito do enalapril no batimento cardíaco em vários momentos Altman

11 Novamente, existe variabilidade, intra individuos (o 1 com ele mesmo em outros momentos-within subjects) e entre sujeitos (between) É uma extensão do teste t pareado...

12 variaçãoGraus de liberdade Soma dos quadrados Mean squares Fpvalor sujeitos 88966.5561120.81990.6 (compara- se com 8 e 24 graus de liberdade) <0.0001 (este é o resultado principal) tempos 3150.97250.3244.07 (compara- se com 3 e 24 graus de liberdade) 0.018 resíduo 24296.77812.366 total 359414.306 Neste caso, o valor de F será obtido pela divisão dos mean squares pela variância dos resíduos Hipótese nula rejeitada; há diferença da frequência cardíaca em duas horas

13 Trabalhamos então neste caso com ▫A média global ▫O efeito do paciente ▫O efeito do tempo ▫Erro aleatório normal de média zero e variância constante

14 A diferença entre os valores observados e o valor ajustado, chamamos de resíduos, conforme citado; devem ter média zero e variância constante Não há necessidade de haver distribuição normal no ANOVA two-way, mas os resíduos devem ter distribuição normal Chamada também de repeated measures ANOVA

15 Outro exemplo: medidas de PC fetais por quatro examinadores obs 1obs2obs3obs4 Feto 114.313.613.913.8 14.013.613.714.7 14.813.8 13.9 Feto 219.719.819.519.8 19.919.319.819.6 19.8 19.519.8 Feto 313.012.412.813.0 12.612.812.712.9 12.5 13.8

16 variaçaoGraus de liberdade Soma dos quadrados Mean squares Fpvalor fetos2324.009162.0042103<0.0001 observadores31.1990.4005.190.006 Fetos x obs (interação) 60.5620.0941.220.33 resíduos241.8400.077 total35327.610 Como a interação feto-observador não foi significativa, refaz-se o modelo sem esta variável

17 Modelos de regressão ▫Linear-modelagem estatística da associação entre variáveis contínuas ▫Logística ▫Deve ser sempre observado o gráfico de dispersão entre as variáveis

18 Para construir modelos de regressão linear simples precisamos observar o diagrama de dispersão e o método dos mínimos quadrados Modelo de regressão simples ▫Uma amostra com n observações ▫Duas variáveis contínuas, X e Y ▫Queremos saber como os valores de Y mudam em média a medida que X assume valores diferentes ▫Existe uma função de regressão de Y (variável dependente) em X (variável independente)

19 O modelo de regressão linear simples supõe que E (Y  X =x)=  +  x, com distribuição normal e variância constante e as observações são não- correlacionadas, ou, Y i =E (Y i  X =x i ) +  i =  +  x i +  i Os estimadores  e 

20 O valor de  deve ser interpretado como o valor esperado da variável dependente Y quando a variável X for igual a zero. Na prática isso muitas vezes não faz sentido (ex. peso ao nascer). Por isso, substitui-se o conjunto de valores centrados na média;  é o acréscimo esperado quando X – X=0  é o acréscimo esperado na variável dependente Y quando o valor da variável independente X é acrescido de uma unidade; pode ser diminuição  e  são os coeficientes de regressão

21 Método dos mínimos quadrados ▫É um critério de estimação de ,  e  2 que consiste em minimizar a soma dos quadrados dos erros ▫A estimação dá origem a ,  e s 2 (erro quadratico médio) ▫Y i =  +  x i ▫A reta de regressão é definida na expressão acima e passa entre os n pontos do diagrama de dispersão e minimiza a soma dos quadrados das distâncias dos pontos a reta de mínimos quadrados

22 O estimador dos minimos quadrados é a razão entre a soma dos quadrados dos resíduos e o respectivo número de graus de liberdade A partir da reta de regressão pode-se obter as previsões e os erros de previsão (residuos) O teste de hipótese mais importante é o que estabelece a significância de , que é a inclinação da reta de regressão (Ho:  =0; H1:  0)

23 Diagnóstico do modelo de regressão ▫Fundamental! ▫Exame gráfico dos resíduos- não deve mostrar padrão definido

24 Resíduos x previsões

25 Na regressão linear múltipla são introduzidas n variáveis explicativas O estimador dos mínimos quadrados neste caso é obtido em notação matricial Ho:  i =0 Ha:  i  0 A estatística do teste é a razão t ou de Wald A ANOVA desempenha papel importante nos modelos lineares A soma dos quadrados das respostas (pela média-SQT) é igual a soma dos quadrados dos resíduos (SQE) mais a soma dos quadrados das previsões (do modelo-SQR) Para cada um dos parâmetros do modelo

26 Quanto menor SQE, melhor o modelo R 2 =SQR quanto maior, melhor SQT R 2 ajustado: quanto maior o numero de variaveis explicativas, maior será o R 2. Por isso, o consideramos quando há muitos parâmetros R 2 ajustado= 1 – (1 - R 2 ) n-1 n-p

27 Yi=  0 +  1 x 1 +  2 x 2 +....... +  i Faça sempre a regressão linear simples isolada de cada variável e depois rode o conjunto. Muitas variáveis significativas isoladamente, deixam de ser em conjunto (isso ocorre quando há multicolinearidade-as (variáveis possuem relações lineares). A matriz de correlação de Pearson pode sugerir associações prévias.

28 Seleção do melhor modelo ▫Pela análise dos resíduos (graficos var x resíduos studentizados e Q-Q plot ou gráfico de probabilidade normal) ▫Pela parcimônia (o menor número de parâmetros com maior poder de explicação) ▫Pelo R 2 ajustado (quanto maior, melhor)

29

30 Procedimentos em modelos de regressão ▫Stepwise forward-o modelo começa a ser construído pela variável mais significativa e daí por diante ▫Stepwise backward-o modelo é construído excluindo-se a variável independente de menor poder explicativo ▫O procedimento se encerra quando todas as variaveis incluidas são significativas de acordo com o  estabelecido


Carregar ppt "Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 6 Prof. Cristina Ortiz Valete."

Apresentações semelhantes


Anúncios Google