A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade.

Apresentações semelhantes


Apresentação em tema: "Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade."— Transcrição da apresentação:

1 Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade

2 Bibliografia Recomendada Díaz, F. R., López, F. J. B., Bioestatística, São Paulo: Thomson Learning, Morettin, P. A., Bussab, W. O., Estatística Básica, 5a. Ed., São Paulo: Editora Saraiva, Medronho R.A. et al. (eds.), Epidemiologia, São Paulo: Editora Atheneu, Soares J.F., Siqueira A.L., Introdução à Estatística Médica, – 1a. Ed., Belo Horizonte: Departamento de Estatística – UFMG, 1999; – 2a. Ed., Belo Horizonte: Coppemed, 2002.

3 Epidemiologia … o que os epidemiologistas estudam são os determinantes e as condições de ocorrência de doenças e agravos à saúde em populações humanas. E o fazem empregando os mais diversos métodos e técnicas, de acordo com suas próprias visões de mundo, posicionamentos teóricos, e propósitos, imediatos ou não, de seus estudos. (Carvalho, D.M., Epidemiologia - História e Fundamentos in: [2], p.6)

4 Bioestatística …o conjunto de métodos estatísticos usados no tratamento da variabilidade nas ciências médicas e biológicas. A Bioestatística fornece métodos para se tomarem decisões ótimas na presença de incerteza, estabelecendo faixas de confiança para a eficácia dos tratamentos e verificando a influência de fatores de risco no aparecimento de doenças. ([3], p.11)

5 Variável …a quantificação ou a categorização da característica de interesse do estudo. ([3], p.33) Tipos: – Categóricas: Ordinal (Ex.: nível de gravidade de uma doença; grau de satisfação com atendimento) ; Nominal (Ex.: gênero, etnia) ; – Quantitativas: Contínua (Ex.: grandezas físicas, e.g. altura, massa, pressão, temperatura) ; Discreta (Ex.: contagens, proporções). Codificação Decodificação Discretização (Quantização)

6 Variável Categórica Codificação: – Representação dos valores desta variáveis por meio de símbolos em vez de palavras por extenso, visando à simplificação do preenchimento dos dados. – Deve permitir a decodificação, ou corre-se o risco de se perder completamente esta informação. Exemplo: gênero – M e F ou e, no lugar de masculino e feminino; – 0 e 1 nesse caso, uma tabela deve informar a que valor cada símbolo se refere para permitir a decodificação.

7 Variável Quantitativa Discretização Quantização: – Arredondamento: busca-se o valor quantizado mais próximo, seja abaixo ou acima: Erro máximo: metade da resolução da escala – Truncamento: busca-se o valor quantizado mais próximo em direção ao zero: Erro máximo: resolução da escala –Valor verdadeiro: 36, –Valor arredondado: 37,0; –Valor truncado: 36,9.

8 Tabelas, Gráficos e Medidas Descritivas - Var. Categórica Medidas Freqüências: – Absoluta (contagem); – Relativa (proporção). Exemplo: em um grupo de 20 pacientes cardiopatas, 6 são diabéticos. – Freqüência absoluta de diabéticos: 6; – Freqüência relativa de diabéticos: 6/20 = 0,3 = 30%;

9 Tabelas, Gráficos e Medidas Descritivas - Var. Categórica Tabelas de Contingência: Simples Tabela 2 2 DiabetesFr. Abs.Fr. Rel. Sim60,3 Não140,7 Cardiopata Diabético SimNãoTotal Sim628 Não Total201939

10 Tabelas, Gráficos e Medidas Descritivas - Var. Categórica Gráficos: – Gráficos de Setores (ou de pizza ou de torta - pie chart): – Histogramas:

11 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa Medidas de Tendência Central ou Centralidade: – Em torno de que valor se encontram nossas observações? Medidas de Dispersão ou Variabilidade: – Estes valores são parecidos uns com os outros ou apresentam grande variabilidade? Medidas de Simetria... Medidas de Curtose......

12 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa Medidas de Tendência Central: – Média: somam-se os N valores e divide-se por N; – Mediana: valor abaixo do qual se encontra metade das observações; – Moda: valor (ou intervalo de valores) mais freqüente. – Exemplo: altura de indivíduos do gênero masculino (cm) Média: cm Mediana: x m = ( )/2 = 176,5 cm Modas: 175 e 177 cm

13 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa O que a média equilibra? – A soma de todos os desvios (diferença) em relação à média ( ) é sempre nula! – Demonstração: – Ou seja, a média equilibra os desvios... Exemplo: Somatório acumulado:

14 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa Além de a soma dos desvios em relação à média ser sempre nula, a média é a referência que minimiza a soma dos desvios quadráticos ( S.D.Q. ). – Demonstração - busca do parâmetro a que minimiza o S.D.Q.: Exemplo: – Soma dos desvios quadráticos com relação à média (177): 938 – Soma dos desvios quadráticos com relação a 176: 958 – Soma dos desvios quadráticos com relação a 178: 958

15 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa Medidas de Dispersão ou Variabilidade: – Desvio Absoluto Médio: valor médio da distância dos indivíduos com relação à média; – Variância e desvio padrão; Desvio Absoluto Médio Variância Desvio-Padrão

16 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa Estimador não-tendencioso da Variância: Por que N-1??? – Resposta: para que a esperança matemática deste estimador seja a variância real 2. – Como minimiza o S.D.Q., se dividíssemos por N, o estimador tenderia a subestimar a variância.

17 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa Medidas de Dispersão ou Variabilidade (cont.): – Percentis: o percentil de P% é o valor abaixo do qual se encontram P% dos indivíduos: –10% - 90% –25% - 75% Primeiro e Terceiro Quartis (Q 1 e Q 3 ) – Distância Interquartil = Q 3 -Q ,75 9,5 14,25 Q 1 =174,5 cm x m =176,5 cm Q 3 =179,75 cm DI = 179,75-174,5 = 5,25 cm

18 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa Tabelas e Gráficos: – Ogiva – Histograma Intervalo (cm)Freq. Abs. 163,0 | 170, ,5 | 178, ,0 | 185, ,5 | | 193,0 3

19 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa Mais Gráficos: (cm) (Q 1 = 174,5; x m = 176,5; Q 3 = 179,75 cm) ( = 177,0; s x = 7,026 cm) Box-plot Média e DP 1,5.DI = 7,875 cm 3,0.DI = 15,75 cm Q 3 +1,5.DI Q 1 -1,5.DI 166,625 cm 187,625 cm Q 3 +3,0.DI Q 1 -3,0.DI 158,75 cm 195,5 cm

20 Box-Plot com Variáveis Gaussianas

21 Introdução à Probabilidade Conceitos Fundamentais: – Espaço Amostral (E): é o conjunto de todos valores possíveis que uma variável aleatória pode assumir. Ex.: –Lançamento de um dado E = {1;2;3;4;5;6} –Pressão sistólica E = [60;320] mmHg – Evento Probabilístico ou Aleatório: é qualquer sub- conjunto de E, e que traga um significado conceitual dentro do fenômeno estudado. Ex.: –Lançamento de um dado A = {1;2} (números em que eu apostei...) –Pressão sistólica A = [110;130] mmHg (pressão normal...)

22 Introdução à Probabilidade Conceitos Fundamentais: – Relação entre Probabilidade e Proporção: Qual a probabilidade de sair o número 3 no lançamento de um dado de 6 faces? –Dado honesto: p(3) = 1/6; –Nada se sabe sobre a estrutura do dado: Lançamos um número muito grande de vezes e estimamos a probabilidade pela proporção de vezes que saiu o número 3 onde N 3 é o número de vezes que resultou o número 3 e N T é o número total de lançamentos. –Definição:

23 Introdução à Probabilidade Propriedades: – Seja A um evento probabilístico: 1. 0 p(A) 1 p(A) = 0 A é impossível 0 < p(A) < 1 p(A) = 1 A é certo de acontecer Ex.: p(A) = 2/6 = 1/3 2. Conjunto complemento Lógica Não 3. p(E) = 1 p({ }) = 0, onde {} = (conjunto vazio) E 1 2 A

24 E 1 2 A 3 4 B 5 6 Sejam A e B dois eventos... Excludência Probabilística: dois eventos são excludentes entre si (ou mutuamente excludentes) se a ocorrência de um EXCLUI a possibilidade de o outro ocorrer. 4. p(A B) = p(A) + p(B) se A e B são excludentes; p(A B) = p(A) + p(B) – p(A B) caso contrário (caso geral); Conjunto União Lógica Ou Conjunto Interseção Lógica & E 1 2 A 3 4 B 5 6 Introdução à Probabilidade

25 Independência Probabilística: dois eventos são independentes entre si se o conhecimento sobre a ocorrência de um deles não traz qualquer informação sobre a probabilidade de o outro ocorrer, ou seja, a ocorrência de um não depende da ocorrência do outro. 5. p(A B) = p(A) · p(B) se A e B são independentes; p(A B) = p(A) · p(B | A) caso contrário (caso geral); p(B | A) é a probabilidade condicional: lê-se probabilidade de B dado A.

26 Introdução à Probabilidade Se A e B são independentes: p(A B) = p(A) · p(B), uma vez que p(B) = p(B | A) Exemplo: Lançamento de dois dados; qual a probabilidade de resultar 3 no 1o. dado (A) e 5 no 2o. dado (B)? p(A) = 6 / 36 = 1 / 6 p(B | A) = 1 / 6 p(B) = 6 / 36 = 1 / 6 p(A B) = 1 / 36 E A B

27 Introdução à Probabilidade Se A e B são dependentes: p(A B) = p(A) · p(B | A), Exemplo: Sorteio de duas bolas de um globo com 6 bolas sem reposição; qual a probabilidade de resultar 3 na 1a. bola (A) e 5 na 2a. bola (B)? p(A) = 5 / 30 = 1 / 6 p(B | A) = 1 / 5 p(B) = 5 / 30 = 1 / 6 p(A B) = 1 / 30 E A B

28 Introdução à Probabilidade Exemplo: O = ser obeso; C = ter cardiopatia. p(O) = 0,1; p(C) = 0,2. Teorema de Bayes p(O C) = p(O) · p(C | O) = p(C) · p(O | C) = p(C O) p(A B) = p(A) · p(B | A) = p(B) · p(A | B) = p(B A) p(B | A) = p(B) · p(A | B) p(A) NC e NO p(C|O) População Obesos Não Obesos O e C O e NC NO e C NO e NC Cardio Não Cardio C e O C e NO NC e O p(O)p(O) p(C)p(C) p(O|C)

29 Distribuições de Probabilidade São modelos probabilísticos que descrevem alguns comportamentos padrões de fenômenos aleatórios. Costuma-se eleger o modelo que seja mais adequado ao fenômeno analisado. A. Variáveis Discretas: 1. Distribuição Uniforme (Valores equiprováveis) Ex.: Lançamento de um dado de 6 faces –p(1) = 1/6; –p(2) = 1/6; –p(3) = 1/6; –p(4) = 1/6; –p(5) = 1/6; –p(6) = 1/6.

30 Distribuições de Probabilidade 2. Distribuição Triangular Ex.: Lançamento de dois dado de 6 faces Resultado = soma das faces EResultadosp _ 21+11/ , 2+12/ , 2+2, 3+13/ , 2+3, 3+2, 4+14/ , 2+4, 3+3, 4+2, 5+15/ , 2+5, 3+4, 4+3, 5+2, 6+16/36 = 1/6 82+6, 3+5, 4+4, 5+3, 6+25/ , 4+5, 5+4, 6+34/ , 5+5, 6+43/ , 6+52/ /36

31 Distribuições de Probabilidade 3. Distribuição Binomial Seja uma população de tamanho infinitamente grande, na qual a proporção de indivíduos com uma dada característica vale P. Qual a probabilidade de, em uma amostra de N indivíduos selecionados aleatoriamente desta população, k terem a tal característica? –Ex.: P(C) = 0,1 ; N = 3 (C = canhotos; D = não canhotos ) P(D) = 0,9 EIndivíduos X, Y e Zp _ 0DDD0,9 3 = 0,729 1CDD, DCD, DDC3 0,1 0,9 2 = 0,243 2DCC, CDC, CCD3 0,1 2 0,9 = 0,027 3CCC0,1 3 = 0,001

32 Distribuições de Probabilidade 4. Distribuição de Poisson Seja um evento que se repete a uma taxa média de vezes por unidade de tempo (UT). Qual a probabilidade de, em um determinado período de 1 UT, este evento ocorrer k vezes? –Ex.: = 1 e = 4

33 Distribuições de Probabilidade B. Variáveis Contínuas: 1. Distribuição Uniforme Ex.: Ângulo de parada de um disco: E = [0, 360 ) –Qual a probabilidade do ângulo 200 ? É a altura do gráfico? NÃO. –Qual a probabilidade de o ângulo estar entre 0 e 360 ? 100%. –A área abaixo do gráfico vale 100% por definição. –Só tem sentido falar de probabilidade para intervalos! –Logo, o eixo vertical refere-se à Função Densidade de Probabilidade (pdf).

34 95,45% Distribuições de Probabilidade 2. Distribuição Gaussiana Teorema do Limite Central (TLC) [ quem é central é o limite, e não o teorema!] Ex.: Altura da população masculina adulta ( = 175,7 cm e = 7,3 cm) 68,27%

35 Distribuições de Probabilidade 3. Distribuição Qui-Quadrada Resultante da soma de K variáveis gaussianas e independentes elevadas ao quadrado: K é o número de graus de liberdade; Ex.: Grandezas quadráticas por natureza, p.ex. Potência.

36 Ilustração do TLC 1.Soma de dados de 6 faces: 2.Binomial aumentando-se o N:

37 Ilustração do TLC 3.Poisson aumentando-se : 4.Qui-quadrada aumentando-se o número de graus de liberdade:

38 Inferência Estatística A partir de informações imprecisas, procura-se ter o melhor conhecimento possível sobre a medida exata; ou... A partir de uma amostra, procura-se atingir conclusões sobre a população. 1. Como é a população de onde a amostra analisada se origina? 2. A amostra analisada origina-se de uma determinada população conhecida? 3. Duas ou mais amostras podem ser consideradas originárias de uma mesma população? Estimadores Estatísticos Testes de Hipótese

39 Estimadores Estatísticos Muitas vezes, desejamos estimar uma dada característica de uma população de interesse com base em uma amostra da mesma, composta por N indivíduos. Seja uma característica populacional (verdadeira) denotada por um parâmetro Q. Esta mesma característica, se extraída com base na amostra, representa tão somente uma estimativa de Q, denotada por. Qual a confiabilidade / utilidade deste valor isolado? Como se estabelecer uma forma de inferência (i.e. entendimento sobre a população) a partir deste valor? –Em torno deste valor estimado, estabelece-se um intervalo que possua elevada probabilidade de englobar o verdadeiro Q Intervalo de Confiança. Intervalo de confiança de 95% (IC 95% ): intervalo que possui 95% de probabilidade de incluir o verdadeiro valor do parâmetro estudado.

40 Exemplo: Estimador da Média Média populacional (valor verdadeiro): Média amostral (estimativa de ): Para se obter o IC 95%, primeiro, precisamos entender qual seria a distribuição de todas possíveis estimativas de média caso conhecêssemos a população: desta população, poder-se-iam selecionar muitas amostras de N indivíduos cada; cada amostra terá a sua média, sendo que cada uma destas médias é uma estimativa de ; qual a média de todas estas estimativas de (qual o valor esperado das estimativas de média)? mas algumas amostras terão sua média amostral abaixo de, enquanto outras terão acima de. as estimativas possuem variabilidade; medida de variabilidade desvio padrão... desvio padrão da estimativa de média Erro-Padrão da média:

41 Exemplo: Estimador da Média Com base nesse conhecimento, se considerarmos que a variável analisada é gaussiana, as estimativas de média também serão gaussianas; mesmo se a variável não for gaussiana, caso N seja suficientemente grande (N 30), a distribuição das estimativas de média se aproxima de uma gaussiana (TLC). Assim sendo, pode-se dizer que 95% de todas as amostras possíveis desta população terão média dentro do intervalo seguinte:, ou seja um intervalo para com base em. Mas queremos justamente o contrário: um intervalo para o valor de com base em ! Caso conhecêssemos o verdadeiro Erro-Padrão da média, o caminho inverso seria análogo:

42 Exemplo: Estimador da Média Contudo, não conhecemos o verdadeiro Erro-Padrão, uma vez que ele depende do desvio-padrão da variável analisada na população ( x )! Mas podemos estimar também este desvio padrão com base na amostra: Amostra : estimativa da média populacional ; s x : estimativa do desvio padrão populacional x. Usando-se s x, podemos estimar o Erro-Padrão: mas isto acarreta um aumento na incerteza sobre o. Aumento de incerteza alargamento do intervalo de confiança. Distribuição t de Student: incorpora a incerteza sobre o desvio- padrão (parece com a gaussiana, mas é mais larga) onde t * é o valor crítico e gl é o número de graus de liberdade (N-1).

43 Exemplo: Estimador da Média Altura de mulheres adultas (cm). N = 38 gl = 37 = 161,84 cm s x = 7,25 cm = 1,177 cm Intervalo de Confiança de 95%:

44 Distribuição t de Student p(t gl T) gl0,6000,7500,9000,9500,9750,9900,9950, ,3251,0003,0786,31412,70631,82163,657636,619 20,2890,8161,8862,9204,3036,9659,92531,598 30,2770,7651,6382,3533,1824,5415,84112,924 40,2710,7411,5332,1322,7763,7474,6048,610 50,2670,7271,4762,0152,5713,3654,0326,869 60,2650,7181,4401,9432,4473,1433,7075,959 70,2630,7111,4151,8952,3652,9983,4995,408 80,2620,7061,3971,8602,3062,8963,3555,041 90,2610,7031,3831,8332,2622,8213,2504, ,2600,7001,3721,8122,2282,7643,1694, ,2600,6971,3631,7962,2012,7183,1064, ,2590,6951,3561,7822,1792,6813,0554, ,2590,6941,3501,7712,1602,6503,0124, ,2580,6921,3451,7612,1452,6242,9774, ,2580,6911,3411,7532,1312,6022,9474, ,2580,6901,3371,7462,1202,5832,9214, ,2570,6891,3331,7402,1102,5672,8983, ,2570,6881,3301,7342,1012,5522,8783, ,2570,6881,3281,7292,0932,5392,8613, ,2570,6871,3251,7252,0862,5282,8453, ,2570,6861,3231,7212,0802,5182,8313, ,2560,6861,3211,7172,0742,5082,8193, ,2560,6851,3191,7142,0692,5002,8073, ,2560,6851,3181,7112,0642,4922,7973, ,2560,6841,3161,7082,0602,4852,7873, ,2560,6841,3151,7062,0562,4792,7793, ,2560,6841,3141,7032,0522,4732,7713, ,2560,6831,3131,7012,0482,4672,7633, ,2560,6831,3111,6992,0452,4622,7563, ,2560,6831,3101,6972,0422,4572,7503, ,2550,6811,3031,6842,0212,4232,7043, ,2540,6791,2961,6712,0002,3902,6603, ,2540,6771,2891,6581,9802,3582,6173,373 0,2530,6741,2821,6451,9602,3262,5763,291

45 Testes de Hipótese Comparação entre uma amostra e uma população conhecida ou entre duas ou mais amostras. Hipótese Nula (H 0 ): é a hipótese estatisticamente mais simples, envolvendo igualdade estatística, sendo presumida como verdadeira pelo tratamento matemático. Igualdade estatística: 1.A amostra analisada pode ser considerada originária de uma população conhecida ( A = 0 ); 2.As amostras analisadas podem ser consideradas originárias de uma mesma população ( A = B = ). Não confundir H 0 com a hipótese teórica do estudo!!! Ex.: comparação entre médias de 2 amostras H 0 implica que a diferença esperada entre as médias é 0, portanto é fácil de ser modelado. Hipótese Alternativa (H A ): é a hipótese contrária a H 0, ou seja, desigualdade estatística. Ex.: comparação entre médias de 2 amostras

46 Testes de Hipótese Nível de significância: maior probabilidade que se permite de cometer o Erro Tipo 1 (arbitrário – valores comuns: 5%, 1%). β: maior probabilidade que se permite de cometer o Erro Tipo 2 (arbitrário – valores comuns: 20%, 30%). Verdade Indicação do Teste H0H0 HAHA H0H0 AcertoErro Tipo 2 β HAHA Erro Tipo 1 Nível de significância (α) Acerto Poder de Teste (1- β)

47 Testes de Hipótese Meta: conseguir que tanto α quanto β sejam suficientemente pequenos Valores comuns: α: 5%, 1% (quanto menor, mais estringente é o teste); β: 20%, 30% (quanto menor, mais poderoso é o teste). Maior permissividade com β: é mais difícil lidar com o Erro Tipo 2 que com o Erro Tipo 1 –A distribuição de H A é estipulada pelo que teoricamente seria o pior caso possível explicável (menor diferença entre duas populações distintas que faria sentido pela teoria). Exemplo: diferença entre médias: β Aceita-se H 0 α/2 /2

48 Testes de Hipótese Compromisso entre α e β: Sem se alterarem as curvas de H 0 e H A (mesmos dados): Redução de α: aumenta-se k (alarga-se o intervalo de aceitação de H 0 ); Neste caso, facilita-se a aceitação de H 0 (mesmo se ela for falsa); Isto equivale a aumentar a área verde (β). Vice-versa, caso se reduza β... Para se ter α e β arbitrariamente pequenos: Deve-se estreitar as curvas N deve ser suficientemente grande! β Aceita-se H 0 α/2 /2

49 Testes de Hipótese Lateralidade do Teste: Alguns testes permitem a escolha entre várias opções de H A ; Por exemplo: comparação entre médias Teste Bilateral ou Bicaudal; ;. Utiliza-se um teste unilateral quando, pela teoria, não se espera ou não é justificável que haja diferença verdadeira em um dos lados da desigualdade. α/2 Teste Unilateral ou Unicaudal

50 Testes de Hipótese Comparações com base em variáveis categóricas: Usualmente, usam-se testes que comparam proporções, tais como o Teste Qui-Quadrado e o Exato de Fisher. Comparações com base em variáveis quantitativas: Mais comuns: testes que comparam médias, tais como o teste-t e ANOVA (Análise de Variância); Em alguns casos, é mais adequado o uso de testes que comparam medianas, tais como Testes de Mann-Witney, Wilcoxon e Kruskal-Wallis (testes não-paramétricos); Outros parâmetros descritivos podem ser também comparados, tais como a variância (Testes de Fisher e de Bartlett).

51 Teste t de Student para Amostras Independentes Comparação entre médias de 2 grupos. H 0 : igualdade entre médias (ambos grupos são amostras de uma mesma população gaussiana). Condições para poder ser usado: Os indivíduos que compõem cada grupo devem ser independentes entre si (independência intragrupo); Os indivíduos de um grupo devem ser independentes dos indivíduos do outro grupo (independência intergrupo); Os dados dos dois grupos devem ter distribuição gaussiana testes de aderência; Os dados dos dois grupos devem ter mesma variabilidade (desvios-padrões / variâncias estatisticamente iguais) testes de homocedasticidade. Grupo A: Grupo B:, onde s A s B

52 Teste t de Student para Amostras Independentes Parâmetro T: reflete o quão diferentes são as duas médias onde Sob a hipótese nula, o parâmetro T segue uma distribuição t de Student com N A +N B -2 graus de liberdade: Rejeita-se H 0 se a diferença for significativamente grande, i.e. Teste bilateral: Teste unilateral positivo: Teste unilateral negativo:

53 Teste t de Student para Amostras Independentes Exemplo: Comparação de alturas entre homens e mulheres Homens (cm): Mulheres (cm): ou t * 0,95; 51 = 1,6753 T > t * Rejeita-se H 0 valor-p = 0, valor-p << Rejeita-se H 0

54 Teste t de Student para Amostras Independentes Por exemplo, para teste bilateral... Caso 1: T fora do intervalo de H 0 (rejeita-se H 0 ) valor-p < Caso 2: T dentro do intervalo de H 0 (aceita-se H 0 ) valor-p > Valor-p: probabilidade de ocorrer uma diferença entre médias tão grande quanto ou maior que T mesmo H 0 sendo verdadeiro probabilidade de se errar caso se rejeite H 0 probabilidade de se cometer o Erro Tipo 1.

55 Teste t de Student para Amostras Pareadas Comparação entre médias de 2 grupos em que há vinculação biunívoca entre indivíduos dos dois grupos. H 0 : igualdade entre médias (ambos grupos são amostras de uma mesma população gaussiana). Condições para poder ser usado: Os indivíduos que compõem cada grupo devem ser independentes entre si (independência intragrupo); Cada indivíduo de um grupo deve ser vinculado a um indivíduo do outro grupo, formando um par (pareamento): N A = N B = N; Os grupos devem apresentar distribuição gaussiana (matematicamente, basta que as diferenças por pares tenham distribuição gaussiana); Os dados dos dois grupos devem ter mesma variabilidade (desvios- padrões estatisticamente iguais).

56 Teste t de Student para Amostras Pareadas Como resolver a questão do pareamento, que torna os grupos interdependentes? P. ex., efeitos aditivos com autopareamento: x A1 = K 1 + e A1 x B1 = K 1 + e B1 x A1 – x B1 = e A1 – e B1, e a parcela comum desaparece Grupo AGrupo BDiferença xA1xA1 xB1xB1 D 1 = x A1 – x B1 xA2xA2 xB2xB2 D 2 = x A2 – x B2 x AN x BN D N = x AN – x BN

57 Teste t de Student para Amostras Pareadas Parâmetro T: reflete, em média, o quão diferentes são os pares Sob a hipótese nula, o parâmetro T segue uma distribuição t de Student com N - 1 graus de liberdade: Rejeita-se H 0 se a diferença for significativamente grande, i.e. Teste bilateral: Teste unilateral positivo: Teste unilateral negativo: ou se valor-p <

58 ANOVA: Análise de Variância Comparação entre médias de mais de 2 grupos. H 0 : igualdade entre médias (todos grupos são amostras de uma mesma população gaussiana). Condições para poder ser usado: Os indivíduos que compõem cada grupo devem ser independentes entre si (independência intragrupo); Os indivíduos de cada grupo devem ser independentes dos indivíduos dos outros grupo (independência intergrupo); Os dados de todos grupos devem ter distribuição gaussiana; Os dados de todos grupos devem ter mesma variabilidade homocedasticidade.

59 ANOVA Baseia-se na comparação (razão) entre variâncias entre grupos e intragrupos: Ng = número de grupos; Ni = número de indivíduos no i-ésimo grupo; N = número total de indivíduos. gl E = Ng – 1; gl I = N – Ng; H 0 : a razão entre estas variâncias (f) é 1 (variâncias são iguais, uma vez que as médias são iguais e todos grupos são amostra de uma mesma população) f ~ F glE, glI ; rejeita-se H 0 se f > F crit. Parâmetros calculados: Grande média: Variação total: Variação entre grupos: Variação intragrupos:

60 ANOVA Caso haja diferença significativa (f > F crit ), faz-se uso de testes post hoc (p.ex. Tukey e Scheffé) para identificar entre quais grupos há diferença. SSglMSf EntreSS E Ng-1SS E Ng-1 MS E MS I IntraSS I N-NgSS I N-Ng TotalSS E+ SS I N-1

61 Testes Não-Paramétricos Os testes vistos até agora baseavam-se em pressuposições acerca da distribuição de probabilidade dos dados Testes Paramétricos. Quando tais pressuposições não são atendidas, pode-se lançar mão de Testes Não-Paramétricos, que não requerem uma distribuição específica. Grande parte dos Testes Não-Paramétricos baseiam-se na ordenação (ranqueamento) dos dados (estatística ordinal), podendo também ser usados em dados categóricos ordinais. Desvantagem: em casos onde um teste paramétrico fosse adequado, o uso de um teste não-paramétrico traria um menos poder de teste.

62 Testes Não-Paramétricos Exemplos de testes não paramétricos análogos aos vistos até agora: – Paramétricos: médias – Não-Paramétricos: medianas Embora não requeiram uma distribuição específica, estes testes não-paramétricos, sob a hipótese nula, pressupõem que as amostras possuam mesma distribuição. ParamétricoNão-Paramétrico Teste t para amostras independentes Mann-Witney Teste t para amostras pareadas Wilcoxon ANOVAKruskal-Wallis

63 Teste Qui-Quadrado Comparação entre proporções de indivíduos classificados de acordo uma variável categórica em dois ou mais grupos. H 0 : igualdade entre proporções (todos grupos são amostras de uma mesma população). Exemplo: comparação entre dois grupos considerando-se uma variável categórica dicotômica Tabela de Contingência 2 2 Variável Grupo SimNãoTotal 1abN 1 = a + b 2cdN 2 = c + d TotalN S = a + cN N = b + dN = a + b + c + d

64 Teste Qui-Quadrado Sob H 0, as proporções seria iguais entre os grupos; logo, seriam iguais à proporção no total. Portanto, os valores esperados seriam: e uma medida de o quanto os valores observados diferem dos esperados seria: Variável Grupo SimNãoTotal 1abN1N1 2cdN2N2 NSNSN N

65 Teste Qui-Quadrado Simplificando, temos: Sob H 0, X 2 segue aproximadamente uma distribuição qui-quadrada com 1 grau de liberdade: X 2 ~ 2 1. Assim, rejeita-se H 0 caso X 2 > 2 crit. Yates propôs uma modificação para que o parâmetro X 2 se aproxime mais de uma distribuição qui-quadrada (correção de continuidade): Caso o N seja menor que 20 ou se alguma das células da tabela de contingência tiver valor menor que 5, o Teste Qui-quadrado não deve ser utilizado, devendo-se optar pelo Teste Exato de Fisher.

66 Teste Qui-Quadrado Exemplo: comparação da proporção de óbitos em dois grupos que receberam dois tratamentos diferentes: Sem correção de Yates: X 2 = 7,979 Com correção de Yates: X 2 = 7,371 Valor crítico para distribuição qui-quadrada com 1 grau de liberdade e = 5%: 3,8415 rejeita-se H 0 e infere-se que o tratamento 1 é mais eficiente que o 2. Óbito Tratamento SimNãoTotal Total

67 Teste Qui-Quadrado de McNemar Comparação entre proporções de indivíduos classificados de acordo uma variável categórica em dois grupos pareados. H 0 : igualdade entre proporções (os grupos são amostras de uma mesma população). Exemplo: comparação entre dois tratamentos aplicados a mesmos indivíduos (cada indivíduo responde por um par de resultados) k e l representam os pares em que houve concordância de resultados com os dois tratamentos; r e s, os pares em que houve discordância. Tratamento B Tratamento A SucessoFracasso Sucessokr Fracassosl

68 Teste Qui-Quadrado de McNemar Sob H 0 : r e s são fruto do acaso, esperando-se que sejam semelhantes (metade de todas discordâncias em cada). Assim, usando-se a correção de continuidade, temos: sendo que X 2 McN segue aproximadamente uma distribuição qui-quadrada com 1 grau de liberdade: X 2 McN ~ 2 1. Assim, rejeita-se H 0 caso X 2 > 2 crit. Tratamento B Tratamento A SucessoFracasso Sucessokr Fracassosl

69 Regressão Linear e Correlação Em vários fenômenos, parte da variação de uma das variáveis (dependente) pode ser explicada pela variação de outra(s) variável(is) (independentes). Deste modo, busca-se obter uma função matemática que melhor associe a variação entre estas variáveis: a mais comum é a função linear. Sejam duas variáveis, uma tida como independente (x) e outra como dependente (y), tal como ilustrado no exemplo abaixo: Podemos enxergar que, além de uma componente aleatória, uma parte da variação de y pode ser explicada linearmente pela variação em x: Procuram-se os valores de a e b que melhor explicam y a partir de x, ou seja, que minimizam o desvio quadrático entre y e : método dos mínimos quadrados.

70 Regressão Linear e Correlação Aplicando-se o método dos mínimos quadrados, obtém-se: b é o coeficiente linear (ponto em que a reta cruza o eixo vertical); a é o coeficiente angular: se a > 0, a reta tende a subir (quanto maior x, maior y); se a < 0, a reta tende a descer (quanto maior x, menor y); se a é próximo de 0, indica que y e x não são relacionados entre si. Contudo, o valor de a só apenas indica a angulação da reta, mas não especifica o quanto da variação total de y depende da variação de x Coeficiente de Correlação (Linear) de Pearson (entre -1 e 1):

71 Regressão Linear e Correlação Exemplo: relação entre idade e nível de colesterol... a = 4,75 mg/dl/ano (coeficiente angular) b = 132,5 mg/dl (coeficiente linear) r = 0,7914 (coeficiente de correlação de Pearson) r 2 = 0,6263 (coeficiente de determinação – percentual da variância de y explicada pela regressão)

72 Regressão Linear e Correlação Considerações: Em geral, estima-se o intervalo de confiança para os verdadeiros coeficientes angular, linear e de correlação com base nos valores estimados a, b e r. Alternativamente, pode-se obter o valor-p para a hipótese nula de que = 0 (a verdadeira correlação populacional seja nula), ou seja, de que não há correlação linear entre x e y. Se x e y são independentes entre si, necessariamente não há correlação entre eles. Contudo, se não há correlação entre x e y, não necessariamente eles são independentes. Ou seja, o fato de não haver correlação linear não implica que não haja outro tipo de correlação (não-linear), a não ser se x e y forem gaussianos!!! Isto significa que, se x e y apresentam distribuição gaussiana, caso haja correlação entre eles, esta correlação só pode ser linear.

73 Regressão Linear e Correlação Considerações (cont.): Caso a relação entre x e y seja melhor descrita por uma função matemática não-linear, nem sempre o coeficiente de correlação de Pearson será capaz de indicar esta relação. a = -0,125 mg/dl/ano b = 304,5 mg/dl r = -0,04 r 2 = 0,0016

74 Conceitos Básicos de Testes Diagnósticos A qualidade de um teste diagnóstico refere-se à sua capacidade de refletir o verdadeiro status da doença em um indivíduo (doente [D] ou não-doente [ND]). Portanto, para se avaliar um teste diagnóstico, deve-se conhecer o verdadeiro status de um número suficientemente grande de indivíduos (tanto doentes quanto não doentes) por meio de outro método diagnóstico altamente confiável (padrão-ouro) e aplicar o teste nestes indivíduos: VP = Número de Verdadeiros Positivos; VN = Número de Verdadeiros Negativos; FP = Número de Falsos Positivos; FN = Número de Falsos Negativos; T D = Número Total de Doentes; T ND = Número Total de Não Doentes; T + = Número Total de Diagnósticos Positivos; T - = Número Total de Diagnósticos Negativos. Padrão-Ouro Teste DNDTotal +VPFPT+T+ -FNVNT-T- TotalTDTD T ND N

75 Testes Diagnósticos Um bom teste diagnóstico deve apresentar pequeno número de FP e FN! Sensibilidade e Especificidade: Sensibilidade: é a probabilidade de um teste dar positivo quando o indivíduo é realmente doente... s = p(+ | D) Especificidade: é a probabilidade de um teste dar negativo quando o indivíduo é realmente não doente... e = p(- | ND) Ou seja, ambos são medidas de probabilidade de o teste realmente acusar um determinado status conhecido. Padrão-Ouro Teste DNDTotal +VPFPT+T+ -FNVNT-T- TotalTDTD T ND N

76 Testes Diagnósticos Mais interessante seria se conhecêssemos a probabilidade de o teste estar certo ao acusar algum diagnóstico Valor Preditivo: Valor Preditivo Positivo: é a probabilidade de um teste estar correto ao dar positivo VPP = p(D | +); Valor Preditivo Negativo: é a probabilidade de um teste estar correto ao dar negativo VPN = p(ND | -); Caso a prevalência da doença possa ser estimada por, então os valores preditivos podem ser estimados diretamente da tabela: Caso contrário, estes valores saem a partir dos valores de sensibilidade, especificidade e prevalência da doença. Acurácia probabilidade de o teste acertar em geral: Padrão-Ouro Teste DNDTotal +VPFPT+T+ -FNVNT-T- TotalTDTD T ND N

77 Testes Diagnósticos Fórmulas para se obter VPP e VPN a partir dos valores de sensibilidade, especificidade e prevalência (i.e., quando a proporção T D / N não reflete a verdadeira prevalência da doença):

78 Medidas de Associação Um determinado desfecho (p.ex.: uma doença) é associado à exposição a um determinado fator (de risco ou de proteção)? Exemplos de medidas de associação: Risco Relativo: o risco (probabilidade) de apresentar o desfecho é maior (ou menor) entre os indivíduos expostos que entre os não expostos? Razão de Chances (Odds Ratio - OR) de Desfecho: a chance de apresentar o desfecho entre os expostos é diferente da chance entre os não expostos? Razão de Chances de Exposição: a chance de ter sido exposto entre os indivíduos que apresentam o desfecho é diferente da chance entre os que não apresentam o desfecho?

79 Probabilidade vs. Chance Probabilidade de alguém apresentar o desfecho entre os indivíduos expostos e não expostos: A chance é a razão entre as probabilidades de um evento acontecer e não acontecer. Logo, as chances de alguém apresentar o desfecho entre os indivíduos expostos e não expostos é dado por: Desfecho Exposição SimNãoTotal SimabTETE NãocdT NE TotalTDTD T ND N

80 Risco Relativo Razão entre o risco (probabilidade) de apresentar o desfecho entre os indivíduos expostos e o risco entre os não expostos: Valores de risco relativo em torno de 1 sugerem não haver associação entre exposição e desfecho (H 0 ): Como estimador: aceita-se H 0 se IC 95% engloba a unidade; Como teste de hipótese: aceita-se H 0 se valor-p > 5% ( =0,05) Desfecho Exposição SimNãoTotal SimabTETE NãocdT NE TotalTDTD T ND N

81 Razão de Chances (OR) OR de desfecho: razão entre a chance de apresentar o desfecho entre os indivíduos expostos e a chance entre os não expostos: OR de exposição: razão entre a chance de ter sido exposto entre os indivíduos que apresentam o desfecho e a chance entre os sem desfecho: Valores de OR em torno de 1 sugerem não haver associação entre exposição e desfecho (H 0 ): Como estimador: aceita-se H 0 se IC 95% engloba a unidade; Como teste de hipótese: aceita-se H 0 se valor-p > 5% ( =0,05) Desfecho Exposição SimNãoTotal SimabTETE NãocdT NE TotalTDTD T ND N

82 Relação entre OR e RR Risco Relativo: Razão de Chances: No caso de uma doença ter uma prevalência (P) muito baixa: a << b a + b b c << d c + d d ou seja, a Razão de Chances pode ser vista como uma estimativa do Risco Relativo. Desfecho Exposição SimNãoTotal SimabTETE NãocdT NE TotalTDTD T ND N

83 Visão Geral sobre Desenhos de Estudos Epidemiológicos

84 Tipos de Estudos Mais Comuns Seccionais ou Transversais Observacionais: Coorte Caso-Controle Intervenção: Ensaios Clínicos Aleatorizados

85 Estudos Seccionais Duração do estudo consideravelmente mais curta que a dinâmica das características estudadas (consiste em um retrato da população). Amostragem suficientemente grande e representativa da população-alvo: Tipos comuns de amostragem: Amostragem aleatória simples; Amostragem por conglomerados; Visa, usualmente, análises descritivas (p.ex.: prevalências e incidências).

86 Estudos Seccionais Instrumentos de avaliação: Questionários: Perguntas abertas; Perguntas fechadas; Mistos. Perdas. Exames Clínicos: Sensibilidade vs. especificidade. Medidas fisiológicas: Precisão; Calibração. Treinamento dos avaliadores: uniformização da coleta de informações

87 Estudos Seccionais Medidas de associação comuns: Razão de Prevalências (RP - análoga ao Risco Relativo) e Razão de Chances Prevalentes (tipo de razão de chances). Por ser um estudo eminentemente descritivo, com base em amostras representativas da população, as proporções de desfecho são estimativas de prevalências na população, viabilizando-se o cálculo do RR, particularmente da RP. Limitação: mesmo detectando-se associação entre exposição e desfecho, nem sempre é possível estabelecer relações de causalidade, pois as informações de temporalidade podem não ser disponíveis.

88 Estudos de Coorte Coorte: grupo de indivíduos que apresentam uma característica em comum. No estudo de coorte, os indivíduos são selecionados quanto ao status de exposição. No início do estudo, nenhum indivíduo analisado apresenta o desfecho estudado. Ao longo de um período suficientemente longo (dependendo da dinâmica do desfecho estudado), os indivíduos são acompanhados e contabilizam- se as ocorrências de desfecho nas duas coortes. A associação entre a exposição e o desfecho é, normalmente, analisada pelo Risco Relativo.

89 Estudos de Coorte Outros nomes: Longitudinal; Prospectivo; Seguimento (follow-up). A pertinência dos indivíduos em cada coorte se dá por motivos alheios ao estudo (não há interferência sobre o status dos indivíduos). Potenciais: Investigar a relação exposição-desfecho sob a óptica da causalidade; Abordar hipóteses etiológicas; Calcular medidas de Incidência; Examinar associações entre variáveis, usando medidas diretas de risco: Risco Relativo; Comparar a incidência da doença em uma ou mais coortes.

90 Estudos de Coorte Vantagens: Produz medidas diretas de riscos Fornece evidências mais fortes de que uma associação possa ser causal; Resultados mais facilmente generalizáveis a populações maiores; Muitos desfechos podem ser investigados simultaneamente. Desvantagens: Demorado e de alto custo relativo; Perdas de acompanhamento; Inadequado para doenças raras.

91 Estudos Caso-Controle No estudo de coorte, os indivíduos são selecionados quanto ao status de desfecho. Comparam-se um grupo de pessoas indivíduos (casos) com outro de indivíduos não-doentes (controles) com características parecidas com os casos, usualmente vizinhos: –Pode ser interessante realizar pareamento (por gênero, idade, etnia, etc.). O estudo é retrospectivo, avaliando-se se os indivíduos haviam sido ou não expostos ao fator estudado. A associação entre a exposição e o desfecho é, normalmente, analisada pela Razão de Chances.

92 Estudos Caso-Controle Vantagens: Eficiente para doenças raras; Útil para gerar hipóteses sobre novas doenças ou surtos não usuais (pois é útil para examinar um grande número de variáveis preditoras); Usualmente de baixo custo. Desvantagens: Não permite obter medidas de riscos ou incidência; Permite a investigação de apenas um desfecho; Grande susceptibilidade a vieses: –Viés de seleção: amostragem diferencial entre casos e controles; –Viés de informação (memória) ou medida retrospectiva das variáveis preditoras.

93 Ensaios Clínicos Aleatorizados Os indivíduos são alocados aleatoriamente em dois grupos diferentes quanto ao status de exposição. No início do estudo, nenhum indivíduo analisado apresenta o desfecho estudado, como no estudo de coortes; –A diferença está na alocação dos grupos, que é feita pelo pesquisador. Ao longo do estudo, os indivíduos são acompanhados e contabilizam-se as ocorrências de desfecho nos dois grupos. A associação entre a exposição e o desfecho é, normalmente, analisada pelo Risco Relativo.

94 Ensaios Clínicos Aleatorizados Critérios de Inclusão: Minimizar a heterogeneidade dos indivíduos. Critérios de Exclusão comuns: Existência de outras doenças; Mal prognóstico; Indivíduos não-colaborativos. Questões Éticas: Termo de Consentimento Livre e Esclarecido; Comitês Locais; Conselho Nacional de Ética em Pesquisa (CONEPE). Mascaramento (ou Cegamento): Tenta minimizar qualquer comportamento tendencioso devido ao conhecimento de qual tratamento está sendo usado; Cego vs. Duplo Cego.


Carregar ppt "Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística Instituto de Saúde da Comunidade."

Apresentações semelhantes


Anúncios Google