A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística

Apresentações semelhantes


Apresentação em tema: "Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística"— Transcrição da apresentação:

1 Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística
Instituto de Saúde da Comunidade

2 Bibliografia Recomendada
Díaz, F. R., López, F. J. B., Bioestatística, São Paulo: Thomson Learning, 2007. Morettin, P. A., Bussab, W. O., Estatística Básica, 5a. Ed., São Paulo: Editora Saraiva, 2006. Medronho R.A. et al. (eds.), Epidemiologia, São Paulo: Editora Atheneu, 2002. Soares J.F., Siqueira A.L., Introdução à Estatística Médica, 1a. Ed., Belo Horizonte: Departamento de Estatística – UFMG, 1999; 2a. Ed., Belo Horizonte: Coppemed, 2002.

3 Epidemiologia “… o que os epidemiologistas estudam são os determinantes e as condições de ocorrência de doenças e agravos à saúde em populações humanas. E o fazem empregando os mais diversos métodos e técnicas, de acordo com suas próprias visões de mundo, posicionamentos teóricos, e propósitos, imediatos ou não, de seus estudos.” (Carvalho, D.M., “Epidemiologia - História e Fundamentos” in: [2], p.6)

4 Bioestatística “…o conjunto de métodos estatísticos usados no tratamento da variabilidade nas ciências médicas e biológicas. A Bioestatística fornece métodos para se tomarem decisões ótimas na presença de incerteza, estabelecendo faixas de confiança para a eficácia dos tratamentos e verificando a influência de fatores de risco no aparecimento de doenças.” ([3], p.11)

5 Variável “…a quantificação ou a categorização da característica de interesse do estudo.” ([3], p.33) Tipos: Categóricas: Ordinal (Ex.: nível de gravidade de uma doença; grau de satisfação com atendimento); Nominal (Ex.: gênero, etnia); Quantitativas: Contínua (Ex.: grandezas físicas, e.g. altura, massa, pressão, temperatura); Discreta (Ex.: contagens, proporções). Codificação Decodificação Discretização (Quantização)

6 Variável Categórica Codificação: Exemplo: gênero
Representação dos valores desta variáveis por meio de símbolos em vez de palavras por extenso, visando à simplificação do preenchimento dos dados. Deve permitir a decodificação, ou corre-se o risco de se perder completamente esta informação. Exemplo: gênero M e F ou ♂ e ♀, no lugar de masculino e feminino; 0 e 1  nesse caso, uma tabela deve informar a que valor cada símbolo se refere para permitir a decodificação.

7 Variável Quantitativa
Discretização  Quantização: Arredondamento: busca-se o valor quantizado mais próximo, seja abaixo ou acima: Erro máximo: metade da resolução da escala Truncamento: busca-se o valor quantizado mais próximo em direção ao zero: Erro máximo: resolução da escala Valor verdadeiro: 36, Valor arredondado: 37,0; Valor truncado: 36,9.

8 Tabelas, Gráficos e Medidas Descritivas - Var. Categórica
Medidas  Freqüências: Absoluta (contagem); Relativa (proporção). Exemplo: em um grupo de 20 pacientes cardiopatas, 6 são diabéticos. Freqüência absoluta de diabéticos: 6; Freqüência relativa de diabéticos: 6/20 = 0,3 = 30%;

9 Tabelas, Gráficos e Medidas Descritivas - Var. Categórica
Tabelas de Contingência: Simples Tabela 22 Diabetes Fr. Abs. Fr. Rel. Sim 6 0,3 Não 14 0,7 Cardiopata Diabético Sim Não Total 6 2 8 14 17 31 20 19 39

10 Tabelas, Gráficos e Medidas Descritivas - Var. Categórica
Gráficos de Setores (ou de pizza ou de torta - pie chart): Histogramas:

11 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa
Medidas de Tendência Central ou Centralidade: Em torno de que valor se encontram nossas observações? Medidas de Dispersão ou Variabilidade: Estes valores são parecidos uns com os outros ou apresentam grande variabilidade? Medidas de Simetria... Medidas de Curtose... ...

12 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa
Medidas de Tendência Central: Média: somam-se os N valores e divide-se por N; Mediana: valor abaixo do qual se encontra metade das observações; Moda: valor (ou intervalo de valores) mais freqüente. Exemplo: altura de indivíduos do gênero masculino (cm) Média: cm Mediana: xm= ( )/2 = 176,5 cm Modas: 175 e 177 cm

13 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa
O que a média equilibra? A soma de todos os desvios (diferença) em relação à média ( ) é sempre nula! Demonstração: Ou seja, a média equilibra os desvios... Exemplo: Somatório acumulado:

14 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa
Além de a soma dos desvios em relação à média ser sempre nula, a média é a referência que minimiza a soma dos desvios quadráticos (S.D.Q.). Demonstração - busca do parâmetro a que minimiza o S.D.Q.: Exemplo: Soma dos desvios quadráticos com relação à média (177): 938 Soma dos desvios quadráticos com relação a 176: 958 Soma dos desvios quadráticos com relação a 178: 958

15 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa
Medidas de Dispersão ou Variabilidade: Desvio Absoluto Médio: valor médio da distância dos indivíduos com relação à média; Variância e desvio padrão; Desvio Absoluto Médio Variância Desvio-Padrão

16 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa
Estimador não-tendencioso da Variância: Por que N-1??? Resposta: para que a esperança matemática deste estimador seja a variância real 2. Como minimiza o S.D.Q., se dividíssemos por N, o estimador tenderia a subestimar a variância.

17 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa
Medidas de Dispersão ou Variabilidade (cont.): Percentis: o percentil de P% é o valor abaixo do qual se encontram P% dos indivíduos: 10% - 90% 25% - 75%  Primeiro e Terceiro Quartis (Q1 e Q3) Distância Interquartil = Q3-Q1 4, , ,25 Q1=174,5 cm xm=176,5 cm Q3=179,75 cm DI = 179,75-174,5 = 5,25 cm

18 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa
Tabelas e Gráficos: – Ogiva Histograma Intervalo (cm) Freq. Abs. 163,0 | 170,5 3 170,5 | 178,0 10 178,0 | 185,5 4 185,5 || 193,0

19 Tabelas, Gráficos e Medidas Descritivas - Var. Quantitativa
Mais Gráficos: (cm) (Q1 = 174,5; xm = 176,5; Q3 = 179,75 cm) ( = 177,0; sx = 7,026 cm) Box-plot Média e DP 1,5.DI = 7,875 cm 3,0.DI = 15,75 cm Q3+1,5.DI Q1-1,5.DI 166,625 cm 187,625 cm Q3+3,0.DI Q1-3,0.DI 158,75 cm 195,5 cm

20 Box-Plot com Variáveis Gaussianas

21 Introdução à Probabilidade
Conceitos Fundamentais: Espaço Amostral (E): é o conjunto de todos valores possíveis que uma variável aleatória pode assumir. Ex.: Lançamento de um dado  E = {1;2;3;4;5;6} Pressão sistólica  E = [60;320] mmHg Evento Probabilístico ou Aleatório: é qualquer sub-conjunto de E, e que traga um significado conceitual dentro do fenômeno estudado. Lançamento de um dado  A = {1;2} (números em que eu apostei...) Pressão sistólica  A = [110;130] mmHg (pressão normal...)

22 Introdução à Probabilidade
Conceitos Fundamentais: Relação entre Probabilidade e Proporção: Qual a probabilidade de sair o número 3 no lançamento de um dado de 6 faces? Dado honesto: p(3) = 1/6; Nada se sabe sobre a estrutura do dado: Lançamos um número muito grande de vezes e estimamos a probabilidade pela proporção de vezes que saiu o número 3 onde N3 é o número de vezes que resultou o número 3 e NT é o número total de lançamentos. Definição:

23 Introdução à Probabilidade
Propriedades: Seja A um evento probabilístico: 0  p(A)  1 p(A) = 0  A é impossível 0 < p(A) < 1 p(A) = 1  A é certo de acontecer Ex.: p(A) = 2/6 = 1/3 Conjunto complemento  Lógica “Não” p(E) = 1  p({ }) = 0, onde {} =  (conjunto vazio) E 1 2 A 3 4 5 6

24 Introdução à Probabilidade
Sejam A e B dois eventos... Excludência Probabilística: dois eventos são excludentes entre si (ou mutuamente excludentes) se a ocorrência de um EXCLUI a possibilidade de o outro ocorrer. p(A  B) = p(A) + p(B) se A e B são excludentes; p(A  B) = p(A) + p(B) – p(A ∩ B) caso contrário (caso geral); Conjunto União  Lógica “Ou” Conjunto Interseção  Lógica “&” E 1 2 A 3 4 B 5 6 E 1 2 A 3 4 B 5 6

25 Introdução à Probabilidade
Independência Probabilística: dois eventos são independentes entre si se o conhecimento sobre a ocorrência de um deles não traz qualquer informação sobre a probabilidade de o outro ocorrer, ou seja, a ocorrência de um não depende da ocorrência do outro. p(A ∩ B) = p(A) · p(B) se A e B são independentes; p(A ∩ B) = p(A) · p(B | A) caso contrário (caso geral); p(B | A) é a probabilidade condicional: lê-se “probabilidade de B dado A”.

26 Introdução à Probabilidade
Se A e B são independentes: p(A ∩ B) = p(A) · p(B), uma vez que p(B) = p(B | A) Exemplo: Lançamento de dois dados; qual a probabilidade de resultar 3 no 1o. dado (A) e 5 no 2o. dado (B)? p(A) = 6/36 =1/6 p(B | A) = 1/6 p(B) = 6/36 = 1/6 p(A ∩ B) = 1/36 E A B

27 Introdução à Probabilidade
Se A e B são dependentes: p(A ∩ B) = p(A) · p(B | A), Exemplo: Sorteio de duas bolas de um globo com 6 bolas sem reposição; qual a probabilidade de resultar 3 na 1a. bola (A) e 5 na 2a. bola (B)? p(A) = 5/30 = 1/6 p(B | A) = 1/5 p(B) = 5/30 = 1/6 p(A ∩ B) = 1/30 E A B

28 Introdução à Probabilidade
Exemplo: O = ser obeso; C = ter cardiopatia. p(O) = 0,1; p(C) = 0,2. Teorema de Bayes p(O ∩ C) = p(O) · p(C | O) = p(C) · p(O | C) = p(C ∩ O) p(A ∩ B) = p(A) · p(B | A) = p(B) · p(A | B) = p(B ∩ A) p(B | A) = p(B) · p(A | B) p(A) NC e NO p(C|O) População Obesos Não Obesos O e C 30.000 O e NC 70.000 NO e C NO e NC Cardio. Não Cardio. C e O C e NO NC e O p(O) p(C) p(O|C)

29 Distribuições de Probabilidade
São modelos probabilísticos que descrevem alguns comportamentos “padrões” de fenômenos aleatórios. Costuma-se “eleger” o modelo que seja mais adequado ao fenômeno analisado. Variáveis Discretas: Distribuição Uniforme (Valores equiprováveis) Ex.: Lançamento de um dado de 6 faces p(1) = 1/6; p(2) = 1/6; p(3) = 1/6; p(4) = 1/6; p(5) = 1/6; p(6) = 1/6.

30 Distribuições de Probabilidade
Distribuição Triangular Ex.: Lançamento de dois dado de 6 faces  Resultado = soma das faces E Resultados p _ /36 , /36 , 2+2, /36 , 2+3, 3+2, /36 , 2+4, 3+3, 4+2, 5+1 5/36 , 2+5, 3+4, 4+3, 5+2, 6+1 6/36 = 1/6 , 3+5, 4+4, 5+3, 6+2 5/36 , 4+5, 5+4, /36 , 5+5, /36 , /36 /36

31 Distribuições de Probabilidade
Distribuição Binomial Seja uma população de tamanho “infinitamente” grande, na qual a proporção de indivíduos com uma dada característica vale P. Qual a probabilidade de, em uma amostra de N indivíduos selecionados aleatoriamente desta população, k terem a tal característica? Ex.: P(C) = 0,1 ; N = 3 (C = canhotos; D = não canhotos )  P(D) = 0,9 E Indivíduos X, Y e Z p _ 0 DDD 0,9 3 = 0,729 1 CDD, DCD, DDC 3  0,1  0,9 2 = 0,243 2 DCC, CDC, CCD 3  0,1 2  0,9 = 0,027 3 CCC 0,1 3 = 0,001

32 Distribuições de Probabilidade
Distribuição de Poisson Seja um evento que se repete a uma taxa média de  vezes por unidade de tempo (UT). Qual a probabilidade de, em um determinado período de 1 UT, este evento ocorrer k vezes? Ex.:  = 1 e  = 4

33 Distribuições de Probabilidade
Variáveis Contínuas: Distribuição Uniforme Ex.: Ângulo de parada de um disco: E = [0, 360) Qual a probabilidade do ângulo 200? É a altura do gráfico?  NÃO. Qual a probabilidade de o ângulo estar entre 0 e 360?  100%. A área abaixo do gráfico vale 100% por definição. Só tem sentido falar de probabilidade para intervalos! Logo, o eixo vertical refere-se à Função Densidade de Probabilidade (pdf).

34 Distribuições de Probabilidade
Distribuição Gaussiana Teorema do Limite Central (TLC) [quem é central é o limite, e não o teorema!] Ex.: Altura da população masculina adulta ( = 175,7 cm e  = 7,3 cm) 68,27%  95,45%

35 Distribuições de Probabilidade
Distribuição Qui-Quadrada Resultante da soma de K variáveis gaussianas e independentes elevadas ao quadrado: K é o número de graus de liberdade; Ex.: Grandezas quadráticas por natureza, p.ex. Potência.

36 Ilustração do TLC Soma de dados de 6 faces:
Binomial aumentando-se o N:

37 Ilustração do TLC Poisson aumentando-se :
Qui-quadrada aumentando-se o número de graus de liberdade:

38 Inferência Estatística
A partir de informações imprecisas, procura-se ter o melhor conhecimento possível sobre a medida exata; ou... A partir de uma amostra, procura-se atingir conclusões sobre a população. Como é a população de onde a amostra analisada se origina? A amostra analisada origina-se de uma determinada população conhecida? Duas ou mais amostras podem ser consideradas originárias de uma mesma população? Estimadores Estatísticos Testes de Hipótese

39 Estimadores Estatísticos
Muitas vezes, desejamos estimar uma dada característica de uma população de interesse com base em uma amostra da mesma, composta por N indivíduos. Seja uma característica populacional (“verdadeira”) denotada por um parâmetro Q. Esta mesma característica, se extraída com base na amostra, representa tão somente uma estimativa de Q, denotada por Qual a confiabilidade / utilidade deste valor isolado? Como se estabelecer uma forma de inferência (i.e. entendimento sobre a população) a partir deste valor? Em torno deste valor estimado, estabelece-se um intervalo que possua elevada probabilidade de englobar o verdadeiro Q  Intervalo de Confiança. Intervalo de confiança de 95% (IC95%): intervalo que possui 95% de probabilidade de incluir o verdadeiro valor do parâmetro estudado.

40 Exemplo: Estimador da Média
Média populacional (valor “verdadeiro”):  Média amostral (estimativa de ): Para se obter o IC95%, primeiro, precisamos entender qual seria a distribuição de todas possíveis estimativas de média caso conhecêssemos a população: desta população, poder-se-iam selecionar muitas amostras de N indivíduos cada; cada amostra terá a sua média, sendo que cada uma destas médias é uma estimativa de ; qual a média de todas estas estimativas de  (qual o valor esperado das estimativas de média)?   mas algumas amostras terão sua média amostral abaixo de , enquanto outras terão acima de .  as estimativas possuem variabilidade; medida de variabilidade  desvio padrão... desvio padrão da estimativa de média  Erro-Padrão da média:

41 Exemplo: Estimador da Média
Com base nesse conhecimento, se considerarmos que a variável analisada é gaussiana, as estimativas de média também serão gaussianas; mesmo se a variável não for gaussiana, caso N seja suficientemente grande (N  30), a distribuição das estimativas de média se aproxima de uma gaussiana (TLC). Assim sendo, pode-se dizer que 95% de todas as amostras possíveis desta população terão média dentro do intervalo seguinte: , ou seja um intervalo para com base em . Mas queremos justamente o contrário: um intervalo para o valor de  com base em ! Caso conhecêssemos o verdadeiro Erro-Padrão da média, o caminho inverso seria análogo:

42 Exemplo: Estimador da Média
Contudo, não conhecemos o verdadeiro Erro-Padrão, uma vez que ele depende do desvio-padrão da variável analisada na população (x)! Mas podemos estimar também este desvio padrão com base na amostra: Amostra : estimativa da média populacional ; sx : estimativa do desvio padrão populacional x. Usando-se sx, podemos estimar o Erro-Padrão: mas isto acarreta um aumento na incerteza sobre o . Aumento de incerteza  alargamento do intervalo de confiança. Distribuição t de Student: incorpora a incerteza sobre o desvio-padrão (parece com a gaussiana, mas é mais larga) onde t* é o valor crítico e gl é o número de graus de liberdade (N-1).

43 Exemplo: Estimador da Média
Altura de mulheres adultas (cm). N = 38  gl = 37 = 161,84 cm sx = 7,25 cm = 1,177 cm Intervalo de Confiança de 95%: 158 162 164 154 160 153 155 173 163 157 165 168 169 156 175 179 167 172 151

44 Distribuição t de Student
p(tgl≤T) gl 0,600 0,750 0,900 0,950 0,975 0,990 0,995 0,9995 1 0,325 1,000 3,078 6,314 12,706 31,821 63,657 636,619 2 0,289 0,816 1,886 2,920 4,303 6,965 9,925 31,598 3 0,277 0,765 1,638 2,353 3,182 4,541 5,841 12,924 4 0,271 0,741 1,533 2,132 2,776 3,747 4,604 8,610 5 0,267 0,727 1,476 2,015 2,571 3,365 4,032 6,869 6 0,265 0,718 1,440 1,943 2,447 3,143 3,707 5,959 7 0,263 0,711 1,415 1,895 2,365 2,998 3,499 5,408 8 0,262 0,706 1,397 1,860 2,306 2,896 3,355 5,041 9 0,261 0,703 1,383 1,833 2,262 2,821 3,250 4,781 10 0,260 0,700 1,372 1,812 2,228 2,764 3,169 4,587 11 0,697 1,363 1,796 2,201 2,718 3,106 4,437 12 0,259 0,695 1,356 1,782 2,179 2,681 3,055 4,318 13 0,694 1,350 1,771 2,160 2,650 3,012 4,221 14 0,258 0,692 1,345 1,761 2,145 2,624 2,977 4,140 15 0,691 1,341 1,753 2,131 2,602 2,947 4,073 16 0,690 1,337 1,746 2,120 2,583 2,921 4,015 17 0,257 0,689 1,333 1,740 2,110 2,567 2,898 3,965 18 0,688 1,330 1,734 2,101 2,552 2,878 3,922 19 1,328 1,729 2,093 2,539 2,861 3,883 20 0,687 1,325 1,725 2,086 2,528 2,845 3,850 21 0,686 1,323 1,721 2,080 2,518 2,831 3,819 22 0,256 1,321 1,717 2,074 2,508 2,819 3,792 23 0,685 1,319 1,714 2,069 2,500 2,807 3,768 24 1,318 1,711 2,064 2,492 2,797 3,745 25 0,684 1,316 1,708 2,060 2,485 2,787 3,725 26 1,315 1,706 2,056 2,479 2,779 27 1,314 1,703 2,052 2,473 2,771 3,689 28 0,683 1,313 1,701 2,048 2,467 2,763 3,674 29 1,311 1,699 2,045 2,462 2,756 3,660 30 1,310 1,697 2,042 2,457 2,750 3,646 40 0,255 0,681 1,303 1,684 2,021 2,423 2,704 3,551 60 0,254 0,679 1,296 1,671 2,000 2,390 2,660 3,460 120 0,677 1,289 1,658 1,980 2,358 2,617 3,373 0,253 0,674 1,282 1,645 1,960 2,326 2,576 3,291

45 Testes de Hipótese Comparação entre uma amostra e uma população conhecida ou entre duas ou mais amostras. Hipótese Nula (H0): é a hipótese estatisticamente mais simples, envolvendo igualdade estatística, sendo presumida como verdadeira pelo tratamento matemático. Igualdade estatística: A amostra analisada pode ser considerada originária de uma população conhecida (A= 0); As amostras analisadas podem ser consideradas originárias de uma mesma população (A= B= ). Não confundir H0 com a hipótese teórica do estudo!!! Ex.: comparação entre médias de 2 amostras  H0 implica que a diferença esperada entre as médias é 0, portanto é fácil de ser modelado. Hipótese Alternativa (HA): é a hipótese contrária a H0, ou seja, desigualdade estatística. Ex.: comparação entre médias de 2 amostras 

46 Nível de significância (α)
Testes de Hipótese Verdade Indicação do Teste H0 HA Acerto Erro Tipo 2 β Erro Tipo 1 Nível de significância (α) Poder de Teste (1- β) Nível de significância: maior probabilidade que se permite de cometer o Erro Tipo 1 (arbitrário – valores comuns: 5%, 1%). β: maior probabilidade que se permite de cometer o Erro Tipo 2 (arbitrário – valores comuns: 20%, 30%).

47 Testes de Hipótese Aceita-se H0
Meta: conseguir que tanto α quanto β sejam suficientemente pequenos Valores comuns: α: 5%, 1% (quanto menor, mais estringente é o teste); β: 20%, 30% (quanto menor, mais poderoso é o teste). Maior permissividade com β: é mais difícil lidar com o Erro Tipo 2 que com o Erro Tipo 1 A distribuição de HA é estipulada pelo que teoricamente seria o pior caso possível explicável (menor diferença entre duas populações distintas que faria sentido pela teoria). Exemplo: diferença entre médias: β /2 α/2 /2 Aceita-se H0

48 Testes de Hipótese Compromisso entre α e β:
Sem se alterarem as curvas de H0 e HA (mesmos dados): Redução de α: aumenta-se k (alarga-se o intervalo de aceitação de H0); Neste caso, facilita-se a aceitação de H0 (mesmo se ela for falsa); Isto equivale a aumentar a área verde (β). Vice-versa, caso se reduza β... Para se ter α e β arbitrariamente pequenos: Deve-se estreitar as curvas  N deve ser suficientemente grande! β /2 α/2 /2 Aceita-se H0

49 Teste Unilateral ou Unicaudal
Testes de Hipótese Lateralidade do Teste: Alguns testes permitem a escolha entre várias opções de HA; Por exemplo: comparação entre médias  Teste Bilateral ou Bicaudal; ; . Utiliza-se um teste unilateral quando, pela teoria, não se espera ou não é justificável que haja diferença verdadeira em um dos “lados da desigualdade”. Teste Unilateral ou Unicaudal α/2 α/2

50 Testes de Hipótese Comparações com base em variáveis categóricas:
Usualmente, usam-se testes que comparam proporções, tais como o Teste Qui-Quadrado e o Exato de Fisher. Comparações com base em variáveis quantitativas: Mais comuns: testes que comparam médias, tais como o teste-t e ANOVA (Análise de Variância); Em alguns casos, é mais adequado o uso de testes que comparam medianas, tais como Testes de Mann-Witney, Wilcoxon e Kruskal-Wallis (testes não-paramétricos); Outros parâmetros descritivos podem ser também comparados, tais como a variância (Testes de Fisher e de Bartlett).

51 Teste t de Student para Amostras Independentes
Comparação entre médias de 2 grupos. H0: igualdade entre médias (ambos grupos são amostras de uma mesma população gaussiana). Condições para poder ser usado: Os indivíduos que compõem cada grupo devem ser independentes entre si (independência intragrupo); Os indivíduos de um grupo devem ser independentes dos indivíduos do outro grupo (independência intergrupo); Os dados dos dois grupos devem ter distribuição gaussiana  testes de aderência; Os dados dos dois grupos devem ter mesma variabilidade (desvios-padrões / variâncias estatisticamente iguais)  testes de homocedasticidade. Grupo A: Grupo B: , onde sA  sB

52 Teste t de Student para Amostras Independentes
Parâmetro T: reflete o quão diferentes são as duas médias onde Sob a hipótese nula, o parâmetro T segue uma distribuição t de Student com NA+NB-2 graus de liberdade: Rejeita-se H0 se a diferença for significativamente grande, i.e. Teste bilateral: Teste unilateral positivo: Teste unilateral negativo:

53 Teste t de Student para Amostras Independentes
Exemplo: Comparação de alturas entre homens e mulheres Homens (cm): Mulheres (cm): ou t*0,95; 51 = 1,6753 T > t*  Rejeita-se H0 valor-p = 0, valor-p <<   Rejeita-se H0

54 Teste t de Student para Amostras Independentes
Por exemplo, para teste bilateral... Caso 1: T fora do intervalo de H0 (rejeita-se H0) valor-p <  Caso 2: T dentro do intervalo de H0 (aceita-se H0) valor-p >  Valor-p: probabilidade de ocorrer uma diferença entre médias tão grande quanto ou maior que T mesmo H0 sendo verdadeiro  probabilidade de se errar caso se rejeite H0  probabilidade de se cometer o Erro Tipo 1.

55 Teste t de Student para Amostras Pareadas
Comparação entre médias de 2 grupos em que há vinculação biunívoca entre indivíduos dos dois grupos. H0: igualdade entre médias (ambos grupos são amostras de uma mesma população gaussiana). Condições para poder ser usado: Os indivíduos que compõem cada grupo devem ser independentes entre si (independência intragrupo); Cada indivíduo de um grupo deve ser vinculado a um indivíduo do outro grupo, formando um par (pareamento): NA = NB = N; Os grupos devem apresentar distribuição gaussiana (matematicamente, basta que as diferenças por pares tenham distribuição gaussiana); Os dados dos dois grupos devem ter mesma variabilidade (desvios-padrões estatisticamente iguais).

56 Teste t de Student para Amostras Pareadas
Como resolver a questão do pareamento, que torna os grupos interdependentes? P. ex., efeitos aditivos com autopareamento: xA1 = K1 + eA1 xB1 = K1 + eB1 xA1 – xB1 = eA1 – eB1, e a parcela comum desaparece Grupo A Grupo B Diferença xA1 xB1 D1 = xA1 – xB1 xA2 xB2 D2 = xA2 – xB2 xAN xBN DN = xAN – xBN

57 Teste t de Student para Amostras Pareadas
Parâmetro T: reflete, em média, o quão diferentes são os pares Sob a hipótese nula, o parâmetro T segue uma distribuição t de Student com N - 1 graus de liberdade: Rejeita-se H0 se a diferença for significativamente grande, i.e. Teste bilateral: Teste unilateral positivo: Teste unilateral negativo: ou se valor-p < 

58 ANOVA: Análise de Variância
Comparação entre médias de mais de 2 grupos. H0: igualdade entre médias (todos grupos são amostras de uma mesma população gaussiana). Condições para poder ser usado: Os indivíduos que compõem cada grupo devem ser independentes entre si (independência intragrupo); Os indivíduos de cada grupo devem ser independentes dos indivíduos dos outros grupo (independência intergrupo); Os dados de todos grupos devem ter distribuição gaussiana; Os dados de todos grupos devem ter mesma variabilidade  homocedasticidade.

59 ANOVA Baseia-se na comparação (razão) entre variâncias “entre grupos” e “intragrupos”: Ng = número de grupos; Ni = número de indivíduos no i-ésimo grupo; N = número total de indivíduos. glE = Ng – 1; glI = N – Ng; H0: a razão entre estas variâncias (f) é 1 (variâncias são iguais, uma vez que as médias são iguais e todos grupos são amostra de uma mesma população)  f ~ F glE, glI; rejeita-se H0 se f > Fcrit. Parâmetros calculados: Grande média: Variação total: Variação entre grupos: Variação intragrupos:

60 ANOVA SS gl MS f Entre SSE Ng-1 MSE MSI Intra SSI N-Ng Total SSE+ SSI
Caso haja diferença significativa (f > Fcrit), faz-se uso de testes post hoc (p.ex. Tukey e Scheffé) para identificar entre quais grupos há diferença. SS gl MS f Entre SSE Ng-1 MSE MSI Intra SSI N-Ng Total SSE+ SSI N-1

61 Testes Não-Paramétricos
Os testes vistos até agora baseavam-se em pressuposições acerca da distribuição de probabilidade dos dados  Testes Paramétricos. Quando tais pressuposições não são atendidas, pode-se lançar mão de Testes Não-Paramétricos, que não requerem uma distribuição específica. Grande parte dos Testes Não-Paramétricos baseiam-se na ordenação (ranqueamento) dos dados (estatística ordinal), podendo também ser usados em dados categóricos ordinais. Desvantagem: em casos onde um teste paramétrico fosse adequado, o uso de um teste não-paramétrico traria um menos poder de teste.

62 Testes Não-Paramétricos
Exemplos de testes não paramétricos análogos aos vistos até agora: Paramétricos: médias Não-Paramétricos: medianas Embora não requeiram uma distribuição específica, estes testes não-paramétricos, sob a hipótese nula, pressupõem que as amostras possuam mesma distribuição. Paramétrico Não-Paramétrico Teste t para amostras independentes Mann-Witney Teste t para amostras pareadas Wilcoxon ANOVA Kruskal-Wallis

63 Teste Qui-Quadrado Comparação entre proporções de indivíduos classificados de acordo uma variável categórica em dois ou mais grupos. H0: igualdade entre proporções (todos grupos são amostras de uma mesma população). Exemplo: comparação entre dois grupos considerando-se uma variável categórica dicotômica  Tabela de Contingência 22 Variável Grupo Sim Não Total 1 a b N1 = a + b 2 c d N2 = c + d NS = a + c NN = b + d N = a + b + c + d

64 Teste Qui-Quadrado Sob H0, as proporções seria iguais entre os grupos; logo, seriam iguais à proporção no total. Portanto, os valores esperados seriam: e uma medida de o quanto os valores observados diferem dos esperados seria: Variável Grupo Sim Não Total 1 a b N1 2 c d N2 NS NN N

65 Teste Qui-Quadrado Simplificando, temos:
Sob H0, X2 segue aproximadamente uma distribuição qui-quadrada com 1 grau de liberdade: X2 ~ 21. Assim, rejeita-se H0 caso X2 > 2crit. Yates propôs uma modificação para que o parâmetro X2 se aproxime mais de uma distribuição qui-quadrada (correção de continuidade): Caso o N seja menor que 20 ou se alguma das células da tabela de contingência tiver valor menor que 5, o Teste Qui-quadrado não deve ser utilizado, devendo-se optar pelo Teste Exato de Fisher.

66 Teste Qui-Quadrado Exemplo: comparação da proporção de óbitos em dois grupos que receberam dois tratamentos diferentes: Sem correção de Yates: X2 = 7,979 Com correção de Yates: X2 = 7,371 Valor crítico para distribuição qui-quadrada com 1 grau de liberdade e  = 5%: 3,8415  rejeita-se H0 e infere-se que o tratamento 1 é mais eficiente que o 2. Óbito Tratamento Sim Não Total 1 41 216 257 2 64 180 244 105 396 501

67 Teste Qui-Quadrado de McNemar
Comparação entre proporções de indivíduos classificados de acordo uma variável categórica em dois grupos pareados. H0: igualdade entre proporções (os grupos são amostras de uma mesma população). Exemplo: comparação entre dois tratamentos aplicados a mesmos indivíduos (cada indivíduo responde por um par de resultados) k e l representam os pares em que houve concordância de resultados com os dois tratamentos; r e s, os pares em que houve discordância. Tratamento B Tratamento A Sucesso Fracasso k r s l

68 Teste Qui-Quadrado de McNemar
Tratamento B Tratamento A Sucesso Fracasso k r s l Sob H0: r e s são fruto do acaso, esperando-se que sejam semelhantes (metade de todas discordâncias em cada). Assim, usando-se a correção de continuidade, temos: sendo que X2McN segue aproximadamente uma distribuição qui-quadrada com 1 grau de liberdade: X2McN ~ 21. Assim, rejeita-se H0 caso X2 > 2crit.

69 Regressão Linear e Correlação
Em vários fenômenos, parte da variação de uma das variáveis (dependente) pode ser explicada pela variação de outra(s) variável(is) (independentes). Deste modo, busca-se obter uma função matemática que melhor associe a variação entre estas variáveis: a mais comum é a função linear. Sejam duas variáveis, uma tida como independente (x) e outra como dependente (y), tal como ilustrado no exemplo abaixo: Podemos enxergar que, além de uma componente aleatória, uma parte da variação de y pode ser explicada linearmente pela variação em x: Procuram-se os valores de a e b que melhor explicam y a partir de x, ou seja, que minimizam o desvio quadrático entre y e : método dos mínimos quadrados.

70 Regressão Linear e Correlação
Aplicando-se o método dos mínimos quadrados, obtém-se: b é o coeficiente linear (ponto em que a reta cruza o eixo vertical); a é o coeficiente angular: se a > 0, a reta tende a subir (quanto maior x, maior y); se a < 0, a reta tende a descer (quanto maior x, menor y); se a é próximo de 0, indica que y e x não são relacionados entre si. Contudo, o valor de a só apenas indica a angulação da reta, mas não especifica o quanto da variação total de y depende da variação de x  Coeficiente de Correlação (Linear) de Pearson (entre -1 e 1):

71 Regressão Linear e Correlação
Exemplo: relação entre idade e nível de colesterol... a = 4,75 mg/dl/ano (coeficiente angular) b = 132,5 mg/dl (coeficiente linear) r = 0,7914 (coeficiente de correlação de Pearson) r2 = 0,6263 (coeficiente de determinação – percentual da variância de y explicada pela regressão)

72 Regressão Linear e Correlação
Considerações: Em geral, estima-se o intervalo de confiança para os verdadeiros coeficientes angular, linear e de correlação com base nos valores estimados a, b e r. Alternativamente, pode-se obter o valor-p para a hipótese nula de que  = 0 (a verdadeira correlação populacional seja nula), ou seja, de que não há correlação linear entre x e y. Se x e y são independentes entre si, necessariamente não há correlação entre eles. Contudo, se não há correlação entre x e y, não necessariamente eles são independentes. Ou seja, o fato de não haver correlação linear não implica que não haja outro tipo de correlação (não-linear), a não ser se x e y forem gaussianos!!! Isto significa que, se x e y apresentam distribuição gaussiana, caso haja correlação entre eles, esta correlação só pode ser linear.

73 Regressão Linear e Correlação
Considerações (cont.): Caso a relação entre x e y seja melhor descrita por uma função matemática não-linear, nem sempre o coeficiente de correlação de Pearson será capaz de indicar esta relação. a = -0,125 mg/dl/ano b = 304,5 mg/dl r = -0,04 r2 = 0,0016

74 Conceitos Básicos de Testes Diagnósticos
A qualidade de um teste diagnóstico refere-se à sua capacidade de refletir o verdadeiro status da doença em um indivíduo (doente [D] ou não-doente [ND]). Portanto, para se avaliar um teste diagnóstico, deve-se conhecer o verdadeiro status de um número suficientemente grande de indivíduos (tanto doentes quanto não doentes) por meio de outro método diagnóstico altamente confiável (padrão-ouro) e aplicar o teste nestes indivíduos: VP = Número de Verdadeiros Positivos; VN = Número de Verdadeiros Negativos; FP = Número de Falsos Positivos; FN = Número de Falsos Negativos; TD = Número Total de Doentes; TND = Número Total de Não Doentes; T+ = Número Total de Diagnósticos Positivos; T- = Número Total de Diagnósticos Negativos. Padrão-Ouro Teste D ND Total + VP FP T+ - FN VN T- TD TND N

75 Testes Diagnósticos Padrão-Ouro Teste D ND Total + VP FP T+ - FN VN T- TD TND N Um bom teste diagnóstico deve apresentar pequeno número de FP e FN! Sensibilidade e Especificidade: Sensibilidade: é a probabilidade de um teste dar positivo quando o indivíduo é realmente doente... s = p(+ | D)  Especificidade: é a probabilidade de um teste dar negativo quando o indivíduo é realmente não doente... e = p(- | ND)  Ou seja, ambos são medidas de probabilidade de o teste realmente acusar um determinado status conhecido.

76 Testes Diagnósticos Padrão-Ouro Teste D ND Total + VP FP T+ - FN VN T- TD TND N Mais interessante seria se conhecêssemos a probabilidade de o teste estar certo ao acusar algum diagnóstico  Valor Preditivo: Valor Preditivo Positivo: é a probabilidade de um teste estar correto ao dar positivo  VPP = p(D | +); Valor Preditivo Negativo: é a probabilidade de um teste estar correto ao dar negativo  VPN = p(ND | -); Caso a prevalência da doença possa ser estimada por , então os valores preditivos podem ser estimados diretamente da tabela: Caso contrário, estes valores saem a partir dos valores de sensibilidade, especificidade e prevalência da doença. Acurácia  probabilidade de o teste acertar em geral:

77 Testes Diagnósticos Fórmulas para se obter VPP e VPN a partir dos valores de sensibilidade, especificidade e prevalência (i.e., quando a proporção TD / N não reflete a verdadeira prevalência da doença):

78 Medidas de Associação Um determinado desfecho (p.ex.: uma doença) é associado à exposição a um determinado fator (de risco ou de proteção)? Exemplos de medidas de associação: Risco Relativo: o risco (probabilidade) de apresentar o desfecho é maior (ou menor) entre os indivíduos expostos que entre os não expostos? Razão de Chances (Odds Ratio - OR) de Desfecho: a chance de apresentar o desfecho entre os expostos é diferente da chance entre os não expostos? Razão de Chances de Exposição: a chance de ter sido exposto entre os indivíduos que apresentam o desfecho é diferente da chance entre os que não apresentam o desfecho?

79 Probabilidade vs. Chance
Desfecho Exposição Sim Não Total a b TE c d TNE TD TND N Probabilidade de alguém apresentar o desfecho entre os indivíduos expostos e não expostos: A chance é a razão entre as probabilidades de um evento acontecer e não acontecer. Logo, as chances de alguém apresentar o desfecho entre os indivíduos expostos e não expostos é dado por:

80 Risco Relativo Razão entre o risco (probabilidade) de apresentar o desfecho entre os indivíduos expostos e o risco entre os não expostos: Valores de risco relativo em torno de 1 sugerem não haver associação entre exposição e desfecho (H0): Como estimador: aceita-se H0 se IC95% engloba a unidade; Como teste de hipótese: aceita-se H0 se valor-p > 5% (=0,05) Desfecho Exposição Sim Não Total a b TE c d TNE TD TND N

81 Razão de Chances (OR) Desfecho Exposição Sim Não Total a b TE c d TNE TD TND N OR de desfecho: razão entre a chance de apresentar o desfecho entre os indivíduos expostos e a chance entre os não expostos: OR de exposição: razão entre a chance de ter sido exposto entre os indivíduos que apresentam o desfecho e a chance entre os sem desfecho: Valores de OR em torno de 1 sugerem não haver associação entre exposição e desfecho (H0): Como estimador: aceita-se H0 se IC95% engloba a unidade; Como teste de hipótese: aceita-se H0 se valor-p > 5% (=0,05)

82 Relação entre OR e RR Risco Relativo: Razão de Chances:
Desfecho Exposição Sim Não Total a b TE c d TNE TD TND N Risco Relativo: Razão de Chances: No caso de uma doença ter uma prevalência (P) muito baixa: a << b  a + b  b c << d  c + d  d ou seja, a Razão de Chances pode ser vista como uma estimativa do Risco Relativo.

83 Visão Geral sobre Desenhos de Estudos Epidemiológicos

84 Tipos de Estudos Mais Comuns
Seccionais ou Transversais Observacionais: Coorte Caso-Controle Intervenção: Ensaios Clínicos Aleatorizados

85 Estudos Seccionais Duração do estudo consideravelmente mais curta que a dinâmica das características estudadas (consiste em um “retrato” da população). Amostragem suficientemente grande e representativa da população-alvo: Tipos comuns de amostragem: Amostragem aleatória simples; Amostragem por conglomerados; Visa, usualmente, análises descritivas (p.ex.: prevalências e incidências).

86 Estudos Seccionais Instrumentos de avaliação: Questionários:
Perguntas abertas; Perguntas fechadas; Mistos. Perdas. Exames Clínicos: Sensibilidade vs. especificidade. Medidas fisiológicas: Precisão; Calibração. Treinamento dos avaliadores: uniformização da coleta de informações

87 Estudos Seccionais Medidas de associação comuns:
Razão de Prevalências (RP - análoga ao Risco Relativo) e Razão de Chances Prevalentes (tipo de razão de chances). Por ser um estudo eminentemente descritivo, com base em amostras representativas da população, as proporções de desfecho são estimativas de prevalências na população, viabilizando-se o cálculo do RR, particularmente da RP. Limitação: mesmo detectando-se associação entre exposição e desfecho, nem sempre é possível estabelecer relações de causalidade, pois as informações de temporalidade podem não ser disponíveis.

88 Estudos de Coorte Coorte: grupo de indivíduos que apresentam uma característica em comum. No estudo de coorte, os indivíduos são selecionados quanto ao status de exposição. No início do estudo, nenhum indivíduo analisado apresenta o desfecho estudado. Ao longo de um período suficientemente longo (dependendo da dinâmica do desfecho estudado), os indivíduos são acompanhados e contabilizam-se as ocorrências de desfecho nas duas coortes. A associação entre a exposição e o desfecho é, normalmente, analisada pelo Risco Relativo.

89 Estudos de Coorte Outros nomes:
Longitudinal; Prospectivo; Seguimento (follow-up). A pertinência dos indivíduos em cada coorte se dá por motivos alheios ao estudo (não há interferência sobre o status dos indivíduos). Potenciais: Investigar a relação exposição-desfecho sob a óptica da causalidade; Abordar hipóteses etiológicas; Calcular medidas de Incidência; Examinar associações entre variáveis, usando medidas diretas de risco: Risco Relativo; Comparar a incidência da doença em uma ou mais coortes.

90 Estudos de Coorte Vantagens: Desvantagens:
Produz medidas diretas de riscos Fornece evidências mais fortes de que uma associação possa ser causal; Resultados mais facilmente generalizáveis a populações maiores; Muitos desfechos podem ser investigados simultaneamente. Desvantagens: Demorado e de alto custo relativo; Perdas de acompanhamento; Inadequado para doenças raras.

91 Estudos Caso-Controle
No estudo de coorte, os indivíduos são selecionados quanto ao status de desfecho. Comparam-se um grupo de pessoas indivíduos (casos) com outro de indivíduos não-doentes (controles) com características parecidas com os casos, usualmente vizinhos: Pode ser interessante realizar pareamento (por gênero, idade, etnia, etc.). O estudo é retrospectivo, avaliando-se se os indivíduos haviam sido ou não expostos ao fator estudado. A associação entre a exposição e o desfecho é, normalmente, analisada pela Razão de Chances.

92 Estudos Caso-Controle
Vantagens: Eficiente para doenças raras; Útil para gerar hipóteses sobre novas doenças ou surtos não usuais (pois é útil para examinar um grande número de variáveis preditoras); Usualmente de baixo custo. Desvantagens: Não permite obter medidas de riscos ou incidência; Permite a investigação de apenas um desfecho; Grande susceptibilidade a vieses: Viés de seleção: amostragem diferencial entre casos e controles; Viés de informação (memória) ou medida retrospectiva das variáveis preditoras.

93 Ensaios Clínicos Aleatorizados
Os indivíduos são alocados aleatoriamente em dois grupos diferentes quanto ao status de exposição. No início do estudo, nenhum indivíduo analisado apresenta o desfecho estudado, como no estudo de coortes; A diferença está na alocação dos grupos, que é feita pelo pesquisador. Ao longo do estudo, os indivíduos são acompanhados e contabilizam-se as ocorrências de desfecho nos dois grupos. A associação entre a exposição e o desfecho é, normalmente, analisada pelo Risco Relativo.

94 Ensaios Clínicos Aleatorizados
Critérios de Inclusão: Minimizar a heterogeneidade dos indivíduos. Critérios de Exclusão comuns: Existência de outras doenças; Mal prognóstico; Indivíduos não-colaborativos. Questões Éticas: Termo de Consentimento Livre e Esclarecido; Comitês Locais; Conselho Nacional de Ética em Pesquisa (CONEPE). Mascaramento (ou Cegamento): Tenta minimizar qualquer comportamento tendencioso devido ao conhecimento de qual tratamento está sendo usado; Cego vs. Duplo Cego.


Carregar ppt "Bioestatística Maurício Cagy Depto. de Epidemiologia e Bioestatística"

Apresentações semelhantes


Anúncios Google