A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

AVALIAÇÃO DE TESTES DIAGNÓSTICOS.

Apresentações semelhantes


Apresentação em tema: "AVALIAÇÃO DE TESTES DIAGNÓSTICOS."— Transcrição da apresentação:

1 AVALIAÇÃO DE TESTES DIAGNÓSTICOS

2 VARIAÇÃO BIOLÓGICA DAS POPULAÇÕES HUMANAS
Teste - distinção entre indivíduos com resultados normais e anormais – distribuição das características nas populações humanas. Figura – resultados do teste de tuberculina – grande grupo com 0 mm (sem enduração) e outro em torno de 20 mm – curva bimodal.

3 Separação dos indivíduos:
sem experiência anterior com tuberculose (sem enduração) – à esquerda com experiência anterior com a tuberculose (em torno de 20 mm) – à direita maioria pode ser distinguida – alguns no centro “zona cinza” que podem pertencer a qualquer uma das curvas. Característica com distribuição bimodal – fácil separar a maioria em dois grupos – doentes e saudáveis, por exemplo.

4 Maioria das características – distribuição unimodal – nenhum nível óbvio distingue os indivíduos.
Exemplo: culturas de urina em mulheres com infecção do trato urinário – de poucos organismos a 106/mm3 ( vezes) – sobreposição de valores dos resultados do teste para pessoas com e sem a infecção. Distribuição de valores na população das pessoas com e sem a doença – sem protuberância ou quebras – sem razão biológica de onde colocar o ponto de corte. Exemplo: culturas de urina – infecção no trato urinário (acima de 105 bactérias/mm3) – pessoas sem infecção (abaixo de 102/mm3) – entre 102 e 105/mm3 (incerteza de como interpretar). Distribuições unimodais ou bimodais – fácil distinguir os valores extermos normais e anormais – incerteza em casos que estão na “zona cinza” nos dois tipos de curvas.

5 Exemplo de distribuição unimodal (Figura) – nenhum nível óbvio distingue os hipertensos dos normotensos.

6 VALIDADE E CONFIABILIDADE
Validade (ou acurácia) – grau em que o exame é apropriado para medir o verdadeiro valor daquilo que é medido, observado ou interpretado – exemplo: ECG é um teste de maior validade, comparado à auscultação cardíaca com estetoscópio para detecção de alterações cardiovasculares da doença de Chagas. Confiabilidade (reprodutibilidade ou precisão) – consistência de resultados quando a medição ou exame se repete – exemplo: dois microscopistas lêem, independentemente um do outro, as mesmas lâminas de malária e chegam ao mesmo diagnóstico – nível máximo de confiabilidade – ambos podem estar errados.

7 RELAÇÃO ENTRE VALIDADE E CONFIABILIDADE
valor verdadeiro Acurácia Precisão a) Alta precisão e alta acurácia b) Alta precisão e baixa acurácia c) Baixa precisão e alta acurácia d) Baixa precisão e baixa acurácia

8 Generalização para os testes diagnósticos:
teste de baixa confiabilidade – baixa validade – de pouca utilidade este de alta confiabilidade – não assegura alta validade – exame pode ser reproduzível (resultados idênticos ou próximos quando repetidos), mas não ser capaz de discriminar corretamente as diversas situações – todos exames podem estar errados. Validade e confiabilidade – necessárias para avaliar a qualidade de um exame diagnóstico e a informação produzida.

9 VALIDADE

10 Quadro – Avaliação da validade de um teste diagnóstico.
Aplicação do teste - grupo de doentes e grupo de sadios – proporção de acertos (verdadeiros positivos e verdadeiros negativos) e de erros de classificação (falso-positivos e falso-negativos). Quadro – Avaliação da validade de um teste diagnóstico. Teste Doença Presente Ausente Positivo Verdadeiro positivo (a) Falso-positivo (b Negativo Falso-negativo (c) Verdadeiro negativo (d) 4. Erro de classificação (missclassification) É pratica comum considerar um teste diagnóstico normal ou não normal e a doença presente ou ausente. Mas de fato, ambos testes e doença geralmente ocorrem sobre uma amplitude de valores (isto é, eles são variáveis continuas) e informação é perdida quando eles são dicotomizados. Estudos epidemiológicos frequentemente perdem o direito (forfeit) por dados mais ricos (por exemplo, medidas continuas) por medidas que são facilmente interpretadas, tais como as estimativas da proporção de pessoa que provavelmente experienciam um resultado particular. Por exemplo um teste de pelo PPD para Mycobacterium tuberculosis pode ser falso negativo se o paciente tem uma resposta imune diminuída (como com AIDS, idade avançada, tratamento com agentes imunossupressores, ou na presença de uma infecção muito intensa), e falsamente positivo se o paciente tem sido (ou foi – has been infected) infectado por outro mycobacterium. Erros de classificação – múltiplas razões – biológicas e técnicas – exemplo.

11 SENSIBILIDADE E ESPECIFICIDADE
Questão mais importante – direção e grau do erro de classificação – em que extensão o erro conduz a conclusões enganosas e as conseqüências. Como se comporta o teste - na presença ou ausência da doença. Propriedades do teste – condições específicas de um estudo – resumem experiência de um grupo de pessoas – estimar a probabilidade de doença (ou não doença) em pacientes individuais (propósito clínico). Tomada de decisão – pedir ou não um teste. 4.1 Sensibilidade e Especificidade (Trecho do livro do Nelson e Williams na pagina 273 e 274: Em adição ao significado tradicional do termo sensibilidade, em referencia a imunodiagnosticos, tb pode se referir ao mínimo nível de antígeno ou anticorpo que pode ser detectado por um dado teste. Especificidade pode tb se referir a habilidade de um ensaio particular distinguir uma antígeno de outro.) Enquanto é fácil aceitar que tais erros de classificação podem ocorrer, a questão mais importante é a direção e o grau do erro de classificação. Estas informações podem ser utilizadas para estimar a extenção na qual o erro de classificação conduz a conclusões enganosas (misleading – ou na direção errada???) na pesquisa epidemiológica, e as conseqüências do erro. Um tipo de questão acerca do erro de classificação é quão bem um teste se comporta na presença ou ausência de doença. Duas estatísticas resumo (summary statistics), sensibilidade e especificidade, são comumente usadas para descrever este tipo de erro de classificação por testes diagnósticos (Figura 9-2). Estimativas de sensibilidade e especificidade são propriedades de um dado teste sob condições especificas do estudo no qual a questão de pesquisa se aplica. Estudos resumem a experiência com um grupo de pessoas, para propósitos de pesquisa e de saúde pública, mas podem ser utilizados para estimar a probabilidade de doença em pacientes individuais para propósitos clínicos.

12 SENSIBILIDADE S = a / (a + c)
Teste Doença Presente Ausente Positivo a b Negativo c d Totais a + c b + d Medidas S = a / (a + c) E = d / (b + d) Sensibilidade - proporção de pessoas com a doença que têm um teste positivo – mede o grau em que o teste detecta a doença se ela está presente (sem levar em consideração a quantidade de falsos-positivos). Teste sensível - detecta grande proporção de doentes. Exemplos de testes sensíveis para doenças infecciosas – poucos falso-negativos - testes baseados na reação em cadeia de polimerase - PCR – em teoria detecta uma única molécula do DNA. Sensibilidade descreve a proporção de pessoas com a doença que tem um teste positivo. É uma medida de quão bem o teste detecta a doença se ela esta presente, sem levar em consideração se é produzido ou não resultados falsos positivos no processo. Sensibilidade é uma razão (ratio), que tem no numerador o número de pessoas com um teste verdadeiro positivo e no denominador o numero de pessoas com a doença na amostra sendo descrita. Um sinônimo é “taxa de verdadeiros positivos” (embora ela é de fato uma razão e não uma taxa, a qual implica uma dimensão de tempo). Bons exemplos de testes sensíveis para doenças infecciosas são aqueles baseados na reação em cadeia de polimerase, a qual pode em teoria reagir com uma única molécula do DNA especifico do organismo. O significado do termo “test sensitivity” (sensibilidade do teste) em epidemiologia não deve ser confundido com outro uso do termo, algumas vezes chamado de “analytic sensitivity”, em estudos clínicos e laboratoriais de doenças infecciosas: a habilidade de reagir a uma quantidade muito pequena de uma entidade biológica. Os dois são relacionados mas a “sensibilidade” epidemiológica é uma estatística resumo (summary statistic) descrevendo quão bem um teste pega (pick up) a doença em media em um grupo de pessoas, enquanto que sensibilidade biológica se refere a quão bem um método de laboratório se comporta em relação a um padrao biológico.

13 Escolha de testes sensíveis
Quando não se pode correr o risco de não detectar a doença. Doença perigosa, mas tratável (sífilis, tuberculose). Processo diagnóstico em que grande número de possibilidades são consideradas (excluir doenças - se der negativo tem grande chance de ser negativo mesmo – poucos falsos negativos) Probabilidade de doença é baixa e propósito é descobrir a doença: exame periódico, banco de sangue.

14 ESPECIFICIDADE E = d / (b + d)
Teste Doença Presente Ausente Positivo a b Negativo c d Totais a + c b + d Medidas S = a / (a + c) E = d / (b + d) Especificidade – proporção de pessoas sem a doença que têm um teste negativo – mede o grau no qual pessoas sem a doença são chamadas de normais pelo teste (sem levar em consideração a quantidade de falso-negativos). Teste específico – detecta grande proporção de pessoas não doentes. Exemplos de testes específicos – poucos falso-positivos - recuperação de herpes vírus do cérebro em um paciente com encefalite ou de Onchocerca em nódulos da pele. Especificidade é a proporção de pessoas sem doença que tem um teste negativo. Ela mede o grau no qual pessoas sem a doença são chamadas de normais pelo teste. Especificidade é uma razão, tendo no numerador o numero de pessoas na amostra com um resultado de teste verdadeiro negativo e no denominador o numero de pessoas sem a doença. Muitos acham mais fácil de interpretar o mesmo conceito com seus complementos, “taxa de falso positivos”, a proporção de pessoas sem a doença que são chamadas de anormais pelo teste, o que é [1 – Especificidade]. Exemplos de testes específicos são a recuperação de herpes vírus do cérebro em um paciente com encefalite ou de onchocerca em nodulos na pele.

15 Escolha de testes específicos
Quando falso positivo pode lesar física, emocional ou financeiramente o paciente, assim como dificuldade de "desrotular" uma pessoa que foi diagnostica como tendo doença e que posteriormente se descobre que não tem (AIDS). Teste com poucos falsos positivos - quimioterapia, indicação cirúrgia, doença estigmatizante, etc.

16 SENSIBILIDADE E ESPECIFICIDADE
Consideradas com um par. Em um dado teste – nível da sensibilidade é balanceada com o da especificidade. Não é possível interpretar a sensibilidade na ausência da especificidade e vice-versa.

17 VALORES PREDITIVOS Com o resultado na mão, a especificidade e sensibilidade de um teste não têm mais importância. Isto por que não se sabe se a pessoa que fez o teste está ou não doente (senão o teste não seria necessário!). Erro de classificação – resultado do teste após sua realização Valor preditivo positivo: probabilidade de doença, dado um teste positivo. Valor preditivo negativo: probabilidade de não doença, dado um teste negativo.

18 VALORES PREDITIVOS VP+ = a / (a + b) VP- = d / (c + d)
Teste Doença Totais Medidas Presente Ausente Positivo a b a + b VP+ = a / (a + b) Negativo c d c + d VP- = d / (c + d) Mais útil para o clínico: - resultado negativo de um teste sensível (poucos falsos negativos – se deu negativo tem maior probabilidade de ser negativo mesmo) - resultado positivo de um teste específico (poucos falsos positivos – se deu positivo tem maior probabilidade de ser positivo mesmo). 4.2 Valor preditivo Um outro tipo de questão que diz respeito a erro de classificação tem a ver com a interpretação do resultado do teste uma vez que ele tenha sido realizado: quão bem o resultado do teste diagnostico prediz a presença ou a ausência da doença? Duas estatísticas resumo são usadas para descrever esta informação. O valor preditivo positivo é a proporção de pessoas com um teste positivo que realmente tem a doença. Ele expressa o grau no qual um resultado de teste positivo representa a doença. O numerador é o numero de pessoas na amostra com um teste verdadeiro positivo e o denominador é o numero de pessoas com um teste positivo. Por exemplo, se 120 pessoas na amostra tem um teste positivo e 80 deles realmente tem a doença, o valor preditivo positivo é 67%. O valor preditivo positivo é uma estatística comparável para o teste negativo: a proporção de pessoas com um teste negativo que são verdadeiros negativos.

19 Determinantes de um valor preditivo
Depende das propriedades intrínsecas do teste (sensibilidade e especificidade) e da prevalência da doença na população que está sendo testada. Relação entre valores preditivos e sensibilidade e especificidade: - quanto mais sensível um teste, maior seu valor preditivo negativo (maior a segurança do médico de que a pessoa com teste negativo não tem a doença). - quanto mais específico um teste, maior seu valor preditivo positivo (maior a segurança do médico de que a pessoa com teste positivo tem a doença). Valores preditivos dependem não somente da sensibilidade e especificidade, as quais são propriedades do teste, mas tb na probabilidade geral da doença no grupo sendo testado. Na população, esta probabilidade é chamada de prevalência pontual, a proporção de pessoas em uma população definida que tem a doença. Em amostras ou indivíduos, é comum se referir a mesma estatística como a “probabilidade preteste”. Para uma dada sensibilidade e especificidade, valor preditivo positivo declina com a queda da prevalência (Figura 9-3 – pagian 200 – figura importante, precisa achar algo parecido na internet).

20 Relação entre valores preditivos e prevalência
Dada sensibilidade e especificidade – VP+ diminui e VP- aumenta com a queda da prevalência – Figura (S=95% e E=95%).

21 Teste com 90% de sensibilidade e de especificidade
Teste com 90% de sensibilidade e de especificidade. População X com prevalência de 5%. Resultado do teste Verdadeiro diagnóstico Total Doente Não doente Positivo 45 95 140 Negativo 5 855 860 50 950 1000 Teste com 90% de sensibilidade e de especificidade. População Y com prevalência de 30%. Resultado do teste Verdadeiro diagnóstico Total Doente Não doente Positivo 270 70 340 Negativo 30 630 660 300 700 1000

22 Cálculo dos valores preditivos para as duas situações com diferentes prevalências
População X (prev. = 5%) População Y (prev. = 30%) ↑ VP+ 45/140 32% 270/340 79% ↑ VP- 855/860 99% 630/660 95% ↓

23 AUMENTANDO A PREVALÊNCIA DE DOENÇA
Processo de referência - justifica-se o uso mais agressivo de testes diagnósticos em serviços de referência, pois probabilidade de doença é maior - na prática de atenção primária, por outro lado, ou especialmente em pacientes sem queixas, a probabilidade é menor e os testes devem ser utilizados com mais parcimônia. Grupos demográficos selecionados - é possível aumentar o rendimento dos testes diagnósticos, aplicando-os a grupos demográficos selecionados. Especificidades da situação clínica - sintomas, sinais e fatores de risco de doença aumentam ou diminuem a probabilidade de encontrar a doença. A disponibilidade crescente de testes diagnósticos facilita uma abordagem menos seletiva na solicitação de exames. Com isso, a prevalência tende a cair e, com ela, o VPP.

24 VALORES PREDITIVOS Prevalência abaixo de 0,01 – VP+ relativamente baixos - S E Doenças infecciosas – ocorrem em prevalência menores que 0,01. Conseqüência – muitos resultados falso-positivos. Pesquisas – erro de classificação – afeta validade da conclusão. Programas de rastreamento – testes falso-positivos e falso-negativos têm conseqüências para os indivíduos incorretamente classificados. Com a prevalencia abaixo de cerca de 1 para 100, valores preditivos positivos são relativamente baixo, mesmo para testes altamente sensíveis e especificos. A maioria das doenças infecciosas ocorrem a um valor de prevalência muito mais baixo na população geral, mas não necessariamente em cenários (setting) clínicos com grupos de pacientes que tem fortes fatores de risco para doença ou evidencia clinica que ela possa estar presente. Uma conseqüência é que os testes falso positivos são um fato da vida na maioria das pesquisas epidemiológicas e programas de rastreamento. No caso de pesquisa, erro de classificação de variáveis pode afetar a validade da conclusão. Em programas de rastreamento, testes falso positivos e falso negativos tem conseqüências pessoais para os indivíduos que são incorretamente classificado

25 Valores preditivos positivo e negativo
Obtidos através do Teorema de Bayes – com base na sensibilidade (S), especificidade (E) e prevalência (P). Estimativa - com base em novas informações – mudança de prevalência, por exemplo.

26 FATORES QUE AFETAM A ESTIMATIVA DA PERFORMANCE DO TESTE
Medidas com menor nível de erro de classificação possível – conhecer fontes de variação, minimizar vieses e ter amostra suficientemente grande. Performance do teste – estimar a extensão na qual os vieses remanescentes e a variação aleatória afetam as estimativas produzidas. 5. Validade Erro de classificação surge por causa da variação inerente em todas as medidas. Em termos gerais, variação surge por dois processos: viés (erro sistemático) e acaso (erro aleatório). Para obter medidas com tão pouco erro de classificação qto possível, é necessario saber as fontes de variação, minimizar vieses, e ter uma amostra sufientemente grande para conduzir a um estimativa precisa da performance do teste. É então necessário estimar a extenção na qual a variação aleatória e vieses remanescentes podem afetar a estimativa da performance do teste.

27 FONTES DE VARIAÇÃO Variações biológicas
Dentro dos indivíduos – varia com o tempo – pessoas infectadas com HIV podem ser soronegativas em uma semana e soropositivas na semana seguinte – pessoas com um teste tuberculíneo positivo podem se converter em um teste negativo (infecção intensa ou imunodeficiência) – amostra em um ponto no tempo pode pegar algumas pessoas que originalmente teriam um teste positivo em um momento cujos testes produzem resultados negativos. Entre indivíduos – diferenças no estado da infecção entre indivíduos. 5.1 Fontes de variação Variação em observações epidemiológicas, incluindo testes diagnósticos para doenças infecciosas, podem ser atribuídas a duas fontes gerais: biológicas e medidas. Variações biológicas ocorrem dentro e entre indivíduos. Primeiro, o estado real do individuo varia no tempo. Por exemplo, pessoas infectadas com HIV podem ser soronegativas em uma semana e soropositivas na próxima, com o passar do tempo desde a inicio da infecção. Similarmente, pessoas com um teste de pele tuberculineo positivo pode se converter em um teste negativo com uma infecção muito intensa ou imunodeficiência (com na AIDS). Uma amostra em um ponto no tempo pode pegar algumas das pessoas que originariamente tem um teste positivo em um momento quando seus testes são negativos. Variação biológica entre indivíduos ocorre por causa de diferenças no estado da infecção entre indivíduos (because of differences across individuals in the state of infection).

28 FONTES DE VARIAÇÃO Variações nas medidas
Atribuída ao instrumento utilizado para fazer a medida – meios de cultura, géis, sondas genéticas, etc. Meio de cultura impropriamente preparado para Neisseria gonorrhoeae – teste falso negativo. Culturas de sangue contaminadas – resultados falso positivos. Variação de medida é em parte atribuída ao instrumento usado para fazer a medida (meio de cultura, géis, sondas genéticas, e outros mais). Assim, um meio de cultura impropriamente preparado para Neisseria gonorrhoeae resultara em um resultado de teste falso negativo, enquanto que culturas de sangue contaminadas darão resultados falso positivos. Algumas variações de medidas podem ter atribuídas a pessoa fazendo a medida – por exemplo, o clinico lendo o teste de pele, o patologista lendo a colaração de tecido para organismos específicos, ou o técnico fazendo coloração de Gram.

29 VIESES Teste diagnóstico – erros sistemáticos na medida – aumentam erro de classificação – informação disponível para o teste é diminuída. Estudo epidemiológico – resultados com base em medidas imperfeitas – erros de classificação. Maior risco de viés – necessidade de julgamento na interpretação do teste ou diagnóstico – diagnóstico clínico de gripe. 5.2 Vieses Qq erro sistemático na medida contribui para variação e, no caso de um teste diagnostico, aumenta o erro de classificação de maneira que a informação disponível para o teste é diminuída. Em um estudo epidemiológico de doença infecciosa, todos os resultados são baseados em medida imperfeita ou defeituosa (faultu) são erros de classificação. Dois tipos de erros de classificação tendem a criar um maior correspondência entre os resultados do teste e o estado verdadeiro da doença do que realmente existe na natureza. O perigo para este viés é maior em situações onde há um grande elemento de julgamento na interpretação do teste ou no diagnostico, tais como leitura de coloração de acido rápido (acid fast stains) para mycobacteria ou colorações de prata (silver stain) para Pneumocystic carinii ou determinação de um diagnostico clinico de influenza ou infecção por hantavirus.

30 Dois tipos de erro de classificação
VIESES Dois tipos de erro de classificação Pessoa que interpreta o resultado do teste – pode introduzir viés se ela tem informações sobre as condições do paciente e levar isso em conta na interpretação do resultado do teste. Pessoa que dá o diagnóstico – conhece o resultado do teste e leva-o em conta no julgamento se a doença está ou não presente. Dois casos – raciocínio circular – resultado do teste e status da doença são mais fortemente associados do que seriam ao acaso – tendência natural de fazer o resultado do teste se ajustar ao diagnóstico e vice-versa. Por um lado, a pessoa interpretando o resultado do teste pode estar enviesada se ela ou ele tem outra informação se o paciente tem a doença e leva em conta esta informação quando da interpretação do resultado do teste. Por outro lado, a pessoa determinado o diagnostico pode conhecer os resultados do teste e leva-lo em conta quando do julgamento se a doença esta presente. Em ambas circunstancias, o raciocínio é circular: o resultado do teste diagnostico e estatus da doença estão mais fortemente relacionados um com o outro sob as condições do estudo do que eles estariam de outra maneira por causa da tendência natural de fazer um resultado de teste se ajustar com o diagnostico ou o diagnostico se ajustar com o resultado do teste. Usuários da informação são deixados incertos acerca de com quanto de informação adicional o resultado do teste contribui para o diagnostico.

31 CONTROLE DE QUALIDADE Instrumentos
Instrumentos diagnósticos – continuamente calibrados. Garantia de qualidade – desafio contínuo – falha nesta garantia é fonte de erro. Performance dos instrumentos – testadas contra um padrão ouro e retestadas em intervalos apropriados. 5.3 Controle de qualidade Instrumentos diagnósticos devem ser continuamente calibrados. É importante para os laboratoristas ou para usuários de testes diagnósticos semelhantes entender que calibragem (gauge???) e outros intrumentos de medida podem errar. Garantia de qualidade é um desafio continuo e falha em garantir a qualidade é uma importante fonte de erro. Algum nível de não sensibilidade e não especificidade é constantemente introduzido dentro dos testes diagnósticos devido a falhas de garantia de qualidade. Tais evento ocorrem com um resultado de erros humanos e com desgaste. O fabricante geralmente proporciona calibragens (gauges), rotor meters (???) e outros sensores que são usados rotineiramente para realização de calibragem. Estes por sua vez devem ser calibrados. Calibração é frequentemente feita pelo representante do fabricante ou por equipes que asseguram qualidade da própria instituição ou agencias do governo. Performance dos instrumentos devem ser testadas contra um padrão ouro e retestados em intervalos apropriados.

32 CONTROLE DE QUALIDADE Questionários
Propriedades - estabelecidas através de estudos de validade. Validade de conteúdo – incluí todos os aspectos a serem medidos – o teste será válido se for adequado para medir os aspectos que devem ser medidos. Validade de constructo – produz resultados consistentes com a teoria existente – se a prevalência da doença infecciosa aumenta com a idade na população – o resultado do teste (para ser válido) deve mostrar esta tendência. Validade lógica – julgar uma informação ou critério por sua lógica ou obviedade – o teste prediz manifestações verificáveis fisicamente do que está sendo medido. Princípios similares se aplicam a instrumentos baseados em questionários. As propriedades dos instrumentos são estabelecidas através de estudos de validade, incluindo se ele inclui todos os aspectos a serem medidos (validade de conteúdo), produz resultados que são consistentes com a teoria existente (validade do constructo) e prediz manifestações verificáveis fisicamente da coisa que esta sendo medida (criterion validity). Qualidade é mantida por seções de treinamento para assistentes de pesquisas e vigilancia em como os instrumentos estão sendo utilizados. Exemplo de validade de constructo (na aplicação geral): se a prevalência da doença infecciosa aumenta com a idade na população – o resultado do teste (para ser válido) deve mostrar esta tendência. Exemplo de validade lógica (na aplicação geral): os cardiologistas consideram o ECG como o instrumento de escolha para a quantificação da prevalência de miocardite chagásica em inquéritos populacionais pela sua utilidade em detectar padrões eletrocardiográficos característicos da enfermidade. Além disso, é um técnica fácil de ser aplicada, não-invasiva e de custo reduzido, que pode ser repetida, se necessário.

33 Testes dependentes de julgamento do observador
CONTROLE DE QUALIDADE Testes dependentes de julgamento do observador Diminuição do erro do observador: escolha de resultado objetivo - exemplos estabelecimento de regras de decisão – exemplo garantir que as regras de decisão são seguidas – treinamentos, reuniões para revisar regras, etc observadores mascarados medida da concordância entre observadores. Para testes que dependem de um julgamento do observador, erro do observador pode ser reduzido por vários métodos. (1) Alguém pode escolher um resultado objetivo que envolva relativamente pouco julgamento, tais como os resultados de uma cultura ou sonda genética. Entretanto, alguém faria isso somente se a medida fosse correspondente a questão de pesquisa; não somente para realizar mais medidas objetivas. (2) Pesquisadores podem criar explicitamente regras de decisões detalhadas para uso dos dados para atribuir os resultados dos testes e diagnósticos. Um exemplo é o conjunto de critérios para um diagnostico de pesquisa da síndrome do choque tóxico mostrado na Tabela 9-1. (3 – página 195) Pesquisadores podem tb assegurar que as regras de decisão são seguidas uniformemente por todos que coletam e codificam dados através do inicio da fase de coleta de dados do estudo com seções de treinamento e continuando com reuniões regulares para revisar as regras para levar em conta situações que não foram antecipadas quando as regras foram primeiramente estabelecidas. (4) Observadores podem ser mascarados de maneira que quem interpreta o teste não tenha outra informação acerca do diagnostico e aqueles que atribuem o diagnostico não tenham informações acerca do teste. (5) Em cada caso, investigadores devem medir a concordância entre observadores durante a coleta de dados e instituir medidas para corrigir qq causa identificada de discordância.

34 VARIAÇÃO ALEATÓRIA Erro de classificação – associado à variação aleatória. Questão principal – extensão na qual uma população incluída no estudo (amostra selecionada por método aleatório, sem viés) representa incorretamente a situação da população fonte por causa da variação aleatória das amostras – por exemplo, a verdadeira sensibilidade do teste é 80%, mas o valor amostral obtido pode ser maior ou menor que o parâmetro populacional. Problema ocorre em pequenas amostras de pacientes – reduzido em estudos com grandes amostras. 5.4 Variação aleatória Erro de classificação pode tb surgir por causa da variação aleatória. A principal questão é a extensão na qual uma população incluída no estudo , mesmo se selecionada por um método não viesado (aleatório), representa de maneira incorreta a situação da população fonte como um todo por causa da variação aleatória nas amostras. Este risco é especialmente alto para pequenas amostras de pacientes e pode ser reduzido pelo estudo de grande amostras.

35 VARIAÇÃO ALEATÓRIA Extensão do erro aleatório – em relação à performance do teste em estudo – estimada por métodos estatísticos – intervalo de confiança – precisão estatística da estimativa. Intervalo de 95% de confiança – há uma confiança de 95% de que o verdadeiro valor está no intervalo. Exemplo - medida (sensibilidade, especificidade ou valor preditivo) expressa em proporção – assumindo-se que os resultados têm distribuição binomial - intervalo de 95% de confiança ser expresso por: A extensão na qual erro aleatório pode ocorrer para a performance do teste observado é estima por métodos estatísticos e comumente expressa como intervalo de confiança para a estimativa, tb chamada de precisão estatística da estimativa. Um intervalo de 95% de confiança – por exemplo, da sensibilidade, especificidade ou valor preditivo – é interpretada com tendo ao menos 95% de chance de incluir o verdadeiro valor da população estudada. Para uma situação simples, comum em estudos epidemiológicos, no a medida (por exemplo, sensibilidade) é expressa como uma proporção, o intervalo de 95% de confiança pode ser aproximado assumindo-se que os resultados tem uma distribuição binomial. Assim, intervalo de 95% de confiança é igual a Onde é a proporção da distribuição binomial que inclui 95% dos valores, p é a proporção observada (por exemplo, sensibilidade ou especificidade) e N é o numero de observações. Em geral, o efeito de uma variação aleatória é diminuir a relação observada entre o resultado do teste e a doença, relativa ao que ela é na natureza. Mesmo com métodos meticulosos, tais como as regras de decisões, seções de treinamentos, e mascarmento, erro aleatório em resultados de testes diagnósticos introduz ruído que, se acumulado sobre medidas de muitos fenômenos, podem trocar o sinal (can drown out the signal) e resultar em um estudo negativo.

36 GENERALIZAÇÃO Determinação da performance do teste – depende da amostras de pessoas com e sem a doença que são incluídos no estudo de um teste diagnóstico. Características das pessoas – relacionadas com a sensibilidade, especificidade e valores preditivos – expectro de pacientes. Generalização da performance do teste – a quem os resultados se aplicam? 6. Generalização As amostras de pessoas com e sem uma doença infecciosa que são incluídos em um estudo de um teste diagnostico determinam a performance observada do teste. As características das pessoas na amostra podem estar fortemente relacionadas a sensibilidade e especificidade e portanto ao valor preditivo. A mistura particular de pacientes com estas características tem sido chamado de espectro de pacientes. A questão então surge: a quem os resultados do estudo se aplicam? A resposta é chamada de “generalização” (validade externa???) da performance do teste.

37 GENERALIZAÇÃO Sensibilidade
Sensibilidade observada do teste – determinada pela amostra de pessoas com doença – diferentes probabilidades de apresentarem teste positivo. Pessoas com doença de longo curso, avançada ou clássica – mais prováveis de apresentarem teste positivo em comparação a pessoas com doença recente, leve a atípica. Resultados amostrais em um grupo de pacientes com teste positivo mais provável – sensibilidade alta – exemplo. A amostra de pessoas com doença determina a sensibilidade observada do teste. Nem todos os pacientes com uma doença tem uma probabilidade similar de ter um teste positivo. Em geral, aqueles doença de longo curso, avançada ou clássica são mais prováveis de ter um teste positivo do que aqueles com doença recente, leve e atípica. Em resultados amostrais em um grupo de pacientes que são especialmente prováveis de ter um teste positivo, sensibilidade será alta. Por exemplo, esfregaços de escarro (sputum) e culturas para infecção por Mycobacterium tuberculosis são prováveis de serem muito sensíveis em pacientes com AIDS bem estabelecida e doença pulmonar, uma situação na qual mycobaceterias se multiplicam para numeros massivos. Por outro lado, a sensibilidade é provável de ser mais baixa em uma amostra de pacientes com um teste de pele positivo e infiltração (infiltrate) mas que não são imunocomprimidos e não tossem.

38 GENERALIZAÇÃO Especificidade
Especificidade do teste - determinada pela amostra de pessoas sem a doença. Quanto mais os não doentes se assemelharem com o doentes – maior o probabilidade de ocorrerem falsos positivos – exemplo. Quanto mais saudáveis são os não doentes – maior a especificidade – exemplo. A amostra de pessoas sem doença determina a especificidade do teste. O quanto mais eles se assemelhem com aqueles com a doença, mais prováveis são os resultados de teste de serem falso positivos (isto é, menos a especificidade). Assim, pessoas com uma variedade de doenças que elevam as imunoglobulinas do soro tem reações falso positivas em testes de segunda geração para hepatite C. Estas são, desafortunadamente, as muitas doenças para as quais algum quereria usar o teste para distinguir pessoas sem hepatite C de pacientes realmente infectados com hepatite C. Por outro lado, quanto mais saudáveis são os não casos, maior a especificidade. Tem sido mostrado muitas vezes que se voluntários normais são usados como os controles não doentes, poucos tem testes anormais e especificidade é muito alta.

39 GENERALIZAÇÃO Prevalência - não afeta sensibilidade e especificidade – mas ocorre associação entre as medidas – ambientes com altas e baixas prevalências apresentam diferenças no espectro dos pacientes – exemplo. Principal meta na escolha de uma amostra – adequada à questão pesquisada – exemplo. Embora a prevalência ela mesma não afete a sensibilidade e a especificidade, há comumente uma associação entre as duas porque os cenários nos quais alta e baixa prevalências ocorrem são tb aqueles nos quais os espectros de pacientes diferem. Assim, o valor preditivo para testes de chlamydia em um clinica de doenças sexualmente transmissíveis pode ser mais alto do que na população geral não somente por causa da maior probabilidade da doença na clinica mas tb porque pacientes lá estão mais severamente afetados, e assim mais prováveis de produzirem um resultado positivo, do aqueles com infecções menos severas na população em geral. A principal meta na escolha de uma amostra é pegar uma que se equipare (match) com a questão pesquisada. Por exemplo, se alguém quer saber a acuracia do teste de pele para tuberculose entre pacientes com AIDS, casos devem ser aqueles com AIDS e tuberculose e não casos aqueles com AIDS e sintomas e sinais similares mas sem tuberculose.

40 GENERALIZAÇÃO Estudos de testes diagnósticos – registros clínicos e não experimentais Amostra ideais de não casos – geralmente não disponíveis – padrão-ouro é custoso e invasivo – não aceitável para pacientes sem evidências de a doença esteja presente – exemplo. Dados da prática clínica – informação incompleta sobre a performance do teste em pessoas sem a doença – tem-se a informação apenas para os com testes positivos em análises preliminares – amostra com viés daqueles sem a doença. Problema pode ser superado – testagem de pessoas sem resultados positivos em testes preliminares Dados para estudos de testes diagnósticos geralmente vem de registros clínicos, não experimentais. Frequentemente dados para amostras ideais de não casos não são disponíveis porque os processo de estabelecimento de um diagnostico padrão ouro é tão custoso e invasivo que não aceitável aplica-lo a pacientes que não tem evidencia, de observações mais simples tais como fatores de risco epidemilogico a sintomas e sinais clínicos, de que a doença é provável de estar presente. Assim um pediatra na pratica clinica não obteria culturas de sangue de criança sem febre ao menos que houvesse forte evidencia de bacterimia, mesmo embora algumas das crianças sem cultura poderiam de fato ter bacteremia. Como uma conseqüência, quando dados são da pratica clinica há informação incompleta acerca da performance do teste em pessoas sem a doença; somente aqueles com testes positivos anteriores, uma amostra inviesada de todos os pacientes sem a doença, são incluídos.O resultado é uma inabilidade para determinar sensibilidade e especificidade, e embora valor preditivo positivo possa ser obtido, valor preditivo negativo não pode (não entendi isso direito). Este é um problema importante; se os dados não estão disponíveis, nenhuma quantidade de analises por arrumar o deficit (make up the déficit). Algumas vezes o problemas pode ser superado pela obtenção de consentimento para tetagem de pessoas sem resultados positivos de testes preliminares ou pelo encontro de uma amostra ocorrendo naturalmente, talvez em um cenário diferentes, no qual tal testagem possa ser feita.

41 RESULTADOS CONTÍNUOS Resultados dicotômicos – testes para a presença de infecção usando cultura e diagnóstico molecular – presente ou ausente. Testes sorológicos, de pele e outros – reação biológica do hospedeiro à infecção – raramente dicotômicos – são contínuos. Exemplo: culturas de urina em mulheres com infecção do trato urinário – de poucos organismos a 106/mm3 ( vezes) – sobreposição de valores dos resultados do teste para pessoas com e sem a infecção. Distribuição de valores na população das pessoas com e sem a doença – sem protuberância ou quebras – sem razão biológica de onde colocar o ponto de corte. 8. Alem do teste e doenca dicotômicos Até este ponto, o resultado do teste e a presença da doença foi discutida como variáveis dicotômicas. Testes para a presença da infeccção usando vários métodos variando de cultura a diagnostico molecular produz de fato um resultado presente ou ausente. Entretanto, testes para doenças infecciosas (tais como testes sorológicos e testes de pele) que são baseados na reação biológica do hospedeiro a infecção são raramente realmente dicotomicos. Quase todos podem tomar uma variação de valores, isto é, eles são expressos como variáveis continuas. Assim culturas de urina (o teste) em mulheres com infecção do trato urinario cuidadosamente documentada (a doenca) podem variar acima de vezes, de uns poucos organismos a mais de 106/mm3. Há geralmente uma sobreposição nos valores dos resultados do teste para pessoas com e sem infecção. Mais ainda a distribuição de valores na população de pessoas com e sem a doença geralmente não tem protuberâncias ou quebras que sugiram um razão biológica para decidir onde colocar o ponto de corte entre os valores normais e não normais. Por exemplo, enquanto é claro que culturas de urina mostrando-se maiores do que 105 bacterias por ml ou mm3 claramente representam infecção do trato urinário, e que concentrações negligenciáveis de bactérias são detectadas são coletadas em especimens coletados de pessoas que não estão infectadas, há incerteza em como interpretar valores na variação entre 102 e 105.

42 Normal e não normal Resultado “anormal” do teste – nível além do qual um teste é considerado não normal. Definição de “normal” – criação de uma variável dicotômica a partir da contínua – escolha do ponto de corte separando “normais” de “não normais” na distribuição dos valores dos resultados do teste. Escolha – papel do investigador – balanço entre sensibilidade e especificidade - inversamente relacionadas. 8.1 Definindo normal e não normal É comum definir um nível alem do qual um teste é considerado não normal. Frequentemente uma definição estatística de anormal é usada. Isto é frequentemente definido como além de dois devios padrões da media de uma população de pessoas aparentemente saudáveis. A definição estatística de anormal é artificial, do ponto de vista epidemiológico e clinico. Por exemplo, por esta definição a prevalência de todas as doenças infecciosas seria de 5%. Decisões mais substantivas acerca do que considerar anormal leva em conta a amplitude de valores que esta associada com doença clinica ou melhoria com tratamento. 8.2 Escolhendo um ponto de corte Para que a definição de normal seja atribuída e seja criada uma variável dicotômica de uma continua, alguém requer uma escolha acerca de onde o ponto de corte entre normal e anormal seja colocado na distribuição do valores dos resultados dos testes. A escolha é papel do investigador e necessariamente envolve um “trade off” (perdem em ponto para ganhar em outro).

43 Ponto de corte Sensibilidade e especificidade – inversamente relacionadas – dependem do ponto de corte estabelecido - Exemplo - teste tuberculíneo – teste altamente sensível ou específico para Mycobacterium tuberculosis em função do ponto de corte. Teste tuberculíneo – entre 5 a 15 mm proporciona informação útil do ponto de vista do diagnóstico. Ponto de corte baixo (<= 2 mm de induração) – teste altamente sensível – quase todos os casos seriam detectados – muitos diagnósticos falso-positivos (baixa especificidade). Ponto de corte alto (> 20 mm de induração) – teste altamente específico – poucas pessoas seriam falsamente taxadas como tuberculosas – muitos falso-negativos (baixa sensibilidade). Sensibilidade e especificidade são inversamente relacionados assim que alguém mova o ponto de corte de um valor baixo para um valor alto. É possível estabelecer um teste de pele tuberculineo que é altamente sensível para infecção por Mycobacterium tuberculosis (ou alternativamente, muito especifico) pelo local da colocação do ponto de corte. Experiência tem mostrado que pontos de corte de cerca de 5-15 mm proporciona informação diagnosticamente útil. Se alguém quer configurar o ponto no qual o teste foi chamado de positivo extremante baixo, talvez em 2 mm de induração, o teste detectaria quase todos os casos (isto é, altamente sensível) mas resultaria em muitos diagnósticos falso positivos. Por outro lado, se alguém chamasse de positivo somente aqueles com testes resultanto em maior do que 2.0 cm de induração, poucas pessoas sem tuberculose seriam falsamente taxadas como tendo a tuberculose (isto é, alta especificidade) mas haveriam muitos falso negativos.

44 Sensibilidade X especificidade
Balanço entre sensibilidade e especificidade para um dado teste – sem ganho de informação. Mais informação – teste melhor, em vez de mover ponto de corte. Informações epidemiológicas – ajudam na escolha do ponto de corte com aumento tanto da sensibilidade como da especificidade – exemplo de três situações para consideração de um teste tuberculíneo positivo: >= 5mm de induração em pessoa com radiografia de tórax anormal >= 10mm em pessoa com teste negativo recente >= 15mm em pessoa sem outra razão para suspeita de tuberculose. Como é possível aumentar a sensibilidade a custa da especificidade, e vice versa, vendo um ou outro isoladamente não diz a alguém se o teste contribui com um ganho liquido (net gain) na informação acerca do diagnostico. Em geral, sensibilidade e especificidade podem ser “traded off” uma contra a outra para um dado teste, sem ganho de informação. Para ter mais informação, alguém deve utilizar um teste melhor, não somente mover o ponto de corte. Informações epidemiológicas podem ajudar investigadores ou clínicos a escolher um ponto de corte que aumento tanto a sensibilidade como a especificidade. Por exemplo, alguém poderia escolher chamar um PPD com 5 mm de induração com um teste positivo em pessoas com um “abnormal chest roentgenograma” (radiografia de tórax anormal), um PPD de 10 mm positivo em uma pessoa que teve um teste negativo recente, e um PPD de 15 mm positivo em pessoas que não outra razão para suspeita de tuberculose.

45 Curva ROC Relação entre sensibilidade e especificidade – curva ROC (receiver operating characteristic) – vários pontos de corte – Figura. Infecção bacteriana gram-negativa do trato urinário – padrão ouro: aspiração da bexiga com agulha ou com uso de cateter – teste: cultura de urina – população: mulheres jovens com sintomas sugerindo infecção do trato urinário. Ponto de corte em 105 – Sensibilidade = 52% - 48% das mulheres com a infecção são chamadas de normais. Aumento do ponto de corte – sensibilidade diminui e especificidade aumenta (diminuição - vice-versa). A relação entre sensibilidade e especificidade em vários pontos de corte para normais e anormais é mostrada graficamente como um “receiver operating characteristic (ROC) curve”. Figura 9-4 (pagina 206) mostra um exemplo. O teste é uma cultura de “clean catch urine” (urina coletada limpa???), a doença é uma infecção bacteriana gram-negativa do trato urinário, confirmada por “catheterization” (através do uso de cateter???) ou aspiração com agulah do bixiga, a população de jovem mulheres com sintomas sugerindo infecção do trato urinário. Um ponto de corte tradicional para infecção é 105 bacterias por ml ou mm3; foi estabelecido na mulher com pielonefrite e funciona bem para elas. Entretanto, algumas mulheres com doença menos severa estavam infectadas com contagens tão baixas quanto 102. Com o ponto de corte entre normal e anormal sendo aumentado, sensibilidade diminui e especificade aumenta. Nom ponto tradicional de 105, 48% das mulheres infectadas são chamadas de normais.

46 Figura – Curva ROC – Cultura de urina X presença de bactéria na urina.
>=1 102 103 104 105 Figura – Curva ROC – Cultura de urina X presença de bactéria na urina. Fonte: Stam WE, Counts GW, Running KR, et al. Diagnosis of coliform infection in acutely ill dysuric women. N. Engl. J. Med. 307: , 1982.

47 Curva ROC Curva ROC – sensibilidade X (1 – especificidade) – valores correspondentes aos pontos de corte. Canto superior esquerdo da curva – testes que distinguem bem normal e anormal. Área sob a curva – quanto maior, mais o teste contribui com informação. Performances dos testes – comparação das áreas sob a curva. Curva na diagonal – teste não contribui com informação além daquela que existiria em função do acaso. No casos geral, curvas ROC plotam sensibilidade no eixo vertical contra (1 – especificidade) no eixo horizontal. A curva mostra a sensibilidade e a (1-especificidade) correspondente ao ponto de corte. Testes que distinguem bem normal e anormal ocupam o canto superior esquerdo da figura. Aqueles que contribuem com nenhuma informação alem do que era conhecido ante que o teste fosse aplicado (probabilidade preteste – é a prevalência???) tem curvas ROC na diagonal (???). É possível caracterizar a informação com a qual um teste contribui pela area sob a curva e comparar as performances dos testes pela comparação de suas áreas olhando se diferenças observadas estão alem do acaso.

48 Escolha do ponto de corte
Depende - conseqüências do resultado do erro de classificação. Teste sensível – importante descobrir a maioria dos positivos (cuidados com os pacientes, p.e.) – baixo (ou alto) ponto de corte – muitos falso-positivos. Teste específico – conseqüências de um diagnóstico falso-positivo (HIV) – alto (ou baixo) ponto de corte – muitos falso-negativos. Balanço entre sensibilidade e especificidade – inevitável – mas, um novo teste – melhor em sensibilidade e especificidade que os testes anteriores. Novo teste – mais avançado em direção ao canto superior esquerdo da curva ROC do que os anteriores. A escolha de onde colocar o ponto de corte é dirigida pelas conseqüências do resultado do erro de classificação. Um teste cuja intenção é ser sensível – porque é importante (para os propósitos da descrição epidemiológica, cuidado do paciente, ou pesquisa) descobrir a maioria dos casos – deve ter um baixo ponto de corte (ou alto dependendo da direção dos valores do teste), mesmo se isto resulta em um substancial numero de resultados de teste falso positivos. Por outro lado, um teste que deva ser muito especifico, por causa de conseqüências importantes de um diagnostico falso positivo, como no caso com infecção por HIV, podem precisar ser operado com um alto ponto de corte (ou baixo dependendo da direção dos valores do teste), mesmo as custas da sensibilidade. Para um dado teste, o “trade off” entre sensibilidade e especificidade é inescapável. Entretanto, um novo teste pode ser melhor em ambos sensibilidade e especificidade, não requerendo muito “trade-off entre os dois com seus predecessores. Em uma curva ROC, o novo teste estaria mais avançado no quanto superior esquerdo do que o teste mais velho.

49 COMBINAÇÃO DE TESTES Testes únicos – raramente suficientes.
Geralmente – vários são utilizados juntos – combinação de testes produz uma estratégia diagnóstica. Múltiplos testes – aumento da qualidade do diagnóstico – menos resultados falsos. Testes - série e paralelo. 9. Combinação de testes (este assunto tb tem a ver com rastreamento) Testes diagnósticos únicos são raramente suficientes; ordinariamente vários são usados juntos. A combinação de testes diagnósticos confecciona (ou prepara - make up ???) uma estratégia diagnostica. Vários tipos de estratégias combinadas são possíveis, dependendo da maneira como os testes são combinados.

50 Testes em paralelo Testes solicitados todos ao mesmo tempo – resultado positivo em qualquer um dos testes é evidência de doença – nenhum positivo é evidência contra a doença. Exemplo 1: infecções por fungos – difíceis de serem detectadas – pode-se utilizar conjuntamente culturas, testes de pele e testes sorológicos para diagnóstico. Exemplo 2: infecção por Streptococcus beta hemolítico do grupo A – utilizar conjuntamente informações clínicas e epidemiológicas – febre purulência, adenopatia cervical, idade, localização geográfica, estação do ano) – para diagnóstico. Exemplo 3: Necessidade de diagnóstico rápido – situação de emergência. 9.2 Usando testes em paralelo Uma segunda estratégia é testar em paralelo. Alguém aplica vários testes juntos e um resultado positivo para qq um deles é considerado evidencia para doença. Se nenhum é positivo, isto é considerado evidencia contra a doença. Um exemplo é a testagem para infecções por fungos, muitas das quais são difíceis de serem detectadas, onde o clinico poderia usar culturas e colorações de escarro, testes de pele, e testagem sorológica juntos para ver se algum sugere infecção. Testagem em paralelo tende a aumentar as sensibilidade e diminuir a especificidade para a estratégia como um todo, relativo a qq testes individuais. 9.3 Regras de predição As informações de vários testes podem ser usada em conjunto para chegar a um único diagnostico. Este é um caso especial do uso de testes em paralelo. Por exemplo, alguém pode reunir as informações contidas nas feicções (features) clinicas e epidemiológicas de um paciente com garganta inflamada (febre, purulência, “cervical adenopathy”, idade, localização geográfica, estação do ano) para predizer se o paciente tem infecção com o “group A beta-hemolytic streptococcus”.

51 Testes em paralelo: Resultado: pelo menos um positivo  Sensibilidade
 VPN  Especificidade  VPP

52 Dois teste em paralelo = teste em paralelo positivo
= resultado positivo do teste A = resultado positivo do teste B

53 Sensibilidade combinada de dois testes em paralelo
Cálculo de probabilidade para união de dois eventos: = sensibilidade combinada dos testes em paralelo = sensibilidade do teste A = sensibilidade do teste B

54 Especificidade combinada de dois testes em paralelo
Resultado negativo da combinação dos testes em paralelo – todos negativos. Cálculo de probabilidades para intersecção de eventos: = especificidade combinada dos testes em paralelo = especificidade do teste A = especificidade do teste B

55 Exemplo de dois testes em paralelo
Teste A: S = 90% e E = 90%. Teste B: S = 80% e E = 90%

56 Cálculo dos valores preditivos positivo e negativo
Supondo prevalência de 10% - SP = 98% e EP = 81%

57 Testes em paralelo (para um mesmo valor de prevalência):
Sensibilidade, especificidade e valores preditivos positivo e negativo de dos testes A e B e da combinação em paralelo de A e B. Teste S (%) E (%) VP+ (%) VP- (%) A 90 50 98 B 80 47 97 A e B 81 36 99 Testes em paralelo (para um mesmo valor de prevalência):  Sensibilidade  VPN  Especificidade  VPP

58 Testes em série Processos diagnósticos que não requerem urgência – pacientes de ambulatórios ou internados para investigação diagnóstica. Testes muito caros ou que oferecem risco – testes mais seguros e baratos inicialmente – após resultado sugestivo utilizam-se testes mais caros ou de risco. Testes são aplicados seqüencialmente – segundo teste só será aplicado se o primeiro der positivo. Se o primeiro teste der negativo – não se justifica (geralmente) a realização do segundo teste. Primeiro teste – mais sensível – poucos falsos negativos e muitos falso positivos. Exemplo: Sífilis – inicialmente um teste não treponêmico e, se der positivo, um teste treponêmico como o FTA-ABS pode ser realizado. 9.1 Usando testes em serie Na testagem serial se o primeiro teste é positivo, um segundo é empregado; se o segundo é positivo, um terceiro é feito; e assim por diante. Esta estratégia é comum para rastreamento de doenças infecciosas. O primeiro teste é escolhido como sendo sensível, de maneira a perder poucos casos, barato, porque ele será aplicado a muitas pessoas, e seguro, porque não é ético expor pessoas ao risco quando elas estão bem. Alguns (frequentemente a maioria) da pessoas com um teste positivo tem resultados falso positivos. Um segundo teste é escolhido como sendo especifico, para evitar rotular as pessoas como tendo a doença sem na verdade te-las, por causa de muitas conseqüências, financeiras e humanas, que acompanham um teste falso positivo. Se um teste subseqüente é necessário, ele pode legitimamente ser mais caro e arriscado, porque esta sendo aplicado a relativamente menos pacientes e eles tem uma probabilidade aumentada de ter a doença, relativamente a população original rastreada. Testagem sorológica para sífilis é um exemplo de testagem em serie. Qq dos vários testes baseados no “lipid nontreponemal antigen” (provavelmente presente nos treponemas mas em outros tecidos tb) é sensível e barato e assim ele é usado em primeiro lugar. Se o teste reagente é positivo, é conveniente prosseguir para um teste para “treponemal antigen” mais especifico, sensível e caro, o FTA-ABS.

59 Testes em série A investigação prossegue com o resultado do testes anterior sendo positivo. Resultado final:  Especificidade  VPP  Sensibilidade  VPN Testagem em serie tende a diminuir a sensibilidade e aumentar a especificidade para a estratégia como um todo, relativamente aos testes individuais em serie. De fato, ele estabelece um padrão mais alto, com vários filtros, antes que o diagnostico seja atribuído.

60 Dois teste em série Investigação diagnóstica – prossegue se o primeiro teste der positivo. Teste em série positivo – se os dois testes forem positivos. = teste em série positivo = resultado positivo do teste A = resultado positivo do teste B

61 Calculo de probabilidade para intersecção de eventos.
Sensibilidade combinada de dois testes em série Calculo de probabilidade para intersecção de eventos. = sensibilidade combinada dos testes em série = sensibilidade do teste A = sensibilidade do teste B

62 Especificidade combinada de dois testes em série
Resultado final - pelo menos um resultado negativo. Cálculo de probabilidade para união de eventos. = especificidade combinada dos testes em série = especificidade do teste A = especificidade do teste B

63 Exemplo de dois testes em série
Teste A: S = 90% e E = 90%. Teste B: S = 80% e E = 90%

64 Cálculo dos valores preditivos positivo e negativo
Supondo prevalência de 10% - SP = 72% e EP = 99%.

65  Especificidade  VPP  Sensibilidade  VPN
Sensibilidade, especificidade e valores preditivos positivo e negativo de dois testes A e B e da combinação em série de A e B. Teste S (%) E (%) VP+ (%) VP- (%) A 90 50 98 B 80 47 97 A e B 72 99 89 Resultado final:  Especificidade  VPP  Sensibilidade  VPN

66 BIBLIOGRAFIA Fletcher RH, Halstead SB. Evaluation of Diagnostic Tests. In: Thomas JC, Weber DJ. Epidemiologic Methods for the Study of Infectious Diseases. University Press, Oxford, 2001, Gordis L. Epidemiologia. 2º Edição. Revinter, Rio de Janeiro 2004. Pereira MG. Epidemiologia. Teoria e Prática. Guanabara Koogan, Rio de Janeiro, 1995. Medronho RA, Perez MA. Teses Diagnósticos. In: Medronho RA, Carvalho DM, Bloch KV, Luiz RR, Werneck GL. Epidemiologia. Atheneu, São Paulo, 2002.


Carregar ppt "AVALIAÇÃO DE TESTES DIAGNÓSTICOS."

Apresentações semelhantes


Anúncios Google