A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG.

Apresentações semelhantes


Apresentação em tema: "1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG."— Transcrição da apresentação:

1 1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG

2 2 Roteiro para apresentação 1.Motivações 1.Breve Histórico 1.O relacionamento de registros: Determinístico Probabilístico 1.Metodologia – Relacionamento probabilístico 1.Desafios

3 3 1. MOTIVAÇÃO Estudo de coortes reais ao longo do tempo. Estudo de associações de exposição com doença/morte Recuperar informação, em caso de informação não declarada

4 4 1. MOTIVAÇÃO Correção da informação quando acredita-se na validade desta em um banco de dados, mas não na validade desta em outro. Adicionar informação de um banco de dados a outro banco de dados.

5 5 2. HISTÓRICO O Relacionamento de dados não é uma idéia recente No Século XVIII, Edward Jenner descobriu a associação entre a varíola bovina e a varíola humana através do relacionamento de registros.

6 6 2. HISTÓRICO Jenner relacionou as vacas de todos os tipos às pessoas, após injetar material bovino nos seres humanos.

7 7 2. HISTÓRICO Os registros de dados relacionados de Jenner foram utilizados como forma de evidência de que a intervenção havia sido eficaz.

8 8 2. HISTÓRICO No Século XX, o termo relacionamento de registros (record linkage) apareceu pela primeira vez na literatura em Dunn(1946) - AJPH. Os estudos utilizando relacionamento de registros começam a surgir na literatura com mais freqüência a partir da década dos 80.

9 9 3. RELACIONAMENTO DETERMINÍSTICO O Relacionamento Determinístico implica a procura de concordância exata no processo de pareamento de registros. Por exemplo, se temos acesso ao CPF ou RG dos indivíduos em dois ou mais bancos de dados podemos relacionar esses indivíduos com base nessa informação.

10 10 3. RELACIONAMENTO DETERMINÍSTICO Um problema é que se o identificador (CPF e/ou RG) está em erro em um banco de dados nós refutamos pares que podem pertencer a mesmos indivíduos.

11 11 3. RELACIONAMENTO DETERMINÍSTICO Além disso, acesso à informações deste tipo em larga escala é difícil. Pode-se dizer, então, que se um registro concordar com outro com base em identificadores gerais (sexo, idade, data de nascimento, estado civil) considera-se o par de registros como de um mesmo indivíduo.

12 12 3. RELACIONAMENTO DETERMINÍSTICO Problema: O relacionamento determinístico (exato), é incapaz de levar em conta incertezas que podem existir para alguns pares relacionados: -- Erros na declaração em um ou outro banco; -- Problemas de informação não declarada em um ou outro banco. -- Erros na declaração em um ou outro banco; -- Problemas de informação não declarada em um ou outro banco.

13 13 3. RELACIONAMENTO Determinístico X Probabilístico Logo, a solução... Relacionamento Probabilístico de Registros

14 14 3. RELACIONAMENTO PROBABILÍSTICO Utiliza-se o relacionamento probabilístico para ponderar diferentemente as informações utilizadas no pareamento. Essas diferenças na ponderação são inviáveis no caso de relacionamento determinístico.

15 15 3. RELACIONAMENTO PROBABILÍSTICO Intuitivamente, na busca de evidência se o pareamento se refere ao mesmo indivíduo....

16 16 3. RELACIONAMENTO PROBABILÍSTICO... a concordância no identificador sexo não adiciona tanta informação quanto às concordâncias nos identificadores nome ou CPF, ou seja...

17 17 3. RELACIONAMENTO PROBABILÍSTICO... Concordâncias em nome ou CPF são mais sugestivas de um pareamento correto do que concordância em sexo.

18 18 3. RELACIONAMENTO PROBABILÍSTICO - histórico Howard Newcombe e colaboradores (Newcombe et al, 1959) publicaram um artigo em 1959 na Revista Science. A primeira menção de registro probabilísitico na literatura.

19 19 3. RELACIONAMENTO PROBABILÍSTICO - histórico Os autores relacionaram dados de trabalhadores expostos a baixos níveis de radiação para estudar: –causas de mortalidade –impactos na fecundidade –deformações genéticas posteriores

20 20 3. RELACIONAMENTO PROBABILÍSTICO - histórico Dez anos mais tarde Fellegi & Sunter - estatísticos Canadenses - publicaram um artigo no JASA Estabeleceram as bases matemáticas e estatísticas para o relacionamento probabilístico de registros (Fellegi & Sunter, 1969).

21 21 4. R ELACIONAMENTO P ROBABILÍSTICO METODOLOGIA (clássica)

22 22 4. R ELACIONAMENTO P ROBABILÍSTICO - METODOLOGIA - IDÉIAS FUNDAMENTAIS (1) A freqüência de ocorrência de uma característica deveria ser utilizada para computar um escore para cada par formado;

23 23 4. R ELACIONAMENTO P ROBABILÍSTICO - METODOLOGIA - IDÉIAS FUNDAMENTAIS (2) Pares podem ser caracterizados em pares corretos, pares incorretos e pares possíveis, que requerem algum tipo de revisão;

24 24 4. R ELACIONAMENTO P ROBABILÍSTICO - METODOLOGIA - IDÉIAS FUNDAMENTAIS (3) Na procura de pares os registros devem ser comparados apenas se concordarem em um identificador, válido e altamente discriminatório.

25 25 4. R ELACIONAMENTO P ROBABILÍSTICO - METODOLOGIA - IDÉIAS FUNDAMENTAIS (4) A idéia é de se particionar ambos os arquivos em sub-conjuntos exclusivos e e exaustivos e procurar pares dentro de cada sub-conjunto. –Essa estratégia é chamada de blocagem

26 26 4. R ELACIONAMENTO P ROBABILÍSTICO - METODOLOGIA - O processo de estimação dos escores para cada identificador utilizado na comparação

27 27 Quando um identificador concorda (em um bloco) atribuímos o seguinte escore (w i ) w i = log 2 (m/u) = log 2 ((probabilidade de concordância do identificador dado que o pareamento é correto) / (probabilidade de concordância do identificador, dado que o pareamento é incorreto))

28 28 Quando um identificador NÃO concorda (em um bloco) atribuímos o seguinte escore (w i ) w i = log 2 (1-m/1-u) = log 2 (probabilidade de discordância do identificador dado que o pareamento é correto) / (probabilidade de discordância do identificador, dado que o pareamento é incorreto))

29 29 4. RELACIONAMENTO PROBABILÍSTICO Estimação dos Parâmetros: Considere sexo fácil de codificar, mas......discrimina pouco

30 30 4. RELACIONAMENTO PROBABILÍSTICO Probabilidade de concordância em sexo quando 2 registros pareados se referem ao mesmo indivíduo......estimada em torno de 0,95 Probabilidade M = 0,95

31 31 4. RELACIONAMENTO PROBABILÍSTICO Probabilidade de concordância em sexo quando 2 registros pareados não se referem ao mesmo indivíduo......estimada em torno de 0,50 Probabilidade U = 0,50

32 32 4. RELACIONAMENTO PROBABILÍSTICO - Estimação dos Parâmetros: Exemplo com sexo w i para concordância = log 2 (m/u) = log 2 (0,95/0,5) = 0,93 w i para discordância = log 2 [(1-m)/(1-u)] = log 2 (0,05/0,5) = -3,32

33 33 4. RELACIONAMENTO PROBABILÍSTICO Estimação dos Parâmetros: Considere nome raro mais difícil de codificar, mas......discrimina mais

34 34 4. RELACIONAMENTO PROBABILÍSTICO Probabilidade de concordância em nome raro quando 2 registros pareados se referem ao mesmo indivíduo estimada em torno de 0,85 Probabilidade M = 0,85

35 35 4. RELACIONAMENTO PROBABILÍSTICO Probabilidade de concordância em nome raro quando 2 registros pareados não se referem ao mesmo indivíduo estimada em torno de 0,01 Probabilidade U = 0,01

36 36 4. RELACIONAMENTO PROBABILÍSTICO Estimação dos Parâmetros: Exemplo com nome raro w i para concordância = log 2 (m/u) = log 2 (0,85/0,01) = 6,41 w i para discordância = log 2 [(1-m)/(1-u)] = log 2 (0,15/0,99) = -2,72

37 37 4. RELACIONAMENTO PROBABILÍSTICO Possibilidades Par 1: Concorda em sexo, não concorda em nome raro. + 0,93 + (-2,72) = -1,80 (escore par 1) Par 2: Concorda em nome raro, não concorda em sexo + 6,41 + (-3,32) = +3,09 (escore par 2) Se eu tenho que escolher, fico com o Par 2

38 38 4. RELACIONAMENTO PROBABILÍSTICO – METODOLOGIA Log na Base 2... A Idéia das Urnas Idênticas

39 39

40 40 A diferença é que...

41 41 Só argolas brancas Argolas brancas e vermelhas

42 42 4. Relacionamento probabilístico - metodologia Por qual motivo uso log na base 2? O Evento de Interesse é o número consecutivo de bolas brancas retiradas

43 43 2 hipóteses sobre o conteúdo da urna: todas são brancas / metade é branca. Bolas brancas retiradas Evidência urna é de argolas brancas A razão de verossimilhança de todas brancas em relação a metade brancas: (1) b /(1/2) b = 2 b 4. Relacionamento probabilístico - metodologia Por qual motivo uso log na base 2 ?

44 44 4. Relacionamento probabilístico - metodologia Por qual motivo uso log na base 2 ? Uma razão de verossimilhança de x corresponde a b bolas brancas da seguinte maneira

45 45 4. Relacionamento probabilístico - metodologia Por qual motivo uso log na base 2 ? Considere então que:

46 46 4. Relacionamento probabilístico - metodologia Por qual motivo uso log na base 2 ? Por exemplo: Concordância em sexo e nome raro com peso 6; 6 representa evidência favorecendo todas brancas versus metade brancas em 6 bolas brancas consecutivas retiradas.

47 47 Escores limiares, curva bimodal: zona cinzenta Gráfico freqüência dos escores X escores 4. RELACIONAMENTO PROBABILÍSTICO

48 48 Análise de Dados Pareados (o fantasma da incerteza...) um estimador da incerteza que possa ser incorporarado no modelo de análise de resultados 5. DESAFIOS

49 49 O Relacionamento Probabilístico de Registros pode auxiliar uma sociedade no sentido de avançar no conhecimento sobre o bem-estar e saúde de seus cidadãos. A literatura epidemiológica é repleta de estudos sobre saúde que fazem uso dos mais variados procedimentos de relacionamento de registro para produzir Ciência. (Scheuren, 1997)

50 50


Carregar ppt "1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG."

Apresentações semelhantes


Anúncios Google