A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Roteiro para apresentação

Apresentações semelhantes


Apresentação em tema: "Roteiro para apresentação"— Transcrição da apresentação:

1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG

2 Roteiro para apresentação
Motivações Breve Histórico O relacionamento de registros: Determinístico Probabilístico Metodologia – Relacionamento probabilístico Desafios

3 1. MOTIVAÇÃO Estudo de coortes reais ao longo do tempo.
Estudo de associações de exposição com doença/morte Recuperar informação, em caso de informação não declarada

4 1. MOTIVAÇÃO Correção da informação quando acredita-se na validade desta em um banco de dados, mas não na validade desta em outro. Adicionar informação de um banco de dados a outro banco de dados.

5 2. HISTÓRICO O Relacionamento de dados não é uma idéia recente
No Século XVIII, Edward Jenner descobriu a associação entre a varíola bovina e a varíola humana através do relacionamento de registros.

6 2. HISTÓRICO Jenner relacionou as vacas de todos os tipos às pessoas, após injetar material bovino nos seres humanos.

7 2. HISTÓRICO Os registros de dados relacionados de Jenner foram utilizados como forma de evidência de que a intervenção havia sido eficaz.

8 2. HISTÓRICO No Século XX, o termo relacionamento de registros (record linkage) apareceu pela primeira vez na literatura em Dunn(1946) - AJPH. Os estudos utilizando relacionamento de registros começam a surgir na literatura com mais freqüência a partir da década dos 80.

9 3. RELACIONAMENTO DETERMINÍSTICO
O Relacionamento Determinístico implica a procura de concordância exata no processo de pareamento de registros. Por exemplo, se temos acesso ao CPF ou RG dos indivíduos em dois ou mais bancos de dados podemos relacionar esses indivíduos com base nessa informação.

10 3. RELACIONAMENTO DETERMINÍSTICO
Um problema é que se o identificador (CPF e/ou RG) está em erro em um banco de dados nós refutamos pares que podem pertencer a mesmos indivíduos.

11 3. RELACIONAMENTO DETERMINÍSTICO
Além disso, acesso à informações deste tipo em larga escala é difícil. Pode-se dizer, então, que se um registro concordar com outro com base em identificadores gerais (sexo, idade, data de nascimento, estado civil) considera-se o par de registros como de um mesmo indivíduo.

12 3. RELACIONAMENTO DETERMINÍSTICO
Problema: O relacionamento determinístico (exato), é incapaz de levar em conta incertezas que podem existir para alguns pares relacionados: -- Erros na declaração em um ou outro banco; -- Problemas de informação não declarada em um ou outro banco.

13 3. RELACIONAMENTO Determinístico X Probabilístico
Logo, a solução... Relacionamento Probabilístico de Registros

14 3. RELACIONAMENTO PROBABILÍSTICO
Utiliza-se o relacionamento probabilístico para ponderar diferentemente as informações utilizadas no pareamento. Essas diferenças na ponderação são inviáveis no caso de relacionamento determinístico.

15 3. RELACIONAMENTO PROBABILÍSTICO
Intuitivamente, na busca de evidência se o pareamento se refere ao mesmo indivíduo....

16 3. RELACIONAMENTO PROBABILÍSTICO
... a concordância no identificador ‘sexo’ não adiciona tanta informação quanto às concordâncias nos identificadores ‘nome’ ou ‘CPF’, ou seja...

17 3. RELACIONAMENTO PROBABILÍSTICO
... Concordâncias em ‘nome’ ou CPF são mais sugestivas de um pareamento correto do que concordância em ‘sexo’.

18 3. RELACIONAMENTO PROBABILÍSTICO - histórico
Howard Newcombe e colaboradores (Newcombe et al, 1959) publicaram um artigo em 1959 na Revista Science. A primeira menção de registro probabilísitico na literatura.

19 3. RELACIONAMENTO PROBABILÍSTICO - histórico
Os autores relacionaram dados de trabalhadores expostos a baixos níveis de radiação para estudar: causas de mortalidade impactos na fecundidade deformações genéticas posteriores

20 3. RELACIONAMENTO PROBABILÍSTICO - histórico
Dez anos mais tarde Fellegi & Sunter - estatísticos Canadenses - publicaram um artigo no JASA Estabeleceram as bases matemáticas e estatísticas para o relacionamento probabilístico de registros (Fellegi & Sunter, 1969).

21 4. RELACIONAMENTO PROBABILÍSTICO METODOLOGIA (clássica)

22 4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -
IDÉIAS FUNDAMENTAIS (1) A freqüência de ocorrência de uma característica deveria ser utilizada para computar um escore para cada par formado;

23 4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -
IDÉIAS FUNDAMENTAIS (2) Pares podem ser caracterizados em pares corretos, pares incorretos e pares possíveis, que requerem algum tipo de revisão;

24 4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -
IDÉIAS FUNDAMENTAIS (3) Na procura de pares os registros devem ser comparados apenas se concordarem em um identificador, válido e altamente discriminatório.

25 4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -
IDÉIAS FUNDAMENTAIS (4) A idéia é de se particionar ambos os arquivos em sub-conjuntos exclusivos e e exaustivos e procurar pares dentro de cada sub-conjunto. Essa estratégia é chamada de blocagem

26 4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA - O processo de estimação dos escores para cada identificador utilizado na comparação

27 Quando um identificador concorda (em um bloco) atribuímos o seguinte escore (wi) wi = log2(m/u) = log2((probabilidade de concordância do identificador dado que o pareamento é correto) / (probabilidade de concordância do identificador, dado que o pareamento é incorreto))

28 Quando um identificador NÃO concorda (em um bloco) atribuímos o seguinte escore (wi) wi = log2(1-m/1-u) = log2(probabilidade de discordância do identificador dado que o pareamento é correto) / (probabilidade de discordância do identificador, dado que o pareamento é incorreto))

29 4. RELACIONAMENTO PROBABILÍSTICO Estimação dos Parâmetros: Considere sexo fácil de codificar, mas discrimina pouco

30 4. RELACIONAMENTO PROBABILÍSTICO
Probabilidade de concordância em sexo quando 2 registros pareados se referem ao mesmo indivíduo... ...estimada em torno de 0,95 Probabilidade M = 0,95

31 4. RELACIONAMENTO PROBABILÍSTICO
Probabilidade de concordância em sexo quando 2 registros pareados não se referem ao mesmo indivíduo... ...estimada em torno de 0,50 Probabilidade U = 0,50

32 4. RELACIONAMENTO PROBABILÍSTICO - Estimação dos Parâmetros: Exemplo com sexo
wi para concordância = log2(m/u) = log2(0,95/0,5) = 0,93 wi para discordância = log2[(1-m)/(1-u)] = log2(0,05/0,5) = -3,32

33 4. RELACIONAMENTO PROBABILÍSTICO Estimação dos Parâmetros: Considere nome raro mais difícil de codificar, mas discrimina mais

34 4. RELACIONAMENTO PROBABILÍSTICO
Probabilidade de concordância em nome raro quando 2 registros pareados se referem ao mesmo indivíduo estimada em torno de 0,85 Probabilidade M = 0,85

35 4. RELACIONAMENTO PROBABILÍSTICO
Probabilidade de concordância em nome raro quando 2 registros pareados não se referem ao mesmo indivíduo estimada em torno de 0,01 Probabilidade U = 0,01

36 4. RELACIONAMENTO PROBABILÍSTICO Estimação dos Parâmetros: Exemplo com nome raro
wi para concordância = log2(m/u) = log2(0,85/0,01) = 6,41 wi para discordância = log2[(1-m)/(1-u)] = log2(0,15/0,99) = -2,72

37 4. RELACIONAMENTO PROBABILÍSTICO Possibilidades
Par 1: Concorda em sexo, não concorda em nome raro. + 0,93 + (-2,72) = -1,80 (escore par 1) Par 2: Concorda em nome raro, não concorda em sexo + 6,41 + (-3,32) = +3,09 (escore par 2) Se eu tenho que escolher, fico com o Par 2

38 4. RELACIONAMENTO PROBABILÍSTICO – METODOLOGIA Log na Base 2
4. RELACIONAMENTO PROBABILÍSTICO – METODOLOGIA Log na Base 2... A Idéia das Urnas Idênticas

39

40 A diferença é que...

41 Só argolas brancas Argolas brancas e vermelhas

42 o número consecutivo de bolas brancas retiradas
4. Relacionamento probabilístico - metodologia Por qual motivo uso log na base 2? O Evento de Interesse é o número consecutivo de bolas brancas retiradas 42

43 Bolas brancas retiradas → Evidência → urna é de argolas brancas
4. Relacionamento probabilístico - metodologia Por qual motivo uso log na base 2 ? 2 hipóteses sobre o conteúdo da urna: todas são brancas / metade é branca. Bolas brancas retiradas → Evidência → urna é de argolas brancas A razão de verossimilhança de ‘todas brancas’ em relação a ‘metade brancas’: (1)b/(1/2)b = 2b 43

44 4. Relacionamento probabilístico - metodologia Por qual motivo uso log na base 2 ?
Uma razão de verossimilhança de x corresponde a b bolas brancas da seguinte maneira 44

45 4. Relacionamento probabilístico - metodologia Por qual motivo uso log na base 2 ?
Considere então que: 45

46 Por exemplo: Concordância em sexo e nome raro com peso 6;
4. Relacionamento probabilístico - metodologia Por qual motivo uso log na base 2 ? Por exemplo: Concordância em sexo e nome raro com peso 6; ‘6’ representa evidência favorecendo ‘todas brancas’ versus ‘metade brancas’ em 6 bolas brancas consecutivas retiradas. 46

47 4. RELACIONAMENTO PROBABILÍSTICO
Escores limiares, curva bimodal: zona cinzenta Gráfico freqüência dos escores X escores

48 5. DESAFIOS Análise de Dados Pareados (o fantasma da incerteza...) um estimador da incerteza que possa ser incorporarado no modelo de análise de resultados

49 “O Relacionamento Probabilístico de Registros pode auxiliar uma sociedade no sentido de avançar no conhecimento sobre o bem-estar e saúde de seus cidadãos. A literatura epidemiológica é repleta de estudos sobre saúde que fazem uso dos mais variados procedimentos de relacionamento de registro para produzir Ciência.” (Scheuren, 1997)

50


Carregar ppt "Roteiro para apresentação"

Apresentações semelhantes


Anúncios Google