A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria) 1 1 1.

Apresentações semelhantes


Apresentação em tema: "Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria) 1 1 1."— Transcrição da apresentação:

1 Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde
Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria) 1 1 1

2

3

4 Estrutura da palestra Conceitos básicos de lingüística
Características da linguagem natural em medicina e ciências biomédicas Cenários de processamento de texto livre Metodologia de lingüística computacional Exemplo

5 Estrutura da palestra 1. 1. Conceitos Básicos 2. 3. 4. 5.
Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Metodologia de lingüística computacional Cenários de processamento de texto livre Exemplo

6 Semiótica – estudo dos signos
1. 1. Conceitos Básicos Semiótica – estudo dos signos Estudo dos signos Signos designam objetos / conceitos Lingüística: estudos dos signos das linguagem humana

7 Signos Linguísticos 1. 1. Conceitos Básicos 2. 3. 4. 5. cardio, hepat,
fonemas morfemas cardio, hepat, palavras hepatite termos hepatite tipo B frases O vírus da hepatite tipo B O vírus da hepatite tipo B é transmitido sobretudo por meio do sangue. Granularidade sentenças Os vírus da hepatite tipo B (HBV) e C (HCV) são transmitidos sobretudo por meio do sangue. Usuários de drogas injetáveis e pacientes submetidos a material cirúrgico contaminado e não-descartável estão entre as maiores vítimas textos

8 Conceitos básicos da lingüística (I)
Fonologia: sistema sonoro consoantes, vogais, ditongos, nasais Morfologia: formação das palavras (radicais, prefixos, sufixos, infixos) apendic + ectomia , anti + concepcion + ais hepat + o + tomia, psico + s + somát + ico anti + ectomia Acrônimos: AIDS, CVA, Epônimos: Doença de Parkinson Sintaxe: regras que regem a construção de frases “Ele estava internado por apendicite” “A irmã estavam internado por apendicite” “Parts of Speech” (POS): Verbo, substantivo, pronome, adverbios Ambuguidades sintáticas: “[plantas e animais] selvagens” “plantas e [animais selvagens]”

9 Conceitos básicos da lingüística (II)
Semântica: estudo do significado das palavras / frases “Realizou-se uma apendicectomia” “Realizou-se uma apendicectomia no ouvido externo” Relações semânticas: Sinonímia: “enfermo” = “doente”, “perna” = “membro inf.” Homonímia: “são e salvo”, “São 10 hs.”, “São Paulo” Disambiguação é o processo de identificar o significado correto de uma expressão ambígua. Pragmática: “Pode deixar de fumar?“ (quero que deixe de fumar) “Está muito quente aqui dentro.” (quero que ligue o ar)

10 Tokens / formas/ lexemas (III)
1. 1. Conceitos Básicos Tokens / formas/ lexemas (III) Quantas palavras? ocorrências (tokens) formas (types) lexemas (unidades lexicais) “When flies fly behind flies, a fly is flying ahead” “When flies fly behind flies, a fly is flying ahead” “When flies fly behind flies, a fly is flying ahead” “When flies fly behind flies, a fly is flying ahead”

11 Léxicos Termo: signo lingüístico (não só palavra)
1. 1. Conceitos Básicos Léxicos Termo: signo lingüístico (não só palavra) Léxico, dicionário: lista de termos com atributos lingüísticos e significação Critérios de inclusão / exclusão: Domínio (e.g. medicina, computação) forma básica (“neoplasia”, não “neoplasias”) atomicidade (“Escherichia coli”, não “neoplasia maligna do esôfago”) freqüência de uso: “fratura de fêmur” vs. “fratura da falange media do dedo indicador esquerdo”

12 Corpora lingüísticos Conjunto de textos que serve como base de análise
1. 1. Conceitos Básicos Corpora lingüísticos Conjunto de textos que serve como base de análise Tipos de analise analise estatística (ex. listas de freqüência) avaliação de hipóteses validação de regras lingüísticas Anotação de corpora POS (part of speech) Anotação semântica Na maioria: textos jornalísticos Em medicina: corpora importantes: MEDLINE (inglês) WWW como corpus

13 Processamento de Linguagem Natural
Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Metodologia de lingüística computacional Cenários de processamento de texto livre Exemplo

14 Linguagem Natural em biomedicina
Linguagem Médica Linguagem Natural em biomedicina Recurso mais importante de informação e comunicação em Medicina Ciências biomédicas Produzida em diferentes formas Comunicação oral Escritura manuscrita / datilografada Texto legível por computador

15 Comunicação oral 1. 1. 2. Linguagem Médica 3. 4. 5.
Profissional - Paciente Profissional - Profissional

16 Escritura manuscrita / datilografada
Linguagem Médica Escritura manuscrita / datilografada

17 Narrativa clínica em prontuário
Linguagem Médica Narrativa clínica em prontuário SEQ DE MULTIPLOS AVCS , HIST DE CRISES CONVULSIVAS PREVIAS AOS EPISODIOS DESTA NOITE , APRESENTANDO PIORA GERAL , DESIDRATACAO LEVE SEM PIUORA DA FUNACAO RENAL, RX COM ATELECTASIAS DE BASES - CONSOLIDADCEOS?? PACIENTE SEM FEBRE MEDIDAAQUI -MAX 37,1 TEM NIVEL SERICO EM ANDAMNETO DE FENITOINA A SER CHECADO COM FAMILAIR EM EM 24 H RECEBE TTO ATB COM CEFUROXIMA VO -HMG NORMAL É DM SEM IMPORTANTE DESCOPENSACAO.

18 Texto Livre em Periódico indexado em MEDLINE
Linguagem Médica Texto Livre em Periódico indexado em MEDLINE 40,000 registros / mês

19 Observações em prontuários
Linguagem Médica Observações em prontuários Textos produzidos sobre a pressão de tempo: Deviação consciente da gramática normativa Linguagem altamente compacta: sentenças incompletas, acrônimos e abreviações, muitos contextos implícitos, muitas expressões ambíguas fora do contexto. Erros involuntários (gramaticais, ortográficos, por ignorar normas gramaticais e ortográficas): “concerto”, “fraquesa” Adicionalmente, se os textos não são gravadas e transcritas por datilógrafos: Erros sistemáticos e conscientes (omissão de caracteres de pontuação, omissão de acentos, (de)capitalização “ticlopidina?contraste?infecção?” , “HIPERTENSAO” Lapsos de digitação “hipertemsão” (Ana Carolina Peters et al: Análise de erros de linguagem em sumários de alta. CBIS )

20 Observações em textos científicos
Linguagem Médica Observações em textos científicos Textos produzidos com cuidado e revisão editorial Em sumários (abstracts): Textos gramaticais mais compactos, alto índice de nomes próprios (não lexicalizados) e acrônimos, parcialmente expandidos Variação e ambigüidade de termos e nomes: “Tyrosine kinase with immunoglobulin and epidermal growth factor homology domains” = “tie” NF2 = “Neurofibromatosis 2” [disease] “Neurofibromin 2” [protein] “Neurofibromatosis 2 gene” [gene] “NF-KB” = “NF-kb” personalpages.manchester.ac.uk/staff/sophia.ananiadou/DTCI.ppt

21 Processamento de Linguagem Natural
Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Cenários de processamento de texto livre Metodologia de lingüística computacional Exemplo

22 Fala vs. escrita, vs. escritura manuscrita
Cenários de PLN 4. 5. Fala vs. escrita, vs. escritura manuscrita Sistema de Reconhecimento de caracteres Gravação Transcrição Texto eletrônico Sistema de Reconhecimento de fala

23 Princípio de Processamento de Linguagem Natural
Cenários de PLN 4. 5. Princípio de Processamento de Linguagem Natural Léxicos Ontologias Corpora KB Texto eletrônico Processamento Representação matemática

24 Tarefas 1. 1. 2. 3. Cenários de PLN 4. 5. Extração de informação
Codificação automatizada Recuperação de informação Recuperação de documentos Recuperação de fatos Interpretação de linguagem natural Tradução automática Geração Automática de Texto Simplificação de texto Correção ortográfica (Reconhecimento Vocal) (Reconhecimento de Escritura Manuscrita)

25 Recuperação de documentos
Cenários de PLN 4. 5. Recuperação de documentos

26 Recuperação de documentos: Abordagem Básica
Cenários de PLN 4. 5. Recuperação de documentos: Abordagem Básica Uma coleção de documentos D = {d1, d2, ..., dn} uma consulta (query) q Dois métodos: „Filtro“ divide D em dois conjuntos Drelq e Dnrelq (Drelq = conjunto de documentos relevantes para q) (Dnrelq = conjunto de documentos relevantes para q) „Ranking“ = classificar por relevancia: D = [d‘1, d‘2, ..., d‘n] com rel (d‘i)  rel (d‘i+1) Combinações possíveis

27 Recuperação de documentos
Cenários de PLN 4. 5. Recuperação de documentos ? Consulta Resultados de busca Documentos classificados como relevantes Coleção de documentos

28 Recuperação de documentos
Cenários de PLN 4. 5. Recuperação de documentos ? Consulta Ranking de relevância Coleção de documentos

29 Extração de informação
Cenários de PLN 4. 5. Extração de informação

30 Extração de informação
Cenários de PLN 4. 5. Extração de informação Template Item 1 shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count /µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12 (2010 pg/ml) and ferritin ( ng/ml). Human chorionic gonadotropin and [alpha]-fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest showed a Item 2 Item 3 Item 4 Item 5 Item 6 Item 7 Item 8

31 Extração de informação
Cenários de PLN 4. 5. Extração de informação Tumor registry Data diagnostico primário shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count /µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12 (2010 pg/ml) and ferritin ( ng/ml). Human chorionic gonadotropin and [alpha]-fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest showed a Localização primária Grading Staging Morfologia Data Terapia Quimioterapia Radioterapia

32 Estrutura da palestra Conceitos básicos de lingüística
Características da linguagem natural em medicina e ciências biomédicas Cenários de processamento de texto livre Metodologia de lingüística computacional Exemplo

33 representação padronizada
Metodologia 5. “Pipeline” de processamento de linguagem natural expansão acrônimos identificação de nomes verificar ortografia etiquetador POS identificar sentenças parser frases nominais representação padronizada 33 33

34 representação padronizada
Metodologia 5. “Pipeline” de processamento de linguagem natural expansão acrônimos identificação de nomes verificar ortografia etiquetador POS identificar sentenças # HAS # DM # Miocardiopatia dilatada chagásica (FE 35%) # Ca de prostata - orquiectomia (2004) # Cardiopatia isquêmica - IAM em 2005, com colocação de stent em DA e lesão severa inoperável em CD Pct. vem a emergência em 20/03 com quadro de dor torácica típica, sem elevação enzimática, com diagnóstico de angina instável e fibrilação atrial não identificada em avaliações prévias. Adicionalmente, apresentava descompensação do diabetes com sindrome hiperosmlar não cetótica. # HAS # DM # Miocardiopatia dilatada chagásica (FE 35%) # Ca de prostata - orquiectomia (2004) # Cardiopatia isquêmica IAM em 2005, com colocação de stent em DA e lesão severa inoperável em CD Pct. vem a emergência em 20/03 com quadro de dor torácica típica, sem elevação enzimática, com diagnóstico de angina instável e fibrilação atrial não identificada em avaliações prévias. Adicionalmente, apresentava parser frases nominais representação padronizada 34 34

35 representação padronizada
Metodologia 5. “Pipeline” de processamento de linguagem natural expansão acrônimos identificação de nomes verificar ortografia etiquetador POS identificar sentenças seq de multiplos avcs , hist de crises convulcivas previas aos episodios desta noitw, apresentando piora geral, desidratacao leve s/ pioura da funcao renal . atelectasias de dases consolidacoes – febre medida aqui max 37,1 tem nivel seico em andamneto de fenitoina seqüência de múltiplos AVCs , histórico de crises convulsivas previas aos episódios desta noite, apresentando piora geral, desidratação leve sem piora da função renal . Atelectasis de bases consolidações – febre medida aqui max. 37,1 tem nível sérico em andamento de fenitoina parser frases nominais representação padronizada 35 35

36 representação padronizada
Metodologia 5. “Pipeline” de processamento de linguagem natural expansão acrônimos identificação de nomes verificar ortografia etiquetador POS identificar sentenças Maria das Dores Azevedo procedente do Hospital de Alvorada onde estava internado desde 28/05 por broncoespasmo e disfunção respiratória, recebendo ampi-sulbactam e beta 2 agonista de 2/2h, com boa evolução. Encaminhado ao HCPA em 01/06 por ter iniciado dia 31/05 com distensão e dor abdominal importantes, acompanhado de vômitos fecalóides, sendo iniciado metronidazol e gentamicina. Havia recebido albendazol durante a internação, sem eliminar vermes. Avaliado pela CIPED: provável obstrução intestinal por áscaris.. Maria das Dores Azevedo procedente do Hospital de Alvorada onde estava internado desde 28/05 por broncoespasmo e disfunção respiratória, recebendo ampi-sulbactam e beta 2 agonista de 2/2h, com boa evolução. Encaminhado ao HCPA em 01/06 por ter iniciado dia 31/05 com distensão e dor abdominal importantes, acompanhado de vômitos fecalóides, sendo iniciado metronidazol e gentamicina. Havia recebido albendazol durante a internação, sem eliminar vermes. Avaliado pela CIPED: provável obstrução intestinal por áscaris.. parser frases nominais representação padronizada 36 36

37 representação padronizada
Metodologia 5. “Pipeline” de processamento de linguagem natural expansão acrônimos identificação de nomes verificar ortografia etiquetador POS identificar sentenças Foi extubado, apresentou estridor que cedeu com NBZ com adrenalina e dexa. Apresentou bradicardia. Suspenso fentanil, permaneceu bradicárdico, necessitou atropina. Avaliado pela cardiologia sem particularidades. Após alta da UTI, recebeu óleo mineral e permaneceu eliminando áscaris. Após retirada do óleo mineral foi iniciado dieta, com boa aceitação, e albendazol. Recebe alta em bom estado geral, aceitando dieta VO, SV estáveis, apresentando hiperemia ao redor da ileostomia. Retorno com CIPED Foi NOUN extubado VERB , SENT apresentou VERB estridor NOUN que DET cedeu VERB com PR NBZ NOUN adrenalina NOUN e DET dexa NOUN . SENT Apresentou VERB bradicardia SNOUN . SENT parser (chunker) representação padronizada 37 37

38 representação padronizada
Metodologia 5. “Pipeline” de processamento de linguagem natural expansão acrônimos identificação de nomes verificar ortografia etiquetador POS identificar sentenças Foi extubado, apresentou estridor que cedeu com NBZ com adrenalina e dexa. Apresentou bradicardia. Suspenso fentanil, permaneceu bradicárdico, necessitou atropina. Avaliado pela cardiologia sem particularidades. Após alta da UTI, recebeu óleo mineral e permaneceu eliminando áscaris. Após retirada do óleo mineral foi iniciado dieta, com boa aceitação, e albendazol. Recebe alta em bom estado geral, aceitando dieta VO, SV estáveis, apresentando hiperemia ao redor da ileostomia. Retorno com CIPED Foi NOUN extubado VERB , SENT apresentou VERB estridor NOUN que DET cedeu VERB com PR NBZ NOUN adrenalina NOUN e DET dexa NOUN . SENT Apresentou VERB bradicardia SNOUN . SENT parser (chunker) representação padronizada 38 38

39 Mudança de paradigma em Lingüística Computacional
Metodologia 5. Mudança de paradigma em Lingüística Computacional síntese Racionalismo Empiricismo processamento simbólico processamento probabilístico

40 Metodologias: 1. 1. 2. 3. 4. Metodologia 5.
Processamento simbólico (domínios bem delineados, sem muita IA) regras de produção expressões regulares léxicos, gazeteers (listas com nomes) Processamento probabilístico Corpora com anotações manuais: treinamento supervisionado sem anotações: treinamento não supervisionado Modelos Naive Bayes MaxEnt Support Vector Machines (SVN) Conditional Random Fields (CRF) AIDS acrônimo  adjetivo Parkinson +sufixo  adjetivo

41 Problemas do processamento simbólico (“crise de AI”)
Metodologia 5. Problemas do processamento simbólico (“crise de AI”) Complexidade computacional gramáticas finite state automata / linear grammars O(n) pushdown automata / context-free grammars O(n3) unification grammars, dependency grammars NP-complete lógicas propositional logic, monadic first-order predicate logic decidable first-order predicate logic semi-decidable nth-order predicate logic (n > 1), modal logics undecidable Manutenção grandes léxicos, ontologias, bases de conhecimento AIDS acrônimo  adjetivo Parkinson +sufixo  adjetivo

42 Desafios (I) 1. 1. 2. 3. 4. Metodologia 5.
Processamento simbólico (domínios bem delineados, sem muita IA) regras de produção expressões regulares léxicos, gazeteers (listas com nomes) Processamento probabilístico Corpora com anotações manuais: treinamento supervisionado sem anotações: treinamento não supervisionado Modelos Naive Bayes MaxEnt Support Vector Machines (SVN) Conditional Random Fields (CRF) AIDS acrônimo  adjetivo Parkinson +sufixo  adjetivo

43 Desafios (II) 1. 1. 2. 3. 4. Metodologia 5. Dinamica da linguagem real
Produtividade morfológica (“aidético”) Neologismos , abreviações (“pct”) entradas erradas e não especificadas (“CONSOLIDADCEOS?? PACIENTE SEM FEBRE MEDIDAAQUI -MAX 37,1”) ambiguidade importância do contexto negação (“não foi conformada a hipótese que...”) incertidão (“neoplasia de comportamento duvidoso”) expressões temporais (“nas primeiras duas semanas”) coordinações complexas (“invasive and metastatic, highly differentiated carcinoma invasor e matastático, pouco diferenciado”) AIDS acrônimo  adjetivo Parkinson +sufixo  adjetivo

44 Metodologia 5. Recursos Ananiadou: Text mining in biomedicine: Techniques and Tools personalpages.manchester.ac.uk/staff/sophia.ananiadou/DTCI.ppt openNLP: UIMA (Unstructured Information Management applications) Association of Computational Linguistics: ACL wiki Foundation of Statistical Natural Language Processing Livros: Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999 Ananiadou, Mcnaught: Text Mining for Biology And Biomedicine  Hersh: Information Retrieval. A Health and Biomedical Perspective. AIDS acrônimo  adjetivo Parkinson +sufixo  adjetivo

45 Processamento de Linguagem Natural
Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Cenários de processamento de texto livre Metodologia de lingüística computacional Exemplo

46 Estudo: codificação automatizada
Exemplo Estudo: codificação automatizada Fonte: sumários de alta do departmento de cardiologia do Hospital de Clínicas de Porto Alegre, Brasil Destino SNOMED Clinical Terms, 01/2009 Linguagens: Inglês, Espanhol

47 ~750 000 termos em Inglês, ~400 000 em Espanhol
Exemplo SNOMED CT conceitos ~ termos em Inglês, ~ em Espanhol Termos médicos (inclusive sinônimos e traduções) são conectados com conceitos (portadores de significado)

48 PLN (processamento de linguagem natural)
Exemplo PLN (processamento de linguagem natural) expansão acrônimos identificação de nomes verificar ortografia etiquetador tipo de palavra SCT - EN identificar sentenças SCT - SP extração frases nominais criação subconjunto deteção de contexto MID- representação SNOMED CT abstração morfo- semântica abstração morfo- semântica MID- representação candidatos a termo 48 48

49 Mapeamento de termos médicos
Exemplo Mapeamento de termos médicos Problema: high blood pressure meningoencefalite hipertensão arterial Entzündung von Gehirn und Hirnhäuten hipertensión arterial meningocerebral inflammation Bluthochdruck meningoencefalitis Qual a granularidade adequada para a indexação? Aborgagem MorphoSaurus: construir equivalências semánticas a nivel de fragmentos de palavras

50 Átomos semânticos ou „subwords“
Exemplo Átomos semânticos ou „subwords“ Definição: sequência de caracteres cujo significado não decorre dos significados dos componentes, exemplo: diafise mas não dia + fise diáfise = haste do osso, fise (gr. physis) = natureza neur + ite, mas neurose, não neur + ose neur… = nervo, -ite = inflamação, -ose = doença: Uma neurite é uma inflamação de nervo(s), mas neurose não é uma doença de nervo(s) Subwords podem ser morfemas assim como combinações de morfemas, inclusive palavras inteiras Quando eu posso decompor a palavra? O Significado é coerente? No caso do neurose isso não é possível. Subwords motivados em preservar o significado (semantica) das palavras. Para muitos linguistas pode ser uma coisa muito estranha (provavelmente irão rejeitar) Isso é um morfema?

51 Sistema MorphoSaurus 1. 2. 3. 4. 5. Exemplo
Sistema de indexação morfo-semântica Traduz texto para interlíngua Domínio: Linguagem Clínica Idiomas: Inglês, Alemão, Português, Espanhol, Sueco, Francês Componentes: Léxico de subwords Tesauro Parser morfossintático Indexador

52 Modelo do Léxico 1. 2. 3. 4. 5. Exemplo (e.g. „anticoncepcionais“)
Lexeme (e.g. „anticoncepcionais“) [anti, prefix, portuguese] [concepc, stem, portuguese] [ionais, terminal suffix, portuguese] String of characters Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix} Language = {English, German, Spanish, Portuguese, French, Swedish} (e.g. „partnership“) [partner, stem, english] [ship, suffix, english] Cada string um lexema (e.g. „ship“) [ship, invariant, english]

53 Modelo do Léxico 1. 2. 3. 4. 5. Exemplo Lexeme String of characters
MIDs identificam grupos de lexemas sinônimos String of characters Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix} Language = {English, German, Spanish, Portuguese, French,Swedish} MID 1..n MID42= ([muscle, stem, english], [muscul, stem, english], [myo, prefix, english], [muscul, stem, portuguese], [mio, prefix, portuguese], [muskel, stem, german], [muskul, stem, german], [myo, prefix, german]) Aqui estamos tratando de abordagem semântica.

54 Modelo do Léxico 1. 2. 3. 4. 5. Exemplo Lexeme String of characters
associa um MID ambíguo com dois ou mais MID não ambíguos (expansão paradigmática) has-sense Lexeme String of characters Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix} Language = {English, German, Spanish, Portuguese, French,Swedish} 1 2…n MID 1..n 2…n associa um MID de sentido não atômico com dois ou mais MID atômicos (expansão sintagmática) 1 expands-to

55 Modelo do Léxico 1. 2. 3. 4. 5. Exemplo MID
MID16: ([head, stem, english]) - has-sense MID12: ([caput, stem, english], [capit, stem, english], [cephal, stem, english], [cefal, stem, portuguese], [cabec, stem, portuguese]) - has-sense MID34: ( [chief, stem, english], [chef, stem, portuguese]) associa um MID ambíguo com dois ou mais MID não ambíguos (expansão paradigmática) has-sense 1 2…n MID 2…n associa um MID de sentido não atômico com dois ou mais MID atômicos (expansão sintagmática) 1 MID26: ([myalg, stem, english], [mialg, stem, portuguese]) -expands-to MID42: ([muscle, stem, english], [muscul, stem, english], [muscul, stem, portuguese]) -expands-to MID88: ([pain, stem, english], [dor, invariant, portuguese], [algia, suffix, portuguese]) Se alguem perguntar o q é q faz desambiguação (existe um módulo no indexador) Quando o indexador não funciona direito () sintagmaparadigma expands-to

56 1. 2. 3. 4. 5. Exemplo Tsh-Spiegel/o nivel
Módulo experimental (ainda não funciona 100%)

57 Sistema MorphoSaurus : resultados experimentais em cenário CLIR
Exemplo Sistema MorphoSaurus : resultados experimentais em cenário CLIR Queries: German, Documents: English (OHSUMED collection) Baseline: English / English Morphosaurus Indexing Automated Query Translation+ Dictionary Lookup Documentos todos em inglês. Artigos médicos MEDLINE Coleção de 106 queries tb em inglês. Traduzidos para o alemão OShumed padrão ouro (indicando quais são os documentos) Baseline, sistema convencional de TR MS queries em alemão (Desempenho quase similar) Google translator é a 3a. + pesquisa UMLS Hahn, Schulz et al., RIAO 2004

58 PLN (processamento de linguagem natural)
Exemplo PLN (processamento de linguagem natural) expansão acrônimos identificação de nomes verificar ortografia etiquetador tipo de palavra SCT - EN identificar sentenças SCT - SP extração frases nominais criação subconjunto deteção de contexto MID- representação SNOMED CT abstração morfo- semântica Heurística de Mapeamento abstração morfo- semântica MID- representação candidatos a termo 58 58

59 SNOMED CT Concept Description
Exemplo Heurística de mapeamento: Exemplo SNOMED CT Concept Description MIDs ENG: Congestive heart failure #abund #cardiac #deficien ENG: Congestive cardiac failure #abund #cardiac #disorder POR: Insuficiência cardíaca #insuff #cardiac SPA: Insuficiencia cardíaca  SPA: Insuficiencia cardíaca congestiva #insuff #cardiac #abund 59 59

60 Heurística de mapeamento
Exemplo Heurística de mapeamento Para cada “candidato a termo” no documento decida se existem um termo SNOMED correspondentes caso sim, seleccione o melhor termo SNOMED Critérios de preferência: Sequências “típicas” de etiquetas POS, ex: “Infarto agudo do miocárdio” substantivo – adjetivo – DE – substantivo coincidência de MIDs threshold: 60% Em caso de falha: verifique se “candidato a termo” corresponde para dois conceitos da SNOMED , usando relacionamentos da SNOMED para preselecção 60 60

61 Exemplo Padrão ouro (kappa = 0.89) 61 61

62 Resultados preliminares
Exemplo Resultados preliminares 62 62

63 Próximo passo: identificar contextos
Exemplo Próximo passo: identificar contextos Problema: nem toda ocorrência de um termo em um documento refere a uma instância concreta de um conceito terminológico ou ontológico Contextos alternativos: planos hipóteses negação Ignorar contextos: dados não confiáveis

64 multiple organ failure
Exemplo Contextos: Exemplo 1 Ontology aortal aneurysm acute abdomen vascular prosthesis multiple organ failure hemo dialysis CT abdomen aneurysm- ectomy systemic infection vasoactive drug death Paciente interna por quadro de abdome agudo. TC de abdome mostrou aneurisma de aorta com evidencia de extravasamento de contraste. Levado a cirurgia de urgência, sendo realizada aneurismectomia com colocação de prótese. No pós-operatório evoluiu com síndrome da resposta inflamatória sistêmica, com disfunção de múltiplos órgãos e instabilidade hemodinâmica. Apesar do manejo com drogas vasoativas, reposição hídrica e hemodiálise veno-venosa crônica, o paciente apresentou piora progressiva, evoluindo para óbito.

65 Contextos: Exemplo 2 1. 2. 3. 4. 5. Exemplo
Ontology incisional hernia operation room liver transplant herniorrhaphy operation operation instance not instantiated reference to a plan reference to a suspended plan instance reference to a plan NOT referring to the same patient reference to a new plan not yet executed PACIENTE COM HÉRNIA INCISIONAL INTERNOU PARA REALIZAÇÃO DE HERNIOPLASTIA PORÉM A CIRURGIA FOI SUSPENSA DEVIDO A NECESSIDADE DE SALA COM URGÊNCIA PARA TRANSPLANTE HEPÁTICO. RECEBE ALTA COM ORIENTAÇÕES E CIRURGIA REMARCADA.

66 Conclusão Conclusão Trabalho ainda não concluído Trabalho futuro
primeiros resultados mostram que o mapeamento para SNOMED funciona através de idiomas Trabalho futuro completar o “pipeline” Avaliar impacto de cada elemento do pipeline Identificar contextos Uso da estrutura ontológica da SNOMED Publicação em preparação (IEEE Transactions on Information Technology in Biomedicine) 66 66

67 Teste de conhecimento (i)
Conclusão S1: “O cachorro estão latindo” S2: “A lua está latindo” __ S1 viola uma regra morfológica __ S2 viola uma regra pragmática __ S1 está sintáticamente correta __ “latindo” é uma palavra lexicalmente ambígua 67 67

68 Teste de conhecimento (ii)
Conclusão __ codificação automatizada é um exemplo de extração de informação __ reconhecimento automatizado é um recurso imprescindível para PLN em medicina __ Em PLN, a metodologia probabilística está sendo substituída por metodologias baseadas em IA __ Um parser identifica a estrutura hierárquica de uma sentença 68 68

69 Teste de conhecimento (iii)
Conclusão __ um corretor ortográfico é um elemento importante de um pipeline de PLN quando é utilizado para processar textos científicos __ na tradução de termos médicos o número de tokens fica constante __ No processamento de linguagem clínica a identificação de frases com negação é importante __ Todos os motores de recuperação de documentos produzem um ranking por relevância 69 69

70 Acknowledgements German Research Foundation (DFG)
International Bureau of the German Ministry of Research (BMBF-IB) Brazilian National Research Council (CNPq) Paraná Catholic University (PUCPR), Curitiba Hospital de Clínicas de Porto Alegre (HCPA) Averbis GmbH, Freiburg 70 70


Carregar ppt "Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria) 1 1 1."

Apresentações semelhantes


Anúncios Google