A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Apresentações semelhantes


Apresentação em tema: "Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)"— Transcrição da apresentação:

1 Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

2

3

4 Estrutura da palestra Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Cenários de processamento de texto livre Metodologia de lingüística computacional Exemplo

5 Estrutura da palestra Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Metodologia de lingüística computacional Cenários de processamento de texto livre Exemplo Conceitos Básicos

6 Semiótica – estudo dos signos Estudo dos signos Signos designam objetos / conceitos Lingüística: estudos dos signos das linguagem humana Conceitos Básicos

7 Signos Linguísticos fonemas morfemas palavras frases textos sentenças cardio, hepat, hepatite hepatite tipo B Granularidade O vírus da hepatite tipo B é transmitido sobretudo por meio do sangue. Os vírus da hepatite tipo B (HBV) e C (HCV) são transmitidos sobretudo por meio do sangue. Usuários de drogas injetáveis e pacientes submetidos a material cirúrgico contaminado e não-descartável estão entre as maiores vítimas termos O vírus da hepatite tipo B Conceitos Básicos

8 Conceitos básicos da lingüística (I) Fonologia: sistema sonoro consoantes, vogais, ditongos, nasais Morfologia: formação das palavras (radicais, prefixos, sufixos, infixos) apendic + ectomia, anti + concepcion + ais hepat + o + tomia, psico + s + somát + ico anti + ectomia Acrônimos: AIDS, CVA, Epônimos: Doença de Parkinson Sintaxe: regras que regem a construção de frases Ele estava internado por apendicite A irmã estavam internado por apendicite Parts of Speech (POS): Verbo, substantivo, pronome, adverbios Ambuguidades sintáticas: [plantas e animais] selvagens plantas e [animais selvagens] Conceitos Básicos

9 Conceitos básicos da lingüística (II) Semântica: estudo do significado das palavras / frases Realizou-se uma apendicectomia Realizou-se uma apendicectomia no ouvido externo Relações semânticas: Sinonímia: enfermo = doente, perna = membro inf. Homonímia: são e salvo, São 10 hs., São Paulo Disambiguação é o processo de identificar o significado correto de uma expressão ambígua. Pragmática: Pode deixar de fumar? (quero que deixe de fumar) Está muito quente aqui dentro. (quero que ligue o ar) Conceitos Básicos

10 Tokens / formas/ lexemas (III) When flies fly behind flies, a fly is flying ahead Quantas palavras? ocorrências (tokens) formas (types) lexemas (unidades lexicais) When flies fly behind flies, a fly is flying ahead Conceitos Básicos

11 Léxicos Termo: signo lingüístico (não só palavra) Léxico, dicionário: lista de termos com atributos lingüísticos e significação Critérios de inclusão / exclusão: Domínio (e.g. medicina, computação) forma básica (neoplasia, não neoplasias) atomicidade (Escherichia coli, não neoplasia maligna do esôfago) freqüência de uso: fratura de fêmur vs.fratura da falange media do dedo indicador esquerdo Conceitos Básicos

12 Corpora lingüísticos Conjunto de textos que serve como base de análise Tipos de analise analise estatística (ex. listas de freqüência) avaliação de hipóteses validação de regras lingüísticas Anotação de corpora POS (part of speech) Anotação semântica Na maioria: textos jornalísticos Em medicina: corpora importantes: MEDLINE (inglês) WWW como corpus Conceitos Básicos

13 Processamento de Linguagem Natural Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Metodologia de lingüística computacional Cenários de processamento de texto livre Exemplo

14 Linguagem Natural em biomedicina Recurso mais importante de informação e comunicação em Medicina Ciências biomédicas Produzida em diferentes formas Comunicação oral Escritura manuscrita / datilografada Texto legível por computador Linguagem Médica

15 Comunicação oral Profissional - Paciente Profissional - Profissional Linguagem Médica

16 Escritura manuscrita / datilografada Linguagem Médica

17 Narrativa clínica em prontuário SEQ DE MULTIPLOS AVCS, HIST DE CRISES CONVULSIVAS PREVIAS AOS EPISODIOS DESTA NOITE, APRESENTANDO PIORA GERAL, DESIDRATACAO LEVE SEM PIUORA DA FUNACAO RENAL, RX COM ATELECTASIAS DE BASES - CONSOLIDADCEOS?? PACIENTE SEM FEBRE MEDIDAAQUI -MAX 37,1 TEM NIVEL SERICO EM ANDAMNETO DE FENITOINA A SER CHECADO COM FAMILAIR EM EM 24 H RECEBE TTO ATB COM CEFUROXIMA VO -HMG NORMAL É DM SEM IMPORTANTE DESCOPENSACAO Linguagem Médica

18 Texto Livre em Periódico indexado em MEDLINE 40,000 registros / mês Linguagem Médica

19 Observações em prontuários Textos produzidos sobre a pressão de tempo: Deviação consciente da gramática normativa Linguagem altamente compacta: sentenças incompletas, acrônimos e abreviações, muitos contextos implícitos, muitas expressões ambíguas fora do contexto. Erros involuntários (gramaticais, ortográficos, por ignorar normas gramaticais e ortográficas): concerto, fraquesa Adicionalmente, se os textos não são gravadas e transcritas por datilógrafos: Erros sistemáticos e conscientes (omissão de caracteres de pontuação, omissão de acentos, (de)capitalizaçãoticlopidina?contraste?infecção?, HIPERTENSAO Lapsos de digitaçãohipertemsão (Ana Carolina Peters et al: Análise de erros de linguagem em sumários de alta. CBIS ) Linguagem Médica

20 Observações em textos científicos Textos produzidos com cuidado e revisão editorial Em sumários (abstracts): Textos gramaticais mais compactos, alto índice de nomes próprios (não lexicalizados) e acrônimos, parcialmente expandidos Variação e ambigüidade de termos e nomes: Tyrosine kinase with immunoglobulin and epidermal growth factor homology domains = tie NF2 = Neurofibromatosis 2[disease] Neurofibromin 2 [protein] Neurofibromatosis 2 gene [gene] NF-KB =NF-kb personalpages.manchester.ac.uk/staff/sophia.ananiadou/DTCI.ppt Linguagem Médica

21 Processamento de Linguagem Natural Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Cenários de processamento de texto livre Metodologia de lingüística computacional Exemplo

22 Gravação Transcrição Texto eletrônico Fala vs. escrita, vs. escritura manuscrita Sistema de Reconhecimento de fala Sistema de Reconhecimento de caracteres Cenários de PLN 4. 5.

23 Princípio de Processamento de Linguagem Natural Texto eletrônico Processamento Representação matemática Léxicos Corpora Ontologias KB Cenários de PLN 4. 5.

24 Tarefas Extração de informação Codificação automatizada Recuperação de informação Recuperação de documentos Recuperação de fatos Interpretação de linguagem natural Tradução automática Geração Automática de Texto Simplificação de texto Correção ortográfica (Reconhecimento Vocal) (Reconhecimento de Escritura Manuscrita) Cenários de PLN 4. 5.

25 Recuperação de documentos Cenários de PLN 4. 5.

26 Recuperação de documentos: Abordagem Básica Uma coleção de documentos D = {d 1, d 2,..., d n } uma consulta (query) q Dois métodos: Filtro divide D em dois conjuntos D relq e D nrelq (D relq = conjunto de documentos relevantes para q) (D nrelq = conjunto de documentos relevantes para q) Ranking = classificar por relevancia: D = [d 1, d 2,..., d n ] com rel (d i ) rel (d i+1 ) Combinações possíveis Cenários de PLN 4. 5.

27 Resultados de busca Coleção de documentos Consulta ? Recuperação de documentos Documentos classificados como relevantes Cenários de PLN 4. 5.

28 Ranking de relevância ? Coleção de documentos Consulta Recuperação de documentos Cenários de PLN 4. 5.

29 Extração de informação Cenários de PLN 4. 5.

30 Extração de informação Template Item 1 Item 3 Item 5 Item 2 Item 4 Item 6 Item 7 Item 8 shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count /µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 10 4 /µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B 12 (2010 pg/ml) and ferritin ( ng/ml). Human chorionic gonadotropin and [alpha]- fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]- naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm. Computed tomography (CT) of the chest showed a Cenários de PLN 4. 5.

31 Extração de informação Tumor registry Data diagnostico primário Grading Morfologia Localização primária Staging Data Terapia Quimioterapia Radioterapia shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count /µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 10 4 /µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B 12 (2010 pg/ml) and ferritin ( ng/ml). Human chorionic gonadotropin and [alpha]- fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]- naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm. Computed tomography (CT) of the chest showed a Extração de informação Cenários de PLN 4. 5.

32 Estrutura da palestra Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Cenários de processamento de texto livre Metodologia de lingüística computacional Exemplo

33 Pipeline de processamento de linguagem natural identificar sentenças verificar ortografia expansão acrônimos identificação de nomes etiquetador POS parser frases nominais representação padronizada Metodologia 5.

34 Pipeline de processamento de linguagem natural identificar sentenças verificar ortografia expansão acrônimos identificação de nomes etiquetador POS parser frases nominais representação padronizada # HAS # DM # Miocardiopatia dilatada chagásica (FE 35%) # Ca de prostata - orquiectomia (2004) # Cardiopatia isquêmica - IAM em 2005, com colocação de stent em DA e lesão severa inoperável em CD Pct. vem a emergência em 20/03 com quadro de dor torácica típica, sem elevação enzimática, com diagnóstico de angina instável e fibrilação atrial não identificada em avaliações prévias. Adicionalmente, apresentava descompensação do diabetes com sindrome hiperosmlar não cetótica. # HAS # DM # Miocardiopatia dilatada chagásica (FE 35%) # Ca de prostata - orquiectomia (2004) # Cardiopatia isquêmica IAM em 2005, com colocação de stent em DA e lesão severa inoperável em CD Pct. vem a emergência em 20/03 com quadro de dor torácica típica, sem elevação enzimática, com diagnóstico de angina instável e fibrilação atrial não identificada em avaliações prévias. Adicionalmente, apresentava Metodologia 5.

35 Pipeline de processamento de linguagem natural identificar sentenças verificar ortografia expansão acrônimos identificação de nomes etiquetador POS parser frases nominais representação padronizada seq de multiplos avcs, hist de crises convulcivas previas aos episodios desta noitw, apresentando piora geral, desidratacao leve s/ pioura da funcao renal. atelectasias de dases consolidacoes – febre medida aqui max 37,1 tem nivel seico em andamneto de fenitoina seqüência de múltiplos AVCs, histórico de crises convulsivas previas aos episódios desta noite, apresentando piora geral, desidratação leve sem piora da função renal. Atelectasis de bases consolidações – febre medida aqui max. 37,1 tem nível sérico em andamento de fenitoina Metodologia 5.

36 Pipeline de processamento de linguagem natural identificar sentenças verificar ortografia expansão acrônimos identificação de nomes etiquetador POS parser frases nominais representação padronizada Maria das Dores Azevedo procedente do Hospital de Alvorada onde estava internado desde 28/05 por broncoespasmo e disfunção respiratória, recebendo ampi- sulbactam e beta 2 agonista de 2/2h, com boa evolução. Encaminhado ao HCPA em 01/06 por ter iniciado dia 31/05 com distensão e dor abdominal importantes, acompanhado de vômitos fecalóides, sendo iniciado metronidazol e gentamicina. Havia recebido albendazol durante a internação, sem eliminar vermes. Avaliado pela CIPED: provável obstrução intestinal por áscaris.. Maria das Dores Azevedo procedente do Hospital de Alvorada onde estava internado desde 28/05 por broncoespasmo e disfunção respiratória, recebendo ampi- sulbactam e beta 2 agonista de 2/2h, com boa evolução. Encaminhado ao HCPA em 01/06 por ter iniciado dia 31/05 com distensão e dor abdominal importantes, acompanhado de vômitos fecalóides, sendo iniciado metronidazol e gentamicina. Havia recebido albendazol durante a internação, sem eliminar vermes. Avaliado pela CIPED: provável obstrução intestinal por áscaris Metodologia 5.

37 Pipeline de processamento de linguagem natural identificar sentenças verificar ortografia expansão acrônimos identificação de nomes etiquetador POS parser (chunker) representação padronizada Foi extubado, apresentou estridor que cedeu com NBZ com adrenalina e dexa. Apresentou bradicardia. Suspenso fentanil, permaneceu bradicárdico, necessitou atropina. Avaliado pela cardiologia sem particularidades. Após alta da UTI, recebeu óleo mineral e permaneceu eliminando áscaris. Após retirada do óleo mineral foi iniciado dieta, com boa aceitação, e albendazol. Recebe alta em bom estado geral, aceitando dieta VO, SV estáveis, apresentando hiperemia ao redor da ileostomia. Retorno com CIPED FoiNOUN extubadoVERB, SENT apresentou VERB estridor NOUN que DET cedeu VERB com PR NBZ NOUN com PR adrenalina NOUN e DET dexaNOUN.SENT Apresentou VERB bradicardiaSNOUN. SENT Metodologia 5.

38 Pipeline de processamento de linguagem natural identificar sentenças verificar ortografia expansão acrônimos identificação de nomes etiquetador POS parser (chunker) representação padronizada Foi extubado, apresentou estridor que cedeu com NBZ com adrenalina e dexa. Apresentou bradicardia. Suspenso fentanil, permaneceu bradicárdico, necessitou atropina. Avaliado pela cardiologia sem particularidades. Após alta da UTI, recebeu óleo mineral e permaneceu eliminando áscaris. Após retirada do óleo mineral foi iniciado dieta, com boa aceitação, e albendazol. Recebe alta em bom estado geral, aceitando dieta VO, SV estáveis, apresentando hiperemia ao redor da ileostomia. Retorno com CIPED FoiNOUN extubadoVERB, SENT apresentou VERB estridor NOUN que DET cedeu VERB com PR NBZ NOUN com PR adrenalina NOUN e DET dexaNOUN.SENT Apresentou VERB bradicardiaSNOUN. SENT Metodologia 5.

39 Mudança de paradigma em Lingüística Computacional RacionalismoEmpiricismo processamento simbólico processamento probabilístico síntese Metodologia 5.

40 Metodologias: Processamento simbólico (domínios bem delineados, sem muita IA) regras de produção expressões regulares léxicos, gazeteers (listas com nomes) Processamento probabilístico Corpora com anotações manuais: treinamento supervisionado sem anotações: treinamento não supervisionado Modelos Naive Bayes MaxEnt Support Vector Machines (SVN) Conditional Random Fields (CRF) Metodologia 5.

41 Problemas do processamento simbólico (crise de AI) Complexidade computacional gramáticas finite state automata / linear grammarsO(n) pushdown automata / context-free grammarsO(n3) unification grammars, dependency grammars NP-complete lógicas propositional logic, monadic first-order predicate logic decidable first-order predicate logic semi-decidable nth-order predicate logic (n > 1), modal logics undecidable Manutenção grandes léxicos, ontologias, bases de conhecimento Metodologia 5.

42 Desafios (I) Processamento simbólico (domínios bem delineados, sem muita IA) regras de produção expressões regulares léxicos, gazeteers (listas com nomes) Processamento probabilístico Corpora com anotações manuais: treinamento supervisionado sem anotações: treinamento não supervisionado Modelos Naive Bayes MaxEnt Support Vector Machines (SVN) Conditional Random Fields (CRF) Metodologia 5.

43 Desafios (II) Dinamica da linguagem real Produtividade morfológica (aidético) Neologismos, abreviações (pct) entradas erradas e não especificadas (CONSOLIDADCEOS?? PACIENTE SEM FEBRE MEDIDAAQUI -MAX 37,1) ambiguidade importância do contexto negação (não foi conformada a hipótese que...) incertidão (neoplasia de comportamento duvidoso) expressões temporais (nas primeiras duas semanas) coordinações complexas (invasive and metastatic, highly differentiated carcinoma invasor e matastático, pouco diferenciado) Metodologia 5.

44 Recursos Ananiadou: Text mining in biomedicine: Techniques and Tools personalpages.manchester.ac.uk/staff/sophia.ananiadou/DTCI.ppt openNLP: UIMA (Unstructured Information Management applications) Association of Computational Linguistics: ACL wiki Foundation of Statistical Natural Language Processing Livros: Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999 Ananiadou, Mcnaught: Text Mining for Biology And Biomedicine Hersh: Information Retrieval. A Health and Biomedical Perspective Metodologia 5.

45 Processamento de Linguagem Natural Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Cenários de processamento de texto livre Metodologia de lingüística computacional Exemplo

46 Estudo: codificação automatizada Fonte: – sumários de alta do departmento de cardiologia do Hospital de Clínicas de Porto Alegre, Brasil Destino SNOMED Clinical Terms, 01/2009 Linguagens: Inglês, Espanhol Exemplo

47 SNOMED CT Termos médicos (inclusive sinônimos e traduções) são conectados com conceitos (portadores de significado) conceitos ~ termos em Inglês, ~ em Espanhol Exemplo

48 PLN (processamento de linguagem natural) identificar sentenças verificar ortografia expansão acrônimos identificação de nomes etiquetador tipo de palavra extração frases nominais deteção de contexto abstração morfo- semântica SCT - EN SCT - SP criação subconjunto abstração morfo- semântica MID- representação SNOMED CT MID- representação candidatos a termo Exemplo

49 Mapeamento de termos médicos Problema: high bloodpressure hipertensãoarterial meningoencefalite Bluthochdruck EntzündungvonHirnhäutenGehirnund meningocerebralinflammation hipertensión arterial meningoencefalitis Aborgagem MorphoSaurus: construir equivalências semánticas a nivel de fragmentos de palavras Exemplo

50 Átomos semânticos ou subwords Definição: sequência de caracteres cujo significado não decorre dos significados dos componentes, exemplo: diafise mas não dia + fise diáfise = haste do osso, fise (gr. physis) = natureza neur + ite, mas neurose, não neur + ose neur… = nervo, -ite = inflamação, -ose = doença: Uma neurite é uma inflamação de nervo(s), mas neurose não é uma doença de nervo(s) Subwords podem ser morfemas assim como combinações de morfemas, inclusive palavras inteiras Exemplo

51 Sistema MorphoSaurus Sistema de indexação morfo-semântica Traduz texto para interlíngua Domínio: Linguagem Clínica Idiomas: Inglês, Alemão, Português, Espanhol, Sueco, Francês Componentes: Léxico de subwords Tesauro Parser morfossintático Indexador Exemplo

52 Modelo do Léxico String of characters Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix} Language = {English, German, Spanish, Portuguese, French, Swedish} Lexeme (e.g. anticoncepcionais) [ anti, prefix, portuguese] [ concepc, stem, portuguese] [ ionais, terminal suffix, portuguese] (e.g. partnership) [ partner, stem, english] [ ship, suffix, english] (e.g. ship) [ ship, invariant, english] Exemplo

53 Modelo do Léxico String of characters Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix} Language = {English, German, Spanish, Portuguese, French,Swedish} Lexeme MID 1..n 1 MID42= ([ muscle, stem, english], [ muscul, stem, english], [ myo, prefix, english], [ muscul, stem, portuguese], [ mio, prefix, portuguese], [ muskel, stem, german], [ muskul, stem, german], [ myo, prefix, german]) MIDs identificam grupos de lexemas sinônimos Exemplo

54 Modelo do Léxico String of characters Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix} Language = {English, German, Spanish, Portuguese, French,Swedish} Lexeme MID 1..n …n has-sense expands-to associa um MID ambíguo com dois ou mais MID não ambíguos (expansão paradigmática) associa um MID de sentido não atômico com dois ou mais MID atômicos (expansão sintagmática) Exemplo

55 Modelo do Léxico MID 1 1 2…n has-sense expands-to associa um MID ambíguo com dois ou mais MID não ambíguos (expansão paradigmática) associa um MID de sentido não atômico com dois ou mais MID atômicos (expansão sintagmática) MID16: ([ head, stem, english]) - has-sense MID12: ([ caput, stem, english], [ capit, stem, english], [ cephal, stem, english], [ cefal, stem, portuguese], [ cabec, stem, portuguese]) - has-sense MID34: ( [ chief, stem, english], [ chef, stem, portuguese]) MID26: ([ myalg, stem, english], [ mialg, stem, portuguese]) -expands-to MID42: ([ muscle, stem, english], [ muscul, stem, english], [ muscul, stem, portuguese]) -expands-to MID88: ([ pain, stem, english], [ dor, invariant, portuguese], [ algia, suffix, portuguese]) Exemplo

56

57 Hahn, Schulz et al., RIAO 2004 Queries: German, Documents: English (OHSUMED collection) Baseline: English / English Morphosaurus Indexing Automated Query Translation+ Dictionary Lookup Sistema MorphoSaurus : resultados experimentais em cenário CLIR Exemplo

58 PLN (processamento de linguagem natural) identificar sentenças verificar ortografia expansão acrônimos identificação de nomes etiquetador tipo de palavra extração frases nominais deteção de contexto abstração morfo- semântica SCT - EN SCT - SP criação subconjunto abstração morfo- semântica MID- representação SNOMED CT MID- representação candidatos a termo Heurística de Mapeamento Exemplo

59 Heurística de mapeamento: Exemplo SNOMED CT Concept Description MIDs ENG: Congestive heart failure#abund #cardiac #deficien ENG: Congestive cardiac failure#abund #cardiac #disorder POR: Insuficiência cardíaca#insuff #cardiac SPA: Insuficiencia cardíaca #insuff #cardiac SPA: Insuficiencia cardíaca congestiva#insuff #cardiac #abund Exemplo

60 Heurística de mapeamento Para cada candidato a termo no documento decida se existem um termo SNOMED correspondentes caso sim, seleccione o melhor termo SNOMED Critérios de preferência: Sequências típicas de etiquetas POS, ex:Infarto agudo do miocárdio substantivo – adjetivo – DE – substantivo coincidência de MIDs threshold: 60% Em caso de falha: verifique se candidato a termo corresponde para dois conceitos da SNOMED, usando relacionamentos da SNOMED para preselecção Exemplo

61 Padrão ouro (kappa = 0.89) Exemplo

62 Resultados preliminares Exemplo

63 Próximo passo: identificar contextos Problema: nem toda ocorrência de um termo em um documento refere a uma instância concreta de um conceito terminológico ou ontológico Contextos alternativos: planos hipóteses negação Ignorar contextos: dados não confiáveis Exemplo

64 acute abdomen CT abdomen aortal aneurysm aneurysm- ectomy vascular prosthesis death systemic infection multiple organ failure vasoacti ve drug hemo dialysis Paciente interna por quadro de abdome agudo. TC de abdome mostrou aneurisma de aorta com evidencia de extravasamento de contraste. Levado a cirurgia de urgência, sendo realizada aneurismectomia com colocação de prótese. No pós-operatório evoluiu com síndrome da resposta inflamatória sistêmica, com disfunção de múltiplos órgãos e instabilidade hemodinâmica. Apesar do manejo com drogas vasoativas, reposição hídrica e hemodiálise veno-venosa crônica, o paciente apresentou piora progressiva, evoluindo para óbito. Ontology Contextos: Exemplo Exemplo

65 incisional hernia herniorrhaphy operation room liver transplant operation instance not instantiated reference to a plan operation reference to a suspended plan instance reference to a plan NOT referring to the same patient reference to a new plan not yet executed PACIENTE COM HÉRNIA INCISIONAL INTERNOU PARA REALIZAÇÃO DE HERNIOPLASTIA PORÉM A CIRURGIA FOI SUSPENSA DEVIDO A NECESSIDADE DE SALA COM URGÊNCIA PARA TRANSPLANTE HEPÁTICO. RECEBE ALTA COM ORIENTAÇÕES E CIRURGIA REMARCADA. Ontology Contextos: Exemplo Exemplo

66 Conclusão Trabalho ainda não concluído – primeiros resultados mostram que o mapeamento para SNOMED funciona através de idiomas Trabalho futuro – completar o pipeline – Avaliar impacto de cada elemento do pipeline – Identificar contextos – Uso da estrutura ontológica da SNOMED – Publicação em preparação (IEEE Transactions on Information Technology in Biomedicine)

67 Conclusão Teste de conhecimento (i) S1: O cachorro estão latindo S2: A lua está latindo __ S1 viola uma regra morfológica __ S2 viola uma regra pragmática __ S1 está sintáticamente correta __ latindo é uma palavra lexicalmente ambígua

68 Conclusão Teste de conhecimento (ii) __ codificação automatizada é um exemplo de extração de informação __ reconhecimento automatizado é um recurso imprescindível para PLN em medicina __ Em PLN, a metodologia probabilística está sendo substituída por metodologias baseadas em IA __ Um parser identifica a estrutura hierárquica de uma sentença

69 Conclusão Teste de conhecimento (iii) __ um corretor ortográfico é um elemento importante de um pipeline de PLN quando é utilizado para processar textos científicos __ na tradução de termos médicos o número de tokens fica constante __ No processamento de linguagem clínica a identificação de frases com negação é importante __ Todos os motores de recuperação de documentos produzem um ranking por relevância

70 Acknowledgements German Research Foundation (DFG) International Bureau of the German Ministry of Research (BMBF-IB) Brazilian National Research Council (CNPq) Paraná Catholic University (PUCPR), Curitiba Hospital de Clínicas de Porto Alegre (HCPA) Averbis GmbH, Freiburg


Carregar ppt "Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)"

Apresentações semelhantes


Anúncios Google