Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria) 1 1 1.

Slides:



Advertisements
Apresentações semelhantes
Operações sobre o Texto
Advertisements

Profa. Dra Maria Luiza de Almeida Campos
Software Básico Silvio Fernandes
Introdução à Ciência da Computação Linguagens de Programação.
Pensamento e linguagem
Uma visão teórica de um Sistema de Vigilância
Programa Educação Continuada C R E M E S P
Profa. Andréa Mendes Baffa
Introdução à Programação uma Abordagem Funcional Programação I Prof.ª Claudia Boeres CT VII - Sala 32 Departamento de Informática Centro.
Especificação de Consultas
Linguagens Formais e Autômatos
Software Básico Silvio Fernandes
Sistema Gerenciador de Banco de Dados SGBD
Interfaces Conversacionais
Amanda Meincke Melo RA:
Construção de Compiladores
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
Registro Eletrônico para Acompanhamento Médico de Pacientes em uma UTI Rafael Charnovscki (1), Jacques R. Nascimento Filho (2,3) Giancarlo Bianchin.
Projeto Tradutor Português x LIBRAS TLIBRAS
University of Minho, Portugal
Cefet/ RJ Centro Federal de Educação Tecnológica Celso Suckow da Fonseca Curso: Ensino de Línguas Estrangeiras Disciplina: Metodologia do ensino.
Conceitos Básicos.
Priscilla Koppe Edson José Pacheco Percy Nohama Stefan Schulz
Prolog Programação Lógica Ícaro A. Souza.
Tesauros José Antonio M. Nascimento.
Inteligência Artificial
Linguística, Semântica e Terminologia
INQUER Interacção Pessoa-Máquina em Linguagem Natural
Taxonomia Profa. Lillian Alvares,
Faculdade de Ciência da Informação Universidade de Brasília
Gramáticas Livres de Contexto
Sintaxe e Semântica Prof.: Gláucya Carreiro Boechat
Estudo dos Conceitos e Paradigmas de Programação
Semântica de Linguagens de Programação
Análise Léxica Primeira fase de um compilador
Construindo tesauros Prof. José Antonio M. Nascimento.
Inglês Técnico TERMOS E EXPRESSÕES UTILIZADAS EM PROGRAMAÇÃO DE COMPUTADORES E ATIVIDADES RELACIONADAS A INFORMÁTICA ________________________________________________.
The MORPHOSAURUS Medical Subword Lexicon: Lexicographic and Semantic Aspects Stefan Schulz 12, Kornél Markó 14, Percy Nohama 23, Roosewelt Leite de Andrade.
Analise sintática aula-07-analise-sintática.pdf.
DISCIPLINA INFORMÁTICA MÉDICA Prof. Eliane
Extracção Automática de Ontologias
Classificacao de Texto Projeto Spam Filter
Codificação automatizada de documentos clínicos
Ontologias Biológicas para Endemias Stefan Schulz Grupo de Informática Médica Universidade de Freiburg (Alemanha) Recife 1 / 11 / 07 Freiburg Recife.
Lógica para Computação Prof. Celso Antônio Alves Kaestner, Dr. Eng. celsokaestner (at) utfpr (dot) edu (dot) br.
Plano de Doutoramento Construção de uma Base de Conhecimento Lexical para o Português Nuno Seco.
Métodos Formais.
Segmentador, normalizador ortográfico, heurística de disambiguação Vocabulário de subwords Palavra(s) originais (palavra por palavra) Palavra(s) segmentadas.
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
Mas para que serve um analisador sintático? Verificar se a estrutura gramatical do programa está correta Escrito de outra forma: O texto segue as regras.
ESCOLA POLITÉCNICA DA UNIVERSIDADE DE SÃO PAULO Departamento de Engenharia de Computação e Sistemas Digitais Implementação de buscas utilizando Linguagem.
Momento Científico 22/05/2014 Renata Borges Facury Arroyo
Faculdade Pernambucana - FAPE Setembro/2007
Por que este curso? Everardo de Carvalho PUCCAMP.
Semântica de Linguagens de Programação
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Classificação Probabilística com TBL Cícero Nogueira dos Santos Pontifícia Universidade Católica do Rio de Janeiro – PUC-Rio Departamento de Informática.
Resolução de Anáforas Pronominais Apresentação da Proposta de Projeto Pontifícia Universidade Católica do Rio de Janeiro Departamento de Informática INF.
Classificação de Textos
Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –
Linguagem Natureza e Aquisição.
Paradigmas de Programação
Epidemiologia Analítica
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Faculdade Pernambuca - FAPE Compiladores Abril/2007 Compiladores Abril/2007.
COMPILADORES 03 Prof. Marcos.
Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
A natureza das linguagens documentárias HUTCHINS (1975)
Aula Origens da Linguagem Documentária Documentação (déc. 50 a 70) crescimento do conhecimento científico e tecnológico Dificuldades para armazenar.
Transcrição da apresentação:

Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria) 1 1 1

Estrutura da palestra Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Cenários de processamento de texto livre Metodologia de lingüística computacional Exemplo

Estrutura da palestra 1. 1. Conceitos Básicos 2. 3. 4. 5. Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Metodologia de lingüística computacional Cenários de processamento de texto livre Exemplo

Semiótica – estudo dos signos 1. 1. Conceitos Básicos 2. 3. 4. 5. Semiótica – estudo dos signos Estudo dos signos Signos designam objetos / conceitos Lingüística: estudos dos signos das linguagem humana

Signos Linguísticos 1. 1. Conceitos Básicos 2. 3. 4. 5. cardio, hepat, fonemas morfemas cardio, hepat, palavras hepatite termos hepatite tipo B frases O vírus da hepatite tipo B O vírus da hepatite tipo B é transmitido sobretudo por meio do sangue. Granularidade sentenças Os vírus da hepatite tipo B (HBV) e C (HCV) são transmitidos sobretudo por meio do sangue. Usuários de drogas injetáveis e pacientes submetidos a material cirúrgico contaminado e não-descartável estão entre as maiores vítimas textos

Conceitos básicos da lingüística (I) Fonologia: sistema sonoro consoantes, vogais, ditongos, nasais Morfologia: formação das palavras (radicais, prefixos, sufixos, infixos) apendic + ectomia , anti + concepcion + ais hepat + o + tomia, psico + s + somát + ico anti + ectomia Acrônimos: AIDS, CVA, Epônimos: Doença de Parkinson Sintaxe: regras que regem a construção de frases “Ele estava internado por apendicite” “A irmã estavam internado por apendicite” “Parts of Speech” (POS): Verbo, substantivo, pronome, adverbios Ambuguidades sintáticas: “[plantas e animais] selvagens” “plantas e [animais selvagens]”

Conceitos básicos da lingüística (II) Semântica: estudo do significado das palavras / frases “Realizou-se uma apendicectomia” “Realizou-se uma apendicectomia no ouvido externo” Relações semânticas: Sinonímia: “enfermo” = “doente”, “perna” = “membro inf.” Homonímia: “são e salvo”, “São 10 hs.”, “São Paulo” Disambiguação é o processo de identificar o significado correto de uma expressão ambígua. Pragmática: “Pode deixar de fumar?“ (quero que deixe de fumar) “Está muito quente aqui dentro.” (quero que ligue o ar)

Tokens / formas/ lexemas (III) 1. 1. Conceitos Básicos 2. 3. 4. 5. Tokens / formas/ lexemas (III) Quantas palavras? ocorrências (tokens) formas (types) lexemas (unidades lexicais) “When flies fly behind flies, a fly is flying ahead” 1 2 3 4 5 6 7 8 9 10 “When flies fly behind flies, a fly is flying ahead” 1 2 3 4 2 5 3 6 7 8 “When flies fly behind flies, a fly is flying ahead” 1 2 3 4 2 5 2 6 3 7 “When flies fly behind flies, a fly is flying ahead”

Léxicos Termo: signo lingüístico (não só palavra) 1. 1. Conceitos Básicos 2. 3. 4. 5. Léxicos Termo: signo lingüístico (não só palavra) Léxico, dicionário: lista de termos com atributos lingüísticos e significação Critérios de inclusão / exclusão: Domínio (e.g. medicina, computação) forma básica (“neoplasia”, não “neoplasias”) atomicidade (“Escherichia coli”, não “neoplasia maligna do esôfago”) freqüência de uso: “fratura de fêmur” vs. “fratura da falange media do dedo indicador esquerdo”

Corpora lingüísticos Conjunto de textos que serve como base de análise 1. 1. Conceitos Básicos 2. 3. 4. 5. Corpora lingüísticos Conjunto de textos que serve como base de análise Tipos de analise analise estatística (ex. listas de freqüência) avaliação de hipóteses validação de regras lingüísticas Anotação de corpora POS (part of speech) Anotação semântica Na maioria: textos jornalísticos Em medicina: corpora importantes: MEDLINE (inglês) WWW como corpus

Processamento de Linguagem Natural Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Metodologia de lingüística computacional Cenários de processamento de texto livre Exemplo

Linguagem Natural em biomedicina 1. 1. 2. Linguagem Médica 3. 4. 5. Linguagem Natural em biomedicina Recurso mais importante de informação e comunicação em Medicina Ciências biomédicas Produzida em diferentes formas Comunicação oral Escritura manuscrita / datilografada Texto legível por computador

Comunicação oral 1. 1. 2. Linguagem Médica 3. 4. 5. Profissional - Paciente Profissional - Profissional

Escritura manuscrita / datilografada 1. 1. 2. Linguagem Médica 3. 4. 5. Escritura manuscrita / datilografada

Narrativa clínica em prontuário 1. 1. 2. Linguagem Médica 3. 4. 5. Narrativa clínica em prontuário SEQ DE MULTIPLOS AVCS , HIST DE CRISES CONVULSIVAS PREVIAS AOS EPISODIOS DESTA NOITE , APRESENTANDO PIORA GERAL , DESIDRATACAO LEVE SEM PIUORA DA FUNACAO RENAL, RX COM ATELECTASIAS DE BASES - CONSOLIDADCEOS?? PACIENTE SEM FEBRE MEDIDAAQUI -MAX 37,1 TEM NIVEL SERICO EM ANDAMNETO DE FENITOINA A SER CHECADO COM FAMILAIR EM EM 24 H RECEBE TTO ATB COM CEFUROXIMA VO -HMG NORMAL É DM SEM IMPORTANTE DESCOPENSACAO.

Texto Livre em Periódico indexado em MEDLINE 1. 1. 2. Linguagem Médica 3. 4. 5. Texto Livre em Periódico indexado em MEDLINE 40,000 registros / mês

Observações em prontuários 1. 1. 2. Linguagem Médica 3. 4. 5. Observações em prontuários Textos produzidos sobre a pressão de tempo: Deviação consciente da gramática normativa Linguagem altamente compacta: sentenças incompletas, acrônimos e abreviações, muitos contextos implícitos, muitas expressões ambíguas fora do contexto. Erros involuntários (gramaticais, ortográficos, por ignorar normas gramaticais e ortográficas): “concerto”, “fraquesa” Adicionalmente, se os textos não são gravadas e transcritas por datilógrafos: Erros sistemáticos e conscientes (omissão de caracteres de pontuação, omissão de acentos, (de)capitalização “ticlopidina?contraste?infecção?” , “HIPERTENSAO” Lapsos de digitação “hipertemsão” (Ana Carolina Peters et al: Análise de erros de linguagem em sumários de alta. CBIS 2010. )

Observações em textos científicos 1. 1. 2. Linguagem Médica 3. 4. 5. Observações em textos científicos Textos produzidos com cuidado e revisão editorial Em sumários (abstracts): Textos gramaticais mais compactos, alto índice de nomes próprios (não lexicalizados) e acrônimos, parcialmente expandidos Variação e ambigüidade de termos e nomes: “Tyrosine kinase with immunoglobulin and epidermal growth factor homology domains” = “tie” NF2 = “Neurofibromatosis 2” [disease] “Neurofibromin 2” [protein] “Neurofibromatosis 2 gene” [gene] “NF-KB” = “NF-kb” personalpages.manchester.ac.uk/staff/sophia.ananiadou/DTCI.ppt

Processamento de Linguagem Natural Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Cenários de processamento de texto livre Metodologia de lingüística computacional Exemplo

Fala vs. escrita, vs. escritura manuscrita 1. 1. 2. 3. Cenários de PLN 4. 5. Fala vs. escrita, vs. escritura manuscrita Sistema de Reconhecimento de caracteres Gravação Transcrição Texto eletrônico Sistema de Reconhecimento de fala

Princípio de Processamento de Linguagem Natural 1. 1. 2. 3. Cenários de PLN 4. 5. Princípio de Processamento de Linguagem Natural Léxicos Ontologias Corpora KB Texto eletrônico Processamento Representação matemática

Tarefas 1. 1. 2. 3. Cenários de PLN 4. 5. Extração de informação Codificação automatizada Recuperação de informação Recuperação de documentos Recuperação de fatos Interpretação de linguagem natural Tradução automática Geração Automática de Texto Simplificação de texto Correção ortográfica (Reconhecimento Vocal) (Reconhecimento de Escritura Manuscrita)

Recuperação de documentos 1. 1. 2. 3. Cenários de PLN 4. 5. Recuperação de documentos

Recuperação de documentos: Abordagem Básica 1. 1. 2. 3. Cenários de PLN 4. 5. Recuperação de documentos: Abordagem Básica Uma coleção de documentos D = {d1, d2, ..., dn} uma consulta (query) q Dois métodos: „Filtro“ divide D em dois conjuntos Drelq e Dnrelq (Drelq = conjunto de documentos relevantes para q) (Dnrelq = conjunto de documentos relevantes para q) „Ranking“ = classificar por relevancia: D = [d‘1, d‘2, ..., d‘n] com rel (d‘i)  rel (d‘i+1) Combinações possíveis

Recuperação de documentos 1. 1. 2. 3. Cenários de PLN 4. 5. Recuperação de documentos ? Consulta Resultados de busca Documentos classificados como relevantes Coleção de documentos

Recuperação de documentos 1. 1. 2. 3. Cenários de PLN 4. 5. Recuperação de documentos ? Consulta Ranking de relevância Coleção de documentos

Extração de informação 1. 1. 2. 3. Cenários de PLN 4. 5. Extração de informação

Extração de informação 1. 1. 2. 3. Cenários de PLN 4. 5. Extração de informação Template Item 1 shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12 (2010 pg/ml) and ferritin (650. 0 ng/ml). Human chorionic gonadotropin and [alpha]-fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest showed a Item 2 Item 3 Item 4 Item 5 Item 6 Item 7 Item 8

Extração de informação 1. 1. 2. 3. Cenários de PLN 4. 5. Extração de informação Tumor registry Data diagnostico primário shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12 (2010 pg/ml) and ferritin (650. 0 ng/ml). Human chorionic gonadotropin and [alpha]-fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest showed a Localização primária Grading Staging Morfologia Data Terapia Quimioterapia Radioterapia

Estrutura da palestra Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Cenários de processamento de texto livre Metodologia de lingüística computacional Exemplo

representação padronizada 1. 1. 2. 3. 4. Metodologia 5. “Pipeline” de processamento de linguagem natural expansão acrônimos identificação de nomes verificar ortografia etiquetador POS identificar sentenças parser frases nominais representação padronizada 33 33

representação padronizada 1. 1. 2. 3. 4. Metodologia 5. “Pipeline” de processamento de linguagem natural expansão acrônimos identificação de nomes verificar ortografia etiquetador POS identificar sentenças # HAS # DM # Miocardiopatia dilatada chagásica (FE 35%) # Ca de prostata - orquiectomia (2004) # Cardiopatia isquêmica - IAM em 2005, com colocação de stent em DA e lesão severa inoperável em CD Pct. vem a emergência em 20/03 com quadro de dor torácica típica, sem elevação enzimática, com diagnóstico de angina instável e fibrilação atrial não identificada em avaliações prévias. Adicionalmente, apresentava descompensação do diabetes com sindrome hiperosmlar não cetótica. # HAS # DM # Miocardiopatia dilatada chagásica (FE 35%) # Ca de prostata - orquiectomia (2004) # Cardiopatia isquêmica IAM em 2005, com colocação de stent em DA e lesão severa inoperável em CD Pct. vem a emergência em 20/03 com quadro de dor torácica típica, sem elevação enzimática, com diagnóstico de angina instável e fibrilação atrial não identificada em avaliações prévias. Adicionalmente, apresentava parser frases nominais representação padronizada 34 34

representação padronizada 1. 1. 2. 3. 4. Metodologia 5. “Pipeline” de processamento de linguagem natural expansão acrônimos identificação de nomes verificar ortografia etiquetador POS identificar sentenças seq de multiplos avcs , hist de crises convulcivas previas aos episodios desta noitw, apresentando piora geral, desidratacao leve s/ pioura da funcao renal . atelectasias de dases consolidacoes – febre medida aqui max 37,1 tem nivel seico em andamneto de fenitoina seqüência de múltiplos AVCs , histórico de crises convulsivas previas aos episódios desta noite, apresentando piora geral, desidratação leve sem piora da função renal . Atelectasis de bases consolidações – febre medida aqui max. 37,1 tem nível sérico em andamento de fenitoina parser frases nominais representação padronizada 35 35

representação padronizada 1. 1. 2. 3. 4. Metodologia 5. “Pipeline” de processamento de linguagem natural expansão acrônimos identificação de nomes verificar ortografia etiquetador POS identificar sentenças Maria das Dores Azevedo procedente do Hospital de Alvorada onde estava internado desde 28/05 por broncoespasmo e disfunção respiratória, recebendo ampi-sulbactam e beta 2 agonista de 2/2h, com boa evolução. Encaminhado ao HCPA em 01/06 por ter iniciado dia 31/05 com distensão e dor abdominal importantes, acompanhado de vômitos fecalóides, sendo iniciado metronidazol e gentamicina. Havia recebido albendazol durante a internação, sem eliminar vermes. Avaliado pela CIPED: provável obstrução intestinal por áscaris.. Maria das Dores Azevedo procedente do Hospital de Alvorada onde estava internado desde 28/05 por broncoespasmo e disfunção respiratória, recebendo ampi-sulbactam e beta 2 agonista de 2/2h, com boa evolução. Encaminhado ao HCPA em 01/06 por ter iniciado dia 31/05 com distensão e dor abdominal importantes, acompanhado de vômitos fecalóides, sendo iniciado metronidazol e gentamicina. Havia recebido albendazol durante a internação, sem eliminar vermes. Avaliado pela CIPED: provável obstrução intestinal por áscaris.. parser frases nominais representação padronizada 36 36

representação padronizada 1. 1. 2. 3. 4. Metodologia 5. “Pipeline” de processamento de linguagem natural expansão acrônimos identificação de nomes verificar ortografia etiquetador POS identificar sentenças Foi extubado, apresentou estridor que cedeu com NBZ com adrenalina e dexa. Apresentou bradicardia. Suspenso fentanil, permaneceu bradicárdico, necessitou atropina. Avaliado pela cardiologia sem particularidades. Após alta da UTI, recebeu óleo mineral e permaneceu eliminando áscaris. Após retirada do óleo mineral foi iniciado dieta, com boa aceitação, e albendazol. Recebe alta em bom estado geral, aceitando dieta VO, SV estáveis, apresentando hiperemia ao redor da ileostomia. Retorno com CIPED Foi NOUN extubado VERB , SENT apresentou VERB estridor NOUN que DET cedeu VERB com PR NBZ NOUN adrenalina NOUN e DET dexa NOUN . SENT Apresentou VERB bradicardia SNOUN . SENT parser (chunker) representação padronizada 37 37

representação padronizada 1. 1. 2. 3. 4. Metodologia 5. “Pipeline” de processamento de linguagem natural expansão acrônimos identificação de nomes verificar ortografia etiquetador POS identificar sentenças Foi extubado, apresentou estridor que cedeu com NBZ com adrenalina e dexa. Apresentou bradicardia. Suspenso fentanil, permaneceu bradicárdico, necessitou atropina. Avaliado pela cardiologia sem particularidades. Após alta da UTI, recebeu óleo mineral e permaneceu eliminando áscaris. Após retirada do óleo mineral foi iniciado dieta, com boa aceitação, e albendazol. Recebe alta em bom estado geral, aceitando dieta VO, SV estáveis, apresentando hiperemia ao redor da ileostomia. Retorno com CIPED Foi NOUN extubado VERB , SENT apresentou VERB estridor NOUN que DET cedeu VERB com PR NBZ NOUN adrenalina NOUN e DET dexa NOUN . SENT Apresentou VERB bradicardia SNOUN . SENT parser (chunker) representação padronizada 38 38

Mudança de paradigma em Lingüística Computacional 1. 1. 2. 3. 4. Metodologia 5. Mudança de paradigma em Lingüística Computacional 1990 2000 2010 síntese Racionalismo Empiricismo processamento simbólico processamento probabilístico

Metodologias: 1. 1. 2. 3. 4. Metodologia 5. Processamento simbólico (domínios bem delineados, sem muita IA) regras de produção expressões regulares léxicos, gazeteers (listas com nomes) Processamento probabilístico Corpora com anotações manuais: treinamento supervisionado sem anotações: treinamento não supervisionado Modelos Naive Bayes MaxEnt Support Vector Machines (SVN) Conditional Random Fields (CRF) AIDS acrônimo  adjetivo Parkinson +sufixo  adjetivo

Problemas do processamento simbólico (“crise de AI”) 1. 1. 2. 3. 4. Metodologia 5. Problemas do processamento simbólico (“crise de AI”) Complexidade computacional gramáticas finite state automata / linear grammars O(n) pushdown automata / context-free grammars O(n3) unification grammars, dependency grammars NP-complete lógicas propositional logic, monadic first-order predicate logic decidable first-order predicate logic semi-decidable nth-order predicate logic (n > 1), modal logics undecidable Manutenção grandes léxicos, ontologias, bases de conhecimento AIDS acrônimo  adjetivo Parkinson +sufixo  adjetivo

Desafios (I) 1. 1. 2. 3. 4. Metodologia 5. Processamento simbólico (domínios bem delineados, sem muita IA) regras de produção expressões regulares léxicos, gazeteers (listas com nomes) Processamento probabilístico Corpora com anotações manuais: treinamento supervisionado sem anotações: treinamento não supervisionado Modelos Naive Bayes MaxEnt Support Vector Machines (SVN) Conditional Random Fields (CRF) AIDS acrônimo  adjetivo Parkinson +sufixo  adjetivo

Desafios (II) 1. 1. 2. 3. 4. Metodologia 5. Dinamica da linguagem real Produtividade morfológica (“aidético”) Neologismos , abreviações (“pct”) entradas erradas e não especificadas (“CONSOLIDADCEOS?? PACIENTE SEM FEBRE MEDIDAAQUI -MAX 37,1”) ambiguidade importância do contexto negação (“não foi conformada a hipótese que...”) incertidão (“neoplasia de comportamento duvidoso”) expressões temporais (“nas primeiras duas semanas”) coordinações complexas (“invasive and metastatic, highly differentiated carcinoma invasor e matastático, pouco diferenciado”) AIDS acrônimo  adjetivo Parkinson +sufixo  adjetivo

1. 1. 2. 3. 4. Metodologia 5. Recursos Ananiadou: Text mining in biomedicine: Techniques and Tools personalpages.manchester.ac.uk/staff/sophia.ananiadou/DTCI.ppt openNLP: http://opennlp.sourceforge.net/ UIMA (Unstructured Information Management applications) http://uima.apache.org/ Association of Computational Linguistics: ACL wiki http://aclweb.org/aclwiki/index.php?title=Main_Page Foundation of Statistical Natural Language Processing http://nlp.stanford.edu/fsnlp/ Livros: Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999 Ananiadou, Mcnaught: Text Mining for Biology And Biomedicine  Hersh: Information Retrieval. A Health and Biomedical Perspective. AIDS acrônimo  adjetivo Parkinson +sufixo  adjetivo

Processamento de Linguagem Natural Conceitos básicos de lingüística Características da linguagem natural em medicina e ciências biomédicas Cenários de processamento de texto livre Metodologia de lingüística computacional Exemplo

Estudo: codificação automatizada 1. 1. 2. 3. 4. 5. Exemplo Estudo: codificação automatizada Fonte: sumários de alta do departmento de cardiologia do Hospital de Clínicas de Porto Alegre, Brasil Destino SNOMED Clinical Terms, 01/2009 Linguagens: Inglês, Espanhol

~750 000 termos em Inglês, ~400 000 em Espanhol 1. 2. 3. 4. 5. Exemplo SNOMED CT 311 000 conceitos ~750 000 termos em Inglês, ~400 000 em Espanhol Termos médicos (inclusive sinônimos e traduções) são conectados com conceitos (portadores de significado)

PLN (processamento de linguagem natural) 1. 2. 3. 4. 5. Exemplo PLN (processamento de linguagem natural) expansão acrônimos identificação de nomes verificar ortografia etiquetador tipo de palavra SCT - EN identificar sentenças SCT - SP extração frases nominais criação subconjunto deteção de contexto MID- representação SNOMED CT abstração morfo- semântica abstração morfo- semântica MID- representação candidatos a termo 48 48

Mapeamento de termos médicos 1. 2. 3. 4. 5. Exemplo Mapeamento de termos médicos Problema: high blood pressure meningoencefalite hipertensão arterial Entzündung von Gehirn und Hirnhäuten hipertensión arterial meningocerebral inflammation Bluthochdruck meningoencefalitis Qual a granularidade adequada para a indexação? Aborgagem MorphoSaurus: construir equivalências semánticas a nivel de fragmentos de palavras

Átomos semânticos ou „subwords“ 1. 2. 3. 4. 5. Exemplo Átomos semânticos ou „subwords“ Definição: sequência de caracteres cujo significado não decorre dos significados dos componentes, exemplo: diafise mas não dia + fise diáfise = haste do osso, fise (gr. physis) = natureza neur + ite, mas neurose, não neur + ose neur… = nervo, -ite = inflamação, -ose = doença: Uma neurite é uma inflamação de nervo(s), mas neurose não é uma doença de nervo(s) Subwords podem ser morfemas assim como combinações de morfemas, inclusive palavras inteiras Quando eu posso decompor a palavra? O Significado é coerente? No caso do neurose isso não é possível. Subwords motivados em preservar o significado (semantica) das palavras. Para muitos linguistas pode ser uma coisa muito estranha (provavelmente irão rejeitar) Isso é um morfema?

Sistema MorphoSaurus 1. 2. 3. 4. 5. Exemplo Sistema de indexação morfo-semântica Traduz texto para interlíngua Domínio: Linguagem Clínica Idiomas: Inglês, Alemão, Português, Espanhol, Sueco, Francês Componentes: Léxico de subwords Tesauro Parser morfossintático Indexador

Modelo do Léxico 1. 2. 3. 4. 5. Exemplo (e.g. „anticoncepcionais“) Lexeme (e.g. „anticoncepcionais“) [anti, prefix, portuguese] [concepc, stem, portuguese] [ionais, terminal suffix, portuguese] String of characters Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix} Language = {English, German, Spanish, Portuguese, French, Swedish} (e.g. „partnership“) [partner, stem, english] [ship, suffix, english] Cada string um lexema (e.g. „ship“) [ship, invariant, english]

Modelo do Léxico 1. 2. 3. 4. 5. Exemplo Lexeme String of characters MIDs identificam grupos de lexemas sinônimos String of characters Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix} Language = {English, German, Spanish, Portuguese, French,Swedish} MID 1..n 1 MID42= ([muscle, stem, english], [muscul, stem, english], [myo, prefix, english], [muscul, stem, portuguese], [mio, prefix, portuguese], [muskel, stem, german], [muskul, stem, german], [myo, prefix, german]) Aqui estamos tratando de abordagem semântica.

Modelo do Léxico 1. 2. 3. 4. 5. Exemplo Lexeme String of characters associa um MID ambíguo com dois ou mais MID não ambíguos (expansão paradigmática) has-sense Lexeme String of characters Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix} Language = {English, German, Spanish, Portuguese, French,Swedish} 1 2…n MID 1..n 1 2…n associa um MID de sentido não atômico com dois ou mais MID atômicos (expansão sintagmática) 1 expands-to

Modelo do Léxico 1. 2. 3. 4. 5. Exemplo MID MID16: ([head, stem, english]) - has-sense MID12: ([caput, stem, english], [capit, stem, english], [cephal, stem, english], [cefal, stem, portuguese], [cabec, stem, portuguese]) - has-sense MID34: ( [chief, stem, english], [chef, stem, portuguese]) associa um MID ambíguo com dois ou mais MID não ambíguos (expansão paradigmática) has-sense 1 2…n MID 2…n associa um MID de sentido não atômico com dois ou mais MID atômicos (expansão sintagmática) 1 MID26: ([myalg, stem, english], [mialg, stem, portuguese]) -expands-to MID42: ([muscle, stem, english], [muscul, stem, english], [muscul, stem, portuguese]) -expands-to MID88: ([pain, stem, english], [dor, invariant, portuguese], [algia, suffix, portuguese]) Se alguem perguntar o q é q faz desambiguação (existe um módulo no indexador) Quando o indexador não funciona direito () sintagmaparadigma expands-to

1. 2. 3. 4. 5. Exemplo Tsh-Spiegel/o nivel Módulo experimental (ainda não funciona 100%)

Sistema MorphoSaurus : resultados experimentais em cenário CLIR 1. 2. 3. 4. 5. Exemplo Sistema MorphoSaurus : resultados experimentais em cenário CLIR Queries: German, Documents: English (OHSUMED collection) Baseline: English / English Morphosaurus Indexing Automated Query Translation+ Dictionary Lookup Documentos todos em inglês. Artigos médicos MEDLINE Coleção de 106 queries tb em inglês. Traduzidos para o alemão OShumed padrão ouro (indicando quais são os documentos) Baseline, sistema convencional de TR MS queries em alemão (Desempenho quase similar) Google translator é a 3a. + pesquisa UMLS Hahn, Schulz et al., RIAO 2004

PLN (processamento de linguagem natural) 1. 2. 3. 4. 5. Exemplo PLN (processamento de linguagem natural) expansão acrônimos identificação de nomes verificar ortografia etiquetador tipo de palavra SCT - EN identificar sentenças SCT - SP extração frases nominais criação subconjunto deteção de contexto MID- representação SNOMED CT abstração morfo- semântica Heurística de Mapeamento abstração morfo- semântica MID- representação candidatos a termo 58 58

SNOMED CT Concept Description 1. 2. 3. 4. 5. Exemplo Heurística de mapeamento: Exemplo SNOMED CT Concept Description MIDs ENG: Congestive heart failure #abund #cardiac #deficien ENG: Congestive cardiac failure #abund #cardiac #disorder POR: Insuficiência cardíaca #insuff #cardiac SPA: Insuficiencia cardíaca  SPA: Insuficiencia cardíaca congestiva #insuff #cardiac #abund 59 59

Heurística de mapeamento 1. 2. 3. 4. 5. Exemplo Heurística de mapeamento Para cada “candidato a termo” no documento decida se existem um termo SNOMED correspondentes caso sim, seleccione o melhor termo SNOMED Critérios de preferência: Sequências “típicas” de etiquetas POS, ex: “Infarto agudo do miocárdio” substantivo – adjetivo – DE – substantivo coincidência de MIDs threshold: 60% Em caso de falha: verifique se “candidato a termo” corresponde para dois conceitos da SNOMED , usando relacionamentos da SNOMED para preselecção 60 60

1. 2. 3. 4. 5. Exemplo Padrão ouro (kappa = 0.89) 61 61

Resultados preliminares 1. 2. 3. 4. 5. Exemplo Resultados preliminares 62 62

Próximo passo: identificar contextos 1. 2. 3. 4. 5. Exemplo Próximo passo: identificar contextos Problema: nem toda ocorrência de um termo em um documento refere a uma instância concreta de um conceito terminológico ou ontológico Contextos alternativos: planos hipóteses negação Ignorar contextos: dados não confiáveis

multiple organ failure 1. 2. 3. 4. 5. Exemplo Contextos: Exemplo 1 Ontology aortal aneurysm acute abdomen vascular prosthesis multiple organ failure hemo dialysis CT abdomen aneurysm- ectomy systemic infection vasoactive drug death Paciente interna por quadro de abdome agudo. TC de abdome mostrou aneurisma de aorta com evidencia de extravasamento de contraste. Levado a cirurgia de urgência, sendo realizada aneurismectomia com colocação de prótese. No pós-operatório evoluiu com síndrome da resposta inflamatória sistêmica, com disfunção de múltiplos órgãos e instabilidade hemodinâmica. Apesar do manejo com drogas vasoativas, reposição hídrica e hemodiálise veno-venosa crônica, o paciente apresentou piora progressiva, evoluindo para óbito.

Contextos: Exemplo 2 1. 2. 3. 4. 5. Exemplo Ontology incisional hernia operation room liver transplant herniorrhaphy operation operation instance not instantiated reference to a plan reference to a suspended plan instance reference to a plan NOT referring to the same patient reference to a new plan not yet executed PACIENTE COM HÉRNIA INCISIONAL INTERNOU PARA REALIZAÇÃO DE HERNIOPLASTIA PORÉM A CIRURGIA FOI SUSPENSA DEVIDO A NECESSIDADE DE SALA COM URGÊNCIA PARA TRANSPLANTE HEPÁTICO. RECEBE ALTA COM ORIENTAÇÕES E CIRURGIA REMARCADA.

Conclusão Conclusão Trabalho ainda não concluído Trabalho futuro primeiros resultados mostram que o mapeamento para SNOMED funciona através de idiomas Trabalho futuro completar o “pipeline” Avaliar impacto de cada elemento do pipeline Identificar contextos Uso da estrutura ontológica da SNOMED Publicação em preparação (IEEE Transactions on Information Technology in Biomedicine) 66 66

Teste de conhecimento (i) Conclusão S1: “O cachorro estão latindo” S2: “A lua está latindo” __ S1 viola uma regra morfológica __ S2 viola uma regra pragmática __ S1 está sintáticamente correta __ “latindo” é uma palavra lexicalmente ambígua 67 67

Teste de conhecimento (ii) Conclusão __ codificação automatizada é um exemplo de extração de informação __ reconhecimento automatizado é um recurso imprescindível para PLN em medicina __ Em PLN, a metodologia probabilística está sendo substituída por metodologias baseadas em IA __ Um parser identifica a estrutura hierárquica de uma sentença 68 68

Teste de conhecimento (iii) Conclusão __ um corretor ortográfico é um elemento importante de um pipeline de PLN quando é utilizado para processar textos científicos __ na tradução de termos médicos o número de tokens fica constante __ No processamento de linguagem clínica a identificação de frases com negação é importante __ Todos os motores de recuperação de documentos produzem um ranking por relevância 69 69

Acknowledgements German Research Foundation (DFG) International Bureau of the German Ministry of Research (BMBF-IB) Brazilian National Research Council (CNPq) Paraná Catholic University (PUCPR), Curitiba Hospital de Clínicas de Porto Alegre (HCPA) Averbis GmbH, Freiburg 70 70