Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:

Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador: Dr. Ricardo Rodrigues Ciferri Área: Banco de Dados Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC

Roteiro Introdução  Contextualização  Objetivos  Hipótese e Contribuições  Justificativa Revisão Literária  Mineração de Textos  Extração Automática  Trabalhos Correlatos Proposta de Dissertação Qualificação 27/04/09 2/46

Roteiro Introdução  Contextualização  Objetivos  Hipótese e Contribuições  Justificativa Revisão Literária Proposta de Dissertação Qualificação 27/04/09 3/46

Contextualização Quantidade imensa de informação disponível Humanos não são capazes de assimilar todo esse conteúdo Informação via e-mail, blogs, wikis, artigos...  + de 80% das informações estão em formato de texto Qualificação Tan (1999) e Chen (2001) 27/04/09 4/46 Grantz (2007)

Contextualização PubMed  + de 18 milhões de artigos (desde 1966)  MEDLINE (área de ciências + biomedicina) Entrez - Sistema integrado do NCBI  35 bases com 350 milhões de registros  Sickle Cell Anemia 15.748 registros do PubMed (citações e resumos) 3.463 do PubMed Central (artigos completos) Qualificação 27/04/09 5/46

Contextualização Infinidade de meios de publicação  American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine Leva tempo para  ler e identificar as principais informações do artigo Solução: Mineração de Textos Qualificação 27/04/09 6/46

Contextualização Domínio biomédico  Anemia Falciforme Em conjunto com  Ribeirão Preto: Universidade de São Paulo e Fundação Hemocentro  França: Université Paris Diderot-Paris 7 e Hôpital Robert Debré Informações sobre equipe de trabalho  Docentes: 5, Mestrandos: 2, Graduandos: 3 Qualificação 27/04/09 7/46

O que é Anemia Falciforme (AF)? Qualificação Hemácias Normais Hemácias Falciformes bloqueando o fluxo sanguíneo Hemácias passam livremente pelos vasos sanguíneos Hemácias Falciformes Adaptado de National Institute of Health (2008) 27/04/09 8/46

Objetivos Identificar e extrair informações novas, úteis e interessantes em artigos científicos sobre a doença Anemia Falciforme Foco: efeitos positivos e negativos (do tratamento)  paciente - trabalho correlato  sintoma, tratamento e fator de risco - futuros trabalhos Organização e armazenamento de informação em um BD para posterior mineração Qualificação 27/04/09 9/46

BD Exemplo de Extração de Termos Qualificação Efeito Positivo she died during the second year of therapy from acute severe anemia during an episode of splenic sequestration Efeito Negativo in some adolescents poor compliance was evident Outros BD ecnos c-786 alleles are associated a decreased risk of acute chest syndrome decreased risk of acute chest syndrome episode of splenic sequestration 27/04/09 10/46

Hipótese e Contribuições Hipótese:  É possível extrair informações que auxiliem o médico e complementem seu conhecimento atual Contribuições teóricas  Conhecimento do domínio  Metodologia de extração de informação Contribuições práticas  Criação e disponibilização de recursos: coleção de documentos, dicionário e base de regras  Criação e disponibilização de ferramentas: Extrator de informação (SCAeXtractor), conversor e etiquetador de formatos (SCAtRanslator) Qualificação Artigos Completos 27/04/09 11/46

Justificativa Por que extrair informação de artigos completos? Benefícios  + da metade da informação encontra-se no corpo do artigo  + seção + informação a ser extraída Problemas  Conversão formato  + tempo de processamento  copyright Qualificação Localização no documento (%) Nº de registros encontrados Schuemie et al. (2004) Gene e Proteína Corney et al. (2004) 27/04/09 12/46

Roteiro Introdução Revisão Literária  Mineração de Textos  Extração Automática  Trabalhos Correlatos Proposta de Dissertação Qualificação 27/04/09 13/46

Mineração de Textos (MT) Extrair informações úteis em documentos no formato textual não-estruturado através da identificação de conhecimento e exploração de padrões Qualificação Hearst (1999) 27/04/09 14/46

Processo de MT Qualificação Imamura (2001) Martins (2003) Feldman e Sanger (2007) 27/04/09 15/46

Áreas utilizadas neste trabalho Extração de Informação Aprendizado de Máquina Processamento de Língua Natural Qualificação 27/04/09 16/46

Extração de Informação Métodos para extração de informação relevantes  Regras  Dicionário/Glossário  Templates Qualificação 27/04/09 17/46

Aprendizado de Máquina Qualificação Adaptado de Monard e Baranauskas (2003) 27/04/09 18/46

Categorização Qualificação Adaptado de Dörre, Gerstl e Seiffert (1999) 27/04/09 19/46

Processamento de Língua Natural Recursos e ferramentas de processamento da língua  Stemming x lematização  Segmentadores textuais  Etiquetador morfossintático (POS)  Extratores de termos Qualificação cantaremos→cant cantaremos→cantar 27/04/09 20/46

Reconhecimento Automático de Termo Desafio na literatura biomédica  Novos termos (neologismos)  Variações léxicas: sinônimos e homônimos  Falta de padronização Terminologia abrange aspectos  extração, variação de termo, classificação e mapeamento Qualificação Krauthammer e Nenadic (2004) 27/04/09 22/46

Abordagens para Extração de Informação AbordagemVantagemDesvantagemReferências Dicionário Casamento de padrão com informações armazenadas no dicionário Limitação de nomes Variações de nome (baixa revocação) Nomes curtos causam falsos positivos (diminui a precisão) Krauthammer et al. (2000) Ono et al. (2001) Tsuruoka et al. (2004) Egorov et al. (2004) Kou et al. (2005) Schuemie et al. (2007) Regras Melhor precisãoRequer tempo Restrito a um domínio Exclui termos que não correspondem aos padrões predefinidos (diminui a revocação) Fukuda et al. (1998) Franzén et al. (2002) Hu et al. (2005) Aprendizado de Máquina Independência de domínio Alto desempenho para predição Grande quantidade de dados de treinamento Re-treinamento após o advento de novos dados Classificação é prejudicada com uma classe minoritária Nobata, Collier e Tsujii (1999) Collier, Nobata e Tsujii (2000) Kazama et al. (2002) Qualificação 27/04/09 23/46

Trabalhos Correlatos – Resumos Qualificação 27/04/09 25/46

Trabalhos Correlatos – Artigos Completos Qualificação 27/04/09 26/46

Trabalhos Correlatos – Artigos Completos Qualificação 27/04/09 27/46

Roteiro Introdução Revisão Literária Proposta de Dissertação Qualificação 27/04/09 28/46

Processo de MT Qualificação É uma das fases mais críticas Feldman e Sanger (2007) 27/04/09 29/46

Pré-processamento Textual Qualificação 27/04/09 30/46

Metodologia de Pré-processamento Qualificação 27/04/09 31/46

Esquema Conceitual EER Qualificação 27/04/09 32/46

Processo Geral de Extração de Informação Qualificação 27/04/09 33/46

Processo Geral de Extração de Informação Qualificação 27/04/09 34/46

Categorização Qualificação Saída Treinamento Efeito Negativo Efeito Positivo Outros Teste Diversos arquivos com sentenças de efeito positivo Diversos arquivos com sentenças de efeito negativo Diversos arquivos com sentenças de outros Novo texto TXT Conjunto de sentenças classificadas em classes Classes Anthony e Lashkia (2003) Precisão de 86% 27/04/09 35/46

Sentenças classificadas - Mover Qualificação 27/04/09 36/46

Extração de Informação Regras  Identificação e extração de efeitos  Podendo usar ou não um dicionário Qualificação 27/04/09 37/46

Repositório de Dicionário de Termos Efeitos Positivo (benefício)Negativo (complicação) Cureacute chest syndrome decrease the rate of painful eventsacute lun injury no adverse events due transfusionvasooclusive crises decrease of the number of days of hospitalization intracranion hemorrhage transfusion prevents ACSsplenic sequestration Qualificação Termos predefinidos por especialistas do domínio Repositório é incremental ( Adição é semiautomática ) 27/04/09 38/46

Dicionário + Regras 1. Identificar verdadeiro positivo (efeito positivo) 2. Eliminar falso positivo (fator de risco) 3. Elaborar como recuperar falsos negativos Qualificação reductions in the frequency of chest syndrome and the number of transfusions strengthen the conclusion that hydroxyurea is a useful agent in sickle cell anemia 1 in scd children hydroxyurea has been shown to decrease the rate and the intensity of painful events and the number of days of hospitalization 2 hydroxyurea therapy can ameliorate the clinical course of sickle cell anemia in some adults with three or more painful crises per year 3 treatment was also stopped in another patient because of the first occurrence of pathological tcd velocities 4 27/04/09 39/46

Análise dos Resultados Qualificação 27/04/09 40/46

Análise dos Resultados - Mover Taxa de Precisão (P)  Baseline ≤ P ≤ Topline Baseline: Erro majoritário (acerto mínimo) Topline: Taxa de precisão humana 50 a 100 (efeito positivo, efeito negativo e outros)  Kappa (Anotadores)  77,58% (gene, proteína ou RNAm) Hatzivassiloglou, Duboue e Rzhetsky (2001 apud Schuemie et al., 2007) Qualificação 27/04/09 41/46

Análise dos Resultados - Extração Precisão, Revocação e Medida-F (Extração de Informação) Comparação com outros trabalhos Qualificação 27/04/09 42/46

Quatro Experimentos 1. Regras 2. Regras e Dicionário 3. AM e Regras 4. AM, Regras e Dicionário Qualificação 27/04/09 43/46

Ferramentas a serem utilizadas Mover PostgreSQL 8.3 NetBeans IDE Jude Community 5.4.1 Linguagem R Qualificação 27/04/09 44/46

Considerações Finais Investigar melhor a forma de representação dos dados extraídos  Modelo relacional  BD XML  BD OO Como organizar os dados para facilitar  O processo de mineração de dados posterior Qualificação 27/04/09 45/46

Cronograma de Atividades Qualificação Defesa do exame de qualificação Classificação manual (anotadores: 3 médicos e 3 leigos) em três classes de 100 sentenças e cálculo da medida de concordância Kappa Treinamento e teste no classificador Mover de 500 a 1.500 sentenças identificadas manualmente nos artigos. Calcular a taxa de precisão. Desenvolvimento do módulo de extração de efeitos da AF(abordagem baseada em regras e dicionário) Avaliar a extração de informação com as medidas de precisão, revocação e Medida-F Redação e submissão de artigo aos encontros qualificados de Ciência da Computação Concepção e projeto da ferramenta SCAeXtractor, integrando o classificador Mover e o módulo de extração nesta ferramenta para o processo de extração de informação ser realizado de forma transparente e automática Realização dos quatros testes propostos na análise dos resultados Possibilitar ao especialista do domínio visualizar e validar o resultado da extração de informação Redação da dissertação de mestrado Preparação e defesa da dissertação 27/04/09 46/46

Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador: Dr. Ricardo Rodrigues Ciferri Área: Banco de Dados Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Dúvidas ?

Referências ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in the reading and writing of technical papers. IEEE Transactions on Professional Communication, v. 46, n. 3, p. 185-193, 2003. ARANHA, C. N. Uma abordagem de pré-processamento automático para mineração de textos em português: sob o enfoque da inteligência computacional. 144 f. Tese (Doutorado em Engenharia Elétrica) – Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2007. BREMER, E. G. et al. Text mining of full text articles and creation of a knowledge base for analysis of microarray data. In: KNOWLEDGE EXPLORATION IN LIFE SCIENCE INFORMATICS (KELSI), 2004, Milan, Italy. Proceedings... 2004. p. 84-95. CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, 2001. CORNEY, D. P. A. et al. BioRAT: extracting biological information from full- length papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004. Qualificação 27/04/09 48/46

Referências (cont. 1) FELDMAN, R.; DAGAN, I. Knowledge discovery in textual databases (KDT). In: INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING (KDD), 1995, Montréal, Québec. Proceedings... Menlo Park, CA: AAAI Press, 1995. p. 112-117. FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, 2007. 391 p. GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, 2009. Suppl. 2. GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through 2010. IDC Whitepaper, 2007. HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999. p. 3-10. Qualificação 27/04/09 49/46

Referências (cont. 2) IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2001. MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003. MINISTÉRIO DA SAÚDE. Doença falciforme e outras hemoglobinopatias: anemia falciforme. 2008. NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. PubMed. 2009. Disponível em:. Acesso em: 16 mar. 2009.http://www.ncbi.nlm.nih.gov/pubmed/ NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Entrez, the life sciences search engine. 2009. Disponível em:. Acesso em: 26 mar. 2009.http://www.ncbi.nlm.nih.gov/Entrez/ SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004. Qualificação 27/04/09 50/46

Referências (cont. 3) ______. Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p. 316-324, 2007. TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76. TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a. ______. Tagging gene and protein names in full text articles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational Linguistics, 2002b. p. 9-13. Qualificação 27/04/09 51/46

Apêndice

Modelo Relacional PAPER (Paper_ID, Paper_Title, Paper_Journal, Paper_Year, Authors, PDF, HTML, XML, Total_Patient, Concluded_Patient) SYMPTOM (Symptom_ID, Symptom_Name, Symptom_Acronym, Symptom_Desc) PAPER_SYMPTOM (Paper_ID, Symptom_ID, Page, Paragraph, Sentence, Patient_Number) EFFECT (Effect_ID, Effect_Name, Effect_Acronym, Effect_Desc, Effect_Type) Effect_Type: Positive (Complication), Negative (Benefit) PAPER_EFFECT (Paper_ID, Effect_ID, Page, Paragraph, Sentence, Patient_Number) TREATMENT (Treatment_ID, Treatment_Name, Treatment_Acronym, Treatment_Desc, Treatment_Type) Treatment_Type: Drug, Therapy PAPER_TREATMENT (Paper_ID, Treatment_ID, Page, Paragraph, Sentence, Patient_Number) RISK_FACTOR (Risk_ID, Risk_Name, Risk_Acronym, Risk_Desc) Qualificação 27/04/09 53/46

Diagrama de Classes Qualificação 27/04/09 54/46

Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:

Apresentações semelhantes

Apresentação em tema: "Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:

Apresentações semelhantes

Apresentação em tema: "Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback