A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.

Apresentações semelhantes


Apresentação em tema: "Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento."— Transcrição da apresentação:

1 Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

2 Roteiro Introdução Revisão Literária Metodologia Proposta e Instanciação Estudos de Caso Conclusão 24/09/10 2/52

3 Contexto e Motivação Quantidade imensa de Informação disponível Humanos não são capazes de assimilar todo esse conteúdo Informação via , blogs, wikis, artigos...  + de 80% das informações estão em formato de texto Tan (1999) e Chen (2001) 24/09/10 Gantz et al. (2007) Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão 3/52

4 Contexto e Motivação PubMed  + de 18 milhões de artigos (desde 1966)  MEDLINE (área de ciências + biomedicina) Entrez - Sistema integrado do NCBI  35 bases com 350 milhões de registros  Sickle Cell Anemia registros do PubMed (citações e resumos) do PubMed Central (artigos completos) 24/09/10 4/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

5 Contexto e Motivação Infinidade de meios de publicação  American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine Leva tempo para ler e identificar as principais informações do artigo Inviável analisar toda a literatura relevante manualmente 24/09/10 5/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

6 Contexto e Motivação Esses documentos estão em formato não estruturado Há a necessidade de transformar esses dados de formato não estruturado para estruturado  Objetivo: processo de descoberta de conhecimento automático 24/09/10 6/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

7 Objetivo Propor uma metodologia de pré- processamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico A metodologia é composta por quatro etapas:  Entrada de Dados (Etapa 1)  Classificação de Sentenças (Etapa 2)  Identificação de Termos Relevantes (Etapa 3)  Gerenciamento de Termos (Etapa 4) 24/09/10 7/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

8 Hipóteses Hipótese 1: É possível usar abordagens de extração de informação para identificar automaticamente termos relevantes do domínio biomédico com alta precisão e revocação Hipótese 2: Extrair termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do seu resumo, permite obter uma maior quantidade de informação relevante Hipótese 3: Uso de duas etapas separadas e consecutivas:  Etapa 1: classificar as sentenças em classes de interesse. Etapa 2: identificar e extrair termos apenas nas sentenças classificadas nestas classes de interesse  possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico 24/09/10 Todas as sentenças = +falsos positivos Todas as seções = +falsos positivos 8/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

9 Mineração de Textos Extrair informações úteis em documentos no formato textual não-estruturado através da identificação de conhecimento e exploração de padrões Hearst (1999) 24/09/10 Imamura (2001) Martins (2003) Feldman e Sanger (2007) 9/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

10 Abordagens para Extração de Informação AbordagemVantagemDesvantagem Dicionário Casamento de padrão com informações armazenadas no dicionário Limitação de nomes Variações de nome (baixa revocação) Nomes curtos causam falsos positivos (diminui a precisão) Regras Melhor precisãoRequer tempo Restrito a um domínio Exclui termos que não correspondem aos padrões predefinidos (diminui a revocação) Aprendizado de Máquina Independência de domínio Alto desempenho para predição Grande quantidade de dados de treinamento Retreinamento após o advento de novos dados Classificação é prejudicada com uma classe minoritária 24/09/10 10/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

11 Trabalhos Correlatos – Resumos 24/09/10 11/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

12 Trabalhos Correlatos – Artigos Completos 24/09/10 12/52 1) Abordagem de AM:  Classificação de Sentenças 2) Artigos:  Algumas Seções Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

13 Metodologia Proposta para Extração de Informação no Domínio Biomédico 24/09/10 13/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

14 Etapa 1: Entrada de Dados 24/09/10 14/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

15 Etapa 1: Entrada de Dados (1/2) 24/09/10 Formato TXT Formato XML 15/52 Carosia e Ciferri (2010) Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

16 Etapa 1: Entrada de Dados (2/2) 24/09/10 Exemplo Formato XML Exemplo Formato TXT 16/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

17 Etapa 2: Classificação de Sentenças 24/09/10 Seções processadas:  Abstract, Results e Discussion 17/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

18 Etapa 2: Classificação de Sentenças (1/2) Saída Treinamento Efeito Positivo Efeito Negativo Outros Teste Diversos arquivos com sentenças de efeito negativo Diversos arquivos com sentenças de efeito positivo Diversos arquivos com sentenças de outros Novo texto TXT Conjunto de sentenças classificadas em classes Classes 24/09/10 18/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão Modelo Bag-of-words  Medida binária  Atributos: 1 a 3 gramas  Frequência mínima: 2

19 Etapa 2: Classificação de Sentenças (2/2) 24/09/10 Efeito Negativo Efeito Positivo Outros 19/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

20 Ferramenta SCA-Classifier 24/09/10 API Weka 20/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

21 Etapa 3: Identificação de Termos Relevantes 24/09/10 21/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

22 24/09/10 Banco de Dados Biomédico Exemplo de Sentenças Informação Relevante Dicionário TermoVariação hemorrhage central nervous system hemorrhage intracranial hemorrhage pain painful episode pain crises pain crisis 22/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

23 Remover Falso Positivo 24/09/10 Dicionário Lista de Exclusão de Termo (LET): Termos substantivos, compostos e siglas do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento. Lista de Exclusão de Palavra (LEP): Palavras comuns e gerais irrelevantes que não são do domínio biomédico e palavras irrelevantes do domínio biomédico que estão associadas a algum termo. LEP com 1000 palavras: 23/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

24 Exemplo de Sentença Etiquetada Part-Of-Speech (POS) 24/09/10 Regras Etiquetador POS da Stanford:  96,86% - treinamento  86,91% - palavras novas Padrão Tag:  Penn Treebank Exemplo de Sentença padrão JJ_NN 24/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

25 Termos Relevantes Extraídos: Expressão Composta Verbo Expressão Composta Verbo Expressão Composta Verbo Expressão Composta Verbo acute chest syndromes cerebrovascular events osteonecrosis mycoplasma viral pneumonia pavovirus 1 24/09/10 Regras Estratégia 1: Verbo e Expressão com POS Palavra Etiquetada: III - irrelevante RRR - relevante Exemplo (JJ)?_NN_(of_IN) 25/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

26 Palavra Etiquetada: III - irrelevante RRR - relevante Estratégia 2: POS 24/09/10 Regras Como identificar termos nas sentenças que não contêm verbo e expressão composta representativos? 26/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

27 Estratégia 2: POS 24/09/10 Regras Termo na cor turquesa não selecionado pela Estratégia 1 27/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

28 Ferramenta SCA-Extractor 24/09/10 28/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

29 Etapa 4: Gerenciamento de Termos 24/09/10 29/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

30 Etapa 4: Gerenciamento de Termos Quatro operações:  Inserir novos termos  Validar termos extraídos  Mover termos extraídos  Hierarquizar termos 24/09/10 30/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

31 Estudos de Caso: Etapa 2 e Etapa 3 24/09/10 Classificação: Efeito Negativo, Efeito Positivo e Outros Extração: Efeito Negativo Classificação 10-Fold Cross-Validation Classificação e Extração Holdout (p = 2/3) Sentenças Aleatórias 31/52 6 Algoritmos de AM  SVM e NB (Estatístico)  ID3 e J48 (Árvore de Decisão)  Prism e OneR (Regra) 3 Configurações para construir a MAV  Sem Filtro  Balanceamento  Remoção de Ruído Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

32 Estudo de Caso (1): Classificação de Sentenças (Etapa 2) 24/09/10 32/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

33 Estudo de Caso (1): Classificação de Sentenças (Etapa 2) 24/09/10 Medida com 10-Fold Cross-Validation Amostra601 MelhorÍndice AcuráciaSVM com Balanceamento87,19% Medida-F da classe Efeito Negativo SVM com Balanceamento83,16% Medida com Holdout Amostra300 MelhorÍndice AcuráciaSVM com Balan. ou Rem.62,33% Medida-F da classe Efeito Negativo SVM com Remoção de Ruído71,81% 33/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

34 Estudo de Caso (2): Identificação de Termos Relevantes (Etapa 3) 24/09/10 Classificação Manual Extração Fictícia Classificação Automática Extração Real Matriz de Confusão: Holdout Amostra300 PrecRevMed-F 73%71%71,81% 34/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

35 Nomenclatura dos Termos Extraídos 24/09/10 Verdadeiro Positivo Termo RealTermo Extraído Termo Completorespiratory failure Termo Parcialacute hepatic sequestrationhepatic sequestration Termo Adicionalchronic lung disease resultant chronic lung disease Falso PositivoExemplo Termo que foi extraído, mas que não deveria ser extraído hydroxyurea therapy Falso NegativoExemplo Termo que deveria ser extraído, mas que não foi extraído thrombocytopenia 35/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

36 Classificação Manual e Extração Fictícia 24/09/10 Extração Fictícia 36/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

37 Classificação Automática e Extração Real 24/09/10 Extração Real 37/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

38 Extração Fictícia versus Extração Real 24/09/10 Regra e Dicionário 38/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

39 Estudo de Caso (2): Identificação de Termos Relevantes (Etapa 3) 24/09/10 Classificação Manual Extração Fictícia Classificação Automática Extração Real Matriz de Confusão: Holdout Amostra300 39/52 PrecRevMed-F 73%71%71,81% Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

40 Conclusão Abordagens de extração de informação auxiliam na identificação automaticamente de termos relevantes do domínio biomédico com alta precisão e revocação Extração de termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do resumo, permite obter uma maior quantidade de informação relevante Uso de duas etapas separadas e consecutivas possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico 24/09/10 40/52 Hipótese 2 Algumas seções = -falsos positivos Hipótese 3 Algumas sentenças = -falsos positivos Hipótese 1 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

41 Contribuições Contribuição teórica  Metodologia de extração de informação Amostra300: Extração de Informação Real: Medida-F de 80,43% Classificação Automática: Medida-F de 71,81% Contribuições práticas  Criação e disponibilização de recursos: coleção de documentos, dicionário e base de regras  Criação e disponibilização de ferramentas: Classificador de Sentenças (SCA-Classifier) Extrator de Informação (SCA-Extractor) Gerenciador de Termos (SCA-TermManager) 24/09/10 41/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

42 Trabalhos Futuros (1/2) 24/09/10 Criação de uma coleção de documentos anotada 42/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

43 Trabalhos Futuros (2/2) Investigação do uso da metodologia na identificação de outros termos:  tratamento e fator de risco Instanciação da metodologia para identificar efeitos de outras doenças:  câncer, mal de Alzheimer, mal de Parkinson e glaucoma Investigação da aplicação da metodologia em outros domínios além do domínio biomédico:  erupção de vulcão e poluição ambiental Utilizar análise semântica para identificar termos que estão implícitos nas sentenças:  Sentença com termo implícito: “The recent availability of an oral iron chelator may render prolonged transfusion more acceptable.” 24/09/10 43/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

44 Produção Científica (1/2) MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Metodologia de pré- processamento textual para extração de informação em artigos científicos do domínio biomédico. In: WORKSHOP DE TESES E DISSERTAÇÕES EM BANCOS DE DADOS, VIII, 2009, Fortaleza, Ceará. Anais... Simpósio Brasileiro de Banco de Dados, p /09/10 Qualis B3 Evento Nacional 44/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

45 Produção Científica (2/2) MATOS, P. F.; LOMBARDI, L. O.; PARDO, T. A. S; CIFERRI, C. D. A. ; VIEIRA, M. T. P.; CIFERRI, R. R. An environment for data analysis in biomedical domain: information extraction for decision support systems. In: GARCÍA-PEDRAJAS, N. et al. (Ed.). International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems (IEA-AIE). 23th. Heidelberg: Springer, p (Lecture Notes in Computer Science; v. 6096). 24/09/10 Evento Internacional Qualis B3 45/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

46 Produção Técnica (1/2) Pôster e Relatório Técnico MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Methodology of textual preprocessing for information extraction in scientific papers of the biomedical domain. In: WORKSHOP DE PÓS-GRADUAÇÃO SEMANA DE COMPUTAÇÃO, 3º, 2010, São Carlos. Anais... UFSCar, Pôster. MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Conceitos sobre Aprendizado de Máquina". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, p. 23. MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Métricas de Avaliação". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, p. 15. PINTO, A. C. S.; MATOS, P. F.; PERLIN, C. B.; ANDRADE, C. G.; CAROSIA, A. E. O.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Technical Report "Sickle Cell Anemia". São Carlos: Department of Computer Science, Federal University of São Carlos, p /09/10 46/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

47 Produção Técnica (2/2) Softwares MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-TermManager: a tool from the biomedical domain to assist the expert in term management Software. Disponível em:. Acesso em: 30 ago http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-TermManager.rar MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Extractor: a tool for information extraction in scientific papers of the biomedical domain Software. Disponível em:. Acesso em: 30 ago http://gbd.dc.ufscar.br/~pablofmatos/files/SCA- Extractor.rar MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Classifier: a tool for sentence classification in scientific papers of the biomedical domain Software. Disponível em:. Acesso em: 30 ago http://gbd.dc.ufscar.br/~pablofmatos/files/SCA- Classifier.rar 24/09/10 47/52 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

48 Agradecimentos Idealizador do projeto Anemia Falciforme  Médico Dr. Marco Antonio Zago Especialista do Domínio  Médica Drª. Ana Cristina Silva Pinto 24/09/10 48/52

49 Referências Citadas na Apresentação (1/3) BREMER, E. G. et al. Text mining of full text articles and creation of a knowledge base for analysis of microarray data. In: LÓPEZ, J. A.; BENFENATI, E.; DUBITZKY, W. (Ed.). Knowledge Exploration in Life Science Informatics (KELSI). Heidelberg: Springer, p (Lecture Notes in Computer Science; v. 3303). CAROSIA, A. E. O.; CIFERRI, C. D. A. Ferramenta SCDtRanslator: conversão do formato PDF para o formato XML aplicada ao domínio de artigos médicos sobre a Doença Anemia Falciforme. São Carlos: Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, p. 40. CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, p. CORNEY, D. P. A. et al. BioRAT: extracting biological information from full- length papers. Bioinformatics, v. 20, n. 17, p , FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, p. 24/09/10 49/52

50 Referências Citadas na Apresentação (2/3) GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through IDC Whitepaper, HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, p GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, Suppl. 2. IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, /09/10 50/52

51 Referências Citadas na Apresentação (3/3) SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts and full-text publications. Bioinformatics, v. 20, n. 16, p , _______. Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p , TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, p TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text. Bioinformatics, v. 18, n. 8, p , 2002a. _______. Tagging gene and protein names in full text articles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational Linguistics, 2002b. p /09/10 51/52

52 Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

53 Padrão POS: Estratégia 1 NúmeroPadrão 1.0¹ (JJ_JJ_NN_NN_(NN)?) 1.1¹ (~JJ)_(JJ_NN_NN_(NN)?) 1.2¹ (JJ_JJ_NN)_(~NN) 1.3 (~JJ)_(JJ_NN)_(~NN) 1.4 ((~NN)&(~JJ))_(NN_NN)_( (~NN)&(~JJ)) 1.5 (~JJ)_(JJ_NN)_(IN_NN_NN_NN) ¹ Padrão também utilizado na Estratégia 2. 24/09/10 53/52

54 Padrão POS: Estratégia 2 NúmeroPadrão 1.0¹ (JJ_JJ_NN_NN_(NN)?) 1.1¹ (~JJ)_(JJ_NN_NN_(NN)?) 1.2¹ (JJ_JJ_NN)_(~NN) 2.0 (~JJ)_(JJ_NN_IN_JJ_NN)_(~NN) 2.1 ((~JJ)_NN_IN)_(JJ_NN)_(~NN) 3.0 (~JJ)_(JJ_NN)_(IN_NN_NN_NN) 3.1 (~JJ)_(JJ_NN_IN_NN_NN)_(~NN) 3.2 ((~JJ)_JJ_NN_IN)_(NN)_(~NN) ¹ Padrão também utilizado na Estratégia 1. 24/09/10 54/52

55 Baseline nas 131 Sentenças 24/09/10 Verdadeiros Positivos Falsos Positivos 55/52

56 Baseline nas 128 Sentenças 24/09/10 Verdadeiros Positivos Falsos Positivos 56/52

57 Regra e Dicionários nas 131 Sentenças 24/09/10 Verdadeiros Positivos Falsos Positivos 57/52

58 Regra e Dicionários nas 128 Sentenças 24/09/10 Verdadeiros Positivos Falsos Positivos 58/52

59 Trabalhos Futuros (3/3) Distinção dos termos extraídos Hierarquização dos termos extraídos:  parvovirus infection e infection 24/09/10 Banco de Dados Biomédico 59/52

60 Estudos de Caso - Considerações 24/09/10 Erro do etiquetador 1. Splenomegaly classificado como advérbio 2. Parvovirus classificado como verbo 60/52

61 Estudo de Caso (1): Classificação de Sentenças 24/09/10 Método de Particionamento: 10-Fold Cross-Validation 61/52

62 Experimento 1: Fases de Treinamento e de Teste 24/09/10 62/52

63 Experimento 1: Fases de Treinamento e de Teste 24/09/10 63/52

64 Experimento 2: Fase de Uso do Modelo de Classificação 24/09/10 Método de Particionamento: Holdout (p = 2/3) 64/52

65 Experimento 2: Fase de Uso do Modelo de Classificação 24/09/10 65/52

66 Experimento 2: Fase de Uso do Modelo de Classificação 24/09/10 66/52

67 LET¹ Outros bloodcasecohortcriteria dopplerdoseperiodstudy transcranialvelocitiesvelocity 24/09/10 ¹ Termos substantivos (e.g., dose, period, cohort, criteria), compostos (e.g., sickle cell disease, sickle cell anemia) e siglas (e.g., hb, scd, tcd) do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento. Tratamento bronchoscopyhydroxyureatransfusiontransplantation Sigla hbscdtcd marrow e treatment não são LET:  marrow depression  treatment failure Doença sickle cell diseasesickle cell anemia 67/52

68 Eliminar Termo com LET 24/09/10 Exemplos de Sentenças que utilizam da LET LET 68/52

69 LEP¹ LEP complicationdifferentepisodehistory multipleongoingotherpatient patient-yearpreviousprimaryrecurrence recurrentrepeatedrisksecondary treatmentunderlying 24/09/10 ¹ Palavras comuns e gerais irrelevantes que não são do domínio biomédico (e.g, other, different, underlying) e palavras irrelevantes do domínio biomédico que estão associadas a algum termo (e.g., painful episodes, recurrent splenic sequestration, stroke risk, primary stroke, multiple vaso-occlusive). treatment está sendo uma LEP:  year of treatment (VN)  chooosing treatment (FP) LEP com 1000 palavras:  69/52

70 LEP: Padrão (JJ)?_NN_(of_IN) NN_(of_IN) analysis ofchance ofepisode offinding of frequency ofhistory ofrate ofyears of patient-years of 24/09/10 JJ_NN_(of_IN) fatal episode offirst occurrence ofhigh risk ofprevious history of past history of Objetivo: Aumentar a lista LEP com os substantivos (e.g., analysis, chance, episode, finding, frequency, history, rate, years, patient-years, occurrence, risk, history) 70/52

71 LEP 24/09/10 Identificar Falso Positivo Remover Falso Positivo presente na LEP 71/52

72 Motivação Localização no documento (%) Nº de registros encontrados Schuemie et al. (2004) Gene e Proteína Corney et al. (2004) 24/09/10 Por que extrair informação de artigos completos? Benefícios  + da metade da informação encontra-se no corpo do artigo  + seção + informação a ser extraída Problemas  Conversão formato  + tempo de processamento  copyright 72/52

73 Etapa 2: Classificação de Sentenças (3/3) 24/09/10 Processo de Classificação de Sentenças Supervisionado 73/52

74 Classificação Manual e Extração Fictícia 24/09/10 Extração Fictícia 74/52

75 Classificação Automática e Extração Real 24/09/10 Extração Real 75/52

76 Extração Fictícia versus Extração Real 24/09/10 Dicionário 76/52


Carregar ppt "Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento."

Apresentações semelhantes


Anúncios Google