Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Metodologia de.

Slides:



Advertisements
Apresentações semelhantes
Programa das Aulas 20/09/05 - Apresentação da disciplina
Advertisements

EXERCÍCIOS RESULTADO.
Tópicos Avançados em Banco de Dados
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa technology from seed KDBIO Group1 A database made in.
Metodologias de Investigação
SBC Women in Information Technology Gender and regional differences in Brazil: do they really exist? Janne Oeiras Universidade Federal do Pará
Capa Disciplina: Ajustamento de Observações
Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.
VISUALIZAÇÃO DA LIGAÇÃO SEMÂNTICA ENTRE DOCUMENTOS
AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA.
1 INQUÉRITOS PEDAGÓGICOS 2º Semestre 2003/2004 ANÁLISE GERAL DOS RESULTADOS OBTIDOS 1.Nº de RESPOSTAS ao inquérito 2003/2004 = (42,8%) 2.Comparação.
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL PRÓ-REITORIA DE PESQUISA V FÓRUM DE EDITORES DE PERIÓDICOS CIENTÍFICOS DA UFRGS Por Ana Gabriela Clipes Ferreira.
Sumário Introdução A linguagem SPARQL
Apresentação da Monografia
Curso de ADMINISTRAÇÃO
UNIVERSIDADE FEDERAL DE SANTA MARIA Disciplina:
PUCRS - PROGRAMA DE PÓS-GRADUAÇÃO EM PEDIATRIA E SAÚDE DA CRIANÇA Início do Mestrado: 1995 Início do Doutorado: 2004 Formou 63 Mestres e 3 doutores Conceito.
A PPLYING D ATA M INING T ECHNIQUES TO S EMI -A UTOMATICALLY D ISCOVER G UIDELINES FOR M ETAMODELS {andreza, franklin, patricia,
2/18/2014Mestrado em Ciencia da Computacao Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade.
Classificadores em Dados não Balanceados
Amanda Meincke Melo RA:
Pediatria Ambiental Rio de Janeiro – maio/09
A Review of Algorithms for Audio Fingerprinting
Bruno Tardiole Kuehne Orientador: Prof. Dr. Marcos José Santana
Referências.
PLANO DE AULAS TURMA GRPB02.
Registro Eletrônico para Acompanhamento Médico de Pacientes em uma UTI Rafael Charnovscki (1), Jacques R. Nascimento Filho (2,3) Giancarlo Bianchin.
Composição e Geração de Aplicações usando Aspectos
FERRAMENTA PARA ANÁLISE DE IMPACTO BASEADO EM RASTREABILIDADE DE
FERRAMENTA PARA ANÁLISE DE IMPACTO BASEADO EM RASTREABILIDADE DE
Instruções aos autores: conteúdo e importância para a
Rebeca Teodoro da Silva[Voluntário] ;
Provas de Concursos Anteriores
Engineering Village 2 Ana Luisa Maia. 2 Treinamento (Roteiro) Apresentação – Empresa – Interface – Bases de dados – Busca na interface (Easy Search, Quick.
Inteligência Artificial
Universidade Federal do Rio Grande do Sul Instituto de Informática
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Aluno: Lucas Bucci da Silveira Orientador: Carlos Roberto Lopes
Marcus Vinicius Silva Soares Orientador: Luiz Merschmann Outubro / 2010.
Gerhard M¨unz, Sa Li, Georg Carle Computer Networks and Internet Wilhelm Schickard Institute for Computer Science University of Tuebingen, Germany Traffic.
Salas de Matemática.
Ethos: Sistema Distribuído para Suporte ao Comitê de Ética em Pesquisa Autor: Rodrigo Stefani Domingues Orientador: Prof. Dr. Carlos M. T. Toledo Faculdade.
MINISTÉRIO DO PLANEJAMENTO Projeto de Lei Orçamentária 2010 Ministro Paulo Bernardo Silva Brasília, 31 de agosto de 2009.
Coordenação Geral de Ensino da Faculdade
Uso de Sistemas Imunológicos Artificiais para Detecção de Falhas em Plantas da Indústria de Petróleo. Aluno: Alexandre Willig Quintino dos Santos Orientador:
Sistemas de Apoio à Decisão Márcio A. R. Moreira Uniminas – 2º semestre/2007.
Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento.
Gestão das Recomendações do Controle Interno Estadual do RS
1 My GRID: Bio-informática personalizada em uma grade de informação. Francisco Silva
Apresentação para grupo do ISEG
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Probabilidades e Combinatória Distribuição de Probabilidades
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Universidade Tecnológica Federal do Paraná
APLICANDO O PROCESSO DIRIGIDO POR RESPONSABILIDADES PARA A CRIAÇÃO DE UM SUBFRAMEWORK PARA VALIDAÇÃO SINTÁTICA DE FÓRMULAS Autores: Rafael Hornung Simone.
SairPróximo Itens de Seleção Probabilidades e Combinatória Cálculo de Probabilidades. Regra de Laplace. ITENS DE SELEÇÃO DOS EXAMES NACIONAIS E TESTES.
SairPróximo Itens de Seleção Probabilidades e Combinatória Cálculo Combinatório. Problemas de Contagem. ITENS DE SELEÇÃO DOS EXAMES NACIONAIS E TESTES.
BPM BUSINESS PROCESS MANAGEMENT Projecto em Informática e Gestão de Empresas Lisboa, 20 de Junho de 2006.
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
CALENDÁRIO SEXY Ele & Ela. CALENDÁRIO SEXY Ele & Ela.
Rio Verde - Goiás - Brasil
Evidências.com 1/31 Projeto de Pesquisa: contexto.
Sobre uma abordagem do número de estabilidade de um grafo baseada em técnicas de optimização quadrática Carlos J. Luz Instituto Politécnico de Setúbal.
CALENDÁRIO 2013 MÓDULO II.
Aluna: Carolina Paloma Gasperoni
Categorização de Documentos Mariana Lara Neves CIn/UFPE.
Resolução de Anáforas Pronominais Apresentação da Proposta de Projeto Pontifícia Universidade Católica do Rio de Janeiro Departamento de Informática INF.
Mineração de Dados Profa. Sandra de Amo
Bioinformática Felipe G. Torres.
Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador:
Transcrição da apresentação:

Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Bom dia, apresentarei uma proposta de dissertação de mestrado cujo objetivo é (Título), sob a orientação do prof. Ricardo Rodrigues Ciferri. Aluno: Pablo Freire Matos Orientador: Dr. Ricardo Rodrigues Ciferri Coorientador: Dr. Thiago Alexandre S. Pardo Área: Banco de Dados

Roteiro Introdução Proposta de Dissertação Contexto Objetivos Este é o roteiro da apresentação que está dividido em três etapas: a Introdução, a Revisão Literária e a Posposta de Dissertação de Mestrado 08/10/09 WTDBD/SBBD

Roteiro Introdução Proposta de Dissertação Contexto Objetivos Vamos dar início com a contextualização... 08/10/09 WTDBD/SBBD

Contextualização Quantidade imensa de informação disponível Humanos não são capazes de assimilar todo esse conteúdo Informação via e-mail, blogs, wikis, artigos... + de 80% das informações estão em formato de texto Grantz (2007) Existe uma grande quant. de informação disponível, dificultando a assimilação de todo esse conteúdo por nós humanos e isso se deve ao alto percentual de inform. em formato textual Na Internet Onde nós Isso se deve Tan (1999) e Chen (2001) 08/10/09 WTDBD/SBBD

Contextualização PubMed Entrez - Sistema integrado do NCBI + de 18 milhões de artigos (desde 1966) MEDLINE (área de ciências + biomedicina) Entrez - Sistema integrado do NCBI 35 bases com 350 milhões de registros Sickle Cell Anemia 15.748 registros do PubMed (citações e resumos) 3.463 do PubMed Central (artigos completos) No domínio específico da área médica também encontra-se uma grande quant. de informação como pode ser observado no PubMed e no Entrez, ambos gerenciado pelo NCBI (Nation Center for Biotechnology Information). Uma consulta realizada no Entrez em março deste ano obteve + de 15 mil citações e resumos e + de 3 mil artigos completos. 08/10/09 WTDBD/SBBD

Solução: Mineração de Textos Contextualização Infinidade de meios de publicação American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine,… Leva tempo para ler e identificar as principais informações do artigo Solução: Mineração de Textos Esse grande número de inform. é gerado pela infinidade de meios de publicação, o que leva tempo para ler e identificar as informações principais Com isso a MT é uma solução para esse problema. Objetivo: Identificar e extrair informações relevantes Estruturar os dados Técnicas de pré-processamento 08/10/09 WTDBD/SBBD

Objetivos Identificar e extrair informações novas, úteis e interessantes em artigos científicos sobre a doença Anemia Falciforme Foco: efeitos positivos e negativos (do tratamento) Organização e armazenamento de informação em um BD para posterior mineração Dessas classes presentes já este sendo extraído informação de paciente por um aluno de mestrado, sendo sintoma, tratamento e fator de risco são focos de futuros trabalhos. sendo que trabalhos futuros tem o objetivo de extrair informação de paciente, sintoma, tratamento e fator de risco, com exceção de paciente que está sendo desenvolvido por um aluno de mestrado 08/10/09 WTDBD/SBBD

Exemplo de Extração de Termos Aprendizado de Máquina Regras e Dicionário BD Efeito Positivo Reductions in the frequency of chest syndrome and the number of transfusions strengthen the conclusion that hydroxyurea is a useful agent in sickle cell anemia Efeito Negativo she died during the second year of therapy from acute severe anemia during an episode of splenic sequestration Outros in some adolescents poor compliance was evident Efeito positivo somente é originado do tratamento? (11/08/2009) BD Reductions in the frequency of chest syndrome Reductions in the number of transfusions episode of splenic sequestration 08/10/09 WTDBD/SBBD

Roteiro Introdução Proposta de Dissertação Vamos dar início com a contextualização... 08/10/09 WTDBD/SBBD

Processo de MT É uma das fases mais críticas Feldman e Sanger (2007) Pág. 37 Existem na literatura vários processos de MT, com diferentes etapas. Esta figura resume um processo em 4 etapas, segundo os autores relacionados. Utiliza-se técnicas de RI a fim de selecionar as informações, cujo objetivo é aumentar a revocação do sistema Identificar e extrair informação Banco de Dados Tabela de atributo-valor Descoberta de conhecimento – algoritmos de MD, Análise dos Resultados – Avaliar os resultados É uma das fases mais críticas Feldman e Sanger (2007) 08/10/09 WTDBD/SBBD

Metodologia de Pré-processamento 08/10/09 WTDBD/SBBD

Pré-processamento Textual Sugestão Solange 08/10/09 WTDBD/SBBD

Processo Geral de Extração de Informação 08/10/09 WTDBD/SBBD

Categorização Classes Precisão de 68% Bag of clusters (1 a 5 gramas) Treinamento Teste Efeito Positivo Novo texto TXT Diversos arquivos com sentenças de efeito positivo Efeito Negativo Anthony e Lashkia (2003) Diversos arquivos com sentenças de efeito negativo MOVER Classes Precisão de 68% Saída Sistema de classificação de AS que utiliza o algoritmo de AM Naive Bayes para classificar as sentenças de acordo com as categorias predefinidas. Bag of clusters (1 a 5 gramas) Medidas de Utilidade Frequência de Documento Qui-quadrado Ganho de Informação Precisão: 86% Mover está sendo testado para ser utilizado como classificador das sentenças da AF Outros Diversos arquivos com sentenças de outros Conjunto de sentenças classificadas em classes 08/10/09 WTDBD/SBBD

Sentenças classificadas - Mover 08/10/09 WTDBD/SBBD

Análise dos Resultados - Classificação Taxa de Precisão (P) Baseline ≤ P ≤ Topline Baseline: Mover Topline: Taxa de precisão humana 50 sentenças (efeito positivo, efeito negativo e outros) Kappa de 6 anotadores (65,20%) Ganho de 27,01% Ganho de 18,99% Descartar exemplos controversos Calcular a precisão de forma + segura 77,58% (gene, proteína ou RNAm) Hatzivassiloglou, Duboue e Rzhetsky (2001 apud Schuemie et al., 2007) 08/10/09 WTDBD/SBBD

Considerações Sobre a Classificação Pré-processamento: 3 classes (Complicação, Benefício e Outro) Matriz atributo-valor Frequência mínima = 2 1 a 3 gramas sem stopword e sem stemmer Eliminar Ruído com J48 Balanceamento (Bias 1 em Java - Mantém a distribuição das classes) Seleção de Atributo (Meta) Ganho de Informação Classificador Naive Bayes Support Vector Machine 08/10/09 WTDBD/SBBD

Extração de Informação: Dicionário + Regras Identificar verdadeiro positivo (efeito positivo) Eliminar falso positivo (fator de risco) Elaborar como recuperar falsos negativos 1 reductions in the frequency of chest syndrome and the number of transfusions strengthen the conclusion that hydroxyurea is a useful agent in sickle cell anemia 2 in scd children hydroxyurea has been shown to decrease the rate and the intensity of painful events and the number of days of hospitalization 3 hydroxyurea therapy can ameliorate the clinical course of sickle cell anemia in some adults with three or more painful crises per year 4 treatment was also stopped in another patient because of the first occurrence of pathological tcd velocities 08/10/09 WTDBD/SBBD

Análise dos Resultados - Extração Precisão, Revocação e Medida-F (Extração de Informação) Comparação com outros trabalhos 08/10/09 WTDBD/SBBD

Quatro Experimentos Regras Regras e Dicionário AM e Regras AM, Regras e Dicionário 08/10/09 WTDBD/SBBD

Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Metodologia de Pré-processamento Textual Voltada à Extração de Informação em Artigos Científicos do Domínio Biomédico Aluno: Pablo Freire Matos Orientador: Dr. Ricardo Rodrigues Ciferri Coorientador: Dr. Thiago Alexandre S. Pardo Área: Banco de Dados Dúvidas?

Cronograma de Atividades Defesa do exame de qualificação Classificação manual (anotadores: 3 médicos e 3 leigos) em três classes de 50 sentenças e cálculo da medida de concordância Kappa Treinamento e teste no classificador Mover de 500 a 1.500 sentenças identificadas manualmente nos artigos. Calcular a acurácia. Desenvolvimento do módulo de extração de efeitos da AF(abordagem baseada em regras e dicionário) Avaliar a extração de informação com as medidas de precisão, revocação e Medida-F Redação e submissão de artigo aos encontros qualificados de Ciência da Computação Concepção e projeto da ferramenta SCAeXtractor, integrando o módulo de classificação e o de extração nesta ferramenta para o processo de extração de informação ser realizado de forma transparente e automática Realização dos quatros testes propostos na análise dos resultados Preparação e defesa da dissertação Possibilitar ao especialista do domínio visualizar e validar o resultado da extração de informação Redação da dissertação de mestrado 08/10/09 WTDBD/SBBD

Referências ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in the reading and writing of technical papers. IEEE Transactions on Professional Communication, v. 46, n. 3, p. 185-193, 2003. ARANHA, C. N. Uma abordagem de pré-processamento automático para mineração de textos em português: sob o enfoque da inteligência computacional. 144 f. Tese (Doutorado em Engenharia Elétrica) – Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2007. BREMER, E. G. et al. Text mining of full text articles and creation of a knowledge base for analysis of microarray data. In: KNOWLEDGE EXPLORATION IN LIFE SCIENCE INFORMATICS (KELSI), 2004, Milan, Italy. Proceedings... 2004. p. 84-95. CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, 2001. CORNEY, D. P. A. et al. BioRAT: extracting biological information from full- length papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004. 08/10/09 WTDBD/SBBD

Referências (cont. 1) FELDMAN, R.; DAGAN, I. Knowledge discovery in textual databases (KDT). In: INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING (KDD), 1995, Montréal, Québec. Proceedings... Menlo Park, CA: AAAI Press, 1995. p. 112-117. FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, 2007. 391 p. GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, 2009. Suppl. 2. GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through 2010. IDC Whitepaper, 2007. HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999. p. 3-10. 08/10/09 WTDBD/SBBD

Referências (cont. 2) IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2001. MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003. MINISTÉRIO DA SAÚDE. Doença falciforme e outras hemoglobinopatias: anemia falciforme. 2008. NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. PubMed. 2009. Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/>. Acesso em: 16 mar. 2009. NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Entrez, the life sciences search engine. 2009. Disponível em: <http://www.ncbi.nlm.nih.gov/Entrez/>. Acesso em: 26 mar. 2009. SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004. 08/10/09 WTDBD/SBBD

Referências (cont. 3) ______. Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p. 316-324, 2007. TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76. TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a. ______. Tagging gene and protein names in full text articles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational Linguistics, 2002b. p. 9-13. 08/10/09 WTDBD/SBBD

Referências Classificação ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in the reading and writing of technical papers. IEEE Transactions on Professional Communication, v. 46, n. 3, p. 185-193, 2003. BURSTEIN, J.; MARCU, D.; KNIGHT, K. Finding the WRITE stuff: automatic identification of discourse structure in student essays. Intelligent Systems, IEEE, v. 18, n. 1, p. 32-39, 2003. BATISTA, G. E. A. P. A.; PRATI, R. C.; MONARD, M. C. A study of the behavior of several methods for balancing machine learning training data. SIGKDD Explorations Newsletter, v. 6, n. 1, p. 20-29, 2004. HEY, D. F.; FELTRIM, V. D. Uma investigação sobre a aplicação de algoritmos de aprendizado à classificação de papéis retóricos. In: VIII Fórum de Informática e Tecnologia de Maringá, XI Mostra de Trabalhos de Informática, 2008, Maringá. Anais... Universidade Estadual de Maringá, 2008. p. 94-104. 08/10/09 WTDBD/SBBD

Referências Classificação (Cont.) WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools and techniques with Java implementations. 2nd ed. San Francisco, CA: Morgan Kaufmann, 2005. 525 p. 08/10/09 WTDBD/SBBD