Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouJuan Elias Borba Neto Alterado mais de 8 anos atrás
1
Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara
2
Introdução O que é indexação? É a “construção de representações de documentos”(LANCASTER,2004). Qual o propósito da Indexação? Incluir essas representações em algum tipo de bases de dados para ajudar na recuperação de informação (LANCASTER,2004). Quem faz a indexação? Um profissional relacionado a Ciência da Informação, denominado Indexador;
3
Introdução Tipos de indexação Indexação por extração Os termos de indexação são palavras do próprio documento elegidas. Indexação por atribuição Os termos de indexação são definidos a partir de uma fonte externa, na maioria das vezes um vocabulário controlado.
4
Introdução O que é um vocabulário controlado? É uma ferramenta que agrupa conceitos e termos de forma hierárquica e que representam áreas temáticas.
5
Motivação Indexar documentos é um processo demorado, trabalhoso e, por isso, custoso. A quantidade de documentos vem crescendo a cada dia, dificultando o trabalho do indexador. Informação em excesso é difícil de ser organizada e encontrada.
6
Objetivos Gerais Construir uma aplicação capaz de identificar descritores de um documento científico através de técnicas de mineração de texto.
7
Objetivos específicos Extrair o máximo de descritores coerentes possíveis de um documento. Fazer com que a aplicação ajude a melhorar a produtividade do indexador. Ampliar a aplicação para enriquecer o tesauro existente com novos descritores.
8
Métodos Remoção de caracteres especiais. Aplicação da técnica de Stemming. Remoção de Stop Words. Leitura do texto por 'janelas'. Leitura do texto por bigramas. Análise da hieraquia de descritores.
9
Materiais e Ferramentas Vocabulário controlado MeSH. Lista de Stop Words (NLTK). Implementação do Porter Stemmer. IDE Eclipse; Subversion (Assembla). Wiki (Assembla).
10
Desenvolvimento Módulos de navegação para XML do vocabulário controlado MeSH. Módulo para normalização de termos (Stemming, stop words). Alocação do conteúdo do MeSH em memória.
11
Desenvolvimento Módulo de leitura dos documentos utilizando janelamento. Módulo de leitura dos documentos através de bigramas. Módulos para seleção de descritores encontrados. Heurísticas para cortes de descritores pouco relevantes.
12
Resultados Contrução da aplicação usando os métodos apresentados. Obtenção da melhor combinação de métodos para indexação. 419 documentos indexados pela aplicação.
13
Avaliação dos resultados Medidas Precisão Cobertura F-Measure
14
Avaliação dos Resultados Técnicas sem corte e seus resultados Comparação entre os possíveis cortes em diferentes técnicas
15
Avaliação dos Resultados Resultados com as técnicas de filtragem e bigramas Comparações entre janelas
16
Considerações A aplicação consegue extrair mais descritores que o ser humano. Navegação no MeSH prejudica qualidade dos resultados. Heurística imprecisa; Descritores muito específicos;
17
Desenvolvimentos Futuros Cria modelo para indexação partir de artigos indexados por pessoas. Atribuir pesos em função dos tópicos do texto. Criar modelo de indexação que leve em consideração a biblioteca em que o artigo será inserido.
18
Conclusão De todos os descritores extraídos pelo programa, 18,6% deles eram os mesmos escolhidos pelo profissional. Dos descritores feitos pelo profissional, 28,8% deles o programa conseguiu sugerir. Precisão prejudicada pela quantidade de descritores que o computador é capaz de trazer.
19
Referências BIREME, FAPESP. SciELO - Scientific Eletronic Library. Disponível em:. Acesso em: 21 novembro 2008. BRUZINGA, G. S., Maculan, B. C., & Lima, G. Â. (2007). Indexação automática e semântica: estudo da análise do conteúdo de teses e dissertação. Encontro Nacional de Pesquisa em Ciência da Informação. Salvador. ECLIPSE IDE. Version 3.4: Eclipse Foundation, 2008. Disponível em:. Acesso em: 21 novembro 2008. LANCASTER, F. W. Indexação e Resumos: Teoria e Prática. Brasília: Briquet de Lemos, 2004. MARTHA, Hamilton S. Recuperação De Informação Em Campos De Texto Livre De Prontuários Eletrônicos Do Paciente Baseada Em Semelhança Semântica E Ortográfica. Dissertação (Mestrado) – Universidade Federal de São Paulo. Programa de Pós graduação em Informática em Saúde. Disponível em:. Acesso em: 14 setembro 2008. NLM, MeSH - Medical Subjects Heading, Disponível em. Acesso em: 20 novembro 2008.
20
Referências PORTER, M. F. An algorithm for suffix stripping. Disponível em:. Acesso em: 14 outubro 2008. PICKLE, Module. In: PYTHON FOUNDATION. Python Documentation. Disponível em:. Acesso em: 21 novembro 2008. ROSAS, Patrícia. Instruções Redatoriais e a Indexação em publicação periódica. Rio de Janeiro: 2001. Disponível em:. Acesso em: 14 setembro 2008. PARSERS, SAX. In: PYTHON FOUNDATION. Python Documentation. Disponível em:. Acesso em 21 novembro 2008. SUBVERSION. Version 1.5.1: Tigris, 2008. Disponível em:. Acesso em: 21 novembro 2008. W3C. Extensible Markup Language (XML). Disponível em:. Acesso em: 21 novembro 2008.
21
Referências W. B. CAVNAR AND J. M. TRENKLE. N-gram-based text categorization. Disponível em:. Acesso em: 14 outubro 2008. MANNING, C. D., RAGHAVAN, P., & SCHÜTZE, H. (2008). Introduction to Information Retrieval. Cambridge: Cambridge University Press
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.