Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.

Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara

Introdução  O que é indexação? É a “construção de representações de documentos”(LANCASTER,2004).  Qual o propósito da Indexação? Incluir essas representações em algum tipo de bases de dados para ajudar na recuperação de informação (LANCASTER,2004).  Quem faz a indexação? Um profissional relacionado a Ciência da Informação, denominado Indexador;

Introdução  Tipos de indexação Indexação por extração Os termos de indexação são palavras do próprio documento elegidas. Indexação por atribuição Os termos de indexação são definidos a partir de uma fonte externa, na maioria das vezes um vocabulário controlado.

Introdução  O que é um vocabulário controlado? É uma ferramenta que agrupa conceitos e termos de forma hierárquica e que representam áreas temáticas.

Motivação  Indexar documentos é um processo demorado, trabalhoso e, por isso, custoso.  A quantidade de documentos vem crescendo a cada dia, dificultando o trabalho do indexador.  Informação em excesso é difícil de ser organizada e encontrada.

Objetivos Gerais  Construir uma aplicação capaz de identificar descritores de um documento científico através de técnicas de mineração de texto.

Objetivos específicos  Extrair o máximo de descritores coerentes possíveis de um documento.  Fazer com que a aplicação ajude a melhorar a produtividade do indexador.  Ampliar a aplicação para enriquecer o tesauro existente com novos descritores.

Métodos  Remoção de caracteres especiais.  Aplicação da técnica de Stemming.  Remoção de Stop Words.  Leitura do texto por 'janelas'.  Leitura do texto por bigramas.  Análise da hieraquia de descritores.

Materiais e Ferramentas  Vocabulário controlado MeSH.  Lista de Stop Words (NLTK).  Implementação do Porter Stemmer.  IDE Eclipse;  Subversion (Assembla).  Wiki (Assembla).

Desenvolvimento  Módulos de navegação para XML do vocabulário controlado MeSH.  Módulo para normalização de termos (Stemming, stop words).  Alocação do conteúdo do MeSH em memória.

Desenvolvimento  Módulo de leitura dos documentos utilizando janelamento.  Módulo de leitura dos documentos através de bigramas.  Módulos para seleção de descritores encontrados.  Heurísticas para cortes de descritores pouco relevantes.

Resultados  Contrução da aplicação usando os métodos apresentados.  Obtenção da melhor combinação de métodos para indexação.  419 documentos indexados pela aplicação.

Avaliação dos resultados  Medidas Precisão Cobertura F-Measure

Avaliação dos Resultados Técnicas sem corte e seus resultados Comparação entre os possíveis cortes em diferentes técnicas

Avaliação dos Resultados Resultados com as técnicas de filtragem e bigramas Comparações entre janelas

Considerações  A aplicação consegue extrair mais descritores que o ser humano.  Navegação no MeSH prejudica qualidade dos resultados. Heurística imprecisa; Descritores muito específicos;

Desenvolvimentos Futuros  Cria modelo para indexação partir de artigos indexados por pessoas.  Atribuir pesos em função dos tópicos do texto.  Criar modelo de indexação que leve em consideração a biblioteca em que o artigo será inserido.

Conclusão  De todos os descritores extraídos pelo programa, 18,6% deles eram os mesmos escolhidos pelo profissional.  Dos descritores feitos pelo profissional, 28,8% deles o programa conseguiu sugerir.  Precisão prejudicada pela quantidade de descritores que o computador é capaz de trazer.

Referências  BIREME, FAPESP. SciELO - Scientific Eletronic Library. Disponível em:. Acesso em: 21 novembro 2008.  BRUZINGA, G. S., Maculan, B. C., & Lima, G. Â. (2007). Indexação automática e semântica: estudo da análise do conteúdo de teses e dissertação. Encontro Nacional de Pesquisa em Ciência da Informação. Salvador.  ECLIPSE IDE. Version 3.4: Eclipse Foundation, 2008. Disponível em:. Acesso em: 21 novembro 2008.  LANCASTER, F. W. Indexação e Resumos: Teoria e Prática. Brasília: Briquet de Lemos, 2004.  MARTHA, Hamilton S. Recuperação De Informação Em Campos De Texto Livre De Prontuários Eletrônicos Do Paciente Baseada Em Semelhança Semântica E Ortográfica. Dissertação (Mestrado) – Universidade Federal de São Paulo. Programa de Pós graduação em Informática em Saúde. Disponível em:. Acesso em: 14 setembro 2008.  NLM, MeSH - Medical Subjects Heading, Disponível em. Acesso em: 20 novembro 2008.

Referências  PORTER, M. F. An algorithm for suffix stripping. Disponível em:. Acesso em: 14 outubro 2008.  PICKLE, Module. In: PYTHON FOUNDATION. Python Documentation. Disponível em:. Acesso em: 21 novembro 2008.  ROSAS, Patrícia. Instruções Redatoriais e a Indexação em publicação periódica. Rio de Janeiro: 2001. Disponível em:. Acesso em: 14 setembro 2008.  PARSERS, SAX. In: PYTHON FOUNDATION. Python Documentation. Disponível em:. Acesso em 21 novembro 2008.  SUBVERSION. Version 1.5.1: Tigris, 2008. Disponível em:. Acesso em: 21 novembro 2008.  W3C. Extensible Markup Language (XML). Disponível em:. Acesso em: 21 novembro 2008.

Referências  W. B. CAVNAR AND J. M. TRENKLE. N-gram-based text categorization. Disponível em:. Acesso em: 14 outubro 2008.  MANNING, C. D., RAGHAVAN, P., & SCHÜTZE, H. (2008). Introduction to Information Retrieval. Cambridge: Cambridge University Press

Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.

Apresentações semelhantes

Apresentação em tema: "Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.

Apresentações semelhantes

Apresentação em tema: "Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback