A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.

Apresentações semelhantes


Apresentação em tema: "Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara."— Transcrição da apresentação:

1 Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara

2 Introdução  O que é indexação? É a “construção de representações de documentos”(LANCASTER,2004).  Qual o propósito da Indexação? Incluir essas representações em algum tipo de bases de dados para ajudar na recuperação de informação (LANCASTER,2004).  Quem faz a indexação? Um profissional relacionado a Ciência da Informação, denominado Indexador;

3 Introdução  Tipos de indexação Indexação por extração Os termos de indexação são palavras do próprio documento elegidas. Indexação por atribuição Os termos de indexação são definidos a partir de uma fonte externa, na maioria das vezes um vocabulário controlado.

4 Introdução  O que é um vocabulário controlado? É uma ferramenta que agrupa conceitos e termos de forma hierárquica e que representam áreas temáticas.

5 Motivação  Indexar documentos é um processo demorado, trabalhoso e, por isso, custoso.  A quantidade de documentos vem crescendo a cada dia, dificultando o trabalho do indexador.  Informação em excesso é difícil de ser organizada e encontrada.

6 Objetivos Gerais  Construir uma aplicação capaz de identificar descritores de um documento científico através de técnicas de mineração de texto.

7 Objetivos específicos  Extrair o máximo de descritores coerentes possíveis de um documento.  Fazer com que a aplicação ajude a melhorar a produtividade do indexador.  Ampliar a aplicação para enriquecer o tesauro existente com novos descritores.

8 Métodos  Remoção de caracteres especiais.  Aplicação da técnica de Stemming.  Remoção de Stop Words.  Leitura do texto por 'janelas'.  Leitura do texto por bigramas.  Análise da hieraquia de descritores.

9 Materiais e Ferramentas  Vocabulário controlado MeSH.  Lista de Stop Words (NLTK).  Implementação do Porter Stemmer.  IDE Eclipse;  Subversion (Assembla).  Wiki (Assembla).

10 Desenvolvimento  Módulos de navegação para XML do vocabulário controlado MeSH.  Módulo para normalização de termos (Stemming, stop words).  Alocação do conteúdo do MeSH em memória.

11 Desenvolvimento  Módulo de leitura dos documentos utilizando janelamento.  Módulo de leitura dos documentos através de bigramas.  Módulos para seleção de descritores encontrados.  Heurísticas para cortes de descritores pouco relevantes.

12 Resultados  Contrução da aplicação usando os métodos apresentados.  Obtenção da melhor combinação de métodos para indexação.  419 documentos indexados pela aplicação.

13 Avaliação dos resultados  Medidas Precisão Cobertura F-Measure

14 Avaliação dos Resultados Técnicas sem corte e seus resultados Comparação entre os possíveis cortes em diferentes técnicas

15 Avaliação dos Resultados Resultados com as técnicas de filtragem e bigramas Comparações entre janelas

16 Considerações  A aplicação consegue extrair mais descritores que o ser humano.  Navegação no MeSH prejudica qualidade dos resultados. Heurística imprecisa; Descritores muito específicos;

17 Desenvolvimentos Futuros  Cria modelo para indexação partir de artigos indexados por pessoas.  Atribuir pesos em função dos tópicos do texto.  Criar modelo de indexação que leve em consideração a biblioteca em que o artigo será inserido.

18 Conclusão  De todos os descritores extraídos pelo programa, 18,6% deles eram os mesmos escolhidos pelo profissional.  Dos descritores feitos pelo profissional, 28,8% deles o programa conseguiu sugerir.  Precisão prejudicada pela quantidade de descritores que o computador é capaz de trazer.

19 Referências  BIREME, FAPESP. SciELO - Scientific Eletronic Library. Disponível em:. Acesso em: 21 novembro 2008.  BRUZINGA, G. S., Maculan, B. C., & Lima, G. Â. (2007). Indexação automática e semântica: estudo da análise do conteúdo de teses e dissertação. Encontro Nacional de Pesquisa em Ciência da Informação. Salvador.  ECLIPSE IDE. Version 3.4: Eclipse Foundation, 2008. Disponível em:. Acesso em: 21 novembro 2008.  LANCASTER, F. W. Indexação e Resumos: Teoria e Prática. Brasília: Briquet de Lemos, 2004.  MARTHA, Hamilton S. Recuperação De Informação Em Campos De Texto Livre De Prontuários Eletrônicos Do Paciente Baseada Em Semelhança Semântica E Ortográfica. Dissertação (Mestrado) – Universidade Federal de São Paulo. Programa de Pós graduação em Informática em Saúde. Disponível em:. Acesso em: 14 setembro 2008.  NLM, MeSH - Medical Subjects Heading, Disponível em. Acesso em: 20 novembro 2008.

20 Referências  PORTER, M. F. An algorithm for suffix stripping. Disponível em:. Acesso em: 14 outubro 2008.  PICKLE, Module. In: PYTHON FOUNDATION. Python Documentation. Disponível em:. Acesso em: 21 novembro 2008.  ROSAS, Patrícia. Instruções Redatoriais e a Indexação em publicação periódica. Rio de Janeiro: 2001. Disponível em:. Acesso em: 14 setembro 2008.  PARSERS, SAX. In: PYTHON FOUNDATION. Python Documentation. Disponível em:. Acesso em 21 novembro 2008.  SUBVERSION. Version 1.5.1: Tigris, 2008. Disponível em:. Acesso em: 21 novembro 2008.  W3C. Extensible Markup Language (XML). Disponível em:. Acesso em: 21 novembro 2008.

21 Referências  W. B. CAVNAR AND J. M. TRENKLE. N-gram-based text categorization. Disponível em:. Acesso em: 14 outubro 2008.  MANNING, C. D., RAGHAVAN, P., & SCHÜTZE, H. (2008). Introduction to Information Retrieval. Cambridge: Cambridge University Press


Carregar ppt "Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara."

Apresentações semelhantes


Anúncios Google