A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Indexação automática de documentos utilizando técnicas de mineração de textos Proposta para trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.

Apresentações semelhantes


Apresentação em tema: "Indexação automática de documentos utilizando técnicas de mineração de textos Proposta para trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara."— Transcrição da apresentação:

1 Indexação automática de documentos utilizando técnicas de mineração de textos Proposta para trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara

2 Introdução  O que é indexação? É a “construção de representações de documentos”(LANCASTER,2004).  Qual o propósito da Indexação? Incluir essas representações em algum tipo de bases de dados para ajudar na recuperação de informação (LANCASTER,2004).  Quem faz a indexação? Um profissional relacionado a Ciência da Informação, denominado Indexador;

3 Introdução  Tipos de indexação Indexação por extração Os termos de indexação são palavras do próprio documento elegidas. Indexação por atribuição Os termos de indexação a partir de uma fonte externa, na maioria das vezes um vocabulário controlado.

4 Introdução  O que é um vocabulário controlado? É uma ferramenta que agrupa conceitos e termos de forma hierárquica e que representam áreas temáticas.

5 Motivação  Indexar documentos é um processo demorado, trabalhoso e, por isso, custoso.  A quantidade de documentos vem crescendo a cada dia, dificultando o trabalho do indexador.  Informação em excesso é difícil de ser organizada e encontrada.

6 Objetivos Gerais  Construir uma aplicação capaz de identificar descritores de um documento científico através de técnicas de mineração de texto.

7 Objetivos específicos  Extrair o máximo de descritores coerentes possíveis de um documento.  Fazer com que a aplicação ajude a melhorar a produtividade do indexador.  Ampliar a aplicação para enriquecer o tesauro existente com novos descritores.

8 Métodos  Remoção de caracteres especiais.  Aplicação da técnica de Stemming.  Remoção de Stop Words.  Leitura do texto por 'janelas'.  Leitura do texto por bigramas.  Análise da hieraquia de descritores.

9 Materiais e Ferramentas  Vocabulário controlado MeSH.  Lista de Stop Words (NLTK).  Implementação do Porter Stemmer.  IDE Eclipse;  Subversion (Assembla).  Wiki (Assembla).

10 Desenvolvimento  Módulos de navegação para XML do vocabulário controlado MeSH.  Módulo para normalização de termos (Stemming, stop words).  Alocação do conteúdo do MeSH em memória.

11 Desenvolvimento  Módulo de leitura dos documentos utilizando janelamento.  Módulo de leitura dos documentos através de bigramas.  Módulos para seleção de descritores encontrados.  Heurísticas para cortes de descritores pouco relevantes.

12 Resultados  Contrução da aplicação usando os métodos apresentados.  Obtenção da melhor combinação de métodos para indexação.  419 documentos indexados pela aplicação.

13 Avaliação dos resultados  Medidas Precisão Cobertura F-Measure

14 Avaliação dos Resultados Técnicas sem corte e seus resultados Comparação entre os possíveis cortes em diferentes técnicas

15 Avaliação dos Resultados Resultados com as técnicas de filtragem e bigramas Comparações entre janelas

16 Referências  BRUZINGA, Graziane Silva; MACULAN, Benildes C. M. S.; LIMA, Gercina A. B. O. Indexação Automática e Semântica: estudo da análise do conteúdo de teses e dissertações. In: Encontro Nacional de Pesquisa em Ciência da Informação. Salvador: UFBA, 2007. Disponível em:. Acesso em: 14 abril 2008.  ROSAS, Patrícia. Instruções Redatoriais e a Indexação em publicação periódica. Rio de Janeiro: 2001. Disponível em:. Acesso em: 14 abril 2008.  DANTAS, Paulo E.C. Indexação bibliográfica em bases de dados:O que é? Para que serve? Onde estamos?. Arq. Bras. Oftalmol, São Paulo, v. 67, n. 4, jul/ago 2004. Disponível em:. Acesso em: 14 abril 2008.

17 Referências  TARDELLI, Adalberto O. An implementation of Trigram Phrase Matching for text similarity problems. Medical Care Compunetics. IOPress Incorporated, 2004. Disponível em:. Acesso em: 14 abril 2008.  ARAÚJO JR., Rogério H. de. Precisão no processo de busca e recuperação da informação: uso da mineração de textos. Ci. Inf., Brasília, v. 35, n. 3, p. 236-247, set./dez. 2006. Disponível em:. Acesso em: 14 abril 2008.  MARTHA, Hamilton S. Recuperação De Informação Em Campos De Texto Livre De Prontuários Eletrônicos Do Paciente Baseada Em Semelhança Semântica E Ortográfica. Tese (Mestrado) – Universidade Federal de São Paulo. Programa de Pósgraduação em Informática em Saúde. Disponível em:. Acesso em: 14 abril 2008.


Carregar ppt "Indexação automática de documentos utilizando técnicas de mineração de textos Proposta para trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara."

Apresentações semelhantes


Anúncios Google