Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.

Slides:



Advertisements
Apresentações semelhantes
Operações sobre o Texto
Advertisements

Tutorial de Pesquisa Básica de Bibliotecas Acadêmicas
UNICEUMA – CENTRO UNIVERSITÁRIO DO MARANHÃO
EBSCOhost Pesquisa básica para bibliotecas acadêmicas
Biblioteca Virtual em Saúde - Psicologia
Indexação Automática de Documentos
Propriedades de Documentos
Conceitos Gerais relacionados a Recuperação de Informação
AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA.
Reconhecimento de Padrões Dissimilaridade
Introdução a Teoria da Classificação
Divisão de Biblioteca e Documentação FMUSP
Técnicas da Comunicação Científica
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Bruno Augusto Vivas e Pôssas
Denise Perdigão BASE DE DADOS Denise Perdigão
Critérios de seleção de bases de dados bibliográficas da área da saúde
Periódicos eletrônicos brasileiros: a experiência da SciELO - Scientific Electronic Library Online Mariana Rocha Biojone Gerente, Unidade SciELO BIREME/OPS/OMS.
Biblioteca Virtual em Saúde:
Tutorial de pesquisa Bases da área de saúde.
Recuperação Inteligente de Informação Tarefa 1 Equipe.
BIBLIOTECA DE CIÊNCIAS DA SAÚDE
Curso em Editoração Eletrônica por meio de Seminários
Thiago Pinheiro de Araújo Arndt von Staa
II Workshop de Dissertação Pós-Graduação em Ciência da Computação Faculdade de Computação – FACOM Universidade Federal de Uberlândia – UFU Dezembro/2008.
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
SciELO. A Scientific Electronic Library Online - SciELO é uma biblioteca eletrônica que abrange uma coleção selecionada de periódicos científicos brasileiros.
TUTORIAL. Acervo de 47 jornais especialmente selecionados pela British Library para melhor representar o século XIX. Inclui jornais nacionais e regionais.
Tecnologias para Apresentação de Publicidade UMa | DME | 2009 Sistemas Multimédia Nuno Santos | Paulo Teixeira |
Bruno Florencio Pinheiro Orientador: Renato Fernandes Corrêa
Tutorial Scopus.
Navegando através das Fontes e Serviços de Informação da Biblioteca Virtual em Saúde - BVS BIREME/OPAS/OMS.
Mineração na Web Introdução a Recuperação de Informação
Pesquisa em bases de dados na área da saúde
Tutorial de pesquisa.
Leitura Analítica e Resumo Informativo
Recuperação de Informação
Vocabulários Controlados
MÓDULO 4 Como usar PubMed
Luciana Danielli Acesso às Fontes de Informação em Saúde através da Web - Portal da BIREME
Introdução à busca de artigos científicos Núcleo de Apoio Interdisciplinar Pedagógico NAIPE Setembro 2009.
ONDE A PESQUISA, PODE SER FEITA?
Portal.periodicos.CAPES SciELO – Scientific Eletronic Library Online.
Interoperabilidade semântica entre repositórios de saúde pública Fatima Cristina L. dos Santos Orientadoras: Maria Cecília de Magalhães Mollica Vania Lisboa.
TÍTULO DO ARTIGO AUTOR 1 AUTOR 2 AUTOR 3 AUTOR 4 AUTOR 5 UNIVERSIDADE FEDERAL DE PERNAMBUCO PROGRAMA DE PÓS GRADUAÇÃO EM CIÊNCIAS CONTÁBEIS VIII SEMINÁRIO.
Indexação Automática e Etiquetadores parte do discurso (POS tagger)
Universidade Salvador - UNIFACS 4ª Jornada UNIFACS de Iniciação Científica - 4 ª JUIC Salvador, 18 a 20 de Outubro de Métricas para análise de complexidade.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
The Petri Net Markup Language (PNML) Wellington João da Silva Mestrado Ciência da Computação.
PCS - Departamento de Engenharia de Computação e Sistemas Digitais Projeto de Formatura – Turmas 2008 Integrantes: Professor Orientador: Engenharia de.
A Seleção da Leitura Sublinhar e Resumir
Classificação de Textos
Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –
Indexação e linguagens documentárias – uma pequena revisão introdutória José Antonio M. Nascimento.
CBD-0279 Introdução ao Uso dos Metadados no Ambiente das Unidades de Informação Prof. Dr. Ivan Siqueira USP – ECA – CBD 2015.
Fábio Mascarenhas e Silva 29outubro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de.
Pesquisa Bibliográfica
VII Encontro CIn sobre Qualidade, Processos e Gestão de Software Thierry Araujo Avaliação dos resultados do projeto SmartSim e perspectivas para.
Daniel Teixeira Sessão Controlo Tese 2º Semestre 2007/2008 Orientador: Nuno Escudeiro.
Pesquisa Em Saúde Profª Andreia
Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum.
MED B12 FORMAÇÃO EM PESQUISA I Busca em bases de dados Prof. Daniel Athanazio Universidade Federal da Bahia Fundação Oswaldo Cruz.
Indexação e Resumos: teoria e prática
Eliana Kátia Pupim Doutoranda em CI pela UNESP Marília.
A pesquisa, sua comunicação e os sistemas de informação Profa. Angela M Belloni Cuenca Informação e Comunicação 2015.
ALVARO PEREIRA. A apresentação do percurso da pesquisa Detalha o caminho percorrido pelo pesquisador na coleta e na análise dos dados e encontra-se dividido.
Indexação automática de documentos utilizando técnicas de mineração de textos Proposta para trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
Indexação automática de documentos utilizando técnicas de mineração de textos Proposta para trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
COMPILAÇÃO E RECUPERAÇÃO DE INFORMAÇÕES TÉCNICO-CIENTÍFICAS E INDUÇÃO AO CONHECIMENTO DE FORMA ÁGIL NA REDE AGROHIDRO MARIA FERNANDA MOURA 1 ;
Indexação: o uso do Vocabulário de Controle Externo do TCU (VCE) ISC/CEDOC Serviço de Gestão do Conhecimento Junho/2016 Beatriz Pinheiro de Melo Gomes.
Transcrição da apresentação:

Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara

Introdução  O que é indexação? É a “construção de representações de documentos”(LANCASTER,2004).  Qual o propósito da Indexação? Incluir essas representações em algum tipo de bases de dados para ajudar na recuperação de informação (LANCASTER,2004).  Quem faz a indexação? Um profissional relacionado a Ciência da Informação, denominado Indexador;

Introdução  Tipos de indexação Indexação por extração Os termos de indexação são palavras do próprio documento elegidas. Indexação por atribuição Os termos de indexação são definidos a partir de uma fonte externa, na maioria das vezes um vocabulário controlado.

Introdução  O que é um vocabulário controlado? É uma ferramenta que agrupa conceitos e termos de forma hierárquica e que representam áreas temáticas.

Motivação  Indexar documentos é um processo demorado, trabalhoso e, por isso, custoso.  A quantidade de documentos vem crescendo a cada dia, dificultando o trabalho do indexador.  Informação em excesso é difícil de ser organizada e encontrada.

Objetivos Gerais  Construir uma aplicação capaz de identificar descritores de um documento científico através de técnicas de mineração de texto.

Objetivos específicos  Extrair o máximo de descritores coerentes possíveis de um documento.  Fazer com que a aplicação ajude a melhorar a produtividade do indexador.  Ampliar a aplicação para enriquecer o tesauro existente com novos descritores.

Métodos  Remoção de caracteres especiais.  Aplicação da técnica de Stemming.  Remoção de Stop Words.  Leitura do texto por 'janelas'.  Leitura do texto por bigramas.  Análise da hieraquia de descritores.

Materiais e Ferramentas  Vocabulário controlado MeSH.  Lista de Stop Words (NLTK).  Implementação do Porter Stemmer.  IDE Eclipse;  Subversion (Assembla).  Wiki (Assembla).

Desenvolvimento  Módulos de navegação para XML do vocabulário controlado MeSH.  Módulo para normalização de termos (Stemming, stop words).  Alocação do conteúdo do MeSH em memória.

Desenvolvimento  Módulo de leitura dos documentos utilizando janelamento.  Módulo de leitura dos documentos através de bigramas.  Módulos para seleção de descritores encontrados.  Heurísticas para cortes de descritores pouco relevantes.

Resultados  Contrução da aplicação usando os métodos apresentados.  Obtenção da melhor combinação de métodos para indexação.  419 documentos indexados pela aplicação.

Avaliação dos resultados  Medidas Precisão Cobertura F-Measure

Avaliação dos Resultados Técnicas sem corte e seus resultados Comparação entre os possíveis cortes em diferentes técnicas

Avaliação dos Resultados Resultados com as técnicas de filtragem e bigramas Comparações entre janelas

Considerações  A aplicação consegue extrair mais descritores que o ser humano.  Navegação no MeSH prejudica qualidade dos resultados. Heurística imprecisa; Descritores muito específicos;

Desenvolvimentos Futuros  Cria modelo para indexação partir de artigos indexados por pessoas.  Atribuir pesos em função dos tópicos do texto.  Criar modelo de indexação que leve em consideração a biblioteca em que o artigo será inserido.

Conclusão  De todos os descritores extraídos pelo programa, 18,6% deles eram os mesmos escolhidos pelo profissional.  Dos descritores feitos pelo profissional, 28,8% deles o programa conseguiu sugerir.  Precisão prejudicada pela quantidade de descritores que o computador é capaz de trazer.

Referências  BIREME, FAPESP. SciELO - Scientific Eletronic Library. Disponível em:. Acesso em: 21 novembro  BRUZINGA, G. S., Maculan, B. C., & Lima, G. Â. (2007). Indexação automática e semântica: estudo da análise do conteúdo de teses e dissertação. Encontro Nacional de Pesquisa em Ciência da Informação. Salvador.  ECLIPSE IDE. Version 3.4: Eclipse Foundation, Disponível em:. Acesso em: 21 novembro  LANCASTER, F. W. Indexação e Resumos: Teoria e Prática. Brasília: Briquet de Lemos,  MARTHA, Hamilton S. Recuperação De Informação Em Campos De Texto Livre De Prontuários Eletrônicos Do Paciente Baseada Em Semelhança Semântica E Ortográfica. Dissertação (Mestrado) – Universidade Federal de São Paulo. Programa de Pós graduação em Informática em Saúde. Disponível em:. Acesso em: 14 setembro  NLM, MeSH - Medical Subjects Heading, Disponível em. Acesso em: 20 novembro 2008.

Referências  PORTER, M. F. An algorithm for suffix stripping. Disponível em:. Acesso em: 14 outubro  PICKLE, Module. In: PYTHON FOUNDATION. Python Documentation. Disponível em:. Acesso em: 21 novembro  ROSAS, Patrícia. Instruções Redatoriais e a Indexação em publicação periódica. Rio de Janeiro: Disponível em:. Acesso em: 14 setembro  PARSERS, SAX. In: PYTHON FOUNDATION. Python Documentation. Disponível em:. Acesso em 21 novembro  SUBVERSION. Version 1.5.1: Tigris, Disponível em:. Acesso em: 21 novembro  W3C. Extensible Markup Language (XML). Disponível em:. Acesso em: 21 novembro 2008.

Referências  W. B. CAVNAR AND J. M. TRENKLE. N-gram-based text categorization. Disponível em:. Acesso em: 14 outubro  MANNING, C. D., RAGHAVAN, P., & SCHÜTZE, H. (2008). Introduction to Information Retrieval. Cambridge: Cambridge University Press