Bruno Augusto Vivas e Pôssas Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais
Motivação Quantas versões de indexadores temos para cada uma dos grupos presentes? Esses indexadores eram o foco inicial de investigação? Quanto tempo foi gasto na criação da infra-estrutura para a investigação em questão? LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Objetivo Fomentar a pesquisa em recuperação de informação direcionando todos os esforços de implementação diretamente no foco de investigação disponibilizando um ambiente integrado de desenvolvimento e avaliação dos resultados facilitando a transmissão de conhecimentos entre os grupos de pesquisa envolvidos LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Biblioteca: Composição Módulos: Coleta Processamento Indexação Classificação Filtragem Busca ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Biblioteca: Composição Módulos: Validação e avaliação dos resultados Coleções de referência Visualização ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Metodologia de Desenvolvimento Modelagem inicial de cada módulo a partir das experiências dos grupos envolvidos Desenvolvimento guiado por um processo simples e não burocratizado de engenharia de software Documentação e testes de regressão de cada módulo implementado LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto Ambiente de desenvolvimento: Ambiente de execução: Qualquer ambiente integrado ao savannah Ambiente de execução: Multi-plataforma Linguagem de programação: Ansi C/C++ Java ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto Módulo de Coleta: capaz de coletar documentos, imagens, áudio, vídeo, ... implementação baseada no software wget (http://www.wget.org) LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto Módulo de Processamento: capaz de processar e extrair o conteúdo de documentos nos seguintes formatos: SGML, HTML e XML coleções de referência LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto Módulo de Indexação: capaz de indexar grandes coleções de documentos técnicas de compressão informação posicional informação de links determinação de passagens LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto Módulo de Busca: capaz de recuperar documentos a partir da necessidade de informação dos usuários para cada um dos modelos clássicos booleano vetorial probabilístico extensão dos modelos implementados através da análise de links LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto Módulo de Validação e Avaliação dos Resultados: capaz de validar e avaliar os resultados dos modelos de recuperação de informação a partir das métricas usuais: revocação (recall) precisão (precision) tempo de resposta recursos utilizados (memória, etc) ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto Módulo para Coleções de Referência: capaz de extrair e processar os documentos, tópicos e conjuntos resposta das principais coleções de referência TReC, CACM, CFC, CISI, MEDL, etc capaz de determinar o conjunto resposta de um determinada consulta a partir da mesma metodologia utilizada pela NIST pool de respostas LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto Módulo de Visualização: capaz de apresentar os documentos retornados a partir de uma consulta simples lista ordenada de documentos baseados na similaridade com a consulta LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Prova de Conceito Combinação dos módulos implementados para a criação de uma máquina de busca simplificada Disponibilização da biblioteca como contribuição para a comunidade de recuperação de informação mg, smart, ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto Módulo de Classificação: capaz de acessar e navegar sobre uma ontologia representada por um thesaurus capaz de determinar a partir de passagens e do conjunto de definições presentes em um thesaurus, qual a melhor classificação para um documento LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais
Decisões de Projeto Módulo de Filtragem: capaz de determinar a relevância de um novo documento a partir de uma consulta LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais