A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Bruno Augusto Vivas e Pôssas

Apresentações semelhantes


Apresentação em tema: "Bruno Augusto Vivas e Pôssas"— Transcrição da apresentação:

1 Bruno Augusto Vivas e Pôssas
Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais

2 Motivação Quantas versões de indexadores temos para cada uma dos grupos presentes? Esses indexadores eram o foco inicial de investigação? Quanto tempo foi gasto na criação da infra-estrutura para a investigação em questão? LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

3 Objetivo Fomentar a pesquisa em recuperação de informação
direcionando todos os esforços de implementação diretamente no foco de investigação disponibilizando um ambiente integrado de desenvolvimento e avaliação dos resultados facilitando a transmissão de conhecimentos entre os grupos de pesquisa envolvidos LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

4 Biblioteca: Composição
Módulos: Coleta Processamento Indexação Classificação Filtragem Busca ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

5 Biblioteca: Composição
Módulos: Validação e avaliação dos resultados Coleções de referência Visualização ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

6 Metodologia de Desenvolvimento
Modelagem inicial de cada módulo a partir das experiências dos grupos envolvidos Desenvolvimento guiado por um processo simples e não burocratizado de engenharia de software Documentação e testes de regressão de cada módulo implementado LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

7 Decisões de Projeto Ambiente de desenvolvimento: Ambiente de execução:
Qualquer ambiente integrado ao savannah Ambiente de execução: Multi-plataforma Linguagem de programação: Ansi C/C++ Java ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

8 Decisões de Projeto Módulo de Coleta:
capaz de coletar documentos, imagens, áudio, vídeo, ... implementação baseada no software wget (http://www.wget.org) LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

9 Decisões de Projeto Módulo de Processamento:
capaz de processar e extrair o conteúdo de documentos nos seguintes formatos: SGML, HTML e XML coleções de referência LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

10 Decisões de Projeto Módulo de Indexação:
capaz de indexar grandes coleções de documentos técnicas de compressão informação posicional informação de links determinação de passagens LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

11 Decisões de Projeto Módulo de Busca:
capaz de recuperar documentos a partir da necessidade de informação dos usuários para cada um dos modelos clássicos booleano vetorial probabilístico extensão dos modelos implementados através da análise de links LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

12 Decisões de Projeto Módulo de Validação e Avaliação dos Resultados:
capaz de validar e avaliar os resultados dos modelos de recuperação de informação a partir das métricas usuais: revocação (recall) precisão (precision) tempo de resposta recursos utilizados (memória, etc) ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

13 Decisões de Projeto Módulo para Coleções de Referência:
capaz de extrair e processar os documentos, tópicos e conjuntos resposta das principais coleções de referência TReC, CACM, CFC, CISI, MEDL, etc capaz de determinar o conjunto resposta de um determinada consulta a partir da mesma metodologia utilizada pela NIST pool de respostas LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

14 Decisões de Projeto Módulo de Visualização:
capaz de apresentar os documentos retornados a partir de uma consulta simples lista ordenada de documentos baseados na similaridade com a consulta LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

15 Prova de Conceito Combinação dos módulos implementados para a criação de uma máquina de busca simplificada Disponibilização da biblioteca como contribuição para a comunidade de recuperação de informação mg, smart, ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

16 Decisões de Projeto Módulo de Classificação:
capaz de acessar e navegar sobre uma ontologia representada por um thesaurus capaz de determinar a partir de passagens e do conjunto de definições presentes em um thesaurus, qual a melhor classificação para um documento LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

17 Decisões de Projeto Módulo de Filtragem:
capaz de determinar a relevância de um novo documento a partir de uma consulta LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais


Carregar ppt "Bruno Augusto Vivas e Pôssas"

Apresentações semelhantes


Anúncios Google