A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da.

Apresentações semelhantes


Apresentação em tema: "Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da."— Transcrição da apresentação:

1 Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais

2 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais2 Motivação Quantas versões de indexadores temos para cada uma dos grupos presentes? Esses indexadores eram o foco inicial de investigação? Quanto tempo foi gasto na criação da infra- estrutura para a investigação em questão?

3 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais3 Objetivo Fomentar a pesquisa em recuperação de informação direcionando todos os esforços de implementação diretamente no foco de investigação disponibilizando um ambiente integrado de desenvolvimento e avaliação dos resultados facilitando a transmissão de conhecimentos entre os grupos de pesquisa envolvidos

4 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais4 Biblioteca: Composição Módulos: Coleta Processamento Indexação Classificação Filtragem Busca...

5 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais5 Biblioteca: Composição Módulos: Validação e avaliação dos resultados Coleções de referência Visualização...

6 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais6 Metodologia de Desenvolvimento Modelagem inicial de cada módulo a partir das experiências dos grupos envolvidos Desenvolvimento guiado por um processo simples e não burocratizado de engenharia de software Documentação e testes de regressão de cada módulo implementado

7 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais7 Decisões de Projeto Ambiente de desenvolvimento: Qualquer ambiente integrado ao savannah Ambiente de execução: Multi-plataforma Linguagem de programação: Ansi C/C++ Java...

8 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais8 Decisões de Projeto Módulo de Coleta: capaz de coletar documentos, imagens, áudio, vídeo,... implementação baseada no software wget (http://www.wget.org)

9 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais9 Decisões de Projeto Módulo de Processamento: capaz de processar e extrair o conteúdo de documentos nos seguintes formatos: SGML, HTML e XML coleções de referência

10 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais10 Decisões de Projeto Módulo de Indexação: capaz de indexar grandes coleções de documentos técnicas de compressão informação posicional informação de links determinação de passagens

11 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais11 Decisões de Projeto Módulo de Busca: capaz de recuperar documentos a partir da necessidade de informação dos usuários para cada um dos modelos clássicos booleano vetorial probabilístico extensão dos modelos implementados através da análise de links

12 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais12 Decisões de Projeto Módulo de Validação e Avaliação dos Resultados: capaz de validar e avaliar os resultados dos modelos de recuperação de informação a partir das métricas usuais: revocação (recall) precisão (precision) tempo de resposta recursos utilizados (memória, etc)...

13 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais13 Decisões de Projeto Módulo para Coleções de Referência: capaz de extrair e processar os documentos, tópicos e conjuntos resposta das principais coleções de referência TReC, CACM, CFC, CISI, MEDL, etc capaz de determinar o conjunto resposta de um determinada consulta a partir da mesma metodologia utilizada pela NIST pool de respostas

14 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais14 Decisões de Projeto Módulo de Visualização: capaz de apresentar os documentos retornados a partir de uma consulta simples lista ordenada de documentos baseados na similaridade com a consulta

15 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais15 Prova de Conceito Combinação dos módulos implementados para a criação de uma máquina de busca simplificada Disponibilização da biblioteca como contribuição para a comunidade de recuperação de informação mg, smart,...

16 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais16 Decisões de Projeto Módulo de Classificação: capaz de acessar e navegar sobre uma ontologia representada por um thesaurus capaz de determinar a partir de passagens e do conjunto de definições presentes em um thesaurus, qual a melhor classificação para um documento

17 LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais17 Decisões de Projeto Módulo de Filtragem: capaz de determinar a relevância de um novo documento a partir de uma consulta


Carregar ppt "Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da."

Apresentações semelhantes


Anúncios Google