Tratamento da indexação de documentos no LexML: como compatibilizar os múltiplos vocabulários? João Lima Senado Federal / Prodasen
Problema –Interoperabilidade entre tesauros / vocabulários controlados indexação de assunto Proposta de solução –Curto prazo –Médio prazo –Longo prazo
Tesauros Controle de vocabulário especializdo –Indexação –Recuperação da Informação Para assegurar a recuperação de um número desejável de documentos relevantes (revocação) e garantir uma seleção mais precisa (precisão) Substituição da query do usuário –não-descritor > descritor Expansão da query do usuário –descritor + não descritor (UPs) –descritor + descritor (TEs) –descritor + descritor (TRs) Pré-coordenação / Pós-coordenação Público-Alvo ~ Escopo
Escopo dos Tesauros
Escopo Comum Usuário: Cidadão Informação Legislativa e Jurídica
Problema T1 T2 T3 US casamento UP matrimonio UP nupcias US matrimonio UP casamento US casamento civil
T1 T2 T3 matrimonio 30 docs casamento 50 docs casamento civil 20 docs US casamento UP matrimonio UP nupcias US matrimonio UP casamento US casamento civil Problema
T1 T2 T3 matrimonio 30 docs casamento 50 docs casamento civil 20 docs US casamento UP matrimonio UP nupcias US matrimonio UP casamento US casamento civil Problema Pesquisa em uma base unificada matrimonio :: 30 docs casamento :: 70 docs casamento civil :: 20 docs
Graus de Equivalência Equivalência Exata –Significado / escopo Equivalência Inexata –+ou - Equivalência Parcial –TG ou TE Equivalência Simples-Múltiplo Não Equivalência ISO
Curto Prazo Objetivo –com pouco esforço, implementar a recuperação por assunto no LexML Exportar não descritores (Local) –matrimonio {casamento, núpcias} –casamento {matrimonio} –casamento civil Mapeamento entre tesauros pilotos (Local) –inclusão de não descritores –Ex: matrimonio {casamento, nupcias} casamento {matrimonio, nupcias}
Expansão de Query x Multiplicidade de Alvo T1 or T2 or T3 or T4 or T5 - Consome mais recursos na consulta - É necessário um tesauro para realizar a expansão - Mais chances de obter lixo T
T1 T2 T3 matrimonio {c, n} 30 docs casamento {m, n} 50 docs casamento civil 20 docs US casamento UP matrimonio UP nupcias US matrimonio UP casamento UP nupcias US casamento civil Curto Prazo Pesquisa em uma base unificada matrimonio :: 30 docs :: 80 docs casamento :: 70 docs :: 100 docs casamento civil :: 20 docs :: 20 docs
Médio Prazo Objetivo –Criação de um tesauro unificado (Global) Exportar Tesauros (ex.: W3C SKOS) Geração semi-automática, revisão por um GT Mapeamento do tesauro individual (Local) –para o tesauro unificado –criação de TGs / TEs US casamento civil TG casamento Exportação da cadeia hierárquica (Local) –(isA – gênero/espécie) –Não exportar o rel. partitivo (TGP/TEP) casamento civil [casamento]
T1 T2 T3 matrimonio {c, n} 30 docs casamento {m, n} 50 docs casamento civil [ casamento ] 20 docs US casamento UP matrimonio UP nupcias US matrimonio UP casamento UP nupcias US casamento civil TG casamento Médio Prazo Pesquisa em uma base unificada matrimonio :: 30 docs :: 80 docs :: 100 docs casamento :: 70 docs :: 100 docs :: 100 docs casamento civil :: 20 docs :: 20 docs :: 20 docs
Longo Prazo Objetivo –Criação de uma ontologia (Global) a partir do tesauro unificado Mapeamento do tesauro individual –para a ontologia (Local) Criação de um Glossário (Global) –para o cidadão
Conclusão Abordagem incremental –Resultados rápidos –Próxima passo construído a partir dos passos anteriores Preserva a independência de cada órgãos na definição dos descritores Melhora da Recuperação da Informação