Modelos de Recuperação de Informação Eveline Alonso Veloso PUC-MINAS
Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 2.
Indexação Sistemas de recuperação de informação tradicionais; utilizam termos de indexação para; representar; e posteriormente recuperar documentos.
Indexação termo de indexação: palavra-chave ou grupo de palavras relacionadas; que possui(possuem) algum significado. Seu significado ajuda a identificar; os principais temas tratados pelos documentos onde o termo aparece.
Recuperação de Informação Recuperação baseada em termos de indexação é simples; porém apresenta algumas questões relacionadas com a tarefa de recuperação de informação.
Recuperação de Informação – Dificuldades Recuperação de informação utilizando termos de indexação adota como base fundamental a idéia de que; a semântica de documentos e da necessidade de informação do usuário; pode naturalmente ser expressa através de um conjunto de termos de indexação.
Recuperação de Informação – Dificuldades Claramente essa é uma simplificação do problema de recuperação de informação; porque muita da semântica do documento e da necessidade de informação do usuário; é perdida quando os representamos por um conjunto de termos.
Recuperação de Informação – Dificuldades Encontrar documentos que atendam à consulta do usuário; é uma tarefa difícil em um espaço impreciso de termos de indexação. Além disso, a maioria dos usuários não tem nenhum treinamento em como formular apropriadamente sua consulta. Em conseqüência, freqüentemente são retornados documentos não relevantes; em resposta a uma consulta expressa por um conjunto de palavras-chave.
Ordenação de Documentos Problema central relacionado à recuperação de informação; determinar quais são os documentos relevantes; e aqueles que não são; para uma determinada consulta. Esse problema é tratado por um mecanismo de ranking; que estabelece uma ordenação entre os documentos recuperados.
Ordenação de Documentos Documentos que aparecem no topo da lista de documentos retornados; são considerados como tendo maior chance de serem mais relevantes para o usuário. Mecanismos de ordenação; são o núcleo de um sistema de recuperação de informação.
O Processo de Recuperação de Informação necessidade de informação documentos recuperados e ranqueados consulta Coleta Operações sobre a consulta Busca Ordenação Coleção Indexação Índice Operações sobre o texto documento * Figura adaptada de BAEZA-YATES & RIBEIRO-NETO
Modelos de Recuperação de Informação Um mecanismo de ordenação, ou ranking; opera de acordo com um conjunto de premissas; relacionadas com a idéia de relevância do documento. Conjuntos distintos de premissas; relacionadas com uma medida da relevância do documento; estabelecem diferentes modelos de recuperação de informação.
Modelos de Recuperação de Informação O modelo de recuperação de informação adotado pelo sistema; determina a idéia utilizada no sistema para considerar um documento relevante ou não para uma consulta.
Taxonomia dos Modelos de Recuperação de Informação Modelos Clássicos Busca Filtragem Modelos Estruturais Tarefa do Usuário Navegação Navegação
Taxonomia dos Modelos de Recuperação de Informação Teoria de Conjuntos Fuzzy Booleano Estendido Modelos Clássicos Booleano Vetorial Probabilístico Algébricos Indexação por Semântica Latente Vetorial Generalizado Teoria de Probabilidades Redes de Inferência Redes de Crenças
Taxonomia dos Modelos de Recuperação de Informação Modelos Estruturais Nodos Próximos Listas que não se Sobrepõem
Taxonomia dos Modelos de Recuperação de Informação Navegação Flat Guiado por Estrutura Hipertexto
Caracterização Formal de Modelos de Recuperação de Informação conjunto de documentos; coleção. dj: cada um dos diversos documentos da coleção.
Caracterização Formal de Modelos de Recuperação de Informação Q: conjunto composto de representações das necessidades de informação dos usuários; conjunto de consultas. qi: cada uma das consultas desse conjunto.
Caracterização Formal de Modelos de Recuperação de Informação um arcabouço para representação de: documentos; consultas; e suas relações. Esse arcabouço está relacionado com a forma como a função de ranking será construída.
Caracterização Formal de Modelos de Recuperação de Informação R(qi, dj): função de ranking que associa um número real a cada par qi Q e dj D. Essa função de ranking define uma ordenação entre os documentos com relação a uma consulta qi.