Especificação de Consultas Eveline Alonso Veloso PUC-MINAS
Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 4.
Introdução Consulta: Dependendo da experiência do usuário; formulação da necessidade de informação do usuário de um sistema de recuperação de informação. Dependendo da experiência do usuário; e da clareza de sua necessidade de informação; uma determinada forma de especificar sua consulta é selecionada.
Formas de Especificar uma Consulta Principais formas de especificar consultas que geralmente aparecem em sistemas de recuperação de informação textual: consultas baseadas em palavras-chave: consultas com uma única palavra-chave; consultas em um contexto: frase exata; proximidade; consultas booleanas; casamento de padrão; consultas estruturadas.
Consultas baseadas em Palavras-chave Para os modelos de recuperação de informação clássicos; é o principal tipo de consulta. Uma consulta é formada por palavras-chave e algumas restrições opcionais; os documentos que possuem as palavras-chave especificadas e atendem as restrições estabelecidas são recuperados.
Consultas baseadas em Palavras-chave Populares; intuitivas; fáceis de especificar; em geral, processadas rapidamente.
Consultas com uma Única Palavra-chave Consulta mais elementar. Consulta é formada por uma palavra-chave; e os documentos que possuem a palavra-chave especificada são recuperados.
Consultas com uma Única Palavra-chave
Consultas em um Contexto Palavras-chave especificadas; são pesquisadas em um dado contexto; ou seja, próximas umas às outras. Dois tipos de consultas em um contexto: frase exata; proximidade.
Frase Exata Sequência de palavras-chave. Procura-se pela ocorrência da frase nos documentos indexados.
Frase Exata
Proximidade Versão mais “relaxada” da busca por frase exata. Sequência de palavras-chave; em geral, juntamente com a distância máxima permitida entre elas. As palavras podem aparecer nos documentos recuperados; em uma ordem diferente daquela em que foram especificadas na consulta.
Proximidade
Consultas Booleanas Forma mais antiga de especificar consultas; combinando palavras-chave. Consultas são especificadas como expressões booleanas; que possuem semântica precisa. São compostas de: palavras-chave; operadores booleanos: AND, OR, NOT. Exemplo: recuperação AND informação
Operadores Booleanos AND (e) e OR (ou); NOT (não); são conectores binários; possuem a mesma precedência. NOT (não); conector unário; possui precedência sobre os demais operadores booleanos.
Casamento de Padrão Um padrão é um conjunto de características sintáticas que devem ocorrer em um segmento de texto. Dizemos que os segmentos de texto que satisfazem às especificações do padrão; casam com o padrão indicado.
Casamento de Padrão Consultas mais complexas; auxiliam a busca por palavras-chave; complementando-a com recursos mais poderosos de recuperação de dados. Quanto mais poderoso for o conjunto de padrões, mais complexa é a implementação do sistema de recuperação de informação.
Tipos de Padrões Prefixo; Sufixo; Substring; Permitindo erros; Expressão regular.
Prefixo Padrão que deve ocorrer no início de uma palavra. Exemplo: info; casa com: informação; informática; etc.
Sufixo Padrão que deve ocorrer no final de uma palavra. Exemplo: info; casa com: paraninfo; etc.
Substring Padrão que deve ocorrer em qualquer lugar de uma palavra. Exemplo: Padrão: info; casa com: desinformado; paraninfo; informática; etc.
Permitindo Erros Padrão que corresponde a uma palavra; juntamente com um patamar de erros. Recupera palavras cujas escritas são similares à da palavra indicada. Similaridade: distância entre duas palavras; medida através do número mínimo de: inserções; remoções; e substituições.
Permitindo Erros Exemplo: Padrão: casa com: informação, permitindo 5 erros; casa com: informacao; desinformado; informática; etc.
Expressão Regular Corresponde a um padrão com operadores. Exemplos de operadores: * pode ser substituído por 0 ou mais caracteres; ? pode ser substituído por um caracter.
Expressão Regular
Consultas Estruturadas Exploram a estrutura dos documentos. Permitem combinar o conteúdo do documento; com sua estrutura. Permitem a especificação de consultas mais poderosas.