Ontologias para Melhorar Precisão e Cobertura de Buscas na Web Flávia Barros, Pedro Gonçalves e Thiago Santos Departamento de Informática Universidade Federal de Pernambuco Recife - PE SEMISH’98
Buscas na Web O que queremos? O que temos: O que fazer? Mecanismos de Busca na Web (search engines) que ofereçam: precisão e boa cobertura (recall) nas buscas funcionamento transparente para o usuário flexibilidade na busca O que temos: Mecanismos de busca gerais com: boa cobertura, porém baixa precisão pouca transparência e flexibilidade. O que fazer? _____________________________ F. Barros, P. Gonçalves e T. Santos
Contexto para Buscas Classificação em Hierarquias de conceitos problemas: transparência e flexibilidade e.g., Yahoo!, Cadê, Lycos Buscas “conceituais” problemas: precisão e transparência e.g., AltaVista, Excite! cursos de violoncelo - violino Problema central: como associar contexto às buscas na Web com transparência e flexibilidade? _____________________________ F. Barros, P. Gonçalves e T. Santos
Ontologias! Hierarquias de conceitos. Em Filosofia: Teoria Ontológica estudo do que existe no mundo Em IA: Engenharia Ontológica especificação das classes (conceitos), objetos e suas relações em um dado domínio Taxonomia do domínio _____________________________ F. Barros, P. Gonçalves e T. Santos
Nossas Ontologias Seguimos o trabalho da Engenharia Ontológica observando que nosso domínio é irrestrito (a Web) Nossas ontologias são grafos cíclicos dirigidos onde: nós representam conceitos contêm palavras-chave e URL-exemplos arcos representam relações semânticas “frouxas” e.g., “é um“, especialização, parte-de, grupo, conceito composto ciclos não são problema: o grafo é dirigido não classificamos URLs na ontologia. _____________________________ F. Barros, P. Gonçalves e T. Santos
... Exemplo de Ontologia filme, diretor, Cannes, .. Teatro Cinema: http://www.cinemas.br Entretenimento Especialização Especialização Teatro Cinema Tem Tem programação grupo ... Segunda Terça Quarta _____________________________ F. Barros, P. Gonçalves e T. Santos
Ontologias para contextualizar consultas Nossas Ontologias: Hierarquias de conceitos dinâmicas que não classificam a priori as páginas indexadas e sim, auxiliam na construção do contexto da busca. Contexto da busca: Construído pelo usuário a partir das ontologias do sistema. Reflete a estrutura conceitual de cada consulta à Web favorecendo o aumento da precisão e da cobertura nas buscas. _____________________________ F. Barros, P. Gonçalves e T. Santos
Exemplo:
Nossa Abordagem Conceitos nas ontologias: Três classes: descritos por palavras semanticamente relacionadas que podem ser selecionadas individualmente. Três classes: (1) sinônimos => cobertura macaxeira OR aipim problema: difíceis de achar mesa, cadeira, parede ??? tesauros (2) restrição ou especialização => precisão esporte de campo AND futebol (3) expansão ou generalização => cobertura Roland Garros OR campeonato de tênis _____________________________ F. Barros, P. Gonçalves e T. Santos
Um Framework para Gerenciar Ontologias Framework para Gerenciar Ontologias (OMF) é um plug in que pode ser conectado a diferentes mecanismos de busca é independente da língua usada Critérios básicos para o sistema: modularidade e reusabilidade engenharia de software escalabilidade sistemas de informação para a Web transparência e flexibilidade interfaces em geral _____________________________ F. Barros, P. Gonçalves e T. Santos
Arquitetura do Sistema
As Ontologias As Ontologias são criadas e mantidas pelo Módulo de Manutenção de Ontologias: uma Ontologia Pública, compartilhada por todos os usuários do sistema diversas Ontologias Privadas, criadas e mantidas por cada usuário em sua própria área Ontologia pública (genérica) => sistema Ontologias privadas (domínios especializados) => usuário _____________________________ F. Barros, P. Gonçalves e T. Santos
Interface do Sistema
Trabalhos Relacionados Uma solução para aumentar a precisão nas buscas: classificar a página segundo alguma ontologia disponível na Web usando tags HTML especiais SHOE = Simple HTML Ontology Extension) GDA = Global Document Annotation Maiores problemas: até o momento, não existe um sistema único de tags universalmente aceito. os bancos de índices limitam-se às páginas marcadas com as tags especiais de cada sistema. _____________________________ F. Barros, P. Gonçalves e T. Santos
Considerações Finais Seguimos os critérios básicos estabelecidos: modularidade na arquitetura favorecendo portabilidade e reusabilidade transparência nas consultas o usuário determina o contexto de cada consulta flexibilidade no uso do sistema como um todo: acesso a diferentes mecanismos de busca construção de contextos dinamicamente o usuário constrói suas próprias ontologias que podem ser adicionadas à ontologia pública o framework é independente da Língua O exemplo apresentado demonstrou uma melhoria de 30% pela expansão da consulta inicial. _____________________________ F. Barros, P. Gonçalves e T. Santos
Trabalhos Futuros Atualmente estamos desenvolvendo o Módulo de Manutenção de Ontologias. Próximos passos: desenvolver o mecanismo para criação e uso das ontologias privadas testar o framework com usuários reais _____________________________ F. Barros, P. Gonçalves e T. Santos