A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 20011 ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.

Apresentações semelhantes


Apresentação em tema: "ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 20011 ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais."— Transcrição da apresentação:

1 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 20011 ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros Centro de Informática Universidade Federal de Pernambuco – Brasil

2 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 20012 Roteiro Motivação Sistema ActiveSearch Protótipo Experimentos Conclusão e Trabalhos Futuros

3 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 20013 Pesquisando na Web Sistemas de Indexação por palavras-chave Ex. Altavista, Google, Radix Consulta: palavras-chave como expressões booleanas Retornam grande quantidade de documentos irrelevantes, porém são robustos e genéricos Uma alternativa: Busca por documentos semelhantes ao visualizado pelo usuário

4 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 20014 ActiveSearch Objetivo: Encontrar documentos similares ao que o usuário está visualizando/editando no momento Trata diferentes formatos de documento: HTML, DOC, PDF Plataformas: MS Internet Explorer MS Word Netscape Navigator Processo de recuperação on-line baseado na análise do conteúdo dos documentos

5 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 20015 ActiveSearch em Uso

6 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 20016 Arquitetura Interface: Captura o documento que está sendo acessado Apresenta os documentos sugeridos ao usuário Aplicação 3 Aplicação 2 Aplicação 1 Conteúdo do Documento Pré-Processador de Documentos Representação Interna do Documento Atual em XML Meta-Busca Contrutor de Queries Buscador de Documentos Q uery Web LAN Diretórios Locais Bases de Documentos Ponteiros para Documentos Ponteiros dos Documentos Conteúdo dos Documentos Pós-Processador de Documentos Recuperador de Documentos Reordenador de Documentos Representação dos Documentos Lista Ordenada de Documentos 1 2 3 4 5 6

7 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 20017 Arquitetura Pré-processador de Documentos Traduz o documento atual para uma representação interna do documento em XML Módulo de Meta-Busca Seleciona os termos mais relevantes para criar uma query Realiza meta-buscas em diferentes bases de documentos Pós-processador de Documentos Recupera e reordena os documentos de acordo com o documento atual Algoritmo de similaridade utilizado: Vector Space

8 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 20018 Protótipo Busca por documentos semelhantes Ao que está sendo visualizado pelo usuário, OU A um trecho do documento selecionado pelo usuário  Drag and drop Implementado em Delphi 5.0 Usa tecnologia COM: Comunicação com outras aplicações  MS Word, MS Internet Explorer, etc

9 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 20019 1.Inicia busca a partir do documento da janela ativa 2.Busca por palavras-chave 3.Configura busca automática, tempo de busca, número de links de resultado 4.Cache das últimas buscas 5.Menu PopUp para escolher onde abrir o documento 6.Grau de similaridade com o documento do usuário 1 2 3 4 5 6 Protótipo: Interface

10 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 200110 Trabalhos Relacionados Alexa só trabalha com documentos HTML GoogleToolbar só trata documentos existentes em sua base de índices Kenjin baixa precisão

11 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 200111 Experimento: ActiveSearch vs. GoogleToolbar Nos testes realizados, os dois sistemas utilizaram a mesma base de documentos engenho de busca Google 30 páginas Web foram consultadas pelos dois sistemas Jornais, universidades, futebol, Projeto Genoma, etc. 9 primeiros links retornados foram avaliados como relevantes ou não Precisão obtida: ActiveSearch: 62% GoogleToolbar: 46%

12 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 200112 ActiveSearch: Conclusões Sistema modular para favorecer: Extensibilidade:  Manipulação de outros formatos de documento  Comunicação com outros aplicativos Reusabilidade:  Acoplamento a outros sistemas (como um plug-in) Provê meta-buscas a várias bases de documentos Reordena os documentos retornados através de um algoritmo baseado no modelo do Vector Space A precisão do protótipo foi 16 pontos percentuais superior à da GoogleToolbar

13 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 200113 Trabalhos Futuros Avaliação do sistema Usando um corpus maior Em Intranets e em diretórios locais Melhorar o formato da representação interna do documento Criar um perfil do usuário para melhorar a precisão do sistema

14 ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 200114 ActiveSearch Perguntas?


Carregar ppt "ENIA 2001/SBC 2001 - Fortaleza, CE 30/07 a 03/08 20011 ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais."

Apresentações semelhantes


Anúncios Google