A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros

Apresentações semelhantes


Apresentação em tema: "Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros"— Transcrição da apresentação:

1 ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros Centro de Informática Universidade Federal de Pernambuco – Brasil NLPKE/SCM 2001

2 Roteiro Motivação Sistema ActiveSearch Arquitetura Protótipo
Experimentos Conclusão Trabalhos Futuros NLPKE/SCM 2001

3 Pesquisando na Web Sistemas de Indexação por palavras-chave
Ex. Altavista, Google, Radix Consulta: palavras-chave como expressões booleanas Retornam grande quantidade de documentos irrelevantes, porém são robustos e genéricos Uma alternativa: Busca por documentos semelhantes ao visualizado pelo usuário Sistemas existentes Alexa: só trabalha com documentos HTML GoogleToolbar: só trata documentos existentes em sua base de índices Kenjin: baixa precisão NLPKE/SCM 2001

4 ActiveSearch Objetivo: Trata diferentes formatos de documento:
Encontrar documentos similares ao que o usuário está visualizando/editando no momento Trata diferentes formatos de documento: HTML, DOC, PDF Plataformas: MS Internet Explorer MS Word Netscape Navigator Processo de recuperação on-line baseado na análise do conteúdo dos documentos NLPKE/SCM 2001

5 ActiveSearch in use NLPKE/SCM 2001

6 Architecture 2 1 Application 1 3 Application 2 5 Application 3 6 4
Document’s internal representation in XML Document’s content 2 Document’s pre-processor Meta-search Queries constructor Documents searcher Query 1 Application 3 Application 2 Application 1 Web LAN Local directories Documents base Document’s Post-processor Pointers to documents 3 Interface Documents retriever 5 Documents’ content Documents’ representation 6 Documents reorganizer List of reordered documents 4 Pointers to documents NLPKE/SCM 2001

7 Arquitetura -excluir Pré-processador de Documentos
Traduz o documento atual para uma representação interna do documento em XML Módulo de Meta-Busca Seleciona os termos mais relevantes para criar uma query Realiza meta-buscas em diferentes bases de documentos Pós-processador de Documentos Recupera e reordena os documentos de acordo com o documento atual Algoritmo de similaridade utilizado: Vector Space NLPKE/SCM 2001

8 Protótipo Busca por documentos semelhantes Implementado em Delphi 5.0
Ao que está sendo visualizado pelo usuário, OU A um trecho do documento selecionado pelo usuário Drag and drop Implementado em Delphi 5.0 Usa tecnologia COM: Comunicação com outras aplicações MS Word, MS Internet Explorer, etc NLPKE/SCM 2001

9 Prototype: Interface 1 2 3 4 5 6 1.Starts the search from the document in the active window 2. Starts a keyword-based search 3.Configures the automatic search: - searches time interval, number of returned links, used search engine 4.Cache with previous searches 5. PopUp Menu to decide where to open the returned documents 6.Similarity degree between the returned document and the current one NLPKE/SCM 2001

10 Experimento: ActiveSearch vs. GoogleToolbar
Nos testes realizados, os dois sistemas utilizaram a mesma base de documentos engenho de busca Google 30 páginas Web foram consultadas pelos dois sistemas Jornais, universidades, futebol, Projeto Genoma, etc. 9 primeiros links retornados foram avaliados como relevantes ou não Precisão obtida: ActiveSearch: 62% GoogleToolbar: 46% NLPKE/SCM 2001

11 ActiveSearch: Conclusões
Sistema modular para favorecer: Extensibilidade: Manipulação de outros formatos de documento Comunicação com outros aplicativos Reusabilidade: Acoplamento a outros sistemas (como um plug-in) Provê meta-buscas a várias bases de documentos Reordena os documentos retornados através de um algoritmo baseado no modelo do Vector Space A precisão do protótipo foi 16 pontos percentuais superior à da GoogleToolbar NLPKE/SCM 2001

12 Trabalhos Futuros Avaliação do sistema
Usando um corpus maior Em Intranets e em diretórios locais Melhorar o formato da representação interna do documento Criar um perfil do usuário para melhorar a precisão do sistema NLPKE/SCM 2001


Carregar ppt "Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros"

Apresentações semelhantes


Anúncios Google