A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

NLPKE/SCM 20011 ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais Eduardo Silva, Frederico Fernandes,

Apresentações semelhantes


Apresentação em tema: "NLPKE/SCM 20011 ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais Eduardo Silva, Frederico Fernandes,"— Transcrição da apresentação:

1 NLPKE/SCM ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros Centro de Informática Universidade Federal de Pernambuco – Brasil

2 NLPKE/SCM Roteiro Motivação Sistema ActiveSearch Arquitetura Protótipo Experimentos Conclusão Trabalhos Futuros

3 NLPKE/SCM Pesquisando na Web Sistemas de Indexação por palavras-chave Ex. Altavista, Google, Radix Consulta: palavras-chave como expressões booleanas Retornam grande quantidade de documentos irrelevantes, porém são robustos e genéricos Uma alternativa: Busca por documentos semelhantes ao visualizado pelo usuário Sistemas existentes Alexa: só trabalha com documentos HTML GoogleToolbar: só trata documentos existentes em sua base de índices Kenjin: baixa precisão

4 NLPKE/SCM ActiveSearch Objetivo: Encontrar documentos similares ao que o usuário está visualizando/editando no momento Trata diferentes formatos de documento: HTML, DOC, PDF Plataformas: MS Internet Explorer MS Word Netscape Navigator Processo de recuperação on-line baseado na análise do conteúdo dos documentos

5 NLPKE/SCM ActiveSearch in use

6 NLPKE/SCM Architecture Application 3 Application 2 Application 1 Documents content Documents pre-processor Documents internal representation in XML Meta-search Queries constructor Documents searcher Q uery Web LAN Local directories Documents base Pointers to documents Documents content Documents Post-processor Documents retriever Documents reorganizer Documents representation List of reordered documents

7 NLPKE/SCM Arquitetura -excluir Pré-processador de Documentos Traduz o documento atual para uma representação interna do documento em XML Módulo de Meta-Busca Seleciona os termos mais relevantes para criar uma query Realiza meta-buscas em diferentes bases de documentos Pós-processador de Documentos Recupera e reordena os documentos de acordo com o documento atual Algoritmo de similaridade utilizado: Vector Space

8 NLPKE/SCM Protótipo Busca por documentos semelhantes Ao que está sendo visualizado pelo usuário, OU A um trecho do documento selecionado pelo usuário Drag and drop Implementado em Delphi 5.0 Usa tecnologia COM: Comunicação com outras aplicações MS Word, MS Internet Explorer, etc

9 NLPKE/SCM Starts the search from the document in the active window 2. Starts a keyword-based search 3.Configures the automatic search: - searches time interval, number of returned links, used search engine 4.Cache with previous searches 5. PopUp Menu to decide where to open the returned documents 6.Similarity degree between the returned document and the current one Prototype: Interface

10 NLPKE/SCM Experimento: ActiveSearch vs. GoogleToolbar Nos testes realizados, os dois sistemas utilizaram a mesma base de documentos engenho de busca Google 30 páginas Web foram consultadas pelos dois sistemas Jornais, universidades, futebol, Projeto Genoma, etc. 9 primeiros links retornados foram avaliados como relevantes ou não Precisão obtida: ActiveSearch: 62% GoogleToolbar: 46%

11 NLPKE/SCM ActiveSearch: Conclusões Sistema modular para favorecer: Extensibilidade: Manipulação de outros formatos de documento Comunicação com outros aplicativos Reusabilidade: Acoplamento a outros sistemas (como um plug-in) Provê meta-buscas a várias bases de documentos Reordena os documentos retornados através de um algoritmo baseado no modelo do Vector Space A precisão do protótipo foi 16 pontos percentuais superior à da GoogleToolbar

12 NLPKE/SCM Trabalhos Futuros Avaliação do sistema Usando um corpus maior Em Intranets e em diretórios locais Melhorar o formato da representação interna do documento Criar um perfil do usuário para melhorar a precisão do sistema


Carregar ppt "NLPKE/SCM 20011 ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais Eduardo Silva, Frederico Fernandes,"

Apresentações semelhantes


Anúncios Google