A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.

Apresentações semelhantes


Apresentação em tema: "Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia."— Transcrição da apresentação:

1

2 Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

3 2 Sumário 1. Introdução & Motivação 2. Contribuições da tese 3. Arquitectura do Webtrieve 4. Concretização do Webtrieve 5. Sobreposição 6. Fusão de Resultados 7. Selecção de BDs 8. Conclusões e Trabalho Futuro

4 3 Introdução & Motivação A utilização dum motor de busca faz ja parte do nosso quotidiano...várias vezes por dia! A popularidade dos MB traduz-se no aumento significativo de utilizadores & recursos (nº,diversidade) A solução distribuída é mais escalável, menos dispendiosa e por vezes a única possível Há muito trabalho feito e por fazer... Esta tese pretende ser uma contribuição

5 4 Contexto da tese BDT K BDT 2 BDT 1 EI BDT N BDT distribuída Cliente Espaços de Informação

6 5 Replicação em RI distribuída BD2 EI Cliente BD1 BD centralizada virtual Espaço de Informação 1 Espaço de Informação 2 Estática vs Dinâmica Coordenada e Não Coordenada Transparência da Replicação

7 6 Hipótese colocada Se a sobreposição entre as diferentes BDTs num sistema de busca distribuída for usada como parâmetro dos algoritmos de fusão de resultados e selecção de BDs...... consegue-se melhorar a eficácia da resposta devolvida ao utilizador.

8 7 Contribuições da tese Arquitectura para recuperação distribuída de informação concretizada num protótipo [ADL00] Estratégias de estimação da sobreposição [TR01] Informação de sobreposição usada em Algoritmo de fusão com melhoria de eficácia [ECDL00] Algoritmo de selecção com melhoria da eficácia [TR01] Referência de base para avaliar a selecção, considerando a sobreposição [TR01]

9 8 Arquitectura do Webtrieve EIcliente por lotes BD1BD2BDkBDm Alocador DS WWW Colecção de Documentos robot

10 9 Encaminhador de Interrogações Cliente Remoto Selector de BDs Engenho Fusão Sumários das BDs Cache Cliente BD1 Cliente BD2 Cliente BDk Cliente BDm I I1 I2 Ik R|Rc|Rs R R1 R2 Rk Rs Rc R Informação de sobreposição R1 R2 Rk

11 10 Alocador de documentos Simular distribuição e replicação não coordenada em ambiente Laboratorial Alocação aleatória com replicação Parâmetro de replicação (o) relacionado com número de cópias

12 11 Avaliação de desempenho Webtrieve Gerador de Actualizações Cliente por lotes Colecções TREC Curvas de Actualização Tópicos TREC Avaliação da Eficácia Avaliação de eficiência Documentos Curvas de tráfego Juízos de Relevância TREC Respostas Curvas de Eficiência Curvas de Precisão e Cobertura Logs actualização

13 12 Concretização do Webtrieve Baseado no Modelo do Espaço Vectorial Interface de interrogação STARTS Suporte apenas da língua inglesa Utilização do Java JavaCC para reconhecedores Abordagem dual para o Dicionário de Termos Suporte para actualizações incrementais Módulo de avaliação alinhada com o TREC Módulo inicial de avaliação da eficiência (HPROF)

14 13 Ciclo de vida duma fonte Início ColectadoReconhecido Alocado InvertidoIntercalado Dicionário Sumarizado A correr Avaliado Fim robotextractor alocador (cria N fontes filhos) pára inversor (com N sumários de filhos) intercalador inversor Espera sumários loader arrancar servidores clientes a lotes + avaliador sumarizador

15 14 Módulos Webtrieve

16 15 Dicionário de Termos Gestor do Dicionário Gestor de Buckets Gestor de Chunks Listas de Ocorrência em memória Ficheiro de Buckets Ficheiro de Chunks Actualização Pedido de Lista de ocorrência Listas de ocorrência curtas Listas de ocorrência longas

17 16 Fusão de Resultados: o problema

18 17 Fusão de Resultados: métodos existentes RI centralizado (eq.100% sobreposição) Motivação: estratégias de RI diferentes para aumentar a eficácia Várias lógicas de fusão: SUM, MAX, MIN,... RI distribuído (~ 0% sobreposição) Motivação: transparência da distribuição (Sistema RI centralizado ) Várias lógicas de fusão: intercalação simples ou ponderada

19 18 Fusão de Resultados: método proposto Nível de sobreposição esperado: 0-100 % Itens duplicados usados como pontos de referência Comparabilidade de funções de pontuação Motivação aumentar a eficácia usando a informação de sobreposição Estratégia utilizada Respostas sobrepostas por nível descrescente de sobreposição Lógica convencional de fusão para itens duplicados Aproximação linear para itens únicos Intercalação de resultados disjuntos

20 19 Comparação das lógicas

21 20 Comparação das lógicas

22 21 Selecção de BDTs: o problema Problema: dada uma interrogação I que pretende n documentos como resposta e N Bases de Dados com documentos Seleccionar as l (l<<N) BDs com os n documentos mais relevantes Determinar quantos documentos ri devem ser devolvidos por cada BDi tal que se obtenha um total de n.

23 22 Selecção de BTDs: abordagem utilizada Proposto um método de selecção baseado no MEV Pressuposto: termos distribuem-se pelos documentos da colecção de acordo com distribuição normal cuja média e desvio padrão são exportados nos sumários Resultados comparáveis a outros algoritmos da literatura É necessária mais informação e avaliação exaustiva Avaliação da utilização da informação de sobreposição usando um método de selecção bem conhecido na literatura (CORI) Resultados encorajadores mesmo usando estimação de sobreposição estática

24 23 Selecção de BDTs: Métricas Métricas utilizadas Precisão Cobertura ou Recall Cobertura alternativa ou n - nº de BDs interrogadas Referências de base RBR (Relevance Based Ranking) SBR (Size Based Ranking) Referência de base proposta ORBR (Overlapping Relevance Based Ranking)

25 24 CORI: Precisão

26 25 CORI: Recall

27 26 CORI: Recall alternativo

28 27 Conclusões Bancada Webtrieve Sistema completo para recuperação distribuída da informação textual Concretização de um protótipo em Java Hipótese comprovada Propostos novos algoritmos de fusão e selecção que usam informação de sobreposição obtenção de melhoria da eficácia mesmo com estimação grosseira da sobreposição dinâmica na selecção (usando a sobreposição estática).

29 28 Sobreposição Variações da sobreposição estática < 1% dinâmica de 20% A sobreposição estática Útil em casos extremos para aumentar eficiência na fusão Usada como parâmetro na selecção Amostra aleatória das diferentes BDTs Permite estimação da sobreposição dinâmica Custos partilhados com expansão de interrogações

30 29 Fusão de Resultados Sem as estatísticas de ocorrência dos termos da interrogação nos documentos devolvidos pelas diferentes BDTs Não é possível repontuação dos documentos em tempo útil Utilização de documentos replicados como pontos de referência Melhorias de 30% eficácia da fusão relativamente às lógicas convencionais Melhoram com aumento de sobreposição Pioram com número de BDTs

31 30 Selecção de BDTs Algoritmo baseado na distribuição normal dos termos pelos documentos Resultados da ordem de grandeza dos usados convencionalmente Sumários exportados com mais informação Utilização da informação de Sobreposição Reformulação de métricas de avaliação para considerar a sobreposição (ORBR) Melhoria não significativa da eficácia em algoritmo bem conhecidos (CORI) Selecção depende mais da variância da sobreposição do que sua média

32 31 Trabalho Futuro Passo decisivo: interpretação e processamento do vídeo Abordada apenas a eficácia dos sistemas de RI distribuída...Falta: Expansão de interrogações, realimentação de relevância Utilização da meta-informação para redução do espaço pesquisa Utilização do XML

33 32 Trabalho Futuro Migração para o Web Concretização dum Robot WWW para larga escala Cliente WWW mais amigável Interface WWW para gestão Utilização das hiperligações na RI distribuída Alocação e Replicação Técnicas de alocação e replicação baseadas no conteúdo Replicação para balanceamento de carga e tolerância a faltas


Carregar ppt "Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia."

Apresentações semelhantes


Anúncios Google