Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.

Slides:



Advertisements
Apresentações semelhantes
PortFacil Sistema de Suporte a Geréncia de Porfólio
Advertisements

PortFacil Sistema de Suporte a Geréncia de Porfólio
Aula T-09 – BCC202 Listas (Parte 1) Túlio Toffolo www. decom. ufop
VERIFICAÇÃO FORMAL DE BLOCOS COMPLEXOS
Amintas engenharia.
Amintas engenharia.
Sistemas distribuídos Metas de Projeto Prof. Diovani Milhorim
1 Programação Orientada aos COMponentes Quartas à Tarde no DEI 12 de Abril de 2000.
Agentes Cooperativos num ambiente dinâmico
Docente: Fernanda Pedro
Engenharia de Software
Visualização de Informação Geográfica na WEB
Protótipo de Simulador de Elevadores
UNIVERSIDADE LUTERANA DO BRASIL COMUNIDADE EVANGÉLICA LUTERANA SÃO PAULO Reconhecida pela Portaria Ministerial nº 681 de 07/12/89 – DOU de 11/12/89 Campus.
Ferramenta de aprovisionamento de redes de cliente
1 Gabriel David FEUP - Rua dos Bragas, Porto Codex - PORTUGAL Tel Fax: URL:
2 de Junho de 2005Conclusão1 Pedro Barahona DI/FCT/UNL Junho 2005.
1 Conclusão DI/FCT/UNL 1º Semestre 2004/ Ciclos de Simulação A técnica usada no exemplo da queda livre pode ser utilizada para trajectórias a duas.
1 Controlo e Aprendizagem Aula Teórico-Prática nº 1 Metodologia experimental Planificação das aulas Temas dos trabalhos de grupo Avaliação.
Multithreading e multiprocessamento
Metodologia Científica e Tecnológica
ENGENHARIA DE MÉTODOS Prof. Adolfo Sérgio Furtado da Silva
Modelos de Comunicação em Sistemas Distribuídos
Indice estruturado por Hash
Arquitetura de Sistemas Operacionais Francis Berenger Machado
Marco Picone, Michele Amoretti, and Francesco Zanichelli Department of Information Engineering, Univ. of Parma, Italy Manweek 2009 Apresentado por Julio.
GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.
Introdução a Teoria da Classificação
Administração para Engenharia
Planejamento estratégico
Capítulo 7 Multimídia 7.1 Introdução à multimídia
Prof. Alexander Roberto Valdameri
Fundamentos de Banco de Dados Prof. Alexander Roberto Valdameri
Aula 8 Orientação à Objetos
Aula 6 Subprogramas Universidade do Vale do Rio dos Sinos
Ambiente de simulação Os algoritmos previamente discutidos foram analisados usando um simulador de mobilidade. Ele modela uma cidade de 20 Km de raio,
Como Desenvolver Sistemas de Informação
Site de uma disciplina: um espaço de aprendizagem
1 Felipe L. SeverinoPDP Enhancing Grids for Massively Multiplayer Online Computer Games Felipe L. Severino Programação com Objetos Distribuídos paralela.
Davyd Bandeira de Melo Um Sistema de Reconhecimento de Comandos de Voz Utilizando a Rede Neural ELM Junho 2011.
Sistema de monitorização e controlo baseado em módulos Zigbee
Arquitectura de Computadores II
Disciplina: Multimídia Prof a. Leila Jane Brum Lage Sena Guimarães Transparências: Wilson de Pádua Paula Filho.
Porto Alegre, 29 de Junho de 2007 Porto Alegre, 29 de Junho de 2006 PROJETO DE INTERFACE PARA UM SISTEMA DE PROGRAMAÇÃO DE ROTAS DE CAMINHÕES DE UMA DISTRIBUIDORA.
Avaliação de um processador FemtoJava multiprocesso CMP502 – Sistemas Embarcados Leomar Soares da Rosa Junior Porto Alegre, março de 2003.
Object Oriented Software Construction (MEYER, Bertrand)
Adriano da Silva Castro
Laboratório de Técnicas Inteligentes - LTI Universidade de São Paulo – USP Escola Politécnica Laboratório de Técnicas Inteligentes – LTI SAURON Localização.
Compressão de Textos Juliano Palmieri Lage.
Sistema de Alimentação
ANÁLISE INSTRUMENTAL.
Salas de Matemática.
Ethos: Sistema Distribuído para Suporte ao Comitê de Ética em Pesquisa Autor: Rodrigo Stefani Domingues Orientador: Prof. Dr. Carlos M. T. Toledo Faculdade.
Sistemas Distribuídos
Gestão de Redes e Sistemas Distribuídos Teresa Maria Vazão Fevereiro 2003 IST/INESC Contactos:IST/Tagus-Park Tel:
Gestão de Redes e Sistemas Distribuídos Teresa Maria Vazão Julho 2005 Ferramentas de Gestão Plataformas de Gestão IST/INESC-ID Contactos: IST/Tagus-Park.
Momentos de Hu e Zernike para o Reconhecimento de Linguagem de Sinais
Fevereiro/ Resultado dos Projetos de Software Pesquisa Motivação.
Projeto de Banco de Dados
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Recuperação de Informação
Capítulo 1 Introdução 1.1 O que é um sistema operacional
Algoritmos Evolutivos Algoritmos Genéticos Introdução
Ceça Moraes – Introdução à Programação SI1
Processo de Aquisição Adilson de Almeida Cezar Meriguetti
Inferência Estatística
1 Segunda fase do projeto: Desenvolvimento do “Catálogo Virtual” Foco em Sistemas de Informação Desenvolvimento baseado no diagnóstico e na interação com.
Nome alunos 1 Título UC. Título – slide 2 Conteúdo Conteúdo 2.
Abr-17 Atividades, Artefatos e Responsáveis da Disciplina de Análise e Projeto Fluxo de análise e projeto.
Aula 11 - Teste de hipóteses, teste de uma proporção
Transcrição da apresentação:

Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia

2 Sumário 1. Introdução & Motivação 2. Contribuições da tese 3. Arquitectura do Webtrieve 4. Concretização do Webtrieve 5. Sobreposição 6. Fusão de Resultados 7. Selecção de BDs 8. Conclusões e Trabalho Futuro

3 Introdução & Motivação A utilização dum motor de busca faz ja parte do nosso quotidiano...várias vezes por dia! A popularidade dos MB traduz-se no aumento significativo de utilizadores & recursos (nº,diversidade) A solução distribuída é mais escalável, menos dispendiosa e por vezes a única possível Há muito trabalho feito e por fazer... Esta tese pretende ser uma contribuição

4 Contexto da tese BDT K BDT 2 BDT 1 EI BDT N BDT distribuída Cliente Espaços de Informação

5 Replicação em RI distribuída BD2 EI Cliente BD1 BD centralizada virtual Espaço de Informação 1 Espaço de Informação 2 Estática vs Dinâmica Coordenada e Não Coordenada Transparência da Replicação

6 Hipótese colocada Se a sobreposição entre as diferentes BDTs num sistema de busca distribuída for usada como parâmetro dos algoritmos de fusão de resultados e selecção de BDs consegue-se melhorar a eficácia da resposta devolvida ao utilizador.

7 Contribuições da tese Arquitectura para recuperação distribuída de informação concretizada num protótipo [ADL00] Estratégias de estimação da sobreposição [TR01] Informação de sobreposição usada em Algoritmo de fusão com melhoria de eficácia [ECDL00] Algoritmo de selecção com melhoria da eficácia [TR01] Referência de base para avaliar a selecção, considerando a sobreposição [TR01]

8 Arquitectura do Webtrieve EIcliente por lotes BD1BD2BDkBDm Alocador DS WWW Colecção de Documentos robot

9 Encaminhador de Interrogações Cliente Remoto Selector de BDs Engenho Fusão Sumários das BDs Cache Cliente BD1 Cliente BD2 Cliente BDk Cliente BDm I I1 I2 Ik R|Rc|Rs R R1 R2 Rk Rs Rc R Informação de sobreposição R1 R2 Rk

10 Alocador de documentos Simular distribuição e replicação não coordenada em ambiente Laboratorial Alocação aleatória com replicação Parâmetro de replicação (o) relacionado com número de cópias

11 Avaliação de desempenho Webtrieve Gerador de Actualizações Cliente por lotes Colecções TREC Curvas de Actualização Tópicos TREC Avaliação da Eficácia Avaliação de eficiência Documentos Curvas de tráfego Juízos de Relevância TREC Respostas Curvas de Eficiência Curvas de Precisão e Cobertura Logs actualização

12 Concretização do Webtrieve Baseado no Modelo do Espaço Vectorial Interface de interrogação STARTS Suporte apenas da língua inglesa Utilização do Java JavaCC para reconhecedores Abordagem dual para o Dicionário de Termos Suporte para actualizações incrementais Módulo de avaliação alinhada com o TREC Módulo inicial de avaliação da eficiência (HPROF)

13 Ciclo de vida duma fonte Início ColectadoReconhecido Alocado InvertidoIntercalado Dicionário Sumarizado A correr Avaliado Fim robotextractor alocador (cria N fontes filhos) pára inversor (com N sumários de filhos) intercalador inversor Espera sumários loader arrancar servidores clientes a lotes + avaliador sumarizador

14 Módulos Webtrieve

15 Dicionário de Termos Gestor do Dicionário Gestor de Buckets Gestor de Chunks Listas de Ocorrência em memória Ficheiro de Buckets Ficheiro de Chunks Actualização Pedido de Lista de ocorrência Listas de ocorrência curtas Listas de ocorrência longas

16 Fusão de Resultados: o problema

17 Fusão de Resultados: métodos existentes RI centralizado (eq.100% sobreposição) Motivação: estratégias de RI diferentes para aumentar a eficácia Várias lógicas de fusão: SUM, MAX, MIN,... RI distribuído (~ 0% sobreposição) Motivação: transparência da distribuição (Sistema RI centralizado ) Várias lógicas de fusão: intercalação simples ou ponderada

18 Fusão de Resultados: método proposto Nível de sobreposição esperado: % Itens duplicados usados como pontos de referência Comparabilidade de funções de pontuação Motivação aumentar a eficácia usando a informação de sobreposição Estratégia utilizada Respostas sobrepostas por nível descrescente de sobreposição Lógica convencional de fusão para itens duplicados Aproximação linear para itens únicos Intercalação de resultados disjuntos

19 Comparação das lógicas

20 Comparação das lógicas

21 Selecção de BDTs: o problema Problema: dada uma interrogação I que pretende n documentos como resposta e N Bases de Dados com documentos Seleccionar as l (l<<N) BDs com os n documentos mais relevantes Determinar quantos documentos ri devem ser devolvidos por cada BDi tal que se obtenha um total de n.

22 Selecção de BTDs: abordagem utilizada Proposto um método de selecção baseado no MEV Pressuposto: termos distribuem-se pelos documentos da colecção de acordo com distribuição normal cuja média e desvio padrão são exportados nos sumários Resultados comparáveis a outros algoritmos da literatura É necessária mais informação e avaliação exaustiva Avaliação da utilização da informação de sobreposição usando um método de selecção bem conhecido na literatura (CORI) Resultados encorajadores mesmo usando estimação de sobreposição estática

23 Selecção de BDTs: Métricas Métricas utilizadas Precisão Cobertura ou Recall Cobertura alternativa ou n - nº de BDs interrogadas Referências de base RBR (Relevance Based Ranking) SBR (Size Based Ranking) Referência de base proposta ORBR (Overlapping Relevance Based Ranking)

24 CORI: Precisão

25 CORI: Recall

26 CORI: Recall alternativo

27 Conclusões Bancada Webtrieve Sistema completo para recuperação distribuída da informação textual Concretização de um protótipo em Java Hipótese comprovada Propostos novos algoritmos de fusão e selecção que usam informação de sobreposição obtenção de melhoria da eficácia mesmo com estimação grosseira da sobreposição dinâmica na selecção (usando a sobreposição estática).

28 Sobreposição Variações da sobreposição estática < 1% dinâmica de 20% A sobreposição estática Útil em casos extremos para aumentar eficiência na fusão Usada como parâmetro na selecção Amostra aleatória das diferentes BDTs Permite estimação da sobreposição dinâmica Custos partilhados com expansão de interrogações

29 Fusão de Resultados Sem as estatísticas de ocorrência dos termos da interrogação nos documentos devolvidos pelas diferentes BDTs Não é possível repontuação dos documentos em tempo útil Utilização de documentos replicados como pontos de referência Melhorias de 30% eficácia da fusão relativamente às lógicas convencionais Melhoram com aumento de sobreposição Pioram com número de BDTs

30 Selecção de BDTs Algoritmo baseado na distribuição normal dos termos pelos documentos Resultados da ordem de grandeza dos usados convencionalmente Sumários exportados com mais informação Utilização da informação de Sobreposição Reformulação de métricas de avaliação para considerar a sobreposição (ORBR) Melhoria não significativa da eficácia em algoritmo bem conhecidos (CORI) Selecção depende mais da variância da sobreposição do que sua média

31 Trabalho Futuro Passo decisivo: interpretação e processamento do vídeo Abordada apenas a eficácia dos sistemas de RI distribuída...Falta: Expansão de interrogações, realimentação de relevância Utilização da meta-informação para redução do espaço pesquisa Utilização do XML

32 Trabalho Futuro Migração para o Web Concretização dum Robot WWW para larga escala Cliente WWW mais amigável Interface WWW para gestão Utilização das hiperligações na RI distribuída Alocação e Replicação Técnicas de alocação e replicação baseadas no conteúdo Replicação para balanceamento de carga e tolerância a faltas