A Distributed Algorithm for Determining the Provenance of Data Paul T. Groth Information Sciences Institute University of Southern California

Slides:



Advertisements
Apresentações semelhantes
Sistemas distribuídos Metas de Projeto Prof. Diovani Milhorim
Advertisements

Noções de Sistemas Operacionais
Visualização de Imagens HDR
Ambientes de Computação Empresarial e Avaliação de Custos
Augusto César Ferreira Gustavo Demmer Marcela Santana Márcia Back
1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de.
The OptIPuter.
SISTEMAS DISTRIBUÍDOS
Concepts and Capabilities
1 Simulação baseada em multiagentes – aplicação em educação O processo de simulação significa dirigir o modelo de um sistema com entradas satisfatórias.
Tutorial Condor Juliano Freitas da Silva
Experiments with Strassen’s Algorithm: from sequential to parallel
Threads.
Uma visão geral Grupo: Alexandre Henrique Vieira Soares
Configuração de manutenção
YADFS Yet Another Distributed File System
Para a comunicação em redes de computadores, muitas vezes, apenas um subconjunto das ligações disponíveis é utilizado para comunicar em qualquer tempo.
Distributed Data-Parallel Computing Using a High-Level Programming Language TL1 – Programação com Objetos Distribuídos.
Redundant Array of Independent Drives Raid
SISTEMAS OPERACIONAIS
Metodologia da Pesquisa em Ciência da Computação - INE – Luís Fernando Custódio Seminário de Metodologia GPU em Ambientes Compartilhados.
Cluster Beowulf.
MapReduce Conceitos e Aplicações
Montagem e Manutenção de Computador I
Soluções de TI seguras, integradas e continuadas H igh P erformance C omputing.
1 My GRID: Bio-informática personalizada em uma grade de informação. Francisco Silva
Técnico em Informática
Simple Locality-Aware Co- allocation in Peer-to-Peer Supercomputing Felipe Jung Vilanova Rodrigo Gheller Luque.
Computing on large scale distributed systems: experience of the XtremWeb project CMP-157 PROGRAMAÇÃO PARALELA E DISTRIBUÍDA Prof. Cláudio Fernando Resin.
Sistema Operacional FreeBSD.
Introdução à Informática
Modelo GRAND: Gerenciamento de Aplicações em Ambiente de Grade Patrícia Kayser Vargas Mangan
BD Distribuído Conceitos Iniciais.
Universidade de Mogi das Cruzes Tec
Augusto Martins e José Luís Zem Universidade Metodista de Piracicaba - UNIMEP Curso de Bacharelado em Sistemas de Informação Utilização de Cluster de Computadores.
SISTEMAS OPERACIONAIS I
Introdução à Computação em Grade Porto Alegre, Maio/2006 Centro Nacional de Supercomputação CESUP/RS Realização: Projeto GradeUFRGS Material pertencente.
Sistemas Operacionais
Simulação distribuída e paralela Gabriel Baracuhy Thiago Martins.
Sistemas de Informação
Tópicos Especiais em Redes de Computadores 6º Semestre Aula 03 Prof
Sistemas Distribuidos
Registradores.
1 / 27 Trabalho Final de PDP – SimGrid: apresentação e aplicação de exemplo Carlos Eduardo Benevides Bezerra Programação distribuída e paralela O Simulador.
Um Sistema Peer-to- Peer para Armazenamento Distribuído de Arquivos Daniel Mauricio Sthor Lauro Luis Costa Lucas Nascimento Ferreira Departamento de Informática.
SISTEMAS OPERACIONAIS MACH EPOS
A High Performance Java Middleware with a Real Application HUERT, Fabrice; CAROMEL, Denis; Bal, Henri E. Supercomputing 2004 Trabalho desenvolvido por:
Value type-based smart proxies: a concept for adaptable distributed applications Markus Aleksy, Ralf Gitzel ACM International Conference Proceeding Series;
1 Gerenciamento de Recursos em Sistemas de Grande Escala Jeferson R. Marques Fabio Kon Departamento de Ciência da Computação IME-USP
Programming Pervasive and Mobile Computing Applications: the TOTA Approach MARCO MAMEI e FRANCO ZAMBONELLI Universit`a di Modena e Reggio Emilia Apresentado.
Infra-Estrutura para Computação Distribuída
Multilayer Failure Detection Method for Network Services Based on Distributed Components Eisuke Hirota, Kazuhiko Kinoshita, Hideki Tode, Koso Murakami,
Gustavo Romano Humberto Gomes PPGC - PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS DA COMPUTAÇÃO INSTITUTO DE INFORMÁTICA.
FORMI Integrating Adaptive Fragments Objects into Java RMI Kapitza, Rüdiger; Domaschka, Jörg; Hauck, Franz J.; Reiser, Hans P. ;Schmidt, Holger. IEEE Distributed.
Condor Services for the Global Grid: Interoperability between Condor and OGSA Clovis Chapman et al Proceedings of the 2004 UK e-Science All Hands.
A Multilayer P2P Framework for Distributed Synchronous Collaboration Fernando Abrahão Afonso Leonardo Kunz Programação com Objetos Distribuídos Trabalho.
Distributed Data-Parallel Computing Using a High-Level Programming Language TL1 Programação com Objetos Distribuídos Claiton Luiz Vieira Lisboa.
Mestrando Gabriel G. Detoni Orientador Prof. Dante Barone Controle para Futebol de Robôs Utilizando Processamento Paralelo Seminário de Andamento.
Scalable Grid Application Scheduling via Decoupled Resource Selection and Scheduling VLADIMIR GUERREIRO Publicado em: IEEE International Symposium, 2006.
Serviços de rede e internet Jackson Eduardo da Silva.
Tipos de Sistemas Operacionais
Professora Michelle Luz
Banco de Dados Distribuídos Sílvia Cristina de Matos Soares
Sistema Operacional NACHOS Luciano Gamba da Silva.
Engenharia de Sistemas (Lato Sensu) Victor Costa de Alemão Cisneiros Hudson Ramos Aracaju/SE COMPARAÇÃO ENTRE SERVIDORES WEB APACHE HTTP SERVER E NGINX.
Projeto do CBPF Grid SSOLAR Bruno Lima Felipe da Matta Roberto Kishi Thagor Baiocco Tiago Olimpio
Escalonamento de Operações de Reconfiguração Dinâmica Mestrado Integrado em Engenharia Eletrotécnica e de Computadores Aluno: Ricardo Ferreira Orientador:
Escalonamento e Execução de Workflows Científicos em Ambientes Multi-cluster ERAD-SP 2011 – Fórum de pós- graduação Silvio Luiz Stanzani.
Curso Superior de Tecnologia em Redes de Computadores TCC Seminário de Andamento Aluno: Julio Borba Orientador: Carlos Vinícius SERVIÇO NACIONAL DE APRENDIZAGEM.
Cluster Claudio Cavalcante. Cluster Nome dado a um sistema que relaciona dois ou mais computadores para que estes trabalhem de maneira conjunta no intuito.
Transcrição da apresentação:

A Distributed Algorithm for Determining the Provenance of Data Paul T. Groth Information Sciences Institute University of Southern California Instituto de Informática da UFRGS PDP 2010/2 – Seminários Apresentado por Gabriel Simões

A Distributed Algorithm for Determining the Provenance of Data Apresentado e publicado em:

Referência Completa Groth, P.T.;, "A Distributed Algorithm for Determining the Provenance of Data," eScience, eScience '08. IEEE Fourth International Conference on, vol., no., pp , 7-12 Dec doi: /eScience

O Problema Ajudar os cientistas na identificação da proveniência de dados gerados por experimentos produzidos in-silco em ambientes paralelos com vastos volumes de dados.

O Problema Proveniência – do francês provenir, significa a origem ou a fonte de algo, ou a história da propriedade ou a localização de um objeto. O termo foi originalmente usado principalmente para obras de arte, mas agora é usado em sentidos semelhantes em uma ampla gama de campos, incluindo a ciência e a computação. Fonte: Wikipedia

Contextualizando o D-PQuery Arquitetura – Um workflow Condor DAGMan – Funciona sobre logs gerados com Kickstart, utilizado em muitas experimentações e-Science. Experimentação – Utilizou arquivos gerados pela aplicação Montage.

Condor Condor é um software de código-fonte aberto de alta capacidade de computação e de alta granularidade de paralelização computacional de tarefas intensivas e distribuídas. Pode ser usado para gerenciar a carga de trabalho em um cluster dedicado de computadores e/ou para a distribuição cooperativa. Condor roda em Linux, Unix, Mac OS X, FreeBSD e Windows. Condor pode integrar ambos os recursos dedicados e não-dedicados. Fonte: Wikipedia

Condor DAGMan DAGMan (Directed Acyclic Graph Manager) é um meta-escalonador do Condor. Ele gerencia dependências entre tarefas em um nível mais elevado do que o escalonador do Condor. Fonte:

Montage Ele tem sido usado para gerar mosaicos a partir de dados divulgados pelo Telescópio Espacial Spitzer, o telescópio espacial Hubble, o Satélite Astronômico Infravermelho (IRAS), o Midcourse Space Experiment (MSX), o Sloan Digital Sky Survey (SDSS), e no solo telescópios como o National Optical Astronomy Observatories 4M (NOAO) e o telescópio William Herschel 4M. Fonte:

D-PQuery Workflow Fonte: extraído do próprio artigo.

Procedimento para transformar dados de entrada em DGraphs Translate – Executa em paralelo, com base no número de arquivos de entrada. – Entrada Informações de proveniência, D 1...n (Logs Kickstart). – Saída Um DGraph descrevendo as relações de proveniência. Cada arquivo gera um DGraph. Um DGraph é parte de um DAG (directed acyclic graph). Neste Trabalho, um DAG é formado por n DGraphs.

Procedimento para filtrar entradas estranhas ao grafo Fonte: extraído do próprio artigo.

Processo para a travessia de um grafo Fonte: extraído do próprio artigo.

Procedimento para consolidação do Grafo Consolidate – Continua enquanto novos filhos forem emitidos por Traverse. – O procedimento de consolidação é a simples união dos filhos produzidos por cada Traversal.

Procedimento para aparar os DGraphs Pare – Após a consolidação de cada DGraph, as entradas estranhas são removidas. – Todos os vértices onde a propriedade keep = false são removidas. – O conjunto de DGraphs pode ser consolidado.

Processo para fusão de grafos Fonte: extraído do próprio artigo.

Implementação – O núcleo foi implementado com scripts em Python – Os scripts foram combinados em um workflow Condor DAGMan – O workflow pode ser escalonado em qualquer site remoto que suporte Globus

Experimento 1 – Utilizou um conjunto de grafos criados randomicamente – A idéia de utilizar grafos randômicos seria simular o pior caso, já que foram definidas muito mais arestas do que as encontradas em grafos gerados por aplicações típicas – Os algoritmos fora executados de maneira serial. No entanto, foram consideradas medidas alternativas para simular o paralelismo. – Não considerou troca de mensagens

Experimento 1

Experimento 2 – Paralelo, implementado como um Condor DAG – Utilizou como entrada 5.8MB (408 registros) de dados gerados pela aplicação Montage. – Estes 408 registros foram divididos progressivamente em arquivos, mantendo sempre a mesma quantidade de dados. – O experimento buscou encontrar a proveniência de uma imagem em particular. – Executado sobre um cluste linux com 7 nodos (5 processadores, 1 controle e 1 storage). – Executado 4 vezes, exibindo como resultado a média.

Experimento 2

Conclusão Atualmente, as aplicações e-Science armazenam dados de proveniência e diversos locais diferentes. Cada vez mais a complexidade para lidar com estes dados aumenta. D-Pquery é o primeiro algoritmo distribuído implementado sobre o sistema Condor.

Trabalhos Futuros Converter o procedimento de Tradução para trabalhar com logs Netlog. Tornar o algoritmo compatível com OPM (Open Provenance Model), permitindo consultas através de múltiplos sistemas de proveniência.

Avaliações 1.Motivação e Estado-da-Arte: 5 2.Problemas a resolver e Modelo: 4 3.Protótipo, Resultados e Comparação com Trabalhos Relacionados: 2 4.Redação e Formatação: 5