A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

Slides:



Advertisements
Apresentações semelhantes
Redes Windows.
Advertisements

Sistemas Distribuídos
Sistemas distribuídos Metas de Projeto Prof. Diovani Milhorim
Sistemas Distribuídos
Noções de Sistemas Operacionais
Sistemas operacionais
Aula 21/09/2011 Courouris, Dollimore, cap 10
Por Marcio Belo Mestrado em Computação PGCC/IC/UFF
Sistemas Distribuídos:Definições e Caracteristicas
Introdução Questões Básicas de Projeto Requisitos do Usuário
Computação Distribuída
Augusto César Ferreira Gustavo Demmer Marcela Santana Márcia Back
Sistemas de Arquivos Distribuídos
SISTEMAS DISTRIBUÍDOS
Andrew's File System1 Equipe: Allyson André Gustavo Antônio Neto Marcone Andrews File System.
Grid Anywhere Um Middleware Extensível para Grades Computacionais
Distributed Computing in Practice: The Condor Experience
QoS para Realidade Virtual
1 Sistemas Distribuídos - SDI Caracterização de Sistemas Distribuídos. Introdução. Exemplos de Sistemas Distribuídos. Desafios.
Tutorial Condor Juliano Freitas da Silva
Sistemas Operacionais de Rede
Grid Computing DCC/FCUP Inês Dutra sala: 1.31
Mobilidade Cláudia Ribeiro.
Sistemas Distribuídos
As topologia da rede.
Programação Distribuída e Paralela
Tópicos em redes e sistemas distribuídos B
Tópicos em redes e sistemas distribuídos
Sistemas Distribuídos
Arquitetura Cliente /Servidor
Cluster Beowulf.
Gerenciamento de Redes Utilizando Agentes Móveis
Sistemas Distribuídos
Simple Locality-Aware Co- allocation in Peer-to-Peer Supercomputing Felipe Jung Vilanova Rodrigo Gheller Luque.
FUNDAMENTOS DE REDES DE COMPUTADORES
Sistemas Operacionais
Sistemas Distribuídos Introdução. Conceito Coleção de múltiplos processos que executam sobre uma coleção de processadores autônomos interligados em uma.
Sistemas Distribuídos
Universidade de Mogi das Cruzes Tec
Introdução à Computação em Grade Porto Alegre, Maio/2006 Centro Nacional de Supercomputação CESUP/RS Realização: Projeto GradeUFRGS Material pertencente.
FTIN Formação Técnica em Informática Módulo Sistema Proprietário Windows AULA 04 Prof. André Lucio.
Processos.
Tópicos Especiais em Redes de Computadores 6º Semestre Aula 03 Prof
Definição um sistema de BD distribuído consistem em uma rede de várias ocorrências de bases de dados interligadas. característica principal para o usuário,
Sistemas Distribuidos
CONECTIVIDADE Prof.: Alessandro V. Soares Ferreira
Sistemas de Informação para Planejamento Estratégico Confiabilidade na Tecnologia.
Windows Server Versões Sistema de Arquivos Características Domínio
Tópicos Especiais em Redes de Computadores 6º Semestre Aula 04 Prof. Carlos Vinícius SERVIÇO NACIONAL DE APRENDIZAGEM COMERCIAL.
1 Gerenciamento de Recursos em Sistemas de Grande Escala Jeferson R. Marques Fabio Kon Departamento de Ciência da Computação IME-USP
Monarc Framework para Simulações Disciplina: Programação Distribuída e Paralela Alunos: Anderson Bestteti e Rafael Zancan Frantz Professor: Cláudio Fernando.
Condor Services for the Global Grid: Interoperability between Condor and OGSA Clovis Chapman et al Proceedings of the 2004 UK e-Science All Hands.
Computação Autônoma no InteGrade Raphael Y. de Camargo (IME-USP) Janeiro de 2004.
Active Directory Services Serviço de Diretório Ativo
Aula – Sistemas Operacionais
Roteiro Introdução Arquitetura Características Algoritmos de Escalonamento Tipos de Grades Projetos Aplicações Conclusão Perguntas Thiago Soares de Carvalho.
Introdução aos Sistemas Operacionais
Grades Computacionais Redes de Computadores II Thiago Soares de Carvalho Professores Luís Henrique M. K. Costa Otto Carlos M. B. Duarte 2007.
Tipos de Sistemas Operacionais
Active Directory Profa. Priscila Facciolli Sistemas Operacionais.
Sistemas Distribuídos
Arquitetura de computadores
Sistemas Distribuídos Nadilma Nunes Aula Inicial – Apresentação da disciplina.
SERVIDORES E SERVIÇOS Leandro Escobar 2009 SERVIDORES E SERVIÇOS.
Simple Network Management Protocol
Redes e Sistemas Distribuídos II – Cód Prof. MSc. Ronnison Reges Vidal.
Leandro Clementino Almeida.  Anos 50 - Sistemas Operacionais tipo Lote:  Aumentar a capacidade de processamento de programas  Usuário ia ao computador.
Banco de Dados Distribuídos Sílvia Cristina de Matos Soares
Sistema de Arquivos Distribuídos (SAD)- Características Serviços de nomes e diretórios Prof. Dr. Norian Marranghello Grupo 13 Guilherme Eberhart Jorge.
Sistemas Operacionais Distribuídos e/ou de Redes Engenharia da Computação – UCPEL Ritiele Moreira Aldeburg.
Transcrição da apresentação:

A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado por Nazareno

Aplicações Distribuídas - DSC/UFCG2 Roteiro Introdução Condor Flocking Resultados Conclusões

Aplicações Distribuídas - DSC/UFCG3 Introdução – o problema Computação científica e problemas compute-intensive; High-Throughput Computing (HTC) (diferente de High Performance Computing); Custo; Wait-While-Idle;

Aplicações Distribuídas - DSC/UFCG4 Introdução – a solução Necessidade do usuário << Capacidade da máquina; Posse distribuída; Em um cluster: Condor; Em diversos clusters:Flocks of Condors;

Aplicações Distribuídas - DSC/UFCG5 Condor Sistema distribuído de compartilhamento e gerência da carga de trabalho de processos compute- intensive em um pool de workstations conectadas;

Aplicações Distribuídas - DSC/UFCG6 Condor – diretivas de design 1.Quase nenhum impacto na disponibilidade e qualidade do serviço das estações para seus usuários; 2.Completamente responsável por localizar os recursos necessários para um processo e pela execução deste; 3.Sem necessidade de nenhuma programação especial e deve manter ambiente na máquina em que o processo executa;

Aplicações Distribuídas - DSC/UFCG7 Condor - estrutura Schedd Startd Máquina 1 Schedd Startd Máquina 2 Schedd Startd Máquina n-1 CENTRAL MANAGER (... ) LAN

Aplicações Distribuídas - DSC/UFCG8 Condor - funcionamento Stard –Inicia, monitora e encerra processos designados para esta estação; Schedd –Enfileira processos submetidos ao Condor nesta estação e busca os recursos para estes.

Aplicações Distribuídas - DSC/UFCG9 Condor - protocolo Schedd Solicitante CENTRAL MANAGER Startd Executora contexto de J contexto da máquina Faz um casamento entre o contexto de J e da Executora identificação de E Shadow fork requisitos de Jok, E Starter J J

Aplicações Distribuídas - DSC/UFCG10 Condor – protocolo A máquina que recebe o processo não avisa ao CM que não está mais disponível? Falhas –São tratadas transparentemente? –E falhas do CM?

Aplicações Distribuídas - DSC/UFCG11 Condor – outros aspectos Ambiente na máquina que executa é mantido: –Shadow; –Sistema de arquivos uniforme; Preempção –Prioridade total para o usuário da estação; –Checkpoints na máquina solicitante.

Aplicações Distribuídas - DSC/UFCG12 Flocking WWI entre pools; Novas diretivas: 4.A instalação e manutenção de quaisquer mecanismos adicionais deve ser fácil; 5.Adicionar e retirar um pool de um flock deve ser fácil; 6.Deve ser fácil definir acordos de compartilhamento de recursos entre os donos dos pools.

Aplicações Distribuídas - DSC/UFCG13 Flocking - acordos de compartilhamento Cooperação entre donos dos pools torna-se fundamental; Acordos de compartilhamento de recursos;

Aplicações Distribuídas - DSC/UFCG14 Flocking - design Unir pools X formar um bando (flocking): Centralização: –Centralização de controle; –Falta de escalabilidade; –Gargalo; Bando: –Isolamento de falhas; –Escalabilidade; –Distribuição da gerência (permissões, prioridades...).

Aplicações Distribuídas - DSC/UFCG15 Flocking – design Estrutura de bando centralizada X distribuída. Distribuída: –Escalabilidade; –Tolerância a falhas; –Distribuição da administração; P2P??

Aplicações Distribuídas - DSC/UFCG16 Flocking - design Estrutura integrada X em camadas; Integrada: –Modificação dos CMs; –Transparência; Em camadas: –Estrutura atual mantida; –Modularização;

Aplicações Distribuídas - DSC/UFCG17 Flocking - funcionamento Máquinas Gateway –GW–Schedd –GW-Startd : máquinas disponíveis em outro pool Um pool pode ter diversas, e cada uma pode se conectar a diversos pools; –Flock configuration file;

Aplicações Distribuídas - DSC/UFCG18 Flocking - funcionamento Schedd Solicitante CENTRAL MANAGER GW-Startd GW Contexto de uma máquina de outro pool contexto de J GW contexto de J Startd child Startd E CENTRAL MANAGER GW-Startd GW Shadow contexto de J E GW- Simulate Shadow OK,E J J

Aplicações Distribuídas - DSC/UFCG19 Flocking - escalonamento GW usa uma máquina aleatória de um pool para representar aquele pool; É impossível determinar a melhor máquina para representar o pool; Tudo, inclusive Checkpoints, fica transparente; ??

Aplicações Distribuídas - DSC/UFCG20 Flocking – outras considerações I/O na máquina solicitante não fica proibitivo na escala de WANs; Refinamentos no escalonamento ainda são necessários (?);

Aplicações Distribuídas - DSC/UFCG21 Resultados 1994: cerca de 250 estações em 5 países diferentes; Hoje: mais de 1000 máquinas no Flock da universidade. Jobs.HojeJobs Versão 6.2 –Integração com Globus (Condor-G);

Aplicações Distribuídas - DSC/UFCG22 Conclusões Estrutura robusta para execução e gerência de processos compute- intensive numa perspectiva de High Throughput Computing; Previsão de Flocks heterogêneos e globais;