Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouAurélio Raminhos Martins Alterado mais de 9 anos atrás
1
A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado por Nazareno
2
12.07.2002Aplicações Distribuídas - DSC/UFCG2 Roteiro Introdução Condor Flocking Resultados Conclusões
3
12.07.2002Aplicações Distribuídas - DSC/UFCG3 Introdução – o problema Computação científica e problemas compute-intensive; High-Throughput Computing (HTC) (diferente de High Performance Computing); Custo; Wait-While-Idle;
4
12.07.2002Aplicações Distribuídas - DSC/UFCG4 Introdução – a solução Necessidade do usuário << Capacidade da máquina; Posse distribuída; Em um cluster: Condor; Em diversos clusters:Flocks of Condors;
5
12.07.2002Aplicações Distribuídas - DSC/UFCG5 Condor Sistema distribuído de compartilhamento e gerência da carga de trabalho de processos compute- intensive em um pool de workstations conectadas;
6
12.07.2002Aplicações Distribuídas - DSC/UFCG6 Condor – diretivas de design 1.Quase nenhum impacto na disponibilidade e qualidade do serviço das estações para seus usuários; 2.Completamente responsável por localizar os recursos necessários para um processo e pela execução deste; 3.Sem necessidade de nenhuma programação especial e deve manter ambiente na máquina em que o processo executa;
7
12.07.2002Aplicações Distribuídas - DSC/UFCG7 Condor - estrutura Schedd Startd Máquina 1 Schedd Startd Máquina 2 Schedd Startd Máquina n-1 CENTRAL MANAGER (... ) LAN
8
12.07.2002Aplicações Distribuídas - DSC/UFCG8 Condor - funcionamento Stard –Inicia, monitora e encerra processos designados para esta estação; Schedd –Enfileira processos submetidos ao Condor nesta estação e busca os recursos para estes.
9
12.07.2002Aplicações Distribuídas - DSC/UFCG9 Condor - protocolo Schedd Solicitante CENTRAL MANAGER Startd Executora contexto de J contexto da máquina Faz um casamento entre o contexto de J e da Executora identificação de E Shadow fork requisitos de Jok, E Starter J J
10
12.07.2002Aplicações Distribuídas - DSC/UFCG10 Condor – protocolo A máquina que recebe o processo não avisa ao CM que não está mais disponível? Falhas –São tratadas transparentemente? –E falhas do CM?
11
12.07.2002Aplicações Distribuídas - DSC/UFCG11 Condor – outros aspectos Ambiente na máquina que executa é mantido: –Shadow; –Sistema de arquivos uniforme; Preempção –Prioridade total para o usuário da estação; –Checkpoints na máquina solicitante.
12
12.07.2002Aplicações Distribuídas - DSC/UFCG12 Flocking WWI entre pools; Novas diretivas: 4.A instalação e manutenção de quaisquer mecanismos adicionais deve ser fácil; 5.Adicionar e retirar um pool de um flock deve ser fácil; 6.Deve ser fácil definir acordos de compartilhamento de recursos entre os donos dos pools.
13
12.07.2002Aplicações Distribuídas - DSC/UFCG13 Flocking - acordos de compartilhamento Cooperação entre donos dos pools torna-se fundamental; Acordos de compartilhamento de recursos;
14
12.07.2002Aplicações Distribuídas - DSC/UFCG14 Flocking - design Unir pools X formar um bando (flocking): Centralização: –Centralização de controle; –Falta de escalabilidade; –Gargalo; Bando: –Isolamento de falhas; –Escalabilidade; –Distribuição da gerência (permissões, prioridades...).
15
12.07.2002Aplicações Distribuídas - DSC/UFCG15 Flocking – design Estrutura de bando centralizada X distribuída. Distribuída: –Escalabilidade; –Tolerância a falhas; –Distribuição da administração; P2P??
16
12.07.2002Aplicações Distribuídas - DSC/UFCG16 Flocking - design Estrutura integrada X em camadas; Integrada: –Modificação dos CMs; –Transparência; Em camadas: –Estrutura atual mantida; –Modularização;
17
12.07.2002Aplicações Distribuídas - DSC/UFCG17 Flocking - funcionamento Máquinas Gateway –GW–Schedd –GW-Startd : máquinas disponíveis em outro pool Um pool pode ter diversas, e cada uma pode se conectar a diversos pools; –Flock configuration file;
18
12.07.2002Aplicações Distribuídas - DSC/UFCG18 Flocking - funcionamento Schedd Solicitante CENTRAL MANAGER GW-Startd GW Contexto de uma máquina de outro pool contexto de J GW contexto de J Startd child Startd E CENTRAL MANAGER GW-Startd GW Shadow contexto de J E GW- Simulate Shadow OK,E J J
19
12.07.2002Aplicações Distribuídas - DSC/UFCG19 Flocking - escalonamento GW usa uma máquina aleatória de um pool para representar aquele pool; É impossível determinar a melhor máquina para representar o pool; Tudo, inclusive Checkpoints, fica transparente; ??
20
12.07.2002Aplicações Distribuídas - DSC/UFCG20 Flocking – outras considerações I/O na máquina solicitante não fica proibitivo na escala de WANs; Refinamentos no escalonamento ainda são necessários (?);
21
12.07.2002Aplicações Distribuídas - DSC/UFCG21 Resultados 1994: cerca de 250 estações em 5 países diferentes; Hoje: mais de 1000 máquinas no Flock da universidade. Jobs.HojeJobs Versão 6.2 –Integração com Globus (Condor-G);
22
12.07.2002Aplicações Distribuídas - DSC/UFCG22 Conclusões Estrutura robusta para execução e gerência de processos compute- intensive numa perspectiva de High Throughput Computing; Previsão de Flocks heterogêneos e globais;
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.