A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.

Apresentações semelhantes


Apresentação em tema: "A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado."— Transcrição da apresentação:

1 A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado por Nazareno

2 12.07.2002Aplicações Distribuídas - DSC/UFCG2 Roteiro Introdução Condor Flocking Resultados Conclusões

3 12.07.2002Aplicações Distribuídas - DSC/UFCG3 Introdução – o problema Computação científica e problemas compute-intensive; High-Throughput Computing (HTC) (diferente de High Performance Computing); Custo; Wait-While-Idle;

4 12.07.2002Aplicações Distribuídas - DSC/UFCG4 Introdução – a solução Necessidade do usuário << Capacidade da máquina; Posse distribuída; Em um cluster: Condor; Em diversos clusters:Flocks of Condors;

5 12.07.2002Aplicações Distribuídas - DSC/UFCG5 Condor Sistema distribuído de compartilhamento e gerência da carga de trabalho de processos compute- intensive em um pool de workstations conectadas;

6 12.07.2002Aplicações Distribuídas - DSC/UFCG6 Condor – diretivas de design 1.Quase nenhum impacto na disponibilidade e qualidade do serviço das estações para seus usuários; 2.Completamente responsável por localizar os recursos necessários para um processo e pela execução deste; 3.Sem necessidade de nenhuma programação especial e deve manter ambiente na máquina em que o processo executa;

7 12.07.2002Aplicações Distribuídas - DSC/UFCG7 Condor - estrutura Schedd Startd Máquina 1 Schedd Startd Máquina 2 Schedd Startd Máquina n-1 CENTRAL MANAGER (... ) LAN

8 12.07.2002Aplicações Distribuídas - DSC/UFCG8 Condor - funcionamento Stard –Inicia, monitora e encerra processos designados para esta estação; Schedd –Enfileira processos submetidos ao Condor nesta estação e busca os recursos para estes.

9 12.07.2002Aplicações Distribuídas - DSC/UFCG9 Condor - protocolo Schedd Solicitante CENTRAL MANAGER Startd Executora contexto de J contexto da máquina Faz um casamento entre o contexto de J e da Executora identificação de E Shadow fork requisitos de Jok, E Starter J J

10 12.07.2002Aplicações Distribuídas - DSC/UFCG10 Condor – protocolo A máquina que recebe o processo não avisa ao CM que não está mais disponível? Falhas –São tratadas transparentemente? –E falhas do CM?

11 12.07.2002Aplicações Distribuídas - DSC/UFCG11 Condor – outros aspectos Ambiente na máquina que executa é mantido: –Shadow; –Sistema de arquivos uniforme; Preempção –Prioridade total para o usuário da estação; –Checkpoints na máquina solicitante.

12 12.07.2002Aplicações Distribuídas - DSC/UFCG12 Flocking WWI entre pools; Novas diretivas: 4.A instalação e manutenção de quaisquer mecanismos adicionais deve ser fácil; 5.Adicionar e retirar um pool de um flock deve ser fácil; 6.Deve ser fácil definir acordos de compartilhamento de recursos entre os donos dos pools.

13 12.07.2002Aplicações Distribuídas - DSC/UFCG13 Flocking - acordos de compartilhamento Cooperação entre donos dos pools torna-se fundamental; Acordos de compartilhamento de recursos;

14 12.07.2002Aplicações Distribuídas - DSC/UFCG14 Flocking - design Unir pools X formar um bando (flocking): Centralização: –Centralização de controle; –Falta de escalabilidade; –Gargalo; Bando: –Isolamento de falhas; –Escalabilidade; –Distribuição da gerência (permissões, prioridades...).

15 12.07.2002Aplicações Distribuídas - DSC/UFCG15 Flocking – design Estrutura de bando centralizada X distribuída. Distribuída: –Escalabilidade; –Tolerância a falhas; –Distribuição da administração; P2P??

16 12.07.2002Aplicações Distribuídas - DSC/UFCG16 Flocking - design Estrutura integrada X em camadas; Integrada: –Modificação dos CMs; –Transparência; Em camadas: –Estrutura atual mantida; –Modularização;

17 12.07.2002Aplicações Distribuídas - DSC/UFCG17 Flocking - funcionamento Máquinas Gateway –GW–Schedd –GW-Startd : máquinas disponíveis em outro pool Um pool pode ter diversas, e cada uma pode se conectar a diversos pools; –Flock configuration file;

18 12.07.2002Aplicações Distribuídas - DSC/UFCG18 Flocking - funcionamento Schedd Solicitante CENTRAL MANAGER GW-Startd GW Contexto de uma máquina de outro pool contexto de J GW contexto de J Startd child Startd E CENTRAL MANAGER GW-Startd GW Shadow contexto de J E GW- Simulate Shadow OK,E J J

19 12.07.2002Aplicações Distribuídas - DSC/UFCG19 Flocking - escalonamento GW usa uma máquina aleatória de um pool para representar aquele pool; É impossível determinar a melhor máquina para representar o pool; Tudo, inclusive Checkpoints, fica transparente; ??

20 12.07.2002Aplicações Distribuídas - DSC/UFCG20 Flocking – outras considerações I/O na máquina solicitante não fica proibitivo na escala de WANs; Refinamentos no escalonamento ainda são necessários (?);

21 12.07.2002Aplicações Distribuídas - DSC/UFCG21 Resultados 1994: cerca de 250 estações em 5 países diferentes; Hoje: mais de 1000 máquinas no Flock da universidade. Jobs.HojeJobs Versão 6.2 –Integração com Globus (Condor-G);

22 12.07.2002Aplicações Distribuídas - DSC/UFCG22 Conclusões Estrutura robusta para execução e gerência de processos compute- intensive numa perspectiva de High Throughput Computing; Previsão de Flocks heterogêneos e globais;


Carregar ppt "A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado."

Apresentações semelhantes


Anúncios Google