Cluster and Grid Computing

Slides:



Advertisements
Apresentações semelhantes
Sistemas Operacionais
Advertisements

Sistemas Operacionais Aula II
INTRODUÇÃO À COMPUTAÇÃO Sistemas Operacionais
Sistemas Operacionais
DESENVOLVIMENTO DE SISTEMAS PARA INTERNET
Sistemas Cliente/Servidor Introdução
Sistemas Operacionais - 4
Profa. Priscila Facciolli
Processos no Unix e Linux
{anolan, Gerenciando dinamicamente a execução de tarefas com uma linguagem interpretada {anolan,
Sistema para Gerenciamento de Redes Baseado em Agentes Móveis
Augusto César Ferreira Gustavo Demmer Marcela Santana Márcia Back
Distributed Computing in Practice: The Condor Experience
Rganização de Computadores Multiprocessadores Capítulo 9 – Patterson & Hennessy Organização de Computadores Multiprocessadores Capítulo 9 – Patterson &
Silberschatz and Galvin Operating System Concepts Unidade 1: Introdução O que é um sistema operacional? Systemas simples em lote (batch) Sistemas.
Daniel Paulo Introdução O tempo de resposta de um sistema é determinado pelo tempo que ele leva para retornar aos usuários às.
Daniel Paulo SQL Server 2008 Módulo III Daniel Paulo
Tutorial Condor Juliano Freitas da Silva
Red Hat Cluster Suite for RHEL 5.2
Grid Computing DCC/FCUP Inês Dutra sala: 1.47
Grid Computing DCC/FCUP Inês Dutra sala: 1.31
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa technology from seed L 2 F - Spoken Language Systems Laboratory.
1 Felipe L. SeverinoPOD XtremWeb Felipe L. Severino Programação com Objetos Distribuídos paralela e.
Rodrigo Cristiano Silva
Prof. Natalia Castro Fernandes Mestrado em Telecomunicações – UFF 2º semestre/2012.
Implantação de um Centro de Processamento de Alto Desempenho sobre recursos não-dedicados Andamento das atividades Abmar Barros.
Pedro Costa Computadores e Redes de Comunicação 1 Sistemas Operativos Baseado em: Andrew S. Tanenbaum. Modern Operating Systems, Prentice-Hall, 1992.
Tópicos em redes e sistemas distribuídos B
Sistema Operacional Processos
Chamada Remota de Procedimentos
Cluster Beowulf.
Soluções de TI seguras, integradas e continuadas H igh P erformance C omputing.
Escalonamento de Processos
Conteúdo Processos e threads Partes do processo
DCC/FCUP Grid Computing1 Exemplos de RMSs. DCC/FCUP Grid Computing2 NQE (Network Queue Environment)
Grid Computing DCC/FCUP Inês Dutra gab. 1.31
Introdução à Informática
Sistemas Operacionais
Modelo GRAND: Gerenciamento de Aplicações em Ambiente de Grade Patrícia Kayser Vargas Mangan
Sistemas Distribuídos Estrutura de Redes
(Aula complemento) – Parte 1
SISTEMAS OPERACIONAIS I
Computação L1: Infra-Estrutura Básica
Sistemas Operacionais
Introdução à Computação em Grade Porto Alegre, Maio/2006 Centro Nacional de Supercomputação CESUP/RS Realização: Projeto GradeUFRGS Material pertencente.
Sistemas Operacionais
Elementos de um Sistema de Agentes Móveis Agentes e Places Comportamento de Agentes Comunicação Padronização OMG/MASIF.
SISTEMAS OPERACIONAIS I
Sistemas Operacionais
Gerenciamento de redes Prof. Rafael Guimarães, PhD
MONITORAMENTO DE REDE E SERVIDORES UTILIZANDO O CACTIEZ E SNMP
S ISTEMAS OPERACIONAIS PROCESSOS Horácio Ribeiro.
Laboratório Módulo :00hs às 12:00hs – Sala O15
Escalonamento de Processos
FUNDAMENTOS DE COMPUTAÇÃO
Irei focar nos recursos que o WSRM tem para gerenciar ambientes com multiplos serviços em um mesmo servidor. Na primeira parte mostrarei o porque é importante.
A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado.
Monarc Framework para Simulações Disciplina: Programação Distribuída e Paralela Alunos: Anderson Bestteti e Rafael Zancan Frantz Professor: Cláudio Fernando.
Condor Services for the Global Grid: Interoperability between Condor and OGSA Clovis Chapman et al Proceedings of the 2004 UK e-Science All Hands.
Sistemas Operacionais Aula 2 Danielle Costa
Roteiro Introdução Arquitetura Características Algoritmos de Escalonamento Tipos de Grades Projetos Aplicações Conclusão Perguntas Thiago Soares de Carvalho.
Microsoft Students to Business
Daniel Paulo Introdução O tempo de resposta de um sistema é determinado pelo tempo que ele leva para retornar aos usuários às.
Sistemas Operacionais
Administração de Sistemas Operacionais Escola Técnica Estadual Maria Eduarda Ramos de Barros Curso Técnico em Redes de Computadores Professor Emerson Felipe.
CONTROL-M INFRAESTRUTURA
Estruturas de Sistemas Operacionais. Componentes Comuns do Sistema Administração de Processos Administração da Memória Principal Administração do Armazenamento.
SISTEMA DE TRANSITIVIDADE: PARTICIPANTES PROCESSOS CIRCUNSTÂNCIAS.
UNIVERSIDADE CATÓLICA DE PELOTAS CENTRO POLITÉCNICO CURSO DE CIÊNCIA DA COMPUTAÇÃO Redes de Computadores Ferramenta NTop (Network Traffic Probe) Explorador.
Curso Superior de Tecnologia em Redes de Computadores Projeto Integrador I Seminário Final Julio Borba SERVIÇO NACIONAL DE APRENDIZAGEM.
Transcrição da apresentação:

Cluster and Grid Computing

O que é um cluster? De forma geral, é um aglomerado de máquinas conectadas em uma rede local ou dedicadas NOWs (Network of Workstations) algumas vezes não são consideradas clusters No nosso contexto, consideraremos cluster como qq aglomerado de máquinas em rede local com serviços básicos de rede (ssh, nfs etc)

Clusters Nível de usuário: Nível de administração: políticas de utilização gerenciadores de recursos interface com o usuário Nível de administração: gerência de hardware gerência de software

O que é um grid? Um conjunto de clusters? Mais do que isso: Organização virtual que permite a aglomeração de recursos que estão distantes geograficamente Recursos podem ser: máquinas, dados, instrumentos etc

Grids Nível de usuário: Nível de administração (local e global): políticas de utilização gerenciadores de recursos locais Gerenciadores de recursos globais Monitoração Autenticação Certificação interface com o usuário Nível de administração (local e global): gerência de hardware gerência de software

Diffs

Por que Grid? Várias razões: Científicas Políticas Econômicas Sociais

Plataformas de computação paralela e distribuída Execução eficiente de aplicações intensivas em dados ou computação Tipos de ambientes: HPC (High Performance Computing) HTC (High Throughput Computing) Exs de apps HPC: meteorologia, processamento matemático em geral Exs de apps HTC: HEP, bioinformática, finanças etc

Tipos de plataformas IBM sp2, SGI Origin 2000 Beowulf clusters NQE High spped networks PBS Condor

Exemplos de RMSs

NQE (Network Queue Environment)

NQE snow FTA: File Transfer Agent NQS: Networking Queueing System ./prog.out FTA: File Transfer Agent NQS: Networking Queueing System

NQE user commands cevent  Posts, reads, and deletes job-dependency event information. cqdel  Deletes or signals to a specified batch request. cqstatl   Provides a line-mode display of requests and queues on a specified host cqsub  Submits a batch request to NQE. ftua  Transfers a file interactively (this command is issued on an NQE server only). ilb  Executes a load-balanced interactive command. nqe Provides a graphical user interface (GUI) to NQE functionality. Commands issued on an NQE server only: qalter  Alters the attributes of one or more NQS requests qchkpnt  Checkpoints an NQS request on a UNICOS, UNICOS/mk, or IRIX system qdel  Deletes or signals NQS requests qlimit  Displays NQS batch limits for the local host qmsg  Writes messages to stderr, stdout, or the job log file of an NQS batch request qping  Determines whether the local NQS daemon is running and responding to requests qstat  Displays the status of NQS queues, requests, and queue complexes qsub  Submits a batch request to NQS rft  Transfers a file in a batch request Fonte: http://techpubs.sgi.com/library/tpl/cgi-bin/getdoc.cgi?coll=0650&db=bks&fname=/SGI_Admin/NQE_AG/apa.html

SGE (Sun Grid Engine) Um único recurso pode desempenhar Mais de uma atividade

SGE Comandos similares aos do NQE Exemplo: g.job #!/bin/csh gaussian < testDFT.in To run: qsub –pe smp 4 –M ines@dcc.c.up.pt –m ae –r n g.job Ou...

SGE Arquivo g.job #!/bin/csh #$ -pe smp 4 #$ -M ines@dcc.c.up.pt #$ -m ae #$ -r n gaussian < testDFT.in To run: qsub g.job

SGE Usuário pode especificar requisitos (tipo de cpu, qtde de disco, memória etc) SGE registra a tarefa, requisitos e informação de controle (usuário, grupo, depto, data/hora de submissão etc) Possui um planejador de execução de tarefas Assim que uma fila fique disponível, SGE lança a execução de uma das tarefas que estão aguardando A tarefa com > prioridade ou > tempo de espera, segundo a configuração do planejador de tarefas Se houver várias filas dsponíveis escolhe a menos carregada Podem haver várias filas por cluster

SGE Políticas de planejamento: Baseada e tickets (Usuário) Qto + tickets um usuário tiver, > a sua prioriade Tickets são atribuídos de forma estática de acordo com a política de filas e prioridades atribuídos a cada usuário Baseada em urgência (tarefas) Hora limite para terminar a tarefa (que pode ser estipulada pelo usuário) Tempo de fila da tarefa Recursos requisitados Pesonalizada: permite a atribuição arbitrária de prioridade às tarefas (similar ao nice)

SGE Ciclo de vida de uma tarefa: Submissão Master armzena tarefa e informa planejador Planejador insere a tarefa na fila apropriada Master envia tarefa ao host correspondente Antes de executar, o daemon de execução: Troca para o diretório da tarefa Inicializa o ambiente (variáveis) Inicializa o conjunto de processadores Muda o uid para o uid do dono da tarefa Inicializa limites de recursos do processo Coleta info de contabilidade Ao terminar estes passos, armazena a tarefa à sua base de dados e espera que a tarefa termine Uma vez que a tarefa esteja terminada, avisa ao master e elimina a entrada da ase de dados.

SGE Alguns comandos: qconf: config do cluster qsub: submissão de tarefas qdel: eliminar tarefas qacct: estatísticas de utilização qhost: inspeciona estado dos hosts qstat: inspeciona estado das filas

SGE GUI

SGE GUI

Condor It is a specialized job and resource management system. It provides: Job management mechanism Scheduling Priority scheme Resource monitoring Resource management

Condor The user submits a job to an agent. The agent is responsible for remembering jobs in persistent storage while finding resources willing to run them. Agents and resources advertise themselves to a matchmaker, which is responsible for introducing potentially compatible agents and resources. At the agent, a shadow is responsible for providing all the details necessary to execute a job. At the resource, a sandbox is responsible for creating a safe execution environment for the job and protecting the resource from any mischief.

Condor Matchmaker ClassAds Plan of jobs job User Problem Solver Agent Resource claim Shadow Sandbox Details of the job Environment Job

Condor Gateway Flocking Gateway pass information about participants between pools, M(A) sends request to M(B) through gateways, M(B) returns a match

Condor Direct Flocking A also advertises to Condor Pool B

RMSs Cada um possui sua própria interface Não proporcionam integração Falta de interoperatividade Requerem habilidades específicas de administração Incrementam custos operacionais Geram sobre-aprovisionamento e desbalanceamento global de carga

Parte da infra-estrutura de produção