AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org
Agenda Contexto: OurGrid e sua Gerência. Desafios de Gerência de Grades. Nossa proposta: AutoMan. Avaliação. Lições Aprendidas. Conclusões e Trabalhos Futuros.
Contexto: OurGrid Grade computacional entre-pares. Fácil Implantação. Inexistência de negociação para a entrada de novos pares. Recursos ociosos Poder computacional. Mecanismo de incentivo: Rede de Favores Não apresenta uma solução para gerência de seus componentes.
OurGrid CorePeer User Agent MyGrid Peer
Gerência do OurGrid Um Administrador Um ou vários sites. Checar todas as máquinas e serviços do(s) site(s). Reativar máquinas e serviços falhos.
Cenário de Gerência: Caso LSD Administradores só estão disponíveis em horário de expediente. Se a falha ocorrer à noite, feriado ou fim de semana?
Desafios da Gerência de Grades Demanda grande esforço Gerência de grades é muito ampla Recursos heterogêneos Domínios diferentes Escalablidade Alta disponibilidade Exige-se profissionais especializados para mantê-lo e que estejam sempre disponíveis.
Solução Proposta Mínimo de intervenção humana. Ajudar administradores. Tentar prover disponibilidade 24/7. Desenvolver uma arquitetura de gerência e monitoração automática que: 8
AutoMan Sistema de Monitoração e Gerência. Facilitar a gerência do OurGrid. Baseado nas atividades comuns de gerência dos administratores. Agentes AutoMan Monitores Agregador de dados ( Aggregator ) Analisador e atuador ( Leukocyte )
Monitores Sensores JMX Monitoração hierárquica Serviços ( instrumentação do código ) UserAgent CorePeer Peer Máquinas ( Ganglia ) Carga: CPU, memória. Espaço em disco. JMX Monitoração hierárquica
Aggregator Armazenamento Consulta Publish-subscribe
Leukocyte Diagnosticar ( Detector) Resolver ( Effector ) Analiza as métricas Resolver ( Effector ) Script – ssh Reativar um serviço Limpar /tmp Inscreve-se em certas métricas.
Arquitetura AutoMan Monitor percebe o Peer saiu do ar Envia uma métrica PeerDown para o Aggregator Arquitetura AutoMan Aggregator armazena a métrica e envia para os interessados JMX PeerDown RMI interessado (PeerDown) Interessados inscrevem-se nas métricas Agregador de dados Aggregator JMX PeerDown O Peer está ativo novamente!!! RMI interessado (PeerDown) Monitores Analisador e atuador Leukocyte JMX PeerDown ssh Ssh(PeerUp) Leukocyte analiza (Detector) a métrica recebida e toma uma ação (Effector)
Avaliação Experimental Medindo o Overhead do AutoMan Indisponibilidade dos serviços OurGrid com e sem o AutoMan
Medindo o Overhead do AutoMan Ferramenta que captura o tempo de execução de um Job. Ambiente controlado. OurGrid com e sem a monitoração. Método T-Test para verificar se a diferença é significativa. Overhead 1,86% em um intervalo de confiança de 95%.
Indisponibilidade dos serviços OurGrid com e sem o AutoMan Entidades avaliadas com e sem AutoMan: Peer, Worker e CorePeer. Indisponibilidade: Contornável: falhas do serviço. Inevitável: máquina é desligada ou está em um SO que o serviço não está instalado. Ferramenta que coleta os intervalos de indisponibilidade a partir dos logs do OurGrid e do Nagios.
Indisponibilidade dos serviços OurGrid com e sem o AutoMan Entidade Indisponibilidade Média Sem AutoMan ( unidade de tempo) Com AutoMan Worker 6.198 s ~2 horas 600 s = 10 min Peer 29.237 s ~8 horas 0 s CorePeer 4.719 s ~1h30 min 103 s ~2 min
Lições Aprendidas Cuidado com arquivos de configuração: É muito fácil introduzir erros nesses arquivos. Não assuma que o software que está sendo monitorado está livre de bugs. Gerência Automática não substitui totalmente a gerência manual. Mecanismos de recuperação devem ser escolhidos cuidadosamente.
Conclusões O AutoMan incorpora monitoração e gerência automática ao OurGrid sem introduzir perdas de desempenho consideráveis. Aumento da disponibilidade da grade OurGrid. Torna o OurGrid ainda mais amigável. Arquitetura que pode ser reutilizada em outros sistemas distribuídos.
Trabalhos Futuros Substituir o uso do SSH como mecanismo de recuperação para mecanismos como CDDLM ou SmartFrog. Substituir mecanismo de troca de menssagens JMX (RMI) para um orientado a arquitetura, JIC. Separar completamente o código de gerência (POA).
Projeto OurGrid UFCG/HP Projeto OurGrid LSD/UFCG/HP www.ourgrid.org Celso Brennand celso@ourgrid.org Obrigado!!!
AutoMan: Gerência Automática no OurGrid Celso Brennand Marco Spohn Alvaro Coelho Ayla Dantas Francisco Brasileiro Gustavo Pereira David Candeia Guilherme Germoglio Flavio Santos