A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

AutoMan: Gerência Automática no OurGrid

Apresentações semelhantes


Apresentação em tema: "AutoMan: Gerência Automática no OurGrid"— Transcrição da apresentação:

1 AutoMan: Gerência Automática no OurGrid
Celso Brennand

2 Agenda Contexto: OurGrid e sua Gerência.
Desafios de Gerência de Grades. Nossa proposta: AutoMan. Avaliação. Lições Aprendidas. Conclusões e Trabalhos Futuros.

3 Contexto: OurGrid Grade computacional entre-pares. Fácil Implantação.
Inexistência de negociação para a entrada de novos pares. Recursos ociosos Poder computacional. Mecanismo de incentivo: Rede de Favores Não apresenta uma solução para gerência de seus componentes.

4 OurGrid CorePeer User Agent MyGrid Peer

5 Gerência do OurGrid Um Administrador Um ou vários sites.
Checar todas as máquinas e serviços do(s) site(s). Reativar máquinas e serviços falhos.

6 Cenário de Gerência: Caso LSD
Administradores só estão disponíveis em horário de expediente. Se a falha ocorrer à noite, feriado ou fim de semana?

7 Desafios da Gerência de Grades
Demanda grande esforço Gerência de grades é muito ampla Recursos heterogêneos Domínios diferentes Escalablidade Alta disponibilidade Exige-se profissionais especializados para mantê-lo e que estejam sempre disponíveis.

8 Solução Proposta Mínimo de intervenção humana. Ajudar administradores.
Tentar prover disponibilidade 24/7. Desenvolver uma arquitetura de gerência e monitoração automática que: 8

9 AutoMan Sistema de Monitoração e Gerência.
Facilitar a gerência do OurGrid. Baseado nas atividades comuns de gerência dos administratores. Agentes AutoMan Monitores Agregador de dados ( Aggregator ) Analisador e atuador ( Leukocyte )

10 Monitores Sensores JMX Monitoração hierárquica
Serviços ( instrumentação do código ) UserAgent CorePeer Peer Máquinas ( Ganglia ) Carga: CPU, memória. Espaço em disco. JMX Monitoração hierárquica

11 Aggregator Armazenamento Consulta Publish-subscribe

12 Leukocyte Diagnosticar ( Detector) Resolver ( Effector )
Analiza as métricas Resolver ( Effector ) Script – ssh Reativar um serviço Limpar /tmp Inscreve-se em certas métricas.

13 Arquitetura AutoMan Monitor percebe o Peer saiu do ar
Envia uma métrica PeerDown para o Aggregator Arquitetura AutoMan Aggregator armazena a métrica e envia para os interessados JMX PeerDown RMI interessado (PeerDown) Interessados inscrevem-se nas métricas Agregador de dados Aggregator JMX PeerDown O Peer está ativo novamente!!! RMI interessado (PeerDown) Monitores Analisador e atuador Leukocyte JMX PeerDown ssh Ssh(PeerUp) Leukocyte analiza (Detector) a métrica recebida e toma uma ação (Effector)

14 Avaliação Experimental
Medindo o Overhead do AutoMan Indisponibilidade dos serviços OurGrid com e sem o AutoMan

15 Medindo o Overhead do AutoMan
Ferramenta que captura o tempo de execução de um Job. Ambiente controlado. OurGrid com e sem a monitoração. Método T-Test para verificar se a diferença é significativa. Overhead 1,86% em um intervalo de confiança de 95%.

16 Indisponibilidade dos serviços OurGrid com e sem o AutoMan
Entidades avaliadas com e sem AutoMan: Peer, Worker e CorePeer. Indisponibilidade: Contornável: falhas do serviço. Inevitável: máquina é desligada ou está em um SO que o serviço não está instalado. Ferramenta que coleta os intervalos de indisponibilidade a partir dos logs do OurGrid e do Nagios.

17 Indisponibilidade dos serviços OurGrid com e sem o AutoMan
Entidade Indisponibilidade Média Sem AutoMan ( unidade de tempo) Com AutoMan Worker 6.198 s ~2 horas 600 s = 10 min Peer s ~8 horas 0 s CorePeer 4.719 s ~1h30 min 103 s ~2 min

18 Lições Aprendidas Cuidado com arquivos de configuração:
É muito fácil introduzir erros nesses arquivos. Não assuma que o software que está sendo monitorado está livre de bugs. Gerência Automática não substitui totalmente a gerência manual. Mecanismos de recuperação devem ser escolhidos cuidadosamente.

19 Conclusões O AutoMan incorpora monitoração e gerência automática ao OurGrid sem introduzir perdas de desempenho consideráveis. Aumento da disponibilidade da grade OurGrid. Torna o OurGrid ainda mais amigável. Arquitetura que pode ser reutilizada em outros sistemas distribuídos.

20 Trabalhos Futuros Substituir o uso do SSH como mecanismo de recuperação para mecanismos como CDDLM ou SmartFrog. Substituir mecanismo de troca de menssagens JMX (RMI) para um orientado a arquitetura, JIC. Separar completamente o código de gerência (POA).

21 Projeto OurGrid UFCG/HP
Projeto OurGrid LSD/UFCG/HP Celso Brennand Obrigado!!!

22 AutoMan: Gerência Automática no OurGrid
Celso Brennand Marco Spohn Alvaro Coelho Ayla Dantas Francisco Brasileiro Gustavo Pereira David Candeia Guilherme Germoglio Flavio Santos


Carregar ppt "AutoMan: Gerência Automática no OurGrid"

Apresentações semelhantes


Anúncios Google