A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

AutoMan: Gerência Automática no OurGrid Celso Brennand

Apresentações semelhantes


Apresentação em tema: "AutoMan: Gerência Automática no OurGrid Celso Brennand"— Transcrição da apresentação:

1 AutoMan: Gerência Automática no OurGrid Celso Brennand

2 2 Agenda Contexto: OurGrid e sua Gerência. Desafios de Gerência de Grades. Nossa proposta: AutoMan. Avaliação. Lições Aprendidas. Conclusões e Trabalhos Futuros.

3 3 Contexto: OurGrid Grade computacional entre-pares. Fácil Implantação. Inexistência de negociação para a entrada de novos pares. Recursos ociosos Poder computacional. Mecanismo de incentivo: Rede de Favores Não apresenta uma solução para gerência de seus componentes.

4 4 OurGrid MyGrid Peer User Agent User Agent CorePeer

5 5 Gerência do OurGrid Um Administrador Um ou vários sites. Checar todas as máquinas e serviços do(s) site(s). Reativar máquinas e serviços falhos.

6 6 Cenário de Gerência: Caso LSD Administradores só estão disponíveis em horário de expediente. Se a falha ocorrer à noite, feriado ou fim de semana?

7 7 Desafios da Gerência de Grades Demanda grande esforço Gerência de grades é muito ampla Recursos heterogêneos Domínios diferentes Escalablidade Alta disponibilidade Exige-se profissionais especializados para mantê-lo e que estejam sempre disponíveis.

8 8 Solução Proposta Mínimo de intervenção humana. Ajudar administradores. Tentar prover disponibilidade 24/7. Desenvolver uma arquitetura de gerência e monitoração automática que:

9 9 AutoMan Sistema de Monitoração e Gerência. Facilitar a gerência do OurGrid. Baseado nas atividades comuns de gerência dos administratores. Agentes AutoMan –Monitores –Agregador de dados ( Aggregator ) –Analisador e atuador ( Leukocyte )

10 10 Monitores Sensores –Serviços ( instrumentação do código ) UserAgent CorePeer Peer –Máquinas ( Ganglia ) Carga: CPU, memória. Espaço em disco. JMX Monitoração hierárquica

11 11 Aggregator Armazenamento Consulta Publish-subscribe

12 12 Leukocyte Diagnosticar ( Detector) –Analiza as métricas Resolver ( Effector ) –Script – ssh –Reativar um serviço –Limpar /tmp Inscreve-se em certas métricas.

13 13 Arquitetura AutoMan Interessados inscrevem-se nas métricas Monitor percebe o Peer saiu do ar Envia uma métrica PeerDown para o Aggregator JMX PeerDown Aggregator armazena a métrica e envia para os interessados JMX PeerDown JMX PeerDown ssh Ssh(PeerUp) Leukocyte analiza (Detector) a métrica recebida e toma uma ação (Effector) O Peer está ativo novamente!!! Monitores Agregador de dados Aggregator Agregador de dados Aggregator Analisador e atuador Leukocyte Analisador e atuador Leukocyte RMI interessado (PeerDown) RMI interessado (PeerDown)

14 14 Avaliação Experimental Medindo o Overhead do AutoMan Indisponibilidade dos serviços OurGrid com e sem o AutoMan

15 15 Medindo o Overhead do AutoMan Ferramenta que captura o tempo de execução de um Job. Ambiente controlado. OurGrid com e sem a monitoração. Método T-Test para verificar se a diferença é significativa. Overhead 1,86% em um intervalo de confiança de 95%.

16 16 Indisponibilidade dos serviços OurGrid com e sem o AutoMan Entidades avaliadas com e sem AutoMan: –Peer, Worker e CorePeer. Indisponibilidade: –Contornável: falhas do serviço. –Inevitável: máquina é desligada ou está em um SO que o serviço não está instalado. Ferramenta que coleta os intervalos de indisponibilidade a partir dos logs do OurGrid e do Nagios.

17 17 Indisponibilidade dos serviços OurGrid com e sem o AutoMan EntidadeIndisponibilidade Média Sem AutoMan ( unidade de tempo) Indisponibilidade Média Com AutoMan ( unidade de tempo) Worker s ~2 horas 600 s = 10 min Peer s ~8 horas 0 s CorePeer s ~1h30 min 103 s ~2 min

18 18 Lições Aprendidas Cuidado com arquivos de configuração: –É muito fácil introduzir erros nesses arquivos. Não assuma que o software que está sendo monitorado está livre de bugs. Gerência Automática não substitui totalmente a gerência manual. Mecanismos de recuperação devem ser escolhidos cuidadosamente.

19 19 Conclusões O AutoMan incorpora monitoração e gerência automática ao OurGrid sem introduzir perdas de desempenho consideráveis. Aumento da disponibilidade da grade OurGrid. Torna o OurGrid ainda mais amigável. Arquitetura que pode ser reutilizada em outros sistemas distribuídos.

20 20 Trabalhos Futuros Substituir o uso do SSH como mecanismo de recuperação para mecanismos como CDDLM ou SmartFrog. Substituir mecanismo de troca de menssagens JMX (RMI) para um orientado a arquitetura, JIC. Separar completamente o código de gerência (POA).

21 21 Projeto OurGrid UFCG/HP Celso Brennand Obrigado!!! Projeto OurGrid LSD/UFCG/HP

22 22 AutoMan: Gerência Automática no OurGrid Celso Brennand Marco Spohn Alvaro Coelho Ayla Dantas Francisco Brasileiro Gustavo Pereira David Candeia Guilherme Germoglio Flavio Santos


Carregar ppt "AutoMan: Gerência Automática no OurGrid Celso Brennand"

Apresentações semelhantes


Anúncios Google