Carregar apresentação
A apresentação está carregando. Por favor, espere
1
AutoMan: Gerência Automática no OurGrid
Celso Brennand
2
Agenda Contexto: OurGrid e sua Gerência.
Desafios de Gerência de Grades. Nossa proposta: AutoMan. Avaliação. Lições Aprendidas. Conclusões e Trabalhos Futuros.
3
Contexto: OurGrid Grade computacional entre-pares. Fácil Implantação.
Inexistência de negociação para a entrada de novos pares. Recursos ociosos Poder computacional. Mecanismo de incentivo: Rede de Favores Não apresenta uma solução para gerência de seus componentes.
4
OurGrid CorePeer User Agent MyGrid Peer
5
Gerência do OurGrid Um Administrador Um ou vários sites.
Checar todas as máquinas e serviços do(s) site(s). Reativar máquinas e serviços falhos.
6
Cenário de Gerência: Caso LSD
Administradores só estão disponíveis em horário de expediente. Se a falha ocorrer à noite, feriado ou fim de semana?
7
Desafios da Gerência de Grades
Demanda grande esforço Gerência de grades é muito ampla Recursos heterogêneos Domínios diferentes Escalablidade Alta disponibilidade Exige-se profissionais especializados para mantê-lo e que estejam sempre disponíveis.
8
Solução Proposta Mínimo de intervenção humana. Ajudar administradores.
Tentar prover disponibilidade 24/7. Desenvolver uma arquitetura de gerência e monitoração automática que: 8
9
AutoMan Sistema de Monitoração e Gerência.
Facilitar a gerência do OurGrid. Baseado nas atividades comuns de gerência dos administratores. Agentes AutoMan Monitores Agregador de dados ( Aggregator ) Analisador e atuador ( Leukocyte )
10
Monitores Sensores JMX Monitoração hierárquica
Serviços ( instrumentação do código ) UserAgent CorePeer Peer Máquinas ( Ganglia ) Carga: CPU, memória. Espaço em disco. JMX Monitoração hierárquica
11
Aggregator Armazenamento Consulta Publish-subscribe
12
Leukocyte Diagnosticar ( Detector) Resolver ( Effector )
Analiza as métricas Resolver ( Effector ) Script – ssh Reativar um serviço Limpar /tmp Inscreve-se em certas métricas.
13
Arquitetura AutoMan Monitor percebe o Peer saiu do ar
Envia uma métrica PeerDown para o Aggregator Arquitetura AutoMan Aggregator armazena a métrica e envia para os interessados JMX PeerDown RMI interessado (PeerDown) Interessados inscrevem-se nas métricas Agregador de dados Aggregator JMX PeerDown O Peer está ativo novamente!!! RMI interessado (PeerDown) Monitores Analisador e atuador Leukocyte JMX PeerDown ssh Ssh(PeerUp) Leukocyte analiza (Detector) a métrica recebida e toma uma ação (Effector)
14
Avaliação Experimental
Medindo o Overhead do AutoMan Indisponibilidade dos serviços OurGrid com e sem o AutoMan
15
Medindo o Overhead do AutoMan
Ferramenta que captura o tempo de execução de um Job. Ambiente controlado. OurGrid com e sem a monitoração. Método T-Test para verificar se a diferença é significativa. Overhead 1,86% em um intervalo de confiança de 95%.
16
Indisponibilidade dos serviços OurGrid com e sem o AutoMan
Entidades avaliadas com e sem AutoMan: Peer, Worker e CorePeer. Indisponibilidade: Contornável: falhas do serviço. Inevitável: máquina é desligada ou está em um SO que o serviço não está instalado. Ferramenta que coleta os intervalos de indisponibilidade a partir dos logs do OurGrid e do Nagios.
17
Indisponibilidade dos serviços OurGrid com e sem o AutoMan
Entidade Indisponibilidade Média Sem AutoMan ( unidade de tempo) Com AutoMan Worker 6.198 s ~2 horas 600 s = 10 min Peer s ~8 horas 0 s CorePeer 4.719 s ~1h30 min 103 s ~2 min
18
Lições Aprendidas Cuidado com arquivos de configuração:
É muito fácil introduzir erros nesses arquivos. Não assuma que o software que está sendo monitorado está livre de bugs. Gerência Automática não substitui totalmente a gerência manual. Mecanismos de recuperação devem ser escolhidos cuidadosamente.
19
Conclusões O AutoMan incorpora monitoração e gerência automática ao OurGrid sem introduzir perdas de desempenho consideráveis. Aumento da disponibilidade da grade OurGrid. Torna o OurGrid ainda mais amigável. Arquitetura que pode ser reutilizada em outros sistemas distribuídos.
20
Trabalhos Futuros Substituir o uso do SSH como mecanismo de recuperação para mecanismos como CDDLM ou SmartFrog. Substituir mecanismo de troca de menssagens JMX (RMI) para um orientado a arquitetura, JIC. Separar completamente o código de gerência (POA).
21
Projeto OurGrid UFCG/HP
Projeto OurGrid LSD/UFCG/HP Celso Brennand Obrigado!!!
22
AutoMan: Gerência Automática no OurGrid
Celso Brennand Marco Spohn Alvaro Coelho Ayla Dantas Francisco Brasileiro Gustavo Pereira David Candeia Guilherme Germoglio Flavio Santos
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.