Disponibilidade, tolerância a falhas e resiliência

Slides:



Advertisements
Apresentações semelhantes
Sistemas Distribuídos
Advertisements

MODELO OSI Prof. Baroni Cel.:
Metodologia de testes Nome: Gustavo G. Quintão
Sistemas Distribuídos
Gerência de Desenvolvimento de Sistemas
Sistemas Distribuídos:Definições e Caracteristicas
Sistemas Operacionais - 6
Confiança.
Wilmar Oliveira de Queiroz - PUCGOIÁS 2012
Aula 8 Engenharia de Manutenção FMEA
Mecanismo de Proteção (Prevenção e Detecção)
Tolerância a falhas Módulo 5 [C11,C15,T4.5] (65 p.)
Sistemas Críticos (Confiança)
Jaime Dalla Valle Junior
Aline Vasconcelos CEFET Campos
Sistemas Operacionais Planejamento de Experimento
Carolina Fonseca Neumar Ribeiro
Recovery Blocks Paulo Junior Penna Pivetta. Introdução Os Projetos de Tolerância a falhas quase que exclusivamente eram dedicado a hardware Tolerância.
Fabio Notare Martins Pontifícia Universidade Católica do Rio Grande do Sul Programa de Pós-Graduação em Ciências da Computação.
Daniel Paulo Introdução A disponibilidade de um sistema é a probabilidade de que ele esteja funcionando num determinado momento.
CONCEITOS INICIAIS DE CONFIABILIDADE
Técnicas de Teste de Software
Gerência de Redes Áreas Funcionais de Gerenciamento
12 de Abril de 1999Conceitos de Confiabilidade1 Dependability Concepts por João Paulo Ribeiro Mário Guimarães
YADFS Yet Another Distributed File System
Presenter: Adedeji S. Adekoya (Dj). As soluções de gerenciamento das VMs. Hyper-V console. Power Shell : CMDlets System Center Virtual Machine Manager.
REDUNDÂNCIA POR SOFTWARE
(Reliability) UFRGS-GUARITA-FINEP Desenvolvido por: Pablo Diego Didoné
Aulas 13 Mantenabilidade ou Manutenabilidade
Tópicos em redes e sistemas distribuídos
Sistemas Distribuídos
Carlos Oberdan Rolim Ciência da Computação
Carlos Oberdan Rolim Ciência da Computação
Carlos Oberdan Rolim Ciência da Computação
Carlos Oberdan Rolim Ciência da Computação
Paulo Silva Tracker Segurança da Informação
Carlos Oberdan Rolim Ciência da Computação
Tolerância a Falhas em Sistemas Distribuídos
Confiabilidade de Software
“Ambiente Tolerante a Falhas Utilizando Software Livre” Gerência de Suporte de Software Alessandro Luiz Petrocino Elaine Cristina Franchini dos Anjos 29/08/2003.
MÉTODOS E FERRAMENTAS PARA AUMENTO DA CONFIABILIDADE
Sistemas Distribuídos
1 RAID LEVEL 0 Description
Confiabilidade - Árvore de Falhas
Sistemas Tolerantes a Falhas: Conceitos e Técnicas
MODELOS OSI. Introdução Permite a interconexão de sistemas abertos. Desenvolvido pela ISSO (International Organization for Standardization) Fornece um.
NCQ-Comando Nativo de Enfileiramento NCQ ( Native Command Queuing)
Testes de Software AULA 02 Eduardo Silvestri
Testes de Software AULA 06 Eduardo Silvestri
Segurança & Auditoria de Sistemas AULA 07 Eduardo Silvestri
Testes de Software AULA 03 Eduardo Silvestri
Sistemas Tolerantes a Falhas: Conceitos e Técnicas
Arquitetura de redes ISSO/OSI Liane Tarouco UFRGS.
AVALIAÇÃO.
SISTEMAS OPERACIONAIS
Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China. Network Operations and Management Symposium - NOMS 2008 Apresentado.
Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação.
Hardware de Rede Aula 2 Willamys Araújo.
Prof. Marcus Soeiro CONFIABILIDADE Disponibilidade de Sistemas.
Modelo OSI.
SERVIDORES E SERVIÇOS Leandro Escobar 2009 SERVIDORES E SERVIÇOS.
Redes e Sistemas Distribuídos II – Cód Prof. MSc. Ronnison Reges Vidal.
CONFIABILIDADE, MANTENABILIDADE E DISPONIBILIDADE ELS.
Projetar Processos. Copyright © 2002 Qualiti. Todos os direitos reservados. Qualiti Software Processes Projetar distribuição | 2 Descrição do Projeto.
Banco de Dados Distribuídos Sílvia Cristina de Matos Soares
O que são os KPIs: KPI (em inglês, KeyPerformance Indicators, Indicadores de Performance na tradução); Os KPIs podem mensurar diferentes performances;
Solução de Backup com Armazenamento Redundante Pablo Lopes Mesquita Trabalho de Conclusão de Curso SERVIÇO NACIONAL DE APRENDIZAGEM COMERCIAL FACULDADE.
Segurança Lógica e Física de Redes Gestão da Segurança da Informação Criptografia Proteção de Perímetro Anderson Aparecido Alves da Silva – Aula 12_2 1.
Solução de Backup com Armazenamento Redundante Pablo Lopes Mesquita Trabalho de Conclusão de Curso Orientador: Eduardo Maroñas Monks SERVIÇO NACIONAL DE.
Lucas R. Costa Rodrigo R. Bezerra Kaio A. da silva
Transcrição da apresentação:

Disponibilidade, tolerância a falhas e resiliência Conceitos básicos

Falha x erro x defeito Falha: Ocorre quando o comportamento de um elemento se desvia do especificado. Pode ocorrer em relação ao hardware ou software. Exemplo: Erro em um dos HDs de um RAID 1 (espelhamento de dados). Erro: É um estado ocasionado por uma falha. Pode ser detectado e tratado, por ser mais previsível que a falha. Exemplo: Devido a uma falha na memória, ao invés de gravar 00000000 foi gravado 11111111. Defeito: Quando o usuário final do serviço é afetado. Geralmente temos a queda parcial ou total do serviço, ou “travamentos”, perda de informações, etc.

Falha x erro x defeito – cont.

MTBF e MTTR MTBF (mean time between failures): Tempo médio entre falhas. MTTR (mean time to repair): Tempo médio para reparar / de recuperação.

Disponibilidade = MTBF / (MTBF + MTTR) Disponibilidade (availability): Tempo que um serviço ficará disponível sem a ocorrência de falhas. Cálculo da disponibilidade Disponibilidade = MTBF / (MTBF + MTTR) Alta disponibilidade ≥ 99.999 Obs.: Em um ano ± 5 minutos de indisponibilidade

Disponibilidade – cont. Podemos usar o modo de porcentagem ou de defeitos por milhão (defects-per-million), ou realizar a conversão entre os modos. No modo de porcentagem a forma de expressar os dados pode ser 0.999... ou 99.9... Exemplo: Se um roteador tem 200 defeitos a cada milhão de horas, então o MTBF é 5.000 horas. Conhecendo o MTTR teremos a conversão para o modo de porcentagem. Obs.: O MTTR geralmente será estipulado em algum contrato de prestação de serviço ou assistência técnica.

Componentes seriais e paralelos Seriais: Todos os componentes precisam funcionar. Se um possui uma falha, então toda a rede falha. O valor final da disponibilidade do sistema sempre será menor que qualquer um dos seus componentes. Exemplo: Com dois componentes com disponibilidade de 0.995, temos 0.995 x 0.995 = 0.990. A1 A2

Componentes seriais e paralelos Paralelo: A rede continua funcionando, se ao menos um dos componentes continua a funcionar. Para calcular a probabilidade da falha do componente é preciso subtrair a disponibilidade do valor um. A1 A2

Componentes seriais e paralelos Exemplo: Dois componentes paralelos com disponibilidade de 0.0995, temos [ 1 – (1 – 0.995) x (1 – 0.995) ] = 0.999975. Obs.: O uso de componentes redundantes em sistemas paralelos é o que o faz aumentar disponibilidade. A1 A2

Tolerância a falhas Tolerância a falhas (fault tolerance): Forma de mascarar um defeito utilizando redundância de um ou mais componentes. Após a detectar o problema com o componente é necessário confinar os danos e diagnosticar o ocorrido, realizar a recuperação do erro e por último reparar o defeito.

Técnicas de tolerância a falhas Redundância N-modular: Utilização de N componentes, onde é realizada uma votação e a partir da maior quantidade de votos será gerada a saída da solicitação. Exemplo: Utilização de 3 soluções de roteamento (Quagga, Bird, Xorp) para prover tolerância a falhas relacionadas a bugs em softwares de roteamento (ambientes virtualizados).

Técnicas de tolerância a falhas – cont. Probe packets e self-checking: Envio de dados pré-definidos para que possa ser avaliado o funcionamento correto de um ou mais componentes. Exemplo: Checagem de disponibilidade (e/ou erros) de um enlace ou estimativa de largura de banda.

Técnicas de tolerância a falhas – cont. Hot‐sparing: Mais de um componente ativo, porém apenas um ou um segmento é o “principal”. Com a falha, outro assume o controle. Exemplo: Redundância de servidor LDAP, banco de dados distribuído MongoDB, utilização de técnica de DRBD para dados em geral, etc.

Dependability Capacidade de fornecer um serviço razoavelmente confiável, evitando falhas frequentes. São meios para garantir a “dependability”: prevenção de falhas tolerância a falhas remoção de falhas previsão de falhas

Resiliência Definição 1: Persistência da “dependability” quando ocorrem mudanças. A resiliência é uma evolução do termo “dependability”. Definição 2: Resiliência em redes é a habilidade de uma entidade de tolerar (resistir e automaticamente se recuperar de) desafios nas condições da rede, ataques coordenados e anomalias no tráfego.

Resiliência – cont. Exemplo: Para garantir a resiliência de um slice de rede, podemos virtualizar parcialmente os componentes, como os mecanismos de roteamento, e utilizar redundância ativa, onde um slice protegerá o outro, em caso de falhas. A utilização de esquemas de migração de máquinas virtuais, com alguma técnica de pré-cópia também pode ser utilizada para aumentar a disponibilidade do serviço.

Referências Fault tolerance in distributed systems – Pankaj Jalote Increasing Router Availability through Virtualization – Sergio Correia, Omar Cherkaoui, Joaquim Celestino Junior From Dependability to Resilience – Jean-Claude Laprie High Availability Network Fundamentals: A Practical Guide to Predicting Network Availability – Christopher Oggerino Wireless Mesh Networking – George Angelou