A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Unreliable Failure Detectors for Reliable Distributed Systems T. D. Chandra and S. Toueg Journal of the ACM, vol 43, no 2, March 1996, pp. 225-267 Apresentado.

Apresentações semelhantes


Apresentação em tema: "Unreliable Failure Detectors for Reliable Distributed Systems T. D. Chandra and S. Toueg Journal of the ACM, vol 43, no 2, March 1996, pp. 225-267 Apresentado."— Transcrição da apresentação:

1 Unreliable Failure Detectors for Reliable Distributed Systems T. D. Chandra and S. Toueg Journal of the ACM, vol 43, no 2, March 1996, pp Apresentado por Lívia Sampaio

2 LSD/UFCG24/03/20062 Motivação Necessidade de construir aplicações tolerante a falhas (TF)

3 LSD/UFCG24/03/20063 Motivação Mecanismos de TF precisam de um serviço de detecção de falhas Exemplo do serviço WEB replicado REQUISIÇÃO RESPOSTA Servidores web Cliente Internet bc... RESPOSTA REQUISIÇÃO ?

4 LSD/UFCG24/03/20064 Motivação Como resolver o problema da detecção de falhas? ambientes síncronos – trivial ambientes assíncronos – complicado! FACILIDADES - ASSÍNCRONO - semântica simples - aplicações portáveis - facilidade de programação DIFICULDADES ASSÍNCRONO - impossível decidir se um processo falhou ou está lento - FLP85

5 LSD/UFCG24/03/20065 Motivação Modelo assíncrono com detectores de falhas não confiáveis (DFNC) Alternativa para amenizar FLP85 Introdução de detectores de falhas que podem cometer erros

6 LSD/UFCG24/03/20066 Conteúdo Modelo assíncrono Definição de DFNC Projeto de DFNC Especificação Implementação Aplicação

7 LSD/UFCG24/03/20067 Modelo assíncrono N processos Comunicação por troca de mensagens através de uma rede confiável Processos falham por parada Incertezas nos atrasos para comunicação e processamento Processos têm acesso a um relógio local Introdução de detectores de falhas não confiáveis

8 LSD/UFCG24/03/20068 Entendendo DFNC Definição DFNC são oráculos que respondem sobre a situação de falhas do sistema; podem cometer erros. rede q p DFp q r Lista de suspeitos q rq

9 LSD/UFCG24/03/20069 Entendendo DFNC Projeto Serviço distribuído caixa-preta que encapsula requisitos de sincronismo do sistema ; interface bem definida Modularização Separação de conceitos

10 LSD/UFCG24/03/ Entendendo DFNC Especificação de DFNC Em termos de 2 propriedades: Abrangência – quantidade de falhas detectadas Exatidão – quantidade de falsas suspeições cometidas Aplicações são definidas em função da especificação dos DFNC e não de uma implementação em particular Detectores de falhas perfeitos (semântica mais forte) Abrangência forte – em algum momento, todo processo falho será considerado suspeito, permanentemente, por qualquer processo correto; Exatidão forte – nenhum processo correto será suspeitado por outro processo correto. Propriedades muito restritivas!!!

11 LSD/UFCG24/03/ Entendendo DFNC Enfraquecendo a semântica de DFNC EM TERMOS DE ABRANGÊNCIA: Abrangência fraca – em algum momento, todo processo falho será considerado suspeito, permanentemente, por algum processo correto; EM TERMOS DE EXATIDÃO: Exatidão fraca – algum processo correto nunca é suspeitado; Exatidão forte eventual – em algum momento, o detector garante a exatidão forte; Exatidão fraca eventual – em algum momento, o detector garante a exatidão fraca.

12 LSD/UFCG24/03/ Entendendo DFNC Classificação Em termos de semântica: forte -> fraca São oito classes (= 2 abrangência * 4 exatidão) Comparando as classes de DFNC Exatidão em atraso Enfraquecendo a abrangência Enfraquecendo a exatidão

13 LSD/UFCG24/03/ Entendendo DFNC Equivalência de Classes Considere a seguinte relação entre duas classes D e D: D D Conceito de redutibilidade Um algoritmo de redução é aquele capaz de transformar um detector de falhas D em outro D, tal que D D

14 LSD/UFCG24/03/ Entendendo DFNC Equivalência de classes Aplicando o conceito de redutibilidade às classes de DFNC A relação inversa também é verdade P Q, S W, P Q, S W P S Q W Redução acontece sobre a propriedade de abrangência, então: 8 classes podem ser reduzidas a quatro

15 LSD/UFCG24/03/ Implementação de DFNC Independência de implementação Implementações normalmente são baseadas em timeouts Modelo push Esse exemplo não implementa S ! Timeouts mal configurados podem violar exatidão É preciso usar timeouts dinâmicos Lista de suspeitos p DFp rede q r q Q está vivo ?

16 LSD/UFCG24/03/ Aplicação para DFNC O problema do consenso N processos, dentre os quais no máximo f

17 LSD/UFCG24/03/ Aplicação para DFNC O protocolo de consenso CT96 Paradigma do coordenador rotativo Utiliza S (N 2F+1) Rodadas assíncronas Cada rodada tem um coordenador conhecido a priori O consenso termina quando existir um coordenador que não seja suspeitado por um número suficiente de participantes

18 LSD/UFCG24/03/ Rodada de CT96 sem falhas estimativaspropostaack ou nackdecisão difusão confiável p3p3 p2p2 p1p1 Fase 1 Fase 2Fase 3Fase 4

19 LSD/UFCG24/03/ Rodada de CT96 com falhas estimativaspropostaack ou nack p3p3 p2p2 p1p1 Fase 1 Fase 2Fase 3Fase 4

20 LSD/UFCG24/03/ Difusão atômica O problema da difusão atômica Dado um conjunto de N processos, estes irão entregar as mesmas mensagens e na mesma ordem. Formalmente Validade Acordo Ordenação total

21 LSD/UFCG24/03/ Consenso e Difusão atômica Aplica-se o conceito de redutibilidade Problemas são equivalentes Consenso com difusão atômica Difusão atômica com consenso

22 LSD/UFCG24/03/ Referências sobre detectores de falhas [SBO03] Detectores de falhas em sistemas assíncronos (tutorial) [OBB03] Projeto e Implementação de um Serviço de Detecção de Falhas com Semântica Perfeita. [COB05] Engineering a Failure Detection Service for Widely Distributed Systems [DUHK05] Definition and Specification of Accrual Failure Detectors [LFA00] Optimal Implementation of the Weakest Failure Detector for Solving Consensus

23 LSD/UFCG24/03/ Referências sobre detectores de falhas [NJ-P04] QoS of Timeout-based Self-Tuned Failure Detectors: the Effects of the Communication Delay Predictor and the Safety Margin. [CHT96] The Weakest Failure Detector for Solving Consensus [CTA00] On the Quality of Service of Failure Detectors [SB05] Adaptive Indulgent Consensus

24 LSD/UFCG24/03/ Obrigada!!! Mais questionamentos????


Carregar ppt "Unreliable Failure Detectors for Reliable Distributed Systems T. D. Chandra and S. Toueg Journal of the ACM, vol 43, no 2, March 1996, pp. 225-267 Apresentado."

Apresentações semelhantes


Anúncios Google