Unreliable Failure Detectors for Reliable Distributed Systems

Slides:



Advertisements
Apresentações semelhantes
Flip-Flops e Dispositivos Correlatos
Advertisements

Binding Amarração de endereços de Protocolos
Algoritmos distribuídos para ambientes virtuais de larga escala
Sistemas distribuídos Metas de Projeto Prof. Diovani Milhorim
Sistemas Distribuídos
Recursos Humanos I O Conflito
Comunicação Comunicação: É a transferência de informação e significado de uma pessoa para outra pessoa. É o processo de passar informação e compreensão.
2 - Órgãos de Direcção de Pessoal
Sistemas operacionais
Aula 21/09/2011 Courouris, Dollimore, cap 10
Barramentos Introdução.
Mecanismo de Proteção (Prevenção e Detecção)
Modelos de Comunicação em Sistemas Distribuídos
Tolerância a falhas Módulo 5 [C11,C15,T4.5] (65 p.)
Sistemas Distribuídos
DNS Introdução.
Sistemas Distribuídos Walfredo Cirne & Fubica Brasileiro Aula 5: Modelos de Sistemas Distribuídos.
Sistemas Distribuídos
Sistemas Distribuídos
Sistemas Distribuídos Walfredo Cirne & Fubica Brasileiro Aula 3:Conceitos Básicos As figuras que.
Sistemas Distribuídos Walfredo Cirne & Fubica Brasileiro Aula 5: Modelos de Sistemas Distribuídos.
Sistemas Distribuídos
Sistemas Distribuídos
QoS para Realidade Virtual
Uma Introdução a Detectores de Defeitos para Sistemas Assíncronos
Carolina Fonseca Neumar Ribeiro
The Byzantine Generals Problem
Porto Alegre, 5 de Outubro de 2009
1 Modelos Fundamentais -> Falhas Segurança. 2 Falhas. É o modelo que define os modos nos quais uma falha pode ocorrer de forma a disponibilizar o entendimento.
1 Sistemas Distribuídos - SDI Caracterização de Sistemas Distribuídos. Introdução. Exemplos de Sistemas Distribuídos. Desafios.
Questões Resolvidas - A.C.-10/08/05
SISTEMAS DISTRIBUÍDOS Princípios e Paradigmas 2ª Edição ANDREW S
Aspectos Avançados em Engenharia de Software Aula 3 Fernanda Campos
CONSENSO O grande mal-entendido
24/05/1999Non-Blocking Atomic Commitment1 in Distributed Systems Faculdade de Ciências da Universidade de Lisboa Mestrado 98/99 Tolerância a Faltas em.
Sistemas Distribuídos
Middleware e Sistemas Distribuídos
REDUNDÂNCIA POR SOFTWARE
Carlos Eduardo Calvente Ribeiro Universidade Federal do Rio de Janeiro
Capítulo 4 Métodos para determinação de propriedades semânticas de fórmulas da Lógica Proposicional
Autenticação em Aplicações Web Notas para a disciplina de Segurança Informática Pedro Félix Instituto.
Tópicos em redes e sistemas distribuídos B Carlos Oberdan Rolim Ciência da Computação.
Sistemas Distribuídos
Tópicos em redes e sistemas distribuídos Carlos Oberdan Rolim Ciência da Computação Sistemas de Informação.
Tópicos de Sistemas de Informação A
Carlos Oberdan Rolim Ciência da Computação
Comitê de Padronização das Informações em Saúde Suplementar - COPISS
PADRÃO TISS aplicaTISS Oficinas TISS
Padrão de Conteúdo e Estrutura
Sistemas Distribuídos
Universidade da Beira Interior Fiabilidade de Sistemas Informáticos Nuno Magarreiro n.º
Janeiro/20061 / 12COE – Comércio Eletrônico Os mandamentos da Internet Flávio Augusto Martins Wanderley Professor
Arquitetura de Sistemas Distribuídos
1 Comunicação Inter-Processos -> RMI -> RPC -> TCP -> UDP (Abstração de passagem de mensagem)
Impossibility of Distributed Consensus with One Faulty Process Michael J. Fischer Nancy A. Lynch Michael S. Paterson 1985 Apresentado por Nazareno Andrade.
Testes de Software AULA 02 Eduardo Silvestri
PROGRAMAÇÃO DISTRIBUÍDA Aula 02 Prof. Henrique Mongelli
Abr-17 Projetar Processos Projetar distribuição.
Modelos de Comunicação em Sistemas Distribuídos
Modelos de Comunicação em Sistemas Distribuídos
1 Middlewares para Aplicações Peer-to-Peer em Redes Móveis – Projeto Bayou Gustavo Luiz Bastos Baptista.
FORMI Integrating Adaptive Fragments Objects into Java RMI Kapitza, Rüdiger; Domaschka, Jörg; Hauck, Franz J.; Reiser, Hans P. ;Schmidt, Holger. IEEE Distributed.
A Multilayer P2P Framework for Distributed Synchronous Collaboration Fernando Abrahão Afonso Leonardo Kunz Programação com Objetos Distribuídos Trabalho.
Infraestrutura de Redes
REDES DE COMPUTADORES II
Redes e Sistemas Distribuídos II – Cód Prof. MSc. Ronnison Reges Vidal.
Projetar Processos. Copyright © 2002 Qualiti. Todos os direitos reservados. Qualiti Software Processes Projetar distribuição | 2 Descrição do Projeto.
Por que Redes? Estamos cercados por redes: supermercados, lojas, bancos, cinemas, farmácias e inúmeros outros lugares; Com a queda do custo de implementação.
Sincronização Lip Sync Sincronização cursor-voz Entre outras mídias.
Lucas R. Costa Rodrigo R. Bezerra Kaio A. da silva
Transcrição da apresentação:

Unreliable Failure Detectors for Reliable Distributed Systems T. D. Chandra and S. Toueg Journal of the ACM, vol 43, no 2, March 1996, pp. 225-267 Apresentado por Lívia Sampaio livia@dsc.ufcg.edu.br

Motivação Necessidade de construir aplicações tolerante a falhas (TF) LSD/UFCG 24/03/2006

Motivação Mecanismos de TF precisam de um serviço de detecção de falhas Exemplo do serviço WEB replicado Servidores web Cliente Internet bc ... REQUISIÇÃO REQUISIÇÃO REQUISIÇÃO RESPOSTA RESPOSTA ? LSD/UFCG 24/03/2006

Motivação Como resolver o problema da detecção de falhas? ambientes síncronos – trivial ambientes assíncronos – complicado! DIFICULDADES ASSÍNCRONO impossível decidir se um processo falhou ou está lento FLP85 FACILIDADES - ASSÍNCRONO semântica simples aplicações portáveis facilidade de programação LSD/UFCG 24/03/2006

Motivação Modelo assíncrono com detectores de falhas não confiáveis (DFNC) Alternativa para “amenizar” FLP85 Introdução de detectores de falhas que podem cometer erros LSD/UFCG 24/03/2006

Conteúdo Modelo assíncrono Definição de DFNC Projeto de DFNC Especificação Implementação Aplicação LSD/UFCG 24/03/2006

Modelo assíncrono N processos Comunicação por troca de mensagens através de uma rede confiável Processos falham por parada Incertezas nos atrasos para comunicação e processamento Processos têm acesso a um relógio local Introdução de detectores de falhas não confiáveis LSD/UFCG 24/03/2006

Entendendo DFNC Definição DFNC são oráculos que respondem sobre a situação de falhas do sistema; podem cometer erros. p DFp q r rede Lista de suspeitos q r q q LSD/UFCG 24/03/2006

Entendendo DFNC Projeto Serviço distribuído “caixa-preta” que encapsula requisitos de sincronismo do sistema ; interface bem definida Modularização Separação de conceitos LSD/UFCG 24/03/2006

Entendendo DFNC Especificação de DFNC Em termos de 2 propriedades: Abrangência – quantidade de falhas detectadas Exatidão – quantidade de falsas suspeições cometidas Aplicações são definidas em função da especificação dos DFNC e não de uma implementação em particular Detectores de falhas perfeitos (semântica mais forte) Abrangência forte – em algum momento, todo processo falho será considerado suspeito, permanentemente, por qualquer processo correto; Exatidão forte – nenhum processo correto será suspeitado por outro processo correto. Propriedades muito restritivas!!! LSD/UFCG 24/03/2006

EM TERMOS DE ABRANGÊNCIA: Entendendo DFNC Enfraquecendo a semântica de DFNC EM TERMOS DE ABRANGÊNCIA: Abrangência fraca – em algum momento, todo processo falho será considerado suspeito, permanentemente, por algum processo correto; EM TERMOS DE EXATIDÃO: Exatidão fraca – algum processo correto nunca é suspeitado; Exatidão forte eventual – em algum momento, o detector garante a exatidão forte; Exatidão fraca eventual – em algum momento, o detector garante a exatidão fraca. LSD/UFCG 24/03/2006

Entendendo DFNC Classificação Comparando as classes de DFNC Em termos de semântica: forte -> fraca São oito classes (= 2 abrangência * 4 exatidão) Comparando as classes de DFNC Exatidão “em atraso” Enfraquecendo a abrangência Enfraquecendo a exatidão LSD/UFCG 24/03/2006

Entendendo DFNC Equivalência de Classes Considere a seguinte relação entre duas classes D e D’: D  D’  D  D’ Conceito de redutibilidade Um algoritmo de redução é aquele capaz de transformar um detector de falhas D em outro D’, tal que D  D’ LSD/UFCG 24/03/2006

Entendendo DFNC Equivalência de classes Aplicando o conceito de redutibilidade às classes de DFNC A relação inversa também é verdade P P S S Q Q W W   PQ, S  W, P  Q, S  W Redução acontece sobre a propriedade de abrangência, então: 8 classes podem ser reduzidas a quatro LSD/UFCG 24/03/2006

Implementação de DFNC Independência de implementação Implementações normalmente são baseadas em timeouts Modelo push Esse exemplo não implementa S ! Timeouts mal configurados podem violar exatidão É preciso usar timeouts dinâmicos Lista de suspeitos p DFp rede q r “Q está vivo” “Q está vivo” “Q está vivo” ? q LSD/UFCG 24/03/2006

Aplicação para DFNC O problema do consenso Formalmente: N processos, dentre os quais no máximo f<N podem falhar por parada, propõem um valor e tentam decidir sobre um dos valores propostos. Formalmente: Validade Acordo Terminação O consenso deve garantir segurança e exatidão! LSD/UFCG 24/03/2006

Aplicação para DFNC O protocolo de consenso CT96 Paradigma do coordenador rotativo Utiliza ◊S (N  2F+1) Rodadas assíncronas Cada rodada tem um coordenador conhecido a priori O consenso termina quando existir um coordenador que não seja suspeitado por um número suficiente de participantes LSD/UFCG 24/03/2006

Rodada de CT96 sem falhas p3 p2 p1 Fase 1 Fase 2 Fase 3 Fase 4 estimativas proposta ack ou nack decisão difusão confiável LSD/UFCG 24/03/2006

Rodada de CT96 com falhas p3 p2 p1 Fase 1 Fase 2 Fase 3 Fase 4 estimativas proposta ack ou nack LSD/UFCG 24/03/2006

Difusão atômica O problema da difusão atômica Formalmente Dado um conjunto de N processos, estes irão entregar as mesmas mensagens e na mesma ordem. Formalmente Validade Acordo Ordenação total LSD/UFCG 24/03/2006

Consenso e Difusão atômica Aplica-se o conceito de redutibilidade Problemas são equivalentes Consenso com difusão atômica Difusão atômica com consenso LSD/UFCG 24/03/2006

Referências sobre detectores de falhas [SBO03] Detectores de falhas em sistemas assíncronos (tutorial) [OBB03] Projeto e Implementação de um Serviço de Detecção de Falhas com Semântica Perfeita. [COB05] Engineering a Failure Detection Service for Widely Distributed Systems [DUHK05] Definition and Specification of Accrual Failure Detectors [LFA00] Optimal Implementation of the Weakest Failure Detector for Solving Consensus LSD/UFCG 24/03/2006

Referências sobre detectores de falhas [NJ-P04] QoS of Timeout-based Self-Tuned Failure Detectors: the Effects of the Communication Delay Predictor and the Safety Margin. [CHT96] The Weakest Failure Detector for Solving Consensus [CTA00] On the Quality of Service of Failure Detectors [SB05] Adaptive Indulgent Consensus LSD/UFCG 24/03/2006

Obrigada!!! Mais questionamentos???? LSD/UFCG 24/03/2006