A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação.

Apresentações semelhantes


Apresentação em tema: "Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação."— Transcrição da apresentação:

1 Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação

2 Medidas Taxa de Defeitos Curva da banheira Tempos Médios (mean times) MTTF, MTBF, MTTR Exemplos de cálculos de tempos médios Confiabilidade Disponibilidade Cobertura

3 Comportamento ideal x real Ideal Real

4 O que medir ? Com que freqüência ocorrem defeitos? Qual o tempo entre um defeito e outro? Qual o tempo até o primeiro defeito? Qual o tempo gasto para reparar cada defeito? Quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo? Quais as chances dos sistema estar funcionando em um determinado instante?

5 Taxa de Defeitos Com que freqüência ocorrem defeitos? Taxa de Defeitos unidade: defeitos por hora Expresso por (lambda) Assume uma taxa de defeitos constante Z(t) = Na verdade não é constante Boa aproximação: curva da banheira função: Z(t) – hazard function, ou taxa de defeitos ou ainda taxa de morte de componentes de uma população em um intervalo de tempo Número esperado de defeitos em um dado período de tempo (failure rate) Taxa instantanea de componentes falhos no tempo t Quantidade de componentes operacionais

6 Curva da Banheira fases de mortalidade infantil e envelhecimento muito pequenas comparadas ao período de vida útil válido para hardware

7 Mortalidade Infantil Alta taxa de defeitos que diminui rapidamente no tempo componentes fracos e mal fabricados burn-in: remoção de componentes fracos operação acelerada de componentes antes de colocá-los no produto final só entram em operação componentes que sobreviveram à mortalidade infantil mortalidade infantil é uma fase de curto período de duração

8 Envelhecimento taxa de defeitos aumenta rapidamente com o tempo devido ao desgaste físico do componente conhecendo o início da fase de envelhecimento é possível substituir o componente sistema volta a operar na fase de vida útil envelhecimento é também uma fase de curto período de duração ideal é evitá-la

9 Tempo de vida útil Corresponde ao tempo em que um componente pode ser utilizado antes que comece a apresentar uma alta taxa de falhas Tempo de vida em operação normal essa fase apresenta um serviço mais previsível em relação a falhas relação exponencial entre confiabilidade e tempo usa - taxa de defeitos constante válido para hardware

10 Curva da banheira em software software comporta-se diferente do hardware melhor usar erros que falhas erros são constantemente removidos taxa de defeitos continua caindo com o tempo confiabilidade aumenta com o tempo envelhecimento de software ? obsolescência dos programas alterações nas plataformas exceto se forem efetuadas alterações, adaptações, mudança de plataforma (sistema operacional e hardware)

11 O que medir ? Com que freqüência ocorrem defeitos? Qual o tempo entre um defeito e outro? Qual o tempo até o primeiro defeito? Qual o tempo gasto para reparar cada defeito? Quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo? Quais as chances dos sistema estar funcionando em um determinado instante?

12 Medidas MTTF tempo esperado até a primeira ocorrência de defeito MTTR Tempo médio para reparo do sistema MTBF tempomédio entre defeitos do sistema mean time to failure mean time to repair mean time between failures

13 MTTF – mean time to failure tempo esperado de operação do sistema antes da ocorrência do primeiro defeito exemplo: considera-se N sistemas idênticos colocados em operação a partir do tempo t=0 mede-se o tempo de operação ti de cada um até apresentar defeito MTTF é o tempo médio de operação MTTF = quanto maior a quantidade de Amostras N, mais próximo do Valor real será o MTTF estimado N i=1 ti N

14 MTTF N i=1 ti N MTTF = ou MTTF = 1/ Considerando R(t) = e - t Para um único sistema o procedimento é semelhante: t i passa a ser Dt i, o intervalo de tempo em operação entre os defeitos, e N o número de defeitos

15 MTTF: Exemplo MTTF = (Dt 1 + Dt 2 + Dt 3 )/nº defeitos MTTF = 46,5/3 = 15,5 h Taxa de defeitos ( ) = 1/MTTF = 0,064 def/h

16 MTTR – mean time to repair Tempo médio de reparo do sistema Inclui: O tempo gasto identificando o erro (80% do tempo total) O tempo gasto resolvendo o erro O tempo gasto em espera para o erro de ser resolvido Difícil de estimar Geralmente usa-se injeção de falhas Injeta-se uma falha de cada vez e mede-se o tempo Nova constante (ipsilón) Taxa de reparos = taxa de reparos por hora Em sistemas de alta disponibilidade, é importante diminuir o tempo de reparo para aumentar a disponibilidade do sistema Sistema completamente operacional ou então

17 MTTR R i = tempo de reparo da falha i n = número de falhas Quanto maior o número de amostras, melhor

18 MTTR: exemplo Tempo de reparo do 1º defeito (R 1 ) = 0,5 h Tempo de reparo do 2º defeito (R 2 ) = 1 h MTTR = (R 1 + R 2 ) / nº reparos MTTR = 1,5 / 2 MTTR = 0,75 h

19 MTBF – mean time between failure MTBF = MTTF + MTTR diferença numérica pequena em relação a MTTF os tempos de operação são geralmente muito maiores que os tempos de reparo na prática valores numéricos muito aproximados (tanto faz usar um como outro) considera-se: reparo coloca sistema em condições ideais de operação

20 MTBF

21 MTBF: Exemplo Tempo entre o início e o 1º defeito (Dd1) = 6 h Tempo entre 1º e 2º defeitos (Dd2) = 26 h Tempo entre 2º e 3º defeitos (Dd3) = 16 h MTBF = (Dd1 + Dd2 + Dd3)/nº defeitos MTBF = 48/3 MTBF = 16 h

22 Demais medidas Com que freqüência ocorrem defeitos? Qual o tempo entre um defeito e outro? Qual o tempo até o primeiro defeito? Qual o tempo gasto para reparar cada defeito? Quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo? Quais as chances dos sistema estar funcionando em um determinado instante? Taxa de defeitos MTBF MTTF MTTR

23 Confiabilidade Reliability Considerando um sistema contendo N componentes idênticos S(t) = numero de componentes sobreviventes no tempo t F(t) = numero de componentes falhos no tempo t probabilidade de que um sistema funcione corretamente durante um intervalo de tempo [t0,t]

24 Confiabilidade para um taxa de defeitos constante a confiabilidade R(t) varia exponencialmente em função do tempo sistema na fase de vida útil: taxa de defeitos constante R(t) = e - t é a mais usada relação entre confiabilidade e tempo válida principalmente para componentes eletrônicos discutível se vale para software: conforme o software vai sendo usado, bugs vão sendo descobertos e a confiabilidade do software aumenta exponential failure law

25 Confiabilidade, MTTF e Taxa de defeitos Qualquer sistema tem 37% de chance de funcionar corretamente durante um período de tempo = MTTF (63% de falhar)

26 Confiabilidade: distribuição de Weibull Expressão semi-empírica desenvolvida por Ernest Hjalmar Wallodi Weibull, físico sueco, que em 1939 apresentou o modelo de planejamento estatístico sobre fadiga de material. Sua utilidade decorre do fato, de permitir: representar falhas típicas de partida (mortalidade infantil), falhas aleatórias e falhas devido ao desgaste. obter parâmetros significativos da configuração das falhas. representação gráfica simples.

27 Confiabilidade: distribuição de Weibull se taxa de defeitos varia com o tempo z(t) distribuição de Weibull importante para modelagem de software onde a confiabilidade pode inclusive aumentar com o tempo z(t) = ( t) -1 para >0 e >0 R(t) = e –( t) para =1 z(t) = constante = para >1 z(t) = aumenta com o tempo para <1 z(t) = diminui com o tempo e são constantes que controlam a variação de z(t) no tempo

28 Confiabilidade Para: =1 =0,1 taxa de defeitos constante confiabilidade diminui com o tempo

29 Confiabilidade Para: =0,6 =0,1 taxa de defeitos diminui Como tempo confiabilidade diminui com o tempo mas não tão acentuadamente

30 Confiabilidade Para: =2 =0,1 taxa de defeitos aumenta linearmente com o tempo confiabilidade diminui com o tempo acentuadamente

31 Disponibilidade probabilidade do sistema estar operacional no instante t (disponível para o trabalho útil) alternância entre períodos de funcionamento e de reparo A(t) = R(t) quando reparo tende a zero lembrar que MTBF = MTTF + MTTR intuitivamente A(t) = t op / (t op + t reparo ) genericamente A(t) = MTTF / (MTTF + MTTR) t op = tempo de operação normal T reparo = tempo de reparo nessa relação, o significado de alta disponibilidade fica mais claro diminuindo o tempo médio de reparo, aumenta a disponibilidade A(t): Availability

32 Cobertura Cobertura de falhas Habilidade do sistema de realizar detecção, confinamento, localização, recuperação... Geralmente se refere a habilidade de realizar recuperação de falhas Significado matemático: Probabilidade condicional que dada uma falha o sistema se recupere Determinação: listar falhas possíveis e falhas que o sistema pode tolerar e calcular o percentual Muito usada também em experimentos de injeção de falhas Extremamente difícil de calcular Geralmente assumido um valor constante

33 Problemas com medidas Defeitos são eventos aleatórios Podem demorar muito para ocorrer, não ocorrer ou ocorrer em um momento não apropriado Custo de avaliação experimental é alto Necessária uma grande quantidade de amostras Necessário tempo grande de avaliação É importante avaliar durante o projeto do sistema Injeção de falhas


Carregar ppt "Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação."

Apresentações semelhantes


Anúncios Google