A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Carlos Oberdan Rolim Ciência da Computação

Apresentações semelhantes


Apresentação em tema: "Carlos Oberdan Rolim Ciência da Computação"— Transcrição da apresentação:

1 Carlos Oberdan Rolim Ciência da Computação
Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação

2 Medidas Taxa de Defeitos Curva da banheira Tempos Médios (mean times)
MTTF, MTBF, MTTR Exemplos de cálculos de tempos médios Confiabilidade Disponibilidade Cobertura

3 Comportamento ideal x real

4 O que medir ? Com que freqüência ocorrem defeitos?
Qual o tempo entre um defeito e outro? Qual o tempo até o primeiro defeito? Qual o tempo gasto para reparar cada defeito? Quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo? Quais as chances dos sistema estar funcionando em um determinado instante?

5 Quantidade de componentes operacionais
Taxa de Defeitos Com que freqüência ocorrem defeitos? Taxa de Defeitos unidade: defeitos por hora Expresso por  (lambda) Assume uma taxa de defeitos constante Z(t) =  Na verdade não é constante Boa aproximação: curva da banheira função: Z(t) – hazard function, ou taxa de defeitos ou ainda taxa de “morte” de componentes de uma população em um intervalo de tempo Número esperado de defeitos em um dado período de tempo (failure rate) Taxa instantanea de componentes falhos no tempo t Quantidade de componentes operacionais

6 Curva da Banheira válido para hardware
fases de mortalidade infantil e envelhecimento muito pequenas comparadas ao período de vida útil válido para hardware

7 Mortalidade Infantil Alta taxa de defeitos que diminui rapidamente no tempo componentes fracos e mal fabricados burn-in: remoção de componentes fracos operação acelerada de componentes antes de colocá-los no produto final só entram em operação componentes que sobreviveram à mortalidade infantil mortalidade infantil é uma fase de curto período de duração

8 Envelhecimento ideal é evitá-la
taxa de defeitos aumenta rapidamente com o tempo devido ao desgaste físico do componente conhecendo o início da fase de envelhecimento é possível substituir o componente sistema volta a operar na fase de vida útil envelhecimento é também uma fase de curto período de duração ideal é evitá-la

9 Tempo de vida útil Corresponde ao tempo em que um componente pode ser utilizado antes que comece a apresentar uma alta taxa de falhas Tempo de vida em operação normal essa fase apresenta um serviço mais previsível em relação a falhas relação exponencial entre confiabilidade e tempo usa  - taxa de defeitos constante válido para hardware

10 Curva da banheira em software
software comporta-se diferente do hardware melhor usar erros que falhas erros são constantemente removidos taxa de defeitos continua caindo com o tempo confiabilidade aumenta com o tempo envelhecimento de software ? obsolescência dos programas alterações nas plataformas exceto se forem efetuadas alterações, adaptações, mudança de plataforma (sistema operacional e hardware)

11 O que medir ? Com que freqüência ocorrem defeitos?
Qual o tempo entre um defeito e outro? Qual o tempo até o primeiro defeito? Qual o tempo gasto para reparar cada defeito? Quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo? Quais as chances dos sistema estar funcionando em um determinado instante?

12 Medidas mean time to failure mean time to repair
MTTF tempo esperado até a primeira ocorrência de defeito MTTR Tempo médio para reparo do sistema MTBF tempo médio entre defeitos do sistema mean time to repair mean time between failures

13 MTTF – mean time to failure
tempo esperado de operação do sistema antes da ocorrência do primeiro defeito exemplo: considera-se N sistemas idênticos colocados em operação a partir do tempo t=0 mede-se o tempo de operação ti de cada um até apresentar defeito MTTF é o tempo médio de operação MTTF =  N ti N i=1 quanto maior a quantidade de Amostras N, mais próximo do Valor real será o MTTF estimado

14 MTTF Considerando R(t) = e-t Para um único sistema o
procedimento é semelhante: ti passa a ser Dti, o intervalo de tempo em operação entre os defeitos, e N o número de defeitos N MTTF =  ti N i=1 ou MTTF = 1/ Considerando R(t) = e-t

15 MTTF: Exemplo MTTF = (Dt1 + Dt2 + Dt3)/nº defeitos
MTTF = 46,5/3 = 15,5 h Taxa de defeitos () = 1/MTTF = 0,064 def/h

16 MTTR – mean time to repair
Tempo médio de reparo do sistema Inclui: O tempo gasto identificando o erro (80% do tempo total) O tempo gasto resolvendo o erro O tempo gasto em espera para o erro de ser resolvido Difícil de estimar Geralmente usa-se injeção de falhas Injeta-se uma falha de cada vez e mede-se o tempo Nova constante  (ipsilón) Taxa de reparos  = taxa de reparos por hora Sistema completamente operacional Em sistemas de alta disponibilidade, é importante diminuir o tempo de reparo para aumentar a disponibilidade do sistema ou então

17 MTTR Quanto maior o número de amostras, melhor
Ri = tempo de reparo da falha i n = número de falhas Quanto maior o número de amostras, melhor

18 MTTR: exemplo Tempo de reparo do 1º defeito (R1) = 0,5 h
MTTR = (R1 + R2) / nº reparos MTTR = 1,5 / 2 MTTR = 0,75 h

19 MTBF – mean time between failure
MTBF = MTTF + MTTR diferença numérica pequena em relação a MTTF os tempos de operação são geralmente muito maiores que os tempos de reparo na prática valores numéricos muito aproximados (tanto faz usar um como outro) considera-se: reparo coloca sistema em condições ideais de operação

20 MTBF

21 MTBF: Exemplo MTBF = (Dd1 + Dd2 + Dd3)/nº defeitos MTBF = 48/3
Tempo entre o início e o 1º defeito (Dd1) = 6 h Tempo entre 1º e 2º defeitos (Dd2) = 26 h Tempo entre 2º e 3º defeitos (Dd3) = 16 h MTBF = (Dd1 + Dd2 + Dd3)/nº defeitos MTBF = 48/3 MTBF = 16 h

22 Demais medidas Taxa de defeitos MTBF MTTF MTTR
Com que freqüência ocorrem defeitos? Qual o tempo entre um defeito e outro? Qual o tempo até o primeiro defeito? Qual o tempo gasto para reparar cada defeito? Quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo? Quais as chances dos sistema estar funcionando em um determinado instante? MTBF MTTF MTTR

23 Confiabilidade Reliability
probabilidade de que um sistema funcione corretamente durante um intervalo de tempo [t0,t] Reliability Considerando um sistema contendo N componentes idênticos S(t) = numero de componentes sobreviventes no tempo t F(t) = numero de componentes falhos no tempo t

24 Confiabilidade R(t) = e-t exponential failure law
para um taxa de defeitos constante  a confiabilidade R(t) varia exponencialmente em função do tempo sistema na fase de vida útil: taxa de defeitos constante  R(t) = e-t é a mais usada relação entre confiabilidade e tempo válida principalmente para componentes eletrônicos discutível se vale para software: conforme o software vai sendo usado, bugs vão sendo descobertos e a confiabilidade do software aumenta exponential failure law

25 Confiabilidade, MTTF e Taxa de defeitos
Qualquer sistema tem 37% de chance de funcionar corretamente durante um período de tempo = MTTF (63% de falhar)

26 Confiabilidade: distribuição de Weibull
Expressão semi-empírica desenvolvida por Ernest Hjalmar Wallodi Weibull, físico sueco, que em 1939 apresentou o modelo de planejamento estatístico sobre fadiga de material. Sua utilidade decorre do fato, de permitir: representar falhas típicas de partida (mortalidade infantil), falhas aleatórias e falhas devido ao desgaste. obter parâmetros significativos da configuração das falhas. representação gráfica simples.

27 Confiabilidade: distribuição de Weibull
se taxa de defeitos varia com o tempo z(t) distribuição de Weibull importante para modelagem de software onde a confiabilidade pode inclusive aumentar com o tempo z(t) = (t)-1 para >0 e >0 R(t) = e –(t) para = z(t) = constante =  para > z(t) = aumenta com o tempo para < z(t) = diminui com o tempo  e  são constantes que controlam a variação de z(t) no tempo

28 Confiabilidade Para: =1 =0,1 taxa de defeitos constante
confiabilidade diminui com o tempo

29 Confiabilidade taxa de defeitos diminui Para: =0,6 =0,1 Como tempo
confiabilidade diminui com o tempo mas não tão acentuadamente

30 Confiabilidade Para: =2 =0,1 taxa de defeitos aumenta
linearmente com o tempo confiabilidade diminui com o tempo acentuadamente

31 Disponibilidade A(t): Availability
probabilidade do sistema estar operacional no instante t (disponível para o trabalho útil) alternância entre períodos de funcionamento e de reparo A(t) = R(t) quando reparo tende a zero lembrar que MTBF = MTTF + MTTR intuitivamente A(t) = top / (top+ treparo) genericamente A(t) = MTTF / (MTTF + MTTR) top = tempo de operação normal Treparo = tempo de reparo nessa relação, o significado de alta disponibilidade fica mais claro diminuindo o tempo médio de reparo, aumenta a disponibilidade

32 Cobertura Cobertura de falhas Extremamente difícil de calcular
Habilidade do sistema de realizar detecção, confinamento, localização, recuperação... Geralmente se refere a habilidade de realizar recuperação de falhas Significado matemático: Probabilidade condicional que dada uma falha o sistema se recupere Determinação: listar falhas possíveis e falhas que o sistema pode tolerar e calcular o percentual Muito usada também em experimentos de injeção de falhas Extremamente difícil de calcular Geralmente assumido um valor constante

33 Problemas com medidas Defeitos são eventos aleatórios
Podem demorar muito para ocorrer, não ocorrer ou ocorrer em um momento não apropriado Custo de avaliação experimental é alto Necessária uma grande quantidade de amostras Necessário tempo grande de avaliação É importante avaliar durante o projeto do sistema Injeção de falhas


Carregar ppt "Carlos Oberdan Rolim Ciência da Computação"

Apresentações semelhantes


Anúncios Google