Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China. Network Operations and Management Symposium - NOMS 2008 Apresentado.

Slides:



Advertisements
Apresentações semelhantes
Aula 3 – Transmissão Digital
Advertisements

João Luiz Fernandes e Aura Conci Universidade Federal Fluminense
A Note on Distributed Computing
Disponibilidade, tolerância a falhas e resiliência
Sistemas distribuídos Metas de Projeto Prof. Diovani Milhorim
Sistemas Distribuídos
Engenharia de Software
INTELIGÊNGIA COMPUTACIONAL
Redes de computadores I
Bruno Rafael de Oliveira Rodrigues
Sistemas Distribuídos
Sistemas Distribuídos
Sistemas Distribuídos Walfredo Cirne & Fubica Brasileiro Aula 3:Conceitos Básicos As figuras que.
Sistemas Distribuídos
Revisões de Software Parte 1
Máquina de Estados Uma máquina de estados finitos ou autômato finito é uma modelagem de um comportamento composto por estados, transições e ações Um estado.
Máquina de Estados Uma máquina de estados finitos ou autômato finito é uma modelagem de um comportamento composto por estados, transições e ações Um estado.
Complexidade de Algoritmos
Linguagens de Programação
24/05/1999Non-Blocking Atomic Commitment1 in Distributed Systems Faculdade de Ciências da Universidade de Lisboa Mestrado 98/99 Tolerância a Faltas em.
Tipos de Melhoria Contínua
Processos de Software II
Sistemas Distribuídos
Protocolo CMB em simulação distribuída
Middleware e Sistemas Distribuídos
REDUNDÂNCIA POR SOFTWARE
Administração de Sistema Operacional de Rede WindowsServer-2003 WindowsServer-2003 Ricardo de Oliveira Joaquim TECNOLÓGICOS.
Sistemas de Detecção de Intrusão
Sistemas Distribuídos
Gerhard M¨unz, Sa Li, Georg Carle Computer Networks and Internet Wilhelm Schickard Institute for Computer Science University of Tuebingen, Germany Traffic.
Tópicos em redes e sistemas distribuídos
Tópicos em redes e sistemas distribuídos B Carlos Oberdan Rolim Ciência da Computação.
Sistemas Distribuídos
Gerenciamento de Dados
É um conjunto de registos dispostos numa estrutura regular que possibilita a reorganização dos mesmos e a produção de informação com a menor redundância.
Área de Pesquisa: Redes de Computadores
ACESSO A BASE DE DADOS.
IDS - Sistemas de Detecção de Intrusão (Intrusion Detection System)‏
1 A COMPUTAÇÃO MODERNA Valdemar W. Setzer Depto. de Ciência da Computação da USP
Aula 19 – Método Gespública MPOG Prof Júlio Andrade Fonte: MPOG – GesPublica, “Guia de Indicadores”, Brasília – DF, 2010.
SISTEMAS DISTRIBUIDOS Aula 4
Testes de Software AULA 06 Eduardo Silvestri
Gestão de defeitos.
Zeque - Grad. CC1 Sistemas Operacionais Curso de Ciência da Computação da UFPE Prof. José Queiroz - ZEQUE.
Sistemas Digitais e Automação
Protocolo MODBUS [ Slide de Abertura com a presença de outras logomarcas ] A segunda opção é a mais apropriada para a presença de mais de duas marcas.
Difusão de Informação em Meio Sem-fio (2)  Índice exponencial;  Índice baseado em localização;  Programação de broadcast de dados por demanda;  Sistema.
Integração de Ferramentas CASE
MSCC - Introdução Baseado no capítulo 1 do livro Performance Evalution of Computer and Communication Systems, de Jean-Yves Le Boudec (EPFL)
A P2P-Based Self-Healing Service for Network Maintenance
Multilayer Failure Detection Method for Network Services Based on Distributed Components Eisuke Hirota, Kazuhiko Kinoshita, Hideki Tode, Koso Murakami,
Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação.
Prototipação de Software
UML Statechart CIn-UFPE.
INTRODUÇÃO AOS MÉTODOS NUMÉRICOS Professor: Dr. Edwin B. Mitacc Meza
Estilos Arquiteturais
Abordagem Sistemática Guilherme Amaral Avelino Avaliação e Controle de Sistemas de Informação.
UML (Unified Modeling Language) Linguagem Unificada de Modelagem
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.
Projetar Processos. Copyright © 2002 Qualiti. Todos os direitos reservados. Qualiti Software Processes Projetar distribuição | 2 Descrição do Projeto.
Fundamentos de Engenharia de SW Diagramas da UML Usados no Projeto de Software.
Desenvolvimento de Software I
IDS (Intrusion Detection System) Sistemas de Detecção de Intrusão
Estimativa, Teste e Inspeção de Software
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
18/09/ /12/20082 Testes Baseados Em Modelo Diana Rúbia Paulo César Qualidade, Processos e Gestão de Software Alexandre Vasconcelos {drrr, pco,
Estruturas de Sistemas Operacionais. Componentes Comuns do Sistema Administração de Processos Administração da Memória Principal Administração do Armazenamento.
TESTES DE SOFTWARE – AULA 1 Prof. Me. Ronnison Reges Vidal
Lucas R. Costa Rodrigo R. Bezerra Kaio A. da silva
Transcrição da apresentação:

Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China. Network Operations and Management Symposium - NOMS 2008 Apresentado por Katia Abreu Tópicos em Redes Pós-Graduação em Informática – UFPR – out/2008 “A State Machine Approach for Problem Detection in Large-scale Distributed System”

Motivação Detecção de problema é parte importante do gerenciamento de um sistema de larga-escala Sistemas distribuídos geram logs detalhados para gravar suas atividades Problemas ainda são inevitáveis: bug da aplicação, middleware instável, hardware Empresas: QoS reduzido, competitividade reduzida Abordagens existentes: Poucas consideram a análise de log de múltiplos hosts de um sistema distribuído em larga-escala Algumas detectam somente problemas conhecidos

Roteiro Objetivos Conceitos e Definições Transação, Eventos e Transições em ME Detecção de Anomalias e Padrões de Problemas Um Estudo de Caso Conclusão

Objetivos Apresentar um novo modelo de análise de logs: PDSM (Problem Detection State Machine)‏ Baseia-se na projeção do comportamento de um sistema distribuído e mantém informações estatísticas desse comportamento Objetivo do método: coletar logs de componentes do sistema, construir uma Máquina de Estados, e usá-la pra verificar o comportamento de um sistema. Descrever como PDSM representa as atividades de um sistema de larga-escala em execução.

Definição do Ambiente SD subsistemas componentes Transação Estados = componentes + transição Controle de processamento é passado de um componente a outro Requisição da aplicação O que é Maq. Estados? O que é SD em larga- escala?

O Conceito de PDSM Projeção do comportamento dos componentes Requisições entrantes

SD é composto por um conjunto de componentes C = {c 1,c 2,…,c n } Um c i é componente atômico se ele não contém outros componentes Ponto de Log é o local onde log de eventos são gerados. O conjunto de pontos de log de um componente atômico é L(c i ) = {lp 1,lp 2,...lp m } Para cada transação disparada por uma requisição r, ∃ um conjunto de componentes C(r), onde C(r) ⊂ C Definições Para o PDSM

Máquina de Estados de Transação de Única Requisição Define-se Máquina de Estados - M r - de uma transação, servindo uma única requisição, através da tupla: Estados da transação Conjunto dos Eventos que geram transições A probab. de um Estado de Q r ser o estado inicial

Equação Considerando I r, P r e F r

PDSM Global Une todas as máquinas de estados de todas as requisições. Pode ser denotada por:

Questões com os Eventos Logs são geradas por diferentes componentes Itens de log devem ter formato único Não existe relógio global Um método deve determinar a ordem relativa dos eventos É requerido rastrear a transação e extrair os eventos relacionados a ela

PDSM: Processamento de Eventos Log de eventos são convertidos em um formato único, isto é, eventos base comum Para assegurar a abordagem adaptativa, não assume que todos os relógios são sincronizados Ordem parcial em um conjunto de eventos + informações de tempo real Para extrair os eventos relacionados à transação Magpie, Pinpoint

Algoritmos

Construção de Máquina de Estados Usando Log de Eventos Agrupamento de eventos em Estados De acordo com suas especificações e informações de mensagens O algoritmo:

Probabilidade de Transição A probabilidade de transição do Estado s para s’ é denotada pela divisão de n’ por n, onde: n : número total de estados s n’: número total de transições que acontecem entre s e s’

Detecção de Anomalia num. Estados de S 4 num. transições de um Estado para outro 99,9% 0,1% Ponto de problema ou execução de um serviço acessado raramente?

Como resolver? Usar informações detalhadas da transição S 2 S 5 e do Estado S 5 Algoritmo para avaliar a anomalia dos Estados Idéia básica: visitar uma série de Estados ruins que se desviam do percurso normal O Estado mais suspeito de ser um problema é distinguido dos demais

Classificação dos eventos em níveis de erro: error/fatal, exception, warning, information e unknown É aplicada uma função para verificar o nível do Estado de erro E(s) Para cada Estado a partir do seu nível de erro é calculado se o Estado é uma Anomalia, se é um estado Normal, ou se não é possível classificar. Algoritmo para Avaliar Estado Anormal

Para erros que acontecem intermitentemente em um ou mais Estados Conectividade: Existe uma ligação entre esses Estados com erros intermitentes Verifica se o problema acontece em pares de Estados conectivos e se ambos têm o problema Saída: o conjunto de transições consideradas padrões de problemas Algoritmo para Detecção de Padrão de Problema

Experimentação 4 máquinas Emprego do benchmark Trade 6 A abordagem é validada sobre a aplicação J2EE 3-tier

Problemas Introduzidos Introduzidos separadamente Com duração de 1 hora Após 30 minutos de execução do sistema

Detecção de Problema Individual Projeção de um problema de shutdown acidental em DB2

Inserção de Um Problema Um novo problema aumenta o número de Estados PDSM fornece uma projeção em tempo real

Detecção de Múltiplos Problemas Máquina de Estados Global para todos os problemas introduzidos

Número de Estados e número de transições aumentam a cada novo problema Inserção de Múltiplos Problemas

Compressão de Logs PDSM une informações redundantes De milhões de logs/cententas de Estados para logs/291 Estados

Conclusão PDSM é um modelo de análise de log que representa a execução de um sistema distribuído de larga-escala Mantém informações estatísticas de comportamento Reduz os esforços de análise de logs ao fazer compressão Não necessita de conhecimento de alguma base de dados de problemas É sensível a problemas desconhecidos