A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação.

Apresentações semelhantes


Apresentação em tema: "Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação."— Transcrição da apresentação:

1 Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação

2 Arquiteturas paralelas

3 Arquiteturas computacionais Taxonomia de Flynn: se baseia nas possíveis unicidade e multiplicidade dos fluxos de instruções e de dados para definir quatro tipos de arquiteturas: SISD (Single Instruction Streams Single Data Streams ): Fluxo único de instruções sobre um único conjunto de dados. Computadores sequenciais SIMD (Single Instruction Streams Multiple Data Streams ): Fluxo único de instruções em múltiplos conjuntos de dados.Computadores vetoriais e matriciais MISD (Multiple Instruction Streams Single Data Streams ): Fluxo múltiplo de instruções em um único conjunto de dados.Não existem computadores MIMD (Multiple Instruction Streams Multiple Data Streams ): Fluxo múltiplo de instruções sobre múltiplos conjuntos de dados..Arquiteturas com múltiplos processadores independentes

4 Classificação de Flynn SISD (Single Instruction Single Data) Máquinas von Neumann tradicionais: microcomputadores pessoais e estações de trabalho

5 Classificação de Flynn SIMD (Single Instruction Multiple Data) Máquinas array: CM-2, MasPar

6 Classificação de Flynn MISD (Multiple Instruction Single Data) Não existe!

7 Classificação de Flynn MIMD (Multiple Instruction Multiple Data) Multiprocessadores e multicomputadores: nCube, Intel Paragon, Cray T3D

8 Multiprocessadores e multicomputadores Computadores Paralelos e Distribuídos MIMD Multiprocessadores (memória compartilhada) Multicomputadores (memória privada) BarramentoSwitchedBarramentoSwitched Fortemente AcopladoFracamente Acoplado Sequent, Encore Ultracomputer, RP3 Estações de Trabalho Transputer, Hypercube

9 Multiprocessadores Baseado em barramento CPU cache CPU cache CPU cache Memória

10 Multiprocessadores Baseado em switch MMMM C C C C C C C C M M M M crossbar switch omega switching network

11 Multicomputadores Baseado em barramento CPU Memória Local Estação de Trabalho CPU Memória Local Estação de Trabalho CPU Memória Local Estação de Trabalho Rede

12 Multicomputadores Baseado em switch grid hypercube

13 Compartilhamento de memória Multiprocessadores (espaço de endereçamento único) UMA (uniform memory access) - memória central NUMA (non-uniform memory access) - memória distribuída COMA (cache-only memory architecture) CC-NUMA (cache-coherent non-uniform memory access) NCC-NUMA (non-cache-coherent non-uniform memory access) Multicomputadores (múltiplos espaços de endereçamento) NORMA (non-remote memory access) SC-NUMA (software-coherent non-uniform memory access) DSM (Distributed shared memory)

14 Compartilhamento de memória UMA PPPPPPPP Rede de Interconexão M Coerência de cache resolvida em HW.

15 Acesso Não-Uniforme à Memória (NUMA) NUMA Dois ou mais processadores compartilham a memória global (= um único espaço de endereçamento). Em um sistema NUMA os processadores são organizados em nós. Cada nó possui 1 ou mais processadores, com sua(s) própria(s) memória(s) cache (um, dois, ou mais níveis) e alguma memória principal conectados por um barramento ou outro sistema de interconexão. Principal característica de uma arquitetura NUMA é o acesso não uniforme à memória, ou seja, embora todos os processadores possam acessar todas as posições de memória, os tempos de acesso variam de acordo com o endereço acessado Acesso local mais rápido que acesso remoto Dois tipos: ncNUMA (NUMA sem cache) e ccNUMA (NUMA com cache)

16 Compartilhamento de memória NUMA PPPPPPPP Rede de Interconexão MMMMMMMM espaço de endereçamento

17 Compartilhamento de memória NORMA Rede de Interconexão P M P M P M P M P M P M P M P M

18 Arquiteturas paralelas Serie: N módulos conectados um após o outro. Falha de um módulo ocasiona falha o sistema todo Paralelo: N módulos conectados entre si. O sistema falha somente se todos os módulos falharem

19 Arquiteturas paralelas Confiabilidade pode ser calculada através das fórmulas Regra: Todos os módulos podem ser percorridas da esquerda para a direita Quando não pode percorrer todos os caminhos usar a fórmula: ADF funciona BCDF não funciona Série Paralelo

20 Arquiteturas paralelas e distribuídas Cray T90 Cray SX6

21 Arquiteturas paralelas e distribuídas Multiprocessadores simétricos (SMP) Múltiplos processadores similares conectados entre si e à memória por um barramento ou alguma outra forma de circuito de conexão interno Compartilhamento total Sistema operacional controla tudo P/C MC P/C Barramento / Matriz de chaveamento MC Baixa escalabilidade – gargalo no barramento. Exemplos: IBM R50, SGI Power Challenge, SUN Ultra Enterprise 10000, HP/Convex Exemplar X-Class, DEC Alpha Server 8400

22 Arquiteturas paralelas e distribuídas Intel Quad Xeon 7400 Server HP Integrity rx Server

23 Arquiteturas paralelas e distribuídas Máquinas maciçamente paralelas (MPP) P/C M M M Rede de interconexão de baixa latência Rede de interconexão proprietária. Comunicação através de troca de mensagens. Exemplos: Intel Paragon, Connection Machine CM-5, IBM SP-2

24 Arquiteturas paralelas e distribuídas IBM SP2 Intel Paragon Connection Machine CM-5

25 Arquiteturas paralelas e distribuídas Blue Gene da IBM

26 Arquiteturas paralelas e distribuídas Máquinas com memória compartilhada distribuída (DSM) P/C M M M Rede de interconexão de baixa latência NUMA / NORMA Os processadores podem acessar todas as memórias. (único espaço de endereçamento) DSM implementado em SW, HW ou misto. Exemplos: Stanford DASH, Cray T3D, estações de trabalho rodando TreadMarks

27 Arquiteturas paralelas e distribuídas Cray T3D

28 Clusters - Motivação Processamento de alto desempenho milhares de aplicações ao mesmo tempo tarefas paralelas Ao longo dos anos uso de arquiteturas massivamente paralelas (MPP) e de memória compartilhada (SMP) Custo elevado desses tipos de máquinas Computadores pessoais custo menor

29 O que é cluster ? Cluster é um sistema distribuído que consiste na coleção de computadores interconectados, usados como um sistema único (Gregory F. Pfister – In search of cluster) Sistema de processamento de dados paralelo ou distribuído Agregar computadores pessoais Computadores conectados de forma cooperativa Visão de sistema único para usuários e aplicações Execução de aplicações específicas de uma organização

30 Arquitetura de cluster Sequential Applications Parallel Applications Parallel Programming Environment Cluster Middleware (Single System Image and Availability Infrastructure) Cluster Interconnection Network/Switch PC/Workstation Network Interface Hardware Communications Software PC/Workstation Network Interface Hardware Communications Software PC/Workstation Network Interface Hardware Communications Software PC/Workstation Network Interface Hardware Communications Software Sequential Applications Parallel Applications

31 Classificação dos clusters Limite geográfico Utilização dos nodos Tipo de topologia Aplicações alvo Tipos de nós -Pequena (sala, laboratório) -Média (departamento) -Grande (organização) -Dedicados -Não dedicados -NOW (Network of Workstations) -COW (Cluster of Workstations) -Clumps (Cluster de SMPs) -Alto desempenho -Alta disponibilidade -Homogêneo -Heterogêneo Métricas para classificação dos clusters

32 Classificação dos clusters Limite geográfico: área de atuação do cluster Pequena (sala, laboratório) Média (departamento) Grande (organização)

33 Classificação dos clusters Utilização dos nós: define quais políticas de gerenciamento, segurança, alta disponibilidade, qual tipo de middleware usar Dedicados Não dedicados

34 Classificação dos clusters Tipo de topologia: qual hardware usar NOW (Network of Workstations): estações de trabalho normais COW (Cluster of Workstations): heterogêneas, usadas em aplicações específicas Clumps (Cluster de SMPs): composto por máquinas SMP

35 NOW Redes de estações de trabalho (NOW) P/C M M M Rede padrão (Ethernet,ATM) Compartilhamento de recursos. Utiliza rede convencional. Exemplos: estações de trabalho interligadas por Ethernet

36 NOW

37

38 COW Máquinas agregadas (COW) Aplicações paralelas, alta disponibilidade, balanceamento de carga. Pode utilizar rede convencional ou de alto desempenho. Otimizações em software. Exemplos: iCluster HP Labs (Grenoble), Primergy Server do PC 2 (Paderborn), cluster Amazônia (CPAD-PUCRS/HP) P/C M M M Rede padrão ou de alto desempenho

39 Clusters Clusters Amazônia e Ombrófila CPAD-PUCRS/HP

40 Clusters HP i-cluster Grenoble


Carregar ppt "Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação."

Apresentações semelhantes


Anúncios Google