Organização e Arquitetura de Computadores II

Organização e Arquitetura de Computadores II
Aula Inaugural Última alteração: 02/08/2017 Prof. Ney Laert Vilar Calazans Baseado em notas de aulas originais do Prof. Dr. César Marcon

Apresentação Disciplina: Organização e Arquitetura de Computadores II
Horário: 2CD e 4CD Carga horária: > 60 horas Professor: Ney Laert Vilar Calazans Material: Homepage: Moodle

Sumário de Conteúdos (Programa da Disciplina)
Exploração de mecanismos e técnicas de entrada e saída em hardware e em software (Unidade 1) Evolução das arquiteturas de comunicação intrachip (Unidade 4) Compreensão da hierarquia de memória no desempenho do sistema (Unidade 3) Arquiteturas paralelas com computação mono e multiprocessadas (Unidade 2)

Relação com o Restante do Curso

Relação com o Restante do Curso
Recursos para operação do SO (e.g. escalonador HW/SW), Hierarquia de memória (cache, TLB, memória principal), Elementos do HW para multithread Circuitos digitais combinacionais e sequenciais, Descrição formal de HW (HDL) Conceitos de arquitetura e organização, organizações monociclo, multiciclo, pipeline (paralelismo básico) Recursos de HW para a computação paralela, Modelos de memória para computação paralela Introdução a: Unidade central de processamento (UCP), Subsistemas de memória e de Entrada/Saída

Metodologia, Bibliografia e Software de Apoio
Metodologia de ensino e andamento das aulas Definição de conteúdo de todas as aulas está na agenda Conteúdo Reduzido nos slides da disciplina (referência para a bibliografia) Estendido nos livros da bibliografia básica e auxiliar Aulas práticas Interação professor/aluno, aluno/aluno Básica W. Stallings, Arquitetura e organização de computadores, 2010 J.-L. Baer, Arquitetura de Microprocessadores – do Simples Pipeline ao Multiprocessador em Chip, 2013 J. Henessy, D. Patterson, Arquitetura de computadores: uma abordagem quantitativa, 2014 Software de Apoio ISE (Ferramenta para síntese e simulação funcional para HDL)

Metodologia, Bibliografia e Software de Apoio
Metodologia de ensino e andamento das aulas Definição de conteúdo de todas as aulas está na agenda Conteúdo Reduzido nos slides da disciplina (referência para a bibliografia) Estendido nos livros da bibliografia básica e auxiliar Aulas práticas Interação professor/aluno, aluno/aluno Básica W. Stallings, Arquitetura e organização de computadores, 2010 J.-L. Baer, Arquitetura de Microprocessadores – do Simples Pipeline ao Multiprocessador em Chip, 2013 J. Hennessy, D. Patterson, Arquitetura de computadores: uma abordagem quantitativa, 2014 Software de Apoio ISE (Ferramenta para síntese e simulação funcional para HDL)

Avaliações Provas Duas provas (P1 e P2)  cada uma envolvendo metade do conteúdo da disciplina Prova de substituição (PS)  em caso de ausência em P1 ou P2 – Não requer justificativa Prova de recuperação (G2)  em caso de alunos que não forem aprovados em G1, mas atingirem em G1 média igual ou superior a 4 Trabalhos T1 (Análise de modelos de troca de dados) T2 (Interrupção no MIPS com UART) T3 (Hierarquia de Memória com o MIPS) Composição das notas NT = (T1 + T2 + T3) / 3 G1 = (0,35 × P1) + (0,35 × P2) + (0,3 × NT) Aprovação Presença >= 75% G1 >= 7 ou G2 >= 5

Modelos de Comunicação – Critérios e Taxonomias
Critério Paralelismo Com. Serial / Com. Paralela Critério Sincronismo Com. Síncrona  Com. Semi-síncrona  Com. Assíncrona  Critério Sentidos dos Fluxos de Informação Com. Simplex Com. Half-duplex Com. Full-duplex

Sistemas de Entrada e Saída (E/S)
Mapeamento de Entrada e Saída (depende do Hw, ou não!) Em memória (sempre viável) Em portas de entrada e saída (pressupõe Hw específico) Modos de Transferência de Dados Modos E/S programada versus não programada E/S Programada Bloqueado Polling (inquisição)

Sistemas de Entrada e Saída (E/S)
Modos de Transferência de Dados (continuação) E/S programada (continuação) Interjeição E/S não programada Interrupção DMA

Inter-Relação: Armazenamento-Comunicação-Computação
RESTRIÇÕES REQUISITOS Aumento de desempenho Máximo calor dissipado Espaço de soluções de projeto Confiabilidade Máximo consumo de energia Máxima área (de dados ou outros) Operação em tempo real Computação Armazenamento Comunicação

Justificativa do Estudo de Comunicação Intrachip
No passado Processadores monolíticos Comunicação dedicada ponto-a-ponto entre módulos do processador Um mestre na comunicação (a UCP) Barramentos de baixa e alta velocidade intra- e extra-chip Mesmo depois (comercialmente, em single-chip, a partir de 2006) Poucos processadores (2-4 cores) Barramentos ainda viáveis Hoje e no futuro Cada vez mais processadores (8-16, 80, ) Pendurar todo mundo em um barramento  inviável Arbitragem complicada Redes intrachip são necessidade

Arquiteturas de Comunicação
Classificações Conectividade  ponto-a-ponto x multiponto Número de acessos simultâneos  Espacial x Temporal x Espaço-temporal Dinamicidade  estática x dinâmica

Estratégias de Comunicação Estratégias de Roteamento Momento da realização do roteamento  Dinâmico x Estático Número de destinos das mensagens  Unicast x Multicast x Broadcast Local para decisão de roteamento  Centralizado x Origem x Distribuído O processo de seleção do caminho  Determinístico x Adaptativo Políticas de Roteamento  Store-and-Forward x Virtual Cut-Through x Wormhole Estratégias de Conexão Chaveamento de circuito (circuit switching) Chaveamento de mensagem (message switching) Chaveamento de pacotes (packet switching) Problemas associados ao chaveamento de mensagens ou pacotes Deadlock x Starvation x Livelock Estratégias de Compartilhamento do Meio Físico Por colisão  CSMA/CD x CSMA/CA Passagem de Token Arbitragem Ligação serial (Daisy-chain)

Topologias Critérios para avaliação Complexidade de conexões Grau do nó Diâmetro Escalabilidade Desempenho Redundância Tipos Barramentos Totalmente Conectada Barramento Simples Barraments Hierárquicos B C D E A F

Topologias Tipos (Continuação) Árvore Estrela Anel Malha 2D Toro 2D

Topologias Tipos (Continuação) Hypercubo 3D Hypercubo 4D Matriz de Chaveamento Rede Multinível Ômega

Comparações

Hierarquia de Memória Introdução Motivação
Organização e características Princípios de localidade: espacial e temporal

Hierarquia de Memória Mapeamento de Endereços em Cache
Qual o problema? Cada nível de memória possui uma cópia de parte do nível de memória imediatamente inferior. Como? Porquê? Que novos problemas isto gera? Hierarquia de Memória Mapeamento de Endereços em Cache Mapeamento Direto  Mapeamento Associativo Mapeamento Conjunto Associativo 

Políticas de atualização de caches associativas Randômica Contador LFU (Least Frequently Used) LRU (Least Recently Used) Políticas para manter a integridade de dados na hierarquia Write-Through (Escreve Através) Write-Back (Escreve de Volta) Coerência de Cache em Multiprocessadores Problemas que poderiam causar incoerência Compartilhamento de Dados Inconsistência na Migração de Processos Inconsistência da Cache devido à Operações de E/S (e.g. DMA)

Coerência de Cache em Multiprocessadores (Continuação) Duas arquiteturas básicas Arquiteturas com comunicação à memória compartilhada baseada em barramento Baixa escalabilidade Arquiteturas com comunicação à memória compartilhada baseada em diretório Alta escalabilidade Estratégias de Coerência de Cache Write-update Write-invalidate

Hierarquia de Memória Protocolos de snooping (Write-update / Write-invalidate) baseados em estados de escrita e leitura E.g., M: Modified, E: Exclusive, S: Shared, I: Invalidated MSI MESI MOSI MOESI

Hierarquia de Memória Gerência de Memória Principal
Modos de Endereçamento Endereçamento Contíguo Direto Relativo Endereçamento Não-Contíguo Paginado Segmentado Segmento-paginado e TLB

Hierarquia de Memória Endereçamento completo

Processamento Paralelo
Introdução Motivação para a exploração de paralelismo Níveis de Paralelismo / Grau de Paralelismo Medidas de desempenho (Speed-up, eficiência, latência, vazão) Complicadores, limitações, principais relações Classificação de Máquinas Paralelas Classificação de Flynn Classificação com foco no modelo de acesso à memória (cache-only memory architecture)

Paralelismo em Máquinas Monoprocessadas Pipelines Pipeline simples Superpipeline (pipeline profundo) (paralelismo temporal extra) Pipeline Superescalar (paralelismo espacial extra) CPIMÁX = Lim I + (P-1) = Lim 1 + (P-1) = 1 P: profundidade do pipeline I: número de instruções do programa I I I I CPIMÁX = Lim I + P-1 I m x I m: número de sub-estágios do pipeline CPIMÁX = Lim I + P-1 n: grau do pipeline I n x I

Paralelismo em Máquinas Monoprocessadas VLIW Simultaneous Multi-Threading

Paralelismo em Máquinas Monoprocessadas Máquinas Vetoriais The Cell processor Playstation 3

Paralelismo com múltiplos processadores Multicore: Homogêneo (Dual core, Quad core, ...) / Heterogêneo SMP (Symmetric Multiprocessor) SPARC M7: 8 clusters, cada cluster com 4 cores, cada core L1 D/I 16Ki, cada 4 cores com 256KB L2 I, cada 2 cores com 256KB D, cada cluster 8MB L3 SPARC64-X: 16 cores, 4 bancos de cache L2

Paralelismo com múltiplos processadores – Estruturas 2D elaboradas Tilera-Gx – cada core com 32KB L1 I/D e 256Ki L2 cache  arquitetura suporta mais de 200 cores

Paralelismo 3D - múltiplos processadores e múltiplos níveis de memória

Paralelismo com múltiplos processadores 3D (Programação UMA, NUMA, NORMA)

Organização e Arquitetura de Computadores II

Apresentações semelhantes

Apresentação em tema: "Organização e Arquitetura de Computadores II"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Organização e Arquitetura de Computadores II

Apresentações semelhantes

Apresentação em tema: "Organização e Arquitetura de Computadores II"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback