Mais sobre potência: As novas idéias CMP502 Profs. Luigi e Flávio.

Slides:

Advertisements

Apresentações semelhantes

Microcontroladores Uma visão geral.

Advertisements

Coerência de Cache em Multiprocessadores

Integridade de Dados em Memórias Cache

Organização e Arquitetura de Computadores I Microarquitetura

Introdução à Hierarquia de Memória

Modos de Transferência Acesso Direto à Memória (DMA)

Arquitetura e organização de computadores

Arquitetura e organização de computadores.

Barramentos Introdução.

ARQUITETURA DE COMPUTADORES II

Sistemas Digitais Projeto RTL – Unidade de Execução

Exemplo de arquitetura registrador-registrador- MIPS

MIPS MULTICICLO Fluxo de Dados e Controle

Arquitetura de Sistemas Operacionais

Processador Intel Itanium

Arquiteturas Superescalares

Arquiteturas Diferentes

Sistemas Operacionais

SSC144 Arquitetura de Computadores Introdução

Aula 10 06/10/10 (Turma 1 e 2) Profa. Sarita

Maria Aparecida Castro Livi

Universidade Federal do Rio Grande do Sul Programa de Pós-Graduação em Computação Exploração do espaço de projeto para uma arquitetura de processamento.

Mateus Beck Rutzig Picojava Processors Mateus Beck Rutzig

Professor: Carlos Roberto da Silva Filho, M. Eng.

E algumas idéias de como usar reconfiguráveis CMP231.

Gustavo Vieira Pereira

DSP – TMS320LF2407A.

Hierarquia de Memória Organização da cache

Sistemas Operacionais I

Introdução à Programação

Arquitectura de Computadores II

Fundamentos da Arquitetura de Computadores

Fundamentos de programação CUDA

Arquitetura de computadores

Organização de Computadores

Arquitetura de computadores

Sistemas Operacionais I

Arquitetura de computadores

Aveiro, 28 de Abril de Arquitectura de Computadores II Ano lectivo 2003/2004 Nuno

Agenda - Aula 2 Introdução (Computador Digital) Processadores

Agenda Modos de Endereçamento.

Davi de Andrade Lima Castro RA:  A plataforma C6000: ◦ Ponto-fixo:  C62x  C64 / C64x+ ◦ Ponto-flutuante:  C67x / C67x+ ◦ Arquitetura VLIW:

Pet computação UFPE Aula de apoio aos feras: Arquitetura de Computadores.

Processamento de dados na UCP e memória UCP

Arquitetura de Computadores

Unidade Central De Processamento: Processador

ARQUITETURA DE COMPUTADORES II

Experimentação Algorítmica

INTRODUÇÃO À COMPUTAÇÃO

PIC Peripheral Interface Controller

Montagem e Manutenção de Computador I Curso Técnico em Rede de Computadores Aula 05.

Trace caches: alternativa inteligente à cache de instruções Danilo Lacerda RA:

Bruno C. Bourbon Jarbas J. de O. Júnior {bcb, cin.ufpe.br

Microprocesadores x Microcontroladores

Localidade Princípio da localidade è um programa acessa uma

Ch7b-1 Capítulo Sistemas de Memória - Memória Virtual.

Arquitetura de Sistemas Embarcados

Slides before 1st Section Divider

TRACE CACHE Mário Luiz Rodrigues Oliveira IC/UNICAMP JUNHO/2006.

Engenharia de Sistemas Embarcados Aula 5: Um Conjunto Básico de Ferramentas.

Introdução à Computação Componentes Básicos dos Computadores

O que devem fazer os Microprocessadores ?

Transmissão de Dados O Modelo de Referência TCP/IP A Camada de Rede

Funcionamento interno do computador

Arquitetura de Sistemas Operacionais

ARQUITETURA DE VON NEUMANN

Memória Cache.

Introdução ao Processamento Vetorial

 Todo processador é constituído de circuitos capazes de realizar algumas operações primitivas:  Somar e subtrair  Mover um dado de um local de armazenamento.

Transcrição da apresentação:

Mais sobre potência: As novas idéias CMP502 Profs. Luigi e Flávio

Quando o HW está fixo Cache e hierarquia de memórias são fonte de consumo (Benini et al.; D&T april 2000) cache: –tags –alta velocidade –alta penalidade em miss –feita para desempenho médio otimizado

Memórias embarcadas Padrão da aplicação é conhecido Ao invés de tags, usar lógica de decodificação em caso de miss, vai à memória principal –o processador entra em wait –o tempo de miss é fixo e previsível o objetivo é potência, não desempenho

Resultados reportados MPEG3 –256 words com 66% dos acessos (939K) –1024 words com 74% dos acessos (1M) ganhos de 44.8% (1KB,L=4, a=1, write- through) a 9.9%, (4KB, L=16, a=1, write- back) Para aplicações com mais localidade, ganhos maiores somente com pequenas memórias

Ainda sobre memórias A leitura de um 0 ou 1 consome a mesma potência A leitura de seqüências de 0s ou 1s consome a mesma potência Um circuito combinacional reduziria a potência média pela estatística das transições redução por fator 3 sem sense-amplifier

Conclusão sobre potência e memórias Maioria dos trabalhos tenta: –desligar memória –reduzir a memória em blocos –tirar proveito da localidade da aplicação –evitar o acesso através da compressão (instruções) resultados percentualmente baixos –qual o caminho para ordens de grandeza?

Potência e circuitos reconfiguráveis Reconfiguráveis para desempenho e baixa potência –potencialmente, mais operações em paralelo, pode-se baixar Vdd e manter throughput –máquinas vetoriais possuem alto MIPS/mW –uma única instrução produz várias operações Estudo de caso: máquina DART

DART Mercado de telecomunicações controlador: FSM programável PO: multiplicadores, somadores e memórias, com conexão cross-bar instrução: altera os caminhos e as operações, e deve ser executada por muitos ciclos

DART II Poucos bits ou ciclos são necessários para alterar a PO e a PC unidades especializadas em geração de endereço boa para aplicações de fluxo contínuo resulatdos; 43 instruções para autocorrelação de um vetor, contra em um DSP (qual o catch?)

Reconfiguração em processadores normais Xu & Albonesi, D&T Jan Processadores possuem fontes de consumo nas TLBs, caches, predição de salto, etc tudo isto é para manter o paralelismo Quanto paralelismo existe a disposição? Máquina virtual, com 1024 instruções //, out-of-order, 1024register update unit.

Resultados de paralelismo 3 maquinas: 1, 1/2, 1/4 tomcatv & fppp - boa diferença turb3d, li, hydro2d e ijpeg: entre 4-22% diferença, ALTERÁVEL na medidade que o programa executa (vide plots) nas memórias: alterna períodos de 8X ganhos contra 15%!

Resultados do paralelismo II Tanto na arquitetura da PO quanto mas memórias, a quantidade de paralelismo varia não só com programas, mas com o tempo há um alto grau de ineficiência nas estruturas de HW fixas. Algum grau de adaptabilidade seria interessante, para sintonia-fina de cada aplicação

A proposta A cada 100k-2M instruções pode-se alterar a configuração a memória é particionada em vários buffers desligáveis (35% economia, 2% perda desempenho) a PO é desligável (1, 1/2 e 1/4), apresentando 33% economia o que acontece com os dois juntos? Quão realista é o modelo?

Conclusão Há esperança fora de uma busca detalhada para acúmulo de pequenos ganhos? Quais as grandes linhas de economia de potência quando uma plataforma é utilizada?