Mais sobre potência: As novas idéias CMP502 Profs. Luigi e Flávio.

Slides:



Advertisements
Apresentações semelhantes
Microcontroladores Uma visão geral.
Advertisements

Coerência de Cache em Multiprocessadores
Integridade de Dados em Memórias Cache
Organização e Arquitetura de Computadores I Microarquitetura
Introdução à Hierarquia de Memória
Modos de Transferência Acesso Direto à Memória (DMA)
Arquitetura e organização de computadores
Arquitetura e organização de computadores.
Barramentos Introdução.
ARQUITETURA DE COMPUTADORES II
Sistemas Digitais Projeto RTL – Unidade de Execução
Exemplo de arquitetura registrador-registrador- MIPS
MIPS MULTICICLO Fluxo de Dados e Controle
Arquitetura de Sistemas Operacionais
Processador Intel Itanium
Arquiteturas Superescalares
Arquiteturas Diferentes
Sistemas Operacionais
CISC e RISC.
SSC144 Arquitetura de Computadores Introdução
Aula 10 06/10/10 (Turma 1 e 2) Profa. Sarita
Maria Aparecida Castro Livi
Universidade Federal do Rio Grande do Sul Programa de Pós-Graduação em Computação Exploração do espaço de projeto para uma arquitetura de processamento.
Mateus Beck Rutzig Picojava Processors Mateus Beck Rutzig
Professor: Carlos Roberto da Silva Filho, M. Eng.
E algumas idéias de como usar reconfiguráveis CMP231.
Gustavo Vieira Pereira
DSP – TMS320LF2407A.
Hierarquia de Memória Organização da cache
Sistemas Operacionais I
Introdução à Programação
Arquitectura de Computadores II
Fundamentos da Arquitetura de Computadores
Fundamentos de programação CUDA
Arquitetura de computadores
Organização de Computadores
Arquitetura de computadores
Sistemas Operacionais I
Arquitetura de computadores
Aveiro, 28 de Abril de Arquitectura de Computadores II Ano lectivo 2003/2004 Nuno
Agenda - Aula 2 Introdução (Computador Digital) Processadores
Agenda Modos de Endereçamento.
Davi de Andrade Lima Castro RA:  A plataforma C6000: ◦ Ponto-fixo:  C62x  C64 / C64x+ ◦ Ponto-flutuante:  C67x / C67x+ ◦ Arquitetura VLIW:
Pet computação UFPE Aula de apoio aos feras: Arquitetura de Computadores.
Processamento de dados na UCP e memória UCP
Arquitetura de Computadores
Unidade Central De Processamento: Processador
ARQUITETURA DE COMPUTADORES II
Experimentação Algorítmica
INTRODUÇÃO À COMPUTAÇÃO
PIC Peripheral Interface Controller
Montagem e Manutenção de Computador I Curso Técnico em Rede de Computadores Aula 05.
Trace caches: alternativa inteligente à cache de instruções Danilo Lacerda RA:
Bruno C. Bourbon Jarbas J. de O. Júnior {bcb, cin.ufpe.br
Microprocesadores x Microcontroladores
Localidade Princípio da localidade è um programa acessa uma
Ch7b-1 Capítulo Sistemas de Memória - Memória Virtual.
Arquitetura de Sistemas Embarcados
Slides before 1st Section Divider
TRACE CACHE Mário Luiz Rodrigues Oliveira IC/UNICAMP JUNHO/2006.
Engenharia de Sistemas Embarcados Aula 5: Um Conjunto Básico de Ferramentas.
Introdução à Computação Componentes Básicos dos Computadores
O que devem fazer os Microprocessadores ?
Transmissão de Dados O Modelo de Referência TCP/IP A Camada de Rede
Funcionamento interno do computador
Arquitetura de Sistemas Operacionais
ARQUITETURA DE VON NEUMANN
Memória Cache.
Introdução ao Processamento Vetorial
 Todo processador é constituído de circuitos capazes de realizar algumas operações primitivas:  Somar e subtrair  Mover um dado de um local de armazenamento.
Transcrição da apresentação:

Mais sobre potência: As novas idéias CMP502 Profs. Luigi e Flávio

Quando o HW está fixo Cache e hierarquia de memórias são fonte de consumo (Benini et al.; D&T april 2000) cache: –tags –alta velocidade –alta penalidade em miss –feita para desempenho médio otimizado

Memórias embarcadas Padrão da aplicação é conhecido Ao invés de tags, usar lógica de decodificação em caso de miss, vai à memória principal –o processador entra em wait –o tempo de miss é fixo e previsível o objetivo é potência, não desempenho

Resultados reportados MPEG3 –256 words com 66% dos acessos (939K) –1024 words com 74% dos acessos (1M) ganhos de 44.8% (1KB,L=4, a=1, write- through) a 9.9%, (4KB, L=16, a=1, write- back) Para aplicações com mais localidade, ganhos maiores somente com pequenas memórias

Ainda sobre memórias A leitura de um 0 ou 1 consome a mesma potência A leitura de seqüências de 0s ou 1s consome a mesma potência Um circuito combinacional reduziria a potência média pela estatística das transições redução por fator 3 sem sense-amplifier

Conclusão sobre potência e memórias Maioria dos trabalhos tenta: –desligar memória –reduzir a memória em blocos –tirar proveito da localidade da aplicação –evitar o acesso através da compressão (instruções) resultados percentualmente baixos –qual o caminho para ordens de grandeza?

Potência e circuitos reconfiguráveis Reconfiguráveis para desempenho e baixa potência –potencialmente, mais operações em paralelo, pode-se baixar Vdd e manter throughput –máquinas vetoriais possuem alto MIPS/mW –uma única instrução produz várias operações Estudo de caso: máquina DART

DART Mercado de telecomunicações controlador: FSM programável PO: multiplicadores, somadores e memórias, com conexão cross-bar instrução: altera os caminhos e as operações, e deve ser executada por muitos ciclos

DART II Poucos bits ou ciclos são necessários para alterar a PO e a PC unidades especializadas em geração de endereço boa para aplicações de fluxo contínuo resulatdos; 43 instruções para autocorrelação de um vetor, contra em um DSP (qual o catch?)

Reconfiguração em processadores normais Xu & Albonesi, D&T Jan Processadores possuem fontes de consumo nas TLBs, caches, predição de salto, etc tudo isto é para manter o paralelismo Quanto paralelismo existe a disposição? Máquina virtual, com 1024 instruções //, out-of-order, 1024register update unit.

Resultados de paralelismo 3 maquinas: 1, 1/2, 1/4 tomcatv & fppp - boa diferença turb3d, li, hydro2d e ijpeg: entre 4-22% diferença, ALTERÁVEL na medidade que o programa executa (vide plots) nas memórias: alterna períodos de 8X ganhos contra 15%!

Resultados do paralelismo II Tanto na arquitetura da PO quanto mas memórias, a quantidade de paralelismo varia não só com programas, mas com o tempo há um alto grau de ineficiência nas estruturas de HW fixas. Algum grau de adaptabilidade seria interessante, para sintonia-fina de cada aplicação

A proposta A cada 100k-2M instruções pode-se alterar a configuração a memória é particionada em vários buffers desligáveis (35% economia, 2% perda desempenho) a PO é desligável (1, 1/2 e 1/4), apresentando 33% economia o que acontece com os dois juntos? Quão realista é o modelo?

Conclusão Há esperança fora de uma busca detalhada para acúmulo de pequenos ganhos? Quais as grandes linhas de economia de potência quando uma plataforma é utilizada?