Mais sobre potência: As novas idéias CMP502 Profs. Luigi e Flávio.

Mais sobre potência: As novas idéias CMP502 Profs. Luigi e Flávio

Quando o HW está fixo Cache e hierarquia de memórias são fonte de consumo (Benini et al.; D&T april 2000) cache: –tags –alta velocidade –alta penalidade em miss –feita para desempenho médio otimizado

Memórias embarcadas Padrão da aplicação é conhecido Ao invés de tags, usar lógica de decodificação em caso de miss, vai à memória principal –o processador entra em wait –o tempo de miss é fixo e previsível o objetivo é potência, não desempenho

Resultados reportados MPEG3 –256 words com 66% dos acessos (939K) –1024 words com 74% dos acessos (1M) ganhos de 44.8% (1KB,L=4, a=1, write- through) a 9.9%, (4KB, L=16, a=1, write- back) Para aplicações com mais localidade, ganhos maiores somente com pequenas memórias

Ainda sobre memórias A leitura de um 0 ou 1 consome a mesma potência A leitura de seqüências de 0s ou 1s consome a mesma potência Um circuito combinacional reduziria a potência média pela estatística das transições redução por fator 3 sem sense-amplifier

Conclusão sobre potência e memórias Maioria dos trabalhos tenta: –desligar memória –reduzir a memória em blocos –tirar proveito da localidade da aplicação –evitar o acesso através da compressão (instruções) resultados percentualmente baixos –qual o caminho para ordens de grandeza?

Potência e circuitos reconfiguráveis Reconfiguráveis para desempenho e baixa potência –potencialmente, mais operações em paralelo, pode-se baixar Vdd e manter throughput –máquinas vetoriais possuem alto MIPS/mW –uma única instrução produz várias operações Estudo de caso: máquina DART

DART Mercado de telecomunicações controlador: FSM programável PO: multiplicadores, somadores e memórias, com conexão cross-bar instrução: altera os caminhos e as operações, e deve ser executada por muitos ciclos

DART II Poucos bits ou ciclos são necessários para alterar a PO e a PC unidades especializadas em geração de endereço boa para aplicações de fluxo contínuo resulatdos; 43 instruções para autocorrelação de um vetor, contra 57000 em um DSP (qual o catch?)

Reconfiguração em processadores normais Xu & Albonesi, D&T Jan. 2000 Processadores possuem fontes de consumo nas TLBs, caches, predição de salto, etc tudo isto é para manter o paralelismo Quanto paralelismo existe a disposição? Máquina virtual, com 1024 instruções //, out-of-order, 1024register update unit.

Resultados de paralelismo 3 maquinas: 1, 1/2, 1/4 tomcatv & fppp - boa diferença turb3d, li, hydro2d e ijpeg: entre 4-22% diferença, ALTERÁVEL na medidade que o programa executa (vide plots) nas memórias: alterna períodos de 8X ganhos contra 15%!

Resultados do paralelismo II Tanto na arquitetura da PO quanto mas memórias, a quantidade de paralelismo varia não só com programas, mas com o tempo há um alto grau de ineficiência nas estruturas de HW fixas. Algum grau de adaptabilidade seria interessante, para sintonia-fina de cada aplicação

A proposta A cada 100k-2M instruções pode-se alterar a configuração a memória é particionada em vários buffers desligáveis (35% economia, 2% perda desempenho) a PO é desligável (1, 1/2 e 1/4), apresentando 33% economia o que acontece com os dois juntos? Quão realista é o modelo?

Conclusão Há esperança fora de uma busca detalhada para acúmulo de pequenos ganhos? Quais as grandes linhas de economia de potência quando uma plataforma é utilizada?

Mais sobre potência: As novas idéias CMP502 Profs. Luigi e Flávio.

Apresentações semelhantes

Apresentação em tema: "Mais sobre potência: As novas idéias CMP502 Profs. Luigi e Flávio."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Mais sobre potência: As novas idéias CMP502 Profs. Luigi e Flávio.

Apresentações semelhantes

Apresentação em tema: "Mais sobre potência: As novas idéias CMP502 Profs. Luigi e Flávio."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback