Programação Paralela em Ambientes Computacionais Heterogêneos com OpenCL César L. B. Silveira Prof. Dr. Luiz G. da Silveira Jr. Prof. Dr. Gerson Geraldo.

Slides:

Advertisements

Apresentações semelhantes

Trabalho de APSI II Diagrama de Instalação Victor Campolino Moussallem

Advertisements

IC - UFF Sistemas Operacionais Threads. IC - UFF Processos e threads Vimos o conceito de processo englobando duas características básicas: propriedade.

Introdução aos Sistemas Distribuídos

Sistemas operacionais

Programação Básica em Java

OpenMP MO801/MC972. Visão geral Biblioteca de mais alto nível para programação paralela Prevê memória compartilhada Requer suporte do compilador Exige.

Threads Estagiário: Bruno Guazzelli Batista Slides de autoria do Prof Drº Marcos José Santana baseados no livro Sistemas Operacionais Modernos de A. Tanenbaum.

SSC SISTEMAS OPERACIONAIS I

SSC SISTEMAS OPERACIONAIS I

Modificadores de tipos e Arquivos

Linguagens de programação

Linguagem C LPG-I – Variáveis Estruturadas – Vetores

LPG - I: Alocação Dinâmica de Memória - Ponteiros

Revisão da Linguagem C.

Prof. André Leon S. Gradvohl, Dr.

Concorrência em Java Threads em Java.

Unidade 1-1 Processos e Threads

Curso de Nivelamento LCG

SISTEMAS OPERACIONAIS

METODOLOGIA PARA DESENVOLVIMENTO DE SISTEMAS Prof. Dr. rer. nat. Daniel D. Abdala 1.

CUDA vs OpenCL Introdução.

Introdução a GPGPU CUDA: arquitetura de computação paralela para GPGPU.

Fundamentos de programação CUDA

Estrutura de dados II Carlos Oberdan Rolim Ciência da Computação Sistemas de Informação.

Programação Paralela em OpenCL

Concorrência entre Threads Java

César L. B. Silveira Prof. Dr. Luiz G. da Silveira Jr.

Paradigmas e Ferramentas de Desenvolvimento de Software – Revisão da linguagem C++ Lúbia Vinhas DPI - INPE.

Computação de Alto Desempenho Utilizando Placas Gráficas Divino César S. Lucas Universidade Católica de Goiás

Sistemas Operacionais

Universidade Federal do Pará Instituto de Ciências Exatas e Naturais Faculdade de Computação SISTEMAS OPERACIONAIS Aula 9 Regiane Kawasaki

Programação Paralela.

Uma Análise das plataformas CUDA e OpenCL usando MetaHeurísticas aplicadas no Problema do Caixeiro Viajante Aluno: Hedley Luna Gois Oriá Disciplina: Introdução.

Sistemas Operacionais

Algoritmos - Profa. Alciléia1 Profa. Maria Alciléia Alves Rocha Funções em C 2011.

Go3D! A 3D Graphics Engine Carlos Tosin. Divisão Estrutura dividida em 4 componentes Core (46 classes) Áudio (4 classes) Script (4 classes) Renderer (37.

Estruturas de Dados Aula 7: Tipos Estruturados 23/04/2014.

Sistemas Distribuídos

Subsistema de Entrada e Saída do Kernel

Seminário CI303 Lucas Nascimento Ferreira. Data sharing service: Propriedades Persistência Independentemente da aplicação Permitir o reutilização dos.

CES-10 INTRODUÇÃO À COMPUTAÇÃO

Perspectivas NVidia para Desktop Tiago Carneiro Pessoa

Algoritmos e Programação MC102 Prof. Paulo Miranda IC-UNICAMP Aula 15 Ponteiros.

Multiparadigma das Comunicações em Java para Grid Computing Fernanda R. Ramos Luiz Felipe Marco Eiterer Profº Alcides Calsavara, Ph.D.

Programação Computacional Aula 8: Entrada e Saída pelo Console Prof a. Madeleine Medrano

Estrutura de Interconexão

Prof. Wallace Borges Cristo

Pedro Leite Agenda Introdução Buffers Listener Sources Modelos de Distância Demo Conclusão Referências.

GPGPU: OpenCL, CUDA e Shaders

Capítulo 2 Processos e Threads 2.1 Processos 2.2 Threads

Algoritmo e Estrutura de Dados I Aulas 15 – Linguagem C Alocação Dinâmica de Memória Márcia Marra

Linguagem de Programação

Paradigmas de Processamento Paralelo na Resolução do Fractal de Mandelbrot Bruno Pereira dos Santos Dany Sanchez Dominguez Universidade Estadual de Santa.

Laboratório B – Sistemas Supervisórios N8LB9 Prof. Dr. Cesar da Costa 3.a Aula: Driver de Comunicação e Comunicação OPC.

USP – ICMC – SSC SSC0300 2º Semestre 2015 Disciplina de Linguagem de Programação e Aplicações [ Eng. Elétrica / Eletrônica ] 1 Prof. Dr. Daniel Rodrigo.

Sistemas Operacionais de Redes Virtualização IGOR ALVES.

Alocação Dinâmica Dilvan Moreira. Objetivos  Entender o que são e como usar:  Gerenciamento de Memória  Alocação Dinâmica em C.

Bruna Cavallero Martins Universidade Católica de Pelotas.

Anderson Braga de Avila 1.  Usar todos os recursos computacionais no sistema — CPUs, GPUs e outros processadores  Modelo de programação paralela eficiente.

Matheus Stigger FreeRTOS. Introdução Criado em 2000 por Richard Barry; Mantido hoje pela Real Time Engineers Ltd; É o RTOS de código aberto mais utilizado.

OpenCL Eliane Siegert. Estrutura – Princípio Geral de Funcionamento – Exemplos de Aplicações – Modelo de Programação – Linguagens Suportadas – Exemplos.

Programação em OpenCL Uma introdução prática

Programação em OpenCL Uma introdução prática

Programação em OpenCL Uma introdução prática

Programação em OpenCL Uma introdução prática

Transcrição da apresentação:

Programação Paralela em Ambientes Computacionais Heterogêneos com OpenCL César L. B. Silveira Prof. Dr. Luiz G. da Silveira Jr. Prof. Dr. Gerson Geraldo H. Cavalheiro 08 de novembro de 2010

Introdução Ambientes computacionais atuais: CPUs multicore e GPUs many-core – Ambientes heterogêneos – Processamento paralelo – Alto desempenho Como utilizar todo este poder computacional?

Introdução Programação paralela – CPUs Multithreading – POSIX Threads, Windows Threads, OpenMP, etc. – GPUs APIs gráficas (OpenGL, DirectX) Shaders Tecnologias proprietárias – NVIDIA CUDA, AMD Streaming SDK

Introdução Problema: múltiplas ferramentas e paradigmas – Alto custo de implementação – Aplicações dependentes de plataforma Necessidade de um padrão para programação paralela

Introdução Open Computing Language (OpenCL) – Padrão aberto, livre de royalties, para programação paralela em ambientes heterogêneos – Criado pela Apple – Mantido pelo Khronos Group desde 2008 – Define framework Arquitetura Linguagem API

Introdução Camadas de uma aplicação OpenCL

Hello World Código sequencial void ArrayDiff(const int* a, const int* b, int* c, int n) { for (int i = 0; i < n; ++i) { c[i] = a[i] - b[i]; }

Hello World Código OpenCL (kernel) __kernel void ArrayDiff(__global const int* a, __global const int* b, __global int* c) { int id = get_global_id(0); c[id] = a[id] - b[id]; }

Arquitetura OpenCL Arquitetura abstrata de baixo nível Implementações mapeiam para entidades físicas Quatro modelos – Plataforma – Execução – Programação – Memória

Arquitetura OpenCL Modelo de plataforma – Descreve entidades do ambiente OpenCL

Arquitetura OpenCL Hospedeiro Dispositivo... Unidade de Computação... Elemento de Processamento Elemento de Processamento... Elemento de Processamento Elemento de Processamento... Modelo de Plataforma

Arquitetura OpenCL Modelo de execução – Descreve instanciação e identificação de kernels

Arquitetura OpenCL Modelo de execução – Espaços de índices 1D 2D3D

Arquitetura OpenCL Modelo de execução: itens e grupos de trabalho Grupo de trabalho (work-group) Item de trabalho (work-item)

Arquitetura OpenCL __kernel void f(...) {... Item de trabalho Kernel Instância

Arquitetura OpenCL Modelo de execução: identificadores Grupo de trabalho: (1, 0)

Arquitetura OpenCL Modelo de execução: identificadores Item de trabalho: (1, 2) Identificador global

Arquitetura OpenCL Modelo de execução: identificadores Item de trabalho: (1, 0) Identificador local

Arquitetura OpenCL Contexto Dispositivos Objetos de programa Objetos de memória Filas de comandos Kernels mem Modelo de execução: objetos

Arquitetura OpenCL Modelo de execução: objetos – Toda comunicação com um dispositivo é feita através da sua fila de comandos – Objetos de memória Buffers: acesso direto via ponteiros Images: acesso especial via samplers

Arquitetura OpenCL Modelo de programação – Paralelismo de dados (data parallel): múltiplos itens de trabalho para um kernel – Paralelismo de tarefas (task parallel): um item de trabalho para um kernel

Arquitetura OpenCL Modelo de memória – Descreve uma hierarquia de memória e o compartilhamento de cada nível entre itens e grupos de trabalho

Arquitetura OpenCL Modelo de memória Memória privada - Exclusiva de cada item de trabalho - Leitura e Escrita

Arquitetura OpenCL Modelo de memória Memória local - Compartilhada pelo grupo de trabalho - Leitura e Escrita

Arquitetura OpenCL Modelo de memória Memória global - Compartilhada por todos os itens de trabalho - Leitura e Escrita

Arquitetura OpenCL Modelo de memória Memória constante - Compartilhada por todos os itens de trabalho - Somente leitura

Arquitetura OpenCL Modelo de memória: consistência – Um item de trabalho lê corretamente o que outros escrevem?

Arquitetura OpenCL Modelo de memória: consistência - Memória é consistente para um item de trabalho Item de trabalho Memória x x

Arquitetura OpenCL Modelo de memória: consistência - Memória é consistente para um grupo de trabalho após uma barreira (barrier) Itens de trabalho Memória x y ? ?

Arquitetura OpenCL Modelo de memória: consistência - Memória é consistente para um grupo de trabalho após uma barreira (barrier) Itens de trabalho Memória x y

Arquitetura OpenCL Modelo de memória: consistência - Memória é consistente para um grupo de trabalho após uma barreira (barrier) Itens de trabalho Memória barrier()

Arquitetura OpenCL Modelo de memória: consistência - Memória é consistente para um grupo de trabalho após uma barreira (barrier) Itens de trabalho Memória y x

Arquitetura OpenCL Sincronização – Barreira: execução só prossegue após todos os itens de trabalho de um mesmo grupo de trabalho a terem atingido – Não há sincronização entre grupos de trabalho

Linguagem OpenCL C Utilizada para a escrita de kernels Baseada no padrão C99 Acrescenta extensões e restrições

Linguagem OpenCL C Extensão: tipos vetoriais – Notação: tipo[# de componentes] – 1, 2, 4, 8 ou 16 componentes – Exemplos: float4 int8 short2 uchar16

Linguagem OpenCL C Operações com tipos vetoriais – Entre vetores de mesmo número de componentes – Entre vetores e escalares float4 v = (float4)(1.0, 2.0, 3.0, 4.0); float4 u = (float4)(1.0, 1.0, 1.0, 1.0); float4 v2 = v * 2; float4 t = v + u;

Linguagem OpenCL C Definição de kernels – Qualificador __kernel – Todo kernel deve ser void __kernel void f(…) {... }

Linguagem OpenCL C Qualificadores de espaço de endereçamento – Definem nível da memória apontada por um ponteiro –__global, __local, __private e __const – Default: __private

Linguagem OpenCL C Restrições – Ponteiros para função não são suportados – Funções e macros com número variável de argumentos não são suportados – Qualificadores extern, static e auto não são suportados – Não há suporte a recursão

API de suporte: kernels Funções de identificação – Informações sobre espaço de índices, item e grupo de trabalho get_global_id(uint dimindx) get_local_id(uint dimindx) get_group_id(uint dimindx) get_global_size(uint dimindx) get_local_size(uint dimindx) get_num_groups() get_work_dim()

API de suporte: kernels Funções de sincronização barrier(cl_mem_fence_flags flags) Flags: CLK_LOCAL_MEM_FENCE CLK_GLOBAL_MEM_FENCE

API de suporte: hospedeiro Ilustração através de um exemplo prático Aplicação completa – Kernel para subtração dos elementos de dois arrays

Exemplo prático Exemplo de código executado no hospedeiro – Ilustra as principais etapas para o desenvolvimento de soluções OpenCL – Multi-plataforma

Exemplo prático #ifdef __APPLE__ #include #else #include #endif

Exemplo prático cl_platform_id platformId; cl_device_id deviceId; clGetPlatformIDs(1, &platformId, NULL); clGetDeviceIDs( platformId, CL_DEVICE_TYPE_GPU, 1, &deviceId, NULL);

Exemplo prático cl_context context = clCreateContext( NULL, 1, &deviceId, NULL, NULL, NULL); cl_command_queue queue = clCreateCommandQueue( context, deviceId, NULL, NULL);

Exemplo prático const char* source = "__kernel void ArrayDiff( \ __global const int* a, \ __global const int* b, \ __global int* c) \ { \ int id = get_global_id(0);\ c[id] = a[id] - b[id]; \ }";

Exemplo prático cl_program program = clCreateProgramWithSource( context, 1, &source, NULL, NULL);

Exemplo prático clBuildProgram( program, 0, NULL, NULL, NULL, NULL); cl_kernel kernel = clCreateKernel( program,"ArrayDiff", NULL);

Exemplo prático #define N... cl_mem bufA = clCreateBuffer( context, CL_MEM_READ_ONLY, N * sizeof(int), NULL, NULL); cl_mem bufB =...; cl_mem bufC =...; CL_MEM_READ_WRIT E

Exemplo prático int* hostA; clEnqueueWriteBuffer( queue, bufA, CL_TRUE, 0, N * sizeof(int), hostA, 0, NULL, NULL);

Exemplo prático int* hostB; clEnqueueWriteBuffer( queue, bufB, CL_TRUE, 0, N * sizeof(int), hostB, 0, NULL, NULL);

Exemplo prático clSetKernelArg( kernel, 0, sizeof(cl_mem), &bufA); clSetKernelArg( kernel, 1, sizeof(cl_mem), &bufB); clSetKernelArg( kernel, 2, sizeof(cl_mem), &bufC);

Exemplo prático const size_t globalSize[] = { N }; clEnqueueNDRangeKernel( queue, kernel, 1, NULL, globalSize, NULL, 0, NULL, NULL); clFinish(queue);

Exemplo prático int* hostC; clEnqueueReadBuffer( queue, bufC, CL_TRUE, 0, N * sizeof(int), hostC, 0, NULL, NULL);

Exemplo prático clReleaseMemObject(bufC); clReleaseMemObject(bufB); clReleaseMemObject(bufA); clReleaseKernel(kernel); clReleaseProgram(program); clReleaseCommandQueue(queue); clReleaseContext(context);

Interoperação com OpenGL Em GPUs, é possível compartilhar estruturas entre OpenCL e OpenGL Exemplo prático: malha tridimensional – Vértices posicionados via OpenCL – Exibição via OpenGL – Compartilhamento de Vertex Buffer Object (VBO) OpenCL: array de float4

Interoperação com OpenGL Demonstração

Interoperação com OpenGL __kernel void sine_wave( __global float4* pos, unsigned int width, unsigned int height, float time) { unsigned int x = get_global_id(0); unsigned int y = get_global_id(1); Kernel

Interoperação com OpenGL float u = x / (float) width; float v = y / (float) height; u = u*2.0f - 1.0f; v = v*2.0f - 1.0f; float freq = 4.0f; float w = sin(u * freq + time) * cos(v * freq + time) * 0.5f; pos[y * width + x] = (float4)(u, w, v, 1.0f); }

cl_context_properties props[] = { CL_GL_CONTEXT_KHR, (cl_context_properties) wglGetCurrentContext(), CL_WGL_HDC_KHR, (cl_context_properties) wglGetCurrentDC(), CL_CONTEXT_PLATFORM, (cl_context_properties) platformId, 0 }; context = clCreateContext( props, 1, &deviceId, NULL, NULL, NULL); Criação do contexto

Interoperação com OpenGL #define BUFFER_SIZE... GLuint vbo; glGenBuffers(1, &vbo); glBindBuffer(GL_ARRAY_BUFFER, vbo); glBufferData( GL_ARRAY_BUFFER, BUFFER_SIZE, 0, GL_DYNAMIC_DRAW); Criação do VBO

Interoperação com OpenGL cl_mem vbo_cl; vbo_cl = clCreateFromGLBuffer( context, CL_MEM_WRITE_ONLY, vbo, NULL); Criação do objeto de memória a partir do VBO

Interoperação com OpenGL clEnqueueAcquireGLObjects( queue, 1, &vbo_cl, NULL, NULL); Aquisição do VBO

Interoperação com OpenGL size_t globalSize[] = { MESH_WIDTH, MESH_HEIGHT }; clEnqueueNDRangeKernel( queue, kernel, 2, NULL, globalSize, NULL, 0, 0, 0); clFinish(queue); Execução do kernel

Interoperação com OpenGL clEnqueueReleaseGLObjects( queue, 1, &vbo_cl, NULL, NULL); Liberação do VBO

Considerações finais NVIDIA e ATI suportam ATI adotou OpenCL como linguagem oficial do Streaming SDK Rumores de suporte a OpenCL em chips gráficos para dispositivos móveis Aplicações em jogos: IA, física

Considerações finais Material disponível em

Obrigado pela atenção!

Dúvidas?