Técnicas de Otimização de Código para Placas de ... - UFMG

More documents

Recommendations

Info

Bloco (0, 0) Memória Compartilhada Regs Regs Thread (0, 0) Mem Local Thread (1, 0) Mem Local A viagem internacional A viagem interplanetária Hospedeiro (CPU) Dispositivo (GPU) Bloco (0, 1) Memória Compartilhada Regs Regs Thread (0, 0) Mem Local Memória Global DRAM Thread (1, 0) Mem Local Figura 1.16. A organização de memórias dentro da GPU. um barramento PCI (Peripheral Component Interconnect). Esta tranferência é muito lenta, comparada com o tempo de acesso de dados dentro do micro-chip CUDA. A transferência de dados entre CPU e GPU é ilustrada pelo programa na figura 1.17. As funções cudaMalloc, cudaFree e cudaMemcpy são parte da biblioteca de desenvolvimento CUDA. A primeira função reserva uma área na memória da GPU, ao passo que a segunda função libera esta área para outros usos. Finalmente, cudaMemcpy copia dados da CPU para a GPU, ou vice-versa, dependendo de seu último argumento. 20
void Mul ( const f l o a t∗ A, const f l o a t∗ B, i n t width , f l o a t∗ C) { i n t size = width ∗ width ∗ sizeof ( f l o a t ) ; } / / Load A and B to the device f l o a t∗ Ad ; cudaMalloc ( ( void∗∗)&Ad , size ) ; cudaMemcpy ( Ad , A, size , cudaMemcpyHostToDevice ) ; f l o a t∗ Bd ; cudaMalloc ( ( void∗∗)&Bd , size ) ; cudaMemcpy ( Bd , B, size , cudaMemcpyHostToDevice ) ; / / A l l o c a t e C on the device f l o a t∗ Cd ; cudaMalloc ( ( void∗∗)&Cd, size ) ; / / Compute the execution c o n f i g u r a t i o n assuming / / the m a t r i x dimensions are m u l t i p l e s of BLOCK_SIZE dim3 dimBlock (BLOCK_SIZE , BLOCK_SIZE) ; dim3 dimGrid (wB / dimBlock . x , hA / dimBlock . y ) ; / / Launch the device computation Muld(Ad , Bd , width , Cd) ; / / Read C from the device cudaMemcpy (C, Cd, size , cudaMemcpyDeviceToHost ) ; / / Free device memory cudaFree ( Ad ) ; cudaFree ( Bd ) ; cudaFree (Cd) ; Figura 1.17. Código escrito para a CPU, que invoca um kernel da GPU, passando-lhe matrizes de dados e lendo de volta uma matriz de dados. Existem importantes aspectos de desempenho que precisam ser considerados, quando escrevemos programas CUDA, no que toca a comunicação entre GPU e CPU. Em primeiro lugar, é justificável o envio de dados para a GPU somente quando o trabalho que será executado sobre estes dados possui alta complexidade. Por exemplo, o programa na figura 1.5 adiciona duas matrizes de mesma dimensão, efetuando uma soma para cada posição destas matrizes. O programa CUDA correspondente, visível na figura 1.7, atribui à cada thread uma quantidade de trabalho constante, isto é, cuja complexidade assimptótica é O(1), além disto, esta constante, neste caso particular, é bem 21
Page 1 and 2: Técnicas de Otimização de Códig
Page 3 and 4: então eram muito simples, normalme
Page 5 and 6: CPU Memória Display VGA Controlado
Page 7 and 8: eferem-se às GPUs como arquitetura
Page 9 and 10: ambiente de execução CUDA organiz
Page 11 and 12: void matSum( f l o a t∗∗ s , f
Page 13 and 14: void depSum( f l o a t∗∗ s , un
Page 15 and 16: i (0, 0) (10, 10) Figura 1.12. Espa
Page 17 and 18: . e n t r y saxpy ( . param . s32 n
Page 19: Os registradores e as memórias com
Page 23 and 24: Synchronous data t r a n s f e r :
Page 25 and 26: único elemento Ai j na matriz fina
Page 27 and 28: mov . f32 %f1 , 0f00000000 ; / / 0.
Page 29 and 30: A tx ty 0 0 1 0 0 1 1 1 2 3 6 7 8 9
Page 31 and 32: dicionais. Tendo lidado com o prime
Page 33 and 34: foo (int p) { } x = p + 1 y = x + p
Page 35 and 36: de divergências algumas threads te
Page 37 and 38: L 3 14 15 16 17 L 5 18 19 L 2 5 6 7
Page 39 and 40: é um método dinâmico: o programa
Page 41 and 42: int writer = 0; bool gotWriter = fa
Page 43 and 44: cem de uma grande quantidade de div
Page 45 and 46: (a) (b) unsigned int a, b; if ((tid
Page 47 and 48: definida somente uma vez no texto d
Page 49 and 50: B 6 B 5 %x0 = 1 jump B 8 B 8 B 0 %i
Page 51 and 52: • para cada variável v ∈ P, se
Page 53 and 54: Algoritmo 1.37: chaveamento de prog
Page 55 and 56: p 1 t 0 j 3 j 2 j 0 j j 1 x 0 j 4 p
Page 57 and 58: forma tal que a função será cham
Page 59 and 60: __global__ void regPress2 ( f l o a
Page 61 and 62: __global__ void s h a r e d E x t e
Page 63 and 64: • uma função de lucro s, tal qu
Page 65 and 66: valor g, isto é: H[i, j] = g, onde
Page 67 and 68: 1.4. O Caldeirão no Final do Arco-
Page 69 and 70: Referências [1] Alfred V. Aho, Mon
Page 71 and 72:
[23] A. W. Lim and M. S. Lam. Maxim
show all

Técnicas de Otimização de Código para Placas de ... - UFMG

Create successful ePaper yourself

Delete template?

Save as template?