PDF(1,9MB) - Está é a máquina do Professor Alfredo Goldman (this ...

More documents

Recommendations

Info

é utilizada para controlar o fluxo de execução do programa, enquanto que a GPU fica responsável pelos inúmeros cálculos sobre os dados. Um programa CUDA possui o seguinte fluxo básico [40]: • O host inicializa um vetor com dados; • O vetor é copiado da memória do host para a memória do device; • O device realiza cálculos sobre o vetor de dados; • O vetor contendo os dados modificados é copiado novamente para o host. 3.4.1 Kernels e hierarquia de threads O princípio básico da programação em CUDA consiste em definir funções chamadas de kernels (utilizando uma extensão da linguagem C), que espe- cifica o código a ser executado N vezes em paralelo por N diferentes threads na GPU. Estas threads são extremamente leves, resultando em baixo custo de criação. Tal modelo estimula a divisão dos problemas em dois passos: • primeiro separar em sub-problemas independentes, formando os grids • depois dividir o grid em blocos independentes de mesmo tamanho (thread block), cujas threads podem trabalhar de forma cooperativa e com- partilham uma memória visível apenas entre elas Cada thread no bloco possui um identificador único tridimensional (thre- adIdx.x, threadIdx.y, threadIdx.z) e cada bloco em um grid também possui seu próprio identificador bidimensional (blockIdx.x, blockIdx.y). Apesar disso, 37
Figura 11: Grid e bloco de threads [3] nem todas as aplicações usarão todas as dimensões disponíveis. No exemplo da figura 11, o grid é formado por 6 blocos de threads que são organizados em um array bidimensional 2x3. Cada bloco possui uma coor- denada única, dada pelas palavras-chave blockId.x e blockId.y. Todos blocos devem ter o mesmo número de threads organizadas da mesma forma. Apenas para ilustrar o conceito, o exemplo mostrado possui dimensões reduzidas; na realidade, um grid é formado por milhares (ou milhões) de threads a cada invocação de um kernel. A criação de threads em número suficiente para utilizar o hardware em sua totalidade, geralmente requer grande paralelismo 38
Page 1 and 2: Um estudo do uso eficiente de progr
Page 3 and 4: Resumo Um estudo do uso eficiente d
Page 5 and 6: Sumário 1 Introdução 8 2 GPU Com
Page 7 and 8: 6.3.2 Capability characteristics .
Page 9 and 10: 1 Introdução O crescimento de pod
Page 11 and 12: 2 GPU Computing 2.1 Breve Históric
Page 13 and 14: esolveu entrar em vários segmentos
Page 15 and 16: Em resposta, a NVIDIA lançaria a G
Page 17 and 18: • Rasterização: determinação
Page 19 and 20: altamente paralelo, com um gigantes
Page 21 and 22: Por trás desta comparação existe
Page 23 and 24: meses; desde sua introdução em 20
Page 25 and 26: Figura 4: Arquitetura Fermi [57] 24
Page 27 and 28: Várias melhorias foram feitas nest
Page 29 and 30: 2.5.7 Aritmetica de ponto flutuante
Page 31 and 32: 3 CUDA A NVIDIA, enxergando a oport
Page 33 and 34: 3.2.1 NVIDIA GeForce 8 Figura 7: Sh
Page 35 and 36: Figura 9: Tipos de memória do mult
Page 37: 3. CUDA driver que fornece a API pa
Page 41 and 42: Figura 12: Código sequencial é ex
Page 43 and 44: de memória (figuras 13, 14 e 15):
Page 45 and 46: A tabela abaixo compara as principa
Page 47 and 48: • gridDim - variável do tipo dim
Page 49 and 50: } C[ i ] = A[ i ] + B[ i ] ; // cod
Page 51 and 52: 4 Desempenho e otimização A chave
Page 53 and 54: multiprocessador terá pelo menos u
Page 55 and 56: 5 Trabalhos relacionados Com o obje
Page 57 and 58: 56 Figura 16: CUDA Occupancy Calcul
Page 59 and 60: compartilhada etc), dentre outras.
Page 61 and 62: 5.3 NVIDIA Parallel Nsight TM O NVI
Page 63 and 64: • SM - indica que o evento é col
Page 65 and 66: 5.7 TAU Performance System TAU Perf
Page 67 and 68: de extensão ao qual se conectar pa
Page 69 and 70: 6.2 JNI JNI (Java Native Interface)
Page 71 and 72: • My shared memory count - quanti
Page 73 and 74: 6.3.5 GPU occupancy Figura 26: GPU
Page 75 and 76: A figura 28 mostra um warning sendo
Page 77 and 78: Referências Bibliográficas [1] Ow
Page 79 and 80: [25] Reis, David; Conti, Ivan; Vene
Page 81 and 82: [47] PAPI - Performance Application

PDF(1,9MB) - Está é a máquina do Professor Alfredo Goldman (this ...

Create successful ePaper yourself

Delete template?

Save as template?