NVIDIA CUDA è®¡ç®ç»ä¸è®¾å¤æ¶æ

More documents

Recommendations

Info

中个线线声的设的和相次语语 (declaration 使 specifier), 个 block)。这是是的中变和 z) 相语。此 ID。 x,D y ) 的第 2 章编程模型 CUDA 允言的一种扩展 , 在调用此类函言函数只执行一次的方式不同的 // Kernel definition __global__ void vecAdd(float* A, float* B, float* C) { } 符定限明 (kernel) 许程序员定义被称为内核 C int main() { } // Kernel invocation vecAdd(A, B, C); C 数 , 这是对函言 N , 它将由时数 CUDA 的同不 N 行执行并程 C 与普通的这 , __global__ 义内核时 , 需要使用定在 : 种全新的一用 __global__ void vecAdd(float* A, float* B, float* C) { int i = threadIdx.x; C[i] = A[i] + B[i]; } 可 CUDA 定每次调用的指法数 : 程 int main() { // Kernel invocation vecAdd(A, B, C); } ) 每个线程都会执行一次两两相加运算的行内核的每个线程都会被分配一个独特的线程 ID, 执 threadIdx 内置的过通量在内核中访问 2.1 线程层次结构执线程层次结构 N 示例代码将大小为下以 A 量向 B 量向 C 并将结果存储在向量 , 加行 vecAdd( __global__ void matAdd(float A[N][N], float B[N][N], float C[N][N]) { int i = threadIdx.x; int j = threadIdx.y; C[i][j] = A[i][j] + B[i][j]; } int main() { // Kernel invocation dim3 dimBlock(N, N); matAdd(A, B, C); } : (thread C 构成一维、二维或三维线程块储在矩阵 , 程线有。供了一种自然的方法 , 可为一个域中的各元素提 threadIdx 便起见 , 我们将方为 3 一个包含为置分量的向量 , 因而可使用一维、二维或三维索引标识 y, z) + yD + yD x + zD x D y)。 x); x,D y, 4 CUDA 编 NxN 计算 , 如向量、矩阵或字段。下面的示例代码将大小为用调 A 阵矩 B 阵矩加 , 并将结果存 (x,y) 块来说 , 索引为维二 ID 的程线 (x (D 大小为于对 D 的三维块来说 , 索 2.0 南 , 版本指程 ID 的索引与其线程程线 (D 接的对应关系 : 对于一维块来说 , 两者是相同的 ; 对于大小为直着 (x, 为引 ID 程的线的 (x
程指南 , 版变 (shared (intrinsic 内 function) 在来 memory) (grid), 所缓变语将每个线程处理一个矩阵元素 , 这与之前完全相同。线程块需要独立执行 : 必须能够以任意顺序执行 —— 能够并行或串行执行。这种独立性需求允许为任意数量的处理器内核安排线程块 , 从而使程序员能够编写出可伸缩的代码。个网格内的线程块通常是由所处理的数据大小限定的 , 而不是由系统中的处理器数量决定的 , 前者可以远远超过后者的数量。一建函数共享数据 , 并同步其执行来协调存屏障的作用 , 块中的所有线程都必须在这里等待处理。到 __syncthreads() 起 __syncthreads() 被个 Tesla 架个块内的线程可彼此协作 , 一些共享存储器储器访问。更具体地说 , 可以通过调一用 __syncthreads() 像 L1 内核中指定同步点 ; __global__ void matAdd(float A[N][N], float B[N][N], float C[N][N]) { int i = blockIdx.x * blockDim.x + threadIdx.x; int j = blockIdx.y * blockDim.y + threadIdx.y; if (i < N && j < N) C[i][j] = A[i][j] + B[i][j]; } int main() { // Kernel invocation dim3 dimBlock(16, 16); dim3 dimGrid((N + dimBlock.x – 1) / dimBlock.x, (N + dimBlock.y – 1) / dimBlock.y); matAdd(A, B, C); } NVIDIA 内核的有限存储器资源限制了每个块的线程数量。在构中 , 一个线程块最多可以包但一个内核函数能由多个大小相同的线程块执行 , 因而线程总数应等于每个块的线程数乘以块的数量。如理 blockDim 器问此索引。可以通过内置的量在内核中访问线程块的维度。此时 , 之前的示例代码可修改为 : 访中的个实现有效的协作 , 共享存储器被设计为靠近各处理器内核的低延迟存储 , 这很存 , 设计为轻量级的 , 一个块中的所有线程都必须位于同一个处理器内核中。因而 , 一个处为含 512 程。线这些块被组织为一个一维或二维线程块网格图 2-1 该网格的维度由。示法的 blockIdx 个参数指定。网格内的每个块多可由一个一维或二维索引标识 , 可通过内置的一第量在内核 16x16 随机选择了大小为们我 256 块 ( 即包含程线线程 ), 此外创建了一个网格 , 它具有足够的块 , CUDA 编 5 本 2.0
Page 1 and 2: 程指南 , 版 NVIDIA CUDA 计
Page 3 and 4: 目录 1 2 3 第第 4 iii .......
Page 5 and 6: 程指南 , 版 5.3 5.4 5.5 6.1
Page 7 and 8: 核 (manycore) 众程指南 ,
Page 9: 渲程指南 , 版的第列
Page 13 and 14: 所 ,CUDA (host) 假 memory)。因
Page 15 and 16: 提 (compute 由 capability) 。
Page 17 and 18: 所块位 (constant (texture (tex
Page 19 and 20: 编的 ,C 标限 (host) (function
Page 21 and 22: 节变和助变 (implied (segme
Page 23 and 24: 工代语 ,__device__ 函对块
Page 25 and 26: 、2 分位是的节 (texture (
Page 27 and 28: 列数 (atomic ,atomicAdd() 将
Page 29 and 30: Direct3D 互。节和函节 ,D
Page 31 and 32: 的分个、cudaMallocPitch()
Page 33 and 34: 定类 ,cudaFilterModeLinear 是
Page 35 and 36: mode) emulation 是用 (printf() :
Page 37 and 38: 节函。cuCtxPopCurrent() 上 (u
Page 39 and 40: 。hostPtr copyParam.srcDevice = de
Page 41 and 42: 创填程指南 , 版上上
Page 43 and 44: 块器延迟。的 (if、switc
Page 45 and 46: warp , 当半块中的线程
Page 47 and 48: 存未为计程指南 , 版
Page 49 and 50: 字字存存 ,type 计 (Common
Page 51 and 52: 块和展个的位 ,warp 块
Page 53 and 54: 位的线性寻址。字程
Page 55 and 56: 的。个使用广播机制
Page 57 and 58: 节位数之节节或 (locali
Page 59 and 60: 相所选 ,Csub 等更高的
Page 61 and 62:
,Muld() 将的将相的程指
Page 63 and 64:
的节节节附录 A 技术
Page 65 and 66:
(round-towards-zero), : (denormaliz
Page 67 and 68:
程指南 , 版内间外距
Page 69 and 70:
后后后后程指南 , 版
Page 71 and 72:
和映位位程指南 , 版
Page 73 and 74:
位程指南 , 版处位计
Page 75 and 76:
≤ 寻的 × 是 × 是节个
Page 77 and 78:
程指南 , 版使用线性
show all

NVIDIA CUDA è®¡ç®ç»ä¸è®¾å¤æ¶æ

Create successful ePaper yourself

Delete template?

Save as template?

NVIDIA CUDA è®¡ç®ç»ä¸è®¾å¤æ¶æ