NVIDIA CUDA è®¡ç®ç»ä¸è®¾å¤æ¶æ

More documents

Recommendations

Info

(local (padding), 块块是的块节个块 : 倍个块的块 (bank 访 conflict), (bank), 址和块路 BaseAddress 处的 BaseAddress + width * ty + tx ty) 的 Width 线 (tx, 一种全局存储器一般访问模式是索引为外另于地 cuMemAllocPitch() 函 5.1.2.2 本地存储器维数组中的一个元素大小的倍数 ; 二数。么对于该数组的访问就越有效率。参考手册中介绍倍 memory) 访应的填充那数和相关的存储器复制函数使程序员能够编写不依赖于硬件的代码 , 以分配符合这些限制条件的数组。相节实现存储器合并 : 位数 , 并且行得到了倍线程使用以下地址访问类型为 type*、各 width 度为宽、 warp 种情况下 , 只有满足了以下条件 , 才能为线程块的所有半这在 warp 的宽度是半块程 16 16 来说 , 这也就意味着 , 宽度不是体具 16 的数组在分配时的宽度越接近数倍所述与全局存储器空间相似 , 本地存储器空间不会被缓存 , 因此本地存储器的访问成本与全局存储器一样高。但由于它们在定义上是基的 cudaMallocPitch() 5.1.2.3 常量存储器 4.2.2.4 由某些自动变量分配 , 如第仅问每个线程的 , 因而访问总是会合并。于存储器空间会被缓存 , 因此常量存储器的读取仅需在缓存丢失时读取一次设备存储器 , 否则只需读取常量缓存即可。 warp warp 度一样快。成本随着所有线程读取的不同地址的数量增加而线性增加。我们建议 , 使整个的所有线程都读取相同的地址 , 而不仅仅是保证各半中的所有线程都读取相同的地址 , 因为未来速的器 5.1.2.4 纹理存储器设备可能要求全速读取。的 warp 半于对的所有线程来说 , 只要所有线程都读取同一个地址 , 从常量缓存读取的速度就与读取寄存宽要求 , 但不涉及拾取延迟。带 (streaming 也 fetch), 5.1.2.5 共享存储器理存储器空间会被缓 , 因此纹理拾取仅需在缓存丢失时读取一次设备存储器 , 否则只需读取纹理缓存纹从全局存储器或常量存储器读取设备存储器的方法相比 , 通过纹理拾取读取设备存储器可能是一种更有与 warp 。纹理缓存已为二维空间位置而优化 , 因此读取相邻纹理地址的同一个可即的线程将实现最高性于共享存储位于芯片上 , 因而共享存储器空间比本地和全局存储器空间的速度都要快得多。实际上 , 对中的所有线程来说 , 只要线程间不存在存储体冲突问共享存储器的速度就与访问寄存器一样快 , 下面将详细介绍相关内容。由于 warp 能。此外 , 它设计用于以固定的延迟执行流式拾取 DRAM 说 , 一次缓存命中将减少是就 44 <strong>CUDA</strong> 但若一个储器请求的两个地址落入同一个存储体内 , 就会出现存储体冲突 , 访问必须串行化。硬件会在必要时将存在存储体冲突的存储器请求分割为多个不冲突的请求 , 此时有效带宽将降低为原带宽除以分离编 5.4 的替代方法 , 详见第势优。实现 , 得到更高效的带宽 , 可达到单独一个模块的带宽的 n 。这 2.0 南 , 版本指程为了获得较高的存储器带宽 , 共享存储器被划分为多个大小相等的存储器模块 , 称为存储体 n 储体可同时访问。因此 , 对落入存些 n 存储体的同不地址的任何存储器读取或写入请求都可同时 n 存储器请求的数量。如果分离后的存储器请求数量为 n, 就可以说初始存储器请求导致了的后
块和展个的位 ,warp 块块块位位是展块等时节是 (stride) 位块和是时 __shared__ float shared[32]; float data = shared[BaseIndex + s * tid]; 存的和访的是位 tid 进的块的突。存储体冲突。为了获得最大化的性能 , 有必要理解存储器地址如何映射到存储体以调度存储器请求 , 以最小化存储体冲 (n-way) 32 共享存储器空间 , 存储体采用了这样一种组织方式 : 为连续的存储体分配连续的于对字 , 每个存储 32 带宽都是的体 /2 钟周期。时 1.x 计算能力为于对设备大小是 32, 的体的数量为 16( 储 5.1 第见 );warp 的共参为 warp 储器请求将分割为一个针对存享 warp 部分的请求和一个针对半上下半部分的请求。因而 , 属于 warp warp 部分的线程和属于一第二部分的线程之间不可能出现存储体冲突。第 32 常见的情况就是各线程访问数组中的种一 ID 使用线程 , 字行索引 , 步幅 s: 是的 s*n 例中 , 只要本在 m 体储存 n , 或者说只要数倍 m/d d ( 其中数倍 m s 最大公 char 数 __shared__ char shared[32]; char data = shared[BaseIndex + tid]; , 则将出现存储体冲突 : 组和位属 tid ), 线程数约 tid+n warp 就是同一个存储体。因而 , 只有在的问 m/d 半大小小于等于一的 , 1.x 会存在存储体冲突。对于计算能力是不才 d , 可以说只有在备设于 1 s 者说只有在或 , 图 5-5 图 5-6 5-7 无冲突存储器访问的示例 , 图了示了导致存储体冲突的存储器访问示例。示 char data = shared[BaseIndex + 4 * tid]; double __shared__ double shared[32]; double data = shared[BaseIndex + tid]; 位数突 , 但若通过以下方式访问同一个数组 : 路冲操 m 时 , 才不会存在存储体冲突 , 因为数奇 2 。幂 shared[0]、shared[1]、shared[2] 来说 , 由于例举 shared[3] 于同一个存储体。因此不存在存储体 32 值得注意的情况还包括在各线程访问小于或大于他其元素时。举例来说 , 如果通过以下方式访问的 __shared__ int shared_lo[32]; __shared__ int shared_hi[32]; double dataIn; shared_lo[BaseIndex + tid] = __double2loint(dataIn); shared_hi[BaseIndex + tid] = __double2hiint(dataIn); double dataOut = __hiloint2double(shared_hi[BaseIndex + tid], shared_lo[BaseIndex + tid]); 数分割为两部分 , 如以下示例代码所示 : 作 2 存在将组储体冲突 : 存 __shared__ struct type shared[32]; struct type data = shared[BaseIndex + tid]; 这种做法并非总是能够提高性能 , 在未来的架构中可能表现更差。结构体赋值将在必要时编译为针对结构体中各成员的多个存储器请求 , 因此 , 以下代码 : 但 32 存储器请求将编译为两个独立的于由 double 。在本例中避免存储体冲突的方法之一就是将求请如定 struct type { : }; float x, y, z; 如得到以下结果将定 struct type { float x, y; }; 如定 struct type { <strong>CUDA</strong> 编 45 果 type 如下 , 则进行两次有存储体冲突的存储器读取 : 义果 type 如下 , 则进行三次无存储体冲突的存储器读取 : 义 32 因为每个成员都是使用三个是这作为步幅访问的。字 32 因为每个成员都是使用两个是这作为步幅访问的。字 2.0 南 , 版本指程果 type 如下 , 则进行两次有存储体冲突的存储器读取 : 义
Page 1 and 2: 程指南 , 版 NVIDIA CUDA 计
Page 3 and 4: 目录 1 2 3 第第 4 iii .......
Page 5 and 6: 程指南 , 版 5.3 5.4 5.5 6.1
Page 7 and 8: 核 (manycore) 众程指南 ,
Page 9 and 10: 渲程指南 , 版的第列
Page 11 and 12: 程指南 , 版变 (shared (intr
Page 13 and 14: 所 ,CUDA (host) 假 memory)。因
Page 15 and 16: 提 (compute 由 capability) 。
Page 17 and 18: 所块位 (constant (texture (tex
Page 19 and 20: 编的 ,C 标限 (host) (function
Page 21 and 22: 节变和助变 (implied (segme
Page 23 and 24: 工代语 ,__device__ 函对块
Page 25 and 26: 、2 分位是的节 (texture (
Page 27 and 28: 列数 (atomic ,atomicAdd() 将
Page 29 and 30: Direct3D 互。节和函节 ,D
Page 31 and 32: 的分个、cudaMallocPitch()
Page 33 and 34: 定类 ,cudaFilterModeLinear 是
Page 35 and 36: mode) emulation 是用 (printf() :
Page 37 and 38: 节函。cuCtxPopCurrent() 上 (u
Page 39 and 40: 。hostPtr copyParam.srcDevice = de
Page 41 and 42: 创填程指南 , 版上上
Page 43 and 44: 块器延迟。的 (if、switc
Page 45 and 46: warp , 当半块中的线程
Page 47 and 48: 存未为计程指南 , 版
Page 49: 字字存存 ,type 计 (Common
Page 53 and 54: 位的线性寻址。字程
Page 55 and 56: 的。个使用广播机制
Page 57 and 58: 节位数之节节或 (locali
Page 59 and 60: 相所选 ,Csub 等更高的
Page 61 and 62: ,Muld() 将的将相的程指
Page 63 and 64: 的节节节附录 A 技术
Page 65 and 66: (round-towards-zero), : (denormaliz
Page 67 and 68: 程指南 , 版内间外距
Page 69 and 70: 后后后后程指南 , 版
Page 71 and 72: 和映位位程指南 , 版
Page 73 and 74: 位程指南 , 版处位计
Page 75 and 76: ≤ 寻的 × 是 × 是节个
Page 77 and 78: 程指南 , 版使用线性

NVIDIA CUDA è®¡ç®ç»ä¸è®¾å¤æ¶æ

Create successful ePaper yourself

Delete template?

Save as template?

NVIDIA CUDA è®¡ç®ç»ä¸è®¾å¤æ¶æ