ç¼ç¨æå - NVIDIA

程指 

NVIDIA CUDA 

统一计算设备架构 

编程指南 

Version 1.1 

11/29/2007 

CUDA 编 

1.1 I 

南 Version

程指 

II 

CUDA 编 

1.1 

南 Version

目 

录 

2 第 

3 第 

第 4 

1.1 作章 

为数据并行计算设备的图形处理简 

置向量类 

备运行时组学函指程 

1 

.................................................................................................... 1 器 

CUDA: 1.2 GPU .......................................................................................................... 3 

1.3 ................................................................................................................................................... 6 

............................................................................................................................................................ 7 

文档结构章编程模型一种计算的新架构 

理处协程线多度 

2.1 高 

2.2 线 

2.3 

章内 

3.1 具 

3.2 执 

3.3 计 

3.4 多 

3.5 

章显 

2.2.1 线 

2.2.2 线 

................................................................................................................................................... 批程块网程 

SIMD 

分现硬件实有片上共享内存的一组多处理存模行 

4.1 C 编 

4.2 语 

4.3 共 

4.4 设 

4.2.1 函 

4.2.2 变 

4.2.3 执 

4.2.4 内 

............................................................................................................................... 7 器 

7 

.............................................................................................................................................. 块 

7 

...................................................................................................................................... 8 格 

................................................................................................................................................. 10 型 

........................................................................................................................................................ 13 现 

.......................................................................................... 13 器 

................................................................................................................................................. 14 

................................................................................................................................................. 能力算型 

15 

................................................................................................................................................. 备设个 

16 

模式切示 

口应用编接程语言扩言扩量类型限定行配数 

变置 

4.2.5 NVCC 

..................................................................................................................................... 

编用运行时组件用使 

4.3.1 内 

4.3.2 数 

4.3.3 时 

4.3.4 纹 

4.4.1 数 

......................................................................................................................................... 16 换 

................................................................................................................................................ 17 口 

...................................................................................................................................... 17 展 

................................................................................................................................................. 17 

............................................................................................................................ 符展 

18 

............................................................................................................................ 19 符 

........................................................................................................................................ 21 置 

........................................................................................................................................ 21 量 

........................................................................................................................... 22 译 

23 

................................................................................................................................ 23 型 

24 

24 

24 

..................................................................................................................................... 26 件 

........................................................................................................................................ 26 数 

第 1 

CUDA 

介简介 ...................................................................................................................................................... 

CUDA 编 

1.1 III 

南 Version 

........................................................................................................................................ 数函学 

........................................................................................................................................ 数函间 

........................................................................................................................................ 型类理

程指 

第 5 

附 

4.5 宿 

5.1 指章 

5.2 每 

5.3 宿 

5.4 纹 

5.5 

章整 

6.1 概 

6.2 源 

6.3 源 

4.4.2 同 

4.4.3 类 

4.4.4 类 

4.4.5 纹 

4.4.6 原 

4.5.1 常 

4.5.2 运 

4.5.3 

........................................................................................................................................................ 性能指南驱 

5.1.1 指 

26 

................................................................................................................................ 换函数转型 

强制函理子函型 

运行时组用概行主 

程动 

26 

................................................................................................................................ 27 数 

........................................................................................................................................ 27 

........................................................................................................................................ 数 28 

....................................................................................................................................... 28 件 

........................................................................................................................................ 29 念 

API ..................................................................................................................................... 32 时 

API ................................................................................................................................. 39 序 

47 

................................................................................................................................................. 能性令 

47 

吞吐令 

.................................................................................................................................... 47 量 

5.1.2 ........................................................................................................................................ 49 

......................................................................................................................................... 块的线程数宽带存内 

62 

................................................................................................................. 设备之间的数据传送和主 

63 

拾取与全局或常量内存读理 

......................................................................................................... 63 取 

................................................................................................................................. 64 优化策略例矩阵乘法示能性体 

................................................................................................................................................ 67 例 

67 

69 

................................................................................................................................................. 71 略 

6.3.1 Mul() ............................................................................................................................................ 71 

6.3.2 Muld() .......................................................................................................................................... 71 

........................................................................................................................................ 数函步 

第 6 

A 录 

A.1 通 

浮录附数数学函 A.2 

B 录 B.1 共 

设 

C 录 

C.1 算 

攻 

73 

码 

规用 

................................................................................................................................................ 74 

点标范 

................................................................................................................................................ 74 准 

........................................................................................................................................................ 77 

..................................................................................................................................... 运行时组件用数 

77 

..................................................................................................................................... 80 件 

83 

行时组术函运备 

................................................................................................................................................. 83 数 

C.1.1 atomicAdd() ............................................................................................................................... 83 

C.1.2 atomicSub() ............................................................................................................................... 83 

C.1.3 atomicExch() ............................................................................................................................. 83 

述 ......................................................................................................................................................... 

................................................................................................................................................. 单清码 

IV 

CUDA 编 

1.1 

格技术规格 ........................................................................................................................................................ 

B.2 录附数原子函数 ........................................................................................................................................................ 

南 Version

程指 

C.1.4 atomicMin() ............................................................................................................................... 84 

C.1.5 atomicMax() ............................................................................................................................... 84 

C.1.6 atomicInc() ............................................................................................................................... 84 

C.1.7 atomicDec() ............................................................................................................................... 84 

C.1.8 atomicCAS() ............................................................................................................................... 84 

录附 C.2 位 

D 录 

D.1 设 

..................................................................................................................................................... 85 数函 

C.2.1 atomicAnd() ............................................................................................................................... 85 

C.2.2 atomicOr() .................................................................................................................................. 85 

C.2.3 atomicXor() ............................................................................................................................... 85 

API 运行时考参备管参 

........................................................................................................................................... 87 考 

.................................................................................................................................................. 87 理 

D.1.1 cudaGetDeviceCount() .......................................................................................................... 87 

D.1.2 cudaSetDevice() ...................................................................................................................... 87 

D.1.3 cudaGetDevice() ...................................................................................................................... 87 

D.1.4 cudaGetDeviceProperties() .............................................................................................. 88 

D.1.5 cudaChooseDevice() .............................................................................................................. 89 

D.2 线 

.................................................................................................................................................. 89 理 

D.2.1 cudaThreadSynchronize() .................................................................................................. 89 

D.2.2 cudaThreadExit() ................................................................................................................... 89 

D.3 流 

管程 

管 

...................................................................................................................................................... 89 理 

D.3.1 cudaStreamCreate() .............................................................................................................. 89 

D.3.2 cudaStreamQuery() ................................................................................................................. 89 

D.3.3 cudaStreamSynchronize() .................................................................................................. 89 

D.3.4 cudaStreamDestroy() ............................................................................................................ 89 

D.4 事 

.................................................................................................................................................. 90 理管件 

D.4.1 cudaEventCreate() ................................................................................................................. 90 

D.4.2 cudaEventRecord() ................................................................................................................. 90 

D.4.3 cudaEventQuery() ................................................................................................................... 90 

D.4.4 cudaEventSynchronize() ..................................................................................................... 90 

D.4.5 cudaEventDestroy() .............................................................................................................. 90 

D.4.6 cudaEventElapsedTime() ..................................................................................................... 90 

D.5 内 

.................................................................................................................................................. 91 理管存 

D.5.1 cudaMalloc() ............................................................................................................................. 91 

D.5.2 cudaMallocPitch() ................................................................................................................. 91 

CUDA 编 

1.1 V 

南 Version

程指 

D.5.3 cudaFree() ................................................................................................................................. 91 

D.5.4 cudaMallocArray() ................................................................................................................. 92 

D.5.5 cudaFreeArray() ...................................................................................................................... 92 

D.5.6 cudaMallocHost() ................................................................................................................... 92 

D.5.7 cudaFreeHost() ........................................................................................................................ 92 

D.5.8 cudaMemset() ............................................................................................................................. 92 

D.5.9 cudaMemset2D() ........................................................................................................................ 92 

D.5.10 cudaMemcpy() ............................................................................................................................. 93 

D.5.11 cudaMemcpy2D() ........................................................................................................................ 93 

D.5.12 cudaMemcpyToArray() ............................................................................................................ 94 

D.5.13 cudaMemcpy2DToArray() ....................................................................................................... 94 

D.5.14 cudaMemcpyFromArray() ....................................................................................................... 95 

D.5.15 cudaMemcpy2DFromArray() .................................................................................................. 95 

D.5.16 cudaMemcpyArrayToArray() ................................................................................................ 96 

D.5.17 cudaMemcpy2DArrayToArray() ........................................................................................... 96 

D.5.18 cudaMemcpyToSymbol() .......................................................................................................... 96 

D.5.19 cudaMemcpyFromSymbol() ..................................................................................................... 96 

D.5.20 cudaGetSymbolAddress() ..................................................................................................... 97 

D.5.21 cudaGetSymbolSize() ............................................................................................................ 97 

D.6 纹 

D.7 执 

D.6.1 低 

.......................................................................................................................................... 97 管理考参理 

D.6.2 

行控高 

API .......................................................................................................................................... 97 层 

API .......................................................................................................................................... 98 层 

................................................................................................................................................ 100 制 

D.7.1 cudaConfigureCall() .......................................................................................................... 100 

D.7.2 cudaLaunch() ........................................................................................................................... 100 

D.7.3 cudaSetupArgument() .......................................................................................................... 100 

D.8 OpenGL ................................................................................................................................. 100 性作操互 

D.8.1 cudaGLRegisterBufferObject()..................................................................................... 100 

D.8.2 cudaGLMapBufferObject() ................................................................................................ 101 

D.8.3 cudaGLUnmapBufferObject() ............................................................................................ 101 

D.8.4 cudaGLUnregisterBufferObject() ................................................................................ 101 

D.9 Direct3D ................................................................................................................................. 101 性作操互 

D.9.1 cudaD3D9Begin() .................................................................................................................... 101 

D.9.2 cudaD3D9End() ........................................................................................................................ 101 

VI 

CUDA 编 

1.1 

南 Version

程指 

D.10 错 

D.9.3 cudaD3D9RegisterVertexBuffer() ................................................................................ 101 

D.9.4 cudaD3D9MapVertexBuffer() ............................................................................................ 101 

D.9.5 cudaD3D9UnmapVertexBuffer() ....................................................................................... 102 

D.9.6 cudaD3D9UnregisterVertexBuffer() ........................................................................... 102 

D.9.7 cudaD3D9GetDevice() .......................................................................................................... 102 

处误 

................................................................................................................................................ 102 理 

D.10.1 cudaGetLastError() ............................................................................................................ 102 

D.10.2 cudaGetErrorString() ........................................................................................................ 102 

E 录 

录附 E.1 初 

参 

...................................................................................................................................... 103 考 

..................................................................................................................................................... 103 化 

E.1.1 cuInit() ..................................................................................................................................... 103 

E.2 设 

备管始 

................................................................................................................................................. 103 理 

E.2.1 cuDeviceGetCount() ............................................................................................................. 103 

E.2.2 cuDeviceGet() ......................................................................................................................... 103 

E.2.3 cuDeviceGetName() ............................................................................................................... 103 

考参 E.2.4 cuDeviceTotalMem() ............................................................................................................. 104 

E.2.5 cuDeviceComputeCapability() ....................................................................................... 104 

E.2.6 cuDeviceGetAttribute() ................................................................................................... 104 

E.2.7 cuDeviceGetProperties() ................................................................................................. 105 

序驱动程序 API 

E.3 上 

E.4 模 

............................................................................................................................................. 106 理管文下 

E.3.1 cuCtxCreate() ......................................................................................................................... 106 

E.3.2 cuCtxAttach() ......................................................................................................................... 106 

E.3.3 cuCtxDetach() ......................................................................................................................... 106 

E.3.4 cuCtxGetDevice() .................................................................................................................. 106 

E.3.5 cuCtxSynchronize() ............................................................................................................. 106 

管块 

................................................................................................................................................. 106 理 

E.4.1 cuModuleLoad() ...................................................................................................................... 106 

E.4.2 cuModuleLoadData() ............................................................................................................. 107 

E.4.3 cuModuleLoadFatBinary() ................................................................................................. 107 

E.4.4 cuModuleUnload() .................................................................................................................. 107 

E.4.5 cuModuleGetFunction() ...................................................................................................... 107 

E.4.6 cuModuleGetGlobal() .......................................................................................................... 107 

E.4.7 cuModuleGetTexRef() .......................................................................................................... 108 

管 

CUDA 编 

1.1 VII 

E.5 流 

..................................................................................................................................................... 108 理 

南 Version

程指 

E.5.1 cuStreamCreate() .................................................................................................................. 108 

E.5.2 cuStreamQuery() .................................................................................................................... 108 

E.5.3 cuStreamSynchronize() ...................................................................................................... 108 

E.5.4 cuStreamDestroy() ............................................................................................................... 108 

E.6 事 

................................................................................................................................................. 108 理管件 

E.6.1 cuEventCreate() .................................................................................................................... 108 

E.6.2 cuEventRecord() .................................................................................................................... 108 

E.6.3 cuEventQuery() ...................................................................................................................... 109 

E.6.4 cuEventSynchronize() ........................................................................................................ 109 

E.6.5 cuEventDestroy() .................................................................................................................. 109 

E.6.6 cuEventElapsedTime() ........................................................................................................ 109 

E.7 执 

............................................................................................................................................... 109 制控行 

E.7.1 cuFuncSetBlockShape() .................................................................................................... 109 

E.7.2 cuFuncSetSharedSize() ...................................................................................................... 110 

E.7.3 cuParamSetSize() .................................................................................................................. 110 

E.7.4 cuParamSeti() ......................................................................................................................... 110 

E.7.5 cuParamSetf() ......................................................................................................................... 110 

E.7.6 cuParamSetv() ......................................................................................................................... 110 

E.7.7 cuParamSetTexRef() ............................................................................................................. 110 

E.7.8 cuLaunch() ................................................................................................................................ 110 

E.7.9 cuLaunchGrid() ...................................................................................................................... 111 

E.8 内 

................................................................................................................................................. 111 理管存 

E.8.1 cuMemGetInfo() ...................................................................................................................... 111 

E.8.2 cuMemAlloc() ........................................................................................................................... 111 

E.8.3 cuMemAllocPitch() ............................................................................................................... 111 

E.8.4 cuMemFree().............................................................................................................................. 112 

E.8.5 cuMemAllocHost() .................................................................................................................. 112 

E.8.6 cuMemFreeHost() .................................................................................................................... 112 

E.8.7 cuMemGetAddressRange() ................................................................................................... 112 

E.8.8 cuArrayCreate() .................................................................................................................... 113 

E.8.9 cuArrayGetDescriptor() ................................................................................................... 114 

E.8.10 cuArrayDestroy() .................................................................................................................. 114 

E.8.11 cuMemset() ................................................................................................................................ 114 

E.8.12 cuMemset2D() ........................................................................................................................... 114 

VIII 

CUDA 编 

1.1 

南 Version

程指 

E.8.13 cuMemcpyHtoD() ...................................................................................................................... 115 

E.8.14 cuMemcpyDtoH() ...................................................................................................................... 115 

E.8.15 cuMemcpyDtoD() ...................................................................................................................... 115 

E.8.16 cuMemcpyDtoA() ...................................................................................................................... 116 

E.8.17 cuMemcpyAtoD() ......................................................................................................................... 116 

E.8.18 cuMemcpyAtoH() ...................................................................................................................... 116 

E.8.19 cuMemcpyHtoA() ...................................................................................................................... 116 

E.8.20 cuMemcpyAtoA() ...................................................................................................................... 117 

E.8.21 cuMemcpy2D() ........................................................................................................................... 117 

E.9 纹 

......................................................................................................................................... 119 管理考参理 

E.9.1 cuTexRefCreate() .................................................................................................................. 119 

E.9.2 cuTexRefDestroy() ............................................................................................................... 119 

E.9.3 cuTexRefSetArray() ............................................................................................................. 119 

E.9.4 cuTexRefSetAddress() ........................................................................................................ 120 

E.9.5 cuTexRefSetFormat() .......................................................................................................... 120 

E.9.6 cuTexRefSetAddressMode() .............................................................................................. 120 

E.9.7 cuTexRefSetFilterMode() ................................................................................................. 120 

E.9.8 cuTexRefSetFlags() ............................................................................................................. 121 

E.9.9 cuTexRefGetAddress() ........................................................................................................ 121 

E.9.10 cuTexRefGetArray() ............................................................................................................. 121 

E.9.11 cuTexRefGetAddressMode() .............................................................................................. 121 

E.9.12 cuTexRefGetFilterMode() ................................................................................................. 121 

E.9.13 cuTexRefGetFormat() .......................................................................................................... 122 

E.9.14 cuTexRefGetFlags() ............................................................................................................. 122 

E.10 OpenGL .................................................................................................................................. 122 性作操互 

E.10.1 cuGLInit() ................................................................................................................................ 122 

E.10.2 cuGLRegisterBufferObject() .......................................................................................... 122 

E.10.3 cuGLMapBufferObject() ...................................................................................................... 122 

E.10.4 cuGLUnmapBufferObject() ................................................................................................. 122 

E.10.5 cuGLUnregisterBufferObject() ..................................................................................... 123 

作操 

E.11 Direct3D 互 

................................................................................................................................. 123 性 

E.11.1 cuD3D9Begin() ......................................................................................................................... 123 

E.11.2 cuD3D9End().............................................................................................................................. 123 

E.11.3 cuD3D9RegisterVertexBuffer() ..................................................................................... 123 

CUDA 编 

1.1 IX 

南 Version

程指 

E.11.4 cuD3D9MapVertexBuffer() ................................................................................................. 123 

E.11.5 cuD3D9UnmapVertexBuffer() ............................................................................................ 123 

E.11.6 cuD3D9UnregisterVertexBuffer() ................................................................................ 124 

E.11.7 cuD3D9GetDevice() ............................................................................................................... 124 

F 录 

录附 F.1 最 

F.2 线 

F.3 查 

125 

点采近 

过找性 

........................................................................................................................................... 126 样 

............................................................................................................................................... 127 滤 

................................................................................................................................................... 128 表 

取纹理拾取 ....................................................................................................................................................... 

X 

CUDA 编 

1.1 

南 Version

程指 

图 

CPU 

1-2. 图更多晶体管用于数据处的和 

GPU 

1-3. 一计算设备架构软件堆图将 

1-4. 集和散布存储器操图统 

1-5. 图聚 

2-1. 程分图共 

2-2. 图线 

3-1. 图内 

5-1. 图硬 

5-2. 图已 

未 

未 

无 

无 

有 

有 

矩 

...................................................................................... 1 数 

........................................................................................ 2 理 

................................................................................................ 3 栈 

........................................................................................................ 4 

享内存让数据更接作 

ALU ............................................................................................... 5 近 

................................................................................................................................ 9 

............................................................................................................................... 模型存批 

11 

............................................................................................................................... 型模件 

14 

....................................................................................... 全局内存访问模式的示例并合 

52 


53 

54 

58 

59 

........................................................................... 60 例 

............................................................................... 61 例 

............................................................................................................................... 68 法 

图 1-1. 

GPU 

每秒浮点运算次 

图 5-3. 


图 5-4. 

........................................................................... 体冲突的共享内存访问模式示例储存 

图 5-5. 

........................................................................... 体冲突的共享内存访问模式示例储存 

图 6-1. 

阵乘 

图 5-6. 

存储体冲突的共享内存访问模式示 

图 5-7. 

广播的共享内存读取访问模式示 

CUDA 编 

1.1 XI 

南 Version

程指 

可 

所 

专 

成 

就 (GPU) 

第 1 章 

CUDA 简介 

1.1 作为数据并行计算设备的图形处理器 

GPU 个核心和高存储器带宽的配合下 , 最新的多在 

1-1 图从 

看到 , 经过短短几年的发展 , 可编程图形处理器具备了高的计算能力。为了图形和非图形处理的超强工具。以 

将 

和 (cache) 

(flow 

1-1. 1. CPU 和 GPU 的每秒浮点运算次数图 

GPU 这种发展的主要原因是来带 

为计算密集型和高度并行的计算设计 ( 而这正是图形渲染所 

GPU 的 ), 因此要需 

更多的晶体管专用于数据处理 , 而非数据高速缓存 

流控制 

CUDA 编 

1.1 1 

。示 

control), 如 

图 1-2 

南 Version

1-2. 

图 

,GPU 很 

相 

中 

进 

正的通用数据并行计算设备的能力。真 

渲 

程 

。 

的 

作 

一 

GPU 将更多晶体管用于数据处理具体来说 2. 

合于解决数据并行 ( 同一程序许多并执行 ) 的高运算密度 ( 算术运算与存储器操作的比例 ) 计算问题。因为在每个数据元素上执行同一程序 , 所以对复杂流控制的要求较低 ; 又因为具有高运算密度的同一程序在大量数据元素上执行 , 也就可以通过大量的计算而非大量的数据高速缓存来隐藏访存延迟适 

数据并行处理将数据元素映射到并行处理线程。处理大型数据集合 ( 比如数组 ) 的许多应用程 

程。同样地 , 图像和媒体处理应用程序 , 比如渲染图像的后期处理、视频编码和解码、图像 

GPU 

线 

只 

放、立体视觉、模式识别 , 可以将图像块和像素映射到并行处理线程。事实上 , 图像渲染和 

GPU DRAM 

缩 

程的可 

3D 以使用数据并行编程模型来加速计算。在可序 

染中 , 大量的像素和顶点集合被映射到并行 

理以外的许多计算方法也能通过数据并行处理来加速 , 其范围涵盖从一般的信号处理或物理模拟 , 到计算金融学或计算生物学等的诸多领域。处 

的事 : 般不太适用于非图形应用程序。易 

GPU , 在此之前 , 获得是但 

的所有计算能力并将其有效用于非图形应用程序中仍然不是件容 

API 过图形通能 

API 程 , 从而把较高的学习曲线强加给初学者 , 并且图形编行 

一 

存 

的 

些应用程序的瓶颈 

算能力。计 

GPU 用一般方式来读取 ( 即使以 

DRAM 以从可序 

任何部分聚集数据元 

本文档描述了一种创新性的硬件和编程模型 , 用以直接解决这些问题 , 并展示 

为一种 

GPU 但不能使用一般方式来写入 ( 即 ), 素 

DRAM 能将消息散布到不序 

任何部分 ), 

与 CPU 

, 其编程灵活性大大受限。比 

2 

CUDA 编 

1.1 

了 GPU 

是 DRAM 

GPU 带宽 , 这就不能未充分利用器储 

Version 南指程

程指 

CUDA(Compute Architecture, Unified Device 

、Tesla 解视统 

CUDA 软。 

章 

所 

和 

解 

应 

及 (API) 

对 GPU 

1.2 CUDA: 一种 GPU 计算的新架构 

为数据并行计算设备 , 在其上进行计算的分配和管理 , 而无需将其映射到图形 

8 系 

列 

计算设备架构 ), 是一种新型的硬件和软件架决方案 ( 详细信息请参阅附录用程序和图形应用程序一 

GPU 将 

API。它可用 A)。操作系统的多任务机制负责管理多个并发运行 , 构 

于 GeForce 

的访问 

Quadro 案和一些方决 

的 CUDA 

1-3 栈由几层组成 , 如图堆件 

: 硬件驱动程序 , 应用编程接口其运行时两个库会在单独的文档中介示 

以这绍 )。在硬件设计上 , 驱动程序层和运行时层是轻量级的 , 这样更能够达到高性能。 

(runtime), 

CUFFT 个更高层的通用数学库两及 

CUBLAS( 

,CUDA API 的 

语 

1-3. 

统一计算设备架构软件堆栈以给编程人员提供尽量低的学习曲线为目的图 

语法 

言语法扩展而来 ( 参见 

CUDA 编 

1.1 3 

第 4 

)。 

由 C 

南 Version

所 

,CUDA 提 

和 (gather) 

1-4. 

聚集和散布存储器操作图 

的 (scatter) 

存 

CPU 编的 

的 

储器寻址方式以实现更高的编程灵活性 , 这就是 

1-4 图如 

示 

DRAM 通用的了供 

何位置读取和写入数据的能力 , 与传统 

一样。程 

被称为聚集 

散布 

DRAM 器操作。从编程角度看 , 它们就是在储存 

任 

4 

CUDA 编 

1.1 

Version 南指程

程指 

和 (overfetch) 

1-5. 

共享内存让数据更接近 ALU 图 

章 

从 (round-trips), 

所 

内 

(shared 线。 

memory), 

CUDA 提 

示 , 应用程序可以利用它来最小化对 

DRAM 的 

供了极高读写速度的并行数据高速缓存或者称其为片上共享内存 

3 以使用它来互相共享数据 ( 参见第可程 

1-5 图如 )。 

过取 

轮询 

DRAM 低对降而 

存带宽的依赖程度 

CUDA 编 

1.1 5 

南 Version

第章 

章 

的 

。 

。 

。考 

。 

。 

程指 

1.3 文档结构 

第 

章 

 

 

 

 

 

 

 

 

 

附 5 

章 

6 

章 

章 

A 给录 

B 列录 

C 列录 

是给 API 和 

概述编程模型 : 

绍硬件实现。提供一些有关如何达到最大性能的指南介 

过分析一些简单示例的代码来进一步说明前几章的内容通 

各种设备的技术规格支出 

支 

动程运 

出有关纹理拾取一些细节驱 

般性介绍一 

行时运 

的数学函数参考持 

参 

1 

CUDA 对含包 

本文档分为下列几章 

2 

3 

4 

CUDA 绍介 

出 CUDA 

出 CUDA 

持的原子函数 

录 F 

录 D 

序 API 

CUDA 

API 时行 

录 E 

CUDA 

6 

CUDA 编 

1.1 

南 Version

程指 

编 

或 

,host) 

看 

(DMA) 

调 

的 

装 kernel) 

(block), 

复 

x +zD x D y )。为的 

为 

个 

x ), 

(grid), 

中 

个 

device)。它 

memory)。 

第 2 章编程模型 

2.1 高度多线程协处理器 

作 

用许多不同的线程去执行。要达到这种效果 , 可以将这样一个函数编译到设备的指令集中 , 并 

memory) 和 

准确地说 , 应用程序中 , 多次但在不同数据上独立执行的部分可以被独立放到在此设备上 , 

2.2 线程 

更 

线程分批 

CUDA 过通 

GPU , 将时程 

(compute 以并行执行非常多个线程的计算设备可作 

主 CPU( 为 

称为宿主协处理器运作换句话说 , 在宿主上运行的应用程序中 , 数据并行的、计算密集型的部分被装载到计算设备上。被 

, 译后的程序 ( 被称为内核编将 

到设备上。载 

分 

和 

所 

主和设备都保留自己的 DRAM, 宿 

(host 为宿主内存称别 

(device 内存备设 

引 

API 可以通过优化的户用 

DRAM 数据从一个将用 

DRAM 另一个到制 

, 该过程使用了设 

2.2.1 线程块 

再 

如 

备的高性能直接内存访问 

。擎 

ID) 标 

的 

执行内核的一批线程组成线程块 

由线程块组成网格 

述 , 

对于大小 

x ,D y ) 

线程的线的 

的 

x ,D y ,D z ) 的 

2.2.1 

2.2.2 

参见图 2-1。并 

对于大小 

三 

程块是可以协同工作的一批线程 , 它们通过高速共享内存有效地共享数据 , 并同步其执行以协调访存。更准确地说 , 用户可以在内核中指定同步点 , 块中的线程在全部到达此同步点时挂起。线 

杂寻址 , 应索引来标识每个线程。复 

CUDA 编 

1.1 7 

线程的线 

维块 , 索引 

ID(thread 线程由线程个每 

ID 这是块中的线程号。为了帮助基于线程 , 识 

2 序还可以将块指定为任意大小的二维或三维数组 , 并使用程用 

或 3 

为 (D 

(x,y) 块 , 索引为维二 

程 ID 

(x+yD 

为 (D 

程 ID 

为 (x,y,z) 

(x+yD 

南 Version

为 

x )。 

的 

程指 

2.2.2 线程块网格 

ID) 标 

可以包含的最大线程数是有限制的。但是 , 执行相同内核的 , 具有相同维度和大小的块可以分批组合到一个块网格中 , 这样单个内核调用中启动的线程总数就可以变得很大。但这是以线块 

的 

个 

x ,D y ) 的 

协作性的降低为代价的 , 因为同一网格中不同线程块中的线程不互相通信和同步。此模型允许内核有效运行 , 而不必在具有不同并行能力的各种设备上重新编译 : 如果设备具有非常低 

并行能力 , 则可以顺序运行网格的所有块 , 如果具有很高的并行能力 , 则可以并行运行网格的所有块 , 或者是多数情况下的二者组合使用。程 

ID(block 块由块个每 

ID 这是网格中的块号。为了帮助基于块 , 识 

复杂寻址 , 应用程序 

2 将网格指定为任意大小的二维数组 , 并使用以可 

(D 来标识每个块。对于大小为引索 

二 

(x,y) , 索引为块维 

ID 块的块 

(x+yD 

8 

CUDA 编 

1.1 

南 Version

程指 

主执行一连串对设备的内核调用。每个内核作为一批线程来执行 , 若干个线程组成线程块 , 再由线程块组成网格。图 2-1. 

线程分批宿 

CUDA 编 

1.1 9 

南 Version

DRAM 和的 

片上存储器 , 可访问的内存空间如下 , 示意图见 

程指 

和 5.1.2.3)。 

。 

2.3 内存模型 

 

备上执行的线程只能访问设备可寄存器 , 在设 

每线程本地内存 , 写读 

可 

可 

可 

块共享内存 , 读写每网格全局内存 , 

只 

常量 , 读每网格纹理内存。 

图 2-2: 

只 

全局、常量和纹理内存空间可以通过宿主读或写 , 并可被相同应用程序的内核持续访问 

5.1.2.1、5.1.2.2 、常量和纹理内存空间对不同的内存使用方式进行了优化 ( 参见局全 

理内存还为一些特定的数据格式提供不同的寻址模式和纹理过滤模式 ( 参见 4.3.4)。纹 

10 

CUDA 编 

1.1 

南 Version

程指 

2-2. 

2. 内存模型图 

DRAM 和的 

上存储器。片 

线程可以通过不同范围的一组内存空间来访问设备 

CUDA 编 

1.1 11 

南 Version

程指 

12 

CUDA 编 

1.1 

南 Version

程指 

来 

所 

第 3 章 

硬件实现 

3.1 具有片上共享内存的一组 SIMD 多处理器 

(SIMD) 架 

: 在任何给定的时钟周期 , 多处理器中的每个处理器执行相同的指令 , 但操作不同的数据。每个多处理器具有下列四种类型的片上存储器 : 构 

位 

每 

并 

memory), 由 

(multiprocessors) 作为一组多处理器备设 

3-1 , 如图现实 

示。每个多处理器具有单指令多数据 

, 间 

只 

cache), 由 

存空间为设备内存的只读区域 , 内 

只 

cache), 由 

32 理器有一组本地处个 

存器 , 寄 

空间为设备内存的只读区域。存 

(shared 据高速缓存或称为共享内存数行 

所有处理器共享并实现共享内存空 

unit) 

各种寻址模式和纹理过滤模式。访 

一 

地和全局内存空间为设备内存的可读写区域 , 且无高速缓存。本 

(constant 量高速缓存常读 

所有处理器共享并加速从常量内存空间的读取 , 常量 

(texture 理高速缓存纹读 

所有处理器共享并加速从纹理内存空间的读取 , 纹理内 

(texture 多处理器通过纹理单元个每 

2.3 理高速缓存 , 其中纹理单元实现纹问 

节提到的 

CUDA 编 

1.1 13 

南 Version

SIMD 片上共享内存的一组多有具 

理器。处 

程块网格是通过调度块在上执行来在设备上执行的。每个多处理器一批接一批地处理块批次。一个块仅在一个多处理器内处理 , 所以存在于片上共享内存中的共享内存空间能够提供极高的访存速度。线 

器执行。理 

3.2 执行模型 

3-1. 

硬件模型图 

14 

CUDA 编 

因为多处理器上寄存器和共享内存由块批次的所有线程瓜分 , 所以每个多处理器一批可以理多少个块取决于给定内核内的每线程需要多少寄存器以及每块需要多少共享内存。如果某多处理器没有足够的可用寄存器或共享内存来处理至少一个块 , 则内核将无法将块分配给该多处 

1.1 

Version 南指程

程指 

线 

开 

的 

的 

。2.2.1 

(issue) 

节 

(atomic) 

切 

的 

(non-atomic) 

包 

中 

块 

。包连以 

与 

中 

是 

大 

从 

warp 由 

以 SIMD 

力 1.x 

(thread 的 : 线程调度器便最大化地利用多处理器的计算资源。半时分 

。每个活动块划分到被称 

比 

(active) 个批次内并被一个多处理器处理的块被称为活动一在 

的 SIMD 

warp 中 : 其中每个程组 

了线发射绍介 

warp 同数量的线程 , 该数量被称为相含 

warp 

小 , 并为 

式由多处理器执行。活动 warp( 方 

所有活动块中的所有 warp) 如 

第一半或第二半 

scheduler) 定 

warp 一个从期 

到另一个 warp, 换 

warp(half-warp) 是 

warp 个一 

始递增 

2.2.1 述所 

warp 分为划块 

warp 始终相同 ; 每个式方 

。 

程 ID 

warp 增的线程 , 其中第一个递续 

程 ID 

0 程线 

3.3 计算能力 

同一网格的两个不同块中的线程无法通过全局内存安全地互相通信自 

定的。确 

warp 中块 

( 参见 4.4.6) 令 

取、修改并写入全局内存中的相同位置 , 

warp 某果如 

行了非原子 

令对全局或共享内存中的相同位置进行写入 , 则此 

capability) 由 

置发生的串行化写入次数及其发生顺序是不确定的 , 但会保证其中一个写入成功。如果指读位 

块中的线程索引如何相关联。顺序但其执行可以以协调全局或共享内存访问如含 

程块网格中块的发射顺序也是不确定的 , 且块之间没有同步机制 , 所以在网格执行期间 , 来。执指线 

的多个线程执行原子则对此位置的每个读取、修改和写入都会发生 , 且全部都是串行化发生的 , 但发生的顺序是不里 

( 其主要修订号为 1)。次要修订号与核心架构的增量改进相对应 , 其中可能包括新功能。的 

(compute 的计算能力备设 

要修订号和次要修订号来定义。主 

A 计算能力的技术规格在附录种各 

出。给 

A 相同主要修订号的设备具有相同的核心架构。附录有具 

列出的设备都是具有计算能 

CUDA 编 

1.1 15 

南 Version

作 

内 

中 

设 

都 

模 

可 

的 

设 

(primary 该控 

surface), 

模 

(mode 时位位应 

switch) 

计算机。应用程序的崩溃。定 

,CUDA 能将每个才 

中 

用程应 

3.4 多个设备 

式 

型相同时 , 应用程序才能保证工备 , 因为在驱动程序堆类 

GPU 看 

3.5 显示模式切换 

SLI 但是 , 如果系统处于作单独的设备。作 

GPU 多个用使 

为 CUDA 

GPU 情况下 , 仅当这些的备 

GPU 则只有一个 , 式 

CUDA 作用以 

GPU 最低层 , 所有的栈 

SLI 在一起。需要在控制面板中关闭合熔 

GPU 将 

。 

更改 

存分配给所谓的主表面 

7.68MB 内 

存。) 

表用于刷新用户当前查制面板的显 , 主表面所需的内存量将随之变化。例如 , 如 , 系统必须为主表面分配主 

了反锯齿的全屏图形应用程序需要为主表面分配更多的显示内用程序、按下用 

Alt+Tab 从 

应 

锁 

NVIDIA 显示设备。当用户通过更改显示分辨率或位深 ( 使用的看 

或 Windows 

DRAM 

示控制面板 ) 启动显示模式切换果用户将显示分辨率一些 

启而存 

非 5.24MB。( 

从 1280x1024x32- 

为 1600x1200x32- 

如果模式切换导致了主表面所需内存量的增加 , 系统可能不得不抽调本已指定 

给 CUDA 

在 Windows 

DirectX 以启动显示模式切换的其它事件包括启动全屏可 , 

DirectX 屏全 

Ctrl+Alt+Del 序切出或按下程用 

CUDA 内存分配给主表面使用 , 从而导致的序 

16 

CUDA 程指编 

1.1 

南 Version

程指 

所 

所 

程语言的用户提供相对较低的学习曲线 , 以便更容易编 

标 

; 

; 

库中的函数才是共用组件提供的函数。准 

准标 

第 4 章 

应用编程接口 

4.1 C 编程语言扩展 

CUDA 编 

C 语括包它 

运 

 

C 口的设计目标是为熟悉接程 

编写在设备上执行的程序。 : 述 , 允许编程人员更关注于业务代码而非语言地 

时库划分为 : 述 , 在宿主上运行 , 提供函数以控制并访问宿主中的一个或多个计行 

设 

所 

4.2 最小扩展集合 , 如的言 

 

所 

4.5 组件 , 如主宿 

4.2 语言扩展 

设备 ; 备组件 , 算 

的一个子集库 

如 4.4 

4.3 组件 , 如用共 

C 提供内置的向量类型 , 以及宿主和设备代码中都支持的 , 述 

C 编 

, 在设备上运行 , 并提供专用于设备的函数。述 

须强调的是 , 只支持在设备上运行必 

语言的扩展有四个部分 : 程 

的 C 

函 

变 

数类型限定符 , 用于指定函数是在宿主上还是在设备上执行 , 以及可以从宿主中还是设 

CUDA 编 

1.1 17 

类型限定符 , 用于指定变量在设备上的内存位置 ( 参见 4.2.2); 量 

中调用 ( 参见 4.2.1); 备 

南 Version

编 

,nvcc 每个扩展都有一些限定条件 , 这些限定条件会在下文各节中描述。违反这些限制时上以 

,__host__ 限 

和 

函 

限 

返 

限 

,__global__ 函 

编 

或 

程指 

新 

四 

,4.2.5 中 

。nvcc 的 

4.2.1 函数类型限定符 

介绍可以参见单独的文档。将给出错误或警告 , 但一些违规无法被检测到。细 

令 , 用于指定来自宿主的内核如何在设备上执行 ( 参见 4.2.3); 指 

内置变量 , 用于指定网格和块维度 , 以及块和线程索引 ( 参见 4.2.4)。个 

CUDA 这些扩展的每个源文件必须使用含包 

nvcc 器译 

译 

有简要介绍 

详 

4.2.1.1 __device__ 

__device__ 限 

在 

只 

4.2.1.2 __global__ 

__global__ 限 

 

只在 

符声明某函数 : 设备上执行 , 能从设备中调用。定 

符将某函数声明为内核。这种函数 : 设备上执行 , 定 

4.2.1.3 __host__ 

__host__ 限 

在 

只 

从宿主中调用。能 

限 

限 

译。编 

定符结合使用 , 此时 , 函数同时为宿主和设备 

4.2.1.4 限定条件 

__host__ 用使仅 

__host__、__device__ 声明某函数 , 等价于不使用符定 

__global__ 

符声明某函数 : 宿主上执行 , 能从宿主中调用。定 

18 

CUDA 编 

1.1 

符中的任何一个声明该函数 ; 在这两种情况下 , 该函数仅为宿主编译。定 

数不支持递归。函 

__device__ 

__device__ 

函 

但是 

__device__ 还可以与符定 

__device__ 

__device__ 函 

__global__ 

__global__ 

__global__ 函 

南 Version 

__global__ 

不能在函数体内声明静态变量。数不能取其地址 ; 相反数的函数指针则受支持。数 

__global__ 

不能具有可变个参数。数 

__host__ 

符不能结合使用。定 

void 须具有必数 

类型。回

程指 

函 

函 

内存的读写。参 

建 

所 

结 

指执 

字 

__global__ 函 

述 

4.2.2 变量类型限定符 

内存传递给设备 , 并限制享共过通前当数参数 

变量类型限定符 

对 __global__ 

4.2.3 任何调用必须指定其执行配置 , 如的数 


的调用是异步的 , 这意味着在设备完成其执行之前返回。数 

4.2.2.1 __device__ 

为 256 

节。。 

__device__ 限 

驻 

具 

可 

符声明驻留在设备上的变量。属于哪个内存空间。如果不使用其中任何一个 , 则变量 : 定 

在全局内存空间中 , 留 

4.2.2.2 __constant__ 

__constant__ 限 

应用程序的生命期 , 通过运行时库被网格的所有线程访问 , 也可以被宿主访问。有 

结 

__device__ 三节定义的其它类型限定符中 , 至多一个可以与面下 

合使用 , 以进一步指定变量 

驻 

具 

可 

4.2.2.3 __shared__ 

__shared__ 限 

在常量内存空间中有应用程序的生命期 , 通过运行时库被网格的所有线程访问 , 也可以被宿主访问。留 

结 

__device__ 可以与符定 

使用 , 声明变量 : 合 

驻 

具 

仅 

__device__ 可以与符定 

使用 , 声明变量 : 合 

在线程块共享内存空间中 , 有块的生命期 , 可被块内的所有线程访问。留 

程内对共享变量的调用具有完全的顺序一致性 , 但多个线程间对该变量的调用顺序不严格一非变量被声明为不稳定的 , 否则只要满令 , 编译器就可以优化对共享线 

CUDA 编 

1.1 

将共享内存中的变声明为外部 , 比如以此方式声明的所有变量内存中的起始地址相同 , 所以必须通过偏移量显式地管理数组中变量的布局。例如 , 如果想要在动态分配的共享内存中 

19 

立 

足 __syncthreads() 

。仅在 __syncthreads()( 致 

见 4.4.2) 

行之后 , 来自其它线程的写入才能保证可见。除 

南 Version 

组大小在初始化时被确定 ( 参见 4.2.3)。数

编 

和和变 

变 

和 

: 

成 

关 

。ptx 汇 

和助选情助 

要编译器能够解析在设备上执行的代码中的指针是指向共享内存空间还是全局内存空间 , 就只 

4.5.2.3 见 

-ptx 用 

支持这些指针 , 否则 , 就限制这些针只能在全局空间中分配或声明。 

(lmem) 

宿主全局或共享内存的指针将导致不确定的行为发生 ; 同样 , 在设备上执行的代码中 , 试图析取指向宿主内存的指针也将导致不确定的行为发生。这通常会带来分段错误和应用程序终止。 

4.2.2.4 限定条件 

则可以使用下列方式声明和初始化数组 

__shared__ 

量含有默认的静态存储 

__device__、__shared__ 

变 

员、形参以及在宿主上执行的函数本地变量 

__device__ 

struct 限定符不允许被用于些这 

union 

__constant__ 变 

__shared__ 变 

__constant__ 

__constant__ 

extern 能使用不量 

__constant__ 

不能在声明时进行初始化。在设备代码中声明的、不带有其中任何一个限定符的自动变量一般驻留在寄存器中。但是 , 在一些情况下 , 编译器可能选择将其放置在本地内存中。这通常发生在将耗费太多寄存器空间的量 

型结构或数组 , 以及编译器无法确定其长度是否定长的数组身上编代码 ( 通过使大 

。 

。 

和 4.5.3.6)。 

段 , 某变量没被放置在本地内存中 , 则后续编译阶段一旦发现该变量在目标架构中耗费了太多 

字定义为外部变量。量仅在文件范围内生效。量不能从设备中赋值 , 只能在宿主中通过宿主运行时函数赋值 ( 参键 

或 -keep 

译获得 ) 能显示变量是否已经在第一个编译阶段被放置在本地内存中 , 此时此变量 

检查本地内存使用 

。况 

.local 用使将 

ld.local 声明并使用符记 

st.local 

记符访问。如果在第一个编译阶 

20 

CUDA 编 

1.1 

--ptxas-options=-v 器空间 , 仍可能将其放置到本地内存中。编译时可以通过存寄 

项来 

Version 南指程

程指 

函 

;Dg.z 未 

的 

参 

或 

;S 

或 

configuration)。 

(execution 

Dg, Db, Ns, S >>> 

等形 

Dg.x*Dg.y*Db.z 此 

所 

__device__、__shared__ 得 

获 

量的地址。也仅能在变 

__device__ 得 

变 

量的地址 , 

4.2.3 执行配置 

能用在设备代码中获参见 4.5.2.3。 

仅 

__constant__ 

执行配置用于定义在设备上执行函数的网格和块的维度 , 以及相关联的流 ( 有关流的介绍 , 参 

过 cudaGetSymbolAddress() 

__constant__ 

宿主代码中通 

Dg 的 


Db 

通 

的 

数的任何调用必须为此调用指定执行配置 

Ns 的 

;Ns 述 

见 4.5.1.5)。 

对 

工 

语 

的 

代 

所 

语 

子 

,__device__ 函 

参 

参 

参 

源 

代 

运 

返 

,__noinline__ 函 

的 

__noinline__ 限视 

对 

cubin 的 

4.2.4.2 blockIdx 

4.2.4.3 blockDim 

4.2.4.4 threadIdx 

4.2.4.5 限定条件 

不 

变量标识网格中的块索引 , 类型为 uint3( 此 

见 4.3.1.1)。 

不 

4.2.5 使用 

何内置变量赋值任为许允 

使用 NVCC 编译 

变量标识块的维度 , 类型为 dim3( 此 

见 4.3.1.2)。 

变量标识块中的线程索引 , 类型为 uint3( 此 

见 4.3.1.1)。 

nvcc 是 

许提取任何内置变量的地址。。允 

编译过程的编译器驱动程序 : 它提供简单熟悉的命令行选项 , 并通码 

nvcc 的 

CUDA 简化于用 

是 , 设备代码 

cubin 工作流包括将设备代码与宿主代码分离 , 并将设备代码编译为二进制形式或本基 

编译参数的对象代码。参加上象 , 要么链接到生成的宿主代码 , 该宿主代码包括作为全局初始化数据数组近 

的 cubin 

C 生成的宿主代码输出为可被另一个工具编译的。象 

码 , 或者输出为直接调用宿主编译器最 

CUDA 程序要么忽略生成的宿主代码 , 而使用用应 

程序 API( 动 

见 4.5.3) 

载并执行设备 

回的值 ) 不经过类型强制转换 , 不但 

调用用于实现不同编译参数的工具集合来执行这些选项。过 

驱 

4.2.3 , 且包含从象对 

CUDA 执行配置语法到必要的述 

行时启动代码的转换 , 以便加载和启 

只完全支 

C++ 像类、继承或基础块中的变量声明这种 ; 集 

特有功能则不受支持。 

每个已编译的内核 ( 参见 4.5.2)。动 

赋值给非空指针。有作流和命令选项的详细介绍 , 可参见单独的文档。能 

nvcc 引 

22 

CUDA 编 

1.1 

符。定 

C++ 器的前端按照译编 

CUDA 则处理规法 

件。宿主代码完全支持 C++。文 

4.2.5.1 __noinline__ 

不内联函数。函数体与调用此函数的指令必须位于同一文件中 

持 C++ 

C 

了两个编译器指令 , 见下文所述。入 

认情况下数始终为内联。但是默 

C++ 使用于由 

malloc() 则的原因 , 空指针 ( 比如规法 

对于带有指针参数的函数和含有长参数列表的函数 , 编译器将无。 

数限定符暗示编译器尽量 

关 nvcc 

Version 南指程

程指 

的 

和 

来 

次 

类 

则可用于控制任何给令 

小 

分量分个 

4.2.5.2 #pragma unroll 

unroll 

定循环的展开。它必须放置在循环前 , 并只应用于此循环。它后面可以跟一个数字 , 用于指定指 

编译器会默认展开带有已知循环计数的小循环。 

环必须展开多少次。 

#pragma unroll 1 

循 

将 

而 #pragma 

unroll 后 

4.3 共用运行时组件 

到影响 )。如果受 

在 #pragma 

止编译器展开循环。禁 

5 , 在下列代码示例中循环将展开如例 

: 

n , 编程人员应该确保展开将不影响程序的正确性 ( 在上例中 , 如果外另 

于 5, 则正确性可能 

4.3.1 内置向量类型 

不指定任何数字 , 加之其循环计数是常数的情况下 , 循环将被完全展开 , 否则根本不展开。面 

4.3.1.1 char1、uchar1、char2、uchar2、char3、uchar3、char4、uchar4、 

short1、ushort1、short2、ushort2、short3、ushort3、short4、 

用运行时组件可以由宿主和设备函数使用。共 

ushort4、int1、uint1、int2、uint2、int3、uint3、int4、uint4、 

long1、ulong1、long2、ulong2、long3、ulong3、long4、ulong4、 

float1、float2、float3、float4 

name> 式的构造函数 ; 例形 

y) 的 

4.3.1.2 dim3 类型 

, 如 

CUDA 编 

1.1 

向量。 

23 

的变量时 , 未指定的分量将初始化为 1。型 

1、2、3、4 向量类型是从基本整数和浮点数类型派生而来的。作为结构体 , 其第些这 

x、y、z 以通过字段可别 

此类型是基 

值 

w 

make_

包 

中 : 其 

(texel, 

标 

节 

然 

的 element” 

“texture 

类 

运 

。 

4.3.2 数学函数 

4.3.3 时间函数 

持支前当含 

时间函数 

准库数学函数的完整列表 , 以及在设备上执行时各自的误差界 

表 B-1 

C/C++ 的 

回在每个时钟周期递增的计数值在内核开始和结束时取此计数器的值 , 求二者之差 , 并记录每个线程的结果 , 从而计量设备完返 

4.3.4 纹理类型 

为线程是分时执行的因 , 者后于大 

纹理类型 

C 主代码中执行时 , 给定函数使用可用的宿在 

时实现。行 

CUDA 支 

上 

。 

全执行每个线程所用的时钟周期数 , 但这并非设备实际执行线程指令所用的时钟周期数。前者 

fetches) 

。 

的 

reference) 的 

所 

和 

持 GPU 

的一部分纹理硬件 ( 它们原本是为图形处理而设计的 )。从纹理内存而非全 

局内存读取数据具备几个性能优势 , 详 

。 

象。对 

述。纹理拾取 

coordinate) 作 

绑 

见 5.4 

(texture 核中 , 使用名为纹理拾取内在 

4.4.5 函数读取纹理内存 , 如备设 

(texture 一个参数是一个名为纹理参考第的 

一维数组进行寻址 , 还是使用两个纹理坐标作为二维数组进行寻址。数组的元素是其它属性除了定义纹理拾取的输入和输出数据类型以外 , 还包括如何解释输入坐标 , 以及应执为 

4.5.2.6 参考定义要拾取哪部分纹理内存。它必须通过宿主运行时函数 ( 参见理纹 

4.3.4.1 纹理参考声明 

一纹理或在内存中有所交叠。同 

什么处理。行 

4.5.3.9) 

到一些内存区域 ( 称为纹理 (texture)), 定 

后才能供内核使用。几个不同的纹理参考可以绑定到 

(texture 参考具有多个属性。其中之一是其维度 , 用于指定纹理是使用一个纹理坐标理纹 

称为纹理元素 

简写 )。 

纹理参考的一些属性不可变 , 而且必须在编译时已知 ; 它们在声明纹理参考时被指定。纹理参 

24 

CUDA 编 

1.1 

texture 文件范围内被声明为在考 

的变量 : 型 

Version 南指程

程指 

见下文。参 

给 

寻 

和 

寻 

分 

数 

位 

的 

或 

;Type 限 

是 

或 

,1.25 当 

处 

的 

且为 

;ReadMode 

或 

是 

是 

的 

,-1.25 当 

参 

和 

处 

位 

4.3.1.1 及 

位 

为 

N) 的 

Type 指 

量的向量类型之一 

Dim 指 

ReadMode 等 

为 

定拾取纹理时返回的数据类型 

为基本的整数和浮点数类型 , 以。可选参数 , 缺省值为 1; 制 

1-、2- 中定义的节一 

1.0] 区 

1.0] 区 

4- 

1 理参考的维度 , 等于纹定 

2;Dim 

于 cudaReadModeNormalizedFloat 

整数类 

cudaReadModeElementType; 

选参数 , 默认为可 

4.3.4.2 运行时纹理参考属性 

ReadMode 果如 

cudaReadModeNormalizedFloat, 

Type 

型 , 则其值实际返回值为浮点数类型 , 即根据原整数类型的全范围进行归一化处理 , 结果 

16- 

或 8- 

被映射到 [0.0, 

[-1.0, 对于无符号整数 ) 或 ( 间 

间 ( 对于有符号整数 ); 例如 , 值 

为 0xff 

的无符 

号 8- 

纹理元素返回值 

为 1; 如 

N) 区间的浮点坐标实现纹理参考 , 其进 

1) 中 

的 

N) 区 

1.0) 

度上使用区区维和 

63] 

31] 中 

更改。它们指定寻址模式、纹理筛选以及纹理坐标是否归一化 , 详与坐标相对应的维度中的纹理行 

纹 

动驱 

和 

y 

果 ReadMode 

cudaReadModeElementType, 则 

执行任何转换 

cudaReadModeElementType。 

不 

API 参考的其它属性是可变的 , 可以在执行时通过宿主运行时 ( 运行时理纹 

见 4.5.2.6, 

API 序程 

见 4.5.3.9) 

[0, 情况下 , 使用认默 

中 N 

1.0) 中 

坐标进行的 

寻使 

。wrap 址 

64×32 。例如 , 大小为小大 

x 将分别在理纹 

y 

间 [0, 

[0, 

[0, 。归一化的纹理坐标将用引 

[0.0, 射为映间 

一 64×32 

x 在将理 

[0, 上都使用范围度维 

, 因此 , 同的归一化坐标来寻址。如果纹理坐标独立于纹理大小 , 那么归一化纹理坐标就成为了一些应用程序很自然的选择。间 

小 

(clamp): 

仅为设置为返回浮点数数据的纹理执行线性纹理过滤。线性纹理过滤在相邻纹理元素之间执行 

[0, 模式定义纹理坐标超出范围时要执行的操作。使用非归一化纹理坐标时 , 超出范围址寻 

纹理坐标将被夹合 

于 0 

设置为 0, 大于等值 

于 N 

设置为 N-1。值 

用归一化纹 

4.3.4.3 线性内存中的纹理和 CUDA 数组中的纹理 

精度插值。启用线性纹理过滤时 , 将读取纹理拾取位置周围的纹理元素 , 并基于纹理坐标落入元素之间的位置插值生成纹理拾取的返回值。对于一维纹理执行简单线性插值 , 对于二维纹理执行双线性插值。低 

有关纹理拾取的更多详细信息。出 

clamp 标时 , 默认采用坐理 

0.0 式 : 小于模址 

1.0 于大 

[0.0, 置到区间设值 

。对于归 

wrap 坐标 , 也可以指定化一 

wrap 式。当纹理包含周期性信息时 , 通常使用模址 

寻址仅使用纹理坐标的小数部分 ; 例如 

作 0.25 

理 

作 0.75 

。理 

CUDA 编 

1.1 25 

F 录附 

纹理可以是线性内存 

组的任何区域 ( 参 

见 4.5.1.2)。 

或 CUDA 

南 Version

中 

(-use_fast_math) 

取 

值 

表 

中 

 

 

 

 

只维不寻 

4.4 设备运行时组件 

0 式单一 : 越界的纹理访问将返回模址 

。 

线性内存中分配的的纹理 : 度只能等于 1; 支持纹理过滤 ; 在 

使用非归一化整纹理坐标寻址 ; 硬件在纹理基址上强制执行内存对齐。为内存对齐进行抽象以便程序员更易使用 , 负责将纹能 

参考绑定到设备内存函数会回传一个字节偏移量 , 该偏移量被应用到纹理拾取。的分配例程返回的基指针符合此对齐约束 , 因此将已分配的指针传递到理 

4.4.1 数学函数 

CUDA 

cudaBindTexture()/cuTexRefSetAddress(), 应用程序可以完全避免再设置偏移。由 

备运行时组件只能在设备函数中使用。设 

4.4.2 同步函数 

界。差 

来例 

__syncthreads() 用 

步块中所有的线程。当所有线程都达到此同步点后 , 才继续执行后续代码。同 

B-1 表于对 

的一些函数 , 设备运行时组件提供了一些精度略低但运行较快的版本 ; 这些函数 

译器用一个选项本 ( 如果存在的话 )。编 

强制将每个函数编译为其精度略低但运行较快的版 

有相同的名称 , 但加了前辍 __( 具 

如 __sin(x))。 

B-2 

列出这些内部函数及其各自的误 

__syncthreads() 允 

4.4.3 类型转换函数 

协调同一块内的线程间通信。当块中的一些线程访问共享或全局内存中的同一地址时 , 对于其中的一些内存访问存在潜在的读后写、写后读或写后写的危害。这些危害可以通过同步这些访问之间的线程来避免。于 

出现在条件代码中 , 但仅当条件在整个线程块中求值相同时才适用 , 否则代码执行可能暂挂或产生非预期的结果。许 

rn 整为最近的偶数 , 取 

rz 向 

ru 向 

26 

CUDA 编 

1.1 

rd 向 

, 上正 ), 下取整 ( 到负无穷大 )。零 

Version 南指程 

IEEE-754 函数后缀用于指定列下 

模式 : 整

程指 

用指定的取整模式将浮点参数转换为整数。使 

系 

__float_as_int(1.0f) 等如 

4.4.4 类型强制函数 

浮点无符号整数。 

整数参数转换为浮点数。 

用指定的取整模式将无符号整数参数转换为浮点数。使 

,__int_as_float(0xC0000000) 等 

4.4.5 纹理函数 

4.4.5.1 从设备内存取纹理 

对整数参数执行浮点类型转换 , 保留值不变。例如 

于 -2。 

浮点参数执行整数类型转换 , 保留值不变。例 

0x3f800000。 

对 

于 

tex1Dfetch() 备内存取纹理时 , 使用设从 

函数访问纹理 ; 例如 : 列 

CUDA 编 

1.1 27 

南 Version

对 

元 

拾和 

仅 Functions) 

(Atomic 

, 

位 

: 

位 

元 

的 

位 

。 

或 

的 

和 

以 

改 

写 

数 

列 

为 32 

,atomicAdd() 在 

4.4.5.2 从 CUDA 数组取纹理 

浮点数。位 

x 函数使用纹理坐标些这 

性内存区域进行纹理拾取操作 , 然后绑定到纹理参考 texRef。线 

这些方法不支持任何纹理过滤和寻址模式。对于整数类型 , 这些函数可以有选择地将整数转对 

2 述函数之外 , 还支持上除 

4 和组 

; 例如 : 组 

数 

tex1D() 用 

访 

组取纹理时 , 使 

x 纹理坐标用使 

绑定到纹理参 

性内存进行纹理拾取操作。线 

考 texRef 

纹理 : 问 

从 CUDA 

4.4.6 原子函数 

tex2D() 

原子函数 

x 函数使用纹理坐标些这 

y 

考 texRef 

CUDA 

取绑定到纹理参 

。纹理参考的不变属组 

了这些设备。出 

4.3.4.1 纹理拾取传递的返回值 ( 参见及以 

4.3.4.2)。 

性 ( 编译时 ) 和可变属性 ( 运行时 ) 的组合确定如何解释坐标、在纹理拾取期间执行何种处理、 

4.5 宿主运行时组件 

子操作。例如字为其加上一个整数 , 然后将结果写回同一地址。在保证执行时不受其它线程干扰这种意义上 , 此操作是原子的。换句话说 , 只有此操作完成之后 , 其它线程才可以访问此地址。原 

28 

设 

主运行时组件只能由宿主函数使用它提供函数来处理备管理宿 

CUDA 编 

1.1 

1.1 算能力计在 

C 设备中可用。附录的上 

32 函数在驻留于全局内存中的一个子原 

- 执行读上字 

- 

32 内存中的某地址上读取一个局全 

32 操作仅适用于子原 

符号和无符号整数。有 

Version 南指程

程指 

与 

组 

驱 

运 

,CUDA 驱 

配 

都 

中 

, 

的和 

生 

对 

位 

的 

需 

的 

宿 

资 

。 

在 

驱 

(linear 或 memory) 

。 

数 

或 

或 

位 

、16- 位 

API 之序 

上实现 )。 

(CUDA 

。CUDA 

arrays)。 

数 

支 

位 

驱 

驱 

 

 

 

 

代上 

 

内 

纹执 

 

下文管理 

管理 , 存 

名 

名 

模块管理 , 码 

互操作性 

动程 

控制 , 理参考管理 , 行 

行成 

CUDA 运 

。CUDA 

OpenGL 

Direct3D 

CUDA 运 

API 两套由它 

: 

为 CUDA 

API 序程动 

层 API, 低 

应 

为 CUDA 

时 API 

层 API( 高 

CUDA 

用程序应该仅选择其中之一使用 

于这两套 API, 对 

时通过提供隐式初始化、上下文管理和模块管理使得设备代码管理变得容易因行 

所 

ncvv 时还负责通过行运 

成 C 

代码 ( 参见 4.2.5), 主 

此链接到此代码的应用程序必须使用 

CUDA 驱 

通 

动 

CUDA 运 

通 

动 

时 API。行 

相反 

API 序程动 

要更多的代码 , 更难于编程和调试 , 但是它提供较高级的控制 , 

4.5.1 常用概念 

不 

cubin 因为它仅处理且而 

( 参见 4.2.5), 象 

CUDA 独立于语言的。特别地 , 使用是以 

动程 

序 API 

置和启动内核比较困难 , 因为执行配置和内核参数必须使用显式函数调用来指定 , 而 

4.2.3 使用是不 

述的执行配置语法来指定。另外 , 设备仿真 ( 参见 4.5.2.7) 所 

CUDA 用使 

程序 API。动 

4.5.1.1 设备 

API 序程动 

过 cuda 

库提供 , 并且它们所有的入口点都带有前缀 cu。态 

API 时行 

过 cudart 

库提供 , 并且它们所有的入口点都带有前缀 cuda。态 

API 参 

参 

4.5.1.2 内存 

多个宿主线程可以在同一设备上执行设备代码 , 但在设计层面 , 一个宿主线程只能在设备上执行设备代码。因此 , 在多个设备上执行设备代码需要多个宿主线程。另外 , 通过一个宿主驱 

程中的运行时创建的任源不能由其它宿主线程中的运行时使用。线 

备可以分配为线性内存组线性内存在设备上地址空间存在 , 因此单独分配的单元可以通过指针互相引用 , 二叉树设 

以 32 

API 种两 

提供函数来枚举系统上可用的设备、查询其属性并选择其中之一执行内核 ( 运行时 

见 4.5.2.2, 

CUDA 编 

1.1 29 

数整 

API 序程动 

见 4.5.3.2)。 

CUDA 数 

个 

。CUDA 

组织成一由组 

何 CUDA 

一个典型例子。是 

CUDA 

南 Version 

号 

分量 , 这些组件可以是有符号或无符浮点数 ( 当前仅通过驱动程持 ) 浮点数而 

1、2 二维数组的若干元素组成 , 每个元素具有或维 

为纹理拾取 ( 参见 4.3.4) 组 

优化 , 其内存布局是非透明的 

或 32- 

的 8、16 

4 

32- 

序 API

完 

完 

适 

还 

数 

(buffer 

参 

和 

除 

,CUDA 上 

使 

,4.5.3.10 一 

(vertex 

,4.5.2.8 一 

设 

使 

标 

。 

和 

完 

完 

创 

参和 

。4.5.2.7 

。4.5.2.8 

所 

和分 

设 

程指 

终 

数组只能由内核通过纹理拾取来读取 , 且只能绑定到分量数一致的纹理参考 

。 

4.5.1.3 OpenGL 互操作性 

页定内存的一个优点是如果宿主内存被分配为页面锁定 , 则宿主内存和设备内存之间的带宽较高驱 

CUDA 内存和性线 

4.5.2.3 可由宿主通过内存复制函数 ( 如都组 

4.5.3.6 

) 读取和写入。述 

仅用于由分配该宿主内存的宿主线程执行的数据传送 )。但是 , 页面锁定内存是稀有资源 , 所以早在可分页内存的分配之前 , 页面锁定内存的分配可能失败。此外 , 分配太多的页面锁定内存会减少可用于操作系统分页的物理内存量 , 所以这将降低整体系统性能。 ( 

读的 

OpenGL 缓 

OpenGL 写 

可写 

object) 

读 

一 

malloc() 运行时还提供了函数用于分配和释放页面锁定的宿主内存 , 这与通过主宿 

配的可 

API 宿主内存相反 ( 运行时页分 

见 D.5.6 

D.5.7, 

API 序程动 

见 E.8.5 

E.8.6)。 

面锁 

4.5.1.4 Direct3D 互操作性 

Direct3D 9.0 顶 

Direct3D 写 

可写 

buffer) 

读 

的 

一 

读 

冲对象 

CUDA 射到映以 

CUDA 空间中 , 从而允许址地 

取由 

CUDA 数据 , 或允许的入 

OpenGL 供入 

取的数据 

节描述如何使用运 

API 时行 

成此操作 

API 述如何使用驱动程序描节 

此操作。成 

和 

点缓冲 

CUDA 射到映以 

CUDA 空间 , 从而允许址地 

取由 

CUDA 上 

设 

上 

设 

CUDA 数据 , 或允许的入 

Direct3D 供入 

取的数据 

节描述如何使用运 

API 时行 

成此操作 

API 述如何使用驱动程序描节 


参 

参 

在同一时刻 

Direct3D 仅能与一个文下 

/ 操作 , 通过调用带括号的初始化止互备 

 

目 

除 

9.0 之 

支持 : , 顶点缓冲之外对象不 

之和 

Direct3D 当 

还 

间的负载均衡优先于互操作性时 

D.9.7), 

备。 

,cuda3D9GetDevice() 

见 

。 

(begin/end) 函 

前 CUDA 

4.5.2.8 现 , 详见实数 

4.5.3.11。 

Direct3D 和文下 

GPU 须在同一必备 

CUDA 。这可以通过查询与建创 

的 Direct3D 

API 来确保这一点 , 对于运行时器配 

用 cudaD3D9GetDevice()( 

备相对应 

API 驱动程序于对 

用 cuD3D9GetDevice()( 

见 E.11.7)。 

D3DCREATE_HARDWARE_VERTEXPROCESSING 使用须必 

Direct3D 创建来记 

顺便提一句 , 

或 cuD3D9GetDevice() 

Direct3D 

外的版本 

30 

CUDA 编 

1.1 

的 Direct3D 

CUDA 

Direct3D 用于确保以可 

CUDA 

建在不同的设备上 

南 Version

程指 

设 

。4.5.2.4 描 

管或 

限 

为 

。 

的 

完 

完 

,4.5.3.7 介设 

的 

的 

和 

(events), 

。4.5.2.5 描 

数 

和 

数 

完 

完 

的 

4.5.1.5 异步并发执行 

内 

执 

执 

设 

了方便宿主和设备之间的并发执行 , 一些运行时函数是异步的 : 在设备完成请求的任务之前 , 控制就会返回到应用程序。这些函数包括 : 为 

内存的函数。一些设备还可以在页面锁定宿主内存和设备内存之间执行复制的同时 , 并发执行内核函数。应置 

cuDeviceGetAttribute() 来 

于 cudaMallocPitch() 

核里加 

了 __global__ 

定符的函数 

或 cuGridLaunch() 

cuGridLaunchAsync(); 

Async 存复制并以内行 

缀的函数 ; 后 

参 

分对 

操作。此 

↔ 备设行 

内存复制的函数 ; 备 

的流之间可以不按顺序执行操作。同 

用程序可以通过使 

用 CU_DEVICE_ATTRIBUTE_GPU_OVERLAP 

用 

询此功能 ( 请分别参见 E.2.6)。查 

调 

复制还不能实现与内核函数的并发执行。存 

参见 4.5.2.3) ( 

cuMemAllocPitch()( 

见 4.5.3.6) 

CUDA 的配 

2D 或组 

组 , 其内 

(streams) 程序通过流用应 

理并发。流是一个顺序执行的操作序列。另一方面 , 在同一时刻 , 不 

都不能开始。运行的和也 

cudaStreamSynchronize() 和和可 

E.5.2 

提 

见 D.3.2 

于任何内核启动、内存设置或内存复制 , 如果其流参数被指定为零 , 则仅当其所有先前的操作 ( 包括属于流部分的操作 ) 完成之后 , 该操作才能开始 , 而且在它完成之前 , 任何后续操作对 

↔ 创建流对象 , 并将一个序列的内核启动和宿主过通 

备内存复制的流参数设给此对象 , 可以 

定义流 

API 何使用运行时如述 

成此操作 

API 何使用驱动程序如绍 

成 

分别参以检测流中所有先前的操作是否已经完成。运行请 

的 

和 

时 API 

驱动程 

cudaStreamQuery() 

API 程序动驱 

cuStreamQuery()( 

供了一种方法 , 来显式地强制运行时在流中所有先前的操作完成之前等待。驱动程请 

和 E.5.2) 

时 API 

E.3.5), 

序 API 

cuStreamSynchronize()( 

分别参见 

E.5.3) 

CUDA 编 

1.1 31 

用程序可以强制运行时在所有先前的 

时 API 

cudaThreadSynchronize() 

败的启动或内存复制 

4.5.3.8 

失 

描 

序 API 

样地 , 使用运行 

cuCtxSynchronize()( 请设备任务完成之前等待。为了避免不必要的速度降低 , 这些函数最适合用于计时 , 或用于隔离同 

D.2.1 参见别分 

应 

并 

API 何使用驱动程序如述 


让应用程序异步地记录程序中任何点的事件查询这些事件被记录的时间 , 运行时还提供了一种方法来密切监控设备的进度并执行确准的计时。当事件之前的所有任务 ( 或者为 

给定流中的所有操作 ) 都已完成时 , 记录此事件 

API 何使用运行时如述 

成此操作 , 

南 Version

中 

设 

cudaSetDevice() 

。 

用 

。存 

中 

环 

或 

和 

个 

的 

有 CUDA 

时 API 

用 cudaSetDevice() 

4.5.2 运行时 API 

4.5.2.1 初始化 

列任意两个来自不同流的操作不能并发执行 : 页面锁定宿主内存分配、设备内存分配、设下程序将全被禁止异步执行。此功能只提供用于调试目的 , 为让软件产品可靠运行 , 绝不要使用此功能。应 

↔ 存设置、设备内备 

内存复制或它们之间的事件记录。备 

CUDA_LAUNCH_BLOCKING 程人员将编在 

1 量设置为变境 

情况下 , 系统上运行的所 

4.5.2.2 设备管理 

运行时函数计时时 , 以及将第一次调用的错误代码解释到运行时中时 , 有必要紧记运行的初始化方式。对 

cudaGetDeviceCount() 

索其属性的方法检 

提 

API 时行运 

API 何显式初始化函数 ; 第一次调用运行时函数时 , 运行时任有 

被初始化。当 

没 

即 

D.1 节章 

函数用于管理系统中的设备。的 

cudaGetDeviceProperties() 

供一种用来枚举这些设备并 

4.5.2.3 内存管理 

选择与宿主线程相关设备 : 在调用任的函数之前必须选择一个设备。如果不执行显式来 

序将自动选择设备 0, 且任何后期的显式调程 

的函数用于分配和释放设备内存、访问在全局内存空间中声明的变量被分配的内存、 

32 

CUDA 编 

1.1 

D 任何附录或数 

用 cudaSetDevice(), 调 

分 

释 

__global__ 函何 

中 

D.5 节章 

不起作用。将 

在宿主和设备内存之间传送数据。和 

256 代码示例在线性内存中分配了包含列下 

点数元素的数组 : 浮 


cudaMalloc() 用使 

cudaMallocPitch() 

cudaFree() 性内存 , 使用线配 

放线性内

程指 

中 

进 

函 

中循环遍历数组元素 : 码 

、CUDA 

各种函数数 

数 

获得。来 

数 

分 

数 

的 

即数 

(pitch, 

组 : 数 

:。 

分 

行释放。 

组的分配 , 该分配方式会对空间进行适当填补以满 

cudaMallocPitch() 使用议建 

组和其它设备内存区域执行复 

行 2D 

足 5.1.2.1 

描述的对齐要求 , 从而确保在访问行地址时或 

在 2D 

制 ( 使用 cudaMemcpy2D() 

数 ) 时获得最佳性能。返回的节距 

跨度 ) 必须用于访 

width×height 组元素。下列代码示例分配浮点数值的数问 

2D 

组 , 并显示如何在设备代 

CUDA 数 

cudaMallocArray() 的 

32- 位个 

行分配 , 使进 

建进 

组创 

CUDA 数 

下列代码示例分配一 

cudaGetSymbolAddress() 用 

cudaMallocArray() 用使组 

用 cudaFreeArray() 

D.5 

线性内存一 

cudaCreateChannelDesc() 描述由式格 

提取指向为全局内存空间中声明的变量分配的地址。已分配配的于 

width×height 数元素的点浮 

。 

cudaGetSymbolSize() 的大小通过存内 

组和为全局或常量内存空间中声明的变量分配的内存之间复制内存的所有 

2D 代码示例将列下 

CUDA 编 

1.1 

下列代码示例将一些宿主内存数组复制到设备内存中 : 

33 

节列出用于在使 

用 cudaMalloc() 

cudaMallocPitch() 线性内存、使用的配 

CUDA 制到在上一代码示例中分配的复组 

南 Version

: 。 

列代码示例定义了对这两个流的一系列操作 : 一个从宿主到设备的内存复制、一个内核启动和一个从设备到宿主的内存复制 : 下 

允 

cudaThreadSynchronize() 以用 

些事件可以对上一节的代码示例进行计时 : 这 

: 

列代码示例将一些宿主内存数组复制到常量内存中 

4.5.2.4 流管理 

下 

流管理 

D.3 节中的函数用于创建和销毁流 , 并确定流的所有操作是否已经完成下列代码示例创建两个流一 

myKernel() 处 

重 

到 hostPtr 

hostPtr 必 

指页锁的主存 , 才能证时间上的重叠 : 须 

4.5.2.5 

向 

事 

面 

件 

定 

管 

宿 

理 

内 

下一步处理之前所有流都已完成。在保确调后最 

事件管理 

hostPtr 流将其部分输入数组个每 

inputDevPtr 设备内存中的数组到制 

, 调用 

并 

设备上的 inputDevPtr, 理 

outputDevPtr 果结将 

新复制回 

复 

中 

hostPtr 应部分。使用两个流处理相的 

许一个流的内存复制与另一个流的内核执行同时发生。 

D.4 节中的函数用于创建、记录和销毁事件 , 并查询两个事件之间用去的时间。下列代码示例创建两个事件 : 一 

34 

CUDA 编 

1.1 

Version 南指程

程指 

定 

是 

类 

的 

的 

或 

定 

中 

或 

;channelDesc 具 

类 

;cudaFilterModeLinear 仅 

;addressMode 

寻 

寻 

4.5.2.6 纹理参考管理 

D.6 一 

节的函数用于管理纹理参考 

。 

型中公 

派生出来的结构 , 如下所示 

normalized 

共 

指 

而 

: 

中 width 

API 层高由 

texture 的义 

API 一种从由低层是型 

filterMode 指 

filterMode 等 

textureReference 的义 

和 height 

纹理坐标是否是归一化的 ; 如果其值非 0, 则纹理中的所有元素都使用纹理大小 ; 定 

纹理 ) 或四个 ( 对于二维纹理 ) 纹理元素的线性插值返回浮点类型值时有效 ; 维 

在 

[0,1] 间区 

[0,width-1] 间区非 

[0,height-1] 

的纹理坐标来寻址 , 其 

addressMode 指 

2 的 

过滤模式 , 即当拾取纹理时 , 如何基于输入纹理坐标来计算返回的值 ; 如则定 

寻址模式 , 即如何处理超出范围的纹理坐标是大小为定 

于 cudaFilterModePoint 

cudaFilterModeLinear; 

果它为 

数组 , 其第一个和第二个元素分别指定第一个和第二个纹理坐标的寻址模式 ; 在寻址模 

则返回值是纹理坐标最接近输入纹理坐标的纹理元素 ; 如果它 

cudaFilterModePoint, 

为 cudaFilterModeLinear, 

返回值是纹理坐标最接近输入纹理坐标的两个 ( 对于一 

cudaAddressModeWrap 支持归一化的纹理坐标 ; 仅 

CUDA 编 

1.1 

述拾取纹理时返回值的格式有下列类型 : 

35 

channelDesc 描 

于 cudaAddressModeWrap 

wrap 下 , 超出范围的纹理坐标将使用况情 

址 ; 

cudaAddressModeClamp 于等式 

clamp 下 , 超出范围的纹理坐标将使用况情 

址 , 等 

南 Version

等 

cudaChannelFormatKindSigned, 

cudaChannelFormatKindUnsigned, 

cudaChannelFormatKindFloat, 如如 

将或数 

cudaUnbindTexture() 用。 

中 

指 

数 

取 : 可 

完 

,x、y、z 和 

normalized、addressMode 和 

可 

其中 

w 

f 回值的每个分量值 , 以位为单位 , 枚举值返于 

有符号整数类型果这些分量为无符号整数类型果这些分量为浮点数类型的纹理参考。组 

, 。 , 

直接在宿主代码中修改。它们仅适用于绑纹理参考绑定到纹理之以 

后 , 内核才可以使用纹理参考从纹理内存中读取数据。 

使 

filterMode 

CUDA 到定 

cudaBindTexture() 使用须必 

使 

用低 

cudaBindTextureToArray() 

层 API: 

devPtr 代码示例将纹理参考绑定到列下 

的线性内存 : 向 

使 

CUDA 代码示例将纹理参考绑定到一个下以 

组 cuArray: 

使 

高层 API: 用 

低层 API: 用 


纹理绑定到纹理参考时指定的格式必须与声明纹理参考时指定的参数相匹配 ; 否则 , 纹理拾取会导致不确定的结果于解除对纹理参考的绑定。将 

D.8 一 

的 

36 

作 : 操 

CUDA 编 

1.1 

高层 API: 用 

CUDA 射的缓冲对象必须先在映被 

cudaGLRegisterBufferObject() 。使用册注 

成此 


OpenGL 的函数用于控制与中节 

操作性。互

程指 

解 

的 

返 

cudaGLUnregisterBufferObject() 用 

终。初 

返 

解 

在 

选 

运 

的 


对象 : 冲 

解除注册。使 

除映射 , 使 

cudaGLMapBufferObject() 之后 , 内核可以使用由册注 

D.9 一 

的 

用 cudaGLUnmapBufferObject() 

回的设备内存地址读取或写入缓 

止 

cudaD3D9RegisterVertexBuffer() 来 

。 

互操作性 

CUDA 些调用之间 , 顶点对象必须注册到这在 

Direct3D 的函数用于控制与中节 

用 cudaD3D9End() 

与 Direct3D 

cudaD3D9Begin() 作性必须使用操互 

始化 , 使 

成 : 完 

后才能被映射。此操作使用之 

的设备内存地址读取或写入回 

cudaD3D9UnregisterVertexBuffer() 解 

点缓冲 : 顶 

映射 , 使用除注册。除 

cudaD3D9UnmapVertexBuffer() 

4.5.2.9 使用设备仿真模式调试 

用使用设备仿真模式调试 

cudaD3D9MapVertexBuffer() 之后 , 内核可以使用由册注 

式下编译应用程序 ( 使 

用 -deviceemu 

程环境不包括对设备代码的任何原生调试支持但提供了用于调试的设备仿真模式在此模项 ) 时 , 设备代码在宿主上编译和运行 , 从而允许程序员使用宿主的原生调试支持来调试应用程序 , 就像此应用程序是宿主应用程序一样。预处理编 

宿 

有 

CUDA 编 

1.1 37 

过使用宿主的原生调试支持 , 编程人员可以利用调试器支持的所有功能 , 比如设置断点和监测数据。 : 

于设备仿真或设备执行必须一致编译。将为设备仿真编译的代码与为设备执行编译的代码链在设备仿真模式下运行应用序时 , 编程模型由运行时仿真。对于线程块中的每个线程 , 运行对 

都在宿主上创建一个线程。编程人员必须确保 : 主能够运行的最少线程数是每个线程块的最大线程数加上一个主线程。时 

__DEVICE_EMULATION__ 宏器 

此模式下被定义。应用程序的所有代码 , 包括使用的任何库 , 

 

仿真模式提供的许多功能使其成为一个非常有效的调试工具通备设 

cudaErrorMixedDeviceExecution 一起将导致在初始化时返回在接 

时错误。行 

256KB 的内存可用于运行所有线程 , 已知每个线程需要够足 

栈。堆 

南 Version

(printf())。 

等 

读取 ; 同样地 , 任何设备或宿主函数可以从设备或宿主代码中调用。果错误使用了内部同步 , 则运行时将检测到死锁情况。上 

的 

在 

以恢复原始控制字。或 

计算设备 ( 参见附与 

编 

和 

或 

位 

上 

因 

如到文件或到屏幕的输入和输出操作为所有的数据驻留在宿主上 , 所以任何设备或宿主上专有的数据可以从设备或宿主代码比 

因 

为设备代码编译后在宿主上运行 , 所以也可以使用那些原来不能在设备上运行的代码 , 

如 

当 

当 

大 

程人员必须切记 , 设备仿真模式是在仿真设备而非模拟设备因此 , 设备仿真模式在查找算法错误时十分有用 , 但某些错误难以查找 : 网格中的多个线程可能同访问某个内存位置时 , 则在设备仿真模式下运行的结果可能编设备的结果不同 , 因为在仿真模式下 , 线程顺序执行。在宿主上废弃一个指向全局内存的指针或在上废弃一个指向宿主内存的指针时 , 设备执行几乎肯定以一些不确定的方式失败 , 而设备仿真则可以生成正确的结果。与 

数时候 , 在设备上执行时与在设备仿真模式下的宿主上执行时 , 同一浮点计算将不会多 

将 

成完全相同的结果。这是预期结果 , 因为一般说来 , 只需使用略有不同的编译器选项就能让同一浮点计算获得不同的结果 , 更不要说不同的编译器、不同的指令集或不同的架构生 

使 

使 

 

C++ 编 

上 

或 

编 

。特别地 , 一些宿主平台将单精度浮点计算的中间结果存储在更高精度的寄存器中 , 这可能造成与设备仿真模式下的精度有显著差异。当这种情况发生时 , 编程人员可以尝试下列任何方法 ( 但不能保证可行 ): 了 

以 

些浮点变量声明为 volatile, 一 

制单精度存储 ; 强 

用 gcc 

-ffloat-store 

器选项 , 译 

Linux 

_FPU_GETCW() 用使 

_FPU_SETCW(), 

在 Windows 

使用 

用 Visual 

/Op 的器译 

/fp 

器选项 , 译 

以强制对某段代码进行单精度浮点计算 , 方法是在其前后使用指令 

_controlfp(), 

在该代码前面添加或 

24- 储控制字的当前值 , 并对其进行更改以强制尾数以存以 

储 , 并在结尾处使用存 

38 

CUDA 编 

1.1 

A) 不同 , 宿主平台通常还支持非归一化的数值。这可能导致设备仿真和录 

Version 南指程

程指 

是 

中 

支 

几 

几 

内 

指 

描 

和 

CUDA 上离 

的 

进 

进 

,E.2 

4.5.3 驱动程序 API 

备执行模式之间的结果显著不同 , 因为一些计算可能在一种情况下生成有限值的结果 , 而在另一种情况下生成无限值的结果。设 

CUDA 中 

中 

相应函数以处理对象。大 

4-1. CUDA 驱动程序 API 中的可用对象表 

对象 

句柄 

描述 

API 程序动驱 

于句柄的命令式 API: 基 

多数对象通过不透明句柄来引用 , 这些句柄被指定到 

4-1 用对象汇总在表可的 

。 

CUdevice 备设 

持 CUDA 

备设 

CUDA 数 

承 

CUcontext 文下上 

CPU 当于相乎 

程 

CUmodule 块模 

相当于动态库乎 

4.5.3.1 初始化 

CUfunction 数函 

核 

CUdeviceptr 存内堆 

设备内存的指针向 

组 CUarray 

设备上一维或二维数据的不透明容器 , 通过纹理参考可读载 

CUtexref 参考理纹 

如何解释纹理内存数据的对象述 

4.5.3.2 设备管理 

E.2 中 

之 

E 用附录调在 

任何函数 ( 参见 E.1) 的 

cuInit() 需要使用 , 前 

初始化。行 

cuDeviceGetCount() 

提 

中 

获取其属性 : 以 

供了枚举这些设备的方法 

的其它函数用 

函数用于管理系统中现有的设备。的 

4.5.3.3 上下文管理 

CUDA 编 

1.1 39 

函数用于创建、附加和分下文。的 

cuDeviceGet() 

E.3 中 

南 Version

所 

位 

进 

创 

。 

中 

递 

上 

上 

上 

中 

。cuFuncSetBlockShape() 

或设 

值 

函 

启 

下文中 , 上 

的 

的 CUDA 

CUDA 上 

的内存位置。 

CPU 类似于文下 

API 在计算。程 

并且当上下文销毁时 , 系统将自动清除这些资源。除模块和纹理参考等对象之外 , 每个上下文 

CUDA 的所有资源和操作都封装在行执 

32- 有自己独立的具还 

CUDA 空间。因此 , 不同址地 

CUdeviceptr 中的文下 

引用不同 

上下文具有与宿主线程一对一的对应关系。在同一时间 , 宿主线程只能有一个设备上下文。当 

cuCtxDetach() 递 

时 

cuCtxCreate() 线程使用主宿 

上下文时 , 此上下文就成为该线程的当前上下文。建 

CUDA 有效上下文不是某线程的当前上下文 , 则在上下文中操作的果如 

数 ( 不涉及设备仿真 

4.5.3.4 模块管理 

数 , 该计数根据给定上下文的每个独立客户机递增。例如 , 如果加载了三个库使用相同计 

的启发式方法创建上下文 , 而库只需在传递给它的上下文上操作。己 

上下文管理的大多数函数 ) 将返回 CUDA_ERROR_INVALID_CONTEXT。或 

API 化在同一上下文中执行的第三方授权代码之间的互操作性 , 驱动程序简要 

护了一个使用 

维 

cuCtxAttach() 文 , 则每个库必须调用下上 

增使用计数 , 并在库完成使用上下文时 , 调用 

E.4 中 

0 用计数。当使用计数等于使减 

, 则销毁上下文。对于大多数库 , 应用程 

CUDA 般会在加载或初始化库之前就已经创建好了一序 

下文 ; 这样 , 应用程序可以使用其自 

函数用于加载和卸载模块 , 并获取模块中定义的变量或函数的句柄和指针。的 

是 

4.5.3.5 执行控制 

列代码示例加载模块并检索指向某个内核的句柄 : 下 

Windows 是可动态加载的、包含设备代码和数据的包 , 类似于块模 

的 DLL, 

nvcc 

输出 ( 参 

E.7 中 

设 

见 4.2.5)。 

有符号 ( 包括函数、全局变量和纹理参考 ) 的名称在模块范围内维护 , 以便由不同 

CUDA 方写好的模块可以在同一三第 

文中互操作。下 

绍的函数管理设备上内核的执行程数 , 以及如何分配其线介 

给定函数的每块线置函数的共享内存大小。置 

cuParam*() 

提供给内核的参数系 

40 


1.1 

cuLaunchGrid() 数用于指定下一次调用函列 

动内核时将 

cuLaunch() 

程 ID。cuFuncSetSharedSize() 

南 Version

程指 

中 

分个或 

数进 

创 

数 

的 

数 

数 

进 

行释放。进 

4.5.3.6 内存管理 

E.8 中 

函数用于分配和释放设备内存 , 并在宿主和设备内存之间传送数据。的 

的分配 , 该分配方式会对空间进行适当填补以满组 

cuMemAlloc() 用使 

获得最佳性能。返回的节距必须用于访问数组元素。下列代码示时 

cuMemAllocPitch() 

cuMemFree() 性内存 , 使用线配 

256 代码示例在线性内存中分配了包含列下 

点数元素的数组 : 浮 

和其它设备内存区域执行复组 

cuMemAllocPitch() 使用议建 

行 2D 

足 5.1.2.1 

2D 的对齐要求 , 从而确保在访问行地址时或在述描 

( 使用 cuMemcpy2D()) 制 

width×height 配浮点数值的分例 

2D 

, 并显示如何在设备代码中循环遍历数组元素 : 组 

32- 位个 

CUDA 数 

的 

销毁。行 

下列代码示例分配了一 

: 组 

CUDA 编 

1.1 41 

cuArrayCreate() 用使 

建 CUDA 

cuArrayDestroy() 使用 , 组 

南 Version 

width×height 数元素的点浮

、CUDA 数 

数 

分 

: 

组复制到上一代码分 

。 

列代码示例定义了对这两个流的一系列操作 : 一个从宿主到设备的内存复制、一个内核启动和一个从设备到宿主的内存复制 : 下 

复 

hostPtr 允理 

数 

程指 

E.8 一 

配的 

列出用于在使线性内存示例中分配组节 

用 cuMemAlloc() 

cuMemAllocPitch() 线性内存、使用的配 

的 CUDA 

2D 间复制内存的所有各种函数。下列示例代码将之组 

4.5.3.7 流管理 

列代码示例将一些宿主内存数组复制到设备内存中 : 下 

函数用于创建和销毁流 , 并确定流的所有操作是否已经完成的 

E.5 

下列代码示例创建两个流 : 中 

每个流将其部分输入数 

制到设备内存中的数 

, 通过调用 

cuFunction 理设备上的相应部分。使用两个流处处 

将结重新复制回许一个流的内存复制与另一个流的内核执行同时发生。并 

果 outputDevPtr 

到 hostPtr 

42 

CUDA 编 

1.1 

南 Version 

组 hostPtr 

组 inputDevPtr 

的 inputDevPtr, 

中

程指 

cuCtxSynchronize() 以用 

些事件可以对上一节的代码示例进行计时 : 这 

包 

的 

或 

hostPtr 必 

指页锁的主存 , 才能保证时间上的重叠 : 须 

4.5.3.8 

向 

事 

面 

件 

定 

管 

宿 

理 

内 

下一步处理之前所有流都已完成。在保确调后最 

事件管理 

E.6 的函数用于创建、记录和销毁事件 , 并查询两个事件之间用去的时间。下列代码示例创建两个事件 : 中 

4.5.3.9 纹理参考管理 

E.9 中 

将 

函数用于管理纹理参考。的 

核才可以使用纹理参考从纹理内存中读取数据。内 

CUDA 编 

1.1 

纹理参考绑定到纹理之后 , 

43 

cuModule 模块果如 

含某个定义如下的纹理参 

cuTexRefSetArray() 

南 Version 

考 texRef: 

cuTexRefSetAddress() 使用须必 

texRef 代码示例获取列下 

柄 : 句

的 

绑 

绑 

的 

中 

devPtr 指由 

数 

解 

的 

对象 : 点 

进 

的一些线性内存 : 向 

返 

进 

返 

完 

解 

终 

程指 

E.9 列 


的结果。定 

定到 

texRef 代码示例将列下 

texRef 代码示例将列下 

CUDA 到定 

E.10 中 

组 cuArray: 

用于设置纹理参考的地址模式、过滤模式、格式和其它标识的各种函数。将纹理绑定到纹理参考时指定的格式必须与声明纹理参考时指定的参数相匹配 ; 否则 , 纹理拾取会导致不确出 

与 OpenGL 

cuGLInit() 作性必须使用操互 

初始化。行 

CUDA 射的缓冲对象必须先在映被 

cuGLRegisterBufferObject() 。使用册注 

成此操 

OpenGL 数用于控制与函的 

操作性。互 

: 作 

: 象 


注册。除 

cuGLMapBufferObject() 之后 , 内核可以使用由册注 

回的设备内存地址读取或写入缓冲对 

D.9 中 

的 

操作性。互 

cuGLUnmapBufferObject() 用使 

cuGLUnregisterBufferObject() 射 , 使用映除 

cuD3D9RegisterVertexBuffer() 

些调用之间 , 顶点对象必须注册完这在 

CUDA 

成 : 到 

之后才能被映射。此操作使用 

44 

CUDA 编 

回的设备内存地址读取或写入顶 

1.1 

Direct3D 数用于控制与函的 

与 Direct3D 

cuD3D9Begin() 作性必须使用操互 

cuD3D9End() 始化 , 使用初行 

: 止 

南 Version 

cuD3D9MapVertexBuffer() 之后 , 内核可以使用由册注

程指 

解除注册。解 

用 cuD3D9UnregisterVertexBuffer() 

除映射 , 使 

cuD3D9UnmapVertexBuffer() 用使 

CUDA 编 

1.1 45 

南 Version

程指 

46 

CUDA 编 

1.1 

南 Version

程指 

的 

行的指令 , 多处理器必须 : , 执 

个 

位 

位 

、__log(x)( 

和 

,__[u]mul24 将参 

个 

位 

第 5 章 

性能指南 

5.1 指令性能 

读 

的 

执 

写 

的 

尽 

最 

warp 

warp 

个线程的指令操作数行指令 , 每个线程的结果每取 

warp 个线程一对 

允 

由 

每 

。 

此 , 有效的指令吞吐量取决于额定指令吞吐量以及内存延迟和带宽。它通过下列方式最大化 : 因 

线程调度器尽可能地将内存事务与数学计算同时执行 , 这需要 : 线程执行的程序具有高算术密度 , 即每个内存操作对应更多算术操作 ; 许 

5.1.1 指令吞吐量 

不使用低吞吐量的指令 ( 参见 5.1.1), 量 

5.1.1.1 算术指令 

化每种内存的可用内存带宽 ( 参见 5.1.2), 大 

多处理器具有许多活动线程 , 详见 5.2。个 

个指令 , 多处理器花费 : 一 

4 个 

时钟周期 , 用于 : 浮点加、浮点乘、浮点 

- 加、整数加、位操作、比较、求最小、求乘 

16 个 

参 

时钟 

32- 位 

warp 射发要 

CUDA 编 

1.1 47 

大、类型转换指令 ; 最 

时钟周期 , 用于 : 倒数、平方根倒数 

表 B-2)。见 

16 乘法使用数整 

__mul24 周期 , 而钟时 

__umul24( 

附录 B) 提供见 

了 4 

24 的有符号和无符号期周 

整数乘法。但是 , 在将来的架构中 

比 32- 

整数 

法慢 , 所以我们建议编写两个内核供应用程序在不同情况下调用 , 其中一个使用 

__[u]mul24, 另一个使用一般整数乘法。乘 

的 32- 

南 Version

等 

决 

(converge) 

等 

个 

的 

个 

是 

个 

是 

或 

的 

会 

执 

,warp 

已 

(diverge), 

和 

幂 , 的 

无穷大 

warp 

warp 是的 

个 

如 

个花 

果 n 

2 

y) 提 

则 (i/n) 

于 (i>>log2(n)),(i%n) 

于 (i&(n-1)); 

果 n 

数除法和模操作特别昂贵应该尽可能地避免 , 或者尽量替换为位操作 : 如文本型的 , 则编译器将执行这些转换。整 

它函数使用更多时钟周期 , 因为它们实现为多个指令的组合。时钟周期。其 

钟周期的更快版本 ( 参见时 

0 数平方根实现为平方根倒数再求倒数 , 而非平方根倒数再做乘法 , 所以它对于点浮 

__sin(x)、__cos(x)、__exp(x) 花 

1 获得正确的结果。因此 , 它处理够能 

对 

warp 

费 32 

36 除法花费点浮 

__fdividef(x, 周期 , 但钟时 

在 

20 了供 

录 B)。附 

中 

对 

费 32 

钟周期。有时候 , 编译器不得不额外插入转换指令 , 从而引入额外的执行周期。这种情况包括 : 时 

后 

对 

对 

后 

char 数为作操 

short 

数操作 , 其操作数通常需要转换为 int, 函 

精度浮点数计算中 , 将双精度浮点数常量 ( 不使用任何类型后缀定义 ) 作为输入值 , 后两种情况可以通过下列方式避免 : 单 

5.1.1.2 控制流指令 

于代码 , 我们强烈建议使用浮点类型和单精度数学。当在不支持原生双精度的设为其单精度对应函数。但是对于将来支持双精度的设备 , 这些函数将映射为双精度实现。对 

表 B-1 

义的数学函数的双精度版本 , 将单精度浮点数变量作为输入参数。定 

f 度浮点数常量 , 使用精单 

定义 , 比如 3.141592653589793f、1.0f、0.5f, 缀 

switch, do, for, while) 都 

内 

f 函数的单精度版本 , 也使用学数 

定义 , 比如 sinf()、logf()、expf()。缀 

1.x 比如计算能力 ( 备 

设备 ) 上编译时 , 双精度类型默认降级为单精度 , 双精度数学函数映射 

即 

(if, 流控制指令何任 

的线程分流 

按照 

/ WSIZE) 时 

warp 致导会 

不同的执行路径执行 , 其结果是对有效指令吞吐量产生显著影响。如果线程分流发生 , 则不同 

warp 行路径是串行化执行的增加此行的指令总数。当所有不同的执行路径都已完成时 , 到同一执行路径。定控制流指令时 , 要获得最佳性能 , 就应该写入控制条件 , 以便让尽量少的执的 

48 

CUDA 编 

1.1 

线程才合流 

ID 程线当 

所 

在 

3.2 分流。这种优化方式是可能实现的 , 因为如生产 

述 

块中的分布具有确定性。比 

warp 。在这种情况下 , 没有任何小大 

warp , 因为控制条件与流分 

美对齐。完 

(threadIdx 当控制条件仅取决于 , 如 

WSIZE 种优化方式就成立 , 其中这 , 

Version 南指程

程指 

,warp 绝 

假 

(predicate) 

个 

#pragma unroll 指用 

到 

个 

个 

令控制循环展开 ( 参见 

个 

switch 语 

或 

句 , 详细说明如下。在这 

if , 编译器可以通过使用分支预测展开循环或优化时有 

情况下 

4.2.5.2)。 

些 

不会分流。编程人员也可以使 

5.1.1.3 内存指令 

使用分支预测时 , 所有基于控制条件的指令都会被执行。而且 , 与每线程条件代码和基于控相当 

将 

warp 的 

/ 件的真关每条指令都会被调度执行 , 但只有具有真谓词的指令将实际执行。具有假谓词的指令不写入结果 , 而且不取地址或读取操作数。条制 

当由分支条件控制的指令数小于或等于特定时 , 编译器才将分支指令替换为预测指令 ; 如果编译器确定许会产生分流 , 则此临界值是 7, 否则是 4。仅 

多 warp 

到 

个 

4 指令包括从共享或全局内存中读取或写入的任何指令。多处理器使用例如 , 下列示例代码中的赋值操作符 : 存内 

时钟周期来发射 

400 内存指令。此外 , 当访问全局内存时 , 还有个一 

600 

钟周期的内存延迟。时 

5.1.1.4 同步指令 

4 一个读取指令花费射发 

4 周期 , 对共享内存的写入花费钟时 

时钟周期 , 但最关键的是 , 

400 局内存中读取浮点数会花费全从 

600 

钟周期。时 

个 

发 

将 

个 

果在等待全局内存访问完成期间 , 线程调度器可以发射足够多的独立算术指令 , 则大部分全局内存访存延迟可以被隐藏掉。如 

5.1.2 内存带宽 

期。周 

1 没有任何线程必须等待其它任何线程 , 则果如 

warp 

射 __syncthreads 

4 费花 

时钟 

将 

个内存空间的有效带宽主要取决于访模式 , 详见下列小节。因为设备内存与片上内存相比具有更高的延迟和更低的带宽 , 所以设备内存访问必须最小化。典型的编程模式是将来自设备内存的数据存储到共享内存中 ; 换句话说 , 就是让块中的每个线每 

: 设备内存中的数据加载到共享内存中 , 程 

与 

CUDA 编 

1.1 

块的所有其它线程同步 , 以便每个线程可以安全读取由不同线程写入的某块共享内存 , 

49 

南 Version

个 

, 

,type 

个 

__align__(16) 定用 

位 

、64- 位 

位 

中 

, 

的或 

或 

的 

 

 

将如处 

5.1.2.1 全局内存 

共享内存中的数据果必要的话 , 重新同步以确保共享内存已经由结果更新理 

果写回到设备内存中。结 

必 

等 

局内存空间没有高速缓存 , 所以最重要的是按照正确的访问模式获得最大的内存带宽 , 尤其是已知对设备内存的访问有多昂贵时。全 

方式 : 值 

32- , 设备能够在单个指令中将先首 

或 128- 

字从全局内存读取到寄存器。用如下赋 

一 

或 

对于结构体 , 大小和对齐要求可以由编译器使用对齐指定强制执行 , 比如对 

__align__(8) 符 

__align__(16) 

编译到单个加载指令中 

sizeof(type) 得使须 

于 4、8 

16, 

type 为型类 

变 

sizeof(type) 须对齐为必量 

sizeof(type) ( 也就是说 , 让其地址是节字 

倍数 )。 

且 

4.3.1.1 于对 

float2 介绍的内置类型 , 比如中节 

float4, 

将自动完成。齐 

或 

体应使构 

节的结构体 , 编译器生成多个加载指令。要确保它生成最少的指令 , 则这种结义 , 比如字 

位 

个 

位 

50 

CUDA 

进行排列 , 以便内存访问可以合并到单个邻近的、对齐的内存访问中。 

编 

1.1 

16 大于于对 

32- 

载指令。加 

128- 译为两个编会 


5 指令 , 而非载加 

warp , 在执行单个读取或写入指令期间 , 每个半二第 

同时访问全局内存地址的每个线程应该

程指 

始 

显 

位 

满 

中 

和 

的 

的 

位 

位 

N 的为 

和 

位 

个 

的 

的 

显 

倍 

的 

位 

位 

的 

32- 

倍。并 

HalfWarpBaseAddress 

确地说 , 在每个更准 

应 

程应访问地满线 

或中个 

16*sizeof(type) 

述的大小和对齐要求。此外 , 是的内存分配例程之一返回的变量 , 其任何地上足 

半 warp 

线程号 , 

对齐为至终 

HalfWarpBaseAddress-BaseAddress 应 

type* , 类型为中其 

type 

址 

节 ( 比如 , 字 

HalfWarpBaseAddress 

16*sizeof(type) 为齐对 

D.5 数 )。对于驻留在全局内存中或由倍的 

E.8 

址 BaseAddress 

少 256 

节 , 所以为了满足内存对齐约束 , 倍数。字 

了未合并访存的示例示 

是 16*sizeof(type) 

半 warp 

warp 述所有要求 , 即使半上足 

些线程不实际访问内存 , 每线程内存访一 

访存提供了比已合。 

意 , 如果访问也将合并。注 

适当合并将成为将来设备的必要条件已合存 

warp 分别执行每个半仅与 

warp 相对 , 我们建议执行整个。合并 

存低很多的带宽。然而 , 当访存时 , 尽管未合并访存的带宽比已合并访存的带宽低访位 

warp , 因为对整个并合 

图 5-1 

5-2 已合并访存的示例 , 而图了示 

图 5-3 

并 64- 

32- 提供了比已合并存访 

128- 访存是当 , 

128- 稍低的带宽 , 已合并存访 

是 32 

64- 一个数量级 , 但当访存是约大 

2 仅低大约 , 时 

4 仅低大约 , 时 

CUDA 编 

1.1 51 

南 Version

内 

float 内的 

5-1. 

已合并全局内存访问模式的示例图 

程指 

52 

CUDA 编 

1.1 

float 访问已合并的 : 左 

。存 

南 Version 

右 : 访问已合并 

( 被分流的 warp)。存

程指 

内 

。存 

CUDA 编 

1.1 

右 : 未对齐的初始地址。图 5-2. 

未合并全局内存访问模式的示例 

53 

float 访问非顺序的 : 左 

南 Version

内 

float3 内的 

。图 5-3. 未合并全局内存访问模式的示例存 

程指 

右 : 访问未合并 

54 

CUDA 编 

1.1 

南 Version 

float 访问不相连的 : 左 

。存

程指 

的 

,type 必 

是 

的 

大 

为 

的 

的 

的 

的 

数 

的 

的 

带 

空 

的 

和 

16 

BaseAddress 

是于 

址 

的 

。cudaMallocPitch() 

允和 

中 

类 

type*) 上 

ID 的全局内存访问模式是 , 线程的数组的一个元素 , 使用下列地址见常 

type* 

并访存个字节的结构体则应分割满足这些要求的多个结构体 , 而且数据应在内存中排列为这些结构体的多个数组 , 而非类型为合为 

: 

tid 

个线程访问位于地址 BaseAddress( 每 

线 

width 

type 足上述大小和对齐要求。特别地 , 这意味着 , 如果满须 

个数组。单 

为型 

大 

宽 

上 

(tx,ty) 个常见的全局内存访问模式是 , 当索引为一另 

每个线程访问位于地 

数。倍 

类型为 type*、 ( 

为 width) 度 

的 2D 

的一个元素时 , 使用下列地址组 

倍数进 

warp 种情况下 , 仅当满足下列条件 , 才能获得线程块的所有半这在 

存合并 : 访 

行分配 , 且其行相应地进行填补 , 则此数组将获得较高效的访问 

许编程人员编写不依 

warp 的宽是半个块程 

的倍数 ; 小 

cuMemAllocPitch() 函 

16 

5.1.2.2 常量内存 

16 地 , 这意味着 , 如果宽度不是别特 

16 的数组实际使用向上取整为最接近的数倍 

于硬件的代码来分配符合这些约束的数组。赖 

D.5 其相关的内存复制函数 ( 参见及数 

E.8) 

5.1.2.3 纹理内存 

量内存空间具有高速缓存 , 所以仅在高速缓存未命中时 , 才从设备内存中读取数据 , 否则仅花费读取常量高速缓存的时间常 

操作来实现完全的快速读取。此 

warp 半于对 

所有线程 , 只要所有线程读取同一地址 , 则从常量内存中读取与从寄存器中读取 

纹理内存空间具有高速缓存 , 所以纹理拾取仅在高速缓存未命中时 , 才从设备内存中读取数据 , 

warp 快。访存花费的时间随读取不同地址的线程数目线性增减。与仅让每个半样一 

的所有线 

warp 取同一地址相对 , 我们建议让整个读程 

所有线程读取同一地址 , 因为将来的设备将需要 

warp 相邻的纹理地址的同一密紧 

线程将达到最佳性能。此外 , 它还为具有恒定延迟的流式拾 

DRAM 设计 , 比方说 , 高速缓存命中降低了而取 

需求 , 但没有降低拾取延迟。宽 

CUDA 编 

1.1 55 

2D 仅花费读取纹理高速缓存的时间。纹理高速缓存针对则否 

间局部性进行了优化 , 所以读取 

过纹理拾取读取设备内存可能是从全局或常量内存中读取设备内存的有利备选方案 , 详见 5.4。通 

南 Version

(n-way) 

和 

类 

个 

的 

的 

显 

的 

个 

,warp 大 

和 

的 

位 

倍 

的 

conflict), 访 

显 

位 

是 

将 

的 

程指 

的 

(d 是 

所的 

n 为 

32- 为 

s 和 

5.1.2.4 共享内存 

于 warp 

(bank 

位于芯片上 , 所以共享内存空间要比本地和全局内存空间快得多。实际上 , 对有线程 , 只要在线程之间没有任何存储体冲突问共享内存就与访问寄存器一样快详见下文。 

n 

为 

得高内存带宽 , 共享内存被划分为同样大小的、可以同时访问的内存块 , 名为存储体因此 , 由属于存储体地址组成的任何内存读取或写入请求都可以同时获得服务 , 最后可获得的有效带宽是单个模块的带宽。获为 

(bank)。 

的 n 

的 n 

为 n, 则把此种情况称 

储体冲突。要获得最高性能 , 很有必要理解内存地址映射到存储体的方式 , 进而调度内存请求 , 最小化存储体冲突。路 

每两个时钟周期。位 

存 

参 

tid 索 

来 

位 

m/d 时 

是 

的 

将 

是 

的 

等是 

的 

时 

大 

32- 内存空间的存储体组织为 : 连续的享共 

字分配到连续的存储体中 , 每个存储体的带宽 

是如果某个内请求的两块地址落在同一存储体内 , 则会导致存储体冲突 , 访问也必须串行化。硬件将带有存储体冲突的内存请求按需分成许多单独的无冲突的请求 , 有效带宽就会减少数倍 , 该倍数与单独内存请求的数目相等。如果单独内存请求的数目存但 

1.x 计算能力于对 

设备 

为 32, 小 

体数为 16( 储 

见 5.1); 

warp 

共享内存请 

warp 分为第一半划求 

warp 请求和第二半个一 

warp 请求。因此 , 属于第一半个一 

线程和 

warp 第二半于属 

程间不会发生任何存储体冲突。线 

ID 常见的情况是每个线程从按线程个一 

s 数据中使用某个跨度的引 

32 一个问访 

: 字 

s*n 情况下 , 只要种这 

m 体数储存 

n , 或者同等地 , 只要数倍 

m/d 

倍数 

m 

突。冲 

1.x 不会发生存储体冲突。对于计算能力才 , 

d , 仅当备设 

于 1 

才不会发生任何存 

tid 公约数 ), 则线程大最 

tid+n 

warp 同一存储体。因此 , 仅当半问访 

小小于或等于 

32- 一提的其它情况出现在每个线程访问小于或大于得值 

的元素时。例如 , 如果按下列方式访 

图 5-4 

5-6 一些无冲突访存的示例 , 而图了示 

了一些导致存储体冲突的访存示例。示 

m 冲突 , 或者换句话说 , 因为体储 

2 

s , 所以仅当次幂 

奇数时 , 才不会发生任何存储体 

56 

CUDA 编 

1.1 

图 5-5 

问 char 

数组 , 则会发生存储体冲突。型 

南 Version

程指 

显 

定 

定 

个 

个 

的 

位 

的 

和 

位 

属于一个存储体。但是 , : 同 

位 

: 

位 

如果按下列方式访问同一数组 , 则不会发生任何存储体冲突 

如 

shared[3] 

对结构体而言 , 其编译后的内存请求与结构体成员数一样多 , 所以 , 下列代码 

shared[0]、shared[1]、shared[2] 因为是这 

如 

导致下列结果 : 将 

果 type 

如下 , 则结果为三个单独的无存储体冲突的内存读取义 

个 

位 

3 每个成员使用为因 

32- 

的跨度来访问。字 

如 

定 

果 type 

如下 , 则结果为两个单独的有存储体冲突的内存读取义 


32 

的跨度来访问。字 

果 type 

如下 , 则结果为两个单独的有存储体冲突的内存读取义 

选 

的数目。更精确说 , 对多个地址的内存读取请求由多个时间步完成 ( 每两个时钟周期一步 ) 每步处理一个这些地址的无冲突子集 , 直到所有地址都已完毕 ; 在每一步 , 子集从尚未进行的剩余地址中构建 , 过程如下 : 突 


节的跨度来访问。字 

将 

32- , 共享内存还具有广播机制 , 当处理一个内存读取请求时 , 可以读取一个后最 

字并同时广 

位 

warp 多个线程。当半到播 

32- 线程从含有同一个个多 

字的地址读取时 , 这将减少存储体冲 

指 

CUDA 编 

1.1 57 

由剩余地址指向其中一个字作为广播字 , 下列内容包括在子集中 : 于广播字内的所有地址 , 择 

每个存储体的剩余地址中的一个地址。选择哪个字作为广播字 , 以及在每个周期选择哪个存储体地址都不是特定的。向 

图 5-7 

了一些涉及广播机制的内存读取访问的示例。示 

32- 线程从同一个有所 

地址中读取时。字 

南 Version 

warp 的无冲突情况发生在半见常

位 

: 随机排列图 5-4. 无存储体冲突的共享内存访问模式示例右 

程指 

的线性寻址字 

58 

CUDA 编 

1.1 

32- 跨度为一个 : 左 

南 Version

程指 

个 

位 

CUDA 编 

1.1 

跨度字的线性寻址。图 5-5. 无存储体冲突的共享内存访问模式示例 

59 

为 3 

32- 

南 Version

个位路存储体冲突。图 5-6. 有存储体冲突的共享内存访问模式示例 

程指 

32- 

60 

CUDA 编 

1.1 

2 跨度为 : 左 

32- 

2 线性寻址将导致的字 

南 Version 

8 跨度为 : 右 

8 线性寻址将导致的字

程指 

路 

位 

CUDA 编 

2 

右 : 如果在第一步期间选择 “ 存储体 5” 中的字作为广播字 , 则此访问模式不会导致任何冲突 , 否则会导致存储体冲突。图 5-7. 有广播的共享内存读取访问模式示例 

1.1 61 

32- 因为所有线程从同一个 : 左 

地址读取 , 所以此访问模式是无冲突的。字 

南 Version

的 

个 

个 

类或 

定每网格的线程总数 , 设计每块的线程数或网格的块数时应该最大化可用计算资源的利用率。给 

,R 是 

,ceil(T, 

的 

的 

是 

对 

的 

大 

程指 

的 warp 

,T 是 

5.1.2.5 寄存器 

5.2 每块的线程数 

器储体冲突 , 可能会发生延迟。略掉。存 

64 

存 

是数 

0 , 访问寄存器对于每条指令需要常通 

外时钟周期 , 但是由于寄存器写后读依赖关系和寄 , 由写后读依赖关系导致的延迟就可以被隐藏进而忽额 

译器和线程调度器尽可能用方式调度指令 , 以避免寄存器存储体冲突。当每块中的线程倍数时 , 可以获得最佳效果。除了遵循此规则之外 , 应用程序无法直接控制寄存器存编 

192 每个多处理器的活动线程达到要只 

float4 冲突。特别地 , 无需将数据打包为体储 

int4 

。型 

一步看 , 当运行一线程块时 , 如果每块没有足够多线程来掩盖加载延迟的话 , 则在线程同步期间和设备内存读取期间 , 每个多处理器将被强制进入空闲状态。因此 , 最好的方法是每个多处理器上存在两个或多个活动块 , 以允许等待的块和可以运行的块同时执行。要让这种情况发生 , 不仅块的数目至少应该是设备中多处理器数目的两倍 , 而且每块分配进 

线方式在设备中流过 , 并在更大程度上分摊开销。更 

共享内存量至多应该是每个多处理器可用共享内存总量的一半 ( 参见 3.2)。的 

多线程块以管 

--ptxas-options=-v 选 

有效的时间分片 , 但是每块的线程越多 , 每线程可用的寄存器就越少。如果内核编译后需要的寄存器数目大于执行配置所允许的上限 , 就可能会阻止内核继续调用。当使用项编译时 , 可以得到内核编译后需要的寄存器数目 ( 以及本地、共为 

A),B 每个多处理器的寄存器总数 ( 参见附录是每个多处理器的活动块数块的线程数最近倍数向上取整后的值。中其 

每 

warp 足够大数目的块 , 每块线程的数目应选择为了有 

小的倍数 , 以避免使用未充满 

意味着块的数目应该至少与设备中的多处理器的数目一样多。这 

64 费计算资源 , 为浪而 

数是较好的选择 , 其原因参见 5.1.2.5。倍 

每块分配更多线程有利于 

32) 

1.x 计算能力于对 

备 , 每线程可用的寄存器数等于 : 设 

享和常量内存使用情况 )。 

62 

CUDA 编 

1.1 

T 

32 

南 Version

程指 

个 

软 

个 

数 

的 

256 或 

设备和设备内存之间的带宽比设备内存和宿主内存之间的带宽高得多。因此 , 用户应该争取最 

位 

其是图像处理 : 数 

则 

或 

区 

位 

线比较好 , 而且通常有足够的寄存器进行编译。想有效利用未来数代的新块。个 

。CUDA 

程 

数目 ( 参见附录 A) 的比率称作多处理器的占有为择执行配置件开发工具包提供了一个电子表格以帮助编程人员基于共享内存和寄存器要求来选择线程块大小。大最 

5.3 宿主和设备之间的数据传送 

64 最少含有块每 

192 , 并且仅当每个多处理器有多个活动块时才有意义。每块有程线 

果想将程序扩展到将来的设备 , 则每个网格的块数应该至少是 100; 如 

1000 , 可以考虑每网格备设 

warp 多处理器的活动个每 

warp 动活与 

率 (occupancy)。 

了最大化占有率 , 编译器尽量最小化寄存器使用 , 而且编程人员需要小心选 

5.4 纹理拾取与全局或常量内存读取 

化宿主和设备之间的数据传送例如 , 将更多代码从宿主迁移到 , 即使这意味着要使用低并行计算来运行内核。中间数据结构可以在设备内存中创建 , 由设备操作 , 销毁 , 而且永远不要被宿主映射 , 或复制到宿主内存。小 

外 , 由于每次传送都会有开销 , 所以将许多小的传送合成为一次大的传送要比单独执行每一个小传送要好得多。另 

后 , 使用页面锁定内存时 , 可以在宿主和设备之间获得较高带宽 , 详见 4.5.1.2。最 

高 

不 

寻 

打 

从全局或常量内存中读取相比 , 通过纹理拾取进行设备内存读取具有下列几个优点 : 速缓 , 如果要被拾取的纹理在高速缓存中 , 则可以潜在地获得较高带宽 ; 受访存模式的约束 , 而全局或常量内存读取则必须遵循相应访存模式才能获得好的性能与 

和 

8- 位 

计算的延迟隐藏得更好 , 有时候会改善应用程序执行随机访问数据的性能 ; 包的数据可以在单个操作中广播到多个独立变量中。间内浮点值 ( 参址 

5.1.2.1 见参 ( 

5.1.2.2); 

见 4.3.4.1)。 

CUDA 编 

1.1 63 

和 16- 

[0.0,1.0] 输入数据可以有选择地转化为数整 

[-1.0,1.0] 

如果纹理 

( 参见 4.3.4.2), 组 

硬件提供了可能适用于不同应用程序的其它功能 , 尤 

的 32 

是 CUDA 

南 Version

功能 

可用 …… 

限制过滤纹理单元之间快速的低精度插值仅当纹理参考返回浮点数据时有效归一化纹理坐标独立于分辨率的编码 

址模式边界情况的自动处标寻 

数 

步以互相共享数据 , 进而破坏了并行性 , 有两种情况 : 这些线程属于同一块 , 这种情况下使并同块 , 这种情况下 , 必须使用两个单独的内核调用通过全局内存来共享数据 , 一个内核调用写入全局内存 , 另一个从全局内存读取。 

述 ), 就象最大化宿主和设备之间的并发执行一样。所 

优化内存使用首先应尽量不进行低带宽的传送。这意味着最小化宿主和设备之间的数据因有时候 , 最好的优化甚至可能是通过简单地重新计算数据来避免数据传送 , 该方法十分有效。 

5.5 整体性能优化策略 

而 , 在同一内核调用中 , 纹理高速缓存与全局内存写不保持一致 , 从而对已经在同一内核中通过全局写而写入的某个地址的纹理拾取将返回不确定的数据。换句话说 , 仅当此内存位置已然 

理只能用于归一化的纹理坐 

最 

先前的内核调用或内存复制更新过后 , 线程才可以通过纹理安全地读取该内存位置 , 而对于由同一内核调用的同一个或另一个线程更新过后 , 线程不能够通过纹理安全地读取该位置。经 

能优化围绕三个基本策略 : 大化并行执行 ; 性 

CUDA 相关性仅在对线性内存拾取时才存在 , 因为内核不能对种这 

实施写入。组 

优 

内存使用以获得最大内存带宽 ; 化 

化指令使用以获得最大指令吞吐量。最大化并行执行的基础是优化算法结构以让数据尽可能地并行。在算法中 , 因为一些线程需要优 

用 __syncthreads(), 

通过同一内核调用中的共享内存来共享数据 ; 或者这些线程属于不 

设计了算法的并行之后 , 应尽可能有效地将其映射到硬件。通过仔细选择每个内核调用的执行 

置来完成此操作 , 详见 5.2。配 

4.5.1.5 程序还可以通过流的方式在设备上显式地并发执行 , 以获取较高级别的并行 ( 如用应 

送 , 详见 5.3, 传 

为这要比在设备和全局内存之间的数据传送的带宽低得多。这也意味着通过 

64 

CUDA 编 

1.1 

大化设备上共享内存的使用来最小化设备和全局内存之间的数据传送 , 详见 5.1.2。最 

Version 南指程

程指 

和 

述 , 对于每种内存类型的不同访存模式 , 有效带宽可能所 

(intrinsic 替本 

function) 

如 5.1.2.1、5.1.2.2、5.1.2.3 

B-2 中 

5.1.2.4 

相差一个数量级。因此 , 优化内存使用的下一步是利用最佳的访存模式 , 尽量优化地组织内存访问。此优化对于全局内存访问尤其重要 , 因为全局内存访问的带宽很低 , 且其延迟是数百个时钟周期 ( 参见 5.1.1.3)。另一方面 , 共享内存访问也常常值得优化 , 尤其是在具有高度的存储体冲突。会 

最终结果时用精度换速度 , 比如使用硬件函数代常规函数 ( 硬件函数在表这 

于优化指令使用 , 应该尽量不使用具有低吞吐量的算术指令 ( 参见 5.1.1.1)。对 

包括在不影响 

令 , 详见 5.1.1.2。指 

SIMD ), 或使用单精度而不使用双精度。由于设备的出列 

质 , 所以要特别注意控制流 

CUDA 编 

1.1 65 

南 Version

程指 

66 

CUDA 编 

1.1 

南 Version

程指 

,C 

等 

,B 的 

C sub 

和 

的的算 

录 A)。以 

sub; 

的 

:A 

与 wA)) 

大 

C 的积 

的 

仅能的计算方法 , 所以在实际应用中 , 不应按此示例编写矩阵相乘算法。和 

block_size)) 

sub 具 

务以下列方式分为多个线任 

于与低 

第 6 章 

矩阵乘法示例 

6.1 概述 

(wA, hA) 为 

wA) 的 

矩 

A 阵 

B 的 

和 

每 

个元素。一 

块程 

一个子方 

sub 的 

内的每个线程负责计 

乘 

示 

算两个维度分别 : 计 

每块的最大线程数 ( 参见附所选 

sub 等 

(wB, 

C 程块负责计算线个 

备的资源 , 这两个矩形矩阵可根据需要划分为许多维度 

阵 C 

于两个矩形矩阵的乘积 

sub 具 

sub 

且 

计 

择 C 

block_size 度维 

于 16, 

warp 块的线程数是每便 

的倍数 ( 参见 5.2), 小 

C 

/ block_size) 次 

为 block_size 

6-1 图如 

且 C 

(wA, 阵 ( 维度为矩子 

阵 , 并算为这些方阵的乘积之和。其中每个乘积的执行过程是 : 首先使用每线程加载每个方阵的一个元素 , 将两个相应的方阵从全局内存加载共享内存然后让每个线程计算结果方阵的一个元素。每一线程将其中每个乘积的结果累计到寄存器中 , 执行完毕后 , 将结果写入全局内存。方 

过以这种方式分块计算 , 我们可以有效利用快速的共享内存 , 并节省许多全局内存带宽 , 因通 

有相同的行索引 

(block_size, 阵 ( 维度为矩子 

C 

有相同的列索引。为了适应设 

为 A 

B 

(wA 局内存读取全从 

。 

CUDA , 编写此示例是为了清楚地说明各种而然 

程原则 , 并非是为一般的矩阵乘法提供高性 

CUDA 编 

1.1 67 

南 Version

C 的算 

6-1. 

矩阵乘法图 

sub。块 

C sub 的算 

。 

程指 

内的每一线程计 

一个元素 

每一线程块计 

C 子矩阵个一 

68 

CUDA 编 

1.1 

南 Version

程指 

6.2 源码清单 

CUDA 编 

1.1 69 

南 Version

程指 

70 

CUDA 编 

1.1 

南 Version

程指 

Mul(), 

Muld(), 在作 

的 

,B 

将在 

的和 

cudaFree() 释用 

,Muld() 迭 

的 

将 

的 

C 的中 

从 

和 

分 

。。 

,Muld() 

的与 

和 

将 

的 

C; ; 和 

具 

的 

。 

6.3 源码攻略 

: 

码包含下列两个函数 

6.3.1 Mul() 

源 

Mul() 接 

指 

A 的 

包装器的宿主函数 

度和宽度向应该写入宿主内存高 

为 Muld() 

设备上执行矩阵乘法的内核 

指 

Mul() 执 

使 

使 

和 

从 

A 主内存中宿向 

B 

个指针 , 两 

下列输入 : 受 

度 , 宽 

调 

使 

设备上计 

行下列操作 

使 

用 cudaMalloc() 

针。足够的全局内存分配指 

主内存复制到全局内存算 C; 宿 

给 A、B 

6.3.2 Muld() 

用 cudaMemcpy() 

: 

A 

B 

除了指针指向设备内存而非宿主内存之外 

有相同的输入参数 

用 Muld() 

sub 

CUDA 编 

1.1 

: ; 步以确保两个子矩阵都由块内的所有线程完全加载 ; 

71 

两个子集的乘积并将其加到上一次迭代期间获得的乘积中 ; 算 


C 

局内存复制回宿主内存 ; 全 

为 A、B 

C 

的全局内存。配 

 

同 

放 

计 

B 子矩阵和个一 

一个子矩阵从全局内存加载到共享内存中 

Mul() 

南 Version 

A 

对于每个块 

C 理所有需要计算处代 

A 

B 

子矩阵。在每次迭代中 , 此函数

之 

和 

所是的和 

也 

,BLOCK_SIZE 

,C 

,Muld() 的 

所 

的 

,Muld() 将 

和 

和 

都 

。 

,tx 在 

0 

都 

再 

sub 也 

a、b 为。 

和 

倍数等的 

。 

同步以确保在开始下一次迭代之前两个子集的乘积已经完成次 

一个不同的存储体 , 而对访存 , 每个线程都访问同一个存储体问 

的 

一旦所有的子矩阵全部处理完毕 

相同的访存 , 每个线程都访是 

倍数 ( 述 

5.1.2.1 照按 

5.1.2.4 

wA 设假 

wB 

的 ty 

16 

如 5.1.2.1 

建议的 ), 可以确保全局内存合并 , 因 

c 

到 15 

是 BLOCK_SIZE 

于 16。 

于每个半 warp, 对 

没有任何共享内存存储体冲突 , 所有线程 

间变化 , 因此对 

Bs[k][tx] 

k 

于 As[ty][k] 

于 As[ty][tx]、Bs[ty][tx] 

计算完毕其写到全局内存中编写原则是为了最大化内存性能。就 

72 

CUDA 编 

1.1 

Version 南指程

程指 

计 

的 

的 

附录 A 

技术规格 

的多处理器数目 

计算能力 

GeForce 8800 Ultra, 8800 GTX 16 1.0 

1.x 有具 

能力 ( 参见 3.3) 算 

有设备都遵循本附录描述的技术规格。所 

GeForce 8800 GT 14 1.1 

1.1 函数仅可用于计算能力子原 

备 ( 参见 4.4.6)。设 

GeForce 8800M GTX 12 1.1 

CUDA 给出支持表下 

有设备的多处理器数目和计算能力 : 所 

GeForce 8800 GTS 12 1.0 

GeForce 8800M GTS 8 1.1 

GeForce 8600 GTS, 8600 GT, 8700M GT, 8600M GT, 8600M GS 4 1.1 

GeForce 8500 GT, 8400 GS, 8400M GT, 8400M GS 2 1.1 

GeForce 8400M G 1 1.1 

Tesla S870 4x16 1.0 

Tesla D870 2x16 1.0 

Tesla C870 16 1.0 

Quadro Plex 1000 Model S4 4x16 1.0 

Quadro Plex 1000 Model IV 2x16 1.0 

Quadro FX 5600 16 1.0 

Quadro FX 4600 12 1.0 

Quadro FX 1700, FX 570, NVS 320M, FX 1600M, FX 570M 4 1.1 

Quadro FX 370, NVS 290, NVS 140M, NVS 135M, FX 360M 2 1.1 

Quadro NVS 130M 1 1.1 

CUDA 编 

1.1 73 

南 Version

维 

、y 维 

线 

数 

数 

万 

维 

的 

; 

; 

存在动态可配置的取整模式 ; 负 

个 

结果设为零 ; 是符合标准的 ; 溢 

分 

8; 是 

个 

(FMAD) 

标 

个 

27; 

和 

和 

16, 最 13; 

15; 

的 

个 

A.1 通用规范 

每 

线 

的最大大小分别 

4.5.2.2 内存的时钟频率和总量可以使用运行时来查询 ( 参见备设 

4.5.3.2)。 

程 

线 

warp 的 

每 

线程个 

512 块最多包含程线 

每 

常 

x 的块程 

和 z 

常 

是 512、512 

纹 

64; 

每 

块网格的每个维的最大大小是 65535; 程 

每 

32 是小大 

每 

多处理器的活动块的最大数目最大数目个 

多处理器寄存器的数目是 8192; 个 

对 

多处理器可用的共享内存量是 16KB, 个 

成 16 

大高度是 2 

储体 ( 参见 5.1.2.4)。存 

内存的总量是 64KB; 量 

对 

内存的高速缓存工作集是每个多处理器 8KB; 量 

内存的高速缓存工作集是每个多处理器 8KB; 理 

对 

一于绑定到二 warp 处理器的活动多个 

是 24; 

内 

多处理器的活动线程的最大数目是 768; 个 

每 

维 CUDA 

2 纹理参考 , 最大宽度是的组 

维 CUDA 

2 纹理参考 , 最大宽度是的组 

A.2 浮点标准 

程。线 

2 定到线性内存的纹理参考 , 最大宽度是绑于 

200 小的限制为大核 

原生指令 ; 条 

加 

; 

, 但存在下列不同 : 准 

8 处理器由多个 

4 器组成 , 所以在理处 

warp 周期内多处理器能够处理钟时 

除 

法是通过非标准的方式求倒数来实现的 ; 中 

平 

根是通过非标准的方式求平方根倒数来实现的 ; 于加法和乘法 , 通过静态取整模式仅支持取整到最接近的偶数和向零取整 ; 不支持直接方 

32 

对 

不 

不 

74 

CUDA 

支持非规格化数 ; 浮点算术和比较指令在浮点操作之前将非规格化操作数转换为零 

编 

; 

1.1 

用于检测浮点异常的机制 , 而且始终隐藏掩码浮点异常 , 但当异常发生时 , 掩码响应有 

IEEE-754 设备遵循单精度二进制浮点算术的算计 

下 

法和乘法一般被合并到单个乘加指令 

没 

/ 无穷大取整 ; 正向 

Version 南指程

程指 

的的输 

x86 

或 

。对于计算设备 , 其做法是将其夹合到支持范围的终点。这和体系结构的做法是不同的。的标 

NaN。注 

是 NaN, 

Signaling NaN 不 

包 

IEEE-754R 标 

的 

准 , 当浮点值超出整数格式的范围时 , 从浮点值到整数值的转换保留为不确定则 

0x7fffffff 操作的结果是位模式为的入 

Quiet 

IEEE-754 据根 

fminf()、fmin()、fmaxf() 如果 , 准 

fmax() 

输入参数之一 

支持。受 

NaN 个或多个一含 

意 , 按照 

而另一个不是 NaN, 

NaN 是非果结 

个参数。那 

CUDA 编 

1.1 75 

南 Version

程指 

76 

CUDA 编 

1.1 

南 Version

程指 

列 

中 

运 

兼 

都映射为单个指令。 

B.2 中而 

但 ulp。 

映 

函数仅在设备函数中使用。的 

和误差 ) 

范围 ) 全 

全范围 ) 

。truncf()、ceilf() 和原而 

附录 B 

数学函数 

B.1 中 

B.1 共用 

宿主和设备函数使用 , 由数函的 

共用运行时组件 

floorf() 也 

B-1 表下 

CUDA 了出 

时库支持的所有数学标准库函数。它还指出每个在设备上执行时的误差界。这些误差界还适用于当宿主不支持此函数时 , 在宿主上执行此函数的情况。这些误差界不保证在所有情况下均成立 , 因为虽进行了广泛测试但还没有穷尽所有设备。行 

从而截断了乘法的中间结果。射令序列 , 射为单个指令 , 

IEEE 和乘法是与法加 

是 , 加法和乘法通常合并到单个乘加 

CUDA 运 

0.5 , 因此最大误差为的容 

(FMAD) 令指 

荐的做法是将浮点操作数取整为整数 , 结果为浮点数应使用 rintf(), 推 

非 roundf()。 

x/y 2( 

roundf() 是因 

为 8 

1/x 1( 

而 rintf() 

1/sqrtf(x) 

B-1. 有最大 ULP 误差的数学标准库函数表 

rsqrtf(x) 

min() 库还支持映射为单个指令的整数时行 

sqrtf(x) 3( 

cbrtf(x) 1( 

函数 

2( 全范围 max()。 

hypotf(x) 3( 

大最大 ulp 

expf(x) 2( 

exp2f(x) 2( 

exp10f(x) 2( 

expm1f(x) 1( 

logf(x) 1( 

log2f(x) 3( 

log10f(x) 3( 

CUDA 编 

1.1 77 

全范围 ) 

log1pf(x) 2( 

南 Version

16( powf(x,y) 

tgammaf(x) 

全 

全 11( 

范围 ) 全 

全范围 ) 

范围 ) 全 

程指 

sinf(x) 

cosf(x) 

tanf(x) 

sincosf(x,sptr,cptr) 

4( asinf(x) 

acosf(x) 

2( 

3( 4( 2( 

atanf(x) 2( 

atan2f(y,x) 3( 

sinhf(x) 3( 

coshf(x) 2( 

tanhf(x) 2( 

asinhf(x) 3( 

acoshf(x) 4( 

atanhf(x) 3( 

全范围 ) 

erff(x) 4( 

全范围 ) 

erfcf(x) 8( 

范围 ) 全 

lgammaf(x) 6( 

... -2.264; 内 

全范围 ) 

fmaf(x,y,z) 0( 

frexpf(x,exp) 0( 

范围 ) 全 

ldexpf(x,exp) 0( 

范围 ) 全 

-10.001 距间外 

距更大 ) 间 

scalbnf(x,n) 0( 

范围 ) 全 

scalblnf(x,l) 0( 

范围 ) 全 

logbf(x) 0( 

范围 ) 全 

ilogbf(x) 0( 

范围 ) 全 

fmodf(x,y) 0( 

范围 ) 全 

remainderf(x,y) 0( 

范围 ) 全 

78 

CUDA 编 

1.1 

remquof(x,y,iptr) 0( 

modff(x,iptr) 0( 

fdimf(x,y) 0( 

truncf(x) 0( 

南 Version

程指 

范围 ) 全 

全范围 ) 

适用不 

不适用 

roundf(x) 

rintf(x) 

nearbyintf(x) 

ceilf(x) floorf(x) 0( lrintf(x) 0( 

lroundf(x) 0( 

llrintf(x) 0( 

llroundf(x) 0( 

signbit(x) 

isinf(x) 

isnan(x) 

isfinite(x) 

copysignf(x,y) 

fminf(x,y) 

fmaxf(x,y) 

fabsf(x) 

nanf(cptr) 

nextafterf(x,y) 

CUDA 编 

1.1 79 

南 Version

列 

小 

__ffsll() 返则 

中 

有 

返 

函 

个位的 

返 

位 

和的到的到 

完中中 

函 

的个 

完 

和 

的 

大 

与 

和位 

的 

的 

的 

的 

位 

和 

之 

程指 

的 

126 < y < 2 如 

个个。 

128, 。 

是 

位 

个 

位 

__ffs(x) 

是则 

B.2 设备运行时组件 

__fadd_rz(x,y) 使 

__fmul_rz(x,y) 使 

。和 

这些函比。 

126 < y < 2 128,__fdividef(x,y) 

为零乘无穷大的结果 ), 而普通除法则返回无 

表 B-2 

GPU 在设备代码中支持的硬件函数。这些硬件函数的误差界是特定于仅出 

x 是 

。 

果 

数不太精确 , 但却是表 B-1 

些函数的快速版本 ; 它们具有相同名称 , 但加上了前缀 __( 一 

__[u]mul24(x,y) 

最低有效位。忽和计 

如 __sinf(x))。 

x 零取整的取整模式计算浮点参数向用 

y 

最低有效位数据的乘积 , 并返回结果 

y 

__fdividef(x,y) 浮点除法和通普 

2 的精度 , 但对于同相 

x 零取整的取整模式计算浮点参数乘积的结果为零 , 而普通除法可以获得正确结果 , 精度见另外 , 对用向 

大。穷作 

表 B-1。 

__[u]mulhi(x,y) 计 

于 2 

__fdividef(x,y) 大 , 则穷无 

回 NaN( 

__[u]mul64hi(x,y) 计 

x 数参数整算 

y 

24 

的 32 

略 x 

y 

8 

高位。最 

__clz(x) 返 

x 数参数整算 

y 

64- , 并传递积乘 

的 32 

最高位 

算 64 

x 参数数整 

y 

果于 1, 则返回 x。结 

128- , 并传递积乘 

64 的果结 

__clzll(x) 返 

x 果如 

__saturate(x) 则 0, 于 

x 如果 0, 回 

最高位 

__[u]sad(x,y,z)( 绝 

__ffs(x) 返 

z 差和 ) 返回整数参数误对 


y 

绝对值的和。 ) 开始填充差 

开始 ) 

__ffsll(x) 返 

0 于并包含介回 

32 

x , 并且从整数参数字数 

31 位 ( 例如高最 

0 于并包含回整数参介回 

64 

x , 并且在整数参数数字 

一 ( 最低 ) 位的位置。最低位是位全相同。第。 

63 位 ( 例如高最 

续零。填充连续零。连 

返 

全相同 

回 64- 

Linux 这与 0。回 

数 x 

一 ( 最低 ) 位的位置。最低位是位置 1。如第 

果 x 

0, 

x 如果 1。置 

0, 

数 ffsll 

Linux 这与 0。回 

数 ffs 


80 

CUDA 编 

1.1 

南 Version

程指 

兼 

兼 

误 

与在误 

x 

x 误在大果如 

与不适用 

适用不 

的 

误 

+ floor(abs(2.95 * x))。 

界 

-24, -21.41, 否 -22, 

-21.19, 否 

* (1 / __cosf(x))。 

一和 

* __log2f(x))。 

CUDA 运 

__fadd_rz(x,y) 

__fmul_rz(x,y) 

__fdividef(x,y) 如 

__expf(x) 

误在 

-126 , 2 126 ] 区 

+ floor(abs(1.16 * x))。 

函数 

误差界 

容。 

表 B-2. 

1.x 库支持的硬件函数以及对于计算能力时行 

设备的各自误差 

IEEE 

__exp10f(x) 

__logf(x) 

2] 区 

-21.41, 否 

是 2。差 

IEEE 

果 y 

[2 

ulp , 则最大内间 

则 , 最 

__log2f(x) 

2] 区 

2 是差 

__log10f(x) 

2] 区 

2 是差 

[0.5, 

2 , 则最大绝对误差是内间 

ulp 

ulp 最大则 , 最 

如果 x 

__sinf(x) 

[-π, π] 区 

大 ulp 

3。 

2。 

是 3。差 

[0.5, 


则 , 最 

则会更 

如果 x 

__cosf(x) 

[-π, π] 区 

大 ulp 

则会更 

[0.5, 


x 如果 

。大 

__sincosf(x,sptr,cptr) 

。 

大 ulp 

__tanf(x) 

。样 


__powf(x, y) 

__mul24(x,y) 

__umul24(x,y) 

__mulhi(x,y) 

__umulhi(x,y) 

__int_as_float(x) 


exp2f(y 现来自实其 

sinf(x) 

cosf(x) 

__sinf(x) 现来自实其 

__float_as_int(x) 

__saturate(x) 

__sad(x,y,z) 

__usad(x,y,z) 

__clz(x) 

__ffs(x) 

CUDA 编 

1.1 不适用 

81 

南 Version

程指 

82 

CUDA 编 

1.1 

南 Version

程指 

。 

的 

的 

的 

位 

位 

位 

计 

计 

并 

+ val), 并 

- val), 并 

回全局内存的同一地址。这存 

附录 C 

原子函数 

C.1 算术函数 

C.1.1 

子函数仅可用于设备函数中 

atomicAdd() 

原 

将结果存回全局 

C.1.2 

atomicSub() 

位于全局内存中的地取读 

址 address 

32- 


字 old, 

算 (old 

存的同一地址。这三个操作在一个原子事务处理中执行。函数返回 old。内 

C.1.3 

atomicExch() 


址 address 

32- 

字 old, 

算 (old 


字 old, 

CUDA 编 

1.1 83 

address 位于全局内存中的地址取读 

32- 

个操作在一个原子事务处理中执行。函数返回 old。两 

将 val 

南 Version

val : (old-1)), 并 

较并交换 )。 

的 

的 

的 

的 

的 

位 

位 

位 

位 

位 

计 

计 

计 

计 

计 

和 

和 

的 

的 

>= val) ? 0 : (old+1)), 

== compare ? val : old), 

指程 

C.1.4 

atomicMin() 

C.1.5 

atomicMax() 


32- 

字 old, 

算 old 

val 

小值 , 并将结果存回全局内存的同一地址。这三个操作在一个原子事务处理中执行。函数返回 old。 

最 

C.1.6 

atomicInc() 


32- 

字 old, 

算 old 

C.1.7 

atomicDec() 

val 

大值 , 并将结果存回全局内存的同一地址。这三个操作在一个原子事务处理中执行。函数返最 

回 old。 

== 0) | (old > val)) ? 


行。函数返 

将结果存回全局内存的同一地址。这三个操作在一个原子事务处理中执 

32- 

字 old, 

算 ((old 

C.1.8 

atomicCAS() 

将结果存回全局内存的同一地址。这三个操作在一个原子事务处理中执行。函数返回 old。并 

回 old。 

84 

CUDA 编 

1.1 

比 

读取位于全局内存中的地 

并将结果存回全局内存的同一地址。这三个操作在一个原子事务处理中执行。函数返 

址 address 

32- 

字 old, 

算 (((old 

南 Version 

回 old( 

32- 

字 old, 

算 (old 

address 位于全局内存中的地址取读

程指 

的 

的 

的 

位 

位 

位 

计 

计 

计 

& val), 并 

| val), 并 

^ val), 并 

C.2 位函数 

C.2.1 

atomicAnd() 


C.2.2 

atomicOr() 


址 address 

32- 


字 old, 

算 (old 


C.2.3 

atomicXor() 


址 address 

32- 


字 old, 

算 (old 



32- 

字 old, 

算 (old 


CUDA 编 

1.1 85 

南 Version

程指 

86 

CUDA 编 

1.1 

南 Version

程指 

记 

有 

中 

还 

例是 

风是 

风 

的 

因 

。 

代 

之 

编 

编。 

编译的源码中。见 

附录 D 

运行时 API 参考 

时 API 

层 API(cuda_runtime_api.h) 低 

C 

nvcc 接口 , 不需要使用的格 

D.1 设备管理 

默认参数包装了一些低译器进行编译。高和 

层 API(cuda_runtime.h) 高 

C++ 

运行 

个级别。两 

API 接口 , 构建于低层的格 

上。它使用重载、引用译 

装器 , 其中包装了处理符号、纹理和设为它们依赖于要由编译器生成的代码 ( 参包 

层 API 

C++ 这些包装器可以在。程 

C++ 使用 , 并可以使用中码 

D.1.1 

述的调用内核的执行配置语法 , 它仅可用于使 


描 

层 API 

CUDA 一些特定于有具 

函数的低级功能。这些包装器需要使用 nvcc, 备 

4.2.5)。例 

如 4.2.3 

*count 中在 


可供执行的计算能力大于或等返仅支持设备仿真模式 , 且其计算能力小回返 

的 

用 nvcc 

D.1.2 

cudaSetDevice() 

于 1.0。 

设备数。如果没有这样的设备 , 则 

D.1.3 

cudaGetDevice() 

活动宿主线程执行设备代码所在的设备为录 

于 1.0 

0 设备 1, 回 

将 dev 

CUDA 编 

1.1 87 

南 Version

*dev 中在 

*prop 中在 

name 是 : 

的 

字 

个 

程指 

D.1.4 

cudaGetDeviceProperties() 

活动宿主线程执行设备代码所在的设备回返 

。cudaDeviceProp 

。 

结 

dev 设备回返 

属性 

定义为 : 构 

totalGlobalMem 是设备上可用的全局内存总量 , 单位为字节 ; 其中 

可用的共享内存总量 , 单位为字节 ; 块每 

sharedMemPerBlock 是 

regsPerBlock 

warpSize 是大是 

块可用的寄存器总数 ; 每 

ASCII 标识设备的于用 

串 ; 符 

memPitch 是 

中 

maxThreadsPerBlock 是 

参 

maxThreadsDim[3] 是 

warp 

; 小 

maxGridSize[3] 是 

totalConstMem 

major 和是块最大线程数 ; 每 

备上可用的常量内存总量 , 单位为字节 ; ; 设 

88 

理基址不再需要那种应用于纹理拾取的偏移。纹 

CUDA 编 

字节的 

1.1 

D.5 

内存复制函数允许的最大节距 , 包括 cudaMallocPitch()( 的 

见 

分配的内存区域 ; 

D.5.2) 

clockRate 是 

textureAlignment 是 

中 

块网格的每个维度最大大小 ; 每 

义设备计算能力的主要和次要修订号时钟频率 , 单位为千赫 ; 定 

minor 

南 Version 

4.3.4.3 

textureAlign 的对齐要求 ; 已经对齐为绍介

*dev 中在 

*prop 最与 


, 直到设备完成所有先前请求的任务为止。如果先前任务之一失败 , 则返塞阻 

。cudaThreadExit() 在 

。 

调 

用会重新初始 

D.1.5 

cudaChooseDevice() 

D.2 线程管理 

D.2.1 

回其属性佳匹配的设备 


返 

错误。回 

D.2.2 

cudaThreadExit() 

D.3 流管理 

时行运化 

流管理 

主线程退出时隐式调用。宿 

API 地清除与调用宿主线程相关联的所有与运行时相关的资源。任何后续式显 

D.3.1 

cudaStreamCreate() 

D.3.2 

D.3.3 

cudaStreamQuery() 

建流。创 

cudaStreamSynchronize() 

否 

D.3.4 

cudaStreamDestroy() 

塞 , 直到设备完成流中的所有操作为止。阻 

则 , 返 


1.1 89 

果流中的所有操作都已完成 , 返回 cudaSuccess, 如 

回 cudaErrorNotReady。 

南 Version

非 

和 

或 

确 

尚 

微 

在 CUDA 

D.4 事件管理 

毁流。销 

D.4.1 

cudaEventCreate() 

D.4.2 

cudaEventRecord() 

建事件。创 

cudaEventQuery() 

stream 事件。如果录记 

D.4.3 

cudaEventQuery() 

/ cudaEventSynchronize() 

事件实际已经记录的时间。定 

则在流中的所有先前操作都已完成之后记录事件 ; 否则 , 上下文中的所有先前操作都已完成之后记录事件。因为此操作是异步的 , 所以必须使用 

0, 

已经调用 , 但事件尚未记录 , 则此函数返回如 

cudaErrorInvalidValue。 

cudaEventRecord() 

事件实际已经记录 , 返尚果如 

否 

如 

D.4.4 

cudaEventSynchronize() 

果 cudaEventRecord() 

则 , 返 

果 

未在此事件上调用 , 则此函 

D.4.5 

cudaEventDestroy() 

返数 

回 cudaSuccess, 

回 cudaErrorNotReady。 

在此事件上调用 , 则此函数返回 cudaErrorInvalidValue。未 

回 cudaErrorInvalidValue。 

D.4.6 

cudaEventElapsedTime() 

毁事件。销 

90 

CUDA 编 

1.1 

)。如果任一事件尚未记录 , 则秒 

cudaEventRecord() , 直到事件实际已经记录为止。如果塞阻 


0.5 两个事件之间用去的时间 ( 以毫秒计 , 分辨率约为算计

程指 

数 

内 

个 

指 

个 

的 

中 

0 流非 

执 

,devPtr 必 

记录 , 则此结果是不确 

返 

中 

在 

数 

数 

返或 

果任一事件已经使用 

D.5 内存管理 

的。定 

D.5.1 

cudaMalloc() 

如 

函数返回 cudaErrorInvalidValue。此 

返回指向已分配内存的指针。已分配 

D.5.2 

设备上分 


在 

cudaErrorMemoryAllocation。 

配 count 

*devPtr 的线性内存 , 并在节字 

中 

cudaMalloc() 相应对齐为任何种类的变量。分配的内存是未清除的。如果失败 , 则存内 

回 

由 

行节距分配。由于硬件 

widthInBytes*height 备上分配至少设在 


返回指向已 

配内存的指针。函数可以填补分配以确保任何给定行中的相应指针将继续满足对齐要求 , 以组中分 

当地址在行之间更新时进行内存合并 ( 参见 5.1.2.1)。便 


D.5.3 

cudaFree() 

*pitch 

组元素的行和列 , 地址计算为 : 数 

2D 的节距是分配的字节数宽度。节距的设计用途是作为单独的分配参数 , 用于计算回返 

T 址。给定类型地的 

cudaMallocPitch() 的 

为 

以 

2D 于对 

cudaMallocPitch() 分配 , 建议编程人员考虑使用的组 

CUDA 节距对齐限制 , 如果应用程序将在设备内存的不同区域 ( 不管是线性内存还是的中 

组 ) 

2D 执行间之 

复制 , 这时更应该使用此函数。存 

cudaFree(devPtr) 返回。否则 , 如果用调 

前已经调用 , 则返回 

CUDA 编 

1.1 91 

devPtr 由放释 

向的内存空间 

cudaMalloc() 经由对已须 

cudaErrorInvalidDevicePointer。 

devPtr 。如果误错 

cudaFree() 不执行任何操作。如果失败 , 则则 0, 

回 

南 Version

结 

CUDA 数放 

个 

等 

分 

指 

当指 

填 

一 

数 

已 

等 

,hostPtr 必 

指 

指 

数 

(height 行 

传 

。 

*array 中在 

的 

个 

个 

)。pitch 字节。指程 

新 CUDA 

是 

D.5.4 

cudaMallocArray() 

。cudaChannelFormatDesc 的 

D.5.5 

cudaFreeArray() 

数组的句柄按 

array 果 

为 

照 desc(cudaChannelFormatDesc 

CUDA 分配 ) 构 

D.5.6 

cudaMallocHost() 

如释 

返回 

绍参见 4.3.4。介 

组 , 并 

0, 则不执行任何操作 

组 array。 

D.5.7 

节的页面锁定的、可供设备访问的宿主内存。驱动程序跟踪使用此函数分配的虚 

cudaFreeHost() 

字 

size 配分 

D.5.8 

cudaMemset() 

cudaMemcpy*() 存范围 , 并自动加速对内拟 

函数的调用。因为此内存可由设备直接访问 , 

的内存量。因此 , 最好节约使用此函数分配中转区进行宿主和设备之间的数据交换。页 

用返回。调 

malloc() 与使用以所 

函数获得的可分页内存相比 , 它在进行读取或写入时具有高得多的带 

cudaMallocHost() 使用。宽 

配过量的内存可能降低系统性能 , 因为它降低了系统可用于分 

D.5.9 

cudaMemset2D() 

hostPtr 放释 

向的内存空间 

cudaMallocHost() 由先前对须已 

内存区域的的向 

节。字 

92 

CUDA 

回时 , 此函数执行得最快编 

1.1 

value 常量字节值用使 

充 devPtr 

前 count 

设置给指定 

矩阵组在内存中所占的字节数宽度 , 其中包括添加到每行尾的任何填补 ( 参向 

向 

南 Version 

值 value 

个 dstPtr 

width 行每 , 

由 dstPtr 

的 2D 

见 D.5.2)。 

cudaMallocPitch() 由经 

pitch

程指 

cudaMemcpyHostToHost、cudaMemcpyHostToDevice、cudaMemcpyDeviceToHost 

指是或指个 

(height 行 

中 

个 

则 

指 

返 

指 

D.5.10 

cudaMemcpy() 

cudaMemcpyDeviceToDevice 

从向的内存区域到向的内存区域 , 其之一 , 指定复制的方向。内存区域不可以重叠。使用与复制方向不匹配和指针调将导致不确定的行为。节字 

cudaMemcpyAsync() 是 

参 

。 

D.5.11 

cudaMemcpy2D() 

定的宿主内存 , 如果传递指向可分页内存的指针作为输入 , 则此函数返回错误锁面 

将 count 

由 src 

由 dst 


中 kind 

stream 的 , 可以通过传递非零步异 

数与流相关联。它仅适用于页 

的 dst 

src 

cudaMemcpyDeviceToHost 或和是和是 

dpitch 

cudaMemcpy2D() 将用 

之 

指 

数 

和 

大 

src 和 

将矩阵 


src ) 从由节字 

dst 内存区域复制到由的向 

向的内存 

cudaMemcpyHostToHost、cudaMemcpyHostToDevice、 

内 

区域 , 其 

中 kind 


一 , 指定复制的方向。 

cudaMemcpy2DAsync() 参页面锁定的宿主内存 , 如果传递指向可分页内存的指针作为输入 , 则此函数返回错误。是 

spitch 

由 dst 

src 

2D 的向 

组在内存中的字节数宽度 , 其中包括添加到 

CUDA 编 

1.1 93 

行尾的任何填补 ( 参见 D.5.2)。每 

dst 域不可以重叠。使用与复制方向不匹配的区存 

指针调 

dpitch 不确定的行为。如果致导 

spitch 

于允许的最大值 


数与流相关联。它仅适用于 

D.1.4 见参 ( 

的 memPitch), 


错误。回 

南 Version

(height 行 

中 

个 

则 

指 

。spitch 

返 

参 

指 

数 

数 

D.5.12 

cudaMemcpyToArray() 

指始的位置 , 其个 

数 

中 

cudaMemcpyToArrayAsync() 

之是参或 cudaMemcpyDeviceToHost 

(dstX, 

。 

异步的 , 可以通过传递非数与流相关联。它仅 

cudaMemcpyHostToHost、cudaMemcpyHostToDevice、 

向的内存区域复制 

从左上角 


, 指定复制的方向。一 

将 count 

D.5.13 

cudaMemcpy2DToArray() 

于页面锁定的宿主内存 , 如果传递指向可分页内存的指针作为输入 , 则此函数返回错误用适 

src 从由节字 

到 CUDA 

组 dstArray 

dstY) 开 

零 stream 

中 kind 

dstArray 

阵 , 每中从左上角矩将 

cudaMemcpyHostToDevice 、 

(dstX, 开 dstY) 

cudaMemcpyDeviceToDevice 之 

kind 中 

或是 

是 

大 

一 , 指定复制的方向 

组在 

cudaMemcpyHostToHost、 

94 

CUDA 编 

。 

1.1 

行 width 

src ) 从由始的位置 , 其节字 

cudaMemcpy2DToArrayAsync() 

仅适用于页面锁定的宿主内存 , 如果传递指向可分页内存的指针作为输入 , 则此函数返回错误是 

到 CUDA 

如 

向的内存区域复制 

组 

cudaMemcpyDeviceToHost 

由 src 

2D 的向 

存中的字节数宽度 , 其中包括添加到每行尾的任何填补 ( 参见 D.5.2)。内 

果 spitch 

于允 


数与流相关联。它 

D.1.4 最大值 ( 参见的许 



错误。回 

Version 南指程

程指 

误 

(height 行 

中 

个 

则 

数 

是的 

。dpitch 

返 

指 

参 

指 

。 

(srcX, 

数 

srcY) 

D.5.14 

cudaMemcpyFromArray() 

个 

的是 cudaMemcpyHostToHost、cudaMemcpyHostToDevice、 

数 

cudaMemcpyDeviceToHost 或 

cudaMemcpyFromArrayAsync() 是 

srcY) 开 

之 

参 

将 count 

CUDA 从节字 

D.5.15 

cudaMemcpy2DFromArray() 

用于页面锁定的宿主内存 , 如果传递指向可分页内存的指针作为输入 , 则此函数返回错误适仅 

组 srcArray 

(srcX, 角上左 

dst 制到复始 

区域 , 其 

中 kind 

向的内存 


, 指定复制的方向。一 


数与流相关联。它 

矩阵开始复制到将 

每向的内存区域 , 其 , 

指 



是或 

大 

组在 

cudaMemcpyHostToHost、 

CUDA 编 

1.1 

于允。异步的 , 以通过传递非数与流相关联。它仅适用于页面锁定的宿主内存 , 如果传递指向可分页内存的指针作为输入 , 则此函数返回错 

95 

。 

行 width 

CUDA ) 从节字 


组 srcArray 

cudaMemcpy2DFromArrayAsync() 

最大值 ( 参是的许 

一 , 指定复制的方向 

由 dst 

回错误如 

中 kind 

左上角 

见 D.1.4 



由 dst 

2D 的向 

存中的字节数宽度 , 其中包括添加到每行尾的任何填补 ( 参见 D.5.2)。内 

果 dpitch 

南 Version 

零 stream

个 

数 

的 

(srcX, 开数是 cudaMemcpyHostToHost、 

srcY) 

(height (srcX, 的 srcY) 

数中 dstY) 

cudaMemcpyHostToHost、cudaMemcpyHostToDevice、cudaMemcpyDeviceToHost 

开是或个行 

个 

个 

指 

或 

开 

。symbol 可 

(dstX, 

数 

字 

开 

字 

。kind 可 

以是 

指 

D.5.16 

cudaMemcpyArrayToArray() 

dstArray (dstX, 从左上角 dstY) 开的中 



。或 

D.5.17 

cudaMemcpy2DArrayToArray() 

上角始的位置 , 其一 , 指定复制的方向左 

将 count 

CUDA 从节字 

组 

组 srcArray 

中 kind 

CUDA 制到复始 


的从左上角 

始的位置 , 其 

cudaMemcpyDeviceToDevice 一 , 指定复制的方向。之 

将矩阵 


字节 ) 

组 srcArray 

左上角 

D.5.18 

始复制 

cudaMemcpyToSymbol() 

开 

从 CUDA 

始偏 

中 kind 

到 CUDA 

组 dstArray 

cudaMemcpyHostToDevice 

的内存区域复制到从符以是一个驻留在全局或常量内存空间中的变量 , 向 

节指向 

号 symbol 

移 offset 

D.5.19 

cudaMemcpyFromSymbol() 

节从的内存区域。内存区域不可以重叠字 

将 count 

96 

CUDA 编 

1.1 

由 src 

cudaMemcpyDeviceToDevice。 

也可以是一个字符串 , 用于命名驻留在全局或常量内存空间中的变量 


将 count 

symbol 从以符号节字 

offset 移偏始 

dst 向的内存区域复制到从由指节

程指 

中 

中 

*desc 中在 

或 

在 

。symbol 可 

返 

数 

的 

的 

。symbol 可 

则 

。symbol 可 

不 

则 

不 

。kind 可 

以是 

到 symbol, 


以是一个驻留在全局或常量内存空间中的变量 , 

D.5.20 

的内存区域。内存区域不可以重叠 

cudaGetSymbolAddress() 

向 

设备上的地址 

以是一个驻留在全局或常量内存 

cudaMemcpyDeviceToDevice。 

也可以是一个字符串 , 用于命名驻留在全局或常量内存空间中的变量 

D.5.21 

cudaGetSymbolSize() 

或 

在 *devPtr 

symbol 符号回返 

到 symbol, 不 

未在全局内存空间中声明 symbol, 者 

*devPtr 

发生更改 , 并返回错误。 

空间中的变量 , 也可以是一个字符串 , 用于命名驻留在全局或常量内存空间中的变量。如果找 

cudaGetSymbolAddress() 失败 , 则果如 

cudaGetSymbolSize() 返 

D.6 纹理参考管理 

D.6.1 

低层 API 

回 cudaErrorInvalidSymbol。 

在 *size 

symbol 符号回返 

小以是一个驻留在全局或常量内存空间中的变量 , 也可以是一个字符串 , 用于命名驻留在全局或常量内存空间中的变量。如果找不大 

者未在全局内存空间中声明 symbol, 或 

*size 

发生更改 , 并返回错误。如果失败 , 则 

D.6.1.1 cudaCreateChannelDesc() 

回 cudaErrorInvalidSymbol。 

的 

和 

分 

。cudaChannelFormatDesc 位数的的量 

D.6.1.2 cudaGetChannelDesc() 

介 

参见 4.3.4。绍 

CUDA 编 

1.1 97 

D.6.1.3 cudaGetTextureReference() 

描述符。道通返 

f 格式为回返 

x、y、z 描述符以及道通 

w 

组 array 

南 Version 

回 CUDA

*texRef 中在 

指 

数 

的 

中 

分 

绑 

texRef 的考 

义的纹理参考相关联的结构。定 

个 

的 

也 

描 

函在 

texRef 时考 

述在纹理拾取描 

返回一个必须中 

程指 

D.6.1.4 cudaBindTexture() 

symbol 与由符号回返 

cudaMalloc() 中 

。 

D.6.1.5 cudaBindTextureToArray() 

何内存将解除绑定应用到纹理拾取的字节偏移 , 以便从所需内存中读取数据。此偏移必须除以纹理元素大小并传任 

devPtr 由将 

size 内存区域的的向 

texRef。desc 绑定到纹理参考节字 

texRef 何解释内存。先前绑定到如时 

cudaBindTexture() 硬件强制在纹理基址上执行对齐 , 所以为因 

*offset 

tex1Dfetch() 读取纹理的内核 , 以便这些内核可以应用于给递 

数。如果设备内存指针从 

D.6.1.6 cudaUnbindTexture() 

。 

0,NULL , 则偏移一定为回返 

以作为偏移参数传递。可 

将 CUDA 

组 array 

texRef。desc 纹理参考到定 

述在纹理拾取时如何解释内存。先前 

D.6.1.7 cudaGetTextureAlignmentOffset() 

到纹理参纹理解除绑定。定绑对 

texRef 到定绑 

任何内存将解除绑定 

D.6.2 

高层 API 

, 该偏移是绑定纹理参移偏回返 

高层 

D.6.2.1 cudaCreateChannelDesc() 

回的。返 

回格式与类匹量格式。返 

以可 

的任意类型中 

。3- 分 

量类型被默认 

98 

CUDA 编 

1.1 

在 *offset 

型 T 

南 Version 

是 4.3.1.1 

T 通道描述符。类型的配 

为 4-

程指 

指 

指 

数 

数 

的 

的 

的 

的 

绑 

绑 

CUDA 数何 

CUDA 数何 

texRef 的的 

个 

个 

介 

介 

描 

texRef。desc 描考 

cudaBindTexture() 函级 

函通 

组中继承。先前绑定数 

D.6.2.2 cudaBindTexture() 

向的内存区域 

绍的低 

在纹理拾取数一样。述 

字节绑定到纹理参 

devPtr 由将 

的 size 

D.6.1.4 何解释内存。偏移参数是可选的 , 这和如时 

描述符从纹理参考数一样。先道 

texRef 绑定到前先 

何内存将解除绑定。任 

D.6.2.3 cudaBindTextureToArray() 

存将解除绑定。内何任 

devPtr 由将 

size 内存区域的的向 

节绑定到纹理参考 texRef。字 

D.6.1.4 中继承。偏移参数是可选的 , 这和型类 

cudaBindTexture() 低级的绍 

texRef 定到绑前 

将 CUDA 

组 array 

述在纹理拾取时如何解释内存。先前 

texRef。desc 纹理参考到定 

texRef 到定绑 

任 

将解除绑定。组 

D.6.2.4 cudaUnbindTexture() 

组将解除绑定。通 

解除对绑定到纹理参考 

定。绑 

CUDA 编 

1.1 99 

将 CUDA 

组 array 

定到纹理参 

考 texRef。 

CUDA 述符从描道 

到 texRef 

任 

南 Version

。用 

指 

为 

的 

。entry 必可 

个 

的 

。 

访 

函 

中 

绍的执行配置语法。介 

必前 

之 

可 

压之 

字节 ( 从前必须调用个 

程指 

命 

D.7 执行控制 

D.7.1 

cudaConfigureCall() 

cudaConfigureCall() 是 

D.7.2 

cudaLaunch() 

定要执行的设备网格和块维度 , 这类似和线程块的维度 , 以及调用的任何参数指 

基于堆栈的。每个调用在执行堆栈顶部压入数据。此数据包含网格 

于命名在设备上执行的函数 

以是一个在设备上执行的函数 , 也可以是一个字符串 , 用 

于 4.2.3 

D.7.3 

cudaSetupArgument() 

入的数据。因 

entry。entry 备上启动函数设在 

__global__ 明为声须 

0 开 

cudaLaunch() 在。数 

调用 cudaConfigureCall(), 须 

cudaConfigureCall() 函数从执行栈中弹出由此为 

D.8 OpenGL 互操作性 

将 

互操作性 

D.8.1 

cudaGLRegisterBufferObject() 

由 arg 

count 参数的的向 

offset 存入从参数传递区域的开始位置偏移节字 

用此函数。注册之后 , 除作 

在 cudaSetupArgument() 

) 处。参数存储在执行栈的顶部。 

cudaConfigureCall()。 

始 

以映射缓冲对象之前 , 必须调 

CUDA 在。问 

100 

CUDA 编 

1.1 

ID 册注 

bufferObj 

CUDA 对象供冲缓 

OpenGL 命令之外 , 缓冲对象不能由任何图绘 

令使 

为 OpenGL 

南 Version

为 

的 

访 

访 

设 

访 

为 

为 

的 

的 

缓冲对象。的 

的 

开 

Direct3D 设的 

可 

设 

*devPtr 中在 

中 

返回结果映射 

用 cuD3D9End() 

D.8.2 

cudaGLMapBufferObject() 

D.8.3 

cudaGLUnmapBufferObject() 

空间中 , 并的基指针。址地 

将 ID 

bufferObj 

CUDA 对象映射到冲缓 

D.8.4 

cudaGLUnregisterBufferObject() 

冲对象的映射。缓 

D.9 Direct3D 互操作性 

销注 

互操作性 

CUDA 供消取 

ID 的问 

bufferObj 

D.9.1 

cudaD3D9Begin() 

供 CUDA 

ID 的问 

bufferObj 

D.9.2 

cudaD3D9End() 

止。为 

任何对象之前 , 必备的顶点缓冲 , 直到调的 

Direct3D 化与始初 

D.9.3 

cudaD3D9RegisterVertexBuffer() 

的互操作。备始 

备 device 

CUDA 作。在操互 

device 射映以 

Direct3D 用此函数。然后 , 应用程序可以映射调须 

D.9.4 

cudaD3D9MapVertexBuffer() 

问的顶点缓册注 


1.1 101 

cuD3D9Begin() 先前由束结 

南 Version 

供 CUDA 

冲 VB。

中 

VB 映冲 

访 

上 

相 

回错误代码中的消息字符串。返 

*devPtr 中在 

返回结果映射的基指 

IDirect3D9::GetAdapterIdentifier() 

。或 

程指 

D.9.5 

D.9.6 

cudaD3D9UnmapVertexBuffer() 

顶缓下文的地址空间中 , 并针。将 

VB 

点 

的顶点缓冲的映射。问访 

cudaD3D9UnregisterVertexBuffer() 

CUDA 当前到射 

D.9.7 

cudaD3D9GetDevice() 


应的设备 

D.10 错误处理 

CUDA 供销注 

的顶点缓冲 VB。问 

在 *dev 

D.10.1 

cudaGetLastError() 

EnumDisplayDevices 与从回返 

adapterName 得的适配器名称获中 

D.10.2 

cudaGetErrorString() 

从同一宿主线程中任何运行时调用返回的最后一个错误 , 并将其重置回返 

为 cudaSuccess。 

102 

CUDA 编 

1.1 

南 Version

程指 

*count 中在 

*dev 中在 

中 

仅 

驱动程 

的 

[0, cuDeviceGetCount()-1] 中间 

当 

,Flags 数必参 

附录 E 

驱动程序 API 参考 

E.1 初始化 

E.1.1 

cuInit() 

中的任何函数将返回前 

E.2 设备管理 

API 用驱动程序调在 

E.2.1 

cuDeviceGetCount() 

其它任何函数之前 , 必须初始化驱动程则的 

序 API。 

用 cuInit(), 

cuDeviceGetCount() 返 

序 API 

CUDA_ERROR_NOT_INITIALIZED。 

为 0。如果未调须 

E.2.2 

cuDeviceGet() 

设备数。如果没有这样一个设备 , 则 

E.2.3 

cuDeviceGetName() 

给定序号在区回返 

1.0 可供执行的计算能力大于或等于回返 

0 设备 1, 回 

持设备仿真模式 , 且其计算能力小于 1.0。支 

设备句柄。的 

CUDA 编 

1.1 103 

南 Version

指 

*bytes 中在 

*value 中在 

结 

dev 上备 

dev 的备 

的 

CU_DEVICE_ATTRIBUTE_MAX_THREADS_PER_BLOCK: 

ATTRIBUTE_MAX_BLOCK_DIM_X: CU_DEVICE_ATTRIBUTE_MAX_BLOCK_DIM_Y: 

每 

 

块网 CU_DEVICE_ATTRIBUTE_MAX_GRID_DIM_X: 

CU_DEVICE_ATTRIBUTE_MAX_BLOCK_DIM_Z: 

CU_DEVICE_ATTRIBUTE_MAX_GRID_DIM_Y: 

CU_DEVICE_ATTRIBUTE_MAX_GRID_DIM_Z: 

CU_DEVICE_ATTRIBUTE_SHARED_MEMORY_PER_BLOCK: 

 

每网 

设 CU_DEVICE_ATTRIBUTE_TOTAL_CONSTANT_MEMORY: 

CU_DEVICE_ATTRIBUTE_REGISTERS_PER_BLOCK: 

CU_DEVICE_ATTRIBUTE_CLOCK_RATE: 时每 

个 

维 

维 

维 

维 

维 

维 

。len 指串符 

; 

定返回的 

dev 备 

ASCII 字 

的 

E.2.4 

cuDeviceTotalMem() 

字符串中返回标识设字符串的最大长度。的尾 

name 由在 

NULL 的向 

E.2.5 

cuDeviceComputeCapability() 

的内存总量 , 单位为字节用可 

*major 在 

*minor 中 

和 

返回设 

E.2.6 

cuDeviceGetAttribute() 

。 

的最大线程数 ; 块 

dev 定义设备回返 

算能力的主要和次要修订号。计 

这 

x 最大的格 

; 度 

返回设 

性 attrib, 属 

属性为整数值。支持的属性包括 : 些 

格的最 

; 度 

x 大最的 

; 度 

块可用的共享内存总量 , 单 

y 大最的 

; 度 

为字节 ; 位 

z 大最的 

; 度 

为字节 ; 位 

备上可用的常量内存总量 , 单 

CU_DEVICE_ATTRIBUTE_WARP_SIZE:warp 小 ; 大 

y 最大的格 

; 度 

CU_DEVICE_ATTRIBUTE_MAX_PITCH:E.8 中 

的内存复制函数允许的最大节距 , 包括通 

可用的寄存器总数 ; 钟频率 , 单位为千赫 ; 块 

104 

CUDA 编 

1.1 

及的对齐要求 ; 已经对齐提 

大 z 


CU_DEVICE_ATTRIBUTE_TEXTURE_ALIGNMENT:4.3.4.3 

参 

字节的纹理基址不再需要那种应用于纹理拾取的偏移中 


过 cuMemAllocPitch()( 

见 E8.3) 

为 textureAlign

程指 

CU_DEVICE_ATTRIBUTE_GPU_OVERLAP: 如 

定义为 : 构 

*prop 中在 

的 

设备之间 ) 的并发 , 则为 1, 否则为 0。和 

果设备可以实现内核执行和复制内存 ( 宿主 

E.2.7 

cuDeviceGetProperties() 

。CUdevprop 结 

dev 设备回返 

属性 

maxThreadsPerBlock 块的最大线程数 ; 块的每个维度的最大大小 ; 是 

maxThreadsDim[3] 

网格的每个维度的最大大小 ; 是 

maxGridSize[3] 是 

sharedMemPerBlock 每块可用的共享内存总量 , 单位为字节 ; 是 

totalConstantMemory 

SIMDWidth 是大是 

中 : 其 

备上可用的常量内存总量 , 单位为字节 ; 设 

memPitch 是 

中 

regsPerBlock 是 

clockRate 是 

textureAlign 中基址不再需要那种应用于纹理拾取的偏移。是 

个 

warp 

; 小 

块可用的寄存器总数 ; 时钟频率 , 单位为千赫 ; 提及的对齐要求 ; 已经对齐每 

参 

节的纹理字 

E.8 

内存复制函数允许的最大节距 , 包括 cuMemAllocPitch()( 的 

见 


E.8.3) 

CUDA 编 

1.1 105 

为 textureAlign 

4.3.4.3 

南 Version

递 

,Flags 参 

中 

或 

中 

(usage 变 count) 

,Flags 数必须为 0。调用了参 

用失败。调 

cuCtxSynchronize() 

, 直到设备已经完成所有先前请求的任务为止。如果先前任务之一失败 , 则返塞阻 

程指 

。 

E.3 上下文管理 

E.3.1 

cuCtxCreate() 

为 1, 该上下文完成使用之后 , 还必 

cuCtxCreate() 之 

设备创建新上下文 , 并将其与调用线程相关联。当前减上下文的使用计数。如果某个上下文已经是此线程的当前上下文 , 为 

E.3.2 

cuCtxAttach() 

, 上下文使用计数则此函数调用失败。后 

在 *pCtx 

传回上下文句柄 , 当应用程序完成使用上下文之后 , 此 

cuCtxDetach() 用调须 

E.3.3 

cuCtxDetach() 

增上下文的使用计数 , 并如当前数必须递 

cuCtxCreate() 

0。为 

传 

柄必须传递给 cuCtxDetach()。句 

cuCtxAttach() 程没有当前上下文 , 则线果 

0, 则销毁上下文。上下文句柄必须是通过回的 , 并且必须是调用线程的当前上下文到 

E.3.4 

cuCtxGetDevice() 

上下文的使用计数 , 如果使用计数达减递 

E.3.5 

cuCtxSynchronize() 

cuCtxAttach() 

E.4 模块管理 

错误。回 

在 *device 

回当前上下文的设备的序号。返 

106 

CUDA 编 

1.1 

E.4.1 

cuModuleLoad() 

南 Version

程指 

中 

加 

的 

文 

mod 中块 

到 

到 

的 

cuModuleGetFunction() 返则 

对 

到 

输 

funcname 的为 

中 

文 

上 

。CUDA 驱 

文 

和 

是 

的 

档。文 

会延不 

(fat binary) 

返 

cuModuleLoad() 调 

当前上下文中 

E.4.2 

cuModuleLoadData() 

filename 件名为文从 

cubin 文 

Windows 的 

中 

mod 加载相应模块件文 

API 序程动 

nvcc 败。文件应该是由失用 

cubin 的出 

( 参见 4.2.5)。件 

象合并到可执行资源并使用操作系统调用 ( 比如 

迟分配模块所需的资源 ; 如果无法分配模块所需的函数和数据的内存 ( 常量和全局 ), 则 

加载相应模 

当前上下文中。可以通过映 

件获得该指针 , 将 

E.4.3 

cuModuleLoadFatBinary() 

获得指针。来 

image 针指从 

件的集合 , 这些文件表示相同的设备代码 , 但针对不同的体系结构 

块 mod 

射 cubin 

cubin 为文本字符串传递 , 或将作件 

FindResource()) 

前上下文中指针表示多体系结构二进制一个内部函数。更多信息参当 

E.4.4 

cuModuleUnload() 

, 因此此函数是此版象对 

fatBin 针指从 

mod 应模块相载 

本 CUDA 

E.4.5 

cuModuleGetFunction() 

见 nvcc 

cubin , 此对象是不同象对 

API 了编译和优化。编程人员还不能够在当前正式发布的行进 

构造和使用多体系结构二进制 

E.4.6 

cuModuleGetGlobal() 

位于模的名称函数 , 回返 

当前上下文中卸载模块 mod。从 

和 

中 

在 *func 

CUDA 编 

1.1 107 

回 CUDA_ERROR_NOT_FOUND。 

函数的句柄。如果不存在具有此名称的 

全局变量的基指针和 

bytes 

选的。忽略其中的空值参数。可 

则 cuModuleGetGlobal() 

回 

数 devPtr 

南 Version 

在 *devPtr 

*bytes 

mod 位于模块回返 

globalname 称为名的 

小。如果不存在具有此名称的变量 , 

CUDA_ERROR_NOT_FOUND。两个参大

中 

中 

。返 

,flags 必 

纹理参考的句柄。如果不存在具有此名要销毁此纹理的 

不 

程指 

E.4.7 

cuModuleGetTexRef() 

E.5 流管理 

在 *texref 

E.5.1 

cuStreamCreate() 

cuModuleGetTexRef() 纹理参考 , 则参考句柄 , 因为它将在模块卸载时自动销毁的称 

mod 模块回返 

texrefname 为称名 

创建流。当前 

回 CUDA_ERROR_NOT_FOUND。 

E.5.2 

cuStreamQuery() 

须 

E.5.3 

E.5.4 

0。为 

cuStreamSynchronize() 

否 

cuStreamDestroy() 

塞 , 直到设备完成流中的所有操作为止。阻 

E.6 事件管理 

毁流。销 

果流中的所有操作都已完成 , 则返回 CUDA_SUCCESS, 如 

, 返回 CUDA_ERROR_NOT_READY。则 

E.6.1 

cuEventCreate() 

108 

CUDA 编 

1.1 

,flags 必 

E.6.2 

cuEventRecord() 

事件。当前须为 0。建创 

南 Version

非 

func 给由 

和 

或 

来 

在 CUDA 

CUDA_ERROR_NOT_READY。 

则回 

微 

则 

cuEventQuery() 

零 , 则在流中的所有先前操作都已完成之后记录事件 ; 否则 , 

E.6.3 

cuEventQuery() 

下文中的所有先前操作都已完成之后记录事件。因为此操作是异步的 , 所以必须使用但上 

stream 事件。如果录记 

果已经调 

CUDA_ERROR_INVALID_VALUE。 

如 

事件尚未记录 , 则此函数返回 

/ 

定事件实际被记录的时间。确 

E.6.4 

cuEventSynchronize() 

否 

cuEventSynchronize() 

用 cuEventRecord(), 

CUDA_ERROR_INVALID_VALUE。 

E.6.5 

cuEventDestroy() 

果事件实际已经被记录 , 则返回 CUDA_SUCCESS, 如 

则 , 返 

如果尚未在此事件上调 

用 cuEventRecord(), 

此函数返回 

返回 CUDA_ERROR_INVALID_VALUE。数 

此函 

E.6.6 

cuEventElapsedTime() 

毁事件。销 

塞 , 直到事件实际已经被记录为止。如果尚未在此事件上调用 cuEventRecord(), 阻 

E.7 执行控制 

的定确不是果 

执行控制 

E.7.1 

)。如果其中一个尚未被如果使用非零流记录了任一事件 , 则结。 

cuFuncSetBlockShape() 

秒 


1.1 109 

定在启动指 

0.5 两个事件之间用去的时间 ( 单位为毫秒 , 分辨率约为算计 

录 , 则此函数返回 CUDA_ERROR_INVALID_VALUE。记 

定的内核时创建的线程块 

X、Y 的 

和 

Z 维 

。度 

南 Version

ytes 设过 

numbytes 设过 

的 

对 

对 

定的内核时将可用于每个线程块的共享内存量。给 

func 的数 

func 对与 

的 

数 

获 

块 

。offset 是 

,texunit 参 

程指 

。 

cuFuncSetBlockShape() 的用 

E.7.2 

cuFuncSetSharedSize() 

E.7.3 

cuParamSetSize() 

E.7.4 

cuParamSeti() 

函置通 

通 

func 启动由在置 

应的内核时将指定的整数参数 

节偏移。字 

函数参数所需的总大小 ( 单位为字节 )。 

E.7.5 

cuParamSetf() 

应的内核时将指定的浮点参数 

。offset 是 

字节偏移 

func 下次调用与置设 

E.7.6 

cuParamSetv() 

。offset 是 

。 

节偏移字 

E.7.7 

cuParamSetTexRef() 

何数量的数据复制到任将 

func 下次调用与置设 

CUDA 中 

应的内核的参数空间中 

组或线性内存可供设备程序用作纹理。在此版本的 

E.7.8 

cuLaunch() 

110 

CUDA 编 

1.1 

包含上一次调 

得 

必须设置为数 

指 

texRef 绑定到纹理参考得使 

CUDA 

纹理参考必须通 

CU_PARAM_TR_DEFAULT。 

, 

在块维度 

网格上调用内 

过 cuModuleGetTexRef() 

是 1×1 

核 func。 

南 Version

程指 

个 

参 

个 

关 

中 

中 

指 

为 

E.7.9 

cuLaunchGrid() 

的线程数。定 

× grid_height 的 

cuFuncSetBlockShape() 的 

E.8 内存管理 

定线程数。联到流。此函数仅适用于页面锁定的宿主内存 , 如果将可分页内存的指针作为输入 , 则此函数将返回错误。指 

grid_width 维度为块在 

网格上调用内核。每块包含上一次调用 

E.8.1 

cuMemGetInfo() 

stream 通过传递非零以可 

cuLaunchGridAsync() 将数 

*free 在 

和 

*total 中 

上 

E.8.2 

cuMemAlloc() 

别分 

cuMemAlloc() 返 

返回指向已分配内存的指针。已分配 

CUDA 可供回返 

文分配的空闲内存量和总内存量 , 单位为字节。下 

E.8.3 


count 备上分配设在 


count 已经针对任何种类的变量进行了适当的对齐。内存是未清空的。如果存内 

0, 则 

在设备上分配至 

返回指向已 

配内存的指针。此函数必须填补内存以确保任何给定行中的相应指针都将继续满足对齐要求 , 以便当地址在行之间更新时进行内存合并 ( 参定将在内存分 

回 CUDA_ERROR_INVALID_VALUE。 

CUDA 编 

1.1 

范围上执行的最大的读和写的大小。 

111 

见 5.1.2.1)。elementSizeBytes 

少 widthInBytes*height 


南 Version

因小在中或 

返 

个 

等 

分 

数 

返 

或 

和 

中 

写 

执 

等 

和 

是由 

的 

数 

程指 

2D 行数 

放其指向的内存释 

或 

elementSizeBytes 

如可 

以 

是 4、8 

为已合并的内存事务处理不能用于其它数据大小 )。 

16( 

: 

果 elementSizeBytes 

/ 核的实际读内于 

由 cuMemAllocPitch() 

大小 , 则内核将正确运行 , 但速度可能会下降。 

*pitch 

回的节距是分配的宽度 ( 单位为字节 )。作为与分配相数组元素的行和列 , 则地址计算返 

行节距分配。由于硬件中的对齐限对 

2D 的参数 , 节距用于计算立独 

E.8.4 

cuMemFree() 

为 

T 的地址。给定类型为中组 

由 cuMemAllocPitch() 

返 

的节距保证可以在所有情况下处理 cuMemcpy2D()。回 

于 2D 

存复制 , 则更应该使用此函数。内 

cuMemAllocPitch() 分配 , 建议编程人员考虑使用的组 

CUDA 如果应用程序将在设备内存的不同区域 ( 不管是线性内存还是 , 制 

组 ) 之间执 

E.8.5 

cuMemAllocHost() 

间。空 

字节的页面锁定的可由设备访问的宿主内存。驱动程序跟踪使用此函数分配的虚 

cuMemMalloc() 调用于对 

cuMemMallocPitch() 

函数获得的可分页内存相比 , 它在进行读取或写入时具有高得多的带宽。 

的指针 devPtr, 回 

E.8.6 

cuMemFreeHost() 

count 配分 

存量。因此 , 最好节约使用此函数分配中转区进行宿主和设备之间的数据交换。内 

其指向的内存空间。放 

cuMemcpy() 存范围 , 并自动加速对内拟 

函数的调用。因为此内存可由设备直接访问 , 所以 

E.8.7 

cuMemGetAddressRange() 

释 

malloc() 用使与 

cuMemAllocHost() 用使 

配过量的内存可能降低系统性能 , 因为它降低了系统可用于分页的 

分配 ) 的基址和大小。两个参 

返回输入指 


选的。忽略其中的空值参数可 

112 

CUDA 编 

。 

1.1 

cuMemAllocHost() 调用于对 

的指针 hostPtr, 回 

cuMemAlloc() 

数 basePtr 

在 *basePtr 

*size 

南 Version 

size 

针 devPtr(

程指 

结 

个 

是 

CUDA 数的 

64×64 CUDA 数的 

创 

的描述 ; 组 

的描述 : 组 

: 数 

如下 : 义 

*array 中在 

或 

新 CUDA 

0, 则为 

E.8.8 

cuArrayCreate() 

数组的句柄 

。CUDA_ARRAY_DESCRIPTOR 结 

组 , 并 

Width 

组为一维 , 否则为二维和 

中 : 其 

CUDA 数 

NumChannels 定每定元素的格式指 

Format 指 

数 

数 ; 

构定义如下 

;CUarray_format 定 

4; 

CUDA_ARRAY_DESCRIPTOR 照按 

构 desc 

建 CUDA 

返回 

Height 

CUDA 

Height 宽度和高度 ( 单位为元素数 ); 如果的组 

CUDA 数 

个 CUDA 

1、2 素的分量个数 ; 可以是元组 

具 

浮 

描述的示例如下 : 浮点数组 

数类型 

64- 

点 

位 

(4x16- 位 

CUDA 数 

有 2048 

CUDA 编 

1.1 

元素组的描述 : 

113 

width×height 度浮点数类型 ) 的精半 

南 Version

中 

位 

数 

8- 位个 

位 

位 

内 

数 

的组参数以用于验证或其它目的 )。 

count 设围 

设 

当 

的描述 : 组 

组的数 

16- 位 

CUDA 数 

E.8.9 

素 ( 两 

cuArrayGetDescriptor() 

元 

width×height 号字符 ) 的符无 

E.8.10 

cuArrayDestroy() 

用于创回返 

在 *arrayDesc 

建 CUDA 

组 array 

E.8.11 

cuMemset() 

CUDA 符。这对已经传递了述描 

CUDA 程很有用 ( 但需要确定例子 

、16- 位 

CUDA 毁销 

E.8.12 

cuMemset2D() 

存范内的 

组 array。 

为指定的值 value。置 

将 8- 

或 32- 

行数位 

、16- 位 

,dstPitch 指 


指定要设置的由指程 

114 

CUDA 

该节距已经编 

1.1 

value。height 指定的值为置 

南 Version 

将 8- 

或 32- 

的 2D 

width 围范存 

每行之间的字节数 ( 参见 E.8.3)。定

程指 

。 

分 

分 

。count 定目标和来源的基址指别 

参数将其关联到流。它仅适用。流 

。count 定来源和目标的基址指别 

。count 定目标和来源的基址指别 

E.8.13 

cuMemcpyHtoD() 

时 , 这些函数的执行效率很高回传 

。dstDevPtr 和 

cuMemcpyHtoDAsync() 是 

E.8.14 

cuMemcpyDtoH() 

宿主内存复制到设备内存指定要复制字节数。从 

页面锁定的宿主内存 , 如果传递指向可分页内存的指针作为输入 , 则此函数返回错误于 

srcHostPtr 

。dstHostPtr 和 

srcDevPtr 分 


cuMemcpyDtoHAsync() 是 

参数将其关联到流。它仅适。流 

E.8.15 

cuMemcpyDtoD() 

设备内存复制到宿主内存指定要复制的字节数。从 

于页面锁定的宿主内存 , 如果传递指向可分页内存的指针作为输入 , 则此函数返回错误用 

定要复制的字节数。指 

。dstDevPtr 和 


从设备内存复制到设备内存 

srcDevPtr 

CUDA 编 

1.1 115 

南 Version

数 

。srcArray 

CUDA 数的 

数 

。dstArray 和 

指 

数 

。dstHostPtr 

。count 指指 

数组句定要复制的字节数。指 

组组句柄和复制开始时数组元素的索引。数 

。 

。srcArray srcIndex 和 

E.8.16 

cuMemcpyDtoA() 

组 

。srcDevPtr 指 

定来源的基指针 

。count 指 

E.8.17 cuMemcpyAtoD() 

CUDA 备内存复制到一维柄和开始索引设从 

。dstDevPtr 指 

数 

和 

dstIndex 

CUDA 标数据的目定 

count 指 

E.8.18 

cuMemcpyAtoH() 

复制到设备内存元素自然对齐定要复制的字节数 , 并且必须可由数组元素大小整除组 

CUDA 维一从 

srcIndex 

CUDA 标的基指针 , 并且必须与目定 

定 CUDA 

组句柄和开始索引 

组复制到宿主内存 

定目标的基址 

要复制的字节数。定 

cuMemcpyAtoHAsync() 是 

流 

。 

E.8.19 

cuMemcpyHtoA() 

定来源数据用于页面锁定的宿主内存 , 如果传递指向可分页内存的指针作为输入 , 则此函数返回错误指 

116 

CUDA 编 

1.1 

CUDA 维一从 


参数将其关联到流。它仅适 

Version 南指程

程指 

数 

指 

数 

。CUDA 数 

copyParam 中照 

数 

。dstArray 

。count 指指和 

数 

。dstIndex 和 

数 

组句数 

流参数将其关联到流。它仅适。。 

指 

分 

。count 是数 

;count 元素的大小不需要具有相同的格式 , 但必须具有相同的大小中组 

2D 内行 

。CUDA_MEMCPY2D 制结复存 

定义如下 : 构 

组 

定来源的基址 

cuMemcpyHtoAAsync() 是 

目标据定要复制的字节数定 

E.8.20 

cuMemcpyAtoA() 

。srcHostPtr 

主内存复制到一柄和开始索引从宿 

页面锁定的宿主内存 , 如果传递指向可分页内存的指针作为输入 , 则此函数返回错误于用 

的 CUDA 

。dstArray 和 

维 CUDA 

dstIndex 

Width-1] 区 


的字节数 

组 

间内 

要复制 

须可由此大小整除。必 

CUDA 个一维一从 

CUDA 制到另一个一维复组 

组 

srcArray 

别指定要 

组的句柄 

定 CUDA 

组的目标和来 

E.8.21 

cuMemcpy2D() 

CUDA 的目标和来源制复 

srcIndex 

按 

指定的参数执 

CUDA 引而非字节偏移 , 这些索引值位于索源 

的 [0, 

CUDA 编 

1.1 117 

南 Version

数 

和 

和 

是是指 

义如下 : 分 

,srcXInBytes 必 

指 

于设备指针 , 开始地址为对 

和 

和则 

指则 

指 

和指和指定则 

指定目标数据的句柄。则 

。 

程指 

srcMemoryType 和 : 中其 

Cumemorytype_enum 定 

别指定来源和目标的内存类型 ; 

srcPitch 指 

和 

dstMemoryType 

定来源 

是 

和 

srcMemoryType 果如 

CU_MEMORYTYPE_HOST, 

srcHost 

srcPitch 

据的 ( 宿主 ) 基址和每行字节数。忽略 srcArray。数 


CU_MEMORYTYPE_DEVICE, 

来源数据的 ( 设备 ) 基址和每行字节数。忽 

srcDevice 

略 srcArray。 


CU_MEMORYTYPE_ARRAY, 

srcArray 

定来源数据的句柄。定 

目标定 

srcHost、srcDevice 略忽 

srcPitch。 

是 

dstMemoryType 果如 

CU_MEMORYTYPE_HOST, 

dstHost 

dstPitch 

据的 ( 宿主 ) 基址和每行字节数。忽略 dstArray。数 

srcXInBytes 


CU_MEMORYTYPE_DEVICE, 

dstDevice 

dstPitch 

标数据的 ( 设备 ) 基址和每行字节数。忽略 dstArray。目 


CU_MEMORYTYPE_ARRAY, 

dstArray 

dstHost、dstDevice 略忽 

dstXInBytes 

于宿主指针 , 开始地址对 

dstPitch。 

宿主于设备指针 , 开始地址为对 

须可由数组元素大小整除 

srcY 

要复制的来源数据的基址。定 

要复制的目标数据的基址。定 

118 

CUDA 编 

1.1 

dstY 

CUDA 于对 

组 

南 Version

程指 

数 

CUDA 数于 

、CUDA 

,dstXInBytes 

和指必 

中 

cuMemcpy2D() 配与 

、CUDA 数 

,cuMemcpy2D() 会 

绑 

数 

或中 

。flags 必 

数 

复 

没 

参 

。 

前绑定到 

WidthInBytes 

cuMemcpy2D() 返 

组 


对 

误传错回 

↔ 设 

数 

设 

制的宽度 ( 单位为字节 ) 和高度。任何节。 

则 

是 cuMemAllocPitch() 

Height 

须可由数组元素大小整除 

2D 执行的要定 

必须大于或等于 WidthInBytes。距 

计算出来的 

败。返回错误代码时 , 运行速度可能会显著降低失 

E.2.6 任何节距大于允许的最大值 ( 参见果如 

的 CU_DEVICE_ATTRIBUTE_MAX_PITCH), 

cuMemcpy2D() 将 

回备。 

cuMemcpy2DAsync() 是 

使用的节距对于设备内的内存复 ( 设备组 ), 如果节距不有此限制 , 但当。合 

E.9 纹理参考管理 

备 

组 ↔ 

组 ↔CUDA 

而 cuMemcpy2DUnaligned() 

E.9.1 

锁定的宿主内存 , 如果传递指向可分页内存的指针作为输入 , 则此函数返回错误 

cuTexRefCreate() 

面 


将 


数与流相关联。它仅适用于页 

此参考与已分配内存相关联。当通过 

E.9.2 

cuTexRefDestroy() 

*texRef 纹理参考并在建创 

返回其句柄。创建之后 , 应用程序必须调用 

将纹理参考与给定函数的纹理序号相关联 , 应用程序应该调用 cuParamSetTexRef()。要 

此纹理参考读取内存时 , 其它纹理参考函数用于指定要使用的格式和解释方法 ( 寻址、过滤等 )。 

E.9.3 


毁纹理参考。销 

cuTexRefSetAddress() 

函数也将取代与该纹理参考相关联的任何先 

texRef 的 

数 

先 

CUDA 地址或的前 

组状态 

须设置 

任 

组都将解除绑定。此 

CUDA 编 

1.1 119 

为 CU_TRSA_OVERRIDE_FORMAT。 

将 CUDA 

组 array 

到纹理参考 texRef。定 

何 CUDA 

南 Version

数 

绑 

中 

的 

和 

如 

如 

函在 

可 

ByteOffset 

中 

为 

与 

0, 则将该寻址模式应用于纹理为 

。 

程指 

E.9.4 

cuTexRefSetAddress() 

*byteOffset 

此 

回必须应用于纹理拾取的字节偏移 , 以便从所需内存中读取数据。此偏移必须除以纹理元素传 

线性地址范围绑定到纹理参考 texRef。将 

函数也将取代与该纹理参考相关联的任何先前的地 

CUDA 或址 

何内存都将解除绑定。任 

E.9.5 

cuTexRefSetFormat() 

数传递。参 

texRef 态。先前绑定到状组 

cuTexRefSetAddress() 硬件强制对纹理基址执行对齐要求 , 所以为因 

读 

CUDA_ARRAY_DESCRIPTOR 

要由纹理参结定指 

。format 和 

成 

tex1Dfetch() 并传递给读取该纹理数据的内核 , 以便其可以应用于小大 

。数 

cuMemAlloc() 设备内存指针从果如 

回 , 则偏移保证为 0, 返 

且 NULL 

以作 

员完全类似 : 它们指定每个 

E.9.6 

cuTexRefSetAddressMode() 

的数据的格式分量的格式和每个数组元素的分量数。取 

的 

CUaddress_mode 定 

1, 则应用于第二个 , 以此类推。为 

考 texRef 

numPackedComponents 

Format 的构 

NumChannels 

果 dim 

120 

CUDA 编 

1.1 

texRef 理参考纹为 

维度指定寻址模式 mode。某 

E.9.7 

如 : 义 

cuTexRefSetFilterMode() 

下 

, 如定到线性内存 , 则此调用不产生任何效果意注 

果 dim 

取所使用的函数的第一个参数 ( 参见 4.4.5); 拾 

果 texRef 

南 Version

程指 

texRef 读考 

绑 

CU_TRSF_READ_AS_INTEGER, 禁 

中 

中 

*mode 中在 

绑 

的 

CUDA 数的 

义定 

[0, 1] 区为 

(Dim CUDA 是 

何 CUDA 

和 

指定通过纹理参 

E.9.8 

cuTexRefSetFlags() 

下 : 如 

mode。CUfilter_mode_enum 存时要使用的过滤模式内取 

默认设置 ; 种 

止把纹理从整数数据转化 

。 

texRef , 如果意注 

定到线性内存 , 则此调用不产生任何效果 

CU_TRSF_NORMALIZED_COORDINATES, 禁 

Dim) 区 

1.0) 区 

定可选标识以控制通过纹理参考返回数据的操作方式。有效的标识包括 : 指 

引用数组维度的整间 

间 

E.9.9 

cuTexRefGetAddress() 

宽度。个 

[0, 理坐标落在纹止 

E.9.10 

cuTexRefGetArray() 

间的浮点数据这 

[0, 的宽度或高度 ) 这种默认设置。相反 , 纹理坐标使用组数 

在 *devPtr 

texRef 要绑定到纹理参考回返 

E.9.11 

cuTexRefGetAddressMode() 

围 , 则返回 CUDA_ERROR_INVALID_VALUE。范 

基址 , 如果此纹理参考未绑定到任何设备内存 

texRef 考 

的 

维 

,dim 的 

在 *array 

texRef 由纹理参考回返 

组 , 如果此纹理参考未绑定到任 

CUDA 编 

1.1 

度的寻址模式。当前有效值只 1。 

121 

组 , 则返回 CUDA_ERROR_INVALID_VALUE。数 

定 

E.9.12 

cuTexRefGetFilterMode() 

纹理参回返 

南 Version 

dim 

有 0

*mode 中在 

texRef 的考 

。 

format 量格式和分量数。如果或为中和 

中 

互 

访 

的 

标识。的 

的 

为 

的 

绘 

OpenGL 互它 

组的分。数 

OpenGL 的 

以映射此缓冲对象之前 , 必图命令的数据来源之外 , 此缓冲对象不能由任何可 

上 

和 

E.9.13 

cuTexRefGetFormat() 

纹理参过滤模式回返 

空 , 则将其忽略 

E.9.14 

cuTexRefGetFlags() 

在 *format 

*numPackedComponents 

E.10 OpenGL 互操作性 

texRef 绑定到纹理参考回返 

CUDA 

numPackedComponents 

E.10.1 

cuGLInit() 

在 *flags 

texRef 纹理参考回返 

E.10.2 

cuGLRegisterBufferObject() 

作。必须在任何其驱动程序工具不可用 , 则此函数可能失败。操 

操作之前调用。如果所需 

OpenGL 化始初 

OpenGL 命 

E.10.3 

cuGLMapBufferObject() 

CUDA 供册注 

使用。令 

*size 中为 

ID 的问 

bufferObj 

CUDA 对象。在冲缓 

OpenGL 用此函数。注册之后 , 除作为调须 

122 

CUDA 编 

1.1 

E.10.4 

cuGLUnmapBufferObject() 

回结果映射的基指针和大小。返 

将 ID 

bufferObj 

CUDA 对象映射到当前冲缓 

Version 

下文的地址空间中 , 并 

南指程 

在 *devPtr

程指 

访 

访 

设 

访 

顶 

访 

为 

为 

的 

缓冲对象。的 

的 

初 

Direct3D 顶的 

映 

VB 的冲 

Direct3D 设射 

设 

上 

可 

。 

中 

用 cuD3D9End() 

返 

E.10.5 

cuGLUnregisterBufferObject() 

对象的映射冲缓 


ID 的问 

bufferObj 

E.11 Direct3D 互操作性 

销注 

互操作性 

E.11.1 

cuD3D9Begin() 

供 CUDA 

ID 的问 

bufferObj 

E.11.2 

cuD3D9End() 

调用此函数。然后 , 此函数可以映为止。须 

的任何对象之前 , 必 

Direct3D 化与始初 

E.11.3 

cuD3D9RegisterVertexBuffer() 

备 device 

CUDA 作。在操互 

device 射映以 

拥有的顶点缓冲 , 直到调备 

的互操作。备 

E.11.4 

cuD3D9MapVertexBuffer() 

问 

cuD3D9Begin() 与先前束结 

Direct3D 的化始 

*devPtr 在 

*size 中 

和 

CUDA 供册注 

缓冲 VB。点 

E.11.5 

cuD3D9UnmapVertexBuffer() 

的地址空间中 , 并回结果映射的基指针和大小。文下 

CUDA 编 

1.1 123 

消问的顶点缓映射。取 

将 Direct3D 

VB 冲缓点 

CUDA 当前到射 

供 CUDA 

南 Version

中 

访 

相 

IDirect3D9::GetAdapterIdentifier() 

。或 

程指 

E.11.6 

cuD3D9UnregisterVertexBuffer() 

E.11.7 

cuD3D9GetDevice() 

应的设备 

CUDA 供销注 

的顶点缓冲 VB。问 

在 *dev 

EnumDisplayDevices 与从回返 

adapterName 得的适配器名称获中 

124 

CUDA 编 

1.1 

南 Version

程指 

重 

在寻一化纹理坐标 xˆ 归 

的 

,x 和 

和 

为 

是 

未 

来 

已 

个 

为 

寻 

为 

为 

的 

的 

:x=Nxˆ,y=Myˆ。 

。 

中 

。x 和 

N×M 

x 

为 

换 

由 

附录 F 

纹理拾取 

 

数的返回值。绑定到纹理参考的纹理对于一维纹理表示函 

附录给出一系列公式 , 这些公式用于根据各种纹理参考属性 ( 参见 4.3.4) 本 

算 4.4.5 

为 N 

计 

的纹理 

x 理元素。它使用纹理坐标纹个 

y 

 

为 0, 如 

T 坐标必须落在理纹 

理元素的数组 T, 对于二维纹理表示拾取。寻址范围之内 , 才能用于寻址 T。寻址模式指定如何将超出范围的纹理坐纹 

模式 , 如果 x

显 

,i=floor(x),j=floor(y)。 

,tex(x,y)=T[i,j], 

,tex(x)=T[i], 

的 

F-1. 

四个纹理元素的一维纹理的最近点采样图 

1.0]( 参 

程指 

F.1 最近点采样 

对 

对 

此过滤模式中 , 纹理拾取返回值为 : 在 

于二维纹理 

于一维纹理 

[0.0, 整数纹理 , 纹理拾取的返回值可以重映射到于对 

其中 

图 F-1 

维纹理的最近点采样。一 

4.3.4.1)。见 

N=4 了示 

126 

CUDA 编 

1.1 

南 Version

程指 

,tex(x,y)=(1-α)(1-β)T[i,j]+α(1-β)T[i+1,j]+(1-α)βT[i,j+1]+αβT[i+1,j+1], 

i=floor(x B ),α=frac(x B ),x B 

,tex(x)=(1-α)T[i]+αT[i+1], 

j=floor(y 

=x-0.5, 

B ),α=frac(y B ),y B =y-0.5。 

显 

位 

的 

位 

F-2. clamp 寻址模式中四个纹理元素的一维纹理的线性过滤图 

F.2 线性过滤 

对 

过滤模式 ( 仅可用于浮点纹理 ) 中 , 纹理拾取的返回值为 : 在 

对 

中 : 其 

于一维纹理 

于二维纹理 

8 β 使用包括和 α 

9- 值的数小 

点格式存储。定 

图 F-2 

N=4 了示 

维纹理的最近点采样。一 

CUDA 编 

1.1 127 

南 Version

显 

N=4 的从 

F-3. 

使用线性过滤的一维查找表图 

谢致 

找表。查 

程指 

F.3 查找表 

[0,R] 区间内于对 

TL ( R) 

= T[ 

N −1] 

。 

实 

N −1 

TL ( x) 

= tex( 

x + 0.5 

R 

, 

现为 ) 

[0] 

保确而从 

TL ( 0) = T 且 

一维纹理中使用纹理过滤来实 

R=4 现 

R=1 的 

或 

示了 

的 x, 查找 

图 F-3 

表 TL(x) 

128 

CUDA 

刘伟峰先生对本指南中文版译稿全文进行了审校 , 在此表示衷心的感谢 

编 

1.1 

南 Version

ç¼ç¨æå - NVIDIA

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?

ç¼ç¨æå - NVIDIA