NVIDIA CUDA è®¡ç®ç»ä¸è®¾å¤æ¶æ

More documents

Recommendations

Info

的块块 ,CUDA 驱都的和运节配是是需动动。。节是对。数驱均零时返回非零值。非零时返回非零值。非节的节前前。nvcc 运生宿驱的 4.4.5 Warp vote 函数用于有符号和无符号整型 ( 适仅作操子原函数备不支持任何原子函数设或 int __all(int predicate); vote 函 int __any(int predicate); 1.0 为力一个例外情况 , 它支持单精度浮点数 )。但 atomicExch() 的所有线程计 4.5 宿主内宿主运行时组件当 1.2 计算能力为有只 Warp 的设备支持高更为 warp 代设上存纹执与有宿主函数才能使用宿主运行时组件备管理只文储器管理 ; 下算 predicate, predicate 当所有线程的仅且为 warp 的所有线程计算 predicate, 内 predicate 当任意线程的仅且提供了具有以下功能的函数 : ; 它模块管理 ; 行控制码一参考管理 ; 互操作性驱动程的理的是运 CUDA 运 OpenGL Direct3D 包含两个 API: 它。 CUDA 称为个一础之上实现的成基序 API 级 API; 低 CUDA 为称个 API 时行级 API, 高 CUDA 在是 API 序程动。 API 个两这互斥的 : 一个应用程序仅能使用其中之一行时提供了隐式初始化、上下文管理和模块管理 , 从而简化了设备代码管理它的 C CUDA 码基于代主 CUDA 驱 4.2.5 ( 请参见第时行。相反 API。 CUDA 运 API 序程动 CUDA 此链接到此代码的应用程序必须使用因 ), 时行 22 CUDA 提供了枚举系统上可用设备、查询其属性、为内核执行选择一个设备的函数 ( 运行编 cubin 还具有独立于语言的特点 , 因为它仅处理外此 4.5.1 一般概念 4.2.5 请参见第 ( 象 CUDA 体来说 , 使用具 )。 API 程序动驱的代码数量更多 , 编程和调试更加困难 , 但提供了更出色的控制级别 , 置和启动内核的难度更大 , 因为执行配置和内核参数必须通过显式函数调用来指定 , 而要库提供的 , 其所有入口点都带缀。态 4.2.3 利用第能不态库提供的 , 其所有入口点都带 4.5.2.9 的执行配置语法。此外 , 设备模拟 ( 请参见第绍介 CUDA 适用于不 ) 有 cuda 程序 API。动 API 序程动 nvcuda 过通 4.5.1.1 设备有 cu API 时行 cudart 过通 2.0 南 , 版本指程 API 种两时 API
Direct3D 互。节和函节 ,Direct3D 位节的 (linear 或 memory) 9.0。和实数 ,CUDA 启节 )。 arrays)。 (CUDA 节。CUDA 与、16 数个 4.5.1.2 存储器程可在同一个设备上执行设备代码 , 但根据设计 , 一个宿主线程只能在一个设备上执行设备代线主宿个多存储器 4.5.2.2 内容请参见第关相 API 动程序驱 , 4.5.3.2 内容请参见第关相 CUDA 数 CUDA 因而 , 需要多个在多个设备上执行设备代码。此外 , 通过一个宿主线程的运行时创建的资源无法由来自其他宿主线程的运行时使用。。码 32 位位个支位数位位设备存储器可指派为线性存储器 CUDA 组 32 上的线性存储器位于备设地址空间内 , 因此 , 独立分配的实体可通过指针引用另外一个实体 , 比如 , 4.3.4 存储器布局是不透明 , 专为纹理拾取而优化 ( 参见第的组 )。它们可以是一维、二维或分 1、2、4 的 , 由元素组成 , 这些元素包含维三 8 , 这些分量可以是有符号或无符号的量分或 4.5.1.3 OpenGL 互操作性的 (page-locked) 16 , 也可以是型整 API ( 当前仅有驱动程序点浮 32 或 ) 持浮点组仅可由内核 OpenGL 缓 (buffer 可能 object) 使的节能实写 4.5.2.3 可通过第主宿第 4.5.3.6 CUDA 的存储器复制函数读取和写入线性存储器和绍介。组储器和设备存储器之间的带宽较高 —— 但仅针对宿主存储器的宿主线程所执行的数据传输。分页锁定的存储器是一种稀缺资源 , 因此分页锁定存储器中的分配将先于可分页存储器的分配而出错。此外 , 由于减少了操作系统可用于分页的物理存储器数量 , 分配过多的分页锁定存储器将降低整体系统性能。存分页存储器恰好相反。分页锁定存储器的优势之一在于 , 如果将宿主存储器指派为分页锁定存储器 , 宿主宿主运行时还提供了函数来分配和释放分页锁定 — 存储器主宿 malloc() 配的普通可二进制树内。在过纹理拾取读取 , 仅可绑定到具有相同分量数的纹理参考。通 4.5.1.4 Direct3D 互操作性 Direct3D CUDA 能资使实的节能实写使冲对象 CUDA 到射映 CUDA 空间 , 从而使址地 OpenGL 取读够入 CUDA 据或使数的 OpenGL 入数据供写够 4.5.2.7 第。用 API 了如何通过运行时述描现此目 4.5.3.10 第 , 标 API 了如何通过驱动程序述描此目标。现 cuD3D9RegisterResource() 参 API 了如何通过驱动程序现此目标对于可映射哪些资源的限制条件 , 请参考手册。介绍设设 CUDA GPU 上上上见 cudaD3D9RegisterResource() 目标 , 同一节还和此现设标文一次仅可与一创建的。此外下备互操作下文备必须是在同一 CUDA 映射到可源地址空间 , 从而使 CUDA Direct3D 取读够入的数据 , 或者记 Direct3D 入数据供写够 4.5.2.8 第。用 API 了如何通过运行时述描 CUDA 编为了促进宿主和设备之间的并发执行 , 某些运行时函数是异步的 : 控制将在设备完成所请求的任务之前返 23 操作性目前仅支 4.5.1.5 异步并发执行执通后个 Direct3D 持 Direct3D 和 Direct3D 回应用程序。此类函数包括 D3DCREATE_HARDWARE_VERTEXPROCESSING 创建时必须使用在备 : 过 __global__ cuLaunchGrid() 或数 cuLaunchGridAsync() 的内核 ; 动 2.0 南 , 版本指程 Async 储器复制和带有存行的函数 ; 缀
Page 1 and 2: 程指南 , 版 NVIDIA CUDA 计
Page 3 and 4: 目录 1 2 3 第第 4 iii .......
Page 5 and 6: 程指南 , 版 5.3 5.4 5.5 6.1
Page 7 and 8: 核 (manycore) 众程指南 ,
Page 9 and 10: 渲程指南 , 版的第列
Page 11 and 12: 程指南 , 版变 (shared (intr
Page 13 and 14: 所 ,CUDA (host) 假 memory)。因
Page 15 and 16: 提 (compute 由 capability) 。
Page 17 and 18: 所块位 (constant (texture (tex
Page 19 and 20: 编的 ,C 标限 (host) (function
Page 21 and 22: 节变和助变 (implied (segme
Page 23 and 24: 工代语 ,__device__ 函对块
Page 25 and 26: 、2 分位是的节 (texture (
Page 27: 列数 (atomic ,atomicAdd() 将
Page 31 and 32: 的分个、cudaMallocPitch()
Page 33 and 34: 定类 ,cudaFilterModeLinear 是
Page 35 and 36: mode) emulation 是用 (printf() :
Page 37 and 38: 节函。cuCtxPopCurrent() 上 (u
Page 39 and 40: 。hostPtr copyParam.srcDevice = de
Page 41 and 42: 创填程指南 , 版上上
Page 43 and 44: 块器延迟。的 (if、switc
Page 45 and 46: warp , 当半块中的线程
Page 47 and 48: 存未为计程指南 , 版
Page 49 and 50: 字字存存 ,type 计 (Common
Page 51 and 52: 块和展个的位 ,warp 块
Page 53 and 54: 位的线性寻址。字程
Page 55 and 56: 的。个使用广播机制
Page 57 and 58: 节位数之节节或 (locali
Page 59 and 60: 相所选 ,Csub 等更高的
Page 61 and 62: ,Muld() 将的将相的程指
Page 63 and 64: 的节节节附录 A 技术
Page 65 and 66: (round-towards-zero), : (denormaliz
Page 67 and 68: 程指南 , 版内间外距
Page 69 and 70: 后后后后程指南 , 版
Page 71 and 72: 和映位位程指南 , 版
Page 73 and 74: 位程指南 , 版处位计
Page 75 and 76: ≤ 寻的 × 是 × 是节个
Page 77 and 78: 程指南 , 版使用线性

NVIDIA CUDA è®¡ç®ç»ä¸è®¾å¤æ¶æ

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?

NVIDIA CUDA è®¡ç®ç»ä¸è®¾å¤æ¶æ