NVIDIA CUDA è®¡ç®ç»ä¸è®¾å¤æ¶æ

More documents

Recommendations

Info

提节前将数选。节节 (intrinsic 函 function) 间的位置进行插值。。CUDA 分 4.3.4.3 来自线性存储器的纹理与来自 CUDA 数组的纹理于一维纹理执行简单的线性插值 , 而对于二维纹理则执行双线性插值。对 texel 纹理拾取位置周围的于位 texel 取 , 纹理拾取的返回值将根据纹理坐标在读被 D 录附了关于纹理拾取的更多细节。供仅不维的任意区域 ( 参见在线性存储器内分配的纹理 : 度仅能为 1; 组纹理过滤 ; 可使用非归一化整型纹理坐标寻址 ; 支持多种寻址模式 : 超出范围的纹理访问将返回零。第 4.5.1.2 )。配例程返回 4.4 设备运行时组件 cudaBindTexture()/cuTexRefSetAddress() 会对纹理基址实施对齐要求。为了抽象这种来自程序员的对齐要求 , 绑定设备存储器上的纹理参考的函数将传回一个字节偏移 , 必须将其到纹理拾取 , 之后才能读取所需的存储器的基址指针符合这种对齐限制 , 因此应用程序可通过向件硬 CUDA 可以是线性存储器或理纹 4.4.1 数学函数递所分配的指针来完全避免偏移传备运行时组件仅可用于设备函数设误差范围。 B.1 于对介绍的部分函数而言 , 设备运行时组件中存在准确性略低而速度更快的版本 ; 其名称相同 , 。 4.4.2 同步函数 void __syncthreads(); __syncthreads() 用步块中的所有线程。一旦所有线程均达到此同步点 , 才将继续执行后续代码。于协调同一个块内的线程间通信。在一个块内的某些线程访问共享或全局存储器中的相同 __syncthreads() 允地址时 , 部分访问操作可能存在写入后读取、读取后写入或写入后写入之类的风险。可通过在这些访问操作间同步线程来避免这些数据风险。许在条件代码中使用 , 但仅当条件估值在整个线程块中都相同时才允许使用 , 否则代码执行将有可能挂起 , 或者出现意料之外的副作用。同 (-use_fast_math) 器有一个译编项 , 用于强制要求所有函数编译其准确性略低的版本 ( 如果存在 )。但带有一个 __ __sinf(x))。B.2 如 ( 缀列举了这些内建数 , 还列举了它们的对应 20 CUDA 编 2.0 南 , 版本指程
列数 (atomic ,atomicAdd() 将对 function) 元元和访节位位位修写 4.4.3 纹理函数 4.4.3.1 来自线性存储器的纹理系 template Type tex1Dfetch( texture texRef, int x); float tex1Dfetch( texture texRef, int x); float tex1Dfetch( texture texRef, int x); float tex1Dfetch( texture texRef, int x); float tex1Dfetch( texture texRef, int x); 拾的 tex1Dfetch() 来自线性存储器的纹理 , 通过于对函数访问纹理 , 示例如下 : 列 float4 tex1Dfetch( texture texRef, 说 , 这些函数可选择将整型转变为单精度浮点类型。来型整于对。式 int x); 拾的 4.4.3.2 来自 CUDA 数组的纹理 x 函数会使用纹理坐标些这 texRef 定到纹理参考绑取线性存储器区域。不支持纹理过滤和寻址模 2 上述函数以外 , 还支持了除 4 和组 , 示例如下 : 组 template Type tex1D(texture texRef, float x); template Type tex2D(texture texRef, float x, float y); template Type tex3D(texture texRef, float x, float y, float z); 和拾的数 x 示例将使用纹理坐标上以 texRef 定到纹理参考绑取性存储器。线 CUDA 来自于对 tex1D()、tex2D()、tex3D() 纹理 , 可通过的组纹理 : 问 4.4.4 原子函数。纹理参考的不变 ( 编译时 ) 和可变 ( 运行时 ) 属性相互结合 , 共同确定坐标的解释方式、在纹理拾取过程中发生的处理以及纹组将结果写回同一地址。之所以说这样的操作是原子的 , 是因为它可在不干扰其他线程的前提下执行。换句 CUDA 编 21 x、y 函数将使用纹理坐标些这 z texRef 定到纹理参考绑取 CUDA 4.3.4.1 取所提供的返回值 ( 参见第拾理第 4.3.4.2 )。原子函数 32 全局或共享存储器内的一个于位或 64 - 行读取执字 - 入原子改 2.0 南 , 版本指程操作。例如 32 局或共享存储器内的某个地址读取全在字 , 将其与一个整型相加 , 并说 , 在操作完成前 , 其他任何线程都无法访问此地址。话 C 录附举了受支持的所有原子函数。如附录所述 , 并非所有设备都支持这些函数。具体来说 , 计算能
Page 1 and 2: 程指南 , 版 NVIDIA CUDA 计
Page 3 and 4: 目录 1 2 3 第第 4 iii .......
Page 5 and 6: 程指南 , 版 5.3 5.4 5.5 6.1
Page 7 and 8: 核 (manycore) 众程指南 ,
Page 9 and 10: 渲程指南 , 版的第列
Page 11 and 12: 程指南 , 版变 (shared (intr
Page 13 and 14: 所 ,CUDA (host) 假 memory)。因
Page 15 and 16: 提 (compute 由 capability) 。
Page 17 and 18: 所块位 (constant (texture (tex
Page 19 and 20: 编的 ,C 标限 (host) (function
Page 21 and 22: 节变和助变 (implied (segme
Page 23 and 24: 工代语 ,__device__ 函对块
Page 25: 、2 分位是的节 (texture (
Page 29 and 30: Direct3D 互。节和函节 ,D
Page 31 and 32: 的分个、cudaMallocPitch()
Page 33 and 34: 定类 ,cudaFilterModeLinear 是
Page 35 and 36: mode) emulation 是用 (printf() :
Page 37 and 38: 节函。cuCtxPopCurrent() 上 (u
Page 39 and 40: 。hostPtr copyParam.srcDevice = de
Page 41 and 42: 创填程指南 , 版上上
Page 43 and 44: 块器延迟。的 (if、switc
Page 45 and 46: warp , 当半块中的线程
Page 47 and 48: 存未为计程指南 , 版
Page 49 and 50: 字字存存 ,type 计 (Common
Page 51 and 52: 块和展个的位 ,warp 块
Page 53 and 54: 位的线性寻址。字程
Page 55 and 56: 的。个使用广播机制
Page 57 and 58: 节位数之节节或 (locali
Page 59 and 60: 相所选 ,Csub 等更高的
Page 61 and 62: ,Muld() 将的将相的程指
Page 63 and 64: 的节节节附录 A 技术
Page 65 and 66: (round-towards-zero), : (denormaliz
Page 67 and 68: 程指南 , 版内间外距
Page 69 and 70: 后后后后程指南 , 版
Page 71 and 72: 和映位位程指南 , 版
Page 73 and 74: 位程指南 , 版处位计
Page 75 and 76: ≤ 寻的 × 是 × 是节个
Page 77 and 78:
程指南 , 版使用线性
show all

NVIDIA CUDA è®¡ç®ç»ä¸è®¾å¤æ¶æ

Create successful ePaper yourself

Delete template?

Save as template?

NVIDIA CUDA è®¡ç®ç»ä¸è®¾å¤æ¶æ