30.04.2014 Views

NVIDIA CUDA 计算统一设备架构

NVIDIA CUDA 计算统一设备架构

NVIDIA CUDA 计算统一设备架构

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

所<br />

块<br />

位<br />

(constant<br />

(texture<br />

(texture<br />

cache), 由<br />

cache), 由<br />

写 访 unit)<br />

程 指 南 , 版<br />

块<br />

一 项 读 取 、 修 改 或 写 入 操 作 都 将 发 生 , 且 均 为 串 行 化 操 作 , 但 这 些 操 作 所 发 生 的 顺 序 无 法 确 定 。 块<br />

多<br />

硬<br />

节<br />

个<br />

<br />

<br />

<br />

并 每<br />

行 数 据 缓 存 或 共 享 存 储 器 , 由 所 有 标 量 处 理 器 核 心 共 享 , 共 享 存 储 器 空 间 就 位 于 此 处<br />

<br />

3-1 图 如<br />

个 只 读 纹 理 缓 所 有 标 量 处 理 器 核 心 共 享 , 加 速 从 纹 理 存 储 器 空 间 进 行 的 读 取 操 作 ( 这 是 设 备 存 储 器 的 一 个 只 读 区 域 ), 每 个 多 处 理 器 都 会 通 过 实 现 不 同 寻 址 模 型 和 数 据 过 滤 的 纹 一<br />

作 ( 这 是 设 备 存 储 器 的 一 个 只 读 区 域 );<br />

32 理 器 上 有 一 组 本 地 处 个<br />

存 器 ; 寄<br />

, 每 个 多 处 理 器 都 有 一 个 属 于 以 下 四 种 类 型 之 一 的 片 上 存 储 器 : ; 只 读 常 量 缓 存 所 有 标 量 处 理 器 核 心 共 享 , 可 加 速 从 常 量 存 储 器 空 间 进 行 的 读 取 操 示<br />

个 多 处 理 器 一 次 可 处 理 的 块 数 量 取 决 于 给 定 的 内 核 中 , 每 个 线 程 需 要 多 少 个 寄 存 器 、 每 个 块 需 要 多 少 共 享 存 储 器 , 这 是 因 为 多 处 理 器 的 寄 存 器 和 共 享 存 储 器 被 分 配 给 一 批 块 的 所 有 线 程 。 如 果 没 有 足 够 的 寄 存 器 线 程 块 。 一<br />

理 单 元<br />

4.3.4 理 缓 存 , 相 关 内 容 请 参 见 第 纹 问<br />

。<br />

8 享 存 储 器 可 供 多 处 理 器 用 于 处 理 至 少 一 个 块 , 内 核 会 无 法 启 动 。 一 个 多 处 理 器 可 并 发 执 行 最 多 共 或<br />

/ 和 全 局 存 储 器 空 间 是 设 备 存 储 器 的 读 区 域 , 无 缓 存 。 地 本<br />

warp 行 原 子 指 令 来 为 执 块<br />

的 多 个 线 程 读 取 、 修 改 和 写 入 全 局 存 储 器 中 的 同 一 位 置 , 则 针 对 该 位 置 的 每<br />

warp 果 如<br />

warp 的 非 原 子 指 令 为 行 执<br />

的 多 个 线 程 写 入 全 局 或 共 享 存 储 器 中 的 同 一 位 置 , 针 对 此 位 置<br />

warp 行 化 写 入 操 作 的 数 量 和 这 些 写 入 操 作 所 发 生 的 顺 序 将 无 法 确 定 , 但 其 中 一 项 操 作 必 将 成 功 。 如 果 串 的<br />

具 有 片 上 共 享 存 储 器 的 一<br />

理 器 处<br />

<strong>CUDA</strong> 编<br />

11<br />

硬 件 模 型<br />

本 2.0<br />

组 SIMT<br />

图 3-1.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!