You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
warp , 当 半 块 中 的 线 程 同 时 进 行 的 存 储 器 访 问 ( 在 单 独 一 条 读 取 或 写 入 指 令 执 行 的 过 程 中 ) 可 合 并 一 个 存 储 器 事 务 , 全 局 存 储 器 带 宽 的 使 用 效 率 将 达 到 最 高 。 存 储 器 次 其<br />
(memory transaction)<br />
32 1.2 )、64 128<br />
warp<br />
大 小 可 为 字 节 ( 仅 针 对 为 或 更 高 设 备 位 或 位 本 节 的 后 续 内 容 将 介 绍 根 据 设 备 的 计 算 能 力 合 并 存 储 器 访 问 的 各 种 需 求 。 如 果 半 务 事 时 (coalesce)<br />
warp<br />
能 够 满 足 这 些 需 求 , 即 便 在 块 分 支 、 块 的 某 些 线 程 并 未 实 际 访 问 存 储 器 的 情 况 下 , 也 可 实 现 合 并 。 。<br />
下 面 的 讨 论 中 , 全 局 存 储 器 将 被 视 为 分 区 成 大 小 等 或 字 节 的 部 分 , 并 且 对 齐 到 此 大 小 。 块 在<br />
warp<br />
warp<br />
半<br />
满 足 以 下 三 个 条 件 , 半 的 线 程 必 须 访 问 果 如<br />
在 计 算 能 力 为 1.0 和 1.1 的 设 备 上 进 行 存 储 器 合 并<br />
<br />
<br />
32、64 128 于<br />
32 64<br />
64 128<br />
128 128<br />
储 器 访 问 都 会 合 并 为 一 个 或 两 个 存 储 器 事 务 : 位 , 得 到 一 个 字 节 的 存 储 器 事 务 ,<br />
一 , 所 有<br />
16<br />
线<br />
128<br />
程 进 行 的 全 局 存<br />
存 储 器 事 务 ; 全 部 个 字 必 须 位 于 大 小 等 于 存 储 器 事 务 大 小 的 同 一 个 存 储 器 段 (segment) 中 ( 在 访 问 位 字 的 情 况 下 , 位 于 存 储 器 事 务 大 小 两 倍 的 分 段 中 ); 的 节 字 个 两 到 得 , 字 或 必 须 按 顺 序 访 问 字 : 块 中 的 个 线 程 必 须 访 问 个 字 。 如 果 块 不 满 足 上 述 所 有 需 求 , 将 为 各 线 程 发 出 一 个 独 立 的 存 储 器 事 务 , 而 吞 吐 量 将 显 著 降 低 。 显 示 了 接 合 后 的 存 储 器 访 问 的 示 例 , 而 和 显 示 了 未 为 计 算 能 力 或 的 设 备 进 行 存 储 器 合 并 的 存 储 器 访 问 示 例 。 程<br />
线<br />
warp k k<br />
warp<br />
5-1 5-2 5-3 1.0 1.1<br />
第<br />
64<br />
第<br />
32 128<br />
32 32<br />
64 4 ,128<br />
半<br />
2<br />
半<br />
的 位 访 问 带 宽 比 存 储 器 合 并 后 的 位 访 问 相 比 略 低 而 存 储 器 合 并 后 的 位 访 问 则 位 访 问 带 宽 低 出 许 多 。 然 而 , 同 为 位 访 存 时 , 尽 管 未 存 储 器 合 并 的 访 问 的 带 图 图 图 是<br />
器 合 并 后 的 访 问 带 宽 要 低 一 个 数 量 级 , 但 同 为 位 情 况 下 , 前 者 带 宽 比 后 者 低 倍 位 情 况 下 , 前 者 带 宽 比 后 者 低 倍 。 后 并 储 存 比 宽 合 器 储 存<br />
在 计 算 能 力 为 1.2 或 更 高 的 设 备 上 进 行 存 储 器 合 并<br />
warp 所 有 半 块 的 所 有 线 程 访 问 的 字 位 于 大 小 满 足 以 下 条 件 的 同 一 个 存 储 器 段 内 , 所 有 线 程 进 行 的 全 局 存 储 器 访 问 都 会 合 并 为 一 个 或 两 个 存 储 器 事 务 : 要 只<br />
<br />
<br />
如 块<br />
块<br />
位 字 8 32<br />
16 64<br />
32 64 128<br />
warp warp n n 字 , 则 为 节 ;<br />
n 1 16 128<br />
果 所 有 线 程 都 访 问 或 字 , 则 为 节 。 半 所 请 求 的 任 何 地 址 模 式 都 会 实 现 存 储 器 合 并 包 括 多 个 线 程 同 一 个 地 址 的 模 式 。 这 与 具 有<br />
能 力 的 设 备 的 情 况 截 然 不 同 , 在 那 种 情 况 下 , 线 程 需 要 串 行 地 访 问 字 。<br />
128 64<br />
如 果 半 在 不 同 的 存 储 器 段 内 对 字 进 行 寻 址 , 则 发 出 存 储 器 事 务 ( 每 个 事 务 针 对 一 个 存 储 器 段 ), 而 计 算 能 力 较 低 的 设 备 将 在 于 发 出 事 务 。 具 体 来 说 , 如 果 线 程 访 问 , 则 至 少 发 出 两 个 存 储 器 事 务 。<br />
warp<br />
较 低 计 算<br />
事 务 中 , 无 用 字 也 会 被 读 取 , 这 将 浪 费 带 宽 。 为 减 少 浪 费 , 硬 件 将 自 动 发 出 包 含 所 请 求 的 字 的<br />
8 32<br />
最 小 的 存 储 器 事 务 。 举 例 来 说 , 如 果 全 部 字 都 位 于 一 个 字 节 分 区 的 一 半 , 则 发 出 一 个 位<br />
16 64 32 、64 128 128<br />
的 事 务 。<br />
<br />
<br />
更 精 确 地 来 说 , 以 下 协 议 用 于 为 半 块 发 出 存 储 器 事 务 : 在<br />
<br />
存<br />
128<br />
储<br />
64<br />
器<br />
编 号 最 的 活 动 线 程 所 请 求 地 址 的 存 储 器 段 。 对 于 位 数 据 来 说 , 段 大 小 是 字 节 , 对 于 数 据 是 字 节 , 对 于 位 位 和 位 数 据 是 字 节 。<br />
<strong>CUDA</strong> 2.0 39<br />
求 位 于 同 一 存 储 器 段 内 的 地 址 的 其 他 所 有 活 动 线 程 。 尽 可 能 减 小 事 务 的 大 小 :<br />
包 含<br />
大 小 为 字 节 , 而 且 仅 使 用 了 下 半 或 上 半 , 则 将 事 务 大 小 缩 减 为 字 节 ; 务 事 果 如 请 找 查<br />
本 版 , 南 指 程 编<br />
个<br />
位<br />
大<br />
时<br />
字<br />
个<br />
个<br />
位