30.04.2014 Views

NVIDIA CUDA 计算统一设备架构

NVIDIA CUDA 计算统一设备架构

NVIDIA CUDA 计算统一设备架构

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

,Csub 计<br />

是<br />

和<br />

都<br />

的<br />

,Muld() 会<br />

节<br />

,ty<br />

节<br />

节<br />

。<br />

,tx 在<br />

至<br />

<br />

再 计<br />

Muld() 的<br />

b<br />

和<br />

这 里 也 不 存 在 任 何 存 储 体 冲 突 , 因 为 在 每 个<br />

中<br />

15 之<br />

实 际 上 , 假<br />

存 等<br />

。<br />

块 对 于 所 有 线 程 都 是 相 同 的 和 存 储 器 访 问 时 都 会 访 问 不 同 储 器 访 问 时 访 问 相 同 的 存 储 体 。 的<br />

为 a、<br />

两 个 子 阵 的 乘 积 , 并 将 其 与 上 一 次 循 环 获 得 的 乘 积 相 加 ; 次 进 行 同 步 , 以 确 保 两 个 子 阵 的 乘 积 运 算 已 完 成 , 之 后 才 开 始 下 一 次 循 环 处 理 所 有 子 阵 之 后 算 完 成 将 结 果 写 入 全 局 存 储 器 。 算<br />

述 , 此 时 将 能 够 确 保 全 局 存 储 器 合 并 , 因 倍 数 。 所<br />

5.1.2.1 目 的 是 为 了 最 大 化 存 储 器 性 能 , 请 参 见 第 写 编<br />

5.1.2.5 第 和<br />

设 wA<br />

wB<br />

16<br />

5.1.2.1 , 如 第 数 倍<br />

c<br />

是 BLOCK_SIZE(<br />

半 warp<br />

于 16)<br />

0<br />

As[ty][tx]、Bs[ty][tx] 因 此 每 个 线 程 在 进 行 , 间<br />

k<br />

As[ty][k] 储 体 , 而 在 进 行 存 的<br />

Bs[k][tx]<br />

56 <strong>CUDA</strong> 编<br />

2.0 南 , 版 本 指 程

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!