30.04.2014 Views

NVIDIA CUDA 计算统一设备架构

NVIDIA CUDA 计算统一设备架构

NVIDIA CUDA 计算统一设备架构

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

核 (manycore) 众<br />

程 指 南 , 版<br />

图<br />

所 已<br />

(language<br />

(runtime<br />

第 1 章 简 介<br />

1.1 <strong>CUDA</strong>: 可 伸 缩 并 行 编 程 模 型<br />

<strong>CUDA</strong> 是<br />

<strong>CUDA</strong> 的<br />

和<br />

GPU 的<br />

种 并 行 编 程 模 型 和 软 件 环 境 , 用 于 应 对 这 种 挑 战 。 而 对 于 熟 绝 一<br />

语<br />

图<br />

定 律 , 其 并 行 性 还 会 不 断 扩 展 。 这 给 我 们 带 来 了 严 峻 的 挑 战 —— 我 们 需 要 开 发 出 可 透 明 地 扩 展 并 行 语 言 等 标 准 编 程 语 言 的 尔<br />

(barrier synchronization),<br />

CPU 核 多<br />

出 现 意 味 着 主 流 处 理 器 芯 片 已 进 入 并 行 时 代 。 此 外 , 根 据 摩<br />

物 理 处 理 器 数 量 。<br />

时 通 过 在 任 何 可 用 处 理 器 内 核 上 处 理 各 子 问 题 来 支 持 透 明 的 可 伸 缩 性 : 因 而 , 编 译<br />

3D 应 用 软 件 , 以 利 用 日 益 增 加 处 理 器 内 核 数 量 , 这 种 情 况 正 如 行 性 以 支 持 配 备 各 种 数 量 的 内 核 的 众 的 性<br />

核 GPU。<br />

形 应 用 程 序 透 明 地 扩 展 其 并<br />

C<br />

核 心 有 三 个 重 要 抽 象 概 念 : 组 层 次 结 构 、 共 享 存 储 器 、 栅 障 同 步 悉<br />

些 抽 象 提 供 了 细 粒 度 的 数 据 并 行 和 线 程 并 行 , 嵌 套 于 粗 粒 度 的 数 据 并 行 和 任 务 并 行 之 中 。 它 们 将 指 导 程 序 员 将 问 题 为 可 独 立 处 理 的 粗 粒 度 子 问 题 , 再 细 分 成 细 粒 度 的 片 段 , 以 便 通 过 协 作 的 方 法 并 行 解 决 。 这 样 的 分 解 以 允 许 线 程 在 解 决 子 问 题 时 协 作 为 目 的 设 计 了 编 程 语 言 的 表 达 方 式<br />

expressivity), 同 这<br />

system) 需 程<br />

1.2 GPU: 高 度 并 行 化 的 多 线 程 、 众 核 处 理 器<br />

<strong>CUDA</strong> 员 来 说 , 迅 速 掌 握 序 程<br />

难 事 。 非<br />

C 程 序 员 来 说 , 它 们 只 是 于 对<br />

的 一 个 极 小 扩 展 。 言<br />

形 永 无 尽 头 的 需 求 , 可 编<br />

发 展 成 为 一 种 高 度 并 行 化 的<br />

<strong>CUDA</strong> 的 后<br />

序 可 以 在 任 何 数 量 的 处 理 器 内 核 上 执 行 , 只 有 运 行 时 系 统<br />

要 了 解<br />

多 线 程 、 众 核 处 理 器 , 具 有 杰 出 的 计 算 能 力 和 极 高 的 存 储 器 带 宽 , 如<br />

。 示<br />

<strong>CUDA</strong> 编<br />

1<br />

3D 足 消 费 者 对 实 时 、 高 清 晰 度 的 满 为<br />

程 GPU<br />

图 1-1<br />

本 2.0

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!