IBM Informix 数据仓库加速器
IBM Informix 数据仓库加速器
IBM Informix 数据仓库加速器
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
卓 越 的 性 能<br />
IWA 卓 越 的 性 能 是 <strong>IBM</strong> 研 究 部 门 和和 开 发 部 门 共 同 努 力力 的 结 果 。 本 文 将 简 要 的 叙 述 在 IWA 中 使 用 到到<br />
的 先 进 技 术 。 参 考 文 献 里 的 一 些 论 文 对 这 些 先 进 技 术 进 行 了 详 细 的 叙 述 。 这 些 论 文 都 被 发 表 在 著 名<br />
的 期 刊 或 会 议 上 。<strong>IBM</strong> 已 经 为 这 些 先 进 技 术 申 请 了 专 利 。<br />
深 度 列 式 存 储 技 术 比 传 统 的 列 式 存 储 技 术 更 优 。 有 了 “ 深 度 列 式 存 储 技 术 ” 和和 “ 处 于 压<br />
缩 态 的 数 据 无 需 解 压 缩 就 可 被 处 理 的 技 术 ” 后 , 查 询 处 理 时 不 再 需 要 磁 盘 I/O, 可 处 理 海 量 数 据 的 内<br />
存 数 据 仓 库 成 为 现 实 。 对 多 核 架 构 和和 SIMD 技 术 的 充 分 利 用 使 得 IWA 在 没 有 索 引 和和 概 要<br />
表 的 情 况 下 也 能 达 到到 不 可 思 议 的 速 度 。 下 面 让 我 们 深 入 了 解 这 些 先 进 技 术 。<br />
频 率 划 分 (Frequency Partitioning)<br />
对 数 据 集 市 里 的 每 个 数 据 表 , 通 过 分 析 一 个 或 多 个 数 据 列 里 经 常 出 现 的 值 , 将 紧 密 相 关 的 一 些 数 据<br />
列 组 成 一 个 tuplet。 在 上 面 的 图 示 中 , 产 品品 (product) 和和 产 地 (origin) 这 两 个 数 据 列 紧 密 相 关 , 所 以 将<br />
这 两 个 数 据 列 组 成 一 个 tuplet。tuplet 是 tuple 的 一 部 分 。 一 个 tuple 是 一 个 完 整 的 数 据 行 。 哈哈 夫 曼<br />
编 码 (Huffman encoding) 的 好好 处 是 用 “ 最 少 的 数 据 位 ” 对 “ 最 经 常 出 现 的 值 ” 进 行 编 码 。 在 上 面 的<br />
图 示 中 ,“ 前前 64 种 产 品品 ” 和和 “ 产 地 ( 美 国 , 中 国 )” 结 合 形 成 了 哈哈 夫 曼 编 码 中 的 单 元 1 (cell 1)。 这<br />
项 技 术 改 进 了 压 缩 的 效 率 , 并 且 可 被 用 于 判 断 tuplet 是 否 满 足 查 询 语 句 中 的 “ 等 于 ” 和和 “ 范 围 ” 过<br />
滤 条 件 。 由 于 对 查 询 语 句 的 处 理 是 基 于 压 缩 的 数 据 , 处 理 的 速 度 将 非 常 迅 速 。<br />
15