13.07.2015 Views

淘宝构建20 节点的RAC 系统,满足数据仓库海量数据处理需求

淘宝构建20 节点的RAC 系统,满足数据仓库海量数据处理需求

淘宝构建20 节点的RAC 系统,满足数据仓库海量数据处理需求

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

淘 宝 构 建 20 节 点 的 RAC 系 统 , 满 足 数 据 仓 库 海 量 数 据 处 理 需 求“ 面 对 淘 宝 业 绩 的 倍 数 成 长 , 我 们 深 刻 地 感 到 基 于 Oracle RAC 构 建 企 业 级 数 据 仓 库 是一 个 正 确 的 选 择 ,Oracle 解 决 方 案 为 淘 宝 数 据 仓 库 提 供 了 支 持 未 来 持 续 成 长 的 延 展 空 间 ,使 我 们 能 够 随 着 业 务 的 发 展 不 断 提 升 数 据 仓 库 环 境 的 性 能 , 满 足 公 司 在 市 场 分 析 和 预 测 方面 迅 速 增 长 的 业 务 需 求 。”汪 海 淘 宝 网 资 深 总 监淘 宝 网 (www.taobao.com) 由 阿 里 巴 巴 集 团 于 2003 年 5 月 10 日 投 资 创 办 , 淘 宝 的 业 务 范 围跨 越 了 C2C( 个 人 对 个 人 ) 和 B2C( 商 家 对 个 人 ) 两 大 部 分 , 是 亚 洲 最 大 的 购 物 网 站 , 会 员 数 超过 1.1 亿 。自 2003 年 创 立 以 来 , 淘 宝 飞 速 成 长 的 势 头 就 没 有 停 止 过 , 经 过 6 年 的 发 展 , 截 至 2009 年 6 月淘 宝 拥 有 注 册 会 员 1.45, 是 亚 洲 最 大 的 网 络 零 售 商 圈 。2008 年 , 在 淘 宝 上 仅 手 机 就 卖 出 了 1000多 万 部 , 服 装 卖 出 了 1.4 亿 件 , 并 实 现 年 交 易 额 999.6 亿 人 民 币 。 根 据 第 三 方 权 威 机 构 调 研 , 淘宝 2007 以 来 一 直 占 据 中 国 网 购 市 场 70% 以 上 市 场 份 额 。为 了 更 好 地 了 解 客 户 需 求 , 总 结 与 分 析 运 营 和 管 理 的 规 则 , 淘 宝 于 2004 开 始 基 于 Oracle 产品 构 建 企 业 级 数 据 仓 库 (EDW), 并 于 2007 年 、2008 年 和 2009 年 三 次 利 用 Oracle RAC 10g 和 OracleRAC 11g 对 数 据 仓 库 系 统 进 行 了 升 级 和 扩 充 , 将 数 据 仓 库 部 署 在 全 球 领 先 的 RAC 系 统 —— 由 20 个节 点 组 成 的 单 一 数 据 库 集 群 —— 之 上 , 使 淘 宝 在 数 据 仓 库 规 模 每 年 成 倍 扩 大 的 情 况 下 , 实 现 了数 据 处 理 和 分 析 时 效 性 的 不 断 提 升 , 过 去 需 要 数 天 才 能 完 成 的 计 算 现 在 当 天 就 能 完 成 , 部 分 以前 属 于 小 时 级 别 的 计 算 更 是 提 高 到 了 分 钟 级 别 。 目 前 , 淘 宝 数 据 仓 库 能 够 每 天 处 理 几 亿 次 的 用户 行 为 , 日 处 理 的 数 据 量 接 近 30TB, 堪 称 目 前 国 内 每 天 数 据 处 理 量 最 大 、 最 忙 的 数 据 仓 库 。淘 宝 首 席 DBA、 资 深 技 术 专 家 陈 吉 平 指 出 :“ 淘 宝 数 据 仓 库 不 仅 仅 是 一 套 数 据 存 储 和 管 理 系统 , 更 是 一 套 与 业 务 数 据 紧 密 结 合 的 动 态 数 据 仓 库 系 统 , 系 统 需 要 每 天 甚 至 每 小 时 动 态 地 处 理海 量 的 增 量 数 据 和 全 量 数 据 ,Oracle RAC 无 论 是 在 基 础 架 构 方 面 和 还 是 在 性 能 方 面 都 非 常 适 合我 们 实 施 高 效 的 海 量 数 据 处 理 。”构 建 数 据 仓 库 , 续 写 电 子 商 务 传 奇淘 宝 通 过 搭 建 一 个 完 全 自 由 竞 争 的 互 联 网 交 易 基 础 设 施 , 创 造 出 了 一 个 包 括 了 买 家 、 卖 家 、支 付 、 物 流 、 金 融 、 广 告 、 搜 索 等 环 节 在 内 的 商 业 生 态 系 统 , 从 某 种 程 度 上 说 , 淘 宝 的 成 功 意


味 着 网 购 这 一 全 新 商 业 模 式 正 在 颠 覆 中 国 传 统 企 业 做 生 意 的 方 式 , 也 在 改 变 着 中 国 消 费 者 的 消费 行 为 模 式 。 然 而 面 对 淘 宝 所 创 造 的 电 子 商 务 传 奇 , 淘 宝 的 管 理 层 清 醒 地 认 识 到 : 尽 管 淘 宝 的快 速 发 展 揭 示 了 中 国 的 确 存 在 巨 大 的 电 子 商 务 潜 在 用 户 基 础 , 但 是 在 另 一 方 面 , 中 国 电 子 商 务市 场 目 前 还 是 一 个 年 轻 的 、 还 远 没 有 成 熟 的 市 场 , 处 在 一 个 价 格 敏 感 和 体 验 式 的 阶 段 , 因 此 淘宝 要 想 在 新 的 竞 争 环 境 下 续 写 传 奇 , 就 需 要 为 店 铺 和 消 费 者 不 断 提 供 更 新 、 更 全 面 的 服 务 , 从而 全 面 促 进 客 户 体 验 , 培 育 客 户 的 忠 诚 度 , 通 过 企 业 级 数 据 仓 库 来 洞 察 与 了 解 客 户 的 需 求 则 是实 现 以 上 目 标 的 最 有 效 手 段 之 一 。利 用 Oracle 的 数 据 仓 库 技 术 , 淘 宝 实 现 了 将 分 散 在 不 同 业 务 系 统 中 的 业 务 数 据 高 效 地 抽 取到 集 中 的 数 据 仓 库 平 台 , 这 些 完 整 记 录 了 访 问 点 击 、 交 易 过 程 、 商 品 类 目 属 性 以 及 呼 叫 中 心 客服 内 容 等 方 面 信 息 的 海 量 数 据 , 通 过 数 据 仓 库 的 清 洗 、 整 理 、 过 滤 、 排 序 、 合 并 等 各 种 技 术 手段 进 行 综 合 的 处 理 , 形 成 了 包 含 重 要 业 务 信 息 与 知 识 的 数 据 集 市 , 并 生 成 反 映 最 新 状 况 的 统 计分 析 数 据 、 指 标 和 报 表 , 可 以 精 确 地 反 映 出 在 浏 览 、 交 易 、 商 品 等 方 面 的 最 新 用 户 行 为 和 业 务趋 势 , 使 淘 宝 能 够 及 时 了 解 和 掌 握 用 户 的 核 心 兴 趣 和 消 费 特 征 , 在 交 易 中 提 供 精 准 的 个 性 化 服务 , 同 时 在 店 铺 的 各 个 发 展 阶 段 有 针 对 性 地 设 计 增 值 服 务 , 全 方 位 增 强 了 企 业 的 市 场 竞 争 能 力 。利 用 高 性 能 平 台 应 对 海 量 数 据 处 理 的 挑 战目 前 淘 宝 数 据 仓 库 的 数 据 量 接 近 30TB, 但 与 大 多 数 数 据 仓 库 不 同 的 是 , 淘 宝 这 30TB 数 据 基本 上 都 是 需 要 每 天 进 行 动 态 分 析 的 。 例 如 , 淘 宝 店 铺 的 每 天 用 户 评 价 数 据 都 在 不 断 更 新 中 , 其星 级 也 随 之 不 断 更 新 , 为 了 达 到 监 控 虚 假 的 交 易 信 息 和 评 价 , 淘 宝 数 据 仓 库 需 要 每 天 查 询 和 分析 用 户 的 评 价 及 其 星 级 变 换 情 况 , 确 保 淘 宝 星 级 诚 信 体 系 的 权 威 性 。 再 例 如 《i 淘 宝 》—— 淘 宝的 个 性 化 推 荐 平 台 —— 可 以 根 据 用 户 在 淘 宝 上 的 历 史 行 为 习 惯 , 直 接 给 用 户 推 荐 适 合 的 商 品 、店 铺 、 好 友 等 。《i 淘 宝 》 为 网 络 店 铺 针 对 每 个 客 户 的 推 荐 都 是 个 性 化 的 , 并 可 基 于 客 户 的 兴 趣进 行 变 更 , 如 为 软 件 工 程 师 列 出 编 程 类 书 目 , 为 新 妈 妈 展 示 婴 儿 玩 具 。 然 而 要 得 出 个 性 化 的 推荐 结 果 , 需 要 将 每 天 大 量 的 客 户 行 为 轨 迹 信 息 与 会 员 信 息 、 商 品 属 性 信 息 结 合 起 来 进 行 综 合 分析 处 理 , 淘 宝 拥 有 会 员 超 过 1.1 亿 , 商 品 数 量 超 过 1.2 亿 , 一 个 商 品 可 能 具 备 20 个 以 上 的 有 效 属性 , 因 此 看 似 简 单 的 个 性 化 推 荐 其 背 后 是 极 为 庞 大 的 数 据 计 算 。 淘 宝 数 据 仓 库 不 仅 计 算 量 十 分巨 大 , 且 计 算 实 效 性 要 求 很 高 , 这 就 决 定 了 它 对 于 数 据 处 理 能 力 的 需 求 远 高 于 一 般 的 数 据 仓 库 。陈 吉 平 表 示 :“Oracle RAC 强 大 的 并 行 处 理 能 力 为 我 们 应 对 处 理 海 量 数 据 的 挑 战 提 供 了 极大 的 帮 助 , 在 单 个 节 点 内 部 , 并 行 计 算 和 非 并 行 计 算 的 效 率 差 别 是 很 大 的 。 在 一 次 性 处 理 特 别大 量 数 据 的 时 候 ,Oracle RAC 的 跨 节 点 并 行 计 算 功 能 则 体 现 了 更 大 的 作 用 。”在 《i 淘 宝 》 实 现 个 性 化 推 荐 的 计 算 中 , 通 过 使 用 Oracle RAC 跨 节 点 并 行 技 术 , 淘 宝 数 据仓 库 实 现 了 相 关 模 块 计 算 时 间 的 显 著 缩 短 , 最 多 的 缩 短 了 2 小 时 以 上 , 最 少 的 也 缩 短 了 30 分 钟 ,为 淘 宝 成 功 实 施 个 性 化 推 荐 提 供 了 重 要 保 障 。


陈 吉 平 进 一 步 指 出 :“ 除 了 《i 淘 宝 》 的 个 性 化 推 荐 之 外 , 淘 宝 数 据 仓 库 还 提 供 了 店 铺 内推 荐 、 精 确 邮 件 定 向 营 销 以 及 购 物 风 尚 榜 等 服 务 项 目 , 同 时 每 天 出 具 400 张 左 右 的 报 表 , 这 些 服务 项 目 和 数 据 指 标 使 用 起 来 非 常 简 单 , 其 实 它 们 都 是 来 自 于 海 量 数 据 的 高 度 浓 缩 , 基 于 OracleRAC 的 高 性 能 平 台 很 好 地 支 持 了 这 些 非 常 复 杂 的 计 算 过 程 。”系 统 可 轻 松 扩 展 , 支 持 业 务 的 高 速 发 展从 2004 年 开 始 构 建 企 业 级 数 据 仓 库 以 来 , 淘 宝 数 据 仓 库 不 仅 所 处 理 业 务 数 据 每 年 增 长 数倍 , 更 是 需 要 不 断 完 成 新 的 业 务 需 求 。 利 用 Oracle RAC 能 支 持 线 性 扩 展 的 特 点 , 淘 宝 轻 松 完 成了 数 据 仓 库 平 台 由 Oracle RAC 4 节 点 环 境 到 12 节 点 环 境 再 到 20 节 点 环 境 的 扩 展 , 使 数 据 仓 库 能够 从 容 应 对 业 务 需 求 快 速 变 化 和 业 务 数 据 爆 炸 式 增 长 的 挑 战 , 在 数 据 仓 库 的 数 据 处 理 需 求 呈 指数 级 增 长 的 情 况 下 , 系 统 计 算 的 时 效 性 不 仅 没 有 下 降 , 反 而 有 了 显 著 提 升 , 过 去 需 要 数 天 才 能完 成 的 计 算 现 在 当 天 就 能 完 成 , 部 分 以 前 属 于 小 时 级 别 的 计 算 更 是 提 高 到 了 分 钟 级 别 。陈 吉 平 表 示 :“Oracle RAC 支 持 线 性 扩 展 的 能 力 对 我 们 来 说 特 别 重 要 , 在 大 多 数 情 况 下 ,Oracle RAC 能 够 实 现 计 算 能 力 和 节 点 数 按 照 线 性 比 例 增 加 , 基 本 上 是 节 点 数 的 翻 倍 , 处 理 同 样数 据 量 的 计 算 时 间 减 半 , 这 对 于 我 们 根 据 业 务 的 发 展 趋 势 和 需 求 变 化 , 经 济 合 理 地 进 行 IT 扩 容有 非 常 大 的 帮 助 。”利 用 Oracle RAC, 淘 宝 实 现 了 根 据 业 务 发 展 需 要 的 对 系 统 进 行 “ 按 需 扩 展 ”。 例 如 , 在 以前 4 节 点 的 数 据 仓 库 运 行 环 境 下 , 只 有 一 半 的 核 心 业 务 能 在 每 天 9 点 前 完 成 计 算 , 在 业 务 需 求 日益 增 多 的 情 况 下 , 淘 宝 将 系 统 从 4 节 点 扩 展 到 12 节 点 , 使 全 部 的 核 心 业 务 做 到 在 每 天 9 点 前 完 成计 算 ; 为 了 支 撑 交 易 、 用 户 、 商 品 数 据 集 市 的 运 算 , 并 适 应 因 前 台 业 务 变 化 带 来 的 日 常 处 理 逻辑 的 复 杂 性 , 淘 宝 又 将 系 统 从 12 节 点 扩 展 到 20 节 点 , 使 近 500 个 ETL 任 务 能 够 在 每 天 的 0:30-9:00 之 间 全 部 准 时 完 成 , 保 证 了 数 据 集 市 中 数 据 的 新 鲜 度 可 以 到 最 近 的 一 天 , 同 时 实 现 了 在 新 业 务上 线 后 的 第 一 时 间 内 就 能 够 分 析 出 业 务 的 合 理 估 值 和 效 果 。为 什 么 选 择 Oracle陈 吉 平 表 示 :“ 淘 宝 数 据 仓 库 是 典 型 的 互 联 网 数 据 仓 库 , 源 头 业 务 变 化 非 常 快 , 这 对 于 数据 仓 库 平 台 的 基 础 架 构 和 性 能 方 面 都 构 成 了 极 大 的 挑 战 , 我 们 之 所 以 选 择 Oracle RAC 构 建 淘 宝数 据 仓 库 , 主 要 考 虑 该 系 统 在 以 下 三 个 方 面 的 优 势 能 够 帮 助 我 们 应 对 挑 战 :1、 并 行 处 理 能 力 :淘 宝 数 据 仓 库 中 的 许 多 业 务 查 询 与 分 析 都 是 动 态 的 , 数 据 处 理 量 十 分 巨 大 , 且 实 效 性 要 求很 高 ,Oracle RAC 具 有 非 常 好 的 并 行 处 理 能 力 , 这 对 动 态 查 询 和 模 糊 查 询 有 很 大 帮 助 , 能 够 有


效 满 足 淘 宝 数 据 仓 库 这 种 复 杂 和 动 态 的 海 量 数 据 分 析 处 理 需 求 。2、 可 线 性 扩 展 能 力 :对 于 淘 宝 这 样 处 于 新 兴 行 业 中 且 高 速 发 展 的 企 业 来 说 ,Oracle RAC 良 好 的 线 性 扩 展 能 力 极为 重 要 , 它 使 得 淘 宝 可 以 在 需 要 的 时 候 通 过 向 集 群 中 增 加 低 成 本 的 普 通 服 务 器 来 满 足 高 性 能 的数 据 处 理 需 求 , 从 而 获 得 在 目 前 市 场 环 境 下 尤 为 重 要 的 经 济 性 。 更 为 重 要 的 是 ,Oracle RAC 的线 性 扩 展 能 力 能 够 保 证 我 们 始 终 提 供 整 个 企 业 统 一 的 信 息 视 图 和 数 据 集 市 , 而 不 会 像 一 些 扩 展能 力 有 限 的 系 统 那 样 , 随 着 数 据 量 的 增 长 , 系 统 性 能 逐 渐 下 降 , 最 后 不 得 不 将 数 据 分 离 , 建 立多 个 小 规 模 的 数 据 集 市 。3、 高 效 的 系 统 管 理 能 力 :对 于 大 型 的 数 据 仓 库 应 用 系 统 而 言 , 如 何 能 有 效 而 简 单 地 进 行 系 统 管 理 是 非 常 重 要 的 。 特别 是 当 数 据 量 不 断 扩 大 时 , 如 果 没 有 一 种 有 效 而 且 简 单 的 系 统 管 理 措 施 , 那 么 系 统 的 运 行 费 用将 会 很 高 。Oracle ASM 提 供 了 磁 盘 管 理 、 数 据 流 量 平 衡 , 空 间 管 理 以 及 自 动 创 建 和 删 除 数 据 文件 等 自 动 化 的 存 储 管 理 功 能 , 可 以 有 效 增 加 数 据 仓 库 系 统 管 理 动 态 数 据 库 环 境 的 灵 活 性 , 提 高存 储 管 理 效 率 并 降 低 管 理 成 本 。”实 施 过 程淘 宝 于 2004 年 开 始 基 于 Oracle 产 品 构 建 企 业 级 数 据 仓 库 (EDW), 最 初 的 数 据 仓 库 解 决 方案 在 单 一 服 务 器 上 运 行 , 由 于 这 种 架 构 无 法 提 供 所 需 的 灵 活 性 和 稳 定 性 , 淘 宝 于 2007 年 部 署 了 4节 点 的 Oracle RAC 10g 的 数 据 仓 库 环 境 , 并 于 2008 年 将 4 节 点 的 Oracle RAC 10g 的 数 据 仓 库 环 境扩 展 为 12 节 点 , 同 时 另 外 部 署 了 一 个 4 节 点 的 基 于 Oracle RAC 11g 的 数 据 库 集 群 , 用 于 运 行 部 分数 据 仓 库 。2009 年 , 淘 宝 将 12 节 点 Oracle RAC 10g 的 数 据 仓 库 环 境 扩 展 为 20 个 节 点 , 组 成 了 规模 上 全 球 领 先 的 基 于 Oracle RAC 的 数 据 库 集 群 。 淘 宝 基 于 Oracle RAC 的 数 据 仓 库 环 境 全 部 运 行在 基 于 Linux 的 普 通 服 务 器 之 上 , 每 天 的 数 据 处 理 量 近 30TB, 该 系 统 的 实 施 由 淘 宝 自 己 的 员 工 完成 。


淘 宝 网www.taobao.com中 国 杭 州行 业 :零 售 业员 工 人 数 :超 过 2000Oracle 产 品 和 服 务• Oracle 数 据 库 11g• Oracle RAC 11g• Oracle 数 据 库 10g• Oracle RAC 10g• Oracle 数 据 仓 库主 要 效 益 :• 利 用 Oracle RAC 的 跨 节 点 并 行 计 算 的 技 术 支 持 海 量 数 据 处 理 , 实 现 了 数 据 仓 库 的 动 态 业 务 查 询 与 分析• 计 算 能 力 和 节 点 数 按 照 线 性 比 例 增 加 , 从 容 应 对 业 务 需 求 快 速 变 化 和 数 据 爆 炸 式 增 长 的 挑 战• 每 天 处 理 几 亿 次 的 用 户 行 为 , 日 处 理 的 数 据 量 接 近 30T, 同 时 每 天 出 具 400 张 左 右 的 报 表• 近 500 个 ETL 任 务 能 够 在 每 天 0:30-9:00 之 间 全 部 准 时 完 成 , 保 证 了 数 据 集 市 中 数 据 的 新 鲜 度 可 以到 最 近 的 一 天• 提 供 了 基 于 数 据 仓 库 的 精 确 分 析 的 个 性 化 推 荐 、 店 铺 内 推 荐 、 精 确 邮 件 定 向 营 销 以 及 购 物 风 尚 榜 等服 务 项 目• 实 现 了 根 据 业 务 的 发 展 和 要 求 合 理 地 扩 容 , 在 满 足 迅 速 增 长 的 市 场 分 析 和 预 测 需 求 同 时 保 持 低 成 本

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!