11.07.2015 Views

【 苗C~,饵" .7. Il ,~ - 世界大学城

【 苗C~,饵" .7. Il ,~ - 世界大学城

【 苗C~,饵" .7. Il ,~ - 世界大学城

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

目 前 , 非 层 次 聚 类 法 中 以 K 一 均 值 聚 类 法 (K - means Clustering) 最 为 常 用 , 该 方 法 也 被 称 为快 速 聚 类 法 , SPSSClustero3. 智 能 聚 类 方 法中 提 供 的 也 正 是 这 种 方 法 , 具 体 是 菜 单 中 的 Analyze → Classify → K - Means随 着 近 年 来 数 据 仓 库 和 数 据 挖 掘 技 术 的 逐 渐 成 熟 , 海 量 数 据 的 聚 类 分 析 己 经 成 为 了 一 个 现实 的 问 题 , 但 是 以 上 传 统 方 法 均 远 远 不 能 满 足 需 求 。 首 先 , 数 据 挖 掘 面 对 的 是 海 量 数 据 , 过 高 的计 算 量 会 使 得 方 法 不 具 实 用 价 值 ; 其 次 , 传 统 方 法 中 使 用 的 距 离 指 标 往 往 不 能 满 足 复 杂 的 数 据 联系 需 要 , 特 别 是 连 续 性 、 离 散 性 数 据 混 合 出 现 的 情 形 ; 最 后 , 这 些 方 法 在 类 别 数 确 定 时 或 者 要 求 用户 自 行 指 定 , 或 者 需 要 计 算 出 所 有 可 能 的 解 决 方 案 后 从 中 加 以 判 断 , 这 些 往 往 都 不 符 合 数 据 挖 掘的 实 际 情 况 。为 此 , 希 望 能 找 到 这 样 一 些 聚 类 方 法 , 它 们 计 算 量 较 小 , 能 自 动 判 断 最 适 宜 的 类 别 数 , 同 时 又能 够 发 掘 类 别 间 的 复 杂 联 系 。 借 助 于 人 工 智 能 技 术 的 发 展 , 一 系 列 新 的 智 能 聚 类 方 法 被 发 展 出来 , 其 中 较 常 见 的 是 两 步 聚 类 法 和 神 经 网 络 中 的 自 组 织 图 技 术 。 SPSS 从 1 1. 5 版 起 提 供 了 两 步聚 类 法 , 具 体 位 置 为 菜 单 Analyze→ Classify→ TwoStep Cluster 0 而 对 自 组 织 图 的 支 持 则 放 在 了 数据 挖 掘 专 用 工 具 Clementine 中 , 在 SPSS 中 并 未 提 供 。12.2 层 次 聚 类 法12.2.1 方 法 原 理根 据 运 算 的 方 向 , 层 次 聚 类 法 可 以 被 分 为 合 并 法 和 分 解 法 两 大 类 , 但 这 两 类 方 法 的 运 算 原 理实 际 上 是 完 全 相 同 的 , 仅 仅 是 方 向 相 反 而 己 。 SPSS 中 提 供 的 是 层 次 聚 类 法 中 的 合 并 法 。 它 的 实现 过 程 如 下 :(1) 首 先 将 各 条 数 据 各 自 作 为 一 类 ( 这 时 有 n 类 ) , 按 照 所 定 义 的 距 离 计 算 各 数 据 点 之 间 的距 离 , 形 成 一 个 距 离 阵 ;(2) 将 距 离 最 近 的 两 条 数 据 并 为 一 个 类 别 , 从 而 成 为 了 n 一 1 个 类 别 , 计 算 新 产 生 的 类 别 与其 他 各 个 类 别 之 间 的 距 离 或 者 相 似 度 ( 这 涉 及 如 何 计 算 两 个 类 别 之 间 距 离 或 者 相 似 度 的 问 题 ) ,形 成 了 新 的 距 离 阵 ;(3) 按 照 和 第 二 步 是 相 同 的 原 则 , 再 将 距 离 最 接 近 的 两 个 类 别 合 并 , 这 时 如 果 类 的 个 数 仍 然大 于 1, 则 继 续 重 复 这 一 步 骤 , 直 到 所 有 的 数 据 都 被 合 并 成 为 一 个 类 别 为 止 。层 次 聚 类 法 的 优 点 是 非 常 明 显 的 : 可 以 对 变 量 ( 样 品 ) 或 记 录 进 行 聚 类 , 变 量 可 以 为 连 续 或分 类 变 量 , 提 供 的 距 离 测 量 方 法 和 结 果 表 示 方 法 也 非 常 丰 富 。 但 是 由 于 它 要 反 复 计 算 距 离 , 当 样本 量 太 大 或 变 量 较 多 时 , 采 用 层 次 聚 类 运 算 速 度 明 显 较 慢 。在 层 次 聚 类 法 中 , 当 每 个 类 别 有 多 于 一 个 的 数 据 点 构 成 时 , 就 会 涉 及 如 何 定 义 两 个 类 间 的 距离 的 问 题 。 根 据 计 算 两 个 类 别 之 间 距 离 的 不 同 , 会 得 到 不 同 的 结 果 , 也 就 进 一 步 构 成 了 不 同 的 层次 聚 类 方 法 。 常 用 的 方 法 有 如 下 几 种 , 如 图 12.2 所 示 。(1) 最 短 距 离 法 (Nearest Neighbor) : 用 两 个 类 别 中 各 个 数 据 点 之 间 最 短 的 那 个 距 离 来 表 示两 个 类 别 之 间 的 距 离 。• 238 •

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!