11.07.2015 Views

【 苗C~,饵" .7. Il ,~ - 世界大学城

【 苗C~,饵" .7. Il ,~ - 世界大学城

【 苗C~,饵" .7. Il ,~ - 世界大学城

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

就 说 明 判 别 的 效 果 较 好 。 但 是 , 判 别 结 果 还 要 依 赖 于 总 体 本 身 的 分 离 程 度 , 不 同 总 体 的 差 异 越 大越 能 得 到 好 的 判 别 结 果 。 从 判 别 分 析 的 正 确 率 角 度 来 考 察 判 别 模 型 要 达 到 多 少 才 是 可 以 接 受 ?可 以 借 鉴 "20% /25% " 法 则 : 正 确 分 类 的 比 率 应 该 超 过 随 机 分 组 比 率 的 20% 或 者 25% 。 计 算 随机 分 组 的 比 率 分 作 两 种 情 况 :4 自 然 分 组 的 总 体 中 样 本 是 等 概 率 的 情 况 ;2 自 然 分 组 的 总 体 中样 本 是 不 等 概 率 的 情 况 。 所 以 针 对 两 种 不 同 情 况 期 望 达 到 的 正 确 率 计 算 公 式 为 :等 概 率 : 000% -;- C) x 1. 2 或 1. 25不 等 概 率 :(pi+Pi+P:+ …+ 乓 )x 1. 2 或 1. 25其 中 G 表 示 总 类 别 数 。 以 上 公 式 中 乘 以 1. 2 是 取 正 确 分 类 的 比 率 应 该 超 过 随 机 分 组 比 率20% 的 情 况 , 如 果 超 过 了 上 述 界 值 , 则 可 以 认 为 判 别 是 有 作 用 的 。具 体 在 错 判 / 正 判 率 的 计 算 时 , 为 了 使 得 评 价 结 果 更 为 可 观 、 稳 定 , 能 够 代 表 总 体 的 真 实 情况 , 又 可 以 有 以 下 几 种 计 算 方 式 :(1) 自 身 验 证 : 即 将 训 练 样 本 依 次 代 入 判 别 函 数 , 用 这 样 计 算 出 的 错 判 率 来 考 察 错 判 情 况 是否 严 重 。 但 是 这 种 方 法 往 往 会 高 估 判 别 效 果 , 自 身 验 证 的 效 果 好 , 并 不 能 说 明 该 函 数 用 来 判 别 外部 数 据 的 效 果 也 好 , 实 用 价 值 不 大 。(2) 外 部 数 据 验 证 : 即 判 别 函 数 建 立 完 成 后 , 重 新 再 收 集 一 部 分 样 本 数 据 , 用 判 别 函 数 进 行判 别 , 看 看 错 判 是 否 严 重 。 这 种 验 证 方 法 理 论 上 较 好 , 但 再 收 集 的 样 本 数 据 不 能 被 用 来 建 立 函数 , 有 些 浪 费 , 而 且 很 难 保 证 两 次 收 集 的 样 本 是 同 质 的 。(3) 样 本 二 分 法 : 是 外 部 数 据 验 证 的 改 进 , 采 用 随 机 函 数 将 所 用 样 本 分 为 两 部 分 , 一 般 是 按2: 1 的 比 例 拆 分 , 多 的 部 分 用 于 建 立 判 别 函 数 , 剩 下 的 用 于 验 证 。 这 种 做 法 可 以 保 证 验 证 用 样 本和 训 练 用 样 本 的 同 质 性 , 是 最 为 理 想 的 。 但 它 要 求 样 本 量 较 大 , 否 则 建 立 的 判 别 函 数 不 稳 定 , 白白 浪 费 信 息 。(4) 交 互 验 证 (Cross-Validation) : 这 是 近 年 来 逐 渐 发 展 起 来 的 一 种 非 常 重 要 的 判 别 效 果 验证 技 术 。 它 在 样 本 二 分 法 的 基 础 上 又 大 大 前 进 了 一 步 , 具 体 来 说 就 是 在 建 立 判 别 函 数 时 依 次 去掉 一 例 , 然 后 用 建 立 起 来 的 判 别 函 数 对 该 例 进 行 判 别 , 用 这 种 方 法 可 以 非 常 有 效 地 避 免 强 影 响 点的 干 扰 。 在 SPSS 中 己 经 提 供 了 交 互 验 证 功 能 , 可 直 接 使 用 对 话 杠 操 作 。(5) Bootstrap 法 : 该 方 法 在 交 互 验 证 的 基 础 上 又 前 进 了 一 步 。 其 基 本 思 想 为 : 在 原 始 数 据 的范 围 内 做 有 放 回 的 抽 样 , 样 本 含 量 仍 为 n , 原 始 数 据 中 每 个 观 察 单 位 每 次 被 抽 到 的 概 率 相 等 , 为l/n , 所 得 样 本 称 为 Bootstrap 样 本 。 从 该 样 本 可 以 得 到 一 个 判 别 分 析 结 果 ; 重 复 抽 取 这 样 的 样 本若 干 次 , 这 样 可 以 建 立 起 来 一 系 列 判 别 函 数 , 相 应 的 每 个 系 数 都 有 一 系 列 取 值 。 采 用 Bootstrap方 法 的 原 理 就 可 以 求 出 最 " 稳 健 " 的 判 别 函 数 。 用 这 种 方 法 可 以 非 常 充 分 地 利 用 样 本 信 息 , 求 得的 判 别 函 数 又 可 以 有 效 地 避 免 强 影 响 点 的 干 扰 。 但 是 , 各 个 Bootstrap 样 本 中 显 然 都 含 有 相 同 个体 , 严 格 讲 这 并 不 符 合 验 证 的 要 求 。除 使 用 正 判 / 错 判 率 外 , 研 究 者 还 可 以 使 用 许 多 更 为 复 杂 和 专 业 的 指 标 进 行 判 别 效 果 的 评价 , 如 阳 性 预 测 值 、 阴 性 预 测 值 等 , 因 篇 幅 所 限 , 这 里 不 再 详 述 。13. 1. 4 判 别 分 析 的 一 般 步 骤对 于 一 个 实 际 的 判 别 分 析 问 题 , 分 析 者 需 要 做 的 工 作 往 往 并 不 是 简 单 地 运 行 一 遍 分 析 程 序这 样 简 单 , 而 是 全 面 地 对 数 据 进 行 考 察 , 一 般 而 言 , 可 能 需 要 经 历 以 下 几 个 步 骤 :• 264 •

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!