11.07.2015 Views

【 苗C~,饵" .7. Il ,~ - 世界大学城

【 苗C~,饵" .7. Il ,~ - 世界大学城

【 苗C~,饵" .7. Il ,~ - 世界大学城

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

•【 苗 C~ , 饵 " <strong>.7.</strong> <strong>Il</strong> ,~


SPSS 统 计 分 析 高 级 教 程主编 张 文 形副 主 编 董 伟高 等 教 育 出 版 社


序---Ì......口知 识 经 济 时 代 , 数 据 成 为 宝 贵 的 经 济 资 源 。 在 国 外 , 电 信 、 医 疗 、 银 行 、 证 券 、 保 险 、 制 造 、 商业 、 科 研 、 教 育 等 行 业 已 广 泛 采 用 先 进 的 统 计 分 析 技 术 从 数 据 中 提 取 有 价 值 的 信 息 和 知 识 。 在 国内 , 随 着 市 场 的 蓬 勃 发 展 , 了 解 成 熟 的 统 计 分 析 产 品 , 借 鉴 成 功 的 统 计 分 析 行 业 应 用 经 验 , 运 用 科学 的 统 计 分 析 方 法 , 从 数 据 中 总 结 、 归 纳 有 用 的 知 识 , 并 将 知 识 用 于 市 场 营 销 、 运 营 决 策 和 信 用 风险 管 理 等 领 域 , 帮 助 企 、 事 业 单 位 降 低 消 耗 、 增 加 效 益 , 从 而 提 高 整 体 运 行 效 率 , 已 成 为 各 行 业 中有 远 见 的 人 士 普 遍 关 注 的 问 题 。SPSS软 件 是 全 球 专 业 统 计 分 析 软 件 的 领 导 者 , 一 直 致 力 于 帮 助 企 、 事 业 单 位 提 高 科 学 运 用统 计 分 析 方 法 的 能 力 , 20 世 纪 80 年 代 就 已 经 被 许 多 学 者 引 入 中 国 市 场 。 它 包 含 了 丰 富 的 统 计分 析 算 法 , 而 且 在 使 用 层 面 上 更 多 地 考 虑 了 客 户 在 整 个 统 计 分 析 过 程 中 的 应 用 感 受 , 其 简 洁 的 界面 、 完 善 的 数 据 准 备 功 能 和 杰 出 的 图 表 输 出 能 力 使 得 SPSS 软 件 在 全 球 有 超 过 25 万 家 的 机 构 用户 , 并 成 为 国 内 的 主 流 统 计 分 析 软 件 。 随 着 该 产 品 在 各 行 业 应 用 的 深 入 以 及 SPSS培 训 和 认 证 的广 泛 开 展 , 目 前 国 内 己 涌 现 出 一 大 批 应 用 SPSS 的 专 家 。 近 两 年 , 国 内 统 计 分 析 市 场 如 火 如 荼 ,SPSS 在 产 品 技 术 上 也 不 断 推 陈 出 新 , 继 SPSS 英 文 版 在 国 内 成 功 应 用 之 后 , SPSS 公 司 在 今 年 首次 推 出 了 简 体 中 文 版 , 该 产 品 更 加 符 合 中 国 人 的 使 用 习 惯 , 一 经 推 出 便 受 到 各 行 业 人 士 的 喜 爱 。为 了 让 中 国 的 SPSS软 件 爱 好 者 更 好 地 使 用 软 件 , 我 们 在 经 过 两 年 的 筹 备 后 向 市 场 推 出 了SPSS 统 计 分 析 大 型 丛 书 。 该 丛 书 是 一 套 全 面 了 解 、 认 识 和 应 用 SPSS 最 新 统 计 分 析 软 件 、 掌 握 统计 分 析 方 法 的 专 业 书 籍 ; 以 统 计 分 析 在 国 内 的 应 用 现 状 为 切 入 点 , 本 着 学 以 致 用 的 原 则 , 在 介 绍统 计 理 论 及 SPSS软 件 功 能 模 块 的 同 时 , 更 侧 重 于 统 计 分 析 在 各 项 工 作 中 的 实 际 应 用 , 引 导 读 者不 仅 掌 握 SPSS 软 件 及 技 术 原 理 , 而 且 学 会 运 用 统 计 方 法 解 决 工 作 和 学 习 中 的 实 际 问 题 。该 丛 书 由 业 内 权 威 专 家 主 笔 编 写 , 资 料 引 用 详 实 可 靠 , 实 例 剖 析 切 中 肯 柴 , 不 仅 融 合 了 行 业专 家 在 统 计 应 用 领 域 多 年 的 研 究 成 果 , 而 且 还 融 入 了 很 多 SPSS软 件 新 老 行 业 用 户 的 实 际 应 用 经验 。 丛 书 总 结 了 SPSS 软 件 在 各 行 业 的 实 践 应 用 状 况 , 并 综 合 SPSS 最 新 行 业 应 用 方 案 , 使 各 行 业读 者 能 通 过 学 习 提 高 SPSS公 司 和 博 塔 ( 中 国 ) 有 限 公 司 (SPSS软 件 的 运 用 能 力 , 解 决 工 作 中 的 实 际 问 题 。 在 丛 书 编 写 过 程 中 , SPSS中 国 地 区 分 销 商 ) 的 技 术 专 家 还 及 时 提 供 了 国 际 最 新 的 行 业发 展 信 息 和 SPSS 最 新 产 品 和 技 术 信 息 , 并 结 合 仰 " 的 全 球 应 用 状 况 提 出 了 宝 贵 意 见 。((SPSS丛 书 将 分 期 分 批 出 版 相 应 的 分 册 , 其 中 首 批 面 世 的 为 通 用 教 材 ((SPSS 统 计 分 析 基 础 教 程 》、统 计 分 析 高 级 教 程 )) , 均 由 复 旦 大 学 张 文 彤 老 师 主 编 , 全 国 多 所 高 校 的 统 计 教 师 和 统 计 专业 人 士 参 编 。 张 文 彤 老 师 长 期 以 来 一 直 致 力 于 积 极 推 进 统 计 分 析 工 具 在 国 内 的 普 及 应 用 , 他 在2 却 00ω2 年 编 著 的 《ωSPSSll 统 计 分 析 教 程 》 基 础 篇 和 高 级 篇 因 内 容 翔 实 、 风 格 独 特 , 受 到 了 广 大 读 者的 热 烈 欢 迎 , 并 被 多 所 高 校 列 为 本 科 生 或 研 究 生 教 材 , 其 中 基 础 篇 一 书 己 通 过 教 育 部 评 审 , 成 为2 却 00ω3-2 却 00ω4 年 度 教 育 部 研 究 生 工 作 办 公 室 推 荐 的 " 研 究 生 教 学 用 书经 验 , 而 且 熟 谙 统 计 分 析 产 品 , 本 次 全 新 编 写 的 这 两 册 教 材 分 别 针 对 不 同 读 者 群 , 由 浅 入 深 、 结 合实 际 应 用 全 面 介 绍 了 SPSS 产 品 和 应 用 。 全 书 实 例 引 用 突 出 , 分 析 讲 解 透 彻 , 读 者 可 由 本 书 管 窥E• E且-


全 套 丛 书 " 应 用 为 本 " 的 特 色 。显 然 , 上 述 两 本 书 还 不 能 完 全 覆 盖 SPSS的 所 有 应 用 领 域 , 因 此 , 本 套 书 从 现 在 还 有 数 本 分 册正 在 组 织 编 写 中 , 包 括 全 新 的 行 业 应 用 分 册 。 这 里 我 们 也 热 忱 邀 请 各 行 各 业 的 SPSS 资 深 用 户 ,以 及 各 高 校 的 统 计 教 师 加 入 到 本 套 丛 书 的 编 写 工 作 中 来 , 以 共 同 推 动 我 国 各 行 业 统 计 应 用 水 平的 迅 速 提 高 。希 望 本 套 丛 书 能 够 让 读 者 更 清 晰 地 了 解 统 计 分 析 , 从 而 进 一 步 促 进 统 计 分 析 在 国 内 的 普 及 。为 便 于 读 者 交 流 和 使 用 本 套 丛 书 , 这 里 特 公 布 相 关 网 址 如 下 :SPSS最 新 版 本 的 全 模 块 试 用 版 下 载 : www.spssbj.com.cn丛 书 相 关 案 例 数 据 下 载 : www.spssbj.com.cn 、 www.MedStatStar.com读 者 答 疑 、 经 验 交 流 :www. 叩 ssclub. com 、 www.StatSta r. com博 塔 ( 中 国 ) 有 限 公 司 SPSS丛 书 编 委 会• HH -


日 录第 一 部 分一 般 线 性 与 混 合 线 性 模 型第 1 章 方 差 分 析 模 型 .1. 1 模 型 简 介1. 1. 1 模 型 入 门 ……·1. 1. 2 常 用 术 语 ........…................ 51. 1. 3 方 差 分 析 模 型 的 适 用条 件 ….............................. 71. 2 简 单 分 析 实 例 ·1. 2. 1 模 型 表 达 式 ........................ 81. 2. 2 初 步 分 析 结 果 ..................... 81. 2. 3 模 型 参 数 的 估 计 值 …......... 101. 2. 4 两 两 比 较 ........................... 121. 2. 5 其 他 常 用 选 项 ..............… .131. 3 两 因 素 方 差 分 析 模 型 …............... 141. 3. 1 分 析 实 例 ........................... 141. 3. 2 边 际 均 数 与 轮 廓 图 ........…. 171. 3. 3 拟 和 劣 度 检 验 …............... 191. 4 因 素 各 水 平 间 的 精 细 比 较 …......... 201. 4. 1 POSTHOC 子 句 …............... 201.4.2 EMMEANS 子 句 ............... 201. 4. 3 LMATRIX 和 KMATRIX子 句 ....................….......... 221. 4. 4 CONSTRAST 子 句 …......... 241. 5 随 机 因 素 的 方 差 分 析 模 型 …......... 241. 6 其 他 问 题 .................................... 251. 6. 1 自 定 义 效 应 检 验 使 用 的误 差 项 …..............….......... 251. 6. 2 4 类 方 差 分 解 方 法 …......... 27思 考 与 练 习 …..........................….......... 27参 考 文 献 ............................................. 27第 2 章 常 用 实 验 设 计 分 析 方 法 …......... 282.1 仅 研 究 主 效 应 的 实 验 设 计 方 案 …… 282. 1. 1 完 全 随 机 设 计 …............... 292. 1. 2 配 伍 组 设 计 ..................... 292. 1. 3 交 叉 设 计 …........................ 302. 1. 4 拉 丁 方 设 计 ..................... 322.2 考 虑 交 互 作 用 的 实 验 设 计 方 案 …… 342.2.1 析 因 设 计 ........…................ 342.2.2 正 交 设 计 ........…................ 372.2.3 均 匀 设 计 ........…................ 392.3 误 差 项 变 动 的 特 殊 实 验 设 计方 案 …....................................... 402.3.1 嵌 套 设 计 ........…................ 402.3.2 重 复 测 量 设 计 .................. 422.3.3 裂 区 设 计 ........…................ 422.4 协 方 差 分 析 ................................. 432.4.1 协 方 差 分 析 的 必 要 性 ......... 432.4.2 平 行 性 假 定 的 检 验 ........…. 452.4.3 计 算 和 检 验 修 正 均 数 ......... 46思 考 与 练 习 ................................……·… 48参 考 文 献 ............................................. 49第 3 章 多 元 方 差 分 析 与 重 复 测 量 方 差 分 析..... 503. 1 多 元 方 差 分 析 .............................. 503. 1. 1 模 型 简 介 ........…................ 503. 1. 2 分 析 实 例 …·3. 1. 3 检 验 统 计 量 的 计 算 …......... 533. 1. 4 对 引 例 的 进 一 步 分 析 ......... 563.2 重 复 测 量 资 料 的 方 差 分 析 ........…. 573.2.1 模 型 简 介 ........…................ 573.2.2 分 析 实 例 ........…................ 59思 考 与 练 习 …................................……. 65参 考 文 献 ............................................. 65E• E -且


第 4 章 混 合 线 性 模 型 入 门 …..............…. 664.1 模 型 简 介 .........4. 1. 1 问 题 的 提 出 …..............…. 664. 1. 2 模 型 入 门 .......................…. 674.2 层 次 聚 集 性 数 据 分 析 实 例 …......... 694.2.1 拟 合 混 合 线 性 模 型 的基 本 结 构 ........................... 704.2.2 在 固 定 效 应 中 加 入自 变 量 ….......................… .724.2.3 在 随 机 效 应 中 加 入自 变 量 …..............….......... 744.2.4 更 多 解 释 变 量 的 引 入 ......... 754.2.5 其 他 常 用 选 项 …............... 774.3 重 复 测 量 数 据 分 析 实 例 ............... 774.3.2 拟 合 混 合 线 性 模 型 的 基 本结 构 ................................. 794.3.3 考 虑 重 复 测 量 间 的相 关 性 .............................. 824.3.4 更 改 对 测 量 问 相 关 性 的假 定 ................................. 844.3.5 模 型 中 可 用 的 相 关 阵种 类 ................................. 854.4 模 型 总 结 …................................. 864.4.1 混 合 效 应 模 型 的 用 途 ......... 864.4.2 混 合 效 应 模 型 与 一 般 线 性模 型 的 联 系 ..................... 87思 考 与 练 习 …........…............................ 87参 考 文 献 ............................................. 884.3.1 对 数 据 的 初 步 分 析 …......... 78第 二 部 分 回 归 模 型第 5 章 多 重 线 性 回 归 模 型 …..............…. 915.1 模 型 简 介 .........5.2 简 单 分 析 实 例 ……....5.2.1 对 数 据 的 初 步 分 析 …......... 925.2.2 回 归 模 型 的 假 设 检 验 ......... 945.2.3 偏 回 归 系 数 的 假 设 检 验 …… 955.2.4 标 准 化 偏 回 归 系 数 ........…. 965.2.5 衡 量 多 元 线 性 回 归 模 型优 劣 的 标 准 …..............…. 965.3 回 归 预 测 与 残 差 分 析 …............... 995.3.1 回 归 预 测 与 区 间 估 计 ......... 995.3.2 残 差 分 析 与 模 型 适 用 条 件 的检 验 ...... ... ...... ...... ... ...... 1015.4 逐 步 回 归 ….............................…. 1065.4.1 筛 选 自 变 量 的 基 本 原 则 … 1065.4.2 常 用 的 逐 步 回 归 方 法 …… 1075.4.3 分 析 实 例 ......5.5 模 型 的 进 一 步 诊 断 与 修 正 ... ... ... 111• HH -5.5.1 强 影 响 点 的 识 别 与 处 理 … 1115.5.2 多 重 共 线 性 的 识 别 与处 理 …... ... ... ... ... ... ... ... 1135.6 本 章 小 结 ... ...... ...... ... ...... ...... ... ... 1155.6.1 回 归 模 型 的 建 立 步 骤 …… 1155.6.2 多 重 线 性 回 归 模 型 结 果 解 释时 应 注 意 的 问 题 ...... ...... ... 115思 考 与 练 习 ... ... ...... ...... ... ...... ...... ... ... 116参 考 文 献 ...... ... ...... ...... ... ...... ...... ... ... 117第 6 章 线 性 回 归 的 衍 生 模 型 ... ... ... ... ... 1186. 1 非 直 线 趋 势 的 处 理 曲 线直 线 化 ….................….........……. 1186. 1. 1 方 法 简 介 ........6. 1. 2 使 用 Linear 过 程 进 行分 析 ….......................…. 1186. 1. 3 使 用 曲 线 拟 合 过 程 分 析 … 1206.2 方 差 不 齐 的 处 理 加 权 最 小二 乘 法 ….................................... 1226.2.1 方 法 简 介 ....................…. 1226.2.2 使 用 Linear 过 程 进 行分 析 …..............….......... 1236.2.3 使 用 WLS 过 程 分 析 ......... 1256.3 共 线 性 的 处 理 一 一 岭 回 归 ......... 1276.3.1 方 法 简 介 …..................... 127


6.3.2 分 析 实 例 ....................…. 1286.4 分 类 变 量 的 数 值 化 一 一 最 优 尺 度回 归 ......................................…. 1306.4.1 方 法 简 介 ....................…. 1306.4.2 分 析 实 例 …..6.4.3 最 优 尺 度 方 法 的 应 用 注 意事 项 .............................. 135思 考 与 练 习 ........…............................ 136参 考 文 献 ......................................…. 136第 7 章 路 径 分 析 入 门 …........................ 1377. 1 两 阶 段 最 小 二 乘 法 …..............…. 1377. 1. 1 模 型 简 介 ....................…. 1377. 1. 2 使 用 Li 时 ar 过 程 进 行分 析 .............................. 1387. 1. 3 使 用 2SLS 过 程 进 行分 析 .............................. 1407.2 路 径 分 析 入 门 …........................ 1427.2.1 模 型 简 介 ....................…. 1427.2.2 分 析 实 例 ........................ 145思 考 与 练 习 ....................................... 148参 考 文 献 ......................................…. 148第 8 章 非 线 性 回 归 模 型 ..................... 1498. 1 模 型 简 介 ….............................…. 1498. 1. 1 问 题 的 提 出 ..................... 1498. 1. 2 模 型 入 门 ........................ 1498.2 简 单 分 析 实 例 …........................ 1508.2.1 软 件 操 作 与 界 面 说 明 …… 1508.2.2 基 本 分 析 结 果 …...... ... ...... 1518.2.3 模 型 的 进 一 步 分 析 ......... 1538.3 自 定 义 损 失 函 数 最 小 一 乘 法实 例 ......................................…. 1538.3. 1 分 析 实 例 ....................…. 1548.3.2 结 果 解 释 ........................ 1568.4 分 段 回 归 模 型 的 拟 合 …............... 1578.4.1 分 析 实 例 ....................…. 1578.4.2 结 果 解 释 ........................ 1588.4.3 模 型 的 进 一 步 分 析 ......... 1608.5 其 他 需 要 注 意 的 问 题 ..............…. 1618.5. 1 参 数 初 始 值 的 设 定 ...... ... 1618.5.2 模 型 的 拟 合 方 法 ...... ...... ... 161思 考 与 练 习 ..............…..................…. 162参 考 文 献 .......................................... 162第 9 章 二 分 类 Logistic 回 归 模 型 ......... 1639. 1 模 型 简 介 .................................... 1639. 1. 1 模 型 入 门 …..................... 1639. 1. 2 一 些 基 本 概 念 …............... 1659.2 简 单 分 析 实 例 .......................…. 1679.3 分 类 自 变 量 的 定 义 与 比 较 方 法 … 1719.3.1 使 用 哑 变 量 的 必 要 性 …… 1719.3.2 SPSS 中 预 设 的 哑 变 量 编 码方 式 ….......................…. 1739.3.3 设 置 哑 变 量 时 要 注 意 的问 题 …..............….......... 1759.4 自 变 量 的 筛 选 方 法 与 逐 步 回 归 … 1769.4.1 模 型 中 的 假 设 检 验 方 法 … 1769.4.2 自 变 量 的 筛 选 方 法 ......... 1779.4.3 分 析 实 例 …·9.5 模 型 拟 合 效 果 与 拟 合 优 度 检 验 … 1809.5.1 模 型 效 果 的 判 断 指 标 …… 1819.5.2 拟 合 优 度 检 验 …............... 1849.6 模 型 的 诊 断 与 修 正 ..................... 1869.6.1 残 差 分 析 ....................…. 1879.6.2 多 重 共 线 性 的 识 别 及 其 对 回 归系 数 的 影 响 及 处 理 办 法 …… 187思 考 与 练 习 ................................……. 187参 考 文 献 .......................................... 188第 10 章 多 分 类 、 配 对 Logistic 回 归 与Probit 回 归 ….......................…. 18910. 1 有 序 多 分 类 Logistic 回 归 模 型 … 18910. 1. 1 模 型 简 介 …..............…. 18910. 1. 2 分 析 实 例 …..............…. 19010. 1. 3 模 型 适 用 条 件 的 检 验 …… 19310.2 无 序 多 分 类 Logistic 回 归 模 型 … 19510.2.1 模 型 简 介 …..............…. 19510.2.2 分 析 实 例 …..............…. 19610.31:1 配 对 Logistic 回 归 …........…. 199皿


10.3. 1 模 型 简 介 …..............…. 199比 较 …..............….......... 20410.3.2 分 析 实 例 …..............…. 20010.4 Probit 回 归 模 型 ....................…. 20310.4.3 实 例 二 一 一 计 算 LD50. 20710.4.1 模 型 简 介 …..............…. 20310.4.2 实 例 一 一 一 与 Logistic 模 型思 考 与 练 习 …........…..................……. 209参 考 文 献 .......................................... 209第 三 部 分多 元 统 计 分 析 方 法第 11 章 主 成 分 分 析 与 因 子 分 析 ......... 21311. 1 主 成 分 分 析 .............................. 21311.1. 1 模 型 入 门 …..............…. 21311.1. 2 简 单 分 析 实 例 ............... 21611.1. 3 对 主 成 分 分 析 的 进 一 步说 明 .............................. 21811. 2 因 子 分 析 ................................. 21811. 2. 1 模 型 入 门 …..............…. 21811. 2. 2 简 单 分 析 实 例 ............... 22011. 3 因 子 分 析 的 进 一 步 讨 论 …......... 22611. 3. 1 不 同 的 因 子 分 析 法 ......... 22611. 3. 2 相 关 阵 和 协 方 差 …......... 22711. 3. 3 确 定 公 因 子 数 量 ........…. 22711. 4 因 子 分 析 综 合 案 例 …............... 22711. 5 主 成 分 分 析 和 因 子 分 析 的比 较 ...................................…. 233思 考 与 练 习 ….................….........……. 234参 考 文 献 ......................................…. 234第 12 章 聚 类 分 析 .............................. 23512. 1 模 型 简 介 ................................. 23512. 1. 1 问 题 的 提 出 …............... 23512. 1. 2 聚 类 分 析 入 门 …........…. 23612. 1. 3 聚 类 分 析 的 方 法 体 系 …… 23712.2 层 次 聚 类 法 .............................. 23812.2.1 方 法 原 理 ..................... 23812.2.2 分 析 实 例 …..............…. 23912.2.3 对 层 次 聚 类 法 的 进 一 步讨 论 .............................. 24612.3 K 一 均 值 聚 类 法 ....................…. 24712.3. 1 方 法 原 理 ..................... 24712.3.2 分 析 实 例 …..............…. 24812.4 两 步 聚 类 法 简 介 ..................... 25212.4.1 方 法 原 理 …..............…. 25212.4.2 分 析 实 例 …..............…. 25312.5 本 章 方 法 小 结 .......................…. 258思 考 与 练 习 ........…............................ 260参 考 文 献 .......................................... 260第 13 章 判 别 分 析 …..............….......... 26113.1 模 型 简 介 ........…...................... 26113. 1. 1 典 型 判 别 分 析 的 基 本原 理 ….......................…. 26113. 1. 2 判 别 分 析 的 适 用 条 件 和违 背 条 件 时 的 处 理 方 法 ....13. 1. 3 判 别 效 果 的 评 价 …......... 26313. 1. 4 判 别 分 析 的 一 般 步 骤 …… 26413.2 简 单 分 析 实 例 .......................…. 26513.2.1 软 件 操 作 与 界 面 说 明 …… 26513.2.2 基 本 分 析 结 果 ............... 26613.2.3 判 别 结 果 的 图 形 化展 示 …·13.2.4 判 别 效 果 的 验 证 ........… .27113.2.5 适 用 条 件 的 判 断 方 法 …… 27213.3 贝 叶 斯 判 别 分 析 …..............…. 27313.3.1 方 法 原 理 …..............…. 27413.3.2 软 件 实 现 …..............…. 27513.4 对 判 别 分 析 的 进 一 步 讨 论 ......... 27613.4.1 逐 步 判 别 分 析 …........…. 27613.4.2 判 别 分 析 和 因 子 分 析 的相 似 性 和 差 异 ............... 27613.4.3 二 类 判 别 和 多 重 回 归 的等 价 性 .......................…. 276• N •


思 考 与 练 习 ..............….........….......... 277参 考 文 献 ......................................…. 277第 14 章 典 型 相 关 分 析 ....................…. 27814. 1 方 法 介 绍 ................................. 27814. 1. 1 典 型 相 关 分 析 的 基 本思 想 .............................. 27814. 1. 2 典 型 相 关 分 析 的 数 学描 述 .............................. 27914.2 分 析 实 例 ................................. 28014.2.1 两 组 变 量 间 的 相 关系 数 .............................. 28114.2.2 典 型 相 关 系 数 及 显 著 性15.4.2 分 析 实 例 …..............…. 30415.5 对 应 分 析 中 的 其 他 问 题 ........…. 30815.5. 1 对 应 分 析 结 果 的 正 确解 释 ….......................…. 30815.5.2 罕 见 类 别 和 相 似 类 别 的处 理 ….......................…. 30815.5.3 有 序 类 别 的 处 理 …......... 30915.6 本 章 方 法 小 结 ........…·15.6. 1 对 应 分 析 与 其 他 分 析 方 法 的关 系 …..............….......... 30915.6.2 对 应 分 析 的 优 势 与劣 势 ….......................…. 311检 验 .............................. 282 思 考 与 练 习 …... ... ... ... ... ... ... ... ... ... ... ... 31114.2.3 典 型 变 量 的 系 数 …......... 283 参 考 文 献 .......................................... 31214.2.4 典 型 结 构 分 析 ............... 284 第 16 章 多 维 尺 度 分 析 …... ...... ... ...... ... 31314.2.5 典 型 冗 余 分 析 ............... 28614.3 小 结 ...................................…. 28814.3. 1 典 型 相 关 分 析 的 应 用 …… 28814.3.2 典 型 相 关 分 析 和 因 子分 析 .............................. 288思 考 与 练 习 …........…......................... 289参 考 文 献 ......................................…. 289第 15 章 对 应 分 析 .............................. 29015. 1 模 型 简 介 ................................. 29015. 1. 1 问 题 的 提 出 …............... 29015. 1. 2 模 型 入 门 ..................... 29015. 1. 3 SPSS 中 的 相 应 功 能 …… 29115.2 简 单 分 析 实 例 …........................ 29115.2. 1 对 数 据 的 初 步 分 析 ......... 29215.2.2 正 式 分 析 ..................... 29315.2.3 对 引 例 的 进 一 步 分 析 …… 29715.3 基 于 均 数 的 对 应 分 析 …........…. 29915.3. 1 方 法 原 理 …..............…. 30015.3.2 分 析 实 例 ..................... 30115.4 多 重 对 应 分 析 …........................ 30416. 1 古 典 MDS 模 型 …... ...... ... ...... ... 31316. 1. 1 方 法 原 理 …..............…. 31316. 1. 2 分 析 实 例 …..............…. 31416. 1. 3 距 离 的 计 算 方 式 …......... 32016.2 非 度 量 MDS 模 型 …..............…. 32116.2. 1 数 据 测 量 尺 度 的 设 定 …… 32116.2.2 方 法 原 理 …..............…. 32216.2.3 分 析 实 例 …..............…. 32316.3 考 虑 个 体 差 异 的 MDS 模 型 …… 32516.3. 1 方 法 原 理 …..............…. 32516.3.2 分 析 实 例 …..............…. 32616.3.3 空 间 定 位 图 的 含 义解 释 ….......................…. 32916.4 基 于 最 优 尺 度 变 换 的 MDS模 型 ...... ... ...... ...... ... ...... ...... ... ... 33116.4.1 方 法 简 介16.4.2 分 析 实 例 …..............…. 33416.5 本 章 方 法 小 结 ...........................思 考 与 练 习 ..............….........….......... 337参 考 文 献 .......................................... 33715.4. 1 方 法 原 理 ..................... 304· v ·


第 四 部 分其 他 统 计 分 析 方 法第 17章 对 数 线 性 模 型 与 Poisson回 归 ….................….........……. 34118.2.3 对 真 分 数 理 论 假 设 的考 察 …..............….......... 36817.1 对 数 线 性 模 型 简 介 …............... 34117. 1. 1 问 题 的 提 出 …............... 34117. 1. 2 模 型 入 门 ..................... 34117. 1. 3 SPSS 的 相 应 功 能 ........…. 34217.2 一 般 对 数 线 性 模 型 分 析 实 例 …… 34317.2.1 对 数 据 的 初 步 分 析 ......... 34317.2.2 正 式 分 析 …..............…. 34417.2.3 对 引 例 的 进 一 步 分 析 …… 34717.3 因 果 关 系 明 确 时 的 对 数 线 性模 型 ...................................…. 34917.4 对 数 线 性 模 型 的 选 择 …........…. 35217.4.1 模 型 的 选 择 策 略 …......... 35217.4.2 分 析 实 例 …..............…. 35217.5 对 数 线 性 模 型 与 其 他 模 型 的关 系 ...................................…. 35917.5.1 对 数 线 性 模 型 与 方 差 分 析模 型 的 关 系 …............... 35917.5.2 对 数 线 性 模 型 与 Logistic回 归 的 关 系 …............... 35917. 6 Poisson 回 归 模 型 …..............…. 35917.6.1 模 型 简 介 …..............…. 35917.6.2 分 析 实 例 ..................... 360思 考 与 练 习 .........….......................…. 361参 考 文 献 ......................................…. 362第 18 章 信 度 分 析 .............................. 36318. 1 信 度 理 论 入 门 …·18. 1. 1 真 分 数 测 量 理 论 …......... 36318. 1. 2 信 度 与 效 度 …............... 36418. 1. 3 内 在 信 度 与 外 在 信 度 …… 36418. 1. 4 信 度 的 判 断 标 准 …......... 36418.2 简 单 分 析 实 例 …........................ 36518. 2. 1 Alpha 信 度 系 数 …......... 36518.2.2 对 各 题 目 的 深 入分 析 .............................. 36618.3 其 余 常 用 的 信 度 系 数 …........…. 36918.3. 1 重 测 信 度 ..................... 36918.3.2 折 半 信 度 …..............…. 37018.3.3 Guttman 系 数 …............... 37118.3.4 平 行 模 型 的 信 度 系 数 …… 37118.3.5 严 格 平 行 模 型 的 信 度系 数 ….......................…. 37218.3.6 评 分 者 信 度 …............... 37318.3.7 信 度 系 数 总 结 ............... 37418.4 信 度 理 论 进 阶 ........................... 37518.4. 1 真 分 数 测 量 理 论 的缺 限 …..............….......... 37518.4.2 概 化 理 论 入 门 …........…. 37518.4.3 SPSS 中 相 应 的 分 析功 能 ..........思 考 与 练 习 ..............….........….......... 378参 考 文 献 .......................................... 378第 19 章 生 存 分 析 …..............….......... 37919. 1 生 存 分 析 简 介 .......................…. 37919. 1. 1 生 存 分 析 简 史 …........…. 37919. 1. 2 生 存 分 析 中 的 基 本概 念 ….......................…. 38019. 1. 3 生 存 分 析 的 基 本 步 骤 …… 38319. 1. 4 SPSS 与 生 存 分 析 ........…. 38319.2 生 存 函 数 的 估 计 和 检 验 ........…. 38419.2. 1 生 存 函 数 的 基 本 估 计方 法 ….......................…. 38419.2.2 Kaplan - Meier 法 ………… 38519.2.3 寿 命 表 法 …..............…. 39119.2.4 Kaplan - Meier 法 和 寿 命表 法 比 较 ..................... 39419.3 Cox 回 归 模 型 .......................…. 39519.3.1 Cox 模 型 入 门 …........…. 39519.3.2 分 析 实 例 …..............…. 396• VI •


19.3.3 比 例 风 险 性 的 图 形验 证 .............................. 39919.4 含 时 间 依 存 性 变 量 的 Cox模 型 ...................................…. 40019.4.1 时 依 协 变 量 的 种 类 ......... 40019.4.2 用 时 依 模 型 验 证 比 例风 险 性 …........................ 40119.4.3 用 时 依 模 型 评 价 处 理 因 素 的影 响 .............................. 40219.4.4 用 时 依 模 型 评 价 重 复 测 量因 子 的 影 响 …............... 40319.5 关 于 Cox 模 型 的 一 些 高 级话 题 ...................................…. 40419.5. 1 生 存 分 析 中 的 分 层变 量 .............................. 40419.5.2 用 Cox 回 归 过 程 拟 合 配 伍Logistic 回 归 …............... 40519.5.3 竞 争 风 险 的 Cox 模 型 …… 406思 考 与 练 习 ..............…..................…. 407参 考 文 献 ......................................…. 407第 20 章 缺 失 值 分 析 入 门 …..............…. 40820. 1 缺 失 值 理 论 简 介 …..............…. 40820. 1. 1 数 据 的 缺 失 机 制 …......... 40820. 1. 2 SPSS 中 对 缺 失 值 的 处 理方 法 ….......................…. 40920.2 对 缺 失 情 况 的 基 本 分 析 …......... 41020.2.1 缺 失 值 数 据 的 生 成 ......... 41020.2.2 对 缺 失 模 式 的 分 析 ...... ... 41120.2.3 缺 失 情 况 的 统 计描 述 ….......................…. 41420.3 缺 失 值 填 充 技 术 …..............…. 41520.3.1 列 表 输 出 …..............…. 41620.3.2 使 用 回 归 算 法 进 行填 充 ….......................…. 41720.3.3 使 用 EM 算 法 进 行填 充 …..............….......... 41920.3.4 多 重 填 充 技 术 简 介 ......... 421思 考 与 练 习 …................................…. 422参 考 文 献 .......................................... 422附 录 ……………………………………………… 424• vn •


第 1章 方 差 分 析 模 型在 本 系 列 丛 书 的 基 础 教 程 中 , 大 家 己 经 详 细 学 习 了 SPSS 软 件 的 基 本 操 作 、 图 表 绘 制 方 法 、 统计 描 述 技 术 和 单 因 素 统 计 分 析 方 法 。 但 是 , 在 许 多 实 际 问 题 中 , 仅 仅 依 靠 统 计 描 述 或 者 简 单 的 统计 推 断 方 法 是 不 够 的 , 现 实 世 界 中 变 量 间 的 联 系 错 综 复 杂 , 往 往 要 同 时 考 虑 多 个 因 素 的 作 用 ,并 为 之 建 立 多 变 量 模 型 。 而 本 章 将 要 介 绍 的 方 差 分 析 模 型 就 是 多 变 量 模 型 中 最 为 基 础 和 常 用 的一 种 。1 . 1 模 型 简 介在 许 多 情 况 下 , 都 需 要 同 时 研 究 多 个 因 素 对 因 变 量 的 影 响 情 况 , 比 如 要 研 究 性 别 对 身 高 的 影响 , 显 然 就 要 考 虑 到 年 龄 、 遗 传 、 营 养 状 况 等 因 素 的 作 用 。 这 时 单 因 素 分 析 方 法 是 无 能 为 力 的 , 而以 方 差 分 析 为 代 表 的 多 因 素 分 析 方 法 可 以 在 控 制 其 他 因 素 影 响 的 同 时 研 究 两 者 之 间 的 关 系 , 因此 , 分 析 的 效 率 更 高 , 适 用 的 范 围 更 广 。同 时 , 许 多 时 候 各 自 变 量 之 间 还 会 存 在 交 互 作 用 , 如 研 究 催 化 剂 对 化 学 反 应 的 催 化 能 力 , 如果 该 催 化 剂 只 在 某 个 温 度 范 围 内 效 果 最 佳 , 则 只 单 独 研 究 该 催 化 剂 的 催 化 作 用 是 没 有 实 际 意 义的 , 此 时 这 种 交 互 作 用 也 成 为 了 研 究 的 重 点 , 即 必 须 要 研 究 在 什 么 温 度 条 件 下 该 催 化 剂 的 催 化 能力 最 佳 。 对 交 互 作 用 的 分 析 也 是 方 差 分 析 模 型 的 特 长 。1.1. 1 模 型 入 门在 基 础 教 程 中 , 己 经 学 习 了 单 因 素 方 差 分 析 方 法 , 并 从 中 了 解 到 方 差 分 析 的 基 本 思 想 是 变 异分 解 即 根 据 资 料 类 型 以 及 研 究 目 的 , 将 样 本 的 总 变 异 分 解 为 若 干 个 部 分 , 除 有 一 部 分 代 表 随 机 误差 的 作 用 外 , 其 余 每 个 部 分 的 变 异 分 别 代 表 了 某 个 影 响 因 素 的 作 用 ( 或 交 互 作 用 ) , 通 过 比 较 可能 由 某 因 素 所 致 的 变 异 与 随 机 误 差 的 大 小 , 借 助 F 分 布 做 出 推 断 , 即 可 了 解 该 因 素 对 结 果 变 量的 影 响 是 否 存 在 。 在 多 因 素 方 差 分 析 模 型 中 , 其 方 法 原 理 没 有 任 何 的 变 化 , 只 是 模 型 中 考 虑 的 因素 更 多 而 己 。1. 单 因 素 方 差 分 析 模 型 的 结 构为 了 让 读 者 能 够 对 方 差 分 析 模 型 有 更 为 清 楚 的 了 解 , 下 面 以 一 个 虚 拟 的 例 子 来 引 入 模 型 的基 本 结 构 , 假 设 现 在 希 望 比 较 三 种 职 业 的 月 收 入 有 无 差 异 , 这 三 类 职 业 分 别 是 医 生 、 律 师 和 软 件工 程 师 。 那 么 最 简 单 的 做 法 就 是 在 这 三 类 人 群 中 都 进 行 随 机 抽 样 , 各 自 得 到 一 组 受 访 者 , 收 集 它们 的 月 收 入 状 况 , 然 后 进 行 检 验 。 则 在 此 问 题 中 , 每 一 位 受 访 者 月 收 入 的 平 均 估 计 值 Yij 可 以 被表 达 为 如 下 形 式 :• 3 •


Yij μ i + E: iJ其 中 Yij 代 表 第 i 个 职 业 组 中 第 j 位 受 访 者 的 具 体 收 入 。 显 然 , 在 此 表 达 式 中 μz 表 示 某 一 个 职 业组 的 平 均 收 入 , [ 的 取 值 范 围 为 1 ~ 3 , 分 别 代 表 三 种 职 业 之 一 ; 而 引 表 示 第 i 组 的 第 j 位 受 访 者 的随 机 误 差 , 反 映 的 是 因 各 种 原 因 导 致 的 该 受 访 者 月 收 入 和 该 职 业 平 均 收 入 间 的 差 异 。 下 面 来 看模 型 中 对 町 的 设 定 , 模 型 中 假 设 各 组 的 E: ij 服 从 同 一 个 正 态 分 布 , 即 无 论 i 取 { 直 是 多 少 , E: ij 均 服 从同 一 个 均 数 为 0 , 标 准 差 为 某 个 定 值 的 正 态 分 布 N (0 , σ2) 。 这 样 一 来 , 如 果 三 种 职 业 收 入 无 差异 , 则 它 就 应 当 等 于 总 体 均 数 ( 平 均 水 平 ) 再 加 上 一 个 随 机 误 差 项 , 实 际 上 就 变 成 了 同 一 个 变 量的 分 布 N~ , 扩 )。 为 了 能 够 对 收 入 水 平 进 行 预 测 , 人 们 又 规 定 E (y) = 酌 , 即 第 i 组 个 体 的 收 入估 计 值 等 于 该 组 的 平 均 水 平 , 结 合 模 型 结 构 , 这 应 当 不 难 理 解 。 实 际 上 , 如 果 对 应 样 本 数 据 , 该 预测 值 就 是 各 组 的 样 本 均 数 。为 了 统 计 推 断 的 需 要 , 以 上 模 型 往 往 被 改 写 成 如 下 形 式 : Yij μ+α + 町 , 其 中 μ 表 示 不 考 虑职 业 时 收 入 总 的 平 均 水 平 ;α 表 示 职 业 为 i 类 时 的 附 加 效 应 , 即 在 i 职 业 时 平 均 收 入 水 平 的 改 变情 况 。 例 如 α= 1 000 , 表 明 当 职 业 为 i 类 时 , 平 均 收 入 要 比 总 的 平 均 水 平 高 1 000 元 。 如 果 职 业1 和 职 业 3 的 平 均 收 入 不 相 等 , 则 应 当 有 αl 手 α3 0 反 之 , 如 果 三 种 职 业 的 平 均 收 入 无 差 异 , 则 因为 各 类 均 不 存 在 附 加 效 应 , 应 当 有 αα2α3 = 0 。 因 此 , 如 果 要 检 验 职 业 种 类 是 否 对 收 入 有 影响 , 就 是 检 验 如 下 假 设 :Ho: 对 任 意 的 i 取 值 , 都 有 α i =0 , H 1 : 至 少 有 一 个 叫 手 。在 基 础 篇 中 , 己 经 学 习 了 方 差 分 析 的 基 本 思 想 是 变 异 分 解 , 例 如 在 单 因 素 方 差 分 析 中 总变 异 被 分 解 为 如 下 两 部 分 : 总 变 异 = 处 理 因 素 导 致 的 变 异 + 随 机 变 异 。 现 在 对 照 上 述 模 型 表达 式 , 大 家 就 会 发 现 实 际 上 α 就 对 应 了 所 谓 处 理 因 素 导 致 的 变 异 , 而 引 就 对 应 了 相 应 的 随 机变 异 。但 是 , μ 、 αz 等 显 然 应 当 是 一 个 相 对 的 大 小 , 例 如 职 业 1 比 职 业 3 的 平 均 收 入 高 1000 元 , 则 当α3 为 500 时 , αl 就 应 当 是 1 500 。 α3 为 100 时 , αl 就 应 当 是 1 100 , 总 之 加 上 1 000 即 可 。 为 了 能 够在 实 际 问 题 中 得 到 对 μ 、 αz 具 体 的 估 计 值 , 模 型 拟 合 中 又 会 对 它 们 有 一 些 附 加 的 设 定 , 这 被 称 为模 型 拟 合 时 的 约 束 条 件 , 详 细 介 绍 见 后 面 有 关 章 节 。2. 两 因 素 方 差 分 析 模 型 的 结 构下 面 开 始 对 单 因 素 模 型 进 行 扩 展 。 同 样 是 上 面 的 问 题 , 有 研 究 人 员 提 出 : 性 别 应 当 也 对 收 入水 平 有 影 响 , 也 许 正 是 因 为 1 组 中 男 性 比 例 要 高 于 2 组 , 才 导 致 1 组 的 收 入 均 数 高 于 后 者 , 因 此 ,应 考 虑 控 制 性 别 的 作 用 。 如 果 要 同 时 考 虑 性 别 和 职 业 对 收 入 的 影 响 , 则 建 立 的 基 本 模 型 如 下 :yqk=μ+α i+ β:j该 模 型 对 应 了 如 下 变 异 分 解 方 式 :总 变 异 = 职 业 导 致 的 变 异 + 性 别 导 致 的 变 异 + 随 机 变 异基 本 模 型 中 矶 、 乱 分 别 表 示 职 业 为 i 类 、 性 别 为 j 类 时 的 附 加 效 应 ,E: ijk{ 乃 为 服 从 某 个 正 态 分 布的 随 机 误 差 变 量 。 此 时 如 果 要 说 明 职 业 种 类 对 收 入 有 无 影 响 , 就 是 检 验 如 下 假 设 :Ho: α i =0 , H 1 : 至 少 有 一 个 叫 手 。此 时 性 别 的 影 响 因 被 包 含 在 了 践 中 , 从 而 不 会 影 响 对 职 业 的 检 验 。如 果 要 说 明 因 素 B( 职 业 ) 有 无 影 响 , 就 是 检 验 如 下 假 设 :+ E: ijk• 4 •


Ho: 向 =Ü , H]: 至 少 有 一 个 βj 手 。此 时 职 业 的 影 响 因 被 包 含 在 了 α 中 , 从 而 也 不 会 影 响 到 对 性 别 差 异 的 检 验 。 在 本 模 型 中 ,模 型 无 显 著 性 应 当 是 指 上 面 两 个 H。 同 时 成 立 ( 均 不 能 被 拒 绝 ) , 而 不 是 说 只 有 其 中 的 一 个 成 立 。但 是 , 以 上 模 型 并 非 两 因 素 模 型 的 完 整 形 式 , 考 虑 如 下 的 情 形 : 也 许 在 某 些 职 业 中 , 男 、 女 性的 收 入 没 有 差 异 , 而 在 如 足 球 运 动 员 等 职 业 中 , 不 同 性 别 的 收 入 是 有 差 别 的 , 即 4 因 素 是 否 有 作用 需 要 看 B 因 素 的 具 体 取 值 而 定 , 这 种 情 况 在 统 计 中 被 称 为 两 个 因 素 存 在 交 互 作 用 , 此 时 需 要在 模 型 中 加 入 交 互 项 , 具 体 如 下 :yqk=μ+α+β~ +γzj+E 价其 中 矶 、βj 分 别 表 示 4 因 素 i 水 平 和 B 因 素 j 水 平 的 附 加 效 应 。 γ 'J 则 代 表 4 在 i 水 平 , B 在 j 水 平时 两 者 的 交 互 效 应 , 在 有 的 模 型 表 达 式 中 也 可 能 被 写 为 (αβ) 可 , 含 义 相 同 。当 然 , 聪 明 的 读 者 朋 友 们 还 可 以 想 到 更 多 的 影 响 因 素 , 如 学 历 等 级 、 工 作 年 限 , 甚 至 血 型 、 民族 等 , 那 么 , 只 要 依 次 将 相 应 的 效 应 项 ( 及 其 交 互 作 用 项 ) 加 入 模 型 表 达 式 即 可 , 这 里 不 再 详 述 。3. 模 型 中 效 应 的 检 验下 面 要 关 心 的 问 题 是 : 如 何 实 现 对 每 个 因 素 作 用 的 检 验 ? 简 单 地 说 , 根 据 上 面 的 变 异 分 解式 , 可 以 将 总 的 样 本 离 均 差 平 方 和 分 解 成 如 上 这 些 部 分 , 随 后 各 个 离 均 差 平 方 和 除 以 自 由 度 可 得到 均 方 , 进 而 将 各 效 应 的 均 方 和 误 差 均 方 相 比 较 , 就 得 到 了 F 统 计 量 。 写 成 公 式 如 下 :55 总 =55 因 素 ] +55 因 素 2 +… +55 误 差M5 因 素 ] =55 因 素 ]/DF 因 素 M5 误 差 =55 误 差 /DF 误 差F 因 素 ] =M5 因 素 ]/M5 误 差借 助 F 分 布 , 计 算 在 Ho 成 立 的 情 况 下 得 到 当 前 这 样 大 ( 以 及 更 大 ) 的 F 值 的 概 率 有 多 小 , 从而 做 出 推 断 , 即 可 了 解 该 因 素 对 结 果 变 量 的 影 响 是 否 的 确 存 在 。 可 能 有 的 朋 友 对 这 一 部 分 计 算不 太 理 解 其 含 义 , 但 问 题 不 大 , 大 家 只 要 记 住 方 差 分 析 的 原 理 是 变 异 分 解 , 而 相 应 的 模 型 表 达 式完 全 能 够 和 变 异 的 具 体 分 解 相 对 应 即 可 , 其 余 的 运 算 只 是 为 了 求 得 P 值 ( 即 Sig.结 论 而 己 。值 ) 以 做 出 统 计1.1. 2 常 用 术 语在 了 解 了 方 差 分 析 模 型 的 基 本 结 构 后 , 现 在 来 学 习 一 下 方 差 分 析 中 的 常 用 术 语 。1. 因 素 (Factor) 与 水 平 (LeveD因 素 也 被 称 为 因 子 , 就 是 指 可 能 对 因 变 量 有 影 响 的 分 类 变 量 , 而 分 类 变 量 的 不 同 取 值 等 级( 类 别 ) 就 被 称 为 水 平 。 显 然 , 一 个 进 入 分 析 的 因 素 会 有 不 止 一 个 水 平 , 例 如 性 别 有 男 、 女 两 个 水平 , 而 分 析 目 的 就 是 考 察 或 比 较 各 个 水 平 对 应 变 量 的 影 响 是 否 相 同 。 在 方 差 分 析 中 , 因 素 的 取 值范 围 不 能 无 限 , 只 能 有 若 干 个 水 平 , 但 需 要 注 意 的 是 有 时 候 水 平 是 人 为 划 分 出 来 的 , 比 如 身 高 被分 为 高 、 中 、 低 三 个 水 平 。2. 单 元 (Ce lD单 元 也 被 称 为 水 平 组 合 , 或 者 单 元 格 , 指 各 因 素 各 个 水 平 的 组 合 , 例 如 在 研 究 性 别 ( 二 水平 )、 血 型 ( 四 水 平 ) 对 成 年 人 身 高 的 影 响 时 , 最 多 可 以 有 2 x4 = 8 个 单 元 。 注 意 在 一 些 特 殊 的 试验 设 计 中 , 可 能 有 的 单 元 在 样 本 中 并 不 会 出 现 , 如 拉 丁 方 设 计 。• 5 •


3. 元 素 CElement)元 素 指 用 于 测 量 因 变 量 值 的 最 小 单 位 , 比 如 研 究 在 土 文 所 提 到 的 收 入 的 例 子 中 , 元 素 就 是 每一 位 受 访 者 。 而 在 配 伍 设 计 等 重 复 测 量 问 题 中 , 元 素 可 能 是 受 试 者 每 一 次 具 体 的 测 量 。 根 据 具体 的 实 验 设 计 , 一 个 单 元 格 内 可 以 有 多 个 元 素 , 也 可 以 只 有 一 个 , 甚 至 没 有 元 素 。4. 均 衡 CBalance)如 果 在 一 个 实 验 设 计 中 任 一 因 素 各 水 平 在 所 有 单 元 格 中 出 现 的 次 数 相 同 , 且 每 个 单 元 格 内的 元 素 数 均 相 同 , 则 该 试 验 是 均 衡 的 ; 否 则 , 就 被 称 为 不 均 衡 。 不 均 衡 的 实 验 设 计 在 分 析 时 较 为复 杂 , 需 要 对 方 差 分 析 模 型 作 特 别 设 置 才 能 得 到 正 确 的 分 析 结 果 , 详 细 介 绍 见 后 面 有 关 章 节 。5. 协 变 量 CCovariates)协 变 量 指 对 因 变 量 可 能 有 影 响 , 需 要 在 分 析 时 对 其 作 用 加 以 控 制 的 连 续 性 变 量 , 实 际 上 , 可以 简 单 地 把 因 素 和 协 变 量 分 别 理 解 为 分 类 自 变 量 和 连 续 性 自 变 量 。 当 模 型 中 存 在 协 变 量 时 , 一般 是 通 过 找 出 它 与 因 变 量 的 回 归 关 系 来 控 制 其 影 响 , 详 情 参 见 协 方 差 分 析 部 分 。6. 交 互 作 用 CInteraction)如 果 一 个 因 素 的 效 应 大 小 在 另 一 个 因 素 不 同 水 平 下 明 显 不 同 , 则 称 为 两 因 素 间 存 在 交 互 作用 。 当 存 在 交 互 作 用 时 , 单 纯 研 究 某 个 因 素 的 作 用 是 没 有 意 义 的 , 必 须 区 分 另 一 个 因 素 的 不 同 水平 研 究 该 因 素 的 作 用 大 小 。如 果 所 有 单 元 格 内 部 至 多 只 有 一 个 元 素 , 则 交 互 作 用 无 法 进 行 分 析 , 只 能 不 予 考 虑 , 最 典 型的 例 子 就 是 配 伍 设 计 的 方 差 分 析 。7. 固 定 因 素 CFixed Factor) 与 随 机 因 素 CRandom Factor)两 者 都 是 因 素 的 不 同 种 类 , 固 定 因 素 指 的 是 该 因 素 在 样 本 中 所 有 可 能 的 水 平 都 出 现 了 。 换言 之 , 该 因 素 的 所 有 可 能 水 平 仅 此 几 种 , 针 对 该 因 素 而 言 , 从 样 本 的 分 析 结 果 中 就 可 以 得 知 所 有水 平 的 状 况 , 无 需 进 行 外 推 。 比 如 要 研 究 三 种 促 销 手 段 的 效 果 有 无 差 别 , 所 有 样 本 只 会 是 三 种 促销 方 式 之 一 , 不 存 在 第 4 种 促 销 手 段 的 问 题 , 则 此 时 该 因 素 就 被 认 为 是 固 定 因 素 。和 固 定 因 素 相 对 应 的 是 随 机 因 素 , 它 指 的 是 该 因 素 所 有 可 能 的 取 值 在 样 本 中 没 有 都 出 现 , 或不 可 能 都 出 现 。 换 言 之 , 目 前 在 样 本 中 的 这 些 水 平 是 从 总 体 中 随 机 抽 样 而 来 , 如 果 重 复 本 研 究 ,则 可 能 得 到 的 因 素 水 平 会 和 现 在 完 全 不 同 , 这 时 , 研 究 者 显 然 希 望 得 到 的 是 一 个 能 够 " 泛 化 " , ep对 所 有 可 能 出 现 的 水 平 均 适 用 的 结 果 。 例 如 研 究 广 告 类 型 和 投 放 的 城 市 对 产 品 销 量 是 否 有 影响 , 在 设 计 中 随 机 抽 取 了 20 个 城 市 进 行 研 究 , 显 然 , 研 究 者 希 望 分 析 结 果 能 够 外 推 到 全 国 的 所 有大 、 中 型 城 市 , 此 时 就 涉 及 将 结 果 外 推 到 抽 样 未 包 括 的 城 市 中 的 问 题 , 在 这 种 情 况 下 , 城 市 就 应 当是 一 个 随 机 因 素 。 又 如 研 究 什 么 温 度 下 催 化 剂 的 效 果 最 好 , 因 经 费 有 限 , 样 本 中 只 取 了 30 0C、40 0C、 50 0C 三 个 水 平 , 但 是 我 们 希 望 研 究 的 是 整 个 有 效 温 度 范 围 内 哪 个 温 度 的 效 果 最 好 , 即 在 分析 结 果 中 能 同 时 外 推 35 0C、 45 0C 这 些 水 平 的 情 况 , 此 时 温 度 也 应 当 是 随 机 因 素 。一 般 来 说 固 定 因 素 和 随 机 因 素 在 分 析 时 应 分 别 指 定 , 如 果 将 随 机 因 素 按 固 定 因 素 来 分 析 , 则可 能 得 出 错 误 的 分 析 结 果 。 但 是 , 在 许 多 时 候 , 判 断 一 个 因 素 究 竟 是 固 定 因 素 还 是 随 机 因 素 并 不是 件 容 易 的 事 情 。 在 这 里 需 要 提 醒 各 位 读 者 的 是 : 区 别 这 两 者 的 并 非 是 该 因 素 本 身 的 特 性 , 而 是我 们 的 分 析 目 的 , 假 如 将 其 看 成 是 固 定 因 素 , 则 结 论 就 不 应 当 外 推 到 未 出 现 的 其 他 水 平 中 去 ; 否则 , 就 应 当 考 虑 按 照 随 机 因 素 来 分 析 。• 6 •


1.1. 3 方 差 分 析 模 型 的 适 用 条 件1. 理 论 上 的 适 用 条 件从 土 文 对 模 型 结 构 的 介 绍 中 大 家 可 以 看 到 , 作 为 一 种 统 计 模 型 , 方 差 分 析 也 有 自 己 的 适 用 条件 , 比 如 各 组 的 随 机 误 差 项 被 设 定 为 服 从 一 个 相 同 的 正 态 分 布 , 又 如 各 组 的 效 应 是 可 加 的 。 具 体而 言 , 方 差 分 析 模 型 的 适 用 条 件 有 以 下 几 点 :(1) 各 样 本 的 独 立 性 : 只 有 各 样 本 相 互 独 立 , 来 自 真 正 的 随 机 抽 样 , 才 能 保 证 变 异 能 够 按 照模 型 表 达 式 那 样 具 有 可 加 性 ( 可 分 解 性 )。(2) 正 态 性 : 由 于 各 组 的 随 机 误 差 项 E 被 设 定 为 服 从 正 态 分 布 , 因 此 模 型 要 求 各 单 元 格 的 残差 必 须 服 从 正 态 分 布 。(3) 方 差 齐 : 同 样 是 因 为 8 , 由 于 在 模 型 中 无 论 何 种 组 合 , 8 都 被 { 固 定 服 从 相 同 的 正 态 分 布 ,因 此 模 型 要 求 各 单 元 格 都 满 足 方 差 齐 ( 变 异 程 度 相 同 ) 的 要 求 。2. 实 际 操 作 中 对 适 用 条 件 的 把 握显 然 , 适 用 条 件 的 要 求 还 是 比 较 严 格 的 , 那 么 在 实 际 操 作 时 该 如 何 操 作 ? 首 先 在 适 用 条 件中 , 对 独 立 性 的 要 求 是 最 严 的 , 但 除 了 重 复 测 量 等 特 殊 情 况 外 , 该 条 件 一 般 都 可 以 满 足 。 下 面 是对 正 态 性 和 方 差 齐 性 在 不 同 情 况 下 的 考 虑 :(1) 单 因 素 方 差 分 析 : 因 模 型 中 只 有 一 个 因 素 , 设 计 较 为 简 单 , 样 本 有 充 足 的 信 息 量 对 正 态性 和 方 差 齐 性 进 行 考 察 , 这 己 经 成 为 了 标 准 分 析 步 骤 。 但 是 许 多 人 误 将 正 态 性 理 解 为 因 变 量 应当 正 态 分 布 , 显 然 这 种 想 法 和 实 际 的 要 求 不 是 一 回 事 。 不 过 , 由 于 模 型 有 一 定 的 稳 健 性 , 只 要 因变 量 分 布 不 是 明 显 偏 态 , 分 析 结 果 一 般 都 是 较 稳 定 的 。至 于 方 差 齐 性 , 需 要 特 别 指 出 的 是 : 根 据 Box的 研 究 结 果 , 在 单 因 素 方 差 分 析 中 , 如 果 各 组 的例 数 相 同 ( 即 均 衡 ) , 或 总 体 里 正 态 分 布 , 则 方 差 分 析 模 型 对 方 差 略 微 不 齐 有 一 定 的 耐 受 性 , 只 要最 大 与 最 小 方 差 之 比 小 于 3 , 分 析 结 果 都 是 稳 定 的 。(2) 单 元 格 内 无 重 复 数 据 的 方 差 分 析 : 以 配 伍 设 计 的 方 差 分 析 最 为 典 型 , 此 时 不 需 要 考 虑 正态 性 和 方 差 齐 性 问 题 , 原 因 在 于 正 态 性 和 方 差 齐 性 的 考 察 是 以 单 元 格 为 基 本 单 位 的 , 此 时 每 个 格子 中 只 有 一 个 元 素 , 当 然 没 法 分 析 了 。 除 配 伍 设 计 的 方 差 分 析 外 , 交 叉 设 计 、 正 交 设 计 等 也 可 以出 现 无 重 复 数 据 的 情 况 。 但 必 须 指 出 , 这 里 只 是 因 条 件 不 足 , 无 法 考 察 适 用 条 件 , 而 不 是 说 可 以完 全 忽 视 这 两 个 问 题 。 如 果 根 据 专 业 知 识 认 为 可 能 在 不 同 单 元 格 内 正 态 性 、 方 差 齐 性 有 问 题 , 则应 当 避 免 使 用 这 种 无 重 复 数 据 的 设 计 方 案 。当 然 , 从 模 型 的 角 度 讲 , 实 际 操 作 中 对 数 据 正 态 性 的 考 察 还 有 一 个 办 法 , 就 是 拟 合 完 毕 后 作出 残 差 分 布 图 , 如 果 残 差 呈 随 机 分 布 , 则 可 知 ( 单 元 格 内 ) 原 始 数 据 满 足 正 态 条 件 。。) 有 重 复 数 据 的 多 因 素 方 差 分 析 : 由 于 正 态 性 、 方 差 齐 性 的 考 察 是 以 单 元 格 为 基 本 单 位 ,此 时 单 元 格 数 目 往 往 很 多 , 平 均 每 个 单 元 格 内 的 样 本 粒 数 实 际 上 比 较 少 。 例 如 样 本 量 为 500 , 共分 析 4 个 因 素 , 每 个 因 素 3 个 水 平 , 则 共 有 3 4 = 81 个 单 元 格 , 平 均 一 个 格 子 里 只 有 5 例 左 右 的 样本 。 此 时 实 际 上 很 难 检 验 出 差 别 ; 另 一 方 面 , 也 可 能 因 为 只 是 极 个 别 单 元 格 方 差 不 齐 而 导 致 检 验不 能 通 过 。 根 据 实 际 经 验 , 实 际 上 在 多 因 素 方 差 分 析 中 , 极 端 值 的 影 响 远 大 于 方 差 齐 性 等 问 题 的影 响 , 因 此 实 际 分 析 中 可 以 直 接 考 察 因 变 量 的 分 布 情 况 , 如 果 数 据 分 布 不 是 明 显 偏 态 , 不 存 在 极端 值 , 则 一 般 而 言 方 差 齐 性 和 正 态 齐 性 不 会 有 太 大 问 题 , 而 且 也 可 以 基 本 保 证 单 元 格 内 无 极 端• 7 •


值 。 因 此 在 多 因 素 方 差 分 析 中 , 方 差 齐 性 往 往 只 限 于 理 论 探 讨 。 但 对 于 较 重 要 的 研 究 , 则 建 模 后的 残 差 分 析 是 非 常 重 要 的 。1.2 简 单 分 析 实 例例 1. 1 现 希 望 比 较 4 种 胶 合 板 的 耐 磨 性 , 分 别 从 4 个 品 牌 的 胶 合 板 中 抽 取 了 5 个 样 品 , 在相 同 的 转 速 下 磨 损 相 同 时 间 , 测 量 其 被 磨 损 的 深 度 (mm) , 现 希 望 对 此 进 行 分 析 , 数 据 如 下 :A 品 牌 : 2. 3 2. 32 2.4 2.45 2.58B 品 牌 : 2. 35 2. 3 2.42 2.6 2.35C 品 牌 : 2.2 2.0 1. 9 2.1 2.03D 品 牌 : 2.54 2.61 2.6 2.57 2.541. 2.1 模 型 表 达 式在 本 例 中 , 希 望 进 行 比 较 的 是 不 同 种 类 胶 合 板 的 磨 损 深 度 , 换 用 统 计 学 的 思 路 来 考 虑 , 即 希望 分 析 品 牌 这 个 分 类 因 素 是 否 对 磨 损 深 度 这 个 连 续 性 因 变 量 有 影 响 , 这 显 然 是 方 差 分 析 模 型 的适 用 范 围 。 由 于 只 有 一 个 影 响 因 素 , 因 此 需 要 建 立 的 是 单 因 素 方 差 分 析 模 型 , 根 据 前 面 学 到 的 知识 , 相 应 的 模 型 结 构 如 下 :Yij μ+α i + E: ij其 中 μ 表 示 不 考 虑 具 体 的 品 牌 时 胶 合 板 的 平 均 磨 损 深 度 , 而 αz 代 表 i时 平 均 磨 损 深 度 的 差 异 , 即 在 i有 任 意 一 个 α 不 等 于 0 。品 牌 和 总 的 平 均 水 平 相 比职 业 时 平 均 收 入 水 平 的 改 变 情 况 。 所 以 实 际 上 就 是 要 分 析 是 否下 面 开 始 对 本 例 进 行 分 析 , 数 据 见 venee r. sav , 在 SPSS 中 的 操 作 如 下 :!Analyze→ Ge 时 ral Li 时 al Model• Univariate!Dependent List 杠 :wear!Fixed Factor 杠 : brand! IOptionsl: 部 Descriptive statistics: 附 吝 ho 阳 Oω 佣 阳 I 口 moi 回1. 2. 2 初 步 分 析 结 果首 先 输 出 结 果 的 标 题 " 气 Un 山 1方 差 分 析 , Un 山 1首 先 输 出 的 是 模 型 中 所 有 因 素 各 水 平 的 耳 取 又 值 情 况 列 表 , 参 见 表 1. 10。 显 然 在 当 前 模 型 中 共有 二 个 因 素 一 一 地 板 品 牌 。 它 共 有 4 个 水 平 , 构 成 了 4 个 单 元 格 , 每 个 单 元 格 内 共 有 5 个 元 素 。• 8 •


图 1. 1 U 旧 variate 过 程 的 操 作 界 面表 1. 2 是 对 4 组 数 据 进 行 的 统 计 描 述 , 它 给 出 了 样 本 均 数 和 标 准 差 , 从 标 准 差 可 见 除 D 组 较小 外 , 其 余 三 组 标 准 差 非 常 接 近 , 至 于 有 无 方 差 不 齐 的 问 题 需 要 看 随 后 的 齐 性 检 验 结 果 。 另 外 要注 意 一 下 各 组 的 均 数 大 小 , 在 后 面 阅 读 模 型 参 数 的 估 计 结 果 中 将 会 用 到 。表 1. 1 Between-Subjects Factors表 1. 2 Descriptive StatisticsN Depe 内 denl Variable 磨 损 深 度 (mm)地 板 A 5品 牌B 5C 5D 5地 板 品 牌 Mean Std. Deviation MA 2.4 100 .11269 5B 2.4040 .11760 5C 2.0460 _11216 5D 2_5720 _03271 5Tolal 2.3580 .21771 20表 1. 3 为 方 差 齐 性 检 验 结 果 , 用 来 检 验 所 有 单 元 格 内 的 方 差 是 否 齐 同 , 本 例 中 共 有 4 个 单元 格 , 因 此 第 一 自 由 度 为 4 - 1 = 3 。 可 见 使 用 的 是 Levene 方 差 齐 性 检 验 , F 统 计 量 为 1. 292 ,在 当 前 自 由 度 下 对 应 的 p( 即 表 1. 3 中 的 Sig. 值 ) 值 为 o. 31 1, 可 以 认 为 各 单 元 格 所 代 表 总 体的 方 差 齐 。表 1. 3 Levene's Test of Equality of Error Variances aDependenl Variable磨 损 深 度 (mm)F df1 df21.292 3 16Sig.311Tests the null hypothesis that the error variance of thedependent variable is equal across groupsa. Design: Intercep!+brand• 9 •


表 1. 4 是 对 前 面 所 假 设 的 模 型 进 行 方 差 分 析 的 结 果 , 可 见 其 中 共 进 行 了 三 个 检 验 , 解 释 如下 :表 1. 4 Tests of Between-Su 同 时 ts EffectsDepende 门 t Variable: 磨 损 深 度 (mm)Type 111 SumSource of Squares df Mean SquareCorrec!ed Model 740 a 3 .247F24.550Sig.000| 门 tercept 111 .2 03 才 11 .2 03brand .740 3 .247Error 才 61 16 .010Total 112.104 20Corrected Total .901 19a. R Squared = 822 (Adjusted R Squared = 788)11070.51124.550000000(1) 第 一 行 Corrected Model 进 行 的 是 整 个 方 差 分 析 模 型 的 检 验 , 其 原 假 设 为 : 模 型 中 所 有 的因 素 均 对 因 变 量 无 影 响 , 所 有 的 系 数 (α 、β 、 γ 等 ) 均 等 于 0 。 可 见 F 值 为 24.550 , P


表 1. 5 Parameter EstimatesDependent Variable磨 损 深 度 (mm)95% Confide 门 ce IntervalParameter B Std. Error Sig. Lower Bou 门 d Upper BoundIntercept 2.572 045 57.383 000 2.477 2.667[brand=A] -.162 063 -2.556 021 -.296 -.028[brand=B] -.168 063 -2.650 017 -.302 -034[brand=C] -.526 063 -8.298 000 -.660 -.392[brand=D]oaa. This parameter is se! to zero because it is redundant量 上 的 关 联 , 必 须 要 加 上 一 定 的 限 制 条 件 才 能 进 行 估 计 , 在 本 例 中 , 模 型 默 认 将 编 号 取 值 最 高 的一 类 , 即 D 类 作 为 参 照 水 平 , 这 相 当 于 强 迫 α4 = 0 , 从 而 另 外 三 个 参 数 的 估 计 值 和 检 验 结 果 实 际上 就 相 当 于 该 水 平 和 品 牌 D 相 比 的 结 果 , 例 如 A 类 的 参 数 实 际 上 就 是 两 组 的 均 数 之 差 2.41 -2.572 = -0.1620 可 见 A 、 B 、 C 的 参 数 均 小 于 O 且 有 统 计 学 意 义 , 即 它 们 的 磨 损 深 度 均 小 于 品牌 D 。参 数 估 计 值 表 格 之 后 给 出 的 是 进 行 参 数 估 计 时 使 用 的 设 计 矩 阵 , 被 称 为 L 矩 阵 , 首 先 是 估计 常 数 项 ( 截 距 ) 时 使 用 的 L 阵 , 参 见 表 1. 6 。 因 常 数 项 无 实 际 意 义 , 这 里 也 不 再 详 细 讲 解 , 只 是提 示 大 家 : 矩 阵 中 关 于 brand4 个 水 平 的 参 数 均 为 0.25 , 这 实 际 上 就 是 计 算 时 各 品 牌 的 构 成 比 , 即总 样 本 的 平 均 水 平 是 按 照 、 4 种 品 牌 等 量 混 合 的 情 况 计 算 的 , 但 是 由 于 后 面 又 限 制 了 α4 =0 , 所 以最 终 会 使 得 常 数 项 的 估 计 值 等 于 D 组 的 均 数 。常 数 项 L 矩 阵 之 后 给 出 的 是 计 算 α 矶 时 的 L 矩 阵 , 以 αl 为 例 , 它 对 应 的 是 表 1. 7 中 L2 这一 列 , 实 际 上 这 里 的 表 达 式 为 :0 Xμ+ 1 xα1 +0 xα2 + 0 xα3 一 1 xα4 = 0 , 化 简 后 即 等 价 于 αα4 ' 此 即 前 面 对 αl 所 作 的 假 设 检 验 的 原 假 设 。表 1 . 6 Intercept表 1.7brandContrastCo 门 trastParameterL1Intercept 1000]brand=A] .250]brand=B] .250]brand=C] .250[brand=D] .250The default display of this matrix is thetranspose of the corresponding L matrixBased on Type 111 Sums of Squares.Parameter L2 L3 L4l 门 tercept 。 。[brand=A] 。[brand=B] 。[brand=C] 。 。[brand=D]The default display of this matrix is the transpose of thecorresponding L matrix.Based on Type 111 Sums of Squares.。。。除 了 Contrast coefficient matrix 选 项 外 , Options 子 对 话 杠 中 还 有 一 个 General estimable function复 选 框 , 它 输 出 的 内 容 实 质 上 也 是 上 述 模 型 参 数 估 计 时 所 用 的 结 构 , 对 照 上 面 的 内 容 , 其 含• 11 •


义 不 难 理 解 , 具 体 输 出 参 见 表 1. 80表 1. 8 General Estimable Function aConlraslParameler L1 L2 L3 L4Intercept 。 O O[brand=A] O O O[brand=B] O 。 O[brand=C] O 。 O[brand=D] -1 -1a. Design: Intercept+brand可 能 有 的 朋 友 会 想 : 能 否 对 随 机 误 差 项 E也 进 行 一 下 估 计 和 检 验 ? 答 案 是 肯 定 的 , 只 是 由 于方 差 分 析 模 型 的 重 点 不 在 分 析 E上 , 因 此 使 用 现 在 的 这 个 过 程 无 法 自 动 得 出 估 计 值 , 除 手 工 计 算外 , 分 析 者 还 可 以 使 用 后 面 将 会 介 绍 的 混 合 效 应 模 型 直 接 得 到 该 误 差 项 的 估 计 值 及 其 标 准 误 , 有兴 趣 的 读 者 可 参 见 第 4 章 的 相 关 内 容 。1. 2. 4 两 两 比 较由 方 差 分 析 检 验 结 果 得 知 : 品 牌 间 的 磨 损 深 度 是 有 差 异 的 , 但 是 , 上 述 检 验 并 未 告 诉 我 们 究竟 是 哪 些 品 牌 更 耐 磨 , 哪 些 易 磨 损 , 为 此 需 要 进 一 步 作 各 水 平 间 的 两 两 比 较 , 操 作 如 下 :ilPost Hoc1:Post Hoc Test For 杠 : brand: LSD 、 南 S-N-K|Continuel分 析 结 果 中 标 题 为 "Post Hoc Tests" 的 部 分 就 是 两 两 比 较 结 果 。表 1. 9即 为 LSD 法 的 输 出 结 果 , 由 于 LSD 法 实 际 上 是 要 求 将 各 组 均 和 一 个 参 照 水 平 加 以 比较 , 而 在 前 面 的 操 作 中 并 未 指 定 参 照 水 平 , 为 此 SPSS 假 设 每 一 个 水 平 都 有 可 能 成 为 参 照 , 让 其 他表 1. 9 Multiple ComparisonsDependenl Variable磨 损 深 度 (mm)MeanSld95% Confidence Inlerval(1) 地 板 品 牌 (J) 地 板 品 牌 Difference (I-J) Error Sig. Lower Bound Upper BoundLSD A B 0060 06339 .926 -.1284 1404C .3640 丧 .06339 .000 .2296 .4984D -.1620* 06339 .021 -.2964 -0276D A 1620* 06339 .021 .0276 2964B 1680* 06339 .017 .0336 3024C .5260 去 .06339 .000 .3916 .6604Based on observed means非 The mean difference is slgnificant at the .05 level• 12 •


水 平 部 和 该 参 照 进 行 比 较 , 因 此 最 终 形 成 了 如 表 1. 9 所 示 的 4 个 品 牌 均 作 一 次 参 照 组 的 分 析 结果 , 但 为 了 便 于 排 版 , 截 去 了 表 格 中 的 部 分 输 出 ( 表 格 编 辑 操 作 可 以 参 见


中 的 Weight Estimation 过 程 。2. Save 子 对 话 杠用 于 将 模 型 拟 合 时 产 生 的 中 间 结 果 或 参 数 保 存 为 新 变 量 供 继 续 分 析 时 用 。 PredictedValues复 选 杠 组 用 于 存 储 预 测 值 以 及 预 测 值 的 标 准 误 。 除 原 始 的 未 标 化 预 测 值 外 , 还 有 标 准 化 预 测 值 、权 重 预 测 值 可 选 , 其 中 权 重 的 预 测 值 只 有 在 主 对 话 杠 中 选 择 了 加 权 最 小 二 乘 变 量 (WLS) 时 才 可用 ; Residuals 复 选 杠 组 则 用 于 存 储 预 测 值 和 实 测 值 之 差 , 即 残 差 , 同 样 有 多 种 选 择 ; Diagnostics 复选 杠 组 用 于 存 储 一 些 模 型 诊 断 用 指 标 , 其 详 细 解 释 可 参 见 线 性 回 归 部 分 ; Save to New File选 择 一 个 数 据 文 件 以 保 存 参 数 拟 合 的 协 方 差 矩 阵 。3. Options 子 对 话 杠组 用 于用 于 定 义 模 型 中 的 一 些 附 加 功 能 , 上 半 部 的 Estimated Marginal Means 组 用 于 定 义 输 出 指 标的 估 计 均 数 并 选 择 所 用 的 两 两 比 较 方 法 。 下 半 部 的 Display复 选 杠 组 用 于 设 定 一 些 常 用 的 输 出指 标 。 除 本 章 将 会 详 细 讲 解 的 几 个 以 外 , 其 余 的 含 义 如 下 : Estimates of effects size: 对 模 型 和 各 因 素 计 算 偏 eta 平 方 , 它 用 于 表 示 由 该 因 素 所 导 致 的变 异 占 因 变 量 总 变 异 的 比 例 , 等 价 于 回 归 分 析 中 的 决 定 系 数 。 Observed power: 为 模 型 和 所 有 因 素 、 交 互 项 的 检 验 计 算 检 验 效 能 , 通 过 该 数 值 可 以 得 知试 验 设 计 的 样 本 量 是 否 充 足 , 以 及 接 近 检 验 水 准 的 因 素 有 无 必 要 继 续 研 究 。 这 是 一 个 常 被 人 忽视 的 选 项 。 Spread vs. level plot: 绘 出 所 有 单 元 格 的 分 布 水 平 图 ( 该 图 的 详 情 可 参 见 基 础 教 程中 Explore 过 程 的 相 应 内 容 )。1.3 两 因 素 方 差 分 析 模 型上 一 节 中 通 过 一 个 单 因 素 的 分 析 实 例 , 对 方 差 分 析 模 型 的 基 本 操 作 和 结 果 进 行 了 了 解 。 但在 实 际 问 题 中 , 更 多 的 是 多 个 影 响 因 素 的 情 形 。 下 面 将 对 多 因 素 方 差 分 析 模 型 作 进 一 步 的 学 习 。1. 3.1 分 析 实 例例 1. 2 相 信 大 家 都 有 过 在 超 级 市 场 购 物 的 经 历 , 这 里 就 来 看 一 个 超 市 的 例 子 。 现 希 望 考察 对 超 市 中 销 售 的 某 种 商 品 而 言 , 是 否 其 销 售 额 会 受 到 货 架 上 摆 放 位 置 的 影 响 , 除 此 以 外 , 超 市的 规 模 是 否 也 会 有 所 影 响 , 甚 或 两 者 间 是 否 会 存 在 交 互 作 用 。 Berenson 和 Levine (1992) 着 手 研究 了 这 个 问 题 , 他 们 按 照 超 市 的 大 小 ( 三 水 平 )、 摆 放 位 置 ( 四 水 平 ) 各 随 机 选 取 了 两 个 点 , 记 录 其同 一 周 内 该 货 物 的 销 量 , 数 据 如 表 1. 11 所 示 。表 1. 11同 一 周 内 货 物 的 销 售 数 据超 市 规 模AB货 物 摆 放 位 置CD小 型 45 、 50中 型 57 、 65大 型 70 、 7856 、 63 65 、 7169 、 78 73 、 8075 、 82 82 、 8948 、 5360 、 5771 、 75• 14 •


显 然 , 在 本 例 中 所 关 心 的 变 量 是 销 售 量 , 可 能 对 其 有 影 响 的 有 两 个 分 类 变 量 : 超 市 规 模 和 货物 摆 放 位 置 , 因 此 本 例 仍 然 可 以 使 用 方 差 分 析 模 型 来 分 析 , 只 是 影 响 因 素 为 两 个 而 己 , 相 应 的 模型 表 达 式 如 下 :Yqk=μ+α+ 冉 +γq+Eqk 。 其 中 矶 、βj 分 别 表 示 超 市 规 模 i水 平 的 附 加 效 应 。 而 γq 则 为 两 者 的 交 互 作 用 项 。水 平 和 货 物 摆 放 位 置 j本 例 的 数 据 见 twoway. sav , 在 SPSS 中 的 操 作 如 下 :i 咀 虹 Anal 咀 巾 伊 严 y 1 喝 ze• Gωe 凹 en 肘 ler 时 a 址 1 Lineal Mo 叫 d 出 b 削 eι~l• Un 川 Jn 山 1:De 叩 pe 臼 ende 肘 entList 丰 杠 匡 : sales!Fixed Factor 杠 : Slze 、 position! 匾 豆 ~: 商 homogeneity tests: IContinueli 国分 析 结 果 如 下 :表 1. 12为 方 差 齐 性 检 验 的 输 出 , 可 见 无 法 得 出 分 析 结 果 。 这 是 因 为 两 个 因 素 的 各 水 平 交叉 , 一 共 会 形 成 12 个 单 元 格 , 这 里 检 验 的 就 是 这 12 个 单 元 格 的 方 差 是 否 齐 。 但 如 果 要 在 考 虑 交互 作 用 的 模 型 中 进 行 方 差 齐 性 检 验 , 每 个 单 元 格 内 至 少 要 有 3个 元 素 ( 数 据 点 ) 才 可 , 因 此 这 里无 法 得 到 分 析 结 果 。 可 见 多 因 素 时 方 差 齐 性 检 验 往 往 价 值 不 大 , 这 也 和 我 前 面 提 到 的 多 因 素 方差 分 析 时 一 般 不 考 虑 方 差 齐 性 问 题 的 结 论 相 呼 应 , 因 此 , 后 面 都 不 再 涉 及 此 话 题 。表 1. 12 Levene's Test of Equality of Error Va 归 nces aDependentV 甜 甜 le: 周 销 售 量F df1 df211 12SigTests the null hypolhesis that the error variance of thedependenl variable is equal across groupsa. Design: Interce 口 t+size+position+size' p 口 sition表 1. 13即 为 希 望 阅 读 的 方 差 分 析 表 , 有 了 前 一 个 例 子 的 基 础 , 大 家 阅 读 该 表 格 应 当 不 太 困难 , 总 结 如 下 :(1) 第 一 行 的 Corrected Model 是 对 所 用 方 差 分 析 模 型 的 检 验 , 其 原 假 设 为 模 型 中 所 有 的 影响 因 素 均 无 作 用 , 即 超 市 规 模 、 摆 放 位 置 、 两 者 的 交 互 作 用 均 对 销 量 无 影 响 , 他 们 的 系 数 ( 全 部 的α 、β 、 γ) 均 为 0 。 该 检 验 的 p{ 直 远 小 于 0.05 , 因 此 所 用 的 模 型 有 统 计 学 意 义 , 以 上 所 提 到 的 内 容中 至 少 有 一 个 是 有 差 异 的 , 但 具 体 是 哪 些 则 需 要 阅 读 后 面 的 分 析 结 果 。(2) 第 二 行 是 对 模 型 中 常 数 项 是 否 等 于 O 进 行 的 检 验 , 显 然 它 在 分 析 中 没 有 实 际 意 义 , 忽 略即 可 。(3) 第 二 、 四 行 分 别 是 对 超 市 规 模 、 摆 放 位 置 的 效 应 进 行 的 检 验 , 其 原 假 设 分 别 为 : 所 有 的 αt均 为 0 、 所 有 的 战 均 为 0 。 可 见 两 者 均 有 统 计 学 意 义 , 即 在 α i ,ß J中 均 至 少 有 一 个 不 为 0 。(4) 第 五 行 是 对 超 市 规 模 和 摆 放 位 置 的 交 互 作 用 进 行 了 检 验 , 可 见 P 值 为 0.663 , 无 统 计 学意 义 。• 15 •


表 1. 13 Tests of Between-Subjects EffectsDependent Variable: 周 销 售 量Type 111 SumSource of Squares df Mean SquareCorrected Model 3019.333 a 11 274.485Intercept 108272.667 108272.667slze 1828.083 2 914.042posilion 1102.333 3 367 .444slze 去 positio 内 88.9 才 7 6 才 4.819Error 258.000 12 2 才 500Total 111550.000 24Correcled T olal 3277.333 23目 R Squared = 921 (Adjusted R Squared = .849)F才 2.7675035.93842.514才 7090689江nununununonunununuqu由 于 在 本 次 分 析 中 发 现 两 个 因 素 的 交 互 作 用 无 统 计 学 意 义 , 为 了 使 得 模 型 更 为 简 沽 , 需 要 在模 型 中 将 其 去 除 , 具 体 操 作 可 在 Model 子 对 话 杠 中 实 现 , 操 作 如 下 :画 画 :CustomBuild Terms 下 拉 列 表 : Main effectsModel 杠 : slze 、 position|Continuel表 1.14 Tests of Between-Su 同 ects EffectsDependent Variable周 销 售 量Type 111 SumSource of Squares df Mean SquareCorrecled Model 2930.4 17 a 5 586.083Inlercept 108272.667 108272.667Size 才 828.083 2 914.042posilion 才 102.333 3 367.444Error 346.9 才 7 18 19.273Total 111550.000 24Correcled T olal 3277.333 23a. R Squared = .894 (Adjusled R Squared = .865)F30.4095617.79947.42619.065Sig.000000000.000表 1. 14 即 为 去 除 了 交 互 项 后 的 方 差 分 析 模 型 结 果 , 可 见 检 验 结 论 和 前 相 同 。下 面 对 超 市 规 模 、 摆 放 位 置 的 具 体 水 平 间 差 异 使 用 SNK 法 进 行 两 两 比 较 , 操 作 如 下 :• 16 •


|Post Hoc1:Post Hoc Test For 杠 : SlZe 、 positionS-N-K|Continuel表 1. 15 和 表 1. 16 分 别 是 对 超 市 规 模 和 摆 放 位 置 水 平 间 差 异 的 检 验 , 可 见 超 市 规 模 越 大 , 相应 的 销 售 量 就 越 大 ; 而 4 种 摆 放 位 置 也 对 销 量 有 影 响 , C 位 置 的 销 量 最 大 、 其 次 为 B 位 置 ;A 和 D位 置 的 销 量 则 最 小 。 同 时 , 以 上 差 异 不 受 另 一 个 因 素 水 平 取 值 的 影 响 , 即 两 者 问 无 交 互 作 用 。表 1. 15周 销 售 量表 1. 16周 销 售 量Sluden!-Newman-Keu Isa,bSludenl-Newman-Keuls a,b由 市 规 模N小 型 8中 型 8大 型 8Sig.56.3751.000Subset267.3751.000377.7501.000Means for groups in homogeneous subse!s are displayedBased on Type 111 Sum of SquaresThe error lerm is Mean Square(Error) = 19.273.a. Uses Harm 口 nic Mean Sam 口 le Size = 8 000b. AI 口 ha = 口 5Subset摆 政 位 置 N 2 3D 6 60.667A 6 60.833B 6 70.500C 6 76.667Sig .948 1.000 1.000Means for groups in homogeneous subse!s are displayedBased on Type 111 Sum of SquaresThe error term is Mean Square(Error) = 19.273a Uses Harmonic Mean Sample Size = 6 000b. Alpha = 051. 3. 2 边 际 均 数 与 轮 廓 图前 面 主 要 是 用 表 格 对 结 果 进 行 了 呈 现 , 实 际 上 , 在 SPSS中 也 可 以 使 用 图 形 对 各 种 水 平 组 合下 均 数 的 变 化 情 况 加 以 描 述 , 这 里 就 来 探 讨 此 问 题 。 首 先 解 释 边 际 均 数 这 一 概 念 , 它 指 的 是 基 于现 有 模 型 , 当 控 制 了 其 他 因 素 的 作 用 时 , 根 据 样 本 情 况 计 算 出 的 用 于 比 较 的 各 水 平 的 均 数 估 计值 。 如 果 模 型 中 有 协 变 量 , 则 会 按 照 协 变 量 取 值 为 均 数 的 情 况 加 以 修 正 , 并 进 行 均 数 估 计 。 对 单因 素 模 型 和 包 含 全 部 交 互 项 的 全 模 型 而 言 , 边 际 均 数 就 等 于 样 本 各 单 元 格 的 均 数 。 但 是 , 对 于 例1. 2 这 种 去 掉 了 某 些 交 互 项 的 模 型 而 言 , 边 际 均 数 就 完 全 是 基 于 模 型 计 算 而 来 的 , 是 根 据 当 前 模型 设 定 对 相 应 效 应 的 估 计 , 并 不 能 和 样 本 的 原 始 均 数 相 对 应 。在 了 解 了 边 际 均 数 后 , 下 面 来 看 一 下 SPSS 中 提 供 的 图 形 工 具 , GLM 主 对 话 杠 中 有 一 个 Plot 按钮 , 单 击 后 弹 出 的 对 话 杠 用 于 设 定 轮 廓 图 。 所 谓 轮 廓 图 就 是 一 种 特 殊 的 线 图 , 图 1. 2中 的 每 一 个 点就 表 示 某 个 因 素 水 平 下 的 边 际 均 数 值 , 第 二 个 因 素 的 不 同 水 平 可 以 用 来 区 分 不 同 的 线 , 第 三 个 因 素的 不 同 水 平 可 以 被 绘 制 为 不 同 的 图 。 轮 廓 图 对 于 比 较 各 种 水 平 组 合 下 均 数 的 变 化 规 律 , 发 现 可 能存 在 的 交 互 作 用 非 常 有 用 。 如 果 两 个 因 素 间 无 交 互 作 用 , 则 第 一 因 素 各 水 平 问 均 数 的 差 异 不 会 随着 第 二 个 因 素 水 平 取 值 的 变 化 而 变 化 , 表 现 为 绘 制 的 各 条 曲 线 基 本 平 行 ; 反 之 , 如 果 各 条 曲 线 明 显不 平 行 , 之 间 有 剧 烈 的 交 叉 , 则 提 示 可 能 这 两 个 因 素 的 相 应 水 平 间 存 在 着 交 互 作 用 。• 17 •


在 设 定 好 一 张 轮 廓 图 的 绘 制 方 式 后 , 一 定 要 单 击 下 方 的 Add 按 钮 确 认 , 否 则 相 应 的 选 择 无效 。 以 超 市 规 模 和 摆 放 位 置 为 例 , 如 果 希 望 分 别 绘 制 这 二 者 的 轮 廓 图 , 则 操 作 如 下 :IPlotsl:Horizontal Axis杠 : size: ~ 画Horizontal Axis 杠 : position: 国|Continuel相 应 的 图 形 如 图 1. 2 所 示 , 实 际 上 , 在 这 种 情 况 下 各 散 点 的 位 置 和 原 始 样 本 均 数 并 无 差 异 。图 1. 2超 市 规 模 和 摆 放 位 置 的 轮 廓 图下 面 来 看 复 杂 一 些 的 情 形 , 如 果 希 望 绘 制 上 述 两 个 变 量 的 联 合 轮 廓 图 , 则 将 另 一 个 变 量 选 入 Separatelines 杠 中 即 可 。 对 于 不 同 的 模 型 , 边 际 均 数 的 估 计 值 不 同 , 从 而 联 合 轮 廓 图 也 不 同 。 图 1. 3 分 别为 模 型 中 加 入 和 不 加 入 交 互 作 用 时 的 轮 廓 图 , 可 见 当 模 型 中 有 交 互 项 时 , 各 边 际 均 数 实 际 上 和 样 本 单元 格 均 数 相 同 , 且 代 表 摆 放 位 置 的 4 条 曲 线 大 致 平 行 , 并 未 出 现 明 显 的 交 叉 , 这 提 示 两 变 量 间 的 交 互 作图 1. 3含 交 互 作 用 时 的 轮 廓 图• 18 •


用 可 能 不 明 显 , 与 前 面 检 验 的 结 论 相 一 致 ; 而 右 侧 图 形 反 映 的 是 不 加 入 交 互 作 用 的 模 型 轮 廓 , 由 于 模 型中 无 交 互 项 , 相 当 于 强 行 规 定 无 论 摆 放 位 置 如 何 , 超 市 规 模 各 水 平 的 均 数 差 异 应 当 完 全 相 同 , 所 以 在 轮廓 图 中 就 会 看 到 4 条 均 数 线 是 完 全 平 行 的 。除 轮 廓 图 外 , 还 可 以 使 用 残 差 图 对 模 型 的 拟 合 效 果 进行 观 察 , 选 择 Options 子 对 话 杠 中 的 Residual plot 复 选 框 ,则 结 果 中 会 出 现 如 图 1. 4 所 示 的 残 差 图 。 这 幅 图 实 际 上是 一 个 散 点 图 矩 阵 , 由 因 变 量 实 测 值 、 预 测 值 和 标 准 化 残差 构 成 , 如 果 模 型 拟 合 效 果 很 好 , 则 预 测 值 和 实 测 值 应 当有 明 显 的 相 关 , 呈 现 出 较 好 的 直 线 趋 势 , 而 标 准 化 残 差 则应 当 完 全 随 机 地 在 O 上 下 分 布 , 不 随 预 测 值 的 上 升 而 出 现变 动 趋 势 。 由 图 1. 4 中 的 Predicted: Std Residl 叫 单 元 格可 见 , 残 差 的 分 布 的 确 较 好 , 未 发 现 明 显 违 反 模 型 中 正 态分 布 假 设 的 情 况 , 因 此 本 模 型 的 拟 合 效 果 是 令 人 满 意 的 。如 果 希 望 对 残 差 图 作 进 一 步 的 观 察 , 则 可 以 双 击 该 图形 , 进 入 编 辑 状 态 , 以 添 加 相 应 的 参 考 线 , 这 一 部 分 内 容 实际 上 和 回 归 模 型 中 的 残 差 诊 断 相 同 , 因 此 大 家 可 以 参 考 相EEEAO电UHUH 叮UHι-dp-VZUM∞-2Dependent Variable: 用 销 售 量自~8&0S000 YJO。;4 伊也 lD 0000o8Ov、 @q 哺 飞 咱 eu。 毛 内 v0B。 6。E@1 飞 o。A uObserved Predicted Std. ResidualModel: Intercept 十 Slze+poslt \Oll图 1. 4模 型 的 残 差 图关 章 节 , 这 里 不 再 详 述 。1. 3. 3拟 和 劣 度 检 验在 例 1. 2的 分 析 中 , 由 于 交 互 项 没 有 统 计 学 意 义 , 所 以 直 接 将 其 剔 除 出 模 型 重 新 进 行 了 数 据的 拟 合 。 当 交 互 项 较 少 时 , 这 样 做 并 不 困 难 。 但 是 , 如 果 需 要 分 析 的 因 素 很 多 , 则 交 互 项 也 会 非常 繁 杂 , 对 它 们 一 一 进 行 筛 选 不 仅 十 分 麻 烦 , 还 很 有 可 能 出 错 , 毕 竟 方 差 分 析 模 型 没 有 提 供 变 量筛 选 的 方 法 , 而 且 这 样 多 个 检 验 并 行 , 又 涉 及 一 类 错 误 是 否 被 正 确 控 制 的 问 题 。 事 实 上 , 对 交 互项 是 否 应 当 纳 入 模 型 的 分 析 可 以 被 理 解 为 与 纳 入 全 部 主 效 应 和 交 互 效 应 的 模 型 ( 全 模 型 ) 相 比 ,当 前 模 型 对 样 本 信 息 的 解 释 程 度 是 否 充 分 , 两 者 间 的 差 异 是 否 有 统 计 学 意 义 这 样 一 个 问 题 , 如 果当 前 模 型 和 全 模 型 的 解 释 程 度 无 统 计 学 差 异 , 则 表 明 模 型 己 经 包 含 了 数 据 的 主 要 信 息 , 不 需 要 再另 行 纳 入 更 多 交 互 项 了 。 反 之 , 则 意 味 着 还 有 交 互 项 需 要 纳 入 , 以 改 善 模 型 对 数 据 的 解 释 。 结 合上 面 有 、 无 交 互 项 时 的 轮 廓 图 , 大 家 可 能 对 此 会 有 更 直 观 的 了 解 。Options 子 对 话 杠 中 提 供 了 一 个 Lack of Fit 复 选 框 , 就 是 用 于 进 行 当 前 模 型 和 全 模 型 效 果 相比 的 拟 和 劣 度 检 验 ( 也 被 称 为 失 拟 检 验 ) 的 。 如 果 无 效 假 设 被 拒 绝 , 则 说 明 现 有 模 型 尚 不 能 充 分刻 画 因 变 量 , 自 变 量 间 的 关 系 , 可 能 还 有 交 互 作 用 未 被 发 现 , 或 尚 有 其 他 因 素 需 要 被 引 入 模 型 。对 上 面 无 交 互 项 的 模 型 , 拟 和 劣 度 检 验 结 果 参 见 表 1. 17 0注 意 表 1. 17 中 的 Pure Error 二 栏 实 际 上 就 是 全 模 型 的 误 差 项 输 出 , 而 主 效 应 模 型 的 Error 其SS (Sum of Squares) 为 346.917 , 和 全 模 型 的 误 差 项 的 SS = 258 相 减 , 恰 好 就 等 于 Lack of Fit 二 栏" 的 输 出 88.917 ! 事 实 上 自 由 度 的 计 算 也 是 如 此 。 也 就 是 说 , 该 检 验 比 较 的 就 是 两 个 模 型 的 方差 解 释 量 , 随 后 进 行 的 假 设 检 验 就 是 标 准 的 F 检 验 , 这 里 不 再 详 述 。 最 终 的 p{ 直 为 0.663 , 正 好等 于 全 模 型 中 对 交 互 项 的 检 验 P 值 。 当 只 有 一 个 交 互 项 时 , 这 两 个 检 验 应 当 是 等 价 的 。 但 在 交互 项 多 于 一 个 的 时 候 , 拟 和 劣 度 检 验 的 优 势 就 很 明 显 了 。• 19 •


表 1. 17 Lack of Fit TestsDependenl Variable: 周 销 售 量Source Sum of Squares df Mean Square F SigLack of Fit 88.917 6 14.819 689 663Pure Error 258.000 12 21.500有 趣 的 是 , 根 据 不 同 的 模 型 起 源 , 这 种 考 察 当 前 模 型 对 数 据 解 释 是 否 充 分 的 检 验 有 时 被 称 为拟 合 劣 度 CLack of Fit) , 有 时 却 有 被 称 为 拟 和 优 度 CGoodness of Fit) , 例 如 在 Logistic 模 型 中 就 是如 此 。 这 两 种 不 同 称 呼 看 似 对 立 , 但 实 质 上 是 完 全 等 价 的 , 就 像 存 活 率 和 死 亡 率 一 样 。 对 拟 合 优度 的 进 一 步 讲 解 可 参 见 Logistic 模 型 二 章 , 这 里 不 再 展 开 讨 论 。1.4 因 素 各 水 平 问 的 精 细 比 较通 过 前 面 几 个 例 子 的 学 习 , 大 家 应 当 能 够 感 觉 到 在 方 差 分 析 模 型 中 , 如 果 需 要 解 决 实 际 问题 , 往 往 最 后 要 进 行 因 素 各 水 平 间 的 两 两 比 较 。 GLM 过 程 为 两 两 比 较 提 供 了 比 较 全 面 的 功 能 ,本 节 将 对 此 做 一 简 单 的 总 结 。1. 4.1 POSTHOC 子 旬该 子 句 进 行 的 是 各 组 均 数 基 于 方 差 分 析 模 型 的 事 后 两 两 比 较 , 即 根 据 具 体 模 型 中 方 差 的 分解 方 式 计 算 出 需 比 较 的 各 水 平 所 对 应 的 标 准 误 , 然 后 根 据 样 本 中 各 水 平 的 实 际 均 数 , 进 行 相 应 的两 两 比 较 。 i 衷 方 法 可 以 在 POSTHOC 子 对 话 杠 中 直 接 实 现 , 原 理 和 具 体 操 作 实 际 上 和 单 因 素 方差 分 析 中 的 事 后 两 两 比 较 完 全 相 同 。 但 是 , 由 于 该 方 法 是 基 于 样 本 均 数 直 接 进 行 检 验 , 如 果 模 型中 存 在 协 变 量 , 则 该 功 能 不 可 用 。在 例 1. 2 的 分 析 中 只 使 用 了 两 种 常 用 的 两 两 比 较 方 法 , 其 中 LSD 法 一 般 要 求 存 在 一 个 对 照组 , 其 原 理 最 为 简 单 , 结 论 也 可 以 和 其 他 多 变 量 模 型 的 分 析 结 果 相 对 应 ;SNK 法 适 用 于 无 对 照 组的 任 意 两 两 比 较 , 结 果 易 于 阅 读 。 事 实 上 , SPSS中 提 供 的 比 较 方 法 有 二 十 余 种 。 如 何 根 据 具 体情 况 选 用 是 非 常 复 杂 的 问 题 , 为 方 便 使 用 , 这 里 简 单 总 结 一 下 具 体 方 法 的 选 择 原 则 : 如 果 存 在 明确 的 对 照 组 , 要 进 行 的 是 验 证 性 研 究 , 即 计 划 好 的 某 两 个 或 几 个 组 间 ( 都 和 对 照 组 ) 的 比 较 , 宜 用Bonferroni CLSD) 法 ; 若 需 要 进 行 的 是 多 个 均 数 间 的 两 两 比 较 ( 探 索 性 研 究 ) , 且 各 组 人 数 相 等 , 适宜 用 T 此 町 法 或 SNK Cq) 检 验 。 相 比 之 下 , 后 者 更 方 便 一 些 , 但 是 如 果 比 较 的 组 数 特 别 多 , 则SNK 法 的 假 阳 性 较 高 ; 若 需 要 进 行 的 是 多 个 均 数 间 的 两 两 比 较 ( 探 索 性 研 究 ) , 但 各 组 人 数 相 等 ,且 组 数 较 多 , 比 较 较 为 复 杂 , 则 宜 用 Scheffe 法 。 各 种 比 较 方 法 的 详 细 计 算 原 理 可 参 见 本 丛 书 基础 教 程 的 相 关 章 节 , 这 里 不 再 赘 述 。1.4.2 EMMEANS 子 旬即 通 过 模 型 计 算 出 用 于 比 较 的 各 水 平 ( 组 合 ) 的 边 际 均 数 及 其 标 准 误 , 然 后 利 用 该 估 计 值 进行 相 应 的 比 较 。 如 果 模 型 中 有 协 变 量 , 则 边 际 均 数 在 估 计 时 会 按 照 协 变 量 取 值 为 均 数 的 情 况 加• 20 •


以 计 算 , 因 此 , 边 际 均 数 的 检 验 可 以 用 于 存 在 协 变 量 的 情 况 。 另 外 , 这 里 用 于 比 较 的 均 数 为 通 过模 型 得 到 的 均 数 估 计 值 , 而 不 是 样 本 中 的 实 际 值 。 SPSS 中 提 供 的 比 较 方 法 有 LSD 、 Bonferroni 和Sidak 三 种 。 除 使 用 命 令 行 方 式 外 , 比 较 也 可 以 直 接 在 Options 子 对 话 杠 上 半 部 的 Estimated MarginalMeans 杠 组 中 实 现 。 以 前 面 销 售 量 的 数 据 为 例 , 如 果 希 望 通 过 边 际 均 数 方 式 进 行 摆 放 位 置问 作 用 的 比 较 , 则 操 作 如 下 :IOptionsl:Display Means for 杠 : positionCompare Means effect|Continuel相 应 的 分 析 结 果 如 表 1. 18 和 表 1. 19 所 示 。表 1. 18 EstimatesDependenl Variable: 周 销 售 量95% Confidence Interval摆 放 位 置 Mean Std , Error Lower BoundA 60.833 1 ,792 57 ,068B 70.500 1 ,792 66 ,735C 76.667 1 ,792 72 , 90 才D 60.667 1 ,792 56 ,901Upper Bound64 ,59974 ,26580 .43264 .432表 1. 19 Pairwise ComparisonsDependenl Variable: 周 销 售 量(1) 摆 放 位 置(J) 摆 放 位 置MeanDifference (I-J)Std , ErrorSig-a95% Confidence Inlerval forDifference aLower BoundUpper BoundAB-9 , 667 者2 ,535 001-14.992 -4 ,342C才 5 , 833 安2 ,535 00021 才 58 才 0 , 508D. 才 672 ,535 ,948-5 , 158 5.492BA9 ,667*2 ,535 0014.342 14 ,992C-6 , 167*2 ,535 026-11 .492 -,842D9 , 833 安2 ,535 ,0014.508 15 , 158CA15 ,833*2 ,535 ,00010.508 21 , 158B6 , 167*2 ,535 026842 11 .492D16 , 000 安2 ,535 00010.675 21 ,325DA-.1672 ,535 948-5.492 5 , 158B-9 ,833*2 ,535 001-15 才 58 -4 ,508C- 才 6 , 000*2 ,535 000-21.325 - 才 0 , 675Based on estimaled marginal means袭 The mean difference is significant at the ,05 level@, Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments)• 21 •


表 1. 18 中 给 出 的 是 各 水 平 的 边 际 均 和 标 准 误 的 估 计 值 。表 1. 19 是 使 用 LSD 法 对 摆 放 位 置 各 水 平 的 作 用 进 行 了 比 较 , 有 兴 趣 的 读 者 可 以 将 这 里 的结 果 和 PostHoc 中 的 LSD 法 对 照 一 下 , 会 发 现 完 全 相 同 。表 1 . 20 Univariate TestsDependent Variable周 销 售 量Sum of SquaresdMean SquareFSig.Co 门 trast 1102.3333 367.44419.065.000Error 346.917 18 19.273The F tests the effect of 摆 放 位 置 This test is based on the linearly independent pairwisecomparisons among the estimated marginal means表 1. 20为 基 于 当 前 模 型 , 对 超 市 规 模 这 一 因 素 进 行 的 总 体 检 验 , 原 假 设 为 超 市 规 模 对 销 售量 无 影 响 。 显 然 , 结 论 与 前 相 同 。1.4.3 LMATRIX 和 KMATRIX 子 旬这 是 模 型 中 最 为 自 由 的 比 较 设 定 方 式 , 该 方 法 基 于 模 型 所 估 计 出 的 边 际 均 数 , 由 用 户 使 用 设计 矩 阵 自 行 走 义 希 望 进 行 的 比 较 。 其 检 验 的 基 本 假 设 为 LB =K , 其 中 L 矩 阵 ( 前 面 己 经 接 触 过了 ) 使 用 LMATRIX 子 句 设 定 , K 矩 阵 使 用 KMATRIX 子 句 设 定 , 若 省 略 该 句 , 则 默 认 为 0 , 向 量 B是 希 望 进 行 比 较 的 因 素 各 水 平 。为 帮 助 大 家 理 解 该 方 法 的 实 际 含 义 , 这 里 以 销 售 量 的 数 据 为 例 作 进 一 步 说 明 , 该 模 型 中 有 超市 规 模 、 摆 放 位 置 两 个 因 素 , 分 别 有 三 个 水 平 和 4 个 水 平 , 如 果 现 在 希 望 比 较 位 置 A 和 位 置 D 的边 际 均 数 是 否 相 等 , 则 相 应 的 子 句 如 下 :<strong>Il</strong>matrix I 位 置 A 和 D 比 较 I position 1 0 0 - 1子 句 中 共 出 现 了 比 较 名 称 、 因 素 名 称 、 L 矩 阵 三 部 分 内 容 , 分 述 如 下 : 比 较 名 称 : 单 引 号 中 写 入 该 比 较 的 名 称 , 可 任 意 命 名 。 因 素 名 称 : 比 较 名 称 后 应 当 写 上 希 望 比 较 的 因 素 名 称 , 由 于 此 处 只 涉 及 对 position 不 同水 平 的 比 较 , 因 此 只 有 一 个 因 素 名 称 出 现 。 L 矩 阵 : 由 于 在 比 较 中 只 涉 及 摆 放 位 置 , 因 此 L 矩 阵 只 需 要 分 别 针 对 位 置 的 4 个 水 平 指定 相 应 系 数 即 可 , 本 例 分 别 为 1 、 0 、 0 、 一 1, 依 字 母 顺 序 对 应 着 A~D4 种 位 置 , 则 相 应 的 检 验 假 设LB=K 实 际 上 为 :Ax1+BxO+CxO+Dx -1=0 , 化 简 后 即 为 :A比 较 。检 验 时 可 以 使 用 对 话 杠 中 的 Paste的 程 序 如 下 :UNIANOVAE JIDS// 山 吨 Bmm HYQdu= e pg 的 nvu口FmM TI汀 P /E\ 句U\IJ/3ICRITERIA = ALPHA C. 05)<strong>Il</strong>matrix I 位 置 A 和 D 比 较 I position 1 0 0 - 1 .=D , 这 正 是 我 们 希 望 进 行 的按 钮 生 成 主 要 的 程 序 框 架 , 然 后 将 上 面 的 子 句 加 入 , 最 终IINTERCEPT = INCLUDEIDESIGN = size position• 22 •


程 序 运 行 完 毕 后 , 分 析 结 果 中 对 应 于 lmatrix 子 句 的 内 容 参 见 表 1. 210表 1. 21 Contrast Results (K Matrix) aDependent VariableContrast用 销 售 量L1Contrast Eslimate167Hypothesized ValueODifference (Es!imate - Hypothesized)167Std. Error2.535Sig94895% Confidence Inlerval Lower Boundfor DifferenceUpper Bound-5.1585.492a. Based on the user-specified contrast coefficients (L') matrix 位 置 M 口 D 比 较表 1. 21 首 先 输 出 的 是 按 照 t 检 验 方 式 进 行 的 自 定 义 检 验 , 可 见 样 本 的 均 数 差 值 为 O. 167 ( 参见 前 面 的 分 析 结 果 ) , 最 终 改 自 定 义 检 验 的 P 值 为 0.9480显 然 , 这 一 结 果 和 前 面 使 用 LSD 法 的结 果 完 全 相 同 。 也 就 是 说 , 自 定 义 检 验 的 算 法 在 本 质 上 和 LSD 法 是 相 同 的 。表 1. 22 给 出 的 是 按 照 自 定 义 方 式 进 行 的 相 关 水 平 效 应 的 方 差 分 析 , 可 见 结 论 相 同 。表 1.22Test ResultsDependent Variable:用 销 售 量Source Sum of SquaresCo 门 trast .083dfMean Square083F004Error 346_9171819.273如 果 超 越 LSD的 能 力 范 畴 , 那 么 自 定 义 检 验 还 可 以 达 到 怎 样 的 目 的 ? 假 设 在 前 面 的 分 析中 , 发 现 A 、 D 位 置 的 销 量 无 太 大 差 异 , 现 在 希 望 将 这 两 个 位 置 的 数 据 合 并 , 将 其 和 B 位 置 比 较 ,则 相 应 的 语 句 如 下 :/lmatrix' 位 置 A+D 和 B 比 较 , position 1 - 2 0 1注 意 上 面 系 数 的 设 定 方 式 , 相 应 的 检 验 假 设 实 际 为 :Ax1 +Bx -2+CxO+Dx1 =0 , 化 简后 即 为 : 他 + D) /2 = B , 即 A 、 D 两 位 置 的 平 均 销 量 和 B 相 同 , 这 正 是 我 们 希 望 进 行 的 比 较 。自 定 义 检 验 还 可 以 用 于 存 在 交 互 作 用 的 情 形 , 假 设 规 模 和 位 置 问 存 在 交 互 作 用 , 现 在 希 望 分析 当 规 模 为 中 型 水 平 时 A 和 B 位 置 有 无 差 异 , 则 相 应 的 语 句 如 下 :/LMATRIX = 'A vs B at 中 型 , position 1 - 1 0 0 size * position 0 0 0 0 1 - 1 0 0 0 0 0 0由 于 此 处 希 望 将 规 模 控 制 在 " 中 型 " 这 一 水 平 进 行 位 置 A 、 B 的 比 较 , 因 此 语 句 中 需 要 对 交 互项 也 进 行 L 矩 阵 的 指 定 。 显 然 AxB 项 应 当 有 3 x 4 = 12 个 参 数 , 分 别 对 应 了 12 种 组 合 。 如 上设 置 后 小 型 、 大 型 水 平 所 对 应 的 参 数 均 为 0 , 保 证 了 相 应 的 检 验 假 设 等 价 于 在 中 型 水 平 下 比 较 A和 B 的 作 用 大 小 。 需 要 注 意 的 是 , 语 句 前 半 部 中 对 位 置 因 素 主 效 应 的 设 定 不 能 省 略 , 另 外 , 模 型中 必 须 指 定 了 对 交 互 项 的 估 计 , 而 不 是 只 计 算 主 效 应 , 忽 略 交 互 项 的 模 型 , 否 则 程 序 将 会 出 错 。• 23 •


一 下 。因 篇 幅 所 限 , 以 上 几 个 自 定 义 比 较 这 里 不 再 给 出 相 应 分 析 结 果 , 有 兴 趣 的 读 者 可 自 行 尝 试1.4.4 CONSTRAST 子 旬i 衷 方 法 实 际 上 是 前 述 LMATRIX 和 KMATRIX 子 句 的 简 化 使 用 方 式 , 由 系 统 提 供 了 按 照 几 种预 设 的 L 矩 阵 比 较 方 式 , 这 些 预 设 的 比 较 方 式 可 以 在 Contrast 子 对 话 杠 中 直 接 实 现 , 实 际 上 等 价于 回 归 模 型 中 的 哑 变 量 估 计 。 因 篇 幅 所 限 , 这 里 不 再 详 述 , 读 者 可 参 见 Logistic 回 归 一 章 中 的 相关 内 容 。1.5 随 机 因 素 的 方 差 分 析 模 型在 第 一 节 中 曾 经 提 到 : 如 果 错 误 地 将 随 机 因 素 设 定 为 固 定 因 素 加 以 分 析 , 则 可 能 得 到 错 误 的结 果 , 这 里 将 用 一 个 具 体 的 例 子 来 对 此 进 行 深 入 探 讨 。例 1. 3现 希 望 研 究 4 种 广 告 的 宣 传 效 果 有 无 差 异 , 具 体 的 广 告 类 型 为 : 店 内 展 示 、 发 放 传单 、 推 销 员 展 示 、 广 播 广 告 。 在 本 地 区 共 有 几 百 个 销 售 网 点 可 供 选 择 , 出 于 经 费 方 面 的 考 虑 , 在 其中 随 机 选 择 了 18个 网 点 进 入 研 究 , 各 网 点 均 在 规 定 长 度 的 时 间 段 内 使 用 某 种 广 告 宣 传 方 式 , 并记 录 该 时 间 段 内 的 具 体 销 售 额 。 为 减 小 误 差 , 每 种 广 告 方 式 在 每 个 网 点 均 重 复 测 量 两 次 。 数 据见 ranavona. sav 0本 例 显 然 是 一 个 两 因 素 方 差 分 析 模 型 的 分 析 问 题 , 但 是 , 两 个 影 响 因 素 中 的 网 点 共 有 18水 平 , 是 在 几 百 个 候 选 网 点 中 随 机 抽 出 来 的 。 如 果 再 次 进 行 此 研 究 , 很 可 能 重 新 抽 出 的 网 点 和 本次 研 究 完 全 不 同 , 本 研 究 所 得 到 的 结 论 显 然 是 希 望 在 所 有 的 网 点 中 均 适 用 , 因 此 它 应 当 被 设 定 为随 机 因 素 , 相 应 的 操 作 如 下 :: Analyze-• General Lineal Model 一 → UnivariateiDependent List 杠 : salesiFixed Factor 杠 : adstype:Random Factor 杠 : areal 回分 析 结 果 中 的 主 要 部 分 参 见 表 1.220表 1. 23即 为 含 有 随 机 因 素 的 方 差 分 析 表 , 可 见 当 模 型 中 有 随 机 因 素 时 , 不 再 进 行 总 模 型 的检 验 , 而 是 分 别 进 行 每 个 因 素 的 单 独 检 验 , 且 所 用 的 误 差 项 也 分 别 单 独 设 置 。 由 表 中 可 见 , 广 告类 型 和 网 点 的 交 互 项 检 验 时 所 用 的 误 差 项 为 MS CError) , 而 广 告 类 型 、 网 点 这 两 个 主 效 应 在 检 验时 所 用 的 误 差 项 则 为 MS Cadstype x area) , 即 将 交 互 项 作 为 了 检 验 所 用 的 误 差 项 。 显 然 , 随 机 因素 和 固 定 因 素 对 模 型 检 验 的 影 响 是 不 同 的 , 如 果 指 定 错 误 , 则 不 能 得 到 正 确 的 检 验 结 果 。 事 实个上 , 在 绝 大 多 数 情 况 下 , 只 要 正 确 设 定 了 固 定 因 素 和 随 机 因 素 , SPSS就 会 自 动 进 行 正 确 的 方 差 分解 , 并 进 行 相 应 的 F 检 验 。 如 果 针 对 一 些 特 殊 的 问 题 , 研 究 者 希 望 自 行 走 义 检 验 中 所 使 用 误 差项 , 则 可 以 使 用 test 子 句 。 这 方 面 的 详 情 可 以 参 见 语 法 手 册 。表 1. 24 给 出 的 是 各 因 素 的 期 望 均 方 , 并 无 太 大 实 际 意 义 , 不 再 详 细 解 释 。 随 后 的 两 两 比 较 ,• 24 •


表 1 . 23 Tests of Between-Subjects EffectsDependenl Variable销 售 额Type 111 SumSource of Squares df Mean Square FIntercept Hypothesis 642936.694 642936.694 1179.661Error 9265.306 17 545.018 aadslype Hypothesis 5866.083 3 1955.361 20.094Error 4962.917 51 97.312 barea Hypothesis 9265.306 17 545.018 5.601Error 4962.917 51 97312 badslype * Hypothesis 4962.917 51 97.312 1.153areaError 6075.000 72 84375 Ca. MS(area)b. MS(adstype 仲 area)C. MS(Error)Sig000.000000286表 1. 24 Expected Mean Squares a,bVariance ComponenlSource Var(area) Var(adslype 去 area) Var(Error) Quadralic TermIntercept 8.000 2.000 1000 Inlercept, adslypeadstype 000 2.000 1000 adstypearea 8.000 2.000 1.000adslype 士 area .000 2.000 1.000Error 000 000 1.000a. For each source , the expected mea 叫 square equals the sum of the coefficients i 叫 the cells times the variance口 omponents , plus a q uad ratic term involving effects in the Q 吐 adratic Term cellb. Expected Mean Squares are based on the Type 111 Sums of Squares均 数 估 计 等 也 和 只 含 有 固 定 因 素 的 模 型 完 全 相 同 , 这 里 也 不 详 述 。对 随 机 因 素 的 正 确 指 定 主 要 会 影 响 含 有 交 互 项 的 方 差 分 析 模 型 , 如 果 模 型 中 不 含 交 互 项 , 则假 设 检 验 中 的 误 差 分 解 方 式 将 和 指 定 为 固 定 因 素 时 完 全 相 同 。 因 此 , 这 一 问 题 主 要 是 在 模 型 中存 在 交 互 作 用 时 应 当 加 以 注 意 。 对 于 只 含 有 主 效 应 , 且 设 计 均 衡 的 方 差 分 析 模 型 , 因 素 的 设 定 方式 实 际 上 对 结 果 是 没 有 实 质 性 影 响 的 。1.6 其 他 问 题1. 6.1 自 定 义 效 应 检 验 使 用 的 误 差 项在 前 面 所 进 行 的 分 析 中 , 在 进 行 主 效 应 、 交 互 作 用 项 检 验 时 都 让 系 统 自 行 设 定 计 算 F 统 计量 时 所 使 用 的 误 差 项 , 最 常 见 的 情 形 就 是 使 用 模 型 的 随 机 误 差 项 , 前 面 的 例 1. 2 和 例 1. 3 均 是 如• 25 •


此 。 而 在 随 机 效 应 方 差 分 析 模 型 的 实 例 中 , 通 过 对 随 机 效 应 项 的 正 确 设 置 , 系 统 也 能 对 误 差 项 进行 正 确 的 设 定 。 但 是 , 在 更 复 杂 的 方 差 分 析 模 型 中 , 如 嵌 套 设 计 、 重 复 测 量 设 计 或 是 裂 区 设 计 的方 差 分 析 中 , 对 不 同 的 效 应 其 检 验 时 所 使 用 的 误 差 项 是 变 动 的 , 并 不 固 定 , 必 须 按 照 相 应 的 模 型正 确 设 定 对 效 应 的 检 验 方 式 , 即 正 确 指 定 在 计 算 F 统 计 量 时 所 使 用 的 误 差 项 , 否 则 就 可 能 得 出错 误 的 结 论 。SPSS 为 自 定 义 检 验 方 式 提 供 了 一 个 TEST 子 句 , 它 允 许 用 户 使 用 自 定 义 的 误 差 项 进 行 指 定效 应 的 检 验 , 其 语 法 格 式 如 下 :ITEST 要 检 验 的 效 应 名 称 VS 指 定 的 误 差 项在 该 语 句 中 , 要 检 验 的 效 应 名 称 紧 跟 在 TEST 后 , 它 必 须 是 在 DESIGN 子 句 中 出 现 过 的 效 应名 称 ; 而 VS 后 则 用 于 指 定 误 差 项 , 它 可 以 是 若 干 个 效 应 项 的 线 性 组 合 , 但 也 必 须 都 在 design 子句 中 出 现 过 , 如 下 面 的 test 子 句 都 是 合 法 的 :ITEST = A VS A x BITEST = A VS B + A x B第 一 个 TEST 子 句 使 用 A 和 B 的 交 互 项 作 为 误 差 项 对 A 的 主 效 应 进 行 检 验 , 第 二 个 子 句 则将 B 的 主 效 应 和 A 、 B 交 互 项 的 合 并 效 应 作 为 误 差 项 对 A 的 主 效 应 进 行 检 验 。 同 一 个 UNIANO­VA 过 程 中 可 以 使 用 多 个 TEST 子 句 , 系 统 会 依 次 给 出 检 验 结 果 。这 里 仍 以 超 市 的 数 据 为 例 , 假 设 现 在 希 望 以 位 置 和 大 小 的 交 互 项 作 为 误 差 项 对 slze应 进 行 检 验 , 则 相 应 的 程 序 如 下 ( 注 意 交 互 项 在 DESIGN 子 句 中 必 须 出 现 ) :UNIANOVAsales BY size positionIMETHOD = SSTYPE (3) IINTERCEPT = INCLUDEICRITERIA = ALPHA C. 05)ITEST size VS size * position分 析 结 果 中 TEST 子 句 相 应 的 输 出 参 见 表 1.250IDESIGN = size position size * position的 主 效表 1.25Test Results坠 匹 旦 旦 旦 旦 旦 医 且 盟 主 主Source Sum of Squares df Mean SquareContrast 1828.083 2 9 才 4.042Error a 88.917 6 14.819F61.679Sig.000a. siz 巴 金 口 osition表 1. 25 下 方 有 注 解 , 说 明 检 验 所 使 用 的 误 差 项 实 际 上 是 slze 和 position 的 交 互 项 , 对 照 前 面方 差 分 析 表 格 中 的 内 容 , 大 家 应 当 发 现 的 确 如 此 。自 定 义 检 验 误 差 项 主 要 是 在 分 析 复 杂 试 验 设 计 数 据 时 比 较 有 用 , 详 情 可 以 参 见 下 一 章 的 相关 内 容 。• 26 •


1. 6. 2 4 类 方 差 分 解 方 法在 GLM 过 程 的 Model 子 对 话 杠 中 , 可 以 看 到 有 4 种 方 差 分 解 方 法 , 具 体 而 言 , 这 4种 方 差 分析 方 法 指 的 是 当 有 多 个 因 素 时 , 模 型 中 各 方 差 分 量 的 分 解 方 式 , 具 体 如 下 :I型 : 研 究 者 往 往 己 对 因 素 的 影 响 大 小 有 了 主 次 之 分 , 所 需 要 分 析 的 因 素 需 要 严 格 按 作 用 大小 依 次 排 列 , 该 方 法 按 因 素 引 入 模 型 的 顺 序 依 次 对 每 项 进 行 调 整 , 因 此 , 它 的 计 算 结 果 与 因 子 的前 后 顺 序 密 切 相 关 。 应 当 将 最 重 要 的 因 素 放 在 前 面 , 然 后 按 二 阶 交 互 、 三 阶 交 互 的 顺 序 依 次 指定 。 该 分 解 方 法 适 用 于 平 衡 的 模 型 和 嵌 套 模 型 。H 型 : 对 其 他 所 有 效 应 均 进 行 调 整 。 它 的 计 算 会 抑 制 其 他 参 数 的 估 计 , 所 以 不 适 用 于 有 交 互作 用 的 方 差 分 析 以 及 嵌 套 模 型 。 该 分 解 方 法 适 用 范 围 较 小 , 为 完 全 平 衡 的 设 计 、 只 牵 涉 主 效 应 的设 计 以 及 纯 粹 的 回 归 分 析 。皿 型 : 是 系 统 默 认 的 处 理 方 法 , 对 其 他 所 有 效 应 进 行 调 整 , 但 其 计 算 方 法 也 适 用 于 不 平 衡 的设 计 。 适 用 于 I型 、 H 型 所 列 范 围 以 及 无 缺 失 单 元 格 的 不 平 衡 模 型 。 对 于 含 缺 失 单 元 格 的 不 平衡 设 计 , 则 应 当 使 用 下 面 的 N 型 。N 型 : 专 门 针 对 含 有 缺 失 单 元 格 的 数 据 而 设 计 , 它 对 任 何 效 应 计 算 平 方 和 , 如 果 效 应 存 在 嵌套 , 则 只 对 效 应 的 较 高 水 平 效 应 作 对 比 。 可 用 于 I 型 、 H 型 所 列 模 型 , 但 更 主 要 的 是 用 于 含 缺 失单 元 格 的 不 平 衡 设 计 。综 上 , 除 非 很 特 殊 的 情 况 下 必 须 要 用 到 N 型 外 , 一 般 使 用 皿 型 分 解 方 法 即 可 。思 考 与 练 习1. 使 用 轮 廓 图 、 残 差 图 等 工 具 对 例 1. 1 的 数 据 进 行 观 察 , 帮 助 理 解 模 型 的 拟 合 情 况 。2. 如 果 将 随 机 效 应 错 误 地 指 定 为 固 定 效 应 进 行 分 析 , 则 模 型 的 分 析 结 果 是 什 么 含 义 ? 思 索 在 自 己 所 熟 悉的 领 域 有 没 有 这 种 误 用 的 例 子 , 这 样 误 用 的 影 响 是 什 么 ?参 考 文 献1 Intermediate Topics: SPSS for Windows 10.0 CvlO.0 Revised). SPSS Inc. Chicago , <strong>Il</strong>linois , 19992 Advanced Statistical Analysis Using SPSS CvlO.0 Revised). SPSS Inc. Chicago , <strong>Il</strong>linois , 20003 Advanced Techniques: ANOVA CSPSS 10.0). SPSS Inc. Chicago , <strong>Il</strong>linois , 20004 Statistical Analysis Using SPSS 10.0 CvlO.0 Revised). SPSS Inc. Chicago , <strong>Il</strong>linois , 20005 Neter, Kutner, et al. Applied Linear Statistical Models. Fourth Edition. McGraw - Hill, 19966 张 文 月 三 主 编 . SPSS 11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 希 望 电 子 出 版 社 , 20027 胡 良 平 . 现 代 统 计 学 与 SAS 应 用 . 北 京 : 军 事 医 学 科 学 出 版 社 , 19968 曹 素 华 主 编 . 实 用 医 学 多 因 素 统 计 方 法 . 上 海 : 上 海 医 科 大 学 出 版 社 , 19989 吴 明 隆 . SPSS 统 计 应 用 实 务 . 北 京 : 中 国 铁 道 出 版 社 , 2000• 27 •


第 2 章 常 用 实 验 设 计 分 析 方 法科 学 研 究 的 目 的 是 通 过 研 究 事 物 间 的 相 互 关 系 , 阐 明 事 物 客 观 存 在 的 规 律 性 。 而 客 观 世 界的 规 律 是 复 杂 的 , 要 考 察 交 织 在 一 起 的 各 种 因 素 的 关 系 , 就 要 进 行 科 学 实 验 ; 为 了 发 现 试 验 数 据中 所 蕴 含 的 规 律 性 , 就 要 进 行 统 计 研 究 。 统 计 研 究 一 般 可 分 为 设 计 、 收 集 资 料 、 整 理 资 料 和 分 析资 料 4 个 步 骤 , 其 中 设 计 是 研 究 成 功 与 否 关 键 的 一 环 , 也 是 进 行 科 学 研 究 之 前 必 须 要 做 的 工 作 。它 的 主 要 作 用 就 是 减 小 误 差 , 提 高 实 验 的 精 确 度 和 准 确 度 。 一 个 良 好 的 设 计 , 例 如 在 进 行 某 一 实验 之 前 , 研 究 者 根 据 研 究 目 的 , 确 定 了 如 何 采 取 各 种 措 施 控 制 非 实 验 因 素 的 影 响 , 所 需 的 样 本 含量 大 小 , 同 时 严 格 地 控 制 误 差 等 , 则 可 使 实 验 因 素 的 效 应 充 分 显 示 出 来 , 使 研 究 工 作 在 使 用 较 少的 人 力 、 物 力 和 时 间 的 条 件 下 , 取 得 较 为 满 意 的 结 果 , 回 答 研 究 假 设 提 出 的 问 题 , 从 而 达 到 事 半 功倍 的 效 果 。 如 果 设 计 不 正 确 , 实 验 结 果 分 析 不 当 , 就 会 增 加 实 验 次 数 , 延 长 实 验 周 期 , 造 成 人 力 、物 力 和 时 间 的 浪 费 , 使 预 期 的 结 果 难 以 达 到 , 甚 至 导 致 整 个 研 究 工 作 的 失 败 。 实 验 设 计 应 用 的 范围 非 常 广 , 不 仅 应 用 在 生 物 学 以 及 医 学 领 域 , 也 应 用 在 工 农 业 生 产 、 微 生 物 试 验 、 市 场 调 查 、 心 理学 研 究 以 及 教 学 科 研 等 各 种 不 同 领 域 。根 据 研 究 目 的 、 处 理 因 素 的 多 少 、 处 理 因 素 间 有 无 交 互 作 用 等 情 况 , 人 们 发 展 了 很 多 种 实 验设 计 方 法 , 这 些 方 法 几 乎 都 可 以 采 用 方 差 分 析 模 型 来 分 析 , { 且 具 体 操 作 上 又 各 有 特 点 , 本 节 将 介绍 常 用 的 完 全 随 机 设 计 C Completely Randomized Design) 、 随 机 区 组 设 计 C Randomized Block Design)、 交 叉 设 计 C Cross-over Design) 、 析 因 设 计 CFactorial Design) 、 拉 丁 方 设 计 C Latin Square Design)、 正 交 设 计 C Orthogonal experimental design) 、 嵌 套 设 计 CNested Design) 、 重 复 测 量 设 计 CRepeatedMeasures Design) 、 裂 区 设 计 CSplit-plot Design) 以 及 均 匀 设 计 CUniform Design) 这 10 种 设计 的 原 理 及 分 析 方 法 , 并 在 阐 明 各 种 设 计 原 理 的 基 础 上 进 一 步 学 习 用 于 校 正 试 验 数 据 影 响 因 素的 协 方 差 分 析 方 法 。需 要 指 出 的 是 , 各 种 试 验 设 计 的 目 的 其 实 就 是 根 据 具 体 的 研 究 背 景 , 在 满 足 研 究 目 的 的 前 提下 , 尽 量 地 平 衡 或 控 制 非 研 究 因 素 的 影 响 , 并 提 高 对 研 究 样 品 的 利 用 率 , 用 尽 量 少 的 成 本 来 达 到同 样 的 效 果 。 因 此 越 精 巧 的 实 验 设 计 , 一 般 其 效 率 就 会 越 高 , 但 是 很 高 的 效 率 也 意 味 着 数 据 中 存在 较 少 冗 余 信 息 , 抗 干 扰 性 也 会 越 差 , 当 出 现 了 缺 失 值 时 信 息 损 失 就 非 常 严 重 , 甚 至 会 导 致 整 个数 据 无 法 按 照 原 计 划 进 行 分 析 , 这 一 点 各 位 读 者 在 应 用 复 杂 设 计 方 案 时 一 定 要 加 以 注 意 。2.1 仅 研 究 主 效 应 的 实 验 设 计 方 案本 节 将 要 介 绍 的 实 验 设 计 方 案 均 只 考 虑 主 效 应 的 作 用 大 小 , 而 不 涉 及 各 因 素 间 的 交 互 作 用 。为 此 , 这 些 设 计 在 提 高 对 主 效 应 分 析 效 率 的 同 时 , 所 得 到 的 试 验 数 据 往 往 不 能 提 供 对 交 互 项 的 分• 28 •


析 信 息 , 因 此 分 析 时 不 能 指 定 交 互 项 , 否 则 将 无 法 得 到 分 析 结 果 。 而 且 , 由 于 模 型 无 法 分 析 交 互作 用 , 事 实 上 仅 当 有 理 由 认 为 研 究 所 涉 及 的 因 素 间 确 实 无 交 互 作 用 时 , 才 能 使 用 此 类 设 计 方 案 。2. 1. 1 完 全 随 机 设 计完 全 随 机 设 计 (Completely Random Design) 只 涉 及 一 个 处 理 因 素 , 两 个 或 多 个 水 平 , 所 以 也称 单 因 素 设 计 , 它 是 将 样 本 中 全 部 受 试 对 象 随 机 分 配 到 各 个 处 理 组 中 , 分 别 接 受 不 同 的 处 理 , 然后 对 其 效 应 进 行 对 比 观 察 或 分 别 从 不 同 总 体 中 随 机 抽 样 进 行 对 比 观 察 。 各 个 处 理 组 样 本 含 量 可以 相 等 , 也 可 以 不 等 , 但 相 等 时 效 率 较 高 。 其 优 点 是 简 便 易 行 , 适 用 范 围 广 , 个 别 数 据 缺 失 时 不 影响 统 计 分 析 ; 缺 点 是 研 究 效 率 通 常 不 高 , 小 样 本 时 可 能 均 衡 性 较 差 , 抽 样 误 差 较 大 。 一 般 来 说 , 当受 试 对 象 间 差 异 较 大 时 , 11 类 错 误 显 著 增 大 。该 设 计 试 验 结 果 的 分 析 可 分 以 下 情 况 :(1) 当 处 理 因 素 只 有 两 个 水 平 即 两 个 处 理 组 时 , 可 选 用 两 样 本 均 数 比 较 的 t 检 验 、 u 检 验 或秩 和 检 验 。(2) 当 处 理 因 素 有 多 个 水 平 即 多 个 处 理 组 时 可 考 虑 方 差 分 析 或 秩 和 检 验 。 在 多 个 处 理 组 均数 比 较 时 , 如 果 分 析 结 果 显 示 有 统 计 学 意 义 , 只 能 说 明 处 理 组 均 数 不 全 相 等 , 如 要 知 道 具 体 哪 些组 相 等 , 哪 些 组 不 等 , 则 需 进 行 各 组 均 数 间 的 两 两 比 较 , 它 又 称 为 样 本 均 数 间 的 多 重 比 较 。多 重 比 较 的 方 法 有 多 种 , 如 DUNETT t 检 验 , SNK -q 检 验 , LSD - t 检 验 等 。 这 些 方 法 各 有 其优 缺 点 , 比 较 的 次 数 较 少 时 , 各 种 方 法 差 异 不 大 , 较 多 时 可 根 据 以 下 几 点 来 确 定 具 体 的 两 两 比 较方 法 :(1) 是 证 实 性 研 究 还 是 探 索 性 研 究 , 证 实 性 研 究 指 的 是 研 究 者 对 实 验 结 果 有 一 个 大 致 设 想 ,在 设 计 阶 段 时 根 据 研 究 目 的 或 专 业 知 识 决 定 了 某 些 均 数 间 的 两 两 比 较 , 所 以 往 往 只 需 比 较 少 数几 组 , 如 多 个 处 理 组 与 对 照 组 的 比 较 , 处 理 后 不 同 时 间 与 处 理 前 的 比 较 , 以 及 某 几 个 特 定 的 处 理组 的 比 较 等 。 探 索 性 研 究 指 在 研 究 设 计 阶 段 对 试 验 结 果 知 之 不 多 , 或 经 数 据 结 果 的 提 示 后 提 出的 比 较 , 它 往 往 涉 及 每 两 个 均 数 的 两 两 比 较 。(2) 重 点 是 希 望 控 制 I 类 错 误 还 是 H 类 错 误 。一 般 来 说 , 如 果 存 在 明 确 的 对 照 组 , 要 进 行 的 是 验 证 性 研 究 , 即 计 划 好 的 某 两 个 或 几 个 组 间( 都 和 对 照 组 ) 的 比 较 , 宜 用 Bor 曲 lToni (LSD) 法 , 它 侧 重 减 少 H 类 错 误 ; 若 需 要 进 行 的 是 多 个 均 数间 的 两 两 比 较 ( 探 索 性 研 究 ) , 且 各 组 人 数 相 等 , 适 宜 用 Tukey 法 或 SNK (q) 检 验 。 相 比 之 下 , 后者 更 方 便 一 些 , 但 是 如 果 比 较 的 组 数 特 别 多 , 则 SNK 法 的 假 阳 性 较 高 ; 若 需 要 进 行 的 是 多 个 均 数间 的 两 两 比 较 ( 探 索 性 研 究 ) , 但 各 组 人 数 相 等 , 且 组 数 较 多 , 比 较 较 为 复 杂 , 则 宜 用 Scheffe 法 。各 种 比 较 方 法 的 详 细 计 算 原 理 可 参 见 本 丛 书 基 础 教 程 的 相 关 章 节 , 这 里 不 再 赘 述 。2. 1. 2 自 己 伍 组 设 计配 伍 设 计 也 被 称 为 随 机 区 组 设 计 (Randomized Block Design) , 这 个 奇 怪 的 英 文 名 称 来 自 随 机化 实 验 设 计 和 方 差 分 析 理 论 的 创 始 人 R. A. Fisher , 他 在 伦 敦 附 近 的 Rothamsted 农 业 实 验 站 创 立的 试 验 设 计 理 论 和 方 差 分 析 方 法 在 全 世 界 得 到 了 广 泛 运 用 。 Fisher 做 的 是 农 田 试 验 , 土 地 都 是被 划 分 成 一 块 一 块 的 Block 来 分 配 的 , 所 以 该 设 计 就 起 了 这 么 个 名 字 。随 机 区 组 设 计 主 要 用 于 人 体 或 实 验 单 位 之 间 有 明 显 差 异 或 实 质 性 差 异 的 情 况 下 。 它 通 常 将• 29 •


受 试 对 象 按 性 质 ( 如 动 物 的 性 别 、 体 重 , 病 人 的 病 情 、 性 别 、 年 龄 等 非 实 验 因 素 ) 相 同 或 相 近 者 组成 b 个 区 组 , 每 个 区 组 中 的 k 个 受 试 对 象 分 别 随 机 分 配 到 k 个 处 理 组 中 去 ; 或 对 同 一 个 受 试 对 象在 同 一 处 理 不 同 水 平 间 进 行 比 较 。 当 处 理 因 素 的 水 平 数 k=2 时 , 即 为 配 对 设 计 (Paired Design)。该 设 计 的 优 点 是 每 个 区 组 内 的 k 个 受 试 对 象 有 较 好 的 同 质 性 , 组 间 均 衡 性 较 好 , 与 完 全 随 机设 计 相 比 , 提 高 了 实 验 效 率 ; 缺 点 是 要 求 区 组 内 受 试 对 象 数 与 处 理 数 相 等 , 实 验 结 果 中 若 有 数 据缺 失 , 统 计 分 析 较 麻 烦 。 对 于 随 机 区 组 设 计 资 料 的 统 计 分 析 , 可 用 随 机 区 组 方 差 分 析 或 秩 和 检验 。 但 该 设 计 由 于 每 一 个 格 子 内 只 有 一 个 观 察 值 , 即 单 元 格 内 无 重 复 数 据 , 所 以 交 互 作 用 和 方 差齐 性 无 法 考 察 。 若 配 伍 因 素 与 研 究 因 素 间 的 交 互 作 用 不 能 忽 略 , 则 简 单 的 区 组 设 计 并 不 合 适 , 应当 采 用 每 一 个 格 子 内 有 两 个 或 两 个 以 上 观 察 值 的 随 机 区 组 设 计 (Generalized Randomized BlockDesigns) , 或 采 用 其 他 能 考 虑 交 互 作 用 的 设 计 方 法 。例 2.1 某 研 究 者 将 24 名 贫 血 患 儿 按 年 龄 及 贫 血 程 度 分 成 8 个 区 组 (b = 8) , 每 区 组 中 三 名儿 童 用 随 机 的 方 式 分 配 给 A 、 B 和 C 三 种 不 同 的 治 疗 方 法 ( 处 理 组 , k = 3) 。 治 疗 后 血 红 蛋 白 含 量的 增 加 量 (g/L) 列 表 参 见 表 2.10表 2.1区 组12345贫 血 患 儿 不 同 疗 法 治 疗 后 血 红 蛋 白 含 量 的 增 加 量 Cg/UA 疗 法'11Ali-Ali-A4·- 659310i2B 疗 法MMC 疗 法123211183 805372刀口/OM83呵/00」该 例 的 分 析 可 采 用 随 机 区 组 设 计 的 方 差 分 析 , 即 无 重 复 数 据 的 两 因 素 方 差 分 析 , 前 面 己 有 类似 分 析 , 故 不 再 详 述 。2. 1. 3交 叉 设 计交 叉 设 计 (Cross-overDesign) 是 在 自 身 配 对 设 计 基 础 上 发 展 的 设 计 方 法 , 是 一 种 特 殊 的 自 身对 照 设 计 。 它 可 在 同 一 病 人 身 上 观 察 两 种 或 多 种 处 理 的 效 应 , 消 除 病 人 之 间 的 变 异 , 减 少 误 差 ,提 高 检 验 效 能 。 具 体 操 作 是 按 事 先 设 计 好 的 试 验 次 序 , 在 各 个 时 期 对 研 究 对 象 先 后 实 施 各 种 处理 , 比 较 各 处 理 组 间 的 差 异 , 以 两 个 阶 段 ( 1 、 ID 、 两 种 处 理 (A 、 B) 为 例 , 方 法 一 为 首 先 将 条 件 相近 的 观 察 对 象 配 对 后 , 用 随 机 分 配 的 方 法 决 定 其 中 之 一 采 用 处 理 A , 采 用 处 理 B , 相 对 应 的 另 一对 象 则 第 I 阶 段 采 用 处 理 方 式 B , 第 H 阶 段 采 用 处 理 方 式 A 。 方 法 二 是 将 受 试 对 象 随 机 分 为 两组 , 然 后 将 A 、 B 两 种 处 理 因 素 先 后 施 于 同 一 批 受 试 对 象 , 使 一 组 受 试 对 象 在 第 I 阶 段 接 受 A 处理 , 第 H 阶 段 接 受 B 处 理 , 试 验 顺 序 为 AB; 另 一 组 受 试 对 象 在 第 I 阶 段 接 受 B 处 理 , 第 H 阶 段 接受 A 处 理 , 试 验 顺 序 为 BA 。 两 种 处 理 因 素 在 全 部 试 验 过 程 中 " 交 叉 " 进 行 。 该 设 计 平 衡 了 试 验• 30 •


顺 序 的 影 响 , 除 了 能 分 析 处 理 因 素 之 间 的 差 别 外 , 还 能 分 析 时 间 先 后 顺 序 的 差 别 。 如 果 在 交 叉 设计 中 有 三 个 阶 段 , 即 一 组 处 理 顺 序 为 ABA , 另 一 组 处 理 顺 序 为 BAB 时 , 该 交 叉 设 计 称 为 两 种 处 理两 重 交 叉 设 计 。交 叉 设 计 中 需 要 注 意 如 下 几 点 :(1) 由 于 每 个 受 试 对 象 都 接 受 两 种 药 物 , 为 了 减 少 阶 段 I 所 服 药 物 对 阶 段 H 的 影 日 晌 向 , 所 以 在两 个 试 验 阶 段 之 间 要 设 立 "1 清 青 洗 期 " (Wa 削 sh 肌 It Time) , 其 间 不 服 用 任 何 药 物 " 清 洗 期 " 的 长 度 根据 药 物 的 半 衰 期 未 确 定 。 这 样 前 者 的 效 应 就 不 会 对 后 者 的 效 应 产 生 影 响 。(2) 该 设 计 不 适 用 于 病 程 较 短 的 急 性 病 治 疗 效 果 的 研 究 , 它 主 要 适 用 于 病 情 稳 定 、 病 程 相 对较 长 的 疾 病 。(3) 在 实 施 过 程 中 尽 可 能 采 用 盲 法 , 以 提 高 受 试 对 象 的 依 从 性 , 避 免 偏 倚 。显 然 , 交 叉 设 计 的 实 质 就 是 病 例 的 自 身 对 照 设 计 , 但 是 通 过 " 交 叉 " 的 方 式 将 时 间 因 素 的 影响 又 分 解 了 出 来 , 避 免 了 它 对 研 究 结 果 的 干 扰 。 因 此 该 设 计 的 最 大 优 点 是 可 控 制 时 间 因 素 及 个体 差 异 对 处 理 方 式 的 影 响 , 故 节 约 样 本 含 量 , 效 率 较 高 ; 同 时 , 从 医 德 的 观 点 出 发 , 均 等 地 考 虑 了每 一 个 患 者 的 利 益 。 缺 点 是 每 个 处 理 时 间 不 能 太 长 , 当 受 试 对 象 在 某 一 阶 段 退 出 试 验 时 , 会 造 成该 阶 段 及 以 后 阶 段 的 数 据 缺 失 , 增 加 统 计 分 析 的 困 难 。交 叉 设 计 的 数 据 可 以 采 用 方 差 分 析 法 来 进 行 统 计 , 可 分 析 处 理 ( 药 物 ) 效 应 、 阶 段 效 应 、 和 个体 差 异 。 其 中 处 理 效 应 是 希 望 研 究 的 因 素 。例 2.2 为 研 究 12 名 高 血 压 病 人 采 用 A 、 B 两 方 案 疗 效 的 差 别 , 随 机 地 让 其 中 6 名 病 人 先 以A 法 治 疗 , 后 以 B 法 治 疗 ; 另 外 6 名 病 人 先 B 法 , 后 A 法 。 记 录 治 疗 后 血 压 的 下 降 值 (kPa) , 结 果列 于 表 2.2 。 试 分 析 A 、 B 两 方 案 疗 效 有 无 差 别 。表 2.2A 、 B 两 方 案 治 疗 高 血 压 病 人 后 血 压 的 下 降 情 况阶 段病 人 编 号2 3 4 5 6 7 8 9 10 11 12B B A B A A A A B B B A3.07 1. 33 4.40 1. 87 3.20 3.73 4.13 1. 07 1. 07 2.27 3.47 2.40H A A B A B B B B A A A B2.80 1. 47 3.73 3.60 2.67 1. 60 2.67 1. 73 1. 47 1. 87 3.47 1. 73解 : 该 数 据 己 输 入 文 件 crossove r. sav , 变 量 bp 为 血 压 值 , treat 、 stage 、 patient 分 别 为 治 疗 方 案 、治 疗 阶 段 和 病 人 编 号 。 分 析 时 应 注 意 不 要 引 入 交 互 作 用 , 操 作 如 下 :!Analyze→ Ge 时 ral Li 时 al Model• Univariate:Dependent List 杠 : bp I Fixed Factor 杠 : treat 、 stage I Random Factor 杠 : patient匪 ~:面Custom I Build Terms 下 拉 列 表 : Main effects I Model 杠 : treat 、 stage 、 patient囚• 31 •


Patient 选 入 Random Factor 框 , 是 由 于 被 patient 看 作 是 一 个 总 体 中 抽 样 得 来 的 , 结 果 中 的 方差 分 析 参 见 表 2.30表 2.3Tests of Between-Subjects EffectsDependent Variable血 压 下 啤 值Type 111 SumSource of Squares df Mean Square F SigIntercept Hypothesis 154.128 才 54.128 94.673 .000Error 17.908 11 1.628 astage Hypothesis 427 .427 才 150 309Error 3.711 10 .371 btreat Hypothesis 1.707 1.707 4.599 058Error 3.711 10 .371 bpatient Hypothesis 17.908 11 1.628 4.387 。 才 4a MS(patient)bMS(Error)Error 3.711 10 .371 b由 表 2.3 可 见 , 变 量 treat 的 F = 4.599 , P = 0.058 , 因 此 尚 不 能 认 为 两 种 治 疗 方 案 的 疗 效 有差 别 。 当 然 , 由 于 本 例 中 的 patient为 自 身 配 对 , 单 元 格 中 没 有 重 复 数 据 , 因 此 上 面 分 析 中 也 可 以将 patient 按 固 定 因 素 来 分 析 , 结 果 完 全 相 同 。这 里 可 能 有 朋 友 会 提 出 , 既 然 stage 没 有 统 计 学 意 义 , 能 否 将 该 变 量 剔 除 出 模 型 重 新 分 析 ?笔 者 认 为 这 样 是 不 合 适 , 原 因 是 : 交 叉 设 计 最 常 用 于 新 药 临 床 试 验 , 此 时 并 非 探 索 性 分 析 , 而 是 证实 性 分 析 。 证 实 性 分 析 在 试 验 设 计 时 就 充 分 考 虑 了 所 有 因 素 , 从 而 决 定 了 所 用 的 统 计 方 法 , 绝 对不 能 根 据 统 计 结 果 来 更 改 方 法 , 这 种 做 法 是 统 计 分 析 , 尤 其 是 证 实 性 分 析 的 大 忌 。 未 能 检 出 统 计学 差 异 也 许 只 是 因 为 检 验 效 能 不 够 高 ( 例 2.2 中 stage 的 检 验 效 能 仅 有 O. 163) , 期 次 实 际 上 反 映的 是 时 间 的 影 响 , 该 试 验 设 计 中 考 虑 了 期 次 这 个 因 素 , 实 际 上 就 己 经 默 认 该 因 素 有 影 响 , 不 宜 将其 忽 略 , 这 样 做 等 于 是 更 改 了 试 验 设 计 。 例 如 , 如 果 配 伍 设 计 方 差 分 析 中 配 伍 因 素 无 统 计 学 意义 , 能 认 为 同 一 个 体 的 不 同 次 测 量 数 据 间 无 联 系 , 配 伍 因 素 不 存 在 , 从 而 按 成 组 设 计 来 分 析 吗 ?当 然 不 能 。2. 1. 4 拉 丁 方 设 计拉 丁 方 设 计 CLatinSquare Design) 用 于 研 究 三 个 及 以 上 因 素 、 各 因 素 间 无 交 互 作 用 且 每 个 因素 的 水 平 数 相 同 的 情 况 , 但 很 少 用 于 8个 水 平 以 上 。 一 般 最 常 用 于 三 个 因 素 , 其 中 有 一 个 最 重 要的 因 素 称 之 为 处 理 因 素 , 用 字 母 r 表 示 , 另 外 两 个 是 需 要 加 以 控 制 的 因 素 , 分 别 用 行 和 列 表 示 , 即它 要 将 实 验 因 素 的 r 个 水 平 随 机 地 排 列 成 r 行 r 列 的 方 阵 ( 最 早 是 用 r 个 拉 丁 字 母 来 排 这 种 方阵 , 故 称 其 为 拉 丁 方 ) , 该 方 阵 是 用 r 个 拉 丁 字 母 排 成 的 r 行 r 列 方 阵 , 方 阵 中 的 每 行 每 列 中 , 每 个拉 丁 字 母 只 出 现 一 次 , 所 以 这 个 方 阵 叫 r 阶 拉 丁 方 , 或 rXr 拉 丁 方 。拉 丁 方 设 计 的 特 点 是 :• 32 •


(1) 可 安 排 一 个 实 验 因 素 、 两 个 区 组 因 素 。(2) 三 个 因 素 的 水 平 数 相 同 , 以 实 验 因 素 的 水 平 数 为 基 准 。(3) 要 求 三 个 因 素 之 间 不 存 在 交 互 作 用 ( 或 交 互 作 用 可 忽 略 不 计 )。(4) 该 设 计 可 以 看 成 纵 横 两 向 都 是 配 伍 组 , 比 随 机 区 组 设 计 多 了 一 个 控 制 因 素 , 但 并 不 因 此而 增 加 实 验 例 数 , 所 以 比 随 机 区 组 设 计 误 差 更 小 , 效 率 更 高 。 故 拉 丁 方 设 计 不 仅 可 以 达 到 减 少 受试 对 象 个 数 的 目 的 , 而 且 可 以 减 少 或 消 除 两 个 重 要 的 非 处 理 因 素 对 实 验 结 果 的 影 响 。拉 丁 方 设 计 虽 然 可 以 从 较 少 的 实 验 数 据 , 获 得 较 多 的 信 息 , 比 随 机 区 组 设 计 更 优 越 , 但 如 果各 因 素 间 有 交 互 影 响 存 在 时 , 用 拉 丁 方 设 计 就 不 合 适 了 ; 其 次 , 拉 丁 方 设 计 要 求 各 因 素 的 水 平 数必 须 相 等 , 在 数 据 采 集 时 不 能 出 现 缺 失 值 , 否 则 将 导 致 数 据 无 法 按 原 计 划 进 行 分 析 , 但 这 在 实 际工 作 中 有 时 不 易 做 到 , 因 此 拉 丁 方 设 计 的 应 用 有 一 定 的 局 限 性 。例 2.3 为 研 究 不 同 背 景 音 乐 对 电 台 播 音 员 的 工 作 效 果 , 对 播 音 员 连 续 5 个 星 期 的 用 一 ~周 五 分 别 播 放 A 、 B 、 C 、 D 、 E 共 5 种 不 同 的 背 景 音 乐 , 结 果 参 见 表 2.40表 2.4不 同 背 景 音 乐 、 周 次 、 工 作 日 对 电 台 播 音 员 工 作 效 果 的 影 晌周 次星期四五l 18 (D) 17 (c) 14 (A) 21 (B) 17 (E)2 13(C) 34 (B) 21 (E) 16 (A) 15 (D)3 7 (A) 29 (D) 32 (B) 27 (E) 13(C)4 17 (E) 13 (A) 24 (c) 31 (D) 25 (B)5 21 (B) 26 (E) 26 (D) 31 (c) 7 (A)数 据 见 文 件 latin. sav 。 以 week 代 表 周 次 , day 代 表 星 期 , mUSlC 代 表 背 景 音 乐 , score 代 表 效果 得 分 , 分 析 步 骤 如 下 , 需 注 意 的 一 点 是 由 于 拉 丁 方 不 分 析 交 互 作 用 , 所 以 在 模 型 设 置 时 应 选 主效 应 。: Analyze-• General Lineal Model 一 → Univariate:Dependent List 杠 : score I Fixed Factor 杠 : mUSlC 、 week 、 day画 画 :哑Custom I Build Terms 下 拉 列 表 : Main effects I Model 杠 : mUSlC 、 week 、 day曰结 果 中 的 方 差 分 析 表 参 见 表 2.5 。由 表 2.5 可 见 , 不 同 的 工 作 日 和 不 同 的 背 景 音 乐 对 电 台 播 音 员 的 工 作 效 果 均 有 影 响 , 而 周 次无 统 计 学 意 义 。 再 进 一 步 对 有 统 计 学 意 义 的 变 量 用 SNK 法 作 两 两 比 较 , 结 果 参 见 表 2. 6 和 表2.70• 33 •


表 2.5Tests of Between-Subjects EffectsDependent Variable: scoreType 111 SumSource of Squares df Mean Square F SigCorrected Model 才 223.600 a 12 才 01.967 6 .495 .00 才Intercept 10609.000 10609.000 675.732 .000week 82.000 4 20.500 1.306 .323day 477. 200 4 才 19.300 7.599 .003muslc 664.400 4 才 66.100 10.580 .00 才Error 188.400 12 15.700Total 12021.000 25Corrected T otal 才 412.000 24a. R Squared = 8 日 7 (Adjusted R Squared = 733)由 表 2. 6 和 表 2. 7 可 见 , 第 一 种 背 景 音 乐 的 效 果 明 显 低 于 其 他 4 种 背 景 音 乐 , 而 星 期 一 和 星期 五 的 工 作 效 果 明 显 低 于 星 期 二 、 星 期 三 、 星 期 四 。表 2.6scoreStudent-Newman-Keuls a,bSubsetmuslc N 25 11 .403 5 19.605 5 21.604 5 23.802 5 26.60Sig 1.000 068- a. Uses Harmonic Mean Sample Size = 5 口 口 口b Alpha = 口 52.2 考 虑 交 互 作 用 的 实 验 设 计 方 案2.2.1 析 因 设 计析 因 设 计 CFactorialDesign) 是 将 两 个 或 两 个 以 上 因 素 及 其 各 种 水 平 进 行 排 列 组 合 、 交 叉 分组 的 试 验 设 计 , 简 而 言 之 即 是 一 种 多 因 素 多 水 平 交 叉 分 组 进 行 全 面 试 验 的 设 计 方 法 , 它 可 以 研 究两 个 或 两 个 以 上 因 素 多 个 水 平 的 效 应 , 也 可 研 究 各 因 素 之 间 是 否 有 交 互 作 用 , 同 时 还 可 找 到 最 佳组 合 。 在 进 行 析 因 设 计 时 , 研 究 者 首 先 为 每 个 因 素 选 定 一 定 数 目 的 水 平 , 然 后 在 全 部 可 能 的 水 平• 34 •


组 合 下 进 行 实 验 。 例 如 2 个 因 素 同 时 进 行 实 验 , 每 个 因 素 取 两 个 水 平 , 实 验 的 总 组 合 数 为 2 2 =4;如 果 水 平 为 3 , 则 有 3 2 = 9 种 组 合 数 , 若 有 3 个 因 素 , 每 个 因 素 取 4 个 水 平 , 则 有 4 3 =64 种 组 合 数进 行 实 验 。如 果 在 一 次 实 验 中 , 当 一 个 因 素 的 水 平 间 的 效 应 随 其 他 因 素 的 水 平 不 同 而 变 化 时 , 因 素 之 间就 存 在 交 互 作 用 , 析 因 设 计 可 以 分 析 多 种 交 互 作 用 , 两 个 因 素 间 的 交 互 作 用 称 为 一 级 交 互 作 用 ,三 个 因 素 间 的 交 互 作 用 称 为 二 级 交 互 作 用 , 4个 因 素 间 的 则 称 为 三 级 交 互 作 用 , 依 此 类 推 乃 至 更高 级 的 交 互 作 用 。 例 如 观 察 三 个 因 素 的 效 应 , 其 一 级 交 互 作 用 为 :AxB , AxC 与 B x C , 二 级 交互 作 用 为 AxBxC 。 当 析 因 设 计 因 素 与 水 平 过 多 时 , 使 交 互 作 用 分 析 内 容 繁 多 , 计 算 复 杂 , 而 且带 来 专 业 解 释 的 困 难 , 故 多 用 简 单 的 析 因 设 计 , 一 般 要 求 处 理 因 素 最 好 在 4个 以 内 , 各 因 素 包 括的 水 平 数 不 宜 划 分 得 过 细 , 其 中 两 水 平 析 因 设 计 是 重 要 的 一 种 , 因 其 实 验 次 数 少 , 在 研 究 之 初 当有 大 量 因 素 需 要 进 行 筛 选 时 特 别 有 效 。 在 析 因 设 计 中 , 每 个 因 素 各 水 平 的 选 择 取 决 于 研 究 目 的 ,如 仅 想 了 解 因 素 的 主 次 及 两 因 素 有 无 交 互 作 用 , 可 将 水 平 设 为 有 、 无 ; 如 欲 探 讨 两 因 素 的 最 佳 组合 , 则 以 两 个 实 际 剂 量 作 为 两 个 水 平 。析 因 设 计 的 优 点 主 要 是 :(1) 同 时 观 察 多 个 因 素 的 效 应 , 提 高 了 实 验 效 率 。(2) 能 够 分 析 各 因 素 间 的 交 互 作 用 。(3) 容 许 一 个 因 素 在 其 他 各 因 素 的 几 个 水 平 上 来 估 计 其 效 应 , 所 得 结 论 在 实 验 条 件 的 范 围内 是 有 效 的 。工 口 \IJ/介1。八析 因 设 计 的 特 点 主 要 如 下 :(1) 实 验 中 涉 及 m 个 实 验 因 素 协 主 2) 。(2) 所 有 m 个 实 验 因 素 的 水 平 都 互 相 搭 配 到 , 构 成 s 个 实 验 条 件 (s 为 m 个 因 素 的 水 平 数 之(3) 在 每 个 实 验 条 件 下 至 少 要 做 2 次 独 立 重 复 实 验 , 即 总 实 验 次 数 N 王 三 2so(4) 做 实 验 时 , 每 次 都 涉 及 全 部 因 素 , 即 因 素 是 同 时 施 加 的 。(5) 进 行 统 计 分 析 时 , 将 全 部 因 素 视 为 对 观 测 指 标 的 影 响 是 同 等 重 要 的 , 即 因 素 之 间 在 专 业上 是 地 位 平 等 的 ( 应 以 专 业 知 识 为 依 据 ) , 具 体 体 现 在 分 析 每 一 项 ( 包 括 主 效 应 和 交 互 效 应 ) 时 所用 的 误 差 是 相 同 的 , 它 被 称 为 模 型 的 误 差 项 。析 因 设 计 的 资 料 分 析 采 用 方 差 分 析 , 当 有 交 互 作 用 时 , 主 效 应 不 能 反 映 该 因 素 的 真 实 作 用 ,因 此 要 计 算 一 个 因 素 在 另 一 因 素 的 某 一 特 定 水 平 上 的 效 应 。例 2.4为 研 究 杂 志 广 告 大 小 以 及 广 告 方 案 对 于 收 到 邮 购 请 求 数 目 ( 千 个 ) 的 影 响 , 考 察 了三 种 广 告 方 案 和 两 种 不 同 大 小 的 广 告 , 结 果 如 表 2. 8 所 示 , 试 作 统 计 分 析 。表 2.8广 告 大 小 和 广 告 方 案 对 邮 购 请 求 数 目 ( 干 个 ) 的 影 晌方 案 A B C广 告 小 8 , 12 22 , 14 10 , 18大 小 大 12 , 8 26 ,30 18 , 14• 35 •


此 为 2 x3 析 因 设 计 , 一 个 因 素 为 两 水 平 , 一 个 因 素 为 三 水 平 , 可 分 别 分 析 广 告 方 案 和 广 告 大小 的 影 响 , 还 可 分 析 两 者 的 交 互 作 用 。在 做 统 计 分 析 之 前 , 首 要 的 任 务 就 是 建 立 分 析 用 的 数 据 集 , 以 project 代 表 方 案 , A 、 B 、 C 分 别以 0 、 L2 表 示 , Slze 代 表 大 小 , 0 表 示 小 , 1 表 示 大 , number 表 示 邮 购 请 求 数 目 , 具 体 见 文 件 xlym.savo 分 析 步 骤 如 下 :: Analyze-• General Lineal Model 一 → Univariate:Dependent List 杠 : number I Fixed Factor 杠 : project 、 Slzel 因主 要 的 分 析 结 果 如 表 2.9 所 示 。由 上 面 结 果 可 知 , 广 告 大 小 以 及 广 告 大 小 和 广 告 方 案 的 交 互 作 用 均 无 统 计 学 意 义 , 而 广 告 方案 有 统 计 学 意 义 。 在 无 交 互 作 用 的 情 况 下 , 一 般 要 去 除 交 互 项 , 然 后 再 重 新 分 析 各 因 素 的 主 效应 , 本 例 中 结 果 仍 然 是 广 告 方 案 有 统 计 学 意 义 , 而 广 告 大 小 无 统 计 学 意 义 。如 果 广 告 大 小 和 广 告 方 案 的 交 互 作 用 有 统 计 学 意 义 , 则 广 告 大 小 和 广 告 方 案 各 自 的 主 效 应有 无 统 计 学 意 义 己 经 没 有 实 用 价 值 , 应 当 继 续 按 各 种 不 同 的 组 合 来 分 析 , 即 :(1) 小 广 告 时 广 告 方 案 间 有 无 差 别 , 即 Slze 为 O 时 , A 、 B 、 C 三 种 方 案 之 间 有 无 差 别 。(2) 大 广 告 时 广 告 方 案 间 有 无 差 别 , 即 Slze 为 1 时 , A 、 B 、 C 三 种 方 案 之 间 有 无 差 别 。(3) A 方 案 时 广 告 大 小 间 有 无 差 别 , 即 project 为 O 时 , 大 、 小 广 告 之 间 有 无 差 别 。(4) B 方 案 时 广 告 大 小 间 有 无 差 别 , 即 project 为 1 时 , 大 、 小 广 告 之 间 有 无 差 别 0(5) C 方 案 时 广 告 大 小 间 有 无 差 别 , 即 project 为 2 时 , 大 、 小 广 告 之 间 有 无 差 别 。这 样 才 能 真 正 准 确 地 回 答 杂 志 广 告 大 小 以 及 广 告 方 案 对 于 收 到 邮 购 请 求 数 目 ( 千 个 ) 的 影响 , 这 种 精 细 比 较 可 以 用 上 一 章 学 到 的 lmatrix 子 句 编 程 实 现 , 此 处 不 再 重 复 。 例 2. 4 中 因 交 互作 用 无 统 计 学 意 义 , 所 以 不 必 拆 开 分 析 。• 36 •


2.2.2 正 交 设 计当 析 因 设 计 (Orthogonal Design) 要 求 的 实 验 次 数 太 多 时 , 一 个 非 常 自 然 的 想 法 就 是 从 析 因 设计 的 水 平 组 合 中 , 选 择 一 部 分 有 代 表 性 水 平 组 合 进 行 试 验 。 因 此 就 出 现 了 分 式 析 因 设 计 (FractionalFactorial Designs) , 正 交 试 验 设 计 是 分 式 析 因 设 计 的 主 要 方 法 , 是 同 时 研 究 多 因 素 作 用 的 又一 种 设 计 方 法 , 它 根 据 正 交 性 从 全 面 试 验 中 挑 选 出 部 分 有 代 表 性 的 点 进 行 试 验 , 这 些 有 代 表 性 的点 具 备 了 " 均 匀 分 散 , 齐 整 可 比 " 的 特 点 , 因 此 该 设 计 是 一 种 高 效 率 、 快 速 、 经 济 的 实 验 设 计 方 法 。日 本 著 名 的 统 计 学 家 田 口 玄 一 将 正 交 试 验 选 择 的 水 平 组 合 列 成 表 格 , 称 为 正 交 表 , 代 号 为L (K m ) , 其 中 L 表 示 正 交 表 , n 表 示 做 n 次 实 验 , K 表 示 水 平 数 , m 表 示 可 安 排 的 因 子 数 。 正 交 试验 设 计 特 别 适 用 于 因 素 个 数 比 较 多 , 而 每 一 个 因 素 所 分 的 类 别 比 较 少 的 情 况 。 前 面 所 讲 的 拉 丁方 设 计 可 以 看 作 是 正 交 试 验 设 计 的 一 个 特 例 。 在 正 交 试 验 中 , 分 析 交 互 作 用 比 较 方 便 。 作 正 交试 验 及 方 差 分 析 后 , 还 可 以 寻 找 最 佳 方 案 、 最 佳 配 方 或 最 佳 治 疗 方 案 , 并 可 作 最 佳 配 方 下 的 参 数估 计 。正 交 表 的 最 大 特 点 是 具 有 正 交 性 , 这 指 的 是 每 个 因 素 的 每 个 水 平 与 另 一 个 因 素 每 个 水 平 各组 合 一 次 。 正 交 表 的 设 计 可 查 阅 专 用 统 计 书 籍 来 找 到 正 交 表 格 的 排 列 方 法 , 同 时 SPSS 为 了 方 便用 户 , 在 Conjoint 模 块 中 也 提 供 了 正 交 设 计 功 能 。 在 安 装 了 该 模 块 后 , Data 菜 单 中 就 会 出 现 OrthogonalDesign 子 菜 单 , 用 户 只 需 要 按 研 究 目 的 选 好 试 验 因 素 数 、 水 平 数 以 及 样 本 例 数 , 系 统 就 会自 动 生 成 相 应 设 计 格 式 的 数 据 文 件 。 由 于 SPSS 中 的 正 交 设 计 功 能 是 为 联 合 分 析 提 供 支 持 , 里 面有 许 多 联 合 分 析 专 用 的 选 项 , 因 此 本 书 将 不 再 对 它 进 行 介 绍 , 希 望 进 一 步 学 习 相 关 知 识 的 读 者 可参 见 本 系 列 丛 书 的


表 2.11正 交 设 计 及 其 结 果A B C D E 黄 化 率 (0/0 )l 2 65l 2 l 742 l l 712 2 2 732 l l l 702 l 2 2 732 2 l 2 622 2 2 l 67数 据 录 入 格 式 同 拉 丁 方 设 计 和 析 因 设 计 , 具 体 见 文 件 zhenjiao. sav , 分 析 步 骤 如 下 :: Analyze-• General Lineal Model 一 → Univariate:Dependent List 杠 : lv I Fixed Factor 杠 : a 、 b 、 c 、 d画 画 :哑Custom I Model 丰 匡 : a 、 b 、 c 、 d I Model 丰 匡 : a * b巴分 析 结 果 参 见 表 2. 12由 表 2.12 可 见 反 应 温 度 与 反 应 时 间 存 在 交 互 作 用 , 硫 酸 浓 度 是 影 响 乙 眈 苯 肢 磺 化 的 主 要 因素 , 而 操 作 方 法 的 影 响 相 对 较 弱 。 本 例 还 可 以 进 一 步 使 用 lmatrix 子 句 进 行 精 细 比 较 , 此 处 略 。• 38 •


2.2.3 均 匀 设 计均 匀 设 计 (Uniform Design) 是 我 国 统 计 学 家 方 开 泰 于 1978 年 提 出 的 , 是 假 设 实 验 点 在 实 验范 围 内 均 匀 散 布 的 一 种 多 因 素 多 水 平 的 试 验 设 计 , 它 在 正 交 设 计 的 基 础 上 进 一 步 发 展 而 成 , 即 在正 交 表 的 基 础 上 放 弃 正 交 表 的 整 齐 可 比 性 , 进 一 步 提 高 试 验 点 的 " 均 匀 分 散 性 " 并 根 据 点 在 空间 的 散 布 程 度 ( 偏 差 D , D 越 小 则 说 明 点 的 分 布 越 均 匀 ) 的 原 理 为 使 用 者 提 供 了 一 套 均 匀 设 计 表( 目 前 有 专 门 的 均 匀 设 计 软 件 用 于 筛 选 均 匀 设 计 表 ) , 代 号 为 U n (qS) , 其 中 U 表 示 均 匀 设 计 , n 表示 做 n 次 实 验 , q 表 示 每 个 因 素 有 q 个 水 平 , s 表 示 该 表 有 s 列 。 由 于 均 匀 设 计 表 列 间 的 相 关 性 ,每 个 表 最 多 只 能 安 排 (s/2 + 1) 个 因 素 。 它 的 思 想 是 如 果 决 定 做 n 次 试 验 , 则 这 n 个 点 在 所 考 察的 范 围 内 应 该 尽 可 能 地 均 匀 分 散 。均 匀 设 计 表 有 以 下 特 点 :(1) 每 个 因 素 的 每 个 水 平 仅 做 一 次 试 验 。(2) 任 两 个 因 素 的 试 验 点 在 平 面 的 交 叉 格 子 点 的 每 行 及 每 列 上 仅 有 一 个 试 验 点 。(3) 均 匀 表 中 任 两 列 组 成 的 试 验 方 案 一 般 并 不 等 价 。 因 此 每 个 均 匀 表 都 需 要 附 有 一 个 使 用表 。(4) 当 因 素 的 水 平 数 增 加 时 , 实 验 次 数 按 水 平 数 的 增 加 量 增 加 , 比 如 某 因 素 的 水 平 数 从 9 水平 增 加 到 10 水 平 , 则 试 验 次 数 从 9 次 增 加 到 10 次 , 所 以 在 因 素 水 平 数 多 的 情 况 下 均 匀 设 计 更 为有 用 。均 匀 设 计 的 最 大 优 点 是 可 以 使 因 素 的 水 平 数 很 大 , 而 试 验 次 数 又 最 节 省 , 这 是 其 他 己 有 的 试验 设 计 方 法 所 不 具 备 的 , 实 际 上 , 没 有 一 种 试 验 方 案 可 以 比 均 匀 设 计 更 节 省 试 验 次 数 ; 它 可 以 方便 地 安 排 2 ~ 18 个 因 素 的 试 验 , 而 且 在 回 归 分 析 时 可 考 察 因 素 间 的 交 互 作 用 。 它 的 缺 点 是 对 试验 结 果 进 行 统 计 分 析 比 较 复 杂 , 通 常 使 用 二 次 响 应 曲 面 回 归 。一 般 来 说 , 均 匀 设 计 多 用 于 在 进 行 试 验 条 件 的 初 步 考 察 阶 段 ( 被 考 察 的 因 素 较 多 , 且 考 察 的因 素 水 平 范 围 较 广 ) , 这 样 可 以 用 很 少 的 工 作 量 确 定 大 致 合 适 的 试 验 条 件 。例 2.6为 确 定 微 波 辅 助 萃 取 何 首 乌 的 最 佳 工 艺 条 件 , 考 察 了 微 波 功 率 、 微 波 辐 射 时 间 、 溶剂 用 量 、 浸 泡 时 间 等 因 素 , 以 二 苯 乙 烯 昔 为 因 变 量 y , 因 素 水 平 及 均 匀 设 计 安 排 和 结 果 见 表 2.13和 表 2.14 , 其 中 均 匀 设 计 表 选 用 了 U lO (0 8 ) 。表 2.13影 晌 微 波 辅 助 萃 取 f 可 首 乌 工 艺 的 因 素 及 其 水 平 数因 素水 平2 3 4 5X) 微 波 功 率 (W) 170 340 510 680 850X 2 辐 射 日 才 | 可 (min 10 20 30 40 50X3 浸 泡 时 间 也 ) 2 3 4 5X 4 乙 醇 浓 度 (0/0 ) 55 65 75 85 95X s 乙 醇 用 量 (1 音 ) 4 6 8 10 12• 39 •


表 2.14均 匀 设 计 安 排 及 其 结 果试 验 号 X) X 2X 3X 4 X s 二 苯 乙 烯 昔 含 量 (0/0) y2 2 3 5 3.642 3 4 5 4 4.613 2 5 2 3 3.374 2 3 5 2 7.925 3 2 5 2 5.616 3 4 4 5 3. 797 4 5 3 l 4 4.348 4 5 4 3 5.929 5 3 2 l 2 3.1310 5 4 4 3 5.36本 例 可 以 在 SPSS 中 使 用 R 吨 reSS lO n→ Nonlinear 进 行 二 次 响 应 曲 面 回 归 , 分 析 结 果 为 :y=o. 527 13 - 1. 172 96X] + 1. 376 99X~ + O. 658 85X] X 4- O. 720 96 乓 毛 -0.28247 乓 , 复 相 关 系 数 R=0.997 6 。 由 回 归 方 程 可 见 , 微 波 功 率 和 乙 醇 浓 度 之 间 存 在 交 互 作 用 , 而 辐 射 时 间 和 浸 泡 时 间之 间 有 交 互 作 用 , 其 中 微 波 功 率 和 乙 醇 用 量 是 微 波 辅 助 萃 取 何 首 乌 的 主 要 影 响 因 素 , 所 以 在 确 定微 波 辅 助 萃 取 何 首 乌 的 最 佳 工 艺 条 件 时 要 综 合 考 虑 各 因 素 , 尤 其 是 微 波 功 率 、 乙 醇 用 量 和 乙 醇 浓度 。 关 于 非 线 性 回 归 过 程 的 具 体 操 作 读 者 可 参 见 本 书 第 8 章 , 这 里 不 再 详 述 。2.3 误 差 项 变 动 的 特 殊 实 验 设 计 方 案本 节 将 要 向 大 家 介 绍 几 种 特 殊 的 实 验 设 计 方 案 : 嵌 套 设 计 、 重 复 测 量 设 计 和 裂 区 设 计 , 他 们在 分 析 时 仍 然 是 用 方 差 分 析 模 型 , { 且 特 殊 之 处 在 于 变 异 的 计 算 和 其 他 设 计 的 不 一 样 , 进 行 检 验 时所 使 用 的 误 差 项 是 变 动 的 , 而 不 是 固 定 的 , 从 而 利 用 了 设 计 中 提 供 的 影 响 因 素 的 主 次 信 息 。 如 果不 这 样 做 , 则 可 能 得 出 错 误 的 结 论 。2.3.1 嵌 套 设 计当 考 虑 的 因 素 之 间 存 在 层 次 性 结 构 , 即 嵌 套 结 构 的 每 一 层 次 都 是 其 上 一 层 次 的 有 效 细 化 , 或各 个 试 验 因 素 的 影 响 根 据 专 业 知 识 有 主 次 之 分 , 次 要 因 素 的 各 个 水 平 嵌 套 在 主 要 因 素 的 水 平 下时 , 这 时 所 做 的 设 计 常 为 嵌 套 设 计 (Nested Design) 。 以 两 因 素 嵌 套 设 计 为 例 , 比 如 欲 了 解 学 校也 因 素 ) 与 教 师 (B 因 素 ) 在 学 生 学 习 效 果 中 的 作 用 , 在 两 所 学 校 中 分 别 安 排 两 位 教 师 , 则 A 因素 有 L2 两 水 平 ( 两 所 学 校 ), B 因 素 有 1 , 2 , 3 、 4 四 水 平 ( 两 所 学 校 中 共 安 排 了 4 位 教 师 ) , A 因 素的 1 水 平 ( 其 中 一 所 学 校 ) 和 B 因 素 的 L2 两 水 平 ( 安 排 进 该 学 校 的 两 位 教 师 ) 分 别 组 合 , 共 组 成两 组 , A 因 素 的 2 水 平 ( 另 一 所 学 校 ) 与 B 因 素 的 3 、 4 两 水 平 (4 位 教 师 中 的 另 外 两 位 教 师 ) 分 别组 合 , 也 组 成 两 组 , 则 实 验 组 共 有 4 组 , 这 4 组 与 前 面 所 讲 的 设 计 ( 比 如 析 因 设 计 或 正 交 设 计 ) 组成 的 4 组 相 比 , 最 大 的 不 同 就 是 B 因 素 的 水 平 在 A 因 素 的 L2 两 水 平 中 是 不 同 的 (4 位 教 师 是 不同 的 ) , 也 就 是 说 B 因 素 的 水 平 是 在 A 因 素 的 各 个 水 平 下 分 别 细 化 的 , 即 B 因 素 嵌 套 在 A 因 素 下• 40 •


( 教 师 嵌 套 在 学 校 中 ) , 另 外 , 嵌 套 在 A 因 素 各 水 平 下 的 B 因 素 各 水 平 数 可 相 等 , 也 可 不 等 ( 本 例相 等 , B 因 素 的 4 个 水 平 一 分 为 二 , 使 A 因 素 的 两 个 水 平 下 分 别 为 2 个 水 平 )。 嵌 套 设 计 的 分 析常 采 用 方 差 分 析 , 但 在 分 析 中 需 注 意 的 是 分 析 中 的 误 差 不 是 固 定 的 , 而 是 变 动 的 , 因 为 B 因 素 的误 差 包 含 了 A 因 素 的 误 差 , 所 以 分 析 时 需 将 A 因 素 的 误 差 分 解 出 来 。 因 此 , 嵌 套 设 计 的 一 个 缺陷 是 在 统 计 分 析 时 不 能 分 析 有 主 次 之 分 的 因 素 之 间 的 交 互 作 用 。 在 实 验 设 计 中 , 嵌 套 设 计 常 用在 研 究 因 素 只 有 部 分 因 素 可 供 研 究 者 控 制 的 实 验 中 。例 2. 7 研 究 不 同 催 化 剂 在 不 同 温 度 下 对 某 化 合 物 转 化 率 的 影 响 , 结 果 参 见 表 2. 15 ( 摘 自 胡良 平 《 现 代 统 计 学 与 SAS 应 用 >> P12 1)。表 2.15 不 同 催 化 剂 (A 因 素 ) 在 不 同 温 度 (B 因 素 , "C) 下 对 某 化 合 物 转 化 率 (%) 的 影 晌试 验 批 次 AJ ( 甲 ) A 2 ( 乙 ) A3 ( 丙 )12BJJ8284DH9188吵'­DH38583DH吵'­6561DH26259吵,年DH2 句35660DH句37167DH3吵'-叮 ζ/ J呵 O/ ODH句 句338589数 据 格 式 见 文 件 qiantao. sav , 在 此 例 中 B 因 素 ( 温 度 ) 是 嵌 套 在 A 因 素 ( 催 化 剂 ) 下 面 的 , 所以 为 嵌 套 设 计 , 它 的 分 析 也 应 根 据 此 原 则 来 处 理 , 采 用 嵌 套 的 方 差 分 析 模 型 , 但 是 , 该 模 型 在 Univariate对 话 杠 中 无 法 直 接 实 现 , 需 要 在 编 程 窗 口 中 对 生 成 的 程 序 作 进 一 步 修 改 。: Analyze-• General Lineal Model 一 → Univariate:Dependent List 杠 : trans I Fixed Factor 杠 : a 、 b 、 cishu画 画 :Custom I Model 丰 匡 : a 、 b 、 cishu以 上 操 作 生 成 的 程 序 如 左 下 方 所 示 , 若 将 其 改 为 右 下 方 的 程 序 , 即 将 Design需 的 嵌 套 模 型 :子 句 更 改 为 所:DNIANOVAUNIANOVAtrans BY a b cishu trans BY a b cishuIMETHOD = SSTYPE (3)IINTERCEPT = INCLUDEICRITERIA = ALPHA C. 05)IDESIGN = a b cishu .IMETHOD = SSTYPE (3)IINTERCEPT = INCLUDEICRITERIA = ALPHA C. 05)IDESIGN = a b (a) cishu .运 行 右 侧 的 程 序 , 结 果 参 见 表 2. 160结 果 显 示 催 化 剂 和 温 度 均 有 统 计 学 意 义 , 而 试 验 批 次 无 统 计 学 意 义 。• 41 •


2.3.2 重 复 测 量 设 计重 复 测 量 设 计 CRepeated Measure Design) 广 泛 应 用 于 行 为 和 生 命 科 学 中 , 它 的 一 个 显 著 特 点是 在 不 同 条 件 下 , 从 同 一 个 受 试 对 象 身 上 观 测 到 K 个 数 据 情 注 2) , 即 对 同 一 个 受 试 者 在 不 同 条件 下 进 行 了 数 次 观 测 , 得 到 的 信 息 更 多 。 研 究 对 象 可 以 是 人 、 家 庭 、 实 验 动 物 , 也 可 以 是 商 店 、 城市 、 工 厂 等 , 而 " 不 同 条 件 " 通 常 是 指 时 间 因 素 , 因 此 在 研 究 中 涉 及 重 复 测 量 设 计 的 一 种 较 常 见 的例 子 就 是 : 欲 比 较 两 种 不 同 药 物 的 疗 效 , 将 病 人 随 机 分 成 两 组 , 分 别 给 予 不 同 的 药 物 , 然 后 在 不 同时 间 作 动 态 观 察 。" 不 同 条 件 " 还 较 常 见 的 是 身 体 上 的 几 个 对 称 部 位 , 如 左 、 右 眼 , 左 、 右 关 节 等 ;或 指 两 个 因 素 的 各 种 水 平 组 合 , 当 为 两 个 因 素 的 水 平 组 合 时 , 则 为 两 个 重 复 测 量 的 设 计 。 时 间 因素 或 左 、 右 眼 , 由 于 只 涉 及 时 间 或 眼 睛 这 样 单 个 因 素 , 所 以 称 为 一 个 重 复 测 量 的 设 计 。重 复 测 量 设 计 最 主 要 的 优 点 就 是 提 高 了 处 理 组 间 的 精 确 度 , 因 为 它 可 以 通 过 对 同 一 个 体 数据 的 分 析 估 计 出 实 验 误 差 的 大 小 。 它 的 另 外 一 个 优 点 是 比 较 有 效 地 利 用 了 个 体 , 这 在 实 验 过 程中 观 察 对 象 较 难 获 得 的 情 况 下 尤 其 重 要 , 如 观 察 对 象 为 某 一 类 工 厂 、 商 店 等 。 同 时 , 如 果 研 究 目的 是 观 察 处 理 因 素 随 时 间 变 化 的 趋 势 , 这 时 可 用 重 复 测 量 设 计 , 例 如 观 察 同 一 观 察 对 象 在 不 同 时间 点 的 某 一 变 量 值 。 但 是 , 它 的 缺 点 是 存 在 顺 序 效 应 ( 处 理 因 素 的 排 列 先 后 可 能 会 有 不 同 的 效应 ) 和 携 带 效 应 ( 前 面 的 处 理 效 应 可 能 会 影 响 到 后 面 处 理 的 效 应 )。 解 决 的 办 法 是 处 理 顺 序 的 随机 化 以 及 前 后 处 理 之 间 有 充 分 的 " 清 洗 " 时 间 。由 于 同 一 个 体 的 不 同 次 重 复 测 量 数 据 间 往 往 存 在 相 关 , 这 就 违 反 了 方 差 分 析 模 型 要 求 的 数据 独 立 性 , 导 致 其 不 能 直 接 使 用 普 通 的 一 元 方 差 分 析 模 型 来 分 析 , 为 此 统 计 学 家 为 这 种 非 独 立 数据 的 分 析 问 题 发 展 出 了 一 系 列 方 法 , 这 也 是 当 今 统 计 方 法 学 的 研 究 热 点 之 一 。 关 于 重 复 测 量 试验 设 计 的 分 析 方 法 读 者 可 参 见 本 书 的 第 3 、 4 两 章 , 这 里 不 再 详 述 。2.3.3 裂 区 设 计裂 区 设 计 CSplit-plotDesign) 最 初 来 源 于 农 业 实 验 , 例 如 在 二 因 素 裂 区 设 计 的 农 业 研 究 中 , 经• 42 •


常 按 某 一 因 素 CA 因 素 ) 的 水 平 数 将 土 地 分 成 若 干 大 块 CWhole Plots) , 然 后 在 经 过 4 因 素 不 同 水平 处 理 的 每 一 大 块 中 根 据 第 二 因 素 CB 因 素 ) 的 水 平 数 将 大 块 分 成 若 干 小 块 CSplit Plots) , 这 些 小块 再 随 机 地 用 B 因 素 的 不 同 水 平 处 理 , 它 的 特 点 是 实 验 因 素 并 非 一 次 安 排 完 毕 , 而 是 分 为 两 次甚 至 多 次 , 其 首 先 安 排 的 是 影 响 最 为 重 要 的 , 或 者 必 须 最 先 安 排 , 或 者 材 料 消 耗 较 大 、 工 序 较 难 改变 的 因 素 , 经 过 一 段 时 间 后 , 其 他 需 要 考 虑 的 、 或 者 影 响 较 小 , 或 者 精 确 度 要 求 较 高 的 因 素 加 入 先期 安 排 好 的 因 素 的 不 同 水 平 中 , 总 之 实 验 因 素 在 施 加 时 有 先 后 顺 序 之 分 。 因 此 其 方 差 分 解 需 要按 Whole Plots 和 Split Plots 分 别 分 解 , 即 4 因 素 的 MS ì 吴 与 B 因 素 的 MS 误 是 不 相 同 的 。 也 就 是 说 ,当 因 素 在 施 加 时 有 先 后 次 序 之 分 时 , 在 第 一 阶 段 加 入 的 因 素 必 然 会 产 生 一 定 量 的 试 验 误 差 , 只 有用 这 个 误 差 去 度 量 一 级 因 素 的 作 用 大 小 才 是 合 理 的 。 同 理 , 也 应 当 用 第 二 阶 段 中 的 误 差 去 度 量二 级 因 素 的 作 用 大 小 , 依 此 类 推 。裂 区 设 计 较 常 用 的 情 况 是 一 个 因 素 的 实 验 单 位 客 观 上 要 比 另 外 一 个 或 几 个 的 实 验 单 位 大 ,因 为 此 条 件 所 限 而 采 用 裂 区 设 计 , 它 可 看 成 一 种 不 完 全 的 区 组 设 计 CWhole Plots 为 区 组 ) , 经 常用 于 农 业 、 实 验 室 、 工 业 以 及 社 会 科 学 实 验 中 。 在 裂 区 设 计 中 , 可 分 析 4 因 素 与 B 因 素 的 交 互 作用 , 用 于 交 互 作 用 检 验 的 误 差 项 与 B 因 素 的 误 差 项 相 同 。实 际 上 , 上 述 二 因 素 裂 区 设 计 与 一 个 重 复 测 量 的 两 因 素 设 计 是 相 一 致 的 , 因 为 同 一 大 块 内 的小 块 趋 于 一 致 , 即 其 中 的 大 块 相 当 于 重 复 测 量 中 的 个 体 , 小 块 则 相 当 于 个 体 所 被 处 理 的 事 件 。 因此 在 进 行 裂 区 设 计 的 方 差 分 析 时 , 可 用 重 复 测 量 的 方 差 分 析 。 不 过 , 如 果 两 因 素 设 计 中 的 研 究 对象 能 接 受 所 有 的 处 理 因 素 , 则 直 接 使 用 两 个 重 复 测 量 的 设 计 较 裂 区 设 计 更 可 取 , 相 应 的 数 据 在 分析 上 也 会 更 加 灵 活 一 些 。例 2.8 欲 了 解 两 种 灌 溉 方 法 CA 因 素 ) 与 两 种 肥 料 CB 因 素 ) 对 稻 谷 产 量 的 影 响 , 对 10 块 田地 进 行 了 裂 区 设 计 , 结 果 参 见 表 2.170表 2.17裂 区 设 计 的 试 验 结 果灌 溉 方 法l 2田 地 l 2 3 4 5 l 2 3 4 5肥 料 种 类43 40 31 27 36 63 52 45 47 542 48 43 36 30 39 70 53 48 51 57摘 自 NeterJ, Kutner M, Nachtsheim C, Wasserman w. applied linear statistical models, fouth edition, P I204具 体 分 析 方 法 可 参 照 相 关 章 节 中 对 重 复 测 量 方 差 分 析 的 操 作 , 这 里 不 再 详 述 。2.4 协 方 差 分 析2.4.1 协 方 差 分 析 的 必 要 性实 验 设 计 的 目 的 之 一 就 是 尽 力 排 除 非 处 理 因 素 的 干 扰 和 影 响 , 从 而 准 确 地 获 得 处 理 因 素 的实 验 效 应 。 然 而 在 实 际 工 作 中 , 某 些 因 素 在 实 验 阶 段 难 以 控 制 , 例 如 欲 了 解 接 受 不 同 处 理 的 小 白鼠 经 一 段 时 间 饲 养 后 体 重 增 加 量 有 无 差 别 , 己 知 体 重 的 增 加 和 小 白 鼠 的 进 食 量 有 关 , 接 受 不 同 处• 43 •


理 的 小 白 鼠 其 进 食 量 有 可 能 不 同 , 这 时 为 了 控 制 进 食 量 对 体 重 增 加 的 影 响 , 可 在 统 计 阶 段 利 用 协方 差 分 析 CAnalysis of Covariance) , 通 过 统 计 模 型 的 校 正 使 得 各 组 在 " 进 食 量 " 这 个 变 量 的 影 响 上相 等 , 即 将 进 食 量 作 为 协 变 量 , 然 后 分 析 不 同 处 理 对 小 白 鼠 体 重 增 加 量 的 影 响 。 简 而 言 之 , 协 方差 分 析 是 针 对 在 实 验 设 计 阶 段 难 以 控 制 , 或 者 无 法 严 格 控 制 的 因 素 , 在 统 计 分 析 阶 段 进 行 统 计 控制 , 它 在 扣 除 协 变 量 的 影 响 后 再 对 修 正 后 的 主 效 应 进 行 方 差 分 析 , 是 一 种 把 直 线 回 归 或 多 元 线 性回 归 与 方 差 分 析 结 合 起 来 的 方 法 , 其 中 的 协 变 量 一 般 是 连 续 性 变 量 , 并 假 设 协 变 量 与 因 变 量 问 存在 线 性 关 系 , 且 这 种 线 性 关 系 在 各 组 一 致 , 即 各 组 协 变 量 与 因 变 量 所 建 立 的 回 归 直 线 基 本 平 行 。当 有 一 个 协 变 量 时 , 称 为 一 元 协 方 差 分 析 , 当 有 两 个 或 两 个 以 上 协 变 量 时 , 称 为 多 元 协 方 差 分 析 。本 节 将 以 一 元 协 方 差 分 析 为 例 , 讲 述 协 方 差 分 析 的 基 本 思 想 和 步 骤 。例 2.9 某 学 校 在 教 学 改 革 中 为 了 考 核 某 课 程 新 教 学 方 法 的 效 果 , 特 选 择 两 个 班 级 进 行 试 验 ,一 个 班 用 标 准 教 学 方 法 , 另 一 个 班 采 用 新 教 学 法 , 一 学 期 后 采 用 相 同 的 试 卷 进 行 测 试 , 记 录 其 期 末考 试 成 绩 , 见 数 据 coanova. savo 现 希 望 通 过 该 数 据 对 新 教 学 法 和 标 准 教 学 法 的 效 果 进 行 比 较 。在 学 习 了 方 差 分 析 模 型 后 , 读 者 对 该 问 题 的 分 析 应 当 己 经 有 了 基 本 的 概 念 , 这 就 是 考 察 教 学方 法 对 考 试 成 绩 有 无 影 响 , 可 以 使 用 单 因 素 方 差 分 析 模 型 来 解 决 , 结 果 参 见 表 2.18 和 表 2. 190从 表 2.18 和 表 2. 19 中 的 结 果 可 见 两 种 方 法 是 有 差 异 的 , 新 方 法 的 期 末 成 绩 平 均 分 要 比 标准 方 法 高 8 分 左 右 。 但 是 这 一 结 果 显 然 是 比 较 粗 糙 的 , 每 个 班 级 的 基 础 水 平 各 不 相 同 , 如 果 计 算这 两 个 班 试 验 开 始 前 该 课 程 摸 底 考 试 的 成 绩 均 数 , 则 结 果 参 见 表 2.20 。从 表 2.20 中 可 见 标 准 方 法 班 级 成 绩 较 差 , 很 难 说 最 终 的 期 末 成 绩 是 因 为 班 级 水 平 不 同 , 还• 44 •


是 教 学 效 果 不 同 导 致 了 差 异 。 这 样 , 摸 底 考 试 成 绩 所 代 表 的 各 学 生 基 础 水 平 在 两 个 班 级 很 可 能不 同 , 就 成 为 了 研 究 中 的 混 杂 因 素 , 需 考 虑 它 对 最 终 考 试 成 绩 的 影 响 , 忽 视 其 作 用 直 接 对 教 学 效果 进 行 分 析 , 就 可 能 得 出 错 误 的 结 论 , 因 此 应 当 进 行 协 方 差 分 析 。 协 方 差 分 析 的 基 本 思 想 是 在 作两 组 或 多 组 均 数 Y 1 , Y2 , …, 丸 之 间 的 比 较 前 , 用 直 线 回 归 方 法 找 出 各 组 Y 与 协 变 量 X 之 间 的 数量 关 系 , 求 得 在 假 定 X 相 等 时 的 修 正 均 数 Y\ , Y'2' … , Y'k' 然 后 用 方 差 分 析 比 较 修 正 均 数 间 的 差别 , T 衷 方 法 是 定 量 变 量 分 析 中 控 制 混 杂 因 素 的 重 要 手 段 之 一 。2.4.2 平 行 性 假 定 的 检 验协 方 差 分 析 一 般 有 以 下 { 固 定 :(1) 各 组 协 变 量 和 因 变 量 的 关 系 是 线 性 的 。(2) 各 组 残 差 正 态 。(3) 各 组 回 归 斜 率 相 等 , 即 各 组 回 归 线 应 是 平 行 的 。其 中 第 3点 最 重 要 , 它 是 首 先 要 检 验 的 假 设 , 如 果 拒 绝 平 行 性 的 假 设 , 则 需 对 资 料 作 一 定 处理 , 再 作 协 方 差 分 析 , 或 者 选 用 其 他 方 法 分 析 。对 于 例 2.9 , 首 先 应 了 解 两 个 班 级 的 摸 底 考 试 成 绩 与 期 末 考 试 成 绩 的 回 归 线 是 否 是 平 行 , 即摸 底 考 试 成 绩 的 影 响 在 分 别 采 用 新 教 学 方 法 和 标 准 教 学 方 法 的 两 个 班 级 中 是 否 相 同 , 这 可 以 用摸 底 考 试 成 绩 与 教 学 方 法 是 否 存 在 交 互 作 用 来 表 示 。 对 该 问 题 , 首 先 可 作 分 组 散 点 图 , 观 察 两 组直 线 趋 势 是 否 近 似 , 然 后 看 交 互 作 用 有 无 统 计 学 意 义 , 当 交 互 作 用 无 统 计 学 意 义 时 , 则 进 行 协 方差 分 析 , 得 出 统 计 结 论 。以 摸 底 考 试 成 绩 为 X 轴 , 期 末 考 试 成 绩 为 Y 轴 , 教 学 方 法 作 为 分 组 标 记 , 做 出 的 散 点 图 如 图2. 1 所 示 , 从 中 可 知 两 组 中 摸 底 考 试 成 绩 和 期 末 考 试 成 绩 有 明 显 的 直 线 趋 势 , 且 两 组 中 直 线 趋 势的 斜 率 相 近 , 因 此 从 图 形 上 未 发 现 违 反 前 提 条 件 的 迹 象 , 可 以 进 一 步 作 假 设 检 验 , 检 验 各 组 总 体斜 率 是 否 相 等 , 步 骤 如 下 :: Analyze-• General Lineal Model 一 → UnivariateiDependent List 杠 : after:Fixed Factor 杠 : classi Covariates 杠 : before( 匾 匾 画 : 磁 叮 Cu 盼 s 阳l 囚• 45 •


期 70末考试成 60结90 -l 曰口50 才E。 。曰~ 8 00 c-口口目 口 口日。 电 -5-r 目目教 学 方 法O 标 准 方 法口 新 方 法目8 o。口RSqLinear=0.134。rP RSqLinear=0.17520 30 40 50 60 70 80 90摸 底 考 试 成 绩图 2.1教 学 方 法 和 成 绩 的 散 点 图注 意 在 上 面 的 操 作 中 需 要 强 行 纳 入 交 互 效 应 项 class * before , 其 目 的 是 检 验 class 处 于 不 同水 平 时 , after 随 before 变 化 的 斜 率 是 否 相 等 , 因 为 各 组 总 体 斜 率 相 等 是 协 方 差 分 析 的 重 要 条 件 之一 。 运 行 后 , 结 果 参 见 表 2.210表 2.21显 示 交 互 作 用 无 统 计 学 意 义 , 因 此 两 组 的 斜 率 可 以 认 为 相 同 , 大 致 符 合 协 方 差 分 析的 条 件 。2.4.3 计 算 和 检 验 修 正 均 数在 模 型 的 适 用 条 件 得 到 肯 定 后 , 下 面 开 始 进 行 协 方 差 分 析 , 比 较 两 组 的 修 正 均 数 有 无 差 异 。• 46 •


由 于 前 面 己 得 出 两 组 斜 率 相 同 的 结 论 , 故 交 互 项 不 需 要 再 引 入 模 型 。 具 体 操 作 步 骤 如 下 :iAnalyze• General Lineal Model• UnivariateiDependent List 杠 : after:Fixed Factor 杠 : class: Covariates 杠 : beforeIModell: 指 Custom: Model 杠 : 山 s 、 before: IContinuelE 曰 :D曰Q口J iIAL ioa •rn ft ι尸 ao ym mer ae Um哑m -n俨4Lla l Q口λ七吧-LιEtQ口分 析 结 果 参 见 表 2.220结 果 显 示 摸 底 考 试 成 绩 对 期 末 考 试 成 绩 有 影 响 (P =0.000) , 教 学 方 法 对 期 末 考 试 成 绩 的 影响 也 有 统 计 学 意 义 (P =0.033) 。 另 外 , 两 组 的 修 正 均 数 , 修 正 均 数 差 别 的 假 设 检 验 参 见 表 2.23 ,表 2.24 和 表 2.250• 47 •


表 2.23 是 两 组 的 修 正 均 数 及 相 应 的 可 信 区 间 , 两 组 期 末 考 试 成 绩 的 差 异 (69. 004 - 64. 735= 4.269) 小 于 原 来 的 差 异 (70.989 8 - 62.619 6 = 8.370 2) 。 表 2.23 下 方 的 提 示 表 明 该 修 正 均数 是 按 摸 底 考 试 成 绩 为 57.9 分 的 情 形 计 算 的 。表 2.24是 把 摸 底 考 试 成 绩 转 化 为 相 等 后 , 不 同 组 期 末 考 试 成 绩 Y 的 修 正 均 数 之 差 、 标 准 误以 及 各 组 修 正 均 数 是 否 相 等 的 假 设 检 验 的 结 果 。 可 见 , 在 扣 除 了 X 对 Y 的 影 响 之 后 , 两 组 期 末考 试 成 绩 的 差 别 有 统 计 学 意 义 。 此 处 采 用 的 方 法 是 LSD 法 , 即 所 有 组 都 和 对 照 组 相 比 , 当 然 也可 根 据 分 析 目 的 在 对 话 杠 中 选 用 其 他 两 两 比 较 方 法 。表 2.25 为 对 修 正 均 数 按 方 差 分 析 法 进 行 的 检 验 , 结 论 和 上 面 完 全 相 同 ( 两 种 方 法 等 价 )。由 此 可 见 , 协 方 差 分 析 在 扣 除 协 变 量 的 影 响 时 , 主 要 是 求 协 变 量 处 于 均 数 时 因 变 量 的 平 均数 , 即 修 正 均 数 , 然 后 对 两 组 的 修 正 均 数 差 别 作 假 设 检 验 , 得 出 统 计 结 论 。最 后 需 要 提 醒 大 家 注 意 的 是 , 协 方 差 分 析 还 要 求 比 较 组 间 协 变 量 X 的 观 察 值 不 宜 相 差 太大 , 否 则 修 正 均 数 的 差 值 在 回 归 直 线 的 延 长 线 上 , 由 于 不 知 道 回 归 线 外 推 后 是 否 仍 然 满 足 平 行 性和 线 性 关 系 的 条 件 , 此 时 协 方 差 分 析 的 结 论 可 能 不 正 确 。思 考 与 练 习读 者 自 行 在 SPSS 软 件 上 实 现 本 章 中 可 以 用 方 差 分 析 模 型 完 成 分 析 的 各 实 例 。• 48 •


参 考 文 献1 Neter, Kutner, et al. Applied Linear Statistical Models. Fourth Edition. McGraw-Hill, 19962 张 文 月 三 主 编 . SPSS 11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 希 望 电 子 出 版 社 , 20023 倪 宗 璜 主 编 . 医 学 统 计 学 . 第 二 版 , 北 京 : 人 民 卫 生 出 版 社 , 19984 胡 良 平 主 编 . 现 代 统 计 学 与 SAS 应 用 . 北 京 : 军 事 医 学 科 学 出 版 社 , 19965 王 娟 , 沈 平 , 沈 永 嘉 . 均 匀 设 计 优 选 微 波 辅 助 萃 取 何 首 乌 中 有 效 成 分 的 研 究 . 中 草 药 , 2003 , 34 (4) :314 - 317• 49 •


第 3 章 多 元 方 差 分 析 与 重 复 测 量 方 差 分 析3.1 多 元 方 差 分 析3. 1. 1 模 型 简 介1. 问 题 的 提 出目 前 有 些 家 长 、 教 师 、 校 长 常 担 心 素 质 教 育 是 否 会 导 致 学 生 成 绩 下 降 ? 这 就 涉 及 一 个 如 何 对学 生 成 绩 ( 如 语 文 、 数 学 、 外 语 、 体 育 等 ) 进 行 综 合 评 价 的 问 题 。 试 想 将 某 校 某 年 级 的 学 生 按 班 级随 机 分 成 两 组 , 一 组 施 以 素 质 教 育 , 另 一 组 仍 沿 用 传 统 的 应 试 教 育 。 考 察 某 次 摸 底 考 试 的 两 种 教育 模 型 对 学 生 成 绩 的 影 响 。 很 容 易 想 到 的 分 析 方 法 是 对 两 组 学 生 各 科 成 绩 进 行 t 检 验 , 分 别 计算 出 各 门 课 程 的 t 值 、 P 值 , 然 后 回 答 素 质 教 育 是 否 降 低 学 生 的 语 文 成 绩 , 是 否 降 低 数 学 成 绩… 但 很 可 能 出 现 的 结 果 是 , 某 一 ( 几 ) 门 课 程 成 绩 检 验 结 果 P 值 0. 050 这 样 对 于 素 质 教 育 是 否 降 低 学 生 学 习 成 绩 难 以 下 一 个 综 合 的 结 论 。 在 这 个 问题 中 , 对 一 个 观 察 单 位 的 观 测 指 标 ( 因 变 量 ) 常 有 多 个 , 且 各 指 标 间 又 往 往 相 互 联 系 、 互 相 影 响 。对 于 这 种 资 料 , 可 能 有 的 人 会 将 各 个 反 应 变 量 割 裂 开 分 别 进 行 统 计 分 析 , 就 如 同 上 面 所 提 到 的 分别 进 行 t 检 验 一 样 , 但 这 种 分 析 方 法 有 以 下 几 个 缺 点 :(1) 检 验 效 率 低 。 可 能 的 一 种 情 况 是 两 组 ( 或 多 组 ) 观 察 对 象 的 多 个 观 察 指 标 的 联 合 分 布之 间 有 差 别 , 而 单 独 对 每 个 观 察 指 标 进 行 统 计 学 检 验 却 没 有 统 计 学 意 义 。 当 然 反 过 来 也 有 可 能 。但 并 不 是 说 研 究 者 可 以 随 意 地 将 20个 甚 至 更 多 个 互 不 相 关 的 观 察 指 标 放 在 一 起 , 考 察 各 组 间 反应 变 量 的 总 体 联 合 分 布 之 间 有 无 差 别 , 有 可 能 一 个 有 真 正 有 差 别 的 观 察 指 标 其 差 别 会 被 其 他 许多 没 有 差 别 的 观 察 指 标 稀 释 掉 。 所 以 是 否 考 察 多 个 观 察 指 标 的 联 合 分 布 , 要 看 这 几 个 观 察 指 标之 间 是 否 存 在 相 关 关 系 。(2) 犯 一 类 错 误 的 概 率 增 大 。 假 设 有 p 个 观 察 指 标 , 对 每 个 指 标 进 行 t 检 验 ( 或 方 差 分 析 ) ,一 类 错 误 的 概 率 α 设 定 为 0.05 , 根 据 乘 法 原 理 , p 个 观 察 指 标 的 p 次 检 验 结 果 均 正 确 的 概 率 为c1 - 0.05) p 。 当 观 察 指 标 数 为 5 时 , 则 5 次 检 验 结 果 均 正 确 的 概 率 为 0.773 8 , 此 时 犯 一 类 错 误 的概 率 为 1 -0.773 8 =0.22620 当 观 察 指 标 数 为 10 时 , 犯 一 类 错 误 的 概 率 则 增 大 为 0.401 3 。 这一 情 形 类 似 于 多 组 比 较 使 用 两 两 t 检 验 所 遇 到 的 问 题 。(3) 二 元 分 析 结 果 不 一 致 时 , 难 以 下 一 个 综 合 结 论 。 如 上 面 素 质 教 育 的 例 子 , 就 很 难 说 素 质教 育 是 否 会 导 致 学 生 学 习 成 绩 下 降 。(4) 忽 略 了 变 量 间 相 关 关 系 。 导 致 只 见 树 木 , 不 见 森 林 。 单 因 变 量 的 分 析 结 果 不 能 简 单 地 叠• 50 •


力 日 起 来 向 多 因 变 量 推 广 , 就 如 同 在 地 面 上 ( 二 维 ) 认 为 地 球 是 平 的 , 但 实 际 上 在 太 空 中 ( 三 维 ) 一 看才 发 现 地 球 是 个 球 面 一 样 , 仅 仅 进 行 单 因 变 量 的 分 析 会 损 失 相 当 多 的 信 息 , 甚 至 得 出 错 误 的 结 论 。对 这 一 类 资 料 进 行 分 析 有 两 种 思 路 : 使 用 因 子 分 析 先 对 因 变 量 中 蕴 含 的 信 息 进 行 浓 缩 , 然 后再 对 提 取 出 的 公 因 子 进 行 后 续 的 分 析 , 详 见 本 书 因 子 分 析 一 章 ; 另 一 种 解 决 方 法 是 采 用 本 章 所 介绍 的 多 元 方 差 分 析 (Multivariate Analysis Of Variance , MANOV A) 。 这 里 的 多 元 是 真 正 意 义 上 的多 元 , 即 反 应 变 量 为 多 个 , 而 一 般 意 义 上 的 多 元 统 计 分 析 是 对 反 应 变 量 为 一 个 , 而 自 变 量 有 多 个的 资 料 的 统 计 分 析 。多 元 方 差 分 析 的 基 本 思 想 与 前 文 述 及 的 一 个 反 应 变 量 的 方 差 分 析 相 似 , 都 是 将 反 应 变 量 的变 异 分 解 成 两 部 分 : 一 部 分 为 组 间 变 异 ( 组 别 因 素 的 效 应 ) , 一 部 分 为 组 内 变 异 ( 随 机 误 差 )。 然后 对 这 两 部 分 变 异 进 行 比 较 , 看 是 否 组 间 变 异 大 于 组 内 变 异 。 从 理 论 上 讲 组 间 变 异 再 小 也 不 可能 比 组 内 变 异 小 , 因 为 若 组 别 因 素 效 应 为 0 , 则 组 间 变 异 应 该 等 于 组 内 变 异 , 因 此 多 元 方 差 分 析与 单 个 反 应 变 量 的 方 差 分 析 一 样 , 也 是 单 侧 检 验 ( 即 查 阅 的 是 F 分 布 的 单 侧 累 积 概 率 值 )。 所 不同 的 是 , 后 者 是 对 组 间 均 方 与 组 内 均 方 进 行 比 较 , 而 前 者 是 对 组 间 方 差 协 方 差 矩 阵 与 组 内 方 差 协方 差 矩 阵 进 行 比 较 。2. 多 元 方 差 分 析 对 资 料 的 要 求(1) 各 因 变 量 服 从 多 元 正 态 分 布 。 多 元 方 差 分 析 对 于 多 元 正 态 分 布 的 要 求 并 不 高 , 实 际 应用 中 这 一 条 件 通 常 弱 化 为 每 一 个 反 应 变 量 服 从 正 态 分 布 即 可 。 若 各 反 应 变 量 服 从 多 元 正 态 分布 , 则 每 个 反 应 变 量 的 分 布 ( 即 该 多 元 正 态 分 布 的 边 际 分 布 , Marginal Distribution)必 然 也 服 从 正态 分 布 , 而 反 过 来 则 未 必 成 立 。 但 可 以 肯 定 的 是 , 只 要 有 一 个 反 应 变 量 不 服 从 正 态 分 布 , 则 这 几个 反 应 变 量 的 联 合 分 布 肯 定 不 服 从 多 元 正 态 分 布 。(2) 各 观 察 对 象 之 间 相 互 独 立 。(3) 各 组 观 察 对 象 反 应 变 量 的 方 差 协 方 差 矩 阵 相 等 。(4) 反 应 变 量 间 的 确 存 在 一 定 的 关 系 , 这 可 以 从 专 业 或 研 究 目 的 的 角 度 予 以 判 断 。需 要 指 出 的 是 , 多 元 方 差 分 析 对 于 方 差 齐 性 要 求 较 高 , 分 析 结 果 对 于 方 差 齐 性 较 为 敏 感 。 并且 对 样 本 含 量 也 有 一 定 要 求 , 不 仅 总 样 本 量 要 较 大 , 各 单 元 格 中 样 本 数 量 也 应 较 大 , 否 则 检 验 效能 偏 低 , 容 易 得 到 阴 性 结 果 , 犯 二 类 错 误 的 概 率 增 大 。3. SPSS 中 的 实 现 方 式SPSS 中 有 两 个 过 程 可 以 进 行 多 元 方 差 分 析 : 通 过 菜 单 可 以 实 现 的 是 GLM 过 程 , 只 能 通 过 编程 实 现 的 是 MANOVA 过 程 ( 原 来 有 菜 单 , 但 自 7.5 版 本 后 菜 单 被 删 除 , 只 保 留 编 程 )。 主 要 的 区别 在 于 二 者 对 分 类 变 量 进 行 参 数 估 计 时 应 用 的 矩 阵 不 同 , GLM 过 程 采 用 的 类 似 产 生 哑 变 量 的 形式 , 以 某 一 水 平 为 参 照 水 平 , 其 他 水 平 与 参 照 水 平 进 行 比 较 , 即 Indicator 对 比 CIndicator Contrast)或 Simple 对 比 (Simple Contrast) , 而 MANOVA 过 程 将 各 水 平 与 各 水 平 的 平 均 值 进 行 比 较 , 即 Deviation对 比 (Deviation Contrast) , 详 见 多 重 线 性 回 归 模 型 中 有 关 部 分 。 限 于 篇 幅 , 本 单 元 不 对MANOVA 过 程 展 开 讨 论 , 但 会 给 出 程 序 及 其 分 析 结 果 和 相 应 解 释 。3. 1. 2 分 析 实 例例 3. 1 为 了 考 查 素 质 教 育 是 否 会 导 致 学 生 学 习 成 绩 降 低 , 某 校 对 初 中 二 年 级 两 个 班 各 50 名 学生 分 别 施 以 素 质 教 育 模 式 和 传 统 ( 应 试 ) 教 育 模 式 教 学 , 在 一 次 模 拟 考 试 中 收 集 了 两 个 班 级 学 生 的 语• 51 •


文 、 数 学 、 英 语 的 考 试 成 绩 , 试 做 统 计 分 析 ( 数 据 见 manova. sav) 。 操 作 步 骤 如 虚 杠 和 图 3. 1 所 示 。!Analyze→ Ge 时 ral Li 时 ar Mo 叫 削 de eιl→M 盹 Mu 扣 山 1!De 叩 pe 凹 I 时 e 凹 nt Variables 丰 杠 匡 : yl 、 y2 、 y3!Fixed Factor (s) 杠 : group: 国图 3. 1 Multivariate 过 程 主 对 话 框例 3. 1 的 分 析 结 果 参 见 表 3. 1 。 结 果 输 出 的 总 标 题"General Linear Model" 表 明 了 本 次 多 元 差 分 析 是 用 GLM过 程 完 成 的 , 仍 然 属 于 一 般 线 性 模 型 的 范 畴 。首 先 声 明 本 次 多 元 方 差 分 析 是 用 GLM 过 程 完 成 的 。组 间 变 量 (Between-Subjects Factors) 为 教 育 方 式 。 各 自变 量 取 值 水 平 对 应 的 频 数 分 别 为 50 、 50 。• 52 •


表 3.2 所 示 为 SPSS 对 引 入 模 型 的 效 应 项 输 出 多 元 方 差 分 析 结 果 , 可 见 每 个 假 设 部 分 别 用 4种 方 法 进 行 了 检 验 , 所 幸 例 3. 1 中 4 种 方 法 的 结 果 都 完 全 相 同 , 具 体 算 法 原 理 详 后 。 表 格 中 对 模型 截 距 项 的 假 设 检 验 结 果 为 P O. 05 , 说 明 两 种 教 育 方 式 学 生 考 试 成绩 差 别 没 有 统 计 学 意 义 , 也 就 是 说 实 施 素 质 教 育 的 学 生 没 有 因 提 高 个 人 素 质 而 荒 废 学 业 。实 际 应 用 中 如 果 考 虑 的 自 变 量 数 目 多 于 两 个 , 例 如 在 例 3. 1 中 还 想 同 时 考 察 性 别 有 无 影 响 ,则 可 在 Model 对 话 杠 中 规 定 欲 拟 合 的 模 型 。 除 了 对 主 效 应 进 行 考 察 外 , 常 常 还 需 要 考 察 自 变 量间 的 交 互 作 用 。 对 于 交 互 作 用 的 解 释 , 本 书 中 很 多 章 节 均 有 涉 及 , 所 不 同 的 只 是 这 里 的 反 应 变 量为 多 个 , 这 里 不 再 赘 述 。若 用 MANOVA 过 程 对 例 3. 1 进 行 处 理 , 程 序 如 下 :MANOVA yl y2 y3 BY group(O,l).结 论 同 上 , 读 者 可 自 行 练 习 。如 果 上 面 总 的 多 元 方 差 分 析 检 验 结 果 表 明 各 组 的 总 体 均 数 向 量 不 等 , 则 对 于 实 际 问 题 , 分 析者 还 希 望 进 一 步 了 解 究 竟 这 些 因 素 是 对 哪 些 因 变 量 有 影 响 , 这 可 以 通 过 对 各 反 应 变 量 分 别 进 行单 因 素 方 差 分 析 来 寻 找 , SPSS随 后 输 出 的 就 是 对 三 个 因 变 量 分 别 进 行 一 元 方 差 分 析 的 结 果 , 如果 将 表 3.3 中 左 边 第 一 列 变 异 来 源 (Source) 为 Intercept 、 Total 的 这 几 行 去 掉 , 则 输 出 结 果 与 单 独对 三 个 反 应 变 量 进 行 方 差 分 析 的 输 出 结 果 完 全 相 同 。 其 中 截 距 的 变 异 来 源 , 即 其 离 均 差 平 方 和(Type = 皿 ) 就 是 各 个 截 距 的 方 差 , 也 就 是 下 文 将 会 提 及 的 SSCP 矩 阵 中 主 对 角 线 上 相 对 应 的 元 素 。在 进 行 多 元 方 差 分 析 时 , 如 果 分 组 变 量 像 本 例 中 二 样 仅 有 两 个 水 平 , 也 可 以 用 Ho 川 怡 tEeιell 时 且 ln 吨 gr 丑 检 验( 单 因 素 t 检 验 在 多 因 素 条 件 下 的 推 广 ) 进 行 统 计 分 析 , 但 S 仰 PS 钊 S 中 只 能 在 信 度 分 析 中 输 出 Ho 川 怡 tEeιellin时r 统 计 量 。 替 代 方 法 之 一 是 将 在 Multivariate tests 表 中 输 出 Group 对 应 的 Hotelling' s Trace x(n 一 组 数 ) 得 到 Hotelling r 2 统 计 量 。 在 例 3. 1 中 , Hotelling r = 0.036 x 000 - 2) = 3.5280除 进 行 一 元 方 差 分 析 外 , 当 某 个 自 变 量 有 统 计 学 意 义 时 , 还 可 以 分 别 考 察 是 哪 几 个 水 平 间 的哪 几 个 反 应 变 量 差 别 有 统 计 学 意 义 。 进 行 两 两 比 较 的 对 话 杠 与 单 因 素 时 的 两 两 比 较 对 话 杠 二致 , 结 果 解 释 也 基 本 一 致 , 可 参 见 相 关 章 节 。 但 是 当 自 变 量 水 平 数 为 2 时 , SPSS 拒 绝 进 行 两 两 比较 。 读 者 可 对 本 章 后 面 的 例 子 进 行 练 习 。3. 1. 3 检 验 统 计 量 的 计 算 4在 结 果 中 可 以 看 到 , 在 进 行 多 元 方 差 分 析 时 , SPSS 共 计 算 4 个 统 计 量 , 分 别 是 :0) Pillai' s 轨 迹 : 恒 为 正 数 , 值 越 大 , 表 明 该 效 应 项 对 模 型 的 贡 献 越 大 。(2) Wilks'λ: 取 值 范 围 在 o ~ 1 之 间 , 值 越 小 , 说 明 该 效 应 项 对 模 型 的 贡 献 越 大 。(3) Hotelli 吨 轨 迹 : 为 检 验 矩 阵 特 征 根 之 和 , 值 总 比 Pillai' s 轨 迹 的 值 大 。 与 Pillai' s 轨 迹 相似 , 值 越 大 贡 献 越 大 。(4) Roy 最 大 根 统 计 量 : 为 检 验 矩 阵 特 征 根 中 最 大 值 , 因 此 它 总 是 小 于 或 等 于 Hotelling 轨4 对 算 法 不 感 兴 趣 的 读 者 可 跳 过 本 小 节 , 不 影 响 对 其 余 内 容 的 理 解 。• 53 •


迹 。 值 越 大 , 该 效 应 项 对 模 型 的 贡 献 越 大 ,对 于 以 上 4 种 检 验 统 计 量 , Olson 于 1974 年 证 明 了 当 模 型 建 立 的 前 提 条 件 不 满 足 时 , Pillai' s轨 迹 最 为 稳 健 。以 上 4 种 统 计 量 计 算 公 式 比 较 复 杂 , 仅 以 Wilks'λ本 思 想 。 首 先 建 立 多 元 方 差 分 析 的 假 设 。Ho: 各 组 总 体 均 数 向 量 相 等 , HJ: 各 组 总 体 均 数 向 量 不 等 或 不 全 相 等 。对 于 例 3. 1, 两 种 教 育 模 式 学 生 的 三 种 成 绩 均 数 向 量 为 :素 质 教 育 : 1\ = (73.98 75.26 79.84) T应 试 教 育 : 1\ = (74.68 78.26 78.28) T两 组 学 生 成 绩 的 离 均 差 平 方 和 与 离 均 差 积 和 矩 阵 (SumOf Squares And Cross-Products Matrix, SSCp) , 简 称 为 离 差 阵 , 即 :(3 320.98 -195.74 -36.16\ss 应 试 教 育 = I - 195. 74 4 409. 62 1 228. 08 <strong>Il</strong> -36.16 1 228.08 5 636.72 J为 例 进 一 步 说 明 多 元 分 析 方 差 分 析 的 基• 54 •


4(3394.88ss 应 试 教 育 = I -719.84组 内 变 异 等 于 两 组 离 差 阵 之 和 , 即所 有 数 据 的 离 差 阵 T 为 :l 85.48(6715.86W=ss、皇教岛育肯 +ss应 试、教皇 岛育肯 一 | I -915.58l 49.32一 719. 84 85. 48\5 003.62 - 644.64 !- 644.64 3 826.08 J-915.589 413.24583.44(6 728. 11 - 863.08 22.02\T = I - 863.08 9 638.24 466.44 <strong>Il</strong> 22.02 466.44 9 523.64 J其 自 由 度 = 观 察 单 位 数 一 1, 组 间 变 异 的 离 差 阵 B = T- W , 即 :1q-7-7-7ζ 立 L51汀 、1 丰HJynυnvζ , nB J= T‘ 川·A其 自 由 度 = 组 数 一 10统 计 量 Wilksλ 为 :W一-/f<strong>Il</strong>l-<strong>Il</strong>飞l\-t一寸I气Jυ句 AV3刀」寸VInυ一二46工口49.32\583.44 I9462.80 J7-rLQU、 A \1lll<strong>Il</strong>l--/3VA = . _~.WI_. = I.~.I = 5.879 ~ .- 250 -~ ~ 9 - x "~-" 川 = O. 965 4IW+BI ITI 6.0900037x10"IWI 是 求 由 矩 阵 W 决 定 的 行 列 式 的 值 。由 此 可 见 , Wilksλ 反 映 的 是 组 内 变 异 在 总 变 异 中 的 比 例 。 在 例 3. 1 中 , 组 内 变 量 占 到 总 变异 的 96.54% 0Rao 提 出 对 λ 进 行 变 换 计 算 后 服 从 F 分 布 的 统 计 量 ( 比 较 复 杂 , 这 里 就 不 列 出 公 式 了 ) ,SPSS 软 件 使 用 的 就 是 这 种 方 法 。 在 例 3. 1 中 :F = 1. 147 , v] =3 , 叫 = 96 , P = O. 3340实 际 上 SPSS 可 以 输 出 上 述 矩 阵 : 单 击 Options 按 钮 , 选 中 Display 复 选 杠 中 的 SSCP matrices即 可 。 例 3. 1 的 输 出 结 果 参 见 表 3.4 , 与 上 面 的 结 果 一 致 。、 n1υ,飞8A叶• 55 •


3. 1. 4 对 引 例 的 进 一 步 分 析1. 对 多 元 方 差 分 析 使 用 条 件 的 检 验多 元 方 差 分 析 对 于 资 料 的 正 态 性 影 响 比 较 稳 健 , 而 对 于 各 组 方 差 协 方 差 阵 是 否 齐 性 较 为 敏感 。 主 对 话 杠 中 的 Options 子 对 话 杠 中 的 Homogeneity Test 提 供 了 对 于 各 组 间 协 方 差 阵 是 否 齐 性的 Box 检 验 和 对 各 个 反 应 变 量 在 各 组 问 方 差 是 否 齐 性 的 Levene 检 验 。 对 于 例 3. 1, 相 应 输 出 结果 参 见 表 3.50Box 检 验 统 计 量 =6.118 , 经 过 变 换 计 算 后 的 F =0. 986 , P =0.433 , 说 明 两 组 学 生 间 的 成 绩总 体 方 差 协 方 差 阵 相 等 。表 3.6 输 出 了 Levene 检 验 结 果 , 实 际 上 这 是 按 照 自 变 量 的 取 值 水 平 组 合 , 考 察 每 个 反 应 变量 在 不 同 的 水 平 组 合 间 的 方 差 是 否 齐 性 的 方 差 齐 性 检 验 结 果 。2. 模 型 的 参 数 估 计若 在 Options 选 项 的 对 话 杠 中 选 中 输 出 模 型 参 数 (Parameter Estimates) 复 选 框 , SPSS 还 可 以输 出 模 型 参 数 向 量 。 例 3. 1 的 参 数 估 计 结 果 参 见 表 3.70前 文 提 过 , GLM 过 程 在 进 行 模 型 参 数 估 计 时 采 用 的 对 比 矩 阵 是 以 某 一 水 平 为 参 照 水 平 的 ,其 他 水 平 与 参 照 水 平 进 行 比 较 , 所 以 常 数 项 表 示 的 是 参 照 水 平 的 均 数 向 量 。 SPSS 默 认 是 以 最 后一 个 水 平 为 参 照 水 平 的 Indicator 对 比 , 需 改 变 对 比 矩 阵 , 可 以 在 编 程 窗 口 中 对 程 序 中 的 Design选 项 进 行 修 改 。 在 例 3. 1 中 , 常 数 项 为 施 以 应 试 教 育 学 生 的 平 均 分 数 , group = 0 的 参 数 估 计 为 素质 教 育 与 应 试 教 育 相 应 科 目 平 均 分 之 差 值 。 表 3.8 给 出 了 应 用 Analyze→ Compare Means• Means过 程 计 算 出 的 不 同 教 育 方 式 学 生 各 科 目 的 平 均 分 数 , 以 供 读 者 对 于 对 比 矩 阵 进 行 理 解 。• 56 •


Z ZEdJ '机 P3.2 重 复 测 量 资 料 的 方 差 分 析3.2.1 模 型 简 介1. 问 题 的 提 出在 日 常 研 究 中 常 需 对 一 个 观 察 单 位 重 复 进 行 多 次 观 测 , 这 样 所 获 得 的 资 料 称 之 为 重 复 测 量的 资 料 。 需 要 说 明 的 是 对 于 观 察 单 位 的 定 义 不 同 , 重 复 进 行 观 察 的 方 式 不 同 , 重 复 测 量 的 资 料 也有 着 形 形 色 色 的 表 现 。 一 般 来 说 , 研 究 设 计 中 考 虑 以 下 问 题 时 应 采 用 重 复 测 量 研 究 设 计 :(1) 研 究 主 要 目 的 之 一 是 考 察 某 指 标 在 不 同 时 间 的 变 化 情 况 。 如 考 察 某 种 减 肥 药 的 疗 效 ,需 随 访 研 究 对 象 在 一 段 时 间 内 体 重 的 变 化 。(2) 研 究 个 体 间 变 异 很 大 , 应 用 普 通 研 究 设 计 的 方 差 分 析 时 , 方 差 分 析 表 中 的 误 差 项 值 将 很• 57 •


大 , 即 计 算 F 值 时 的 分 母 很 大 , 对 反 应 变 量 有 作 用 的 因 素 常 难 以 识 别 。 应 用 重 复 测 量 设 计 则 可将 受 试 者 内 变 异 从 普 通 方 差 分 析 表 的 误 差 项 中 分 离 出 来 , 减 小 误 差 项 。 如 以 家 庭 为 观 察 单 位 , 考察 家 庭 中 每 一 成 员 对 某 类 食 品 的 喜 爱 程 度 ; 以 窝 别 为 观 察 单 位 , 观 察 一 窝 仔 鼠 食 用 某 种 饲 料 后 体重 增 加 情 况 ; 以 人 为 观 察 单 位 , 观 察 牙 齿 中 患 踊 齿 的 个 数 ; 以 某 集 团 公 司 为 观 察 单 位 , 考 察 其 旗 下上 市 子 公 司 股 票 价 格 表 现 , 等 等 。(3) 有 的 研 究 中 研 究 对 象 很 难 征 募 到 足 够 多 的 数 量 , 此 时 可 考 虑 对 所 征 募 到 的 对 象 在 不 同条 件 下 的 反 应 进 行 测 量 。 如 研 究 某 种 新 疗 法 对 某 种 罕 见 疾 病 的 疗 效 时 , 可 考 虑 应 用 交 叉 设 计 对所 征 募 到 的 病 人 进 行 研 究 。所 有 这 些 类 型 的 资 料 都 存 在 一 个 共 性 , 即 观 察 结 果 相 互 之 间 存 在 一 定 程 度 的 内 在 相 关 性 , 它们 不 满 足 方 差 分 析 、 线 性 模 型 应 用 的 前 提 条 件 , 即 各 观 测 间 相 互 独 立 。 对 于 同 一 观 察 单 位 所 获 得的 k 个 观 察 值 , 显 然 它 们 所 提 供 的 信 息 没 有 对 k 个 观 察 单 位 观 察 一 次 提 供 的 信 息 多 , 并 且 k 个 观察 值 间 的 内 在 相 关 性 越 强 , 提 取 的 信 息 量 越 少 。由 于 重 复 测 量 数 据 间 的 相 关 性 , 导 致 其 不 能 直 接 使 用 普 通 的 一 元 方 差 分 析 模 型 来 分 析 , 但 是如 果 重 复 测 量 的 数 据 之 间 实 际 上 不 存 在 相 关 性 , 则 多 元 分 析 和 一 元 分 析 的 结 果 应 当 一 致 , 这 种 情况 被 称 为 数 据 符 合 Huynh-Feldt 条 件 , 而 最 常 用 的 判 断 数 据 是 否 满 足 该 条 件 的 检 验 就 是 球 形 检验 。 它 的 结 果 在 Repeated Measures 过 程 的 输 出 结 果 中 非 常 重 要 。2. 重 复 测 量 方 差 分 析 的 基 本 原 理重 复 测 量 仍 然 应 用 方 差 分 析 的 基 本 思 想 , 将 反 应 变 量 的 变 异 分 解 成 以 下 四 个 部 分 : 研 究 对 象内 的 变 异 , 即 测 量 时 间 点 ( 或 测 量 条 件 下 ) 的 效 应 、 研 究 对 象 间 的 变 异 , 即 处 理 因 素 CTreatment) 的效 应 、 上 述 两 者 的 交 互 作 用 、 随 机 误 差 变 异 。 考 察 上 述 第 2 , 3 两 种 变 异 是 重 复 测 量 与 其 他 方 差 分析 统 计 分 析 方 法 的 主 要 区 别 所 在 , 后 者 不 对 这 两 种 变 异 进 行 分 析 。 这 一 点 尤 其 是 在 对 研 究 对 象在 不 同 条 件 下 进 行 重 复 测 量 所 获 得 的 资 料 进 行 统 计 分 析 时 容 易 产 生 混 乱 。 因 此 , 读 者 在 具 体 应用 时 应 根 据 具 体 研 究 目 的 加 以 选 择 , 这 里 的 研 究 目 的 是 在 研 究 的 设 计 阶 段 就 应 该 确 定 下 来 的 。在 重 复 测 量 的 方 差 分 析 模 型 中 , 对 同 一 个 体 相 同 变 量 的 不 同 次 观 测 结 果 被 视 为 一 组 , 用 于 区分 重 复 测 量 次 数 的 变 量 被 称 为 受 试 者 内 因 素 CWithin-Subject Factor) , 而 相 对 应 的 , 对 于 受 试 个体 , 在 重 复 测 量 时 保 持 恒 定 的 因 素 则 被 称 为 受 试 者 问 因 素 CBetween-Subject Factor , 又 称 组 间 因素 ) , 例 如 希 望 加 以 研 究 的 分 组 因 素 。 首 先 , 来 看 一 下 重 复 测 量 模 型 对 受 试 者 问 因 素 是 如 何 进 行分 析 的 。 由 于 在 对 研 究 对 象 的 重 复 观 测 中 , 每 一 次 观 测 都 反 映 了 组 间 因 素 的 作 用 , 如 果 将 各 个 时间 的 测 量 值 分 别 独 立 进 行 分 析 , 则 有 可 能 得 到 互 相 矛 盾 的 结 果 , 而 且 各 次 观 测 的 信 息 是 互 相 重 叠的 , 这 样 做 可 能 并 不 合 适 。 为 此 , 可 以 考 虑 将 各 次 测 量 点 的 信 息 完 全 综 合 起 来 , 以 得 到 一 个 更 为客 观 和 准 确 的 检 验 结 果 。 具 体 的 做 法 就 是 通 过 计 算 同 一 测 量 对 象 各 时 间 点 测 量 结 果 CYil ' 归 ,…) 的 均 数 及 其 标 准 差 , 用 它 来 描 述 反 应 变 量 在 不 同 时 间 点 的 总 体 平 均 水 平 及 变 异 程 度 , 从 而 将多 个 观 察 结 果 综 合 成 了 一 个 因 变 量 , 随 后 就 可 以 按 照 标 准 的 方 差 分 析 思 路 , 将 变 异 分 解 成 组 间 因素 变 异 与 误 差 两 项 , 对 组 间 因 素 效 应 有 无 统 计 学 意 义 进 行 判 断 。重 复 测 量 模 型 另 一 个 重 要 的 分 析 目 的 就 是 考 察 随 着 测 量 次 数 的 增 加 ( 时 间 的 增 加 ) , 测 量 指标 是 如 何 发 生 变 化 的 , 以 及 分 组 因 素 的 作 用 是 否 会 随 时 间 发 生 变 化 , 即 是 否 和 时 间 存 在 交 互 作用 。 首 先 从 最 简 单 的 重 复 测 量 一 一 配 对 t 检 验 入 手 , 以 此 来 说 明 重 复 测 量 方 差 分 析 对 时 间 因 素进 行 分 析 的 基 本 原 理 。 配 对 t 检 验 资 料 形 式 参 见 表 3.90• 58 •


表 3.9配 对 t 检 验 资 料Id123···NtimelYIItime2YI2diffd二l Y21 - YIIY21Y22d 2二Y22 - Y21Y31Y32d 3二Y32 - Y31YnYn2d n二Yn2 - Ynl为 了 考 察 总 体 两 个 时 间 点 ( 或 两 种 条 件 下 ) 反 应 变 量 有 无 差 别 , 应 考 虑 求 样 本 资 料 h 与 Yil的 差 值 及 其 标 准 误 。 如 果 差 值 偏 离 "0" 很 多 , 且 这 种 偏 离 不 能 由 随 机 误 差 所 解 释 , 则 在 α 水 平下 , 认 为 总 体 两 个 时 间 点 的 反 应 变 量 不 同 。再 考 虑 一 下 常 见 的 重 复 测 量 资 料 的 形 式 参 见 表 3.10 。表 3.10重 复 测 量 资 料--IGtimeltime2time3lYIIYI2y句32Y21Y22y句3句333Y32Y23ynYnlYn2Yn3显 然 此 时 仅 计 算 一 个 差 值 是 远 远 不 能 满 足 统 计 分 析 要 求 的 , 要 想 回 答 " 是 否 总 体 各 时 间 点反 应 变 量 观 察 值 相 同 " 必 须 计 算 更 多 差 值 才 行 。 准 确 地 说 , 对 于 重 复 测 量 次 数 ( 即 水 平 数 ) 为 k的 资 料 , 需 要 计 算 k-1 个 差 值 , 通 常 是 计 算 相 邻 两 个 时 间 点 的 差 值 。 与 t 检 验 时 计 算 差 值 的 离散 程 度 指 标 ( 标 准 误 ) 相 类 似 地 , 当 k>2 时 , 需 计 算 各 差 值 之 间 的 方 差 协 方 差 矩 阵 以 判 断 差 值 向量 偏 离 "0 向 量 " 是 否 有 统 计 学 意 义 , 这 就 完 成 了 对 不 同 时 间 点 ( 受 试 者 内 因 素 , within-subject) 反应 变 量 差 别 有 无 统 计 学 意 义 的 检 验 。 事 实 上 , 这 里 的 做 法 就 是 在 计 算 出 k-1 个 差 值 后 , 将 其 作为 因 变 量 进 行 上 一 节 中 的 多 元 方 差 分 析 , 然 后 根 据 对 各 差 值 的 检 验 结 果 给 出 时 间 点 差 异 的 分 析结 论 。应 用 重 复 测 量 要 求 资 料 满 足 以 下 条 件 : 反 应 变 量 之 间 存 在 相 关 关 系 。 反 应 变 量 的 均 数 向 量 服 从 多 元 正 态 分 布 。 对 于 自 变 量 的 各 取 值 水 平 组 合 而 言 , 反 应 变 量 的 方 差 协 方 差 阵 相 等 。3.2.2分 析 实 例例 3.2某 运 动 器 材 公 司 欲 考 察 三 种 针 对 运 动 鞋 销 售 的 促 销 手 段 何 者 为 优 , 共 在 全 国 范 围内 分 东 、 中 、 西 部 三 个 地 区 , 每 个 地 区 分 别 选 取 6家 位 于 省 会 城 市 的 商 场 , 并 将 其 随 机 分 配 至 两组 , 实 行 不 同 的 促 销 手 段 ( 比 如 一 种 打 折 , 一 种 送 优 惠 券 ) , 为 期 两 个 月 。 记 录 了 每 一 家 商 场 实 施• 59 •


促 销 手 段 前 两 个 月 的 销 售 额 、 促 销 活 动 期 间 两 个 月 的 销 售 额 、 促 销 活 动 结 束 后 两 个 月 的 销 售 额 。数 据 见 repeated. sav 0操 作 说 明显 然 , 这 里 的 观 察 单 位 为 商 场 , 每 一 个 商 场 共 观 察 三 次 。 因 此 可 以 考 虑 使 用 重 复 测 量 的 方 差分 析 , 调 用 Analyze→ General Linear Model• Repeated Measures 过 程 如 下 :: Analyze• General Lineal model• Repeated measures!Within - subject factor name 杠 : 改 为 sale! Num 川 仙 be 盯 r of le 叭 町 飞; 匾 画 :!Within - subject variables CtriaD 杠 : timel ~ time3:Between subjects factor 杠 : market 、 promo: 国 i首 先 弹 出 的 是 预 定 义 对 话 框 , 如 图 3.2 所 示 , 这 也 是 该 模 型 在 操 作 上 唯 一 有 别 于 前 面 学 习 过的 方 差 分 析 模 型 之 处 。 该 对 话 杠 用 于 定 义 重 复 测 量 的 观 察 指 标 及 该 观 察 指 标 共 测 量 了 几 次 。 在重 复 测 量 的 方 差 分 析 模 型 中 , 同 一 个 变 量 的 不 同 次 观 测 结 果 被 视 为 一 组 , 重 复 测 量 的 变 量 被 称 为受 试 者 内 因 素 CWithin - Subject Factor) , 重 复 测 量 的 次 数 为 受 试 者 内 因 素 的 水 平 数 。当 对 一 个 观 察 单 位 观 察 、 进 行 重 复 测 量 的 指 标 有 几 种 时 , 如 某 方 便 食 品 连 锁 商 店 计 划 同 时 推出 两 种 新 商 品 , 则 需 要 分 别 记 录 两 种 商 品 的 连 续 4观 察 记 录 其 呼 吸 次 数 、 还 要 观 察 体 温 、 脉 搏 等 。 此 时 就 可 能 通 过 Meas 盯 e周 销 售 记 录 。 再 比 如 对 非 典 病 人 不 仅 要 每 天Name 杠 对 不 同 指 标 的重 复 观 测 进 行 走 义 。 更 复 杂 的 情 况 是 重 复 测 量 问 存 在 嵌 套 , 例 如 对 每 个 病 人 连 续 观 察 7天 , 每 天又 分 早 、 中 、 晚 三 次 , 这 些 都 可 以 在 预 定 义 对 话 杠 中 得 到 准 确 的 设 定 。 本 例 则 不 涉 及 以 上 这 些 情况 , 操 作 非 常 简 单 。图 3.2重 复 测 量 方 差 分 析 的 预 定 义 对 话 框 与 主 对 话 框• 60 •


结 果 解 释 参 见 表 3.11 和 表 3. 120 输 出 标 题 "General Linear Model" 说 明 这 里 拟 合 的 模 型 仍然 属 于 一 般 线 性 模 型 的 范 畴 。SPSS 先 输 出 了 3次 重 复 测 量 的 变 量 名 , 以 及 欲 考 察 的 自 变 量 名 称 ( 地 区 编 号 、 促 销 活 动 种类 )、 各 自 变 量 的 取 值 水 平 及 相 应 的 观 察 例 数 。表 3.13 输 出 了 对 受 试 者 内 因 素 、 受 试 者 内 因 素 与 两 个 自 变 量 的 一 级 、 二 级 交 互 作 用 的 多 元方 差 分 析 统 计 学 检 验 结 果 。 4 个 统 计 量 分 别 是 : Pillai' s Trace 、 Wilks' Lambda 、 Hotelling' s 和 RoyLargest Root , 显 然 就 是 多 元 方 差 分 析 中 的 统 计 量 。 由 于 Pillai' s Trace 最 为 稳 健 , 当 4 个 统 计 量 结论 不 一 致 时 , 推 荐 以 它 为 最 终 结 论 。 检 验 结 果 说 明 各 商 场 三 个 时 期 的 销 售 不 同 , 不 同 地 区 的 商 场三 个 时 期 销 售 情 况 也 不 同 , 但 实 行 不 同 促 销 手 段 的 商 场 三 个 时 期 销 售 情 况 变 动 情 况 相 似 , 不 同 地• 61 •


区 、 实 行 不 同 促 销 手 段 的 商 场 三 个 时 期 销 售 情 况 相 似 。 这 里 给 出 图 3. 3 (a) 、 图 3.3 (b) 和 图 3.3(c) 三 个 图 对 此 结 果 加 以 进 一 步 说 明 。 在 图 中 虚 线 表 示 促 销 手 段 1, 实 线 表 示 促 销 手 段 2 。 它 可以 直 观 地 反 映 表 3.13 输 出 的 统 计 学 检 验 结 果 。赛理 整图 3.3 不 同 地 区 6 个 商 场 不 同 时 期 销 售 情 况(1) 各 商 场 三 个 时 期 销 售 额 不 同 。 活 动 期 间 销 售 额 上 升 , 活 动 结 束 后 又 下 降 。(2) 不 同 地 区 三 个 时 期 销 售 情 况 不 同 。 虽 然 三 个 地 区 大 致 上 看 销 售 额 变 化 趋 势 相 似 , 但 仔细 看 还 是 有 所 不 同 的 。 area = 1 的 地 区 商 场 在 促 销 活 动 结 束 后 销 售 额 比 开 展 活 动 以 前 还 是 略 高一 点 ; area = 2 的 地 区 商 场 促 销 活 动 前 后 销 售 额 相 差 不 大 , 而 area = 3 的 地 区 商 场 促 销 活 动 后 销 售额 反 有 所 下 降 , 这 可 能 与 不 同 地 区 人 们 的 经 济 收 入 、 生 活 消 费 水 平 有 关 。(3) 不 同 促 销 手 段 在 不 同 时 期 销 售 情 况 变 化 情 况 相 似 , 活 动 期 间 销 售 额 上 升 , 活 动 结 束 后 又有 所 下 降 。(4) 不 同 促 销 手 段 在 不 同 地 区 的 三 个 销 售 时 期 变 化 情 况 相 似 。图 形 虽 然 直 观 , 但 难 以 给 出 量 化 的 结 果 , 也 难 以 根 据 统 计 图 进 行 有 无 统 计 学 意 义 的 结 论 。 若将 其 与 上 面 输 出 的 多 元 检 验 结 果 结 合 使 用 , 则 可 很 容 易 地 将 问 题 解 释 清 楚 。• 62 •


表 3.14 输 出 了 球 形 假 设 CSphericity Assumption) 的 检 验 结 果 。 球 形 假 设 指 的 是 各 差 值 之 间的 方 差 协 方 差 阵 为 单 位 阵 乘 以 一 个 常 数 , 参 见 表 3. 150d 1d2d3表 3.15球 形 假 设"-voo U-ovo "一oov球 形 假 设 是 一 个 风 向 标 , 如 果 资 料 服 从 球 形 假 设 , 则 看 下 面 的 一 元 分 析 结 果 ( 即 Tests ofWithin-Subjects Effects) ; 如 果 不 服 从 球 形 假 设 , 则 看 上 面 的 多 元 分 析 结 果 CMultivariate Tests) , 或者 看 一 元 分 析 结 果 中 校 正 的 部 分 。 SPSS 提 供 三 种 校 正 方 法 , 校 正 系 数 Epsilon 分 别 为 : Greenho旧 e-Geisser , H uynh -F eldt 和 Lower-bound 0 在 随 后 的 单 因 素 输 出 结 果 中 SPSS 会 给 出 校 正 的 结果 。 如 果 校 正 的 一 元 分 析 结 果 与 多 元 分 析 结 论 不 一 致 , 应 该 看 多 元 分 析 结 果 。 在 资 料 满 足 球 形假 设 的 前 提 下 , 一 元 分 析 较 多 元 分 析 检 验 效 能 高 , 尤 其 是 在 样 本 含 量 较 小 的 时 候 。{ 旦 有 学 者 认 为球 形 假 设 太 敏 感 , 容 易 出 现 假 阳 性 结 论 。 在 例 3.2 中 , Mauchly 检 验 结 果 p{ 直 < 0.05 , 说 明 资 料不 服 从 球 形 假 设 。• 63 •


表 3.16 即 为 一 元 方 差 分 析 的 结 果 , 表 中 输 出 的 是 采 用 一 元 方 差 分 析 对 受 试 者 内 因 素 ( 本 例为 三 个 时 期 ) 对 受 试 者 问 变 量 C area, adver) 及 它 们 之 间 的 交 互 作 用 有 无 统 计 学 意 义 进 行 检 验 。还 输 出 了 具 体 校 正 的 内 容 , 可 以 看 出 不 论 是 哪 种 检 验 方 法 , 其 F{ 直 都 一 样 , 校 正 体 现 在 对 其 自 由度 进 行 了 校 正 , Greenhouse-Geisser, H uynh -F eldt 和 Lower-bound 三 种 检 验 的 自 由 度 分 别 等 于 球 形假 设 时 的 自 由 度 分 别 乘 以 上 文 中 的 三 种 Epsilon 校 正 系 数 。 其 中 Lower-bound 的 自 由 度 最 小 , 因此 它 的 结 论 也 最 保 守 。 Greenhouse-Geisser 其 次 。 三 种 校 正 方 法 中 最 不 保 守 的 是 Huynh - Feldt,在 实 际 运 算 中 它 的 Epsilon { 直 甚 至 可 能 大 于 1, 对 于 这 种 情 况 , SPSS 会 用 1 代 替 计 算 结 果 , 此 时 它的 结 论 同 球 形 假 设 的 结 果 一 致 , 参 见 表 3. 17 0SPSS 默 认 对 各 次 重 复 测 量 问 观 察 值 进 行 polynomial 对 比 。 可 通 过 主 对 话 杠 中 的 Contrast按钮 加 以 去 除 或 者 选 择 别 的 对 比 方 法 。 表 3.17 输 出 了 各 次 重 复 测 量 值 之 间 随 测 量 次 数 变 化 的 不同 结 果 ( 本 例 为 时 间 顺 序 )。 对 于 这 种 变 化 趋 势 , SPSS 分 别 采 用 了 线 性 CLinear) 、 二 次 方 曲 线CQuadratic) 进 行 拟 合 , 结 果 说 明 三 个 时 期 的 销 售 情 况 的 变 化 比 较 符 合 二 次 方 曲 线 。 本 例 重 复 观测 水 平 数 较 少 , 仅 三 次 , 谈 变 化 趋 势 是 线 性 还 是 二 次 方 抛 物 线 有 点 牵 强 。• 64 •


此 处 一 元 方 差 分 析 的 反 应 变 量 是 将 每 一 次 的 重 复 测 量 结 果 累 加 , 并 除 以 重 复 测 量 次 数 的 平方 根 。 对 于 表 3. 18 中 的 一 元 方 差 分 析 , y = Ctimel + time2 + time3) / 飞 岳 , 相 应 的 模 型 为 少 =α+β.area + β2 • adver + β.α rea • α dver 。 感 兴 趣 的 读 者 可 以 自 己 计 算 出 该 因 变 量 , 并 加 以 拟 合 , 读 者可 自 行 练 习 。思 考 与 练 习1. 为 了 研 究 饮 食 、 活 动 锻 炼 种 类 与 人 脉 搏 的 关 系 , 某 医 生 将 18 个 人 随 机 分 配 到 饮 食 结 构 不 同 的 两 组 , 且 每 组成 员 又 被 随 机 分 配 至 一 种 体 育 锻 炼 活 动 组 。 数 据 如 题 l 表 所 示 , 试 用 多 元 方 差 分 析 对 该 数 据 库 进 行 统 计 分 析 。题 1表id exercIse diet pulse 1 pulse 2 pulse 3l l 112 166 2152 l 111 166 2253 l l 89 132 1894 2 95 134 1865 2 66 109 1506 2 69 119 1777 2 l 125 177 2418 2 l 85 117 1869 2 l 97 137 18510 2 2 93 151 21711 2 2 77 122 17812 2 2 78 119 17313 3 81 134 20514 3 88 133 18015 3 88 157 22416 3 2 58 99 13117 3 2 85 132 18618 3 2 78 110 1642. 试 对 题 l 做 重 复 测 量 的 方 差 分 析 , 并 与 多 元 方 差 分 析 结 果 进 行 比 较 , 考 虑 它 们 分 别 能 够 回 答 什 么 问 题 ,得 到 何 种 结 论 ?参 考 文 献1 Advanced Techniques: ANOVA (SPSS @ 10.0). SPSS Chicago , <strong>Il</strong>linois , 20002 SPSS @ 11. 0 Syntax Reference Guide. SPSS Chicago , <strong>Il</strong>linois , 20013 苏 炳 华 , 何 清 波 等 . 新 药 临 床 试 验 统 计 分 析 新 进 展 . 上 海 : 上 海 科 学 技 术 文 献 出 版 社 , 20004 陈 峰 . 医 用 多 元 统 计 分 析 方 法 . 北 京 : 中 国 统 计 出 版 社 , 20005 金 主 焕 主 编 . 医 学 统 计 方 法 . 第 二 版 . 上 海 : 复 旦 大 学 出 版 社 , 2003• 65 •


第 4 章 混 合 线 性 模 型 入 门通 过 前 面 的 学 习 , 大 家 己 经 基 本 掌 握 了 方 差 分 析 模 型 的 原 理 和 分 析 方 法 , 并 知 道 该 模 型 在 使用 的 时 候 会 有 独 立 性 、 正 态 性 、 方 差 齐 等 适 用 条 件 。 在 所 有 适 用 条 件 中 , 数 据 的 独 立 性 要 求 是 最严 的 。 虽 然 该 条 件 一 般 不 会 被 违 反 , 但 是 , 实 际 问 题 中 还 是 可 能 会 出 现 这 种 非 独 立 的 数 据 , 此 时又 该 如 何 分 析 ? 本 章 将 要 介 绍 的 混 合 线 性 模 型 是 对 方 差 分 析 模 型 的 进 一 步 扩 展 , 它 是 专 门 用 于非 独 立 数 据 的 统 计 分 析 的 。4.1 模 型 简 介 44. 1. 1 问 题 的 提 出通 常 工 作 中 遇 到 的 许 多 资 料 都 具 有 层 次 结 构 。 例 如 在 市 场 研 究 的 抽 样 调 查 中 , 受 访 者 会 来自 不 同 的 城 市 , 这 就 形 成 了 一 个 层 次 结 构 , 高 层 为 城 市 , 低 层 为 受 访 者 。 显 然 , 同 一 城 市 内 的 受 访者 在 各 方 面 的 特 征 应 当 更 加 相 似 。 又 如 在 几 个 随 机 选 择 的 中 心 或 组 进 行 的 临 床 试 验 , 中 心 间 的医 疗 水 平 不 同 , 在 相 同 中 心 的 病 人 也 往 往 比 从 一 般 总 体 中 随 机 抽 取 的 个 体 更 趋 向 于 相 似 。 换 言之 , 所 谓 层 次 是 指 基 本 的 观 察 单 位 聚 集 在 更 高 层 次 的 不 同 单 位 中 , 如 同 一 城 市 的 受 访 者 特 征 问 具有 相 关 性 , 同 二 中 心 的 病 人 数 据 具 有 相 关 性 等 。 传 统 模 型 没 有 对 这 些 问 题 进 行 考 虑 , 都 是 假 设 不同 个 体 间 的 数 据 完 全 独 立 , 这 样 当 数 据 组 内 聚 集 性 较 强 时 就 可 能 会 得 出 错 误 结 论 。另 一 方 面 , 在 传 统 的 统 计 分 析 方 法 中 , 对 集 中 趋 势 ( 均 数 ) 的 分 析 方 法 己 经 发 展 到 了 比 较 完善 的 地 步 , 但 对 于 离 散 趋 势 的 分 析 则 处 于 起 步 的 阶 段 , 即 可 以 准 确 地 推 断 是 哪 些 因 素 对 因 变 量 的均 数 有 影 响 ; 却 无 法 分 析 是 哪 些 因 素 对 因 变 量 的 变 异 程 度 有 影 响 。 这 一 问 题 现 在 越 来 越 受 到 重视 , 己 成 为 统 计 理 论 的 一 个 重 要 研 究 方 向 。混 合 效 应 模 型 是 20 世 纪 80 年 代 初 针 对 资 料 的 非 独 立 性 问 题 而 发 展 起 来 的 一 类 模 型 , 由 于该 模 型 的 理 论 起 源 较 多 , 根 据 所 从 事 的 领 域 、 模 型 用 途 和 师 承 关 系 , 它 又 可 能 被 称 为 多 水 平 模 型CMultilevel Models)、 广 义 估 计 方 程 CGEEs) 等 。 这 种 模 型 充 分 考 虑 到 了 数 据 聚 集 性 的 问 题 , 可 以在 数 据 存 在 聚 集 性 的 时 候 对 影 响 因 素 进 行 正 确 的 估 计 和 假 设 检 验 ; 不 仅 如 此 , 他 还 可 以 对 变 异 的影 响 因 素 加 以 分 析 , 即 哪 些 因 素 导 致 了 数 据 间 聚 集 性 的 出 现 , 哪 些 又 会 导 致 个 体 间 变 异 的 增 大 。由 于 该 模 型 成 功 解 决 了 长 期 困 扰 统 计 学 界 的 数 据 聚 集 性 问 题 , 20 年 来 己 经 得 到 了 飞 速 的 发 展 ,4 由 于 混 合 效 应 模 型 比 较 复 杂 , 建 议 读 者 先 阅 读 本 书 第 二 部 分 的 线 性 回 归 章 节 , 对 一 般 线 性 模 型 的 基 本 结 构 更 为 熟 悉 以后 , 再 回 过 头 来 学 习 本 章 将 更 为 容 易 。• 66 •


也 成 为 了 SPSS 等 权 威 统 计 软 件 的 标 准 统 计 分 析 方 法 之 一 。由 于 混 合 效 应 模 型 非 常 专 业 , 根 据 本 书 的 定 位 , 本 章 仅 仅 是 对 其 中 最 简 单 的 混 合 线 性 模 型 进行 入 门 性 质 的 介 绍 。 希 望 深 入 学 习 的 朋 友 可 以 参 考 H. Goldstein 教 授 所 著 的 《 多 水 平 统 计 模 型 》( 第 二 版 ) 一 书 , 该 书 现 己 译 成 中 文 出 版 。4. 1. 2 模 型 入 门混 合 效 应 模 型 要 比 大 多 数 统 计 模 型 都 复 杂 得 多 , 为 了 使 大 家 易 于 入 门 , 这 里 将 使 用 该 领 域 内非 常 经 典 的 JSP 数 据 作 为 引 子 , 向 大 家 展 示 该 模 型 的 基 本 结 构 。 JSP. sav 是 " 初 级 学 校 项 目 "Ounior School Project, JSP)的 一 部 分 , 它 共 包 含 了 伦 敦 白 所 初 级 学 校 中 4059 名 学 生 的 数 据 , 文件 中 包 括 了 如 下 变 量 : school: 学 生 所 在 学 校 的 代 码 , 取 值 为 1 ~ 65 0 student: 每 个 学 生 在 学 校 内 的 ID 号 。 nomexam: 学 生 在 16 岁 时 的 考 试 成 绩 , 己 进 行 了 标 准 正 态 变 换 。 standlrt: 学 生 在 11 岁 时 的 考 试 成 绩 , 己 进 行 了 标 准 正 态 变 换 。 gender: 学 生 的 性 别 。 schgend: 学 校 的 类 型 , 1 为 男 女 混 合 , 2 为 男 校 , 3 为 女 校 。 avslrt: 各 个 学 校 学 生 11 岁 考 试 成 绩 的 平 均 数 , 己 进 行 了 标 准 正 态 变 换 。和 16虽 然 在 后 面 的 分 析 中 将 用 到 几 乎 所 有 变 量 , 但 是 在 模 型 介 绍 中 用 到 的 只 有 学 校 代 码 、 11岁 成 绩 这 三 个 变 量 。 注 意 资 料 中 所 有 的 连 续 变 量 都 进 行 了 标 准 正 态 变 换 , 这 是 因 为 混 合 效应 模 型 非 常 复 杂 , 任 何 " 轻 微 " 的 干 扰 都 可 能 使 结 果 变 得 面 目 全 非 , 因 此 在 拟 和 前 对 变 量 进 行 标准 正 态 变 换 几 乎 是 必 需 的 工 作 。 当 然 , 如 果 只 是 进 行 简 单 的 模 型 拟 合 , 特 别 是 如 果 只 考 虑 对 固 定效 应 参 数 进 行 估 计 , 则 不 变 换 影 响 也 不 大 。现 在 假 设 分 析 的 目 的 是 想 以 11 岁 的 成 绩 为 自 变 量 建 立 针 对 16 岁 时 成 绩 的 回 归 方 程 , 则 按照 方 差 分 析 模 型 的 标 准 思 路 , 11 岁 成 绩 为 协 变 量 , school 为 因 素 。 如 果 将 学 校 看 成 是 固 定 因 素 ,则 建 立 的 相 应 模 型 如 下 ( 注 意 下 标 的 表 达 方 式 和 前 面 不 同 ) :y 川 川 飞 ijμ +s 叫 tan 旧 时 1为 了 能 够 与 泪 合 效 应 模 型 的 标 准 表 达 式 丰 相 日 统 二 , 将 式 ( 叫 4. 1) 改 写 为 回 归 模 型 的 形 式 , 如 下 :其 中 βl 代 表 了 11Yij = α+β1 standlrt ij + 三 βjsch001+ezj(4.2)岁 成 绩 的 影 响 ( 系 数 ) , 后 面 的 βj 则 表 示 了 第 j 个 学 校 的 效 应 , 勺 为 第 j 个 学 校 第i 个 学 生 的 随 机 误 差 , 被 假 定 为 服 从 均 数 为 O 的 正 态 分 布 。 值 得 注 意 的 是 , 在 混 合 效 应 模 型 中 , 下标 的 使 用 顺 序 和 普 通 模 型 恰 恰 相 反 , 以 前 说 Yij 代 表 了 第 i 所 学 校 第 j 个 学 生 的 数 值 , 现 在 则 为 第 j所 学 校 第 i 个 学 生 的 数 值 , ep i 代 表 了 最 小 的 观 察 单 位 ( 学 生 ) , j 代 表 高 一 级 的 观 察 单 位 ( 学 校 ) ,如 果 有 更 高 层 次 ( 如 城 市 ) , 则 会 以 k型 。来 代 表 , 以 此 类 推 。 为 统 一 起 见 , 本 章 中 都 会 这 样 定 义 模式 (4.2) 看 起 来 没 有 什 么 问 题 , 但 如 果 换 一 个 角 度 来 思 考 , 就 会 发 现 它 忽 略 了 许 多 深 层 次 的信 息 。 首 先 来 看 单 独 一 所 学 校 时 的 情 况 , 以 第 一 所 学 校 为 例 , 其 散 点 图 如 图 4. 1 所 示 , 如 果 对 其拟 合 回 归 方 程 , 则 模 型 如 下 :岁• 67 •


图 4. 1 第 一 所 学 校 的 散 点 图Yz=α+β1 standlrt i + e i其 中 下 标 i 代 表 第 i 个 学 生 。 在 单 独 考 虑 这 一 所 学 校 时 , 该 模 型 是 非 常 完 善 的 , 但 当 同 时 考 虑多 所 学 校 时 问 题 就 出 现 了 。 显 然 , 各 个 学 校 的 教 学 水 平 是 有 差 异 的 , 也 就 是 说 同 一 所 学 校 学 生 的 成绩 之 间 实 际 上 并 不 独 立 , 好 学 校 的 学 生 成 绩 会 普 遍 好 一 些 , 差 学 校 学 生 的 成 绩 会 普 遍 差 一 些 。现 在 再 加 入 其 他 几 所 学 校 , 以 前 三 所 学 校 为 例 , 其 散 点 图 及 相 应 的 回 归 线 如 图 4.2 所 示 。 显然 , 三 条 回 归 线 的 截 距 不 同 , 这 种 差 异 实 际 上 反 映 了 学 校 间 教 学 水 平 的 差 异 , 即 11 岁 成 绩 相 同 的学 生 , 在 不 同 的 学 校 中 学 习 后 其 16 岁 成 绩 的 平 均 估 计 值 可 能 是 不 同 的 。 如 果 考 虑 到 该 变 异 , 则刚 才 的 模 型 应 扩 展 为 如 下 形 式 :Yij = (α 。 + U O ) + β1 standlrt ij + e ijYij 代 表 了 第 j 所 学 校 第 i 个 学 生 16 岁 的 成 绩 。 其 中 的 α。 表 示 各 学 校 总 的 平 均 水 平 , U Oj 就 表 示了 不 同 学 校 间 的 变 异 。 如 果 样 本 中 学 校 个 数 m 不 多 , 且 研 究 者 的 兴 趣 就 在 样 本 中 的 这 几 所 学 校 , 则可 以 将 学 校 看 成 是 一 个 固 定 因 素 进 行 分 析 , 该 模 型 实 际 上 就 是 刚 才 列 出 的 最 常 用 的 模 型 公 式 :Yij = α+β1 standlrt ij + 三 β:jschoolj + e ij但 是 , 如 果 不 只 关 注 这 几 所 学 校 , 而 是 关 注 更 广 泛 的 学 校 总 体 , 那 么 就 需 要 估 计 在 学 校 总 体中 截 距 的 变 异 有 多 大 , 此 时 实 际 上 是 将 原 来 的 α 真 正 当 作 一 个 随 机 变 量 来 看 待 , 令 α=α 。这 样 , 通 过 检 验 U Oj 是 否 为 O( 具 体 方 法 为 检 验 其 方 差 是 否 大 于 0) , 就 可 以 得 知 截 距 的 变 异 在 学 校总 体 中 是 真 的 存 在 , 还 是 仅 仅 因 为 抽 样 导 致 的 假 象 而 己 。 如 果 照 此 设 置 , 拟 合 的 就 是 前 面 提 到 过的 含 随 机 因 素 的 随 机 效 应 模 型 , 此 时 模 型 需 要 同 时 估 计 随 机 项 川 的 大 小 。 而 当 模 型 中 同 时 含 有随 机 因 素 和 固 定 因 素 时 , 又 被 称 为 混 合 效 应 模 型 。迄 今 为 止 , 对 混 合 效 应 模 型 的 介 绍 仍 未 超 出 前 面 学 过 的 范 畴 , 下 面 开 始 对 该 模 型 进 行 扩 展 。首 先 来 观 察 更 多 的 学 校 数 据 , 图 4.3 是 前 10 所 学 校 各 自 的 回 归 线 , 从 中 可 以 看 到 除 了 截 距 以 外 ,各 回 归 线 的 斜 率 间 也 不 尽 相 同 。 也 就 是 说 , 成 绩 在 学 校 间 的 聚 集 性 除 了 表 现 为 成 绩 的 平 均 水 平+ l 勺 '不 同 外 , 还 表 现 在 不 同 学 校 中 成 绩 的 离 散 度 上 。 斜 率 高 的 学 校 其 16岁 成 绩 离 散 度 较 高 , 斜 率 低的 则 成 绩 比 较 集 中 。 同 上 , 模 型 将 被 继 续 扩 展 如 下 :Yij = (α 。 + U Oj ) + \β1 + U 1 ) standlrt ij + 飞• 68 •


图 4.2 前 三 所 学 校 的 散 点 图 和 回 归 线 图 4.3 前 十 所 学 校 的 回 归 线同 理 , 通 过 检 验 随 机 项 U 1j 是 否 等 于 0 , 就 可 以 得 知 是 否 各 个 学 校 的 成 绩 离 散 度 不 同 。 显 然 ,所 谓 固 定 效 应 和 随 机 效 应 的 区 别 就 在 于 其 参 数 是 被 设 定 为 固 定 的 , 还 是 被 设 定 为 一 个 随 机 变 量 。更 一 般 的 , 模 型 中 的 随 机 项 常 常 被 写 在 一 起 , 如 下 所 示 :Yij = (α 。 +β1 standlrt i ) + (U Oj + u1jstandlrt ij + 勺 ) (4.3)式 (4.3) 中 的 两 部 分 分 别 被 称 为 固 定 部 分 和 随 机 部 分 , 可 见 和 普 通 的 线 型 模 型 相 比 , 混 合 线性 模 型 主 要 是 对 原 先 的 随 机 误 差 进 行 了 更 加 精 细 的 分 解 。 但 正 因 如 此 , 该 模 型 就 可 以 正 确 估 计并 分 析 数 据 在 高 水 平 单 位 内 聚 集 的 问 题 , 同 时 可 以 为 研 究 者 提 供 更 加 丰 富 的 信 息 。4.2 层 次 聚 集 性 数 据 分 析 实 例下 面 将 使 用 SPSS中 的 Mixed 过 程 对 JSP 数 据 进 行 分 析 , 并 借 此 实 例 深 入 地 了 解 混 合 线 性 模型 的 细 节 。 在 正 式 分 析 前 , 首 先 按 照 随 机 效 应 方 差 分 析 模 型 的 结 构 , 得 到 结 果 ( 不 考 虑 交 互 作用 ) 参 见 表 4.10• 69 •


表 4.1 是 方 差 分 析 的 检 验 结 果 , 如 果 要 给 出 参 数 估 计 值 , 折 中 对 standlrt 的 参 数 估 计 值 为0.5595 , 这 里 列 出 此 结 果 是 为 了 和 后 面 的 结 果 相 互 对 照 , 以 加 深 理 解 。4.2.1 拟 合 混 合 线 性 模 型 的 基 本 结 构现 在 开 始 按 照 混 合 线 性 模 型 的 结 构 对 JSP数 据 进 行 分 析 。 和 普 通 模 型 不 同 , 混 合 线 性 模 型中 可 以 只 纳 入 常 数 项 , 即 模 型 最 简 式 可 以 如 下 :nomexamq=(α 。) + (U Oj+ 勺 )在 上 述 表 达 式 中 , 只 是 考 虑 不 同 学 校 的 平 均 考 试 成 绩 是 否 有 差 异 ( 有 聚 集 性 ) , 只 要 通 过 检验 随 机 项 U Oj 是 否 等 于 0 , 就 可 以 对 此 加 以 验 证 。 软 件 中 的 对 话 杠 操 作 如 下 :iAnalyze• Mixed Models• LineariS 山 jects 杠 : school:1Continueli Dependent Variable 杠 : nomexam匾 亟 曰 :Parameter estimates 、 商 Tests for covariance parameters|Continuel匾 亟 虽 :Random哑Effects: 即 Include InterceptSubject Groupings: Combinations 丰 匡 : school囚首 先 弹 出 的 预 定 义 对 话 杠 用 于 对 模 型 的 聚 集 层 次 进 行 设 定 , 如 图 4.4 所 示 , 具 体 方 式 是 在Subjects 杠 中 指 定 相 应 的 指 示 变 量 , 该 变 量 取 值 相 同 时 , 则 认 为 这 些 个 体 间 的 数 据 可 能 不 独 立 。本 例 中 即 为 school 。 随 后 弹 出 的 主 对 话 杠 和 一 般 线 性 模 型 的 主 对 话 杠 非 常 相 似 , 如 图 4. 5 所 示 ,图 4.4预 定 义 对 话 框图 4.5主 对 话 框• 70 •


这 里 不 再 详 述 。 注 意 在 本 例 中 , 对 Random 子 对 话 杠 进 行 了 专 门 的 设 定 , 其 中 Include Intercept 复选 杠 是 要 求 模 型 中 包 含 针 对 常 数 项 的 随 机 项 I 勺 , 而 随 后 的 操 作 则 是 将 变 量 school 定 义 为 随 机 变异 的 来 源 , 即 设 工 Ë u Oj 在 每 个 学 校 各 不 相 同 。在 主 对 话 杠 的 下 方 , 大 家 可 以 看 到 有 一 排 共 6 个 按 钮 , 其 中 最 前 面 的 两 个 "Fixed" 和 "Random"按 钮 分 别 用 于 对 模 型 的 固 定 部 分 和 随 机 部 分 加 以 指 定 , 由 于 当 前 模 型 固 定 部 分 只 含 有 一 个常 数 项 , 软 件 默 认 己 经 纳 入 , 故 这 里 的 操 作 只 涉 及 随 机 部 分 。下 面 来 详 细 讨 论 上 面 所 拟 和 模 型 的 分 析 结 果 , 首 先 输 出 的 标 题 "Mixed Model Analysis" 指 出分 析 中 拟 合 的 是 混 合 线 性 模 型 。表 4.2 给 出 的 是 模 型 设 置 情 况 的 简 报 , 可 见 模 型 中 固 定 效 应 只 有 一 个 常 数 项 , 随 机 效 应 也 只有 常 数 项 , 学 生 成 绩 以 各 自 的 学 校 为 聚 集 水 平 。 注 意 这 里 默 认 的 协 方 差 阵 结 构 为 方 差 成 分 , 简 单地 说 就 是 各 个 学 校 的 方 差 各 不 相 同 , 且 各 不 相 关 。表 4.3 给 出 的 是 模 型 拟 合 信 息 , 包 括 一 2 倍 对 数 似 然 值 和 其 他 一 些 信 息 准 则 。 它 们 可 以 用于 判 断 模 型 中 引 入 的 因 素 是 否 有 统 计 学 意 义 , 作 用 要 远 大 于 后 面 Wald 检 验 的 近 似 结 果 。在 模 型 总 体 拟 合 信 息 输 出 完 毕 后 , 结 果 窗 口 中 会 输 出 标 题 "Fixed Effects" , 表 明 随 后 输 出 的是 对 模 型 效 应 固 定 部 分 的 分 析 结 果 。表 4.4 为 固 定 效 应 的 方 差 分 析 表 格 , 现 在 只 有 一 个 常 数 项 , 其 原 假 设 为 常 数 项 α。 等 于 0 , 可见 结 果 无 统 计 学 意 义 , 即 不 能 拒 绝 所 有 学 校 的 成 绩 平 均 水 平 为 O 的 假 设 。表 4.5 为 对 常 数 项 的 估 计 值 , 可 见 大 小 为 一 0.01320 随 后 的 检 验 结 论 和 土 文 中 的 F 检 验 完全 相 同 。• 71 •


l i i可 号 事 3气 》 矿标 题 "Covariance Parameters" 的 出 现 , 表 明 随 后 给 出 的 是 对 模 型 随 机 部 分 的 分 析 结 果 。下 面 给 出 的 是 对 模 型 随 机 部 分 的 分 析 结 果 。表 4.6为 随 机 效 应 的 估 计 值 和 检 验 结 果 , 右 侧 还 应 当 给 出 可 信 区 间 , 因 太 长 , 此 处 截 去 。 可见 代 表 学 校 差 异 的 常 数 项 估 计 值 ( 也 就 是 U Oj 的 方 差 ) 为 0.1716 , 且 具 有 统 计 学 意 义 ( 此 处 的 原 假设 为 川 的 方 差 为 0) 。 这 说 明 16 岁 学 生 成 绩 的 变 异 在 学 校 水 平 上 的 确 存 在 聚 集 性 , 也 就 是 说 , 不同 学 校 间 的 教 学 水 平 的 确 有 差 异 。 上 面 的 Residual则 是 对 勺 的 检 验 结 果 , 可 见 其 方 差 估 计 值 为0.8477 , 且 有 统 计 学 意 义 , 也 就 是 学 生 间 的 确 存 在 着 个 体 差 异 。 当 然 , 这 个 结 果 是 显 而 易 见 的 。根 据 上 面 的 分 析 结 果 , 实 际 上 可 以 计 算 出 同 一 学 校 内 任 意 两 个 学 生 成 绩 的 相 关 系 数 , 公 式 为r= σL/(σL+σ:0) , 本 例 中 为 r =0.171 61 (0.847 6 +0.171 6) =0.168 40注 意 表 格 中 的 Wald 检 验 给 出 的 只 是 近 似 的 结 果 , 只 能 作 为 参 考 , 当 p{ 直 接 近 0.05时 , 需 要使 用 前 面 的 对 数 似 然 值 做 出 更 为 精 确 的 判 断 。 关 于 该 问 题 的 详 细 情 况 大 家 可 参 见 本 书 Logistic回 归 一 章 的 相 应 内 容 。4.2.2 在 固 定 效 应 中 加 入 自 变 量前 面 拟 合 的 模 型 非 常 简 单 , 更 多 的 是 为 了 演 示 软 件 的 基 本 操 作 和 结 果 , 下 面 将 开 始 向 模 型 中加 入 其 他 自 变 量 。 考 虑 到 学 生 的 入 学 成 绩 可 能 对 16 岁 时 的 成 绩 有 影 响 , 下 面 将 变 量 standlrt 纳入 , 拟 合 的 模 型 为 :nomexaIIIzj=(α 。 +β1 standlrt) + (U Oj + 勺 )对 话 杠 界 面 的 操 作 主 要 在 主 对 话 杠 和 Fixed 子 对 话 杠 处 有 一 些 变 化 , 具 体 如 下 :• 72 •


:Covariate 杠 : standlrtE 虽 :选 中 standlrt: Add|Continuel也 就 是 说 , 在 混 合 效 应 模 型 的 分 析 中 , 必 须 要 手 工 对 固 定 效 应 加 以 设 定 , 系 统 不 会 像 方 差 分析 模 型 中 一 样 自 动 设 定 这 些 部 分 , 这 主 要 是 出 于 模 型 复 杂 性 的 考 虑 , 避 免 出 错 。 这 样 操 作 后 模 型的 主 要 分 析 结 果 参 见 表 4.70首 先 给 出 的 模 型 设 置 情 况 的 表 格 有 所 变 化 , 可 见 模 型 的 固 定 效 应 除 了 常 数 项 外 , 还 多 了 一 个standlrt , 其 余 部 分 则 无 任 何 变 化 。模 型 拟 合 信 息 表 格 显 示 , 当 加 入 了 新 的 自 变 量 后 , 各 项 信 息 准 则 均 有 所 降 低 , 例 如 一 2倍 的对 数 似 然 值 由 刚 才 的 11 014.624 下 降 为 9 368.735 , 显 然 模 型 拟 合 效 果 有 了 较 大 的 改 善 , 这 说 明该 变 量 的 纳 入 是 合 理 的 , 使 得 模 型 能 够 解 释 更 多 的 数 据 中 的 变 异 。表 4.9 和 表 4. 10 进 行 了 模 型 中 固 定 效 应 部 分 的 检 验 , 并 给 出 相 应 的 参 数 估 计 值 , 可 见 11 岁成 绩 的 确 对 16 岁 时 的 成 绩 有 影 响 , 从 系 数 值 来 看 , 11 岁 成 绩 越 高 , 16 岁 的 成 绩 也 越 高 。 另 外 , 要注 意 standlrt 的 参 数 估 计 值 为 0.563 3 , 实 际 上 , 现 在 所 拟 合 的 模 型 就 完 全 等 价 于 预 分 析 中 的 随 机因 素 模 型 , 只 是 因 算 法 不 同 而 导 致 参 数 估 计 值 和 检 验 结 果 略 有 出 入 而 己 ( 注 意 参 数 、 标 准 误 估 计值 和 方 差 分 析 中 的 F{ 直 都 非 常 接 近 )。• 73 •


表 4.11 同 样 是 对 随 机 效 应 的 估 计 值 和 检 验 结 果 , 可 见 对 模 型 残 差 由 刚 才 的 0.847 7 下 降 为0.565 8 , 代 表 学 校 差 异 的 常 数 项 估 计 值 ( 也 就 是 川 的 方 差 ) 从 刚 才 的 O. 171 6 下 降 为 0.094 , 但 仍然 具 有 统 计 学 意 义 。 这 说 明 当 引 入 了 standlrt 后 , 有 相 当 一 部 分 成 绩 变 异 被 该 自 变 量 的 作 用 解 释掉 了 , 从 残 差 和 学 校 水 平 的 方 差 大 小 来 看 , 在 考 虑 了 standlrt 的 作 用 后 , 16 岁 学 生 成 绩 在 学 校 水平 上 的 聚 集 性 己 经 比 较 弱 了 , 但 仍 然 存 在 。表 4. 11 Estimates of Covariance Parameters aParameterResidualEstimate Std , Error Wald Z Sig ,.56586 才 o , 0126670 44.672000Intercept [subject '" school] Variance .0938383 , 0189859 4.943 000a. Dependent Variable: 16 岁 成 绩4.2.3 在 随 机 效 应 中 加 入 自 变 量下 面 将 学 生 的 11 岁 入 学 成 绩 也 加 入 随 机 效 应 项 中 , 所 拟 合 的 模 型 为 :nomexaIIIzj=(α 。 +β] standlrt) + (U Oj+ u]jstandlrt + 勺 )如 果 同 时 分 析 该 变 量 对 学 校 内 成 绩 的 离 散 程 度 有 无 影 响 , 对 话 杠 界 面 的 操 作 主 要 是 Random子 对 话 杠 有 所 变 化 , 具 体 如 下 :面 亟 画 :选 中 standlrt: AddRandom Effects: 出 Include InterceptSubject Groupings: Combinations杠 : school|Continuel分 析 结 果 中 的 主 要 部 分 参 见 表 4. 12 和 表 4.130表 4. 12 和 表 4.13 为 对 固 定 部 分 中 各 变 量 参 数 的 估 计 值 。 当 随 机 效 应 中 加 入 解 释 变 量 后 ,• 74 •


一 般 固 定 效 应 的 参 数 标 准 误 估 计 和 检 验 结 果 会 有 一 些 变 化 , 但 参 数 估 计 值 一 般 都 比 较 稳 定 , 本 例中 检 验 结 论 与 前 面 相 同 。表 4. 14 为 随 机 效 应 的 估 计 值 和 检 验 结 果 , 可 见 standlrt 对 学 校 内 成 绩 的 变 异 的 确 是 有 影 响的 , 即 对 于 不 同 的 11 岁 成 绩 水 平 , 16 岁 成 绩 的 离 散 程 度 并 不 相 同 。 显 然 , 这 种 分 析 结 论 是 普 通线 性 模 型 所 无 法 得 到 的 。 连 续 性 变 量 在 随 机 部 分 有 意 义 可 能 不 太 好 理 解 , 那 么 举 个 简 单 些 的 例子 : 如 果 性 别 在 随 机 部 分 有 统 计 学 意 义 , 则 表 明 男 学 生 和 女 学 生 16 岁 成 绩 的 离 散 度 不 同 。表 4. 14 中 也 给 出 了 对 uo/f 口 勺 的 检 验 结 果 , 可 见 由 于 变 量 standlrt 引 入 了 随 机 效 应 , 随 机 误差 和 学 校 聚 集 性 所 能 解 释 的 变 异 又 再 次 都 减 小 了 许 多 。 理 论 上 , 分 析 者 可 以 通 过 在 不 断 引 入 有关 的 解 释 变 量 使 学 校 聚 集 性 越 来 越 弱 , 最 后 消 失 , 也 就 是 说 , 可 以 最 终 找 到 究 竟 是 学 校 间 的 哪 些特 征 不 同 导 致 了 成 绩 聚 集 性 的 出 现 , 这 也 是 普 通 线 性 模 型 所 无 法 完 成 的 任 务 。4.2.4 更 多 解 释 变 量 的 引 入下 面 将 在 模 型 中 引 入 更 多 的 解 释 变 量 , 来 考 察 它 们 是 否 对 16别 、 学 校 类 型 和 学 校 平 均 成 绩 , 相 应 使 用 的 模 型 如 下 :岁 成 绩 有 影 响 , 这 些 变 量 为 性nomexaIIIq=(α 。 +β] standlrt +β2gender + 三 β3kschgend) + (U Oj+ u]jstandlrt + 勺 )注 意 这 里 的 学 校 类 型 为 三 分 类 变 量 , 所 以 会 使 用 两 个 哑 变 量 系 数 来 纳 入 模 型 。 对 话 杠 操 作 时 注意 将 gender 和 schgend 选 入 Fixed 框 , 而 avelrt 选 入 Covariate 框 , 拟 和 结 果 参 见 表 4. 15 和 表 4. 16:• 75 •


由 上 面 的 分 析 结 果 可 见 , 性 别 和 学 校 平 均 成 绩 的 确 是 有 影 响 的 , 其 中 性 别 也 采 用 的 是 哑 变 量的 形 式 , 具 体 为 女 生 作 为 参 照 水 平 , [gender = 1. 00 ] 一 行 为 男 生 与 之 相 比 的 结 果 , 可 见 男 学 生 的成 绩 较 低 。 Schgend 的 P 值 稍 大 于 0.05 , 此 时 最 好 使 用 似 然 值 未 得 到 更 为 精 确 的 P 值 , 最 终 结 论为 Schgend 的 确 无 统 计 学 意 义 , 此 处 不 再 详 述 。表 4.17 为 随 机 效 应 的 检 验 结 果 , 由 于 没 有 引 入 新 的 变 量 , 各 参 数 方 差 的 估 计 值 变 动 不 大 。下 面 还 可 以 对 JSP 数 据 做 进 一 步 的 分 析 , 如 研 究 性 别 与 学 校 类 型 间 有 无 交 互 作 用 , 学 校 平 均成 绩 对 离 散 程 度 有 无 影 响 等 , 因 篇 幅 所 限 , 这 里 不 再 详 述 , 大 家 可 自 行 操 作 。• 76 •


4.2.5 其 他 常 用 选 项Mixed 过 程 中 提 供 的 选 项 比 较 繁 杂 , 这 里 将 上 面 分 析 中 没 有 详 细 讨 论 过 的 一 些 子 对 话 杠 和选 项 解 释 一 下 。(1) Statistics 子 对 话 杠 : 用 于 选 择 可 以 输 出 的 统 计 量 , Summary Statistics 复 选 杠 组 : 可 给 出 常用 的 描 述 统 计 量 和 记 录 处 理 情 况 汇 总 ; Model Statistics 复 选 杠 组 则 可 列 出 下 列 统 计 指 标 : Parameter estimates: 固 定 部 分 的 参 数 估 计 值 及 近 似 的 标 准 误 。 Tests for covariance parameters: 随 机 部 分 中 协 方 差 参 数 的 近 似 标 准 误 和 Wald 检 验 结 果 ,注 意 这 里 的 检 验 结 果 都 是 近 似 的 , 仅 供 参 考 , 详 细 介 绍 见 后 面 有 关 章 节 。 Correlations of parameter estimates: 固 定 效 应 参 数 估 计 值 的 渐 近 相 关 阵 。 Covaria 时 es of parameter estimates: 固 定 效 应 参 数 估 计 值 的 渐 近 协 方 差 阵 。 Covaria 时 es of random effects: 随 机 效 应 参 数 估 计 值 的 渐 近 协 方 差 阵 。 Covaria 时 es of residuals: 残 差 的 协 方 差 阵 。 Contrast coefficient matrix: 列 出 用 于 检 验 固 定 效 应 和 自 定 义 假 设 的 设 计 矩 阵 。(2) Estimation 子 对 话 杠 : 用 于 选 择 迭 代 方 法 , 设 定 收 敛 标 准 等 , 其 中 比 较 重 要 的 是 Method单 选 杠 组 , 用 于 选 择 拟 合 时 所 采 用 的 迭 代 方 法 , 有 限 制 性 最 大 似 然 法 和 普 通 最 大 似 然 法 两 种 , 前者 才 是 真 正 考 虑 了 混 合 效 应 的 迭 代 方 法 , 而 后 者 可 能 会 导 致 有 偏 估 计 , 因 此 大 家 应 尽 量 使 用 默 认的 REML , 除 非 REML 未 能 收 敛 , 再 考 虑 使 用 ML 。 其 他 的 杠 组 请 均 使 用 默 认 设 置 。(3) Save 子 对 话 杠 : 将 模 型 拟 合 得 到 的 预 测 值 、 残 差 等 存 为 新 变 量 供 继 续 分 析 使 用 。 其 中Fixed Predicted 飞 v 怔 a 址 h 时 s 用 于 存 储 固 定 效 应 的 分 析 结 果 , 而 Predicted Values and Residuals 则 用 于 存储 整 个 模 型 的 分 析 结 果 。(4) EM Means 子 对 话 杠 : 计 算 出 各 种 组 合 下 的 边 际 均 数 , 并 进 行 指 定 的 两 两 比 较 , 该 功 能 和GLM 中 的 同 类 功 能 实 际 上 是 一 回 事 。4.3 重 复 测 量 数 据 分 析 实 例前 面 讨 论 的 例 子 为 数 据 间 存 在 层 次 性 结 构 , 从 而 在 相 同 亚 组 内 的 个 体 特 征 存 在 趋 同 性 。 除这 种 情 况 外 , 数 据 的 非 独 立 现 象 还 广 泛 存 在 于 重 复 测 量 资 料 中 。 重 复 测 量 资 料 在 研 究 中 非 常 常见 , 是 对 同 一 受 试 对 象 的 某 个 观 察 指 标 进 行 重 复 观 测 得 到 的 数 据 。 包 括 在 不 同 时 间 点 上 的 重 复测 量 和 在 同 一 时 间 点 的 重 复 测 量 两 种 。1. 同 一 时 间 点 , 或 者 不 考 虑 时 间 因 素 的 重 复 测 量比 如 多 个 医 生 对 同 一 批 病 人 的 症 状 分 别 进 行 评 定 ; 同 一 个 样 品 分 别 用 多 台 仪 器 检 测 得 到 的数 值 等 。 由 于 实 验 对 象 ( 病 人 、 动 物 或 者 样 品 ) 的 真 值 只 有 一 个 , 测 量 值 都 围 绕 真 值 波 动 , 个 体 的测 量 值 相 互 关 联 , 个 体 间 的 变 异 大 于 个 体 内 变 异 。 这 种 数 据 在 分 析 时 实 际 上 完 全 类 似 于 土 文 的层 次 性 数 据 , 即 将 每 次 测 量 作 为 低 水 平 , 而 将 个 体 作 为 高 水 平 进 行 分 析 即 可 。2. 按 照 时 间 顺 序 的 重 复 测 量 数 据又 称 为 纵 向 数 据 (Longitudinal Data) , 在 社 会 学 和 经 济 学 中 则 被 称 为 Panel Data , 指 个 体 随 着时 间 推 移 被 重 复 观 测 所 得 来 的 资 料 。 例 如 在 调 查 研 究 中 的 前 瞻 性 研 究 , 对 初 生 婴 儿 的 身 高 、 体 重• 77 •


进 行 动 态 监 测 , 走 时 测 量 其 身 高 、 体 重 以 观 察 婴 儿 生 长 发 育 情 况 。 又 比 如 临 床 试 验 中 为 研 究 某 治疗 老 年 性 白 内 障 药 物 是 否 有 效 , 分 别 在 用 药 后 第 五 6 、 12 、 18 、 24 、 30 日 随 访 病 人 , 观 察 晶 状 体 混 浊情 况 。 由 于 同 一 个 对 象 有 多 个 数 据 , 且 按 照 时 间 顺 序 排 列 , 它 们 之 间 往 往 有 较 高 的 相 关 性 , 而 且越 是 相 邻 近 的 观 测 之 间 相 关 性 越 大 。 而 个 体 之 间 的 数 据 则 可 以 认 为 是 独 立 的 。 这 种 资 料 在 分 析时 除 了 要 考 虑 数 据 非 独 立 性 的 影 响 之 外 , 研 究 者 往 往 还 希 望 求 出 各 次 重 复 测 量 间 的 相 关 关 系 是怎 样 的 , 一 般 所 说 的 重 复 测 量 就 是 指 的 这 种 纵 向 的 情 况 。下 面 用 一 个 分 析 实 例 来 深 入 探 讨 纵 向 数 据 的 分 析 问 题 , 为 研 究 青 少 年 牙 齿 发 育 的 情 况 与 年龄 、 性 别 的 关 系 , 现 随 机 选 取 了 27 名 儿 童 , 分 别 在 他 们 8 、 10 、 12 、 14 岁 时 测 量 某 个 齿 科 指 标 CDistanceCmm) from center of pituitary to pteryo - maxillary fissure) , 现 希 望 回 答 : 该 距 离 是 否 随 着 年 龄 的 增 加而 有 所 变 化 , 不 同 性 别 的 儿 童 该 指 标 是 否 有 差 异 ? 数 据 见 SPSS 自 带 文 件 growth study. sav 04.3.1 对 数 据 的 初 步 分 析首 先 , 按 照 方 差 分 析 模 型 的 传 统 思 路 对 这 一 问 题 进 行 考 察 。 因 变 量 为 垂 体 中 心 和 上 颁 骨 裂隙 间 的 距 离 是 连 续 性 变 量 , 且 该 指 标 是 对 每 一 个 个 体 在 不 同 的 年 龄 重 复 测 量 了 4 次 。 因 此 相 应的 影 响 因 素 有 三 个 : 年 龄 、 性 别 和 个 体 。 为 了 更 清 楚 地 探 索 它 们 对 因 变 量 的 影 响 , 现 绘 制 线 图 如图 4.6 所 示 。图 4.6 27 名 受 试 者 某 观 察 指 标 随 年 龄 增 长 的 趋 势由 图 4. 6 中 可 见 , 个 体 差 异 是 明 显 存 在 的 ; 对 所 有 个 体 而 言 , 均 数 随 着 年 龄 增 大 而 上 升 有 线性 增 加 的 趋 势 ; 并 且 该 指 标 存 在 性 别 差 异 , 男 孩 高 于 女 孩 。 为 简 化 问 题 , 这 里 可 以 将 年 龄 作 为 连续 性 变 量 ( 协 变 量 ) 纳 入 模 型 , 同 时 只 考 虑 主 效 应 , 相 应 的 模 型 表 达 式 如 下 :yqk=μ + gender i + i 码 +αge下 面 来 考 虑 方 差 的 具 体 分 解 方 式 。 本 研 究 中 只 采 集 了 27 个 个 体 的 数 据 , 但 显 然 研 究 者 希 望结 果 能 适 用 于 所 有 儿 童 , 因 此 个 体 应 当 被 作 为 随 机 因 素 来 分 析 。 最 后 是 性 别 , 由 于 对 同 一 个 个 体而 言 性 别 是 恒 定 不 变 的 , 因 此 性 别 的 作 用 嵌 套 在 个 体 作 用 的 外 面 , 即 首 先 进 行 的 是 性 别 的 方 差 分+ E: ijk• 78 •


解 , 然 后 才 是 个 体 和 年 龄 作 用 的 方 差 分 解 。下 面 按 此 思 路 进 行 本 例 的 分 析 , 具 体 的 操 作 过 程 不 再 写 出 , 只 给 出 相 应 的 分 析 结 果 参 见 表4.18 ( 对 本 例 的 分 析 可 用 来 考 察 大 家 对 前 两 章 的 掌 握 情 况 , 如 果 能 正 确 得 出 如 下 的 分 析 结 果 , 则说 明 大 家 对 协 变 量 、 随 机 因 素 、 嵌 套 效 应 的 分 析 方 法 均 己 熟 练 掌 握 了 )。通4.3.2 拟 合 混 合 线 性 模 型 的 基 本 结 构现 在 按 照 混 合 效 应 模 型 的 方 式 进 行 数 据 的 建 模 , 如 果 不 考 虑 重 复 测 量 的 因 素 , 把 每 一 条 记 录视 为 独 立 的 , 则 忽 略 个 体 因 素 , 相 应 的 模 型 为 :yqk=μ + gender i + αge + E: ijk使 用 前 面 学 过 的 方 差 分 析 过 程 就 可 以 得 到 模 型 中 各 参 数 的 估 计 值 , 但 该 模 型 实 际 上 也 完 全可 以 使 用 Mixed 过 程 的 对 话 杠 完 成 , 相 应 的 操 作 如 下 :iAnalyze• Mixed Models• Linear二 - -n- --七一-i -i、O ιE1L-一 -ue一 一..i Dependent Variable 杠 : distance: Factors 杠 : gender:Covariate 杠 : ageE 虽 : 选 中 gende 川 dd 、 选 中 age:Add:~ 亟 画IStatist 曰 :Model面Statistics: 日 Parameter estimates 、 商 Test for covariance parametersCovariance of residuals囚在 以 上 操 作 中 , 对 Fixed 子 对 话 杠 的 操 作 就 是 分 别 设 定 gender 和 age 在 模 型 中 的 参 数 , 由 于• 79 •


在 预 定 义 对 话 杠 中 未 设 定 组 内 聚 集 、 重 复 测 量 的 指 示 变 量 , 系 统 就 默 认 记 录 均 是 独 立 的 。表 4. 19 显 示 的 是 在 当 前 设 置 下 的 模 型 拟 合 信 息 , 主 要 用 于 和 后 面 模 型 进 行 比 较 。表 4.20 和 表 4.21两 个 表 格 给 出 的 是 对 固 定 效 应 的 分 析 结 果 , 有 兴 趣 的 朋 友 可 以 使 用 GLM过 程 对 本 模 型 进 行 分 析 , 会 发 现 两 种 方 法 的 结 果 完 全 相 同 , 即 两 者 的 结 果 是 等 价 的 。表 4.22 给 出 的 是 对 E的 估 计 值 , 可 见 对 它 的 检 验 p{ 直 远 小 于 0.05 , 也 就 是 说 , 各 测 量 之 间的 变 异 是 的 确 存 在 的 , 但 是 很 显 然 , 这 个 检 验 结 果 并 无 实 际 价 值 。• 80 •


意 义 。最 后 还 会 给 出 残 差 的 协 方 差 阵 , 参 见 表 4.23 , 由 于 这 里 未 定 义 重 复 测 量 指 示 变 量 , 故 无 实 际下 面 来 学 习 如 何 设 定 重 复 测 量 指 示 变 量 , 对 本 例 而 言 , 在 预 定 义 对 话 杠 中 相 应 的 操 作 如 下 :: Analyze• Mixed Models• LineariS 山 jects 杠 : subjectiRepeated 杠 : age: Repeated Covariance type: Scaled identityilContinuel其 余 操 作 与 土 文 相 同 , 相 应 的 结 果 中 模 型 设 置 表 格 参 见 表 4.240表 4.24 给 出 的 实 际 上 就 是 具 体 的 重 复 测 量 定 义 , 可 见 是 对 subject 所 代 表 的 个 体 进 行 的 重复 测 量 , 而 具 体 的 重 复 测 量 指 示 变 量 为 age , 各 次 测 量 间 的 协 方 差 结 构 被 设 定 为 identity , 意 为 4次 测 量 的 方 差 完 全 相 同 , 且 各 次 测 量 完 全 独 立 。随 后 对 固 定 效 应 的 分 析 结 果 与 前 完 全 相 同 , 但 随 机 效 应 协 方 差 阵 的 表 格 有 所 变 化 , 具 体 参 见表 4.250• 81 •


表 4.25 中 给 出 了 4 次 重 复 测 量 间 的 协 方 差 阵 , 反 映 的 是 各 次 间 的 方 差 和 相 关 程 度 , 可 见 按模 型 的 设 定 , 4 次 测 量 完 全 等 方 差 , 且 彼 此 相 互 独 立 , 不 存 在 相 关 性 。4.3.3 考 虑 重 复 测 量 间 的 相 关 性显 然 , 上 述 分 析 是 强 行 在 模 型 中 设 定 不 考 虑 观 察 对 象 在 不 同 时 间 点 的 内 部 相 关 性 , 而 当 作 独立 样 本 处 理 。 究 竟 在 这 个 数 据 中 因 变 量 有 无 相 关 , 相 关 程 度 如 何 ? 相 关 是 否 会 影 响 参 数 估 计 ?下 面 通 过 放 松 相 应 的 限 制 重 新 拟 合 模 型 来 回 答 这 些 问 题 。 由 图 4. 6 可 知 , 同 一 个 体 不 同 年 龄 的测 量 结 果 存 在 着 明 显 的 相 关 性 , 而 不 同 个 体 间 的 差 异 非 常 明 显 , 因 此 考 虑 将 常 数 项 μ 变 为 随 机 变量 , 即 模 型 变 为 :YVK=(μ 。 + U O ) + gender i + age + E: ijk其 中 μ。 代 表 所 有 个 体 的 平 均 水 平 , 而 U Oj 就 表 示 了 不 同 个 体 问 平 均 水 平 的 变 异 。 下 面 按 此 进 行 模型 的 拟 合 , 在 操 作 中 将 预 定 义 对 话 杠 中 Repeated Covariance type 的 设 定 由 identity 更 改 为 Unstructured, 即 对 各 次 测 量 的 方 差 和 测 量 间 的 相 关 性 不 加 任 何 限 制 , 相 应 的 分 析 结 果 主 要 部 分 参 见表 4.260可 见 一 2 倍 的 对 数 似 然 值 由 原 来 的 484.524 下 降 为 428.695 , 显 示 出 模 型 的 拟 合 效 果 有 所 改善 , 也 就 是 说 , 样 本 数 据 信 息 更 支 持 目 前 不 加 任 何 限 定 的 模 型 。表 4.27中 对 性 别 、 年 龄 作 用 的 检 验 结 论 虽 然 未 变 , 但 可 以 注 意 到 具 体 的 F 值 有 比 较 大 的 变化 。和 前 面 的 普 通 方 差 分 析 模 型 相 比 , 模 型 中 各 参 数 的 系 数 估 计 值 变 化 不 大 , 参 见 表 4.28 , 但 标准 误 的 估 计 值 则 发 生 了 很 大 变 化 。 事 实 上 , 组 内 相 关 、 重 复 测 量 数 据 最 主 要 的 影 响 就 在 于 对 标 准误 的 估 计 , 即 忽 视 这 种 数 据 相 关 性 时 , 所 得 到 的 标 准 误 估 计 值 往 往 会 不 准 确 , 从 而 导 致 检 验 的 结果 也 失 真 。• 82 •


表 4.29 给 出 的 是 对 任 意 两 次 测 量 问 协 方 差 的 检 验 , 其 原 假 设 均 为 该 协 方 差 等 于 0 。 可 见 所有 的 P 值 均 小 于 0 , 即 任 意 两 次 测 量 间 都 是 有 相 关 性 的 。表 4.29Estimates of Covariance Parameters a,95% Confidence IntervalParameter Estimate Std. Error WaldZ Sig Lower Bound Upper BoundRepeated UN (1 ,1) 5.3746540 1.5099359 3.560 000 3.0989675 9.32146 才 才MeasuresUN (2 ,1) 2.7869863 1.1120415 2.506 012 607425 才 4.9665476UN (2 ,2) 4 ,2151068 1.2021390 3 ,506 ,000 2.4 101707 7.3717289UN (3,1) 3 ,8070907 1.3712907 2 ,776 ,005 1.1194103 6 .49477 才 才UN (3,2) 2 90968 才 B 1.1764308 2.473 013 6039197 5.2154439UN (3,3) 6.3355584 1.7655003 3.589 000 3.6693113 才 0.9391919UN (4,1) 2.6284009 1.2089581 2.174 030 2588866 4.9979153UN (4,2) 3 , 1683999 1.1535686 2 ,747 006 9074470 5.4293528UN (4,3) 4 ,3014780 1.4865999 2 ,894 ,004 1.3877958 7.2151602UN (4,4) 5.3764251 1.6097039 3.340 001 2.9898094 9.668157 才a. Dependent Variable: Distance (mm) from center of pituitary to pteryo-maxillary fissure表 4.30是 按 照 测 量 的 顺 序 给 出 的 协 方 差 阵 , 从 主 对 角 线 可 见 每 次 测 量 的 方 差 估 计 值 均 不 相同 , 根 据 协 方 差 的 数 值 可 计 算 出 任 意 两 次 的 相 关 系 数 , ep ρ ij σq/(Ji A) , 例 如 8 、 10 两 个 年龄 的 相 关 系 数 为 2. 786 9/ sqrt (5. 374 6 x 4. 215 1) = O. 585 60 依 此 类 推 , 可 算 得 任 意 两 次 的 相 关系 数 参 见 表 4.310• 83 •


表 4.31任 意 两 次 的 相 关 系 数[age = 8 ] [age 10 ] [age 12 ] [age 14 ][age = 8 ][age 10 ] 0.585 5[age 12 ] 0.6524 0.563 1[age 14 ] 0.4890 0.665 6 0.73704.3.4 更 改 对 测 量 间 相 关 性 的 假 定从 上 一 个 模 型 中 对 各 次 测 量 间 相 关 矩 阵 的 估 计 结 果 来 看 , 4 个 时 间 点 间 的 相 关 在 o. 49 ~O. 74 之 间 , 但 相 关 的 大 小 无 明 显 的 时 间 趋 势 。 如 果 近 似 地 认 为 4 个 时 间 点 的 相 关 为 等 相 关 , 则 在操 作 中 将 Repeated Covariance type 的 设 定 更 改 为 Compound Symmetry , 即 规 定 各 次 测 量 问 等 方差 、 等 相 关 性 , 相 应 的 结 果 参 见 表 4.320可 见 一 2倍 对 数 似 然 值 有 所 上 升 , 显 然 , 限 定 条 件 的 加 入 会 使 模 型 效 果 变 差 , 但 这 种 变 化 有无 统 计 学 意 义 需 要 看 假 设 检 验 的 结 果 , 这 方 面 的 相 关 内 容 可 参 见 Logistic 回 归 一 章 。由 表 4. 33 可 见 对 各 变 量 的 检 验 结 果 发 生 了 变 化 , 如 果 将 该 结 果 和 最 前 面 按 照 随 机 、 固 定 、 协变 量 三 个 效 应 分 解 方 式 的 结 果 相 对 照 , 会 发 现 对 性 别 、 年 龄 作 用 的 检 验 结 果 完 全 相 同 。 其 实 两 个模 型 本 来 就 是 等 价 的 , 大 家 可 自 行 思 考 具 体 的 原 因 。表 4.34 仍 为 参 数 和 标 准 误 的 估 计 值 , 无 结 构 相 关 和 恒 走 相 关 两 个 模 型 相 比 , 参 数 估 计 值 和标 准 误 极 为 接 近 。 这 说 明 即 使 对 相 关 矩 阵 的 形 式 指 定 不 恰 当 , 其 参 数 估 计 值 和 方 差 估 计 仍 然 是非 常 稳 健 的 , 这 也 是 该 模 型 的 一 个 非 常 重 要 的 优 良 性 质 。表 4.35给 出 的 是 对 任 意 两 次 测 量 问 协 方 差 的 检 验 , 由 于 模 型 规 定 了 各 次 测 量 问 等 方 差 、 等• 84 •


相 关 性 , 因 此 只 会 出 现 矩 阵 对 角 线 元 素 和 其 他 协 方 差 元 素 的 检 验 结 果 。 可 见 所 有 的 p{ 直 均 小 于0 , 即 任 意 两 次 测 量 间 都 是 有 相 关 性 的 。表 4.36同 样 是 对 随 机 效 应 中 不 同 次 测 量 间 的 协 方 差 阵 估 计 值 , 可 见 任 意 两 次 的 协 方 差 被 固定 为 相 同 数 值 , 可 计 算 出 任 意 两 次 测 量 之 间 相 关 系 数 为 0.614 50本 例 只 有 4 次 重 复 测 量 , 重 测 次 数 少 且 数 据 平 衡 , 一 般 可 使 用 不 确 定 性 相 关 , 或 等 相 关 结 构 。但 前 者 需 要 估 计 6 个 相 关 系 数 , 而 后 者 只 需 估 计 一 个 相 关 系 数 。 由 于 前 述 模 型 对 固 定 效 应 估 计和 检 验 的 稳 健 性 , 当 样 本 量 较 少 , 且 模 型 的 分 析 重 点 不 在 相 关 矩 阵 上 时 , 可 考 虑 使 用 等 相 关 结 构以 简 化 分 析 。 如 果 时 间 间 隔 不 等 , 可 以 采 用 稳 态 相 关 、 自 相 关 等 相 关 形 式 , 或 者 把 相 关 拟 合 成 时间 的 函 数 。 但 如 果 观 测 值 的 聚 集 性 没 有 严 格 的 先 后 顺 序 , 则 常 采 用 等 相 关 。对 于 本 例 , 还 可 以 进 一 步 考 虑 性 别 和 年 龄 的 交 互 作 用 , 或 深 入 分 析 测 量 间 相 关 性 的 变 化 规律 , 因 篇 幅 所 限 , 这 里 不 再 详 述 , 有 兴 趣 的 朋 友 可 以 自 行 尝 试 。4.3.5 模 型 中 可 用 的 相 关 阵 种 类在 上 面 的 分 析 中 , 只 是 用 了 比 较 简 单 的 几 种 相 关 阵 结 构 , 事 实 上 , SPSS中 提 供 的 相 关 阵 结 构• 85 •


设 定 非 常 丰 富 , 这 里 介 绍 几 种 较 重 要 的 。(1) 独 立 : 即 不 相 关 , 在 SPSS 中 又 细 分 为 Scaled Identity 和 Diagonal 两 种 , 前 者 假 定 各 次 测量 的 方 差 相 同 , 而 后 者 则 无 此 限 制 。(2) 等 相 关 : 相 应 的 选 项 为 Compound Symmetry, f 固 定 即 任 意 两 时 点 的 观 察 值 间 的 相 关 是 相等 的 , 又 称 可 交 换 的 (Exchangeable)长 的 纵 向 观 察 资 料 , 或 同 时 间 点 的 重 复 测 量 资 料 的 分 析 。 在 SPSS为 三 种 。, 其 内 部 相 关 与 时 间 无 关 , 为 常 数 ρ 。 一 般 用 于 时 间 间 隔 不 太中 根 据 方 差 是 否 变 动 又 被 细 分(3) 平 稳 相 关 : 选 项 为 Toeplitz , 即 间 隔 长 度 相 同 的 两 次 测 量 间 的 相 关 系 数 相 同 , 其 组 内 相 关结 构 为 ( 以 4 次 重 复 测 量 为 例 ) :( 1ρlρ2ρ3\|ρ1ρlρ2|R =!|ρ2ρ1ρ1 I飞 ρ3ρ2ρ1 )同 样 , 根 据 方 差 是 否 恒 定 , 平 稳 相 关 在 SPSS 里 也 被 分 成 了 几 种 不 同 的 类 型 。(4) 白 相 关 : 其 组 内 相 关 结 构 为 ρ k ρ Ij -kl 用 矩 阵 表 达 则 为 :( 1ρρ2ρ3\R=|plρρ2|I pL ρ1ρ|\ρ3ρ2ρ1 )即 相 邻 的 两 次 观 察 值 间 相 关 为 ρ , 相 隔 次 数 越 长 , 相 关 关 系 越 小 。 这 种 相 关 称 为 1(First Order Auto-Correlation) 。 一 般 用 于 不 同 时 间 点 的 纵 向 观 察 资 料 的 分 析 。阶 白 相 关(5) 非 确 定 相 关 : 选 项 为 U nstructured , 即 不 作 任 何 限 定 , 任 意 两 点 间 的 相 关 部 可 能 不 等 。 一般 不 用 于 最 终 模 型 , 常 用 来 判 定 是 否 有 内 部 相 关 以 及 相 关 结 构 。在 以 上 相 关 类 型 中 , 最 常 用 的 是 等 相 关 与 自 相 关 , 具 体 的 组 内 相 关 矩 阵 结 构 的 选 择 可 用 似 然比 检 验 等 方 法 , 但 对 具 体 资 料 , 笔 者 建 议 按 专 业 知 识 来 确 定 其 结 构 。 SPSS为 上 述 每 种 相 关 方 式都 按 照 方 差 是 否 恒 定 分 成 了 许 多 选 项 , 大 家 可 根 据 数 据 的 具 体 情 况 加 以 设 定 , 详 情 可 参 见 软 件 帮助 中 的 相 应 部 分 。4.4 模 型 总 结4.4.1 混 合 效 应 模 型 的 用 途通 过 本 章 的 学 习 , 大 家 可 能 己 经 感 觉 到 混 合 效 应 模 型 功 能 非 常 强 大 , { 且 操 作 上 也 很 复 杂 , 一不 小 心 就 会 出 错 。 那 么 它 具 有 实 用 价 值 吗 ? 当 然 是 有 的 , 具 体 来 说 有 以 下 几 点 :(1) 对 固 定 效 应 参 数 进 行 更 准 确 的 估 计 : 由 于 在 模 型 的 设 置 上 就 考 虑 了 数 据 的 聚 集 性 问 题 ,并 采 用 了 相 应 的 迭 代 方 法 加 以 拟 和 , 混 合 效 应 模 型 可 以 获 得 回 归 系 数 的 有 效 估 计 , 并 且 可 以 提 供正 确 的 标 准 误 , 从 而 假 设 检 验 的 结 果 也 更 加 准 确 。 一 般 来 说 , 它 估 计 出 的 标 准 误 会 更 大 一 些 , 从• 86 •


而 比 传 统 方 法 更 " 保 守 "。 后 者 的 标 准 误 是 通 过 简 单 地 忽 略 聚 集 的 存 在 而 获 得 的 , 往 往 并 不 准确 。 这 一 问 题 在 聚 集 性 较 强 的 时 候 更 为 明 显 。(2) 对 变 异 的 影 响 因 素 加 以 研 究 : 传 统 模 型 对 离 散 趋 势 的 估 计 、 推 断 及 影 响 因 素 研 究 几 乎 是无 能 为 力 的 , 而 这 正 是 多 水 平 模 型 的 特 长 。 通 过 对 模 型 的 精 细 设 置 , 研 究 者 可 以 探 讨 数 据 的 变 异究 竟 是 否 在 高 层 次 中 存 在 聚 集 性 , 而 这 种 变 异 间 的 差 异 又 是 由 哪 些 变 量 的 不 同 所 导 致 的 , 从 而 为控 制 某 些 数 据 的 离 散 度 提 供 线 索 。(3) 重 复 测 量 资 料 的 分 析 及 规 律 探 讨 : 传 统 模 型 也 可 以 对 重 复 测 量 资 料 加 以 分 析 , 但 是 , 一般 而 言 , 这 些 方 法 需 要 数 据 是 平 衡 的 , 即 要 求 每 一 个 体 有 相 同 次 数 的 重 复 测 量 值 。 但 在 实 践 中 ,测 量 次 数 常 是 不 规 则 的 , 有 的 个 体 有 很 多 测 量 值 , 而 有 的 可 能 只 有 一 个 。 此 时 传 统 模 型 的 估 计 可能 有 误 。 而 混 合 效 应 模 型 通 过 将 这 种 数 据 看 成 一 般 的 两 水 平 结 构 ( 单 次 测 量 为 低 水 平 , 个 体 为高 水 平 ) , 从 而 熟 练 地 应 用 标 准 的 多 水 平 模 型 技 术 处 理 任 何 测 量 模 式 的 数 据 , 并 在 提 供 无 偏 参 数估 计 的 同 时 , 探 讨 各 次 重 复 测 量 间 的 相 关 结 构 。 另 一 方 面 , 如 果 重 复 测 量 的 是 生 长 数 据 类 型 的 资料 , 则 在 多 水 平 分 析 框 架 中 , 每 一 个 体 可 以 具 有 它 们 自 身 的 生 长 曲 线 , 从 而 可 以 在 更 精 细 的 程 度上 探 讨 生 长 发 育 的 一 般 规 律 及 个 体 变 动 情 况 。4.4.2 混 合 效 应 模 型 与 一 般 线 性 模 型 的 联 系混 合 线 性 模 型 是 一 个 非 常 有 用 的 工 具 , 可 以 对 许 多 以 前 只 能 进 行 粗 略 分 析 的 复 杂 的 问 题 进行 更 加 深 入 和 全 面 的 分 析 , 并 得 到 更 为 准 确 的 结 果 。 在 本 章 的 实 例 分 析 中 , 大 家 己 经 看 到 只 要 通过 正 确 的 设 置 , 就 能 用 混 合 效 应 模 型 得 到 和 普 通 方 差 分 析 模 型 完 全 相 同 的 分 析 结 果 。 事 实 上 , 许多 较 简 单 的 方 法 都 可 以 被 看 成 是 混 合 线 性 模 型 的 特 例 。 为 了 使 读 者 对 它 们 之 间 的 关 系 有 一 个 更完 整 的 了 解 , 这 里 将 该 模 型 和 其 他 模 型 的 关 系 列 举 如 下 : 单 因 素 方 差 分 析 模 型 : 等 价 于 当 只 有 一 个 固 定 因 素 时 混 合 线 性 模 型 的 结 果 , 显 然 , 由 于只 有 一 个 因 素 , 不 会 存 在 重 复 测 量 或 者 数 据 层 次 性 之 类 的 问 题 。 方 差 分 析 模 型 : 等 价 于 无 重 复 测 量 , 且 所 有 随 机 效 应 被 限 定 为 Scaled Identity 时 的 混 合效 应 模 型 。 线 性 回 归 : 显 然 , 由 于 线 性 回 归 模 型 等 价 于 方 差 分 析 模 型 ( 被 统 一 在 一 般 线 性 模 型 的 框架 中 ) , 因 此 线 性 回 归 过 程 等 价 于 只 含 有 协 变 量 , 无 因 素 时 混 合 线 性 模 型 的 分 析 结 果 。 方 差 成 分 模 型 : 等 价 于 无 重 复 测 量 , 且 所 有 随 机 效 应 被 限 定 为 Scaled Identity 时 的 混 合效 应 模 型 。思 考 与 练 习现 测 量 了 4 个 家 庭 共 18 个 个 体 的 身 高 ( 英 尺 ) 以 及 性 别 , 数 据 见 mixed. sav , 试 做 如 下 分 析 :1 将 家 庭 作 为 随 机 因 素 , 拟 合 普 通 的 方 差 分 析 模 型 ( 不 考 虑 交 互 作 用 )。2 按 照 混 合 线 性 模 型 的 方 法 对 数 据 进 行 拟 合 , 回 答 身 高 在 家 庭 间 是 否 有 聚 集 性 的 问 题 。3 上 述 两 个 模 型 的 参 数 估 计 值 相 差 大 吗 , 为 什 么 ?4 为 什 么 从 专 业 知 识 讲 , 身 高 应 当 是 有 聚 集 性 的 , 而 本 例 却 未 能 得 到 此 结 论 ?• 87 •


参 考 文 献221 Liang KY , Zeger SL. Longitudinal data analysis using generalized linear models. Biometrika. 1986 , 13: 13 -2 StataCorp. Stata Reference Manual, Release 7. College Station, TX: Stata Press, 2001. 430 - 5003 Goldstein. H. 多 水 平 统 计 模 型 . 李 晓 松 等 译 . 成 都 : 四 川 科 学 技 术 出 版 社 , 19994 陈 峰 主 编 . 现 代 医 学 统 计 方 法 与 Stata 应 用 ( 第 二 版 ) . 北 京 : 中 国 统 计 出 版 社 , 2003• 88 •


第二部分回 归 模 型


第 5 章 多 重 线 性 回 归 模 型5.1 模 型 简 介生 活 中 发 生 的 许 多 现 象 都 不 是 相 互 独 立 的 , 而 是 相 互 作 用 、 相 互 影 响 的 。 一 种 结 果 的 出 现 往往 是 多 个 因 素 、 多 个 环 节 共 同 作 用 的 结 果 。 抛 开 其 他 因 素 , 仅 考 察 其 中 一 个 影 响 因 素 对 结 果 的 影响 , 所 得 出 的 结 论 是 片 面 的 , 甚 至 可 能 是 错 误 的 。本 章 所 要 讨 论 的 问 题 是 如 何 同 时 考 虑 多 个 因 素 对 同 一 结 果 的 影 响 。 此 时 , 因 变 量 (DependentVariable) 只 有 一 个 , 也 称 为 反 应 变 量 或 响 应 变 量 (Response Variable) , 常 用 y 表 示 。 自 变 量 CIndependentVariable) , 也 称 解 释 变 量 CExplanatory Variable) 有 多 个 , p 个 自 变 量 用 向 量 形 式 表 示 为 同 ,町 ,… 'Xp ) 。 设 有 n 例 观 察 对 象 , 第 i 例 。= 1, 2 ,…, 川 的 一 组 观 察 值 为 仙 , X il ' χ 泣 ,… dzp) 。 当 因 变量 与 自 变 量 组 之 间 存 在 多 重 线 性 关 系 时 , 应 用 多 重 线 性 回 归 模 型 可 以 很 好 地 刻 画 它 们 之 间 的 关 系 。Yi 久 +ei=bo+b]x il + … +b 川 p + ei (5. 1)由 式 (5. 1) 可 以 看 出 , 实 测 值 Yi 由 两 部 分 组 成 , 第 一 部 分 为 其 估 计 值 , 用 ? 表 示 , 读 作 Y hat,即 给 定 各 自 变 量 取 值 时 , 因 变 量 y 的 估 计 值 , 表 示 能 由 自 变 量 决 定 的 部 分 。 e i 为 残 差 , 是 应 变 量实 测 值 y 与 其 估 计 值 ; 之 间 的 差 值 , 表 示 不 由 自 变 量 决 定 的 部 分 。 它 对 于 判 断 当 前 建 立 的 模 型是 否 成 立 , 是 否 还 有 别 的 变 量 需 要 引 入 模 型 等 一 系 列 问 题 是 非 常 有 价 值 的 。 式 (1) 中 b。 为 常 数项 , 它 表 示 当 所 有 自 变 量 取 值 均 为 O 时 因 变 量 的 估 计 值 , b 为 偏 回 归 系 数 , 表 示 当 其 他 自 变 量 取值 固 定 时 ( 所 以 在 回 归 系 数 前 加 上 " 偏 " 字 ) , 自 变 量 X i 每 改 变 一 个 单 位 时 ,? 的 变 化 量 。式 (5. 1) 中 共 有 n + 1 个 参 数 , 如 何 确 定 它 们 的 取 值 ? 假 设 从 数 轴 的 最 左 端 一 ∞ 开 始 , 直 至数 轴 最 右 端 +∞ 结 束 , 如 果 任 意 地 决 定 这 n+1 个 参 数 , 将 得 到 无 穷 多 个 回 归 模 型 。 分 别 应 用 这无 穷 多 个 回 归 模 型 , 对 每 一 条 记 录 求 其 反 应 变 量 预 测 值 与 实 测 值 之 差 的 平 方 和 仙 一 久 ) 2 , 将 其 累)2加 , 在 无 穷 多 个 可 能 的 回 归 模 型 中 累 加 值 五 以 一 旦 最 小 的 那 个 回 归 模 型 就 是 我 们 所 需 要 的 ,这 就 是 所 谓 的 最 小 二 乘 法 (Least Square) 。 即 使 得 以 下 指 标 达 到 最 小 :。= 立 以_y) 2 = 三 [ Yi 一 (b o +b]x il+b 川 2 +… +b 川 p)]之 所 以 求 差 值 的 平 方 和 , 是 因 为 付 一 ?) 可 能 有 正 有 负 , 简 单 求 和 将 互 相 抵 销 一 部 分 。 这 里说 得 这 么 详 细 , 是 因 为 当 回 归 模 型 中 只 有 一 个 自 变 量 时 , 回 归 模 型 为 一 条 直 线 ; 当 有 两 个 自 变 量时 , 回 归 模 型 为 一 个 回 归 平 面 ( 详 细 介 绍 见 后 面 有 关 章 节 ) ; 而 当 回 归 模 型 中 有 三 个 或 者 更 多• 91 •


自 变 量 时 , 回 归 模 型 就 成 为 一 个 多 维 空 间 而 无 法 用 文 字 表 述 , 只 能 通 过 大 脑 想 像 , 因 此 有 必 要 在理 论 上 给 出 一 个 较 为 明 确 的 定 义 。应 用 多 重 线 性 回 归 进 行 统 计 分 析 时 要 求 资 料 满 足 以 下 条 件 :(1) 自 变 量 与 因 变 量 之 间 存 在 线 性 关 系 , 这 可 以 通 过 绘 制 " 散 点 图 矩 阵 " 予 以 考 察 , 如 果 因变 量 Yi 与 某 个 自 变 量 X i 之 间 呈 现 出 曲 线 趋 势 , 可 尝 试 通 过 变 量 变 换 予 以 修 正 , 常 用 的 变 量 变 换 方法 有 对 数 变 换 、 倒 数 变 换 、 平 方 根 变 换 、 平 方 根 反 正 弦 变 换 等 。(2) 各 观 测 间 相 互 独 立 , 即 任 意 两 个 观 测 残 差 的 协 方 差 为 0 。(3) 残 差 e 服 从 正 态 分 布 N(O , σ2) 。 其 方 差 σ2 = var (eJ 反 映 了 回 归 模 型 的 精 度 , σ 越 小 ,用 所 得 到 回 归 模 型 预 测 y 的 精 确 度 愈 高 。(4) e 的 大 小 不 随 所 有 变 量 取 值 水 平 的 改 变 而 改 变 , 即 方 差 齐 性 。在 SPSS 中 可 以 使 用 Regression 模 块 中 的 Linear 过 程 进 行 多 重 线 性 回 归 。5.2 简 单 分 析 实 例为 了 能 更 好 地 理 解 多 重 线 性 回 归 , 这 里 首 先 采 用 一 个 只 有 两 个 自 变 量 的 例 子 进 行 分 析 。例 5. 1 某 专 门 面 向 年 轻 人 制 作 肖 像 的 公 司 计 划 在 国 内 再 开 设 几 家 分 店 , 收 集 了 目 前 己 开设 的 分 店 的 销 售 数 据 勺 , 万 元 ) 及 分 店 所 在 城 市 的 16岁 以 下 人 数 ( 址 , 万 人 )、 人 均 可 支 配 收 入(χ2 , 元 ) , 数 据 见 reg. sav 。 试 进 行 统 计 分 析 。5.2.1 对 数 据 的 初 步 分 析与 简 单 线 性 回 归 相 类 似 , 这 里 也 可 以 先 绘 制 散 点 图 , 以 便 在 进 行 回 归 分 析 之 前 了 解 各 变 量 之间 是 否 存 在 线 性 关 系 。 本 例 有 两 个 自 变 量 及 一 个 反 应 变 量 , 绘 制 三 维 立 体 散 点 图 和 散 点 矩 阵 如图 5. 1 所 示 ( 具 体 操 作 可 参 见 基 础 教 程 中 的 绘 图 章 节 , 下 同 )。图 5. 1 三 维 散 点 图 和 散 点 图 矩 阵由 图 5. 1 可 以 看 出 销 售 收 入 与 16 岁 以 下 人 口 数 、 人 均 可 支 配 收 入 之 间 都 存 在 较 强 的 线 性 关系 。 当 自 变 量 数 多 于 2个 时 , 难 以 通 过 绘 制 图 形 同 时 描 述 反 应 变 量 与 各 自 变 量 间 的 关 系 , 但 仍 可以 通 过 散 点 图 矩 阵 的 形 式 分 别 对 反 应 变 量 与 各 自 变 量 间 的 关 系 进 行 观 察 。• 92 •


此 处 之 所 以 从 散 点 图 入 手 , 是 因 为 根 据 笔 者 经 验 , 不 少 研 究 者 在 做 简 单 线 性 回 归 时 还 可 能 先绘 制 散 点 图 以 了 解 反 应 变 量 与 自 变 量 间 是 否 存 在 简 单 线 性 关 系 , 而 在 做 多 重 线 性 回 归 时 常 常 不考 察 变 量 间 是 否 存 在 线 性 关 系 , 就 进 行 多 重 线 性 回 归 分 析 , 这 样 往 往 会 曲 解 变 量 间 的 关 系 , 最 终导 致 做 出 来 的 东 西 什 么 也 不 是 , 难 以 对 回 归 模 型 进 一 步 应 用 。言 归 正 传 , 下 面 对 例 5. 1 拟 合 多 重 线 性 回 归 模 型 。!Analyze• Regression• Linear!Dependent 杠 : y! Independent 杠 : xl 、 x2! 国多 重 线 性 回 归 的 主 对 话 杠 如 图 5.2所 示 , 其 中 只 能 选 入 一 个 因 变 量 , 自 变 量 则 可 选 入 一 个 或多 个 。 如 果 没 有 特 殊 需 求 , 可 以 只 选 择 目 前 这 些 。图 5.2 Regress 过 程 主 对 话 框例 5.1 的 分 析 结 果 参 见 表 5. 1, 这 里 只 给 出 基 本 的 内 容 , 详 细 的 输 出 将 随 后 加 以 解 释 。表 5. 1 Variables Entered/Removed bModelVariables Entered1 人 均 可 支 配 收 入 , 年 轻 人 人 数 司a. AII requested variables enteredb Depe 内 dent Variable 销 售 收 入Variables RemovedMethodEnter表 5.1给 出 了 自 变 量 进 入 模 型 的 方 式 , 此 处 尚 未 涉 及 变 量 筛 选 的 问 题 , 因 此 两 个 自 变 量 都 是被 强 制 纳 入 回 归 模 型 的 CMethod 为 Enter) , 当 然 也 就 不 存 在 剔 除 变 量 的 事 情 了 。 试 着 先 跳 过 一部 分 结 果 , 看 看 得 到 了 什 么 样 的 回 归 模 型 。• 93 •


表 5.2 给 出 回 归 模 型 的 常 数 项 (Constant) 、 16 岁 以 下 年 轻 人 人 数 、 人 均 可 支 配 收 入 的 偏 回 归系 数 (Unstandardized Coefficients 一 列 ) , 分 别 为 一 6. 886 、1. 455 , 0.0090 其 中 常 数 项 仍 表 示 当 自变 量 取 值 为 O 时 , 因 变 量 的 取 值 , 这 里 的 常 数 项 显 然 没 有 实 际 意 义 。 根 据 表 5. 2 所 示 结 果 , 可 以写 出 以 下 回 归 模 型 :ý = - 6.886 + 1. 455x] + 0.009χ2表 5. 2Coefficients aModel(Constant)年 轻 人 人 数BU nstandard izedCoefficientsSld. Error-6.886 6.0021.455212StandardizedCoefficientsBela748-1.1476.868均一naunuqJbnu町,ιnu人 均 可 支 配 收 入.009.004.2512.305门 。u 。a. De 口 endent Variable 销 售 收 入5.2.2 回 归 模 型 的 假 设 检 验首 先 考 察 模 型 中 的 自 变 量 与 因 变 量 之 间 是 否 存 在 线 性 关 系 , 也 就 是 检 验 各 自 变 量 的 回 归 系数 是 否 均 为 0 , 此 处 仍 采 用 方 差 分 析 的 基 本 思 想 进 行 判 断 。建 立 假 设 :Ho: ββ2 … =βp =0H] : 各 βz 不 等 于 O 或 不 全 等 于 O反 应 变 量 y 的 总 变 异 为 总 平 方 和 (Total Sum of Square) , 表 示 为 SStotal = ~ (Yi - y) , 表 示 反 应变 量 所 有 的 变 异 。 它 由 下 面 两 部 分 构 成 :4 回 归 平 方 和 (R 吨 ression Sum of Square, SSR) , SSR (X] , 屿 ,… , x p ) 表 示 反 应 变 量 的 变 异 中由 回 归 模 型 中 所 包 含 的 p 个 自 变 量 (X] , 町 ,…, 与 ) 所 能 解 释 的 部 分 。2 误 差 平 方 和 SSE = ~e~ CError Sum Of Square) , 统 计 软 件 结 果 中 常 输 出 为 ResidualSquare , 表 示 反 因 变 量 的 变 异 中 没 有 被 回 归 模 型 中 所 包 含 的 变 量 解 释 的 部 分 。 因 此 , SStotalSum Of= SSR+ SSE 0 SS total ' SSR 和 SSE 与 样 本 量 n 及 模 型 中 自 变 量 个 数 有 关 , 样 本 量 n 越 大 , 相 应 变 异 就 越大 。 分 别 除 以 各 自 的 自 由 度 , 取 其 平 均 变 异 指 标 , 得 相 应 均 方 差 MS (Mean Square) 。SSRMSR = --~',PSSEMSE = 一 一 一 一 一 丁n-p-l对 于 模 型 Yi 孔 +ei=bo+b]x il + … + bpx ip + 叭 , 可 以 证 明 :E{MSE} = σ2E{MSR} = σ2 +β~~ (x il 一 υ 2 +… +β; 三 (X ip - Xp) 2理 论 上 , E{MSR} 王 三 E{MSE} 。 若 无 效 假 设 成 立 , 则 MSR =MSE 。根 据 式 (5.2) 构 造 F 检 验 统 计 量 。F = MSR/MSE (5.2)• 94 •


将 自 变 量 引 起 的 变 异 与 随 机 误 差 进 行 比 较 , 若 前 者 大 于 后 者 , 说 明 因 变 量 y 与 p 个 自 变 量 之间 存 在 线 性 回 归 关 系 , 反 之 , 则 说 明 因 变 量 y 与 p 个 自 变 量 之 间 不 存 在 线 性 回 归 关 系 。 在 无 效 假设 成 立 的 情 况 下 , F 值 服 从 自 由 度 为 巾 , n-p- l) 的 F 分 布 。表 5.3 为 SPSS 输 出 的 对 模 型 中 所 有 自 变 量 的 回 归 系 数 等 于 O 的 F 检 验 结 果 。表 5.3ANOVAbModelSum of SquaresRegression 240.153dMean Square2 120.076F99.103Sig.oooaResidual 21.809181.212Total261.96220a. Predict 口 rs (Constant). 人 均 可 支 配 收 入 , 年 轻 人 人 在 tb De 口 endent Variable铺 售 收 入对 于 例 5. 1, F = 99. 103 , P < O. 0010 说 明 至 少 一 个 自 变 量 的 回 归 系 数 不 为 0 , 所 建 立 的 回 归模 型 是 有 统 计 学 意 义 的 。5.2.3 偏 回 归 系 数 的 假 设 检 验在 得 出 整 个 回 归 模 型 有 统 计 学 意 义 后 , 还 需 检 验 具 体 某 个 自 变 量 x与 反 应 变 量 之 间 是 否 存在 线 性 关 系 , 就 是 对 其 偏 回 归 系 数 b 是 否 等 于 O 进 行 统 计 学 检 验 。 通 常 可 以 用 t 检 验 来 回 答 这个 问 题 。t = (b i - 0) /Sbi = b/Sbi (5.3)式 (5.3) 中 b i 是 第 i 个 自 变 量 抖 的 偏 回 归 系 数 , Sbi 是 其 标 准 误 。表 5.4 中 除 了 输 出 回 归 模 型 中 各 项 的 偏 回 归 系 数 外 , 还 输 出 了 各 自 标 准 误 (Std. Error) , 以及 对 各 参 数 是 否 为 O 的 t 检 验 结 果 。表 5. 4 Coefficients aU nstandard izedCoefficienlsModel B Std. Error(Consta 内 t) -6.886 6.002年 轻 人 人 数 1.455 212StandardizedCoefficientsBeta748-1.1476.868hu 一nnhunuqJonu同4nu人 均 可 支 配 收 入 009 004一a.De 口 endent Variable 销 售 收 入2512.305门 。u 。SPSS 输 出 了 对 町 、 町 的 偏 回 归 系 数 是 否 等 于 O 的 t 检 验 结 果 , t 值 分 别 等 于 6.868 ( = 1. 455/0.212) 和 2.305 ( = 0.009/0.004) , p 值 分 别 为 P


体 空 间 的 一 个 回 归 平 面 , 如 图 5.3 所 示 。图 5.3三 维 空 间 中 的 回 归 平 面 示 意 图5.2.4 标 准 化 偏 回 归 系 数国 内 统 计 教 科 书 上 在 介 绍 标 准 化 偏 回 归 系 数 (Standardized Coefficient) 时 多 出 于 对 模 型 中 自变 量 问 , 町 ,…, 与 ) 对 y的 贡 献 大 小 进 行 比 较 , 以 消 除 原 始 变 量 单 位 不 同 及 ( 或 ) 量 纲 不 同 的 影响 。 实 际 上 , 计 算 标 准 偏 回 归 系 数 还 可 以 减 少 在 拟 合 回 归 模 型 计 算 求 解 时 的 截 断 误 差 (RoundoffErrors) , 从 而 提 高 模 型 的 拟 合 精 度 。 首 先 对 原 始 变 量 按 式 (5.4) 进 行 标 准 化 :X ij = (x ij一 元 )/s 勺 ' 丸 = (x i - Y) / s y (5 . 4)以 标 准 化 后 的 因 变 量 7 与 标 准 化 后 的 自 变 量 ( 主 1 ' 主 2 '…, 气 ) 拟 合 标 准 化 回 归 模 型 :y = b 主 +b 主 +… +b 主 +êJi -Vl ./V il I v2 β p 'p由 于 标 准 化 后 的 所 有 变 量 其 均 数 为 0 , 标 准 差 为 1, 因 此 这 里 所 拟 合 的 回 归 模 型 其 常 数 项 为0 。 标 准 化 偏 回 归 系 数 b 的 意 义 为 当 其 他 自 变 量 取 值 保 持 不 变 时 , 自 变 量 χ( 注 意 这 里 指 的 是 原始 数 据 ) 每 改 变 1 个 标 准 差 Sxi' 反 应 变 量 取 值 改 变 b 个 标 准 差 Sy 0由 上 面 输 出 的 回 归 系 数 表 可 见 , SPSS在 输 出 一 般 偏 回 归 系 数 的 同 时 , 也 输 出 了 各 自 的 标 准化 偏 回 归 系 数 。 例 5. 1 中 16 岁 以 下 年 轻 人 数 的 标 准 化 偏 回 归 系 数 为 0.748 , 支 配 收 入 的 标 准 化偏 回 归 系 数 为 0.2510 因 此 可 以 认 为 , 16 岁 以 下 年 轻 人 数 对 销 售 收 入 的 影 响 比 人 均 可 支 配 收 入对 销 售 收 入 的 影 响 大 。 这 里 需 要 注 意 的 是 , 偏 回 归 系 数 大 的 自 变 量 其 标 准 化 偏 回 归 系 数 可 能 较大 , 也 可 能 较 小 。 数 学 上 可 以 证 明 , 玩 =bjdZ , 式 中 b= 三 ( 川 一 矿 , lyy 三 (Yi _y)2 , 下 标 i代 表 第 i 例 观 察 对 象 ,) 代 表 白 变 量 抖 。5.2.5 衡 量 多 元 线 性 回 归 模 型 优 劣 的 标 准当 供 建 立 回 归 模 型 的 自 变 量 有 p 个 时 , 仅 考 虑 各 因 素 的 主 效 应 , 可 以 建 立 2 P 个 模 型 ( 包 括 仅含 常 数 项 的 模 型 )。 如 果 来 衡 量 这 些 模 型 的 好 坏 ? 常 用 有 以 下 几 种 标 准 :1. 复 相 关 系 数 R复 相 关 系 数 (Multiple Correlation Coefficient) 又 称 多 元 相 关 系 数 , 表 示 模 型 中 所 有 自 变 量 问 ,• 96 •


町 ,…, 与 ) 与 反 应 变 量 y 之 间 线 性 回 归 关 系 的 密 切 程 度 大 小 。 实 际 上 它 是 Yi 与 其 估 计 值 孔 的 简单 线 性 相 关 系 数 , 即 Pearson 相 关 系 数 。 但 其 取 值 范 围 为 (0 ,1), 没 有 负 值 。 R 值 越 大 , 说 明 线 性回 归 关 系 越 密 切 。 但 R{ 直 大 至 多 少 才 算 足 够 好 ? 不 同 学 科 的 研 究 其 判 断 标 准 也 不 一 样 。 如 社会 科 学 研 究 学 者 可 能 认 为 R >0.4R =0. 8己 经 足 够 好 了 ( 想 想 对 股 价 的 预 测 吧 ) , 而 医 学 研 究 学 者 认 为仍 嫌 偏 小 , 这 可 能 是 因 为 社 会 科 学 研 究 中 存 在 较 多 的 对 反 应 变 量 确 有 影 响 却 无 法 进 行 测量 的 变 量 , 当 然 也 就 无 法 对 其 进 行 统 计 分 析 。 此 外 , 用 复 相 关 系 数 评 价 多 元 线 性 回 归 模 型 优 劣 时存 在 不 足 , 即 使 向 模 型 中 增 加 的 变 量 没 有 统 计 学 意 义 , R 值 仍 会 增 大 。在 例 5.1 中 , 复 相 关 系 数 为 0.95702. 决 定 系 数 R 2模 型 的 决 定 系 数 (Determinate Coefficient) 等 于 复 相 关 系 数 的 平 方 。 与 简 单 线 性 回 归 中 的 决定 系 数 相 类 似 , 它 表 示 反 应 变 量 y的 总 变 异 中 可 由 回 归 模 型 中 自 变 量 解 释 的 部 分 所 占 的 比 例 , 是衡 量 所 建 立 模 型 效 果 好 坏 的 指 标 之 一 。 显 然 , R 2 越 大 越 好 , 但 是 也 存 在 与 复 相 关 系 数 一 样 的 不足 。 决 定 系 数 的 计 算 公 式 如 下 :RL2 SSR SSE1 一 (5.5)SSto 川SStotal由 式 (5.5) 可 以 看 出 , 0~R2 ~1 。 对 于 例 5. 1, 决 定 系 数 为 0.917 (=0.957 2 ) 03. 校 正 的 决 定 系 数 R:dj由 于 用 R 2 评 价 拟 合 模 型 的 好 坏 具 有 一 定 的 局 限 性 , 即 使 向 模 型 中 增 加 的 变 量 没 有 统 计 学 意义 , R 2 值 仍 会 增 大 。 因 此 需 对 其 进 行 校 正 , 从 而 形 成 了 校 正 的 决 定 系 数 (Adjusted R Square) :MSE n - 1 /. ro2R 己 =1 一 =1 一 c1 - RL) (5 . 6)GJ llfSMtal n-p-1式 (5.6) 中 n 为 样 本 含 量 , p 为 模 型 中 自 变 量 个 数 。 可 以 证 明 , R:dj 总 小 于 R 2 0 与 R 2 不 同 的是 , 当 模 型 中 增 加 的 变 量 没 有 统 计 学 意 义 时 , 校 正 决 定 系 数 会 减 小 , 因 此 校 正 R 2 是 衡 量 所 建 模 型好 坏 的 重 要 指 标 之 一 , 校 正 R 2 越 大 , 模 型 拟 合 得 越 好 。 但 当 p/n 很 小 时 , 如 小 于 0.05 时 , 校 正 作用 趋 于 消 失 。 由 上 表 可 知 , 本 例 的 R: dj = O. 9070实 际 应 用 中 , 正 、 RLJ 值 的 大 小 还 与 研 究 中 实 际 观 测 到 的 自 变 量 取 值 范 围 有 关 , 一 种 可 能 的 情况 是 , 某 个 实 际 观 测 的 自 变 量 取 值 范 围 很 窄 , 但 此 时 所 建 模 型 的 R 2 很 大 , 但 这 并 不 代 表 模 型 在 外推 应 用 时 的 效 果 肯 定 会 很 好 。 此 外 , 有 时 虽 然 校 正 决 定 系 数 ( 或 决 定 系 数 ) 很 大 , 但 误 差 均 方 仍很 大 , 这 会 导 致 估 计 的 ? 可 信 区 间 很 宽 , 从 而 失 去 实 际 应 用 价 值 。4. 剩 余 标 准 差 SY.XI X 2." X p表 5.5 中 还 输 出 了 剩 余 标 准 差 (Std. Error Of The Estimate) , 在 不 引 起 混 淆 时 其 符 号 也 可 记表 5. 5 Model Summa 叩Adjusled R Sld. Error ofModel R R Square Square the Eslimale957 a .917 .907 1.10074a. Predictors: (Constant) , 人 均 可 支 配 收 入 , 年 轻 人 人 数• 97 •


为 止 , 12"'p' 它 等 于 误 差 均 方 MSE 的 算 术 平 方 根 , 就 是 残 差 之 标 准 差 , 其 大 小 反 应 了 用 建 立 的 模 型预 测 因 变 量 时 的 精 度 。 剩 余 标 准 差 越 小 , 说 明 建 立 的 模 型 效 果 越 好 。 本 例 Sy , 12 = IMSE =I L 212 = L 100 9 , 而 未 引 入 自 变 量 时 y 的 标 准 差 为 3 , 619 13 0 说 明 向 模 型 中 引 入 自 变 量 后 , 反应 变 量 的 变 异 明 显 减 小 。 与 校 正 决 定 系 数 相 类 似 地 , 当 模 型 中 增 加 无 统 计 学 意 义 的 自 变 量 时 , 剩余 标 准 差 反 而 会 增 大 。 此 外 , 剩 余 标 准 差 还 在 夕 的 可 信 区 间 估 计 、 自 变 量 的 选 择 等 很 多 方 面 有 着重 要 作 用 。以 上 4 项 SPSS 可 以 直 接 输 出 , 除 此 以 外 还 有 一 些 常 用 的 衡 量 多 元 线 性 回 归 模 型 优 劣 的 标准 , 下 面 一 并 给 大 家 介 绍 。5 , 赤 池 信 息 准 则赤 池 信 息 准 则 也 被 称 为 AIC 准 则 (Aka i1 町 , s Information Criterion) , 由 日 本 学 者 赤 池 于 1973年 提 出 , 除 应 用 于 一 般 线 性 模 型 、 广 义 线 性 模 型 的 变 量 筛 选 外 , 还 被 应 用 于 时 间 序 列 分 析 中 自 回归 阶 数 的 确 定 。 AIC数 , 即 模 型 的 繁 简 程 度 。 其 计 算 公 式 为 :由 两 部 分 组 成 , 一 部 分 反 映 模 型 的 拟 合 精 度 , 一 部 分 反 映 了 模 型 中 参 数 的 个ISSE\= nln I UU~ 1 + 2p ( 用 最 小 二 乘 法 拟 合 模 型 时 ) (5 , 7)AIC = - 21n (L) + 2p ( 用 最 大 似 然 法 拟 合 模 型 时 ) (5 , 8)式 (5 , 7) 中 n 为 样 本 含 量 , 与 前 面 走 义 不 同 的 是 , 这 里 的 p 为 模 型 中 参 数 个 数 ( 包 括 常 数项 ) , 式 (5 , 8) 中 L 为 模 型 的 最 大 似 然 函 数 。 一 昧 地 增 加 模 型 中 自 变 量 的 个 数 虽 然 能 使 前 半 部 分减 小 , 而 后 一 部 分 却 不 断 增 大 , 当 模 型 中 纳 入 无 统 计 学 意 义 的 自 变 量 时 , 前 半 部 分 减 小 的 幅 度 小于 后 一 部 分 增 大 的 幅 度 , 亏 本 的 生 意 当 然 没 人 去 做 。 AIC 值 越 小 , 说 明 拟 合 的 模 型 既 精 度 高 又 简洁 。需 要 注 意 的 是 , 应 用 不 同 的 方 法 拟 合 的 回 归 模 型 其 AIC 值 是 不 一 样 的 。 对 于 1Jù5, 1, 回 归 模型 是 应 用 最 小 二 乘 法 计 算 出 来 的 。 因 此 , AIC = 21 x ln (2L 809 3/21) + 2 x 3 = 6, 794 1 。 若 改 用最 大 似 然 估 计 法 , ln (L) = - 30, 195 , ( 感 兴 趣 的 读 者 可 自 行 练 习 ) , 则 有 :AIC = -2 x (-30 , 195) +2 x3 =66 , 389因 此 , 在 应 用 AIC 准 则 对 不 同 的 模 型 进 行 比 较 时 , 不 同 拟 合 方 法 得 到 的 模 型 不 能 进 行 比 较 ,AIC 准 则 只 能 用 于 比 较 同 一 种 方 法 拟 合 得 到 的 回 归 模 型 。6, C p 统 计 量C p 统 计 量 由 C , L Mallows 于 1964 年 提 出 。( MSE p - MSE m )( n - p ) SSE pP 1 MSEmMSEm-1(5 , 9)式 (5 , 9) 中 MSE p 指 模 型 中 含 有 p 个 参 数 ( 包 括 常 数 项 ) 时 的 误 差 均 方 , MSE m 为 所 有 自 变 量均 引 入 模 型 时 的 误 差 均 方 。 用 C p 统 计 量 选 择 模 型 的 标 准 是 选 择 C p 最 接 近 p的 那 个 模 型 。 在 例5 , 1 中 , 所 有 自 变 量 均 引 入 模 型 , cp=po7 , 其 他 标 准衡 量 模 型 拟 合 的 标 准 还 有 很 多 , 如 贝 叶 斯 信 息 准 则 (Bayes' Information Criterion , BIC) 、Schwarz' 自 贝 叶 斯 准 则 等 , 有 兴 趣 的 读 者 可 参 考 相 关 参 考 书 , 这 里 不 再 详 述 。• 98 •


5.3 同 归 预 测 与 残 差 分 析5.3.1 回 归 预 测 与 区 间 估 计线 性 回 归 的 重 要 应 用 之 一 就 是 对 反 因 变 量 进 行 预 测 , 最 常 用 的 是 对 反 因 变 量 的 点 值 估 计 。一 方 面 可 以 用 于 对 一 个 未 知 结 果 的 预 测 , 另 一 方 面 也 可 用 于 对 某 己 知 结 果 的 是 否 合 理 进 行 考 察 ,若 不 合 理 , 可 考 虑 进 一 步 进 行 修 正 。1. 回 归 分 析 的 预 测 值Linear Regression 过 程 中 的 Save 子 对 话 杠 提 供 了 将 预 测 值 、 残 差 等 许 多 分 析 结 果 保 存 为 新变 量 的 功 能 , 如 图 5.4 所 示 , 这 里 先 介 绍 有 关 预 测 值 (Predicted Values) 的 几 个 复 选 杠 。 SPSS 中提 供 以 下 几 种 类 型 的 预 测 值 :图 5.4 Save 子 对 话 框(1) 非 标 准 化 预 测 值 ( U ns tandardized) : 根 据 拟 合 的 回 归 模 型 计 算 的 反 应 变 量 预 测 值( 未 经 标 准 化 )。 对 于 例 5. 1 数 据 库 中 第 一 条 记 录 而 言 , X]] =6. 85 , x 12= 1670 , 则 首 先 在Output窗 口 中 , 双 击 回 归 系 数 表 格 , 进 入 编 辑 界 面 ( 具 体 操 作 参 见 基 础 教 程 中 有 关 章 节 的 讲解 )。 在 此 状 态 下 查 到 更 为 精 确 的 回 归 参 数 估 计 结 果 , 然 后 对 数 据 库 中 第 一 条 记 录 , 计 算 出准 确 的 预 测 值 为 :少 ] = -6.885707 315 422 + 1. 454559582848 x6. 85 +0.009 365 500 376 491 x 1 670 = 18.71841显 然 与 SPSS 的 输 出 结 果 一 致 。(2) 标 准 化 预 测 值 (Standardized) : 将 所 有 反 应 变 量 的 预 测 { 直 接 其 算 术 均 数 及 标 准 差 进 行 标准 化 的 结 果 , 其 均 数 为 0 , 标 准 差 为 1 。 应 用 SPSS 提 供 的 Descriptive 过 程 对 所 有 的 反 应 变 量 预 测值 计 算 其 算 术 均 数 与 标 准 差 , 结 果 参 见 表 5.60• 99 •


U nstandardizedPredic!ed ValueN表 5.621Valid N (list1Nise) 21Descriptive StatisticsMinimum Maximum Mean13.68460 23.43963 18.1904762Std. Deviation3.46520433应 用 SPSS 的 Transform 菜 单 中 的 Compute 过 程 进 行 如 下 计 算 :Comp test = (PRE_1 - 18. 19048) /3.46520433.Exec.即 得 到 标 准 化 预 测 值 , 读 者 可 对 此 进 行 验 证 ( 请 将 新 变 量 test 的 小 数 位 数 更 改 为 5 位 )。(3) 修 正 后 预 测 值 (Adj 旧 ted) : 从 当 前 数 据 库 中 剔 除 当 前 记 录 , 根 据 剔 除 后 的 数 据 拟 合 的 回归 模 型 计 算 的 当 前 记 录 反 应 变 量 的 预 测 值 。 若 剔 除 第 一 条 记 录 , 将 其 原 始 自 变 量 值 代 入 重 新 拟合 的 回 归 模 型 :Adjusted Ýl = - 4. 850 922 372 317 + 1. 525 259 255 898 x 6. 85 +0.007 963 201 510 663 x 1 670 = 18.895 65(4) 预 测 值 的 标 准 误 (S. E. of Mean Predictions) : 公 式 为 而 丽 E = ,jx i(X'X) -lX 飞 , 对 此 不感 兴 趣 的 可 以 不 去 管 它 。 式 中 χ 、 X 与 均 表 示 矩 阵 , 前 者 表 示 当 前 记 录 的 自 变 量 向 量 o , X 11'X 12) ,向 量 中 元 素 "1" 对 应 回 归 模 型 中 常 数 项 , 后 者 表 示 所 有 记 录 的 自 变 量 矩 阵 。 MSE 为 残 差 均 方 。预 测 值 的 标 准 误 差 主 要 用 于 计 算 对 应 自 变 量 组 合 (X 1 ' 屿 ,… , x p ) 下 因 变 量 预 测 值 的 可 信 区间 (Confidence Limits of Expected Value of Dependent Variable) 。 第 一 条 记 录 预 测 值 的 标 准 误 等 于0.384 090 据 此 计 算 其 95% 可 信 区 间 为 :18.718 41 :t t (0. 05 , 18) x 0.384 09 = 07.91 , 19.52)2. 回 归 分 析 的 区 间 估 计Save子 对 话 杠 中 也 提 供 了 保 存 预 测 值 95% 可 信 区 间 和 个 体 参 考 值 区 间 的 复 选 杠 。 在 回 归分 析 的 结 果 应 用 时 , 经 常 会 涉 及 区 间 估 计 的 问 题 , 这 里 分 述 如 下 :(1) 总 体 回 归 平 面 的 可 信 区 问 : 如 果 将 各 种 自 变 量 组 合 下 对 应 变 量 预 测 值 的 可 信 区 间 连 接起 来 , 就 可 以 对 回 归 平 面 的 总 体 进 行 可 信 区 间 的 估 计 , 该 区 间 估 计 范 围 在 散 点 图 上 表 现 为 空 间 中二 个 弧 形 曲 面 所 包 含 的 空 间 , 也 被 称 为 回 归 线 的 置 信 带 (Confidence Band) 。 以 95% 的 区 间 为例 , 其 含 义 是 在 满 足 线 性 回 归 的 假 设 条 件 下 , 该 区 域 包 含 真 实 总 体 回 归 直 线 的 置 信 度 为 95% 。应 用 图 形 表 示 上 述 计 算 结 果 如 图 5. 5 所 示 。因 5.5中 两 边 的 两 个 曲 面 表 示 回 归 平 面 可 信 区 间 的 范 围 , 中 间 的 平 面 表 示 当 前 观 测 到 的 样本 的 回 归 平 面 。(2) 个 体 Y 值 的 容 许 区 间 估 计 : 指 的 是 当 X 为 某 定 值 时 , 个 体 Y 值 的 参 考 值 范 围 的 波 动 范围 , 该 区 间 是 比 总 体 回 归 线 置 信 区 带 更 远 离 的 两 个 弧 形 曲 面 , 以 95% 的 区 间 为 例 , 表 示 的 是 期 望有 95% 的 数 据 点 所 落 入 的 范 围 。 实 际 上 , 在 利 用 回 归 方 程 进 行 预 测 时 , 就 应 当 使 用 该 区 间 来 估计 其 范 围 。• 100 •


图 5.5三 维 空 间 中 的 可 信 区 间 曲 面5.3.2 残 差 分 析 与 模 型 适 用 条 件 的 检 验在 本 章 的 开 始 介 绍 了 线 性 回 归 模 型 应 用 的 条 件 均 可 通 过 对 残 差 进 行 分 析 来 判 断 。 除 此 之外 , 残 差 还 可 用 于 判 断 是 否 还 需 向 己 建 立 的 模 型 中 继 续 引 入 新 的 变 量 , 用 于 帮 助 识 别 异 常 值(Outlier , 残 差 过 大 的 可 能 为 异 常 值 , 详 见 后 述 ) 等 。1. 残 差 的 种 类Linear Regression 过 程 中 Save 按 钮 中 通 过 以 下 几 个 复 选 杠 输 出 5 种 残 差 :(1) 非 标 准 化 残 差 (Unstandardized Residuals) : 即 原 始 残 差 , 因 变 量 原 始 值 与 由 模 型 估 计 的预 测 值 之 差 , 即 Yi 一 孔 。 以 例 5. 1 的 第 一 条 记 录 为 例 :e 1 = Y1 - Ý1 = 17. 44 - 18. 7184 = - 1. 278 4(2) 标 准 化 残 差 (Standardized Residuals) : 也 叫 Pearson 残 差 或 半 学 生 化 残 差 (Semi-StudentizedResiduals) 。 通 过 将 非 标 准 化 残 差 进 行 均 数 为 0 , 标 准 差 为 1 的 标 准 化 得 到 。 从 建 立 多重 线 性 回 归 模 型 的 无 效 假 设 出 发 , 总 体 的 残 差 方 差 协 方 差 矩 阵 为 σ2 乘 以 nXn 单 位 阵 , 而 将J 面 主 视 作 σ 的 近 似 估 计 。对 于 第 一 条 记 录 则 有 :et=e. -0 eJ 面 E-1. 278 4~.~'~~=-1.1614,/1. 211 6/ 丽 E(3) 学 生 化 残 差 (Studentized Residuals) : 更 准 确 地 说 , 样 本 数 据 的 残 差 问 方 差 协 方 差 矩 阵为 :MSE ([ -H) 。 式 中 I 为 nXn 的 单 位 阵 , 矩 阵 H =X (X'X) -I X ' , 称 为 帽 子 矩 阵 (Hat Matrix) , X矩 阵 定 义 同 前 。 则 se=lMSE(1-h z) , cov(e , ej)=-hlMSEo 式 中 h 为 H 矩 阵 中 第 i 行 、 第 i 列对 应 的 元 素 , h ij 为 H 矩 阵 中 第 i 行 、 第 j 功 ù 对 应 的 元 素 。 学 生 化 残 差 的 计 算 公 式 为 :• 101 •


e. -0;;:'17 面 E c1 - h)对 于 例 5. 1 的 第 一 条 记 录 , H 矩 阵 为 :( O. 121 759 07- O. 001 040 52H=IO. 104 350 51\-<strong>Il</strong>l-<strong>Il</strong>l-<strong>Il</strong>l-l//~ O. 110 511 480.036 368 53AV1I 句 寸3I句 、3d、、3、 句3 3h]] =0.1217 , 则r] 一 -84 = -1. 239 3飞 /1. 211 6 x c1 -0. 121 7)学 生 化 残 差 服 从 自 由 度 为 n -p-1 的 t 分 布 。(4) 剔 除 残 差 (Deleted Residuals) : 该 条 记 录 的 因 变 量 取 值 与 将 该 条 记 录 剔 除 后 重 新 拟 合 的模 型 以 其 自 变 量 值 代 入 模 型 所 求 得 的 预 测 值 的 差 值 。 实 际 上 无 需 像 刚 才 那 样 一 遍 遍 地 重 新 拟 合模 型 求 剔 除 残 差 , 可 应 用 式 (5. 10) 求 取 :d=fL, h z 意 义 同 前 , 对 于 例 5. 1 的 第 一 条 记 录 有 :1 - h一 1. 278 4d](1 (\ 1 ,.., 1 '7\-1. 455 6c1 -0. 121 7)(5. 10)(5) 学 生 化 剔 除 残 差 (Studentized Deleted Residuals) : 与 学 生 化 残 差 相 类 似 地 , 将 剔 除 残 差进 行 t 转 换 , 其 计 算 公 式 为 :ν MSE ωc1 -h)(5. 11)式 (5. 1 1) 中 MSE ω 为 剔 除 第 i 条 记 录 后 重 新 拟 合 模 型 的 误 差 均 方 。 同 样 地 , 也 无 需 重 新 拟合 n 次 模 型 以 得 到 学 生 化 剔 除 残 差 。 原 始 误 差 均 方 与 重 新 拟 合 模 型 的 误 差 均 方 之 间 存 在 以 下 关系 :所 以 , tz=(n 一 川 SE= (n 十 1) MSEω+ 二 元ezn -p 一 1=e//ν MSE ω(1-hu)t/ 付 SSE(1-hzz)-ej对 于 例 5. 1, MSE (1) = 1. 173 432 61, t, =且2. 模 型 适 用 条 件 的 检 验本 节 中 介 绍 的 5一 1. 278 41 1. 173 4 x C1 -0. 121 7)种 残 差 用 于 绘 制 相 关 统 计 图 时 其 效 果 基 本 相 同 , 举 例 时 仅 以 较 常 用 的 非 标准 化 残 差 为 例 予 以 说 明 。 线 性 回 归 模 型 的 残 差 分 布 主 要 有 以 下 几 种 , 如 图 5.6 所 示 。很 明 显 , 在 图 5.6 中 , 图 (a) 是 最 理 想 的 , 说 明 残 差 不 随 自 变 量 取 值 水 平 的 改 变 而 改 变 ; 图(b) 说 明 因 变 量 y 与 自 变 量 叭 的 关 系 不 是 线 性 关 系 , 在 拟 合 模 型 时 可 能 要 考 虑 其 他 函 数 形 式 , 如引 进 x 的 二 次 项 等 ; 图 (c) 说 明 残 差 的 变 异 程 度 随 x 的 变 化 而 变 化 , 方 差 不 齐 , 需 对 x 进 行 变 量 变换 ; 图 (d)反 映 了 残 差 可 能 与 时 间 ( 或 其 他 某 种 序 列 或 其 他 未 引 入 模 型 的 变 量 ) 有 关 , 这 反 映 了 模• 102 •


图 5.6几 种 常 见 的 残 差 分 布 示 意 图型 中 还 有 别 的 变 量 需 要 引 入 。下 面 就 如 何 应 用 残 差 分 析 判 断 线 性 回 归 模 型 的 前 提 条 件 是 否 成 立 予 以 简 单 介 绍 。(1) 自 变 量 与 因 变 量 之 间 存 在 线 性 关 系 。 除 了 前 面 介 绍 的 绘 制 " 散 点 图 矩 阵 " 外 , 还 可 以 通过 绘 制 残 差 与 该 自 变 量 的 散 点 图 进 行 判 断 , 且 其 效 率 高 于 散 点 图 矩 阵 。 对 于 例 5. 1 绘 制 非 标 准化 残 差 与 叫 、 町 的 散 点 图 如 图 5. 7 所 示 。2 o 2 -1 o[ 咀气 E 口 巳 A 也 d J =s 3 q 冒 2 口 畸 1-oo 1oooo o 00ooo气 c 口 2 qo• 同 巳 ,。o o o oM 也 Joo t"'li......吃 . 弘 d2 吃 也 3 • J 自0 (、 。吃 tE 咀0 0 o 。。ooo一 l00 oo2 4 6 8 10 1600 1700 1800 1900年 轻 人 人 数人 均 可 支 配 收 入图 5. 7 非 标 准 化 残 差 与 川 、 町 的 散 点 图由 图 5. 7 可 以 看 出 , 各 点 基 本 平 均 分 布 在 O 这 条 水 平 线 的 两 边 , 没 有 明 显 的 偏 正 或 偏 负 的 趋势 。 说 明 当 前 模 型 所 考 虑 的 销 售 收 入 与 城 市 16 岁 以 下 年 轻 人 口 数 、 人 均 可 支 配 收 入 之 间 里 线 性关 系 是 正 确 的 。读 者 还 可 试 用 其 他 类 型 的 残 差 与 两 个 自 变 量 作 图 , 结 论 基 本 一 致 。在 绘 制 上 述 图 时 要 注 意 一 点 的 是 , 有 时 这 种 图 形 的 效 率 太 高 , 易 受 异 常 值 的 影 响 而 出 现 误判 。 如 图 5. 8 所 示 。如 果 只 观 察 图 5.8 (a) , 容 易 认 为 y 与 变 量 X] 之 间 存 在 线 性 关 系 , 但 由 于 最 后 一 个 数 据 点 为异 常 值 , 造 成 了 残 差 与 变 量 X] 之 间 的 散 点 图 提 供 了 错 误 的 信 息 , 即 y 与 变 量 X] 之 间 似 乎 并 非 线 性关 系 。 这 种 情 况 在 样 本 含 量 较 小 时 尤 其 容 易 出 现 。(2) 各 观 测 间 相 互 独 立 , 即 任 两 个 观 测 残 差 的 协 方 差 为 0 。 这 一 点 主 要 考 虑 当 各 观 测 间 存 在 时间 或 地 理 上 的 次 序 时 , 残 差 值 的 大 小 是 否 会 随 着 次 序 的 变 化 而 变 化 。 例 如 某 药 厂 研 究 原 料 A 的 加料 量 与 产 品 B 的 关 系 , 在 当 年 的 7 月 份 开 始 试 生 产 , 记 录 了 自 生 产 开 始 第 1 ~ 12 月 份 的 加 料 量 x 与产 量 y , 拟 合 线 性 回 归 模 型 , 保 存 残 差 项 。 对 不 同 生 产 月 份 的 残 差 与 时 间 ( 月 份 ) 绘 制 散 点 如 下 ( 图• 103 •


图 5.8残 差 图 分 析 示 意5.9 Ca)) , 开 始 负 的 残 差 说 明 当 时 生 产 工 艺 还 不 过 关 , 后 面 正 的 残 差 反 映 了 随 着 时 间 的 推 进 , 对 生 产工 艺 越 来 越 成 熟 , 产 量 稳 步 上 升 。 此 时 在 分 析 时 需 考 虑 是 否 向 模 型 中 引 入 时 间 这 个 因 素 。EE'非'' ''非• •''非''''+'"'1 2 3 4 5 6 7 8 9 10 11 12(a)1 2 3 4 5 6 7 8 9 10 11 12(b)图 5.9 应 用 残 差 图 观 察 独 立 性图 5.9 Cb) 则 反 映 出 残 差 随 时 间 的 改 变 呈 现 出 一 定 的 周 期 性 。 此 时 可 考 虑 是 否 需 更 换 模 型 ,如 改 用 时 间 序 列 等 来 分 析 。统 计 图 可 以 提 供 直 观 的 信 息 , 但 缺 乏 有 关 量 的 概 念 。 对 于 残 差 间 是 否 相 互 独 立 , 可 通 过Linear Regression 过 程 Statistics 按 钮 中 提 供 的 Durbin-Watson 检 验 进 行 判 断 , 如 图 5. 10 所 示 。图 5. 10 Statistics 子 对 话 框该 统 计 量 的 取 值 在 o ~4 之 间 。 具 体 应 用 可 查 相 应 统 计 用 表 , 若 大 于 界 值 上 界 , 则 说 明 残 差间 相 互 独 立 ; 低 于 下 界 , 说 明 残 差 间 存 在 自 相 关 ; 如 果 在 界 值 之 间 , 则 建 议 增 加 样 本 含 量 , 要 求 不高 时 也 可 粗 略 对 其 进 行 判 断 。 一 般 地 , 若 自 变 量 数 少 于 4 个 , 统 计 量 接 近 2 , 基 本 上 可 以 肯 定 残• 104 •


差 间 相 互 独 立 。 例 5. 1 的 Durbin-W atson 统 计 量 计 算 结 果 参 见 表 5.70表 5.7Model Summary bModel R R Square957 a .917Adjusted R Std. Error ofSquare the Estimate Durbin-Watson907 1 10074 1.653a. Predictors: (Constant) , 支 配 收 入 1 年 轻 人bO e 口 endent Variable销 售 收 入查 表 界 值 为 1.54 , 说 明 残 差 间 相 互 独 立 。(3) 残 差 e 服 从 正 态 分 布 N(O , σ2) 。 考 察 残 差 是 否 服 从 正 态 分 布 可 以 通 过 绘 制 标 准 化 残 差的 直 方 图 、 茎 叶 图 、 正 态 概 率 分 布 图 (PP 图 ) 进 行 。 SPSS 在 线 性 回 归 的 对 话 杠 中 提 供 了 绘 制 残 差的 直 方 图 、 PP 图 的 复 选 项 。 Linear Regression 过 程 中 Plot 按 钮 提 供 了 绘 制 残 差 的 直 方 图 及 PP 图复 选 框 , 如 图 5.11 所 示 。 对 例 5. 1 绘 制 的 直 方 图 、 PP 图 如 图 5.12 所 示 。图 5. 11 Plot 子 对 话 框hUZQ由 =」H-Hu65A] 寸句J2。Dependent Variable: 销 售 收 入7且 。Regression Standardized ResidualMean=5.36E-15Std. Dev.=0.9492 N=21l。υ号 。 .8』-~ 0.6u"0Z040.c.\:î 0.2Dependent Variable: 销 售 收 入000.00.0 0.2 0.4 0.6 0.8 1.0Observed Cum Prob图 5. 12 残 差 的 直 方 图 和 PP 图需 要 注 意 的 是 , 自 变 量 与 因 变 量 问 关 系 并 非 线 性 、 残 差 方 差 不 齐 、 观 测 值 间 不 独 立 等 情 况 均会 导 致 残 差 的 直 方 图 、 茎 叶 图 、 PP图 等 表 现 出 非 正 态 。 因 此 建 议 在 确 认 残 差 服 从 线 性 回 归 的 其他 几 项 条 件 后 , 再 来 研 究 残 差 分 布 是 否 正 态 。(4) 方 差 齐 性 。 即 叭 的 大 小 不 随 所 有 变 量 取 值 水 平 的 改 变 而 改 变 , 上 面 的 plot 子 对 话 杠 ( 如• 105 •


图 5.11 所 示 ) 还 提 供 了 绘 制 反 应 变 量 与 各 种 残 差 的 残 点 图 , 以 标 准 化 残 差 为 例 , 绘 制 残 差 图 如 图5.13 所 示 ( 图 中 的 参 照 线 是 后 来 添 加 的 )。Dependent Variable: 销 售 收 入2。"0'l)N"0」白吃 3~ ~t 由 d.., :::l臼 古 气 3


根 据 公 式 55 total = 55R + 55E , 偏 回 归 平 方 和 55R (x i I X 1 ' …, X i _ 1 ' X i + 1 ' …, 与 ) 也 等 于 模 型 y=bo+b1x1 + … +bi-1Xi - 1 +bi+1Xi +1 + … +b 卢 p 的 误 差 平 方 和 减 去 模 型 y = b o + b 1 叫 +… + bpxp 的 误 差 平方 和 。 由 此 可 见 , 偏 回 归 平 方 和 的 大 小 不 仅 取 决 于 该 变 量 本 身 , 还 取 决 于 模 型 中 引 入 的 其 他 变 量 。当 p 个 自 变 量 间 不 存 在 线 性 相 关 关 系 时 ( 如 正 交 设 计 ), 即 自 变 量 间 的 简 单 相 关 矩 阵 为 单 位阵 时 , 可 以 证 明 , 自 变 量 x 的 偏 回 归 平 方 和 与 对 反 应 变 量 拟 合 仅 包 含 x 的 简 单 线 性 回 归 模 型 的 回归 平 方 和 相 等 。由 于 只 增 加 了 X i 这 一 个 变 量 , 所 以 55R (x i I 町 ,… , X i _ 1 , X i + 1 ' …, 马 ) 相 对 应 的 自 由 度 等 于 10二 者 相 除 得 到 偏 回 归 均 方 , 根 据 方 差 分 析 的 基 本 思 想 , 通 过 对 偏 回 归 均 方 与 误 差 均 方 进 行 比 较 ,可 以 判 断 自 变 量 X 的 偏 回 归 系 数 b 是 否 等 于 0 , 这 就 是 偏 F 统 计 量 :S5R (x i Ix 1 ,…, χ 卜 l' X i + 1 ' …'X p ) 55E (x 1 ' …'X p )F,=n -p-1l1;f5R (x i I 叫 ,… , X i _ 1 , X i + 1 ' …, 马 )M5E可 以 证 明 , Fi 斤 。 但 是 t 检 验 结 果 提 供 了 更 多 的 信 息 , 因 为 t 统 计 量 符 号 可 正 可 负 , 而 偏 F统 计 量 只 可 能 为 正 数 。5.4.2 常 用 的 逐 步 回 归 方 法SPSS 中 提 供 的 自 变 量 进 入 模 型 方 法 共 有 5 种 :(1) Enter: 所 有 纳 入 Independentω 杠 的 自 变 量 均 进 入 模 型 , 不 涉 及 变 量 筛 选 问 题 , 为 默 认选 项 。(2) Forward: 前 进 法 。 首 先 分 别 对 p 个 自 变 量 问 , 屿 ,…, 与 ) 拟 合 它 与 反 应 变 量 的 简 单 线 性 回归 模 型 , 共 有 p 个 。 考 察 其 中 有 统 计 学 意 义 的 k个 简 单 线 性 回 归 模 型 (k~ 抖 , 将 其 中 P 值 最 小 的 模型 所 对 应 的 自 变 量 (χ) 首 先 引 入 模 型 。 如 果 所 有 模 型 均 无 统 计 学 意 义 , 则 运 算 过 程 终 止 , 没 有 模 型被 拟 合 。 第 二 步 是 在 己 经 引 入 模 型 的 抖 的 基 础 上 , 再 分 别 拟 合 引 入 模 型 外 的 p -1 个 自 变 量 的 线 性回 归 模 型 。 即 自 变 量 组 合 为 X i + 叫 ,… 叫 +Xi_1 , X i +X i + 1 ' …, X i + 冉 的 p -1 个 线 性 回 归 模 型 。 将X 1 ' …, 几 l 、hr·- 川 等 p -1 个 自 变 量 中 统 计 学 检 验 P 值 最 小 且 有 统 计 学 意 义 的 那 个 自 变 量 问 )引 入 模 型 。 如 果 除 χ 之 外 的 p -1 个 自 变 量 中 没 有 一 个 有 统 计 学 意 义 , 则 运 算 过 程 终 止 , SPSS 给 出模 型 少 =α +bix i 的 参 数 估 计 。 如 此 反 复 进 行 , 直 至 模 型 外 的 自 变 量 均 无 统 计 学 意 义 为 止 。(3) Backward: 后 退 法 。 与 前 进 法 相 反 。 首 先 对 反 应 变 量 拟 合 包 含 全 部 p 个 自 变 量 的 线 性回 归 模 型 。 考 察 其 中 无 统 计 学 意 义 的 k 个 自 变 量 让 王 p) , 将 其 中 p{ 直 最 大 者 (X) 剔 除 出 模 型 。如 果 所 有 自 变 量 P 值 均 有 统 计 学 意 义 , 则 运 算 过 程 终 止 , SPSS给 出 包 含 所 有 自 变 量 的 线 性 回 归模 型 。 第 二 步 , 对 反 应 变 量 拟 合 包 含 剩 下 的 p -1 个 自 变 量 的 线 性 回 归 模 型 , 同 样 剔 除 P 值 最 大且 无 统 计 学 意 义 的 变 量 。 如 此 反 复 进 行 , 直 至 模 型 中 剩 余 的 所 有 自 变 量 均 有 统 计 学 意 义 为 止 。(4) Stepwise: 逐 步 回 归 法 。 将 上 面 两 种 方 法 结 合 起 来 筛 选 自 变 量 的 方 法 。 前 两 步 与 前 进 法的 前 两 步 相 同 。 第 二 步 : 考 察 第 一 步 引 入 模 型 的 自 变 量 (χ) 是 否 仍 有 统 计 学 意 义 。 若 没 有 统 计学 意 义 , 则 将 其 剔 除 出 模 型 。 拟 合 包 含 第 二 步 引 入 模 型 的 自 变 量 (X) 与 除 X i 外 的 p -2 个 自 变 量的 模 型 , 将 其 中 P 值 最 小 且 有 统 计 学 意 义 者 引 入 模 型 。 此 时 若 没 有 自 变 量 有 统 计 学 意 义 , 则 运算 过 程 终 止 , SPSS 给 出 仅 包 含 自 变 量 苟 的 模 型 参 数 估 计 结 果 。 如 果 第 一 步 引 入 模 型 的 自 变 量• 107 •


(X) 有 统 计 学 意 义 , 则 进 行 第 四 步 。 在 模 型 引 入 自 变 量 X i 、 抖 的 基 础 上 继 续 拟 合 包 含 其 他 p -2 个自 变 量 的 回 归 模 型 , 考 察 剩 余 的 p -2 个 自 变 量 是 否 有 统 计 学 意 义 。 引 入 p{ 直 最 小 且 有 统 计 学 意义 的 自 变 量 。 如 果 剩 余 的 p -2 个 自 变 量 均 无 统 计 学 意 义 , 则 运 算 过 程 终 止 , SPSS 输 出 包 含 矶 、 冉的 回 归 模 型 参 数 估 计 结 果 。 如 此 反 复 进 行 , 直 至 模 型 外 的 自 变 量 均 无 统 计 学 意 义 , 而 模 型 内 的 自变 量 均 有 统 计 学 意 义 。 由 此 可 见 , 与 前 进 法 、 后 退 法 相 比 , 逐 步 回 归 是 比 较 " 负 责 任 " 的 , 每 向 模型 引 入 一 个 新 变 量 , 均 要 考 察 原 来 在 模 型 中 的 自 变 量 是 否 还 有 统 计 学 意 义 , 是 否 可 以 被 剔 除 。(5) Remove: 规 定 为 Remove 的 自 变 量 被 强 制 剔 除 出 模 型 。{ 且 SPSS 会 给 出 如 果 将 其 引 入 模型 的 参 数 估 计 及 检 验 结 果 。 i 衷 方 法 实 际 上 需 要 利 用 将 变 量 分 Block 的 方 式 和 其 他 方 法 联 合 使用 , 详 细 介 绍 参 见 后 面 有 关 章 节 。补 充 说 明 以 下 几 点 :4 以 上 所 说 的 是 否 有 统 计 学 意 义 , 均 以 Options 按 钮 中 的 Entry ( 引 入 )、 Removal ( 剔 除 ) 选 项 所规 定 的 P 值 为 准 , 小 于 规 定 的 标 准 , 则 有 统 计 学 意 义 。 SPSS 系 统 默 认 的 标 准 分 别 为 0.05 和 0.10 。实 际 运 用 中 剔 除 变 量 的 P 值 标 准 应 大 于 或 等 于 引 入 变 量 的 标 准 。 如 果 以 偏 F 统 计 量 为 筛 选 自 变 量的 标 准 , 则 剔 除 变 量 的 偏 F 统 计 量 标 准 应 小 于 引 入 变 量 的 标 准 。 否 则 可 能 导 致 某 个 变 量 刚 被 剔 除出 模 型 后 随 即 又 被 选 入 模 型 , 如 此 往 复 从 而 陷 入 死 循 环 , 实 际 上 此 时 计 算 机 往 往 会 " 罢 工 " 不 干 。2 线 性 回 归 模 型 中 包 含 的 自 变 量 组 合 不 同 时 , 对 于 同 一 个 自 变 量 偏 回 归 系 数 的 统 计 学 检 验结 果 是 不 同 的 。 所 以 在 进 行 逐 步 回 归 过 程 中 , 有 的 自 变 量 在 前 面 几 步 运 算 过 程 中 被 引 入 模 型 , 而在 后 面 的 运 算 过 程 中 却 被 剔 除 出 模 型 。3 前 进 法 、 后 退 法 、 逐 步 回 归 法 的 侧 重 点 不 同 。 当 自 变 量 间 不 存 在 简 单 线 性 相 关 关 系 时 , 三种 方 法 计 算 的 结 果 是 一 致 的 。 当 自 变 量 问 存 在 一 定 的 简 单 线 性 相 关 关 系 时 , 前 进 法 侧 重 于 向 模型 中 引 入 单 独 作 用 较 强 的 变 量 , 后 退 法 侧 重 于 向 模 型 中 引 入 联 合 作 用 较 强 的 变 量 。 逐 步 回 归 法则 介 于 两 者 之 间 。4 对 于 不 同 的 自 变 量 纳 入 方 法 , 在 SPSS 中 可 通 过 "Next" 按 钮 将 其 分 为 不 同 的 "Block" 决 定其 进 行 模 型 的 方 式 , 同 一 Block 中 的 自 变 量 内 进 入 模 型 的 方 式 相 同 。5.4.3 分 析 实 例例 5. 2 本 例 来 自 Golueke and McGauhey 1970 年 对 美 国 40 个 城 市 的 固 体 垃 圾 排 放 量 ( 吨 ) 的调 查 资 料 , 所 关 心 的 问 题 是 不 同 种 类 土 地 使 用 面 积 ( 单 位 , 英 亩 ) 与 固 体 垃 圾 排 放 量 之 间 的 关 系 。可 能 的 影 响 因 素 有 : indust ( 工 业 区 土 地 面 积 的 大 小 )、 metals ( 金 属 制 造 企 业 用 地 面 积 )、 tr 时 ks ( 运输 及 批 发 商 业 用 地 面 积 )、 retail ( 零 售 业 用 地 面 积 )、 restrnts ( 餐 馆 与 宾 馆 用 地 面 积 )。 试 作 逐 步 回归 分 析 。 数 据 库 为 WASTE. sav 。本 例 的 操 作 如 下 :: Analyze• Regression• LineariDependent 杠 : waste: Independent 丰 匡 : indust 、 metals 、 trucks 、 retail 、 restrnts:Method 杠 : stepwise! 因• 108 •


SPSS 输 出 结 果 如 下 :表 5. 8 Variables Entered/Removed aModelVariables EnteredVariables RemovedMelhod宾 馆 、 餐 饮 业 用 地Stepwise (Criteria: Probability-of-F-to-e 门 ler = .100)2运 输 、 批 发 企 业 用 地Stepwise (Criteria: Probability-of-F-to-e 门 ler = .100)3工 业 企 业 南 地Stepwise (Criteria: Probability-of-F-to-e 门 ler = .100)4零 售 业 F 目 地Stepwise (Criteria: Probability-of-F-to-e 门 ler = .100)a. Oependent Variable 固 体 垃 报 排 放 量表 5. 8 给 出 了 SPSS 在 逐 步 回 归 过 程 中 拟 合 的 4 个 步 骤 中 每 一 步 引 入 模 型 的 变 量 , 最 先 引 入模 型 的 为 宾 馆 、 餐 饮 业 用 地 , 其 次 是 运 输 、 批 发 企 业 用 地 …… 并 且 在 引 入 新 变 量 后 , 原 来 模 型 中 引入 的 变 量 均 保 持 有 统 计 学 意 义 , 因 而 没 有 自 变 量 被 剔 除 模 型 。 引 入 、 剔 除 变 量 的 标 准 为 SPSS统 默 认 的 P 值 , 分 别 为 0.05 和 o. 100系SPSS 分 别 输 出 拟 合 的 4 个 模 型 中 反 应 变 量 与 模 型 中 的 自 变 量 的 复 相 关 系 数 、 及 各 自 的决 定 系 数 、 校 正 决 定 系 数 、 随 机 误 差 的 估 计 值 ( 即 表 5. 10 中 误 差 均 方 MSE 的 算 术 平 方 根 ) ,参 见 表 5.90表 5.9Model Summary eModel R R Square Adjusted R Square Std. Error of Ihe Estimate234.823 a 677 669.896 b 803 792.908 C 825 811.921 d 849 83120808才 6478才 5732才 4847a. Predictors (Constant) , 宾 馆 、 餐 饮 业 用 地b Predictors (Consta 门 t) , 宾 t 昌 、 督 tA: 业 用 地 , 运 瑜 、 批 发 企 业 用 地c. Predictors (Constant) , 真 语 、 餐 饮 业 用 地 , 1 二 瑜 、 批 发 企 业 用 地 ! 士 业 企 业 用 地d. Predict 口 rs (Constant) , 宾 语 、 餐 饮 业 用 地 , JE 瑜 、 批 发 企 业 用 地 1 工 业 企 业 用 地 , 零 售 业 用 地eOe 口 endent Variable固 体 垃 :t& 排 放 量表 5.10 分 别 检 验 拟 合 的 4 个 模 型 中 是 否 所 有 偏 回 归 系 数 全 为 0 。 对 于 SPSS 默 认 的 引 入 、剔 除 处 自 变 量 的 标 准 而 言 , 这 里 的 检 验 结 果 均 应 有 统 计 学 意 义 。表 5.11 输 出 了 各 模 型 中 自 变 量 的 偏 回 归 系 数 估 计 , 具 体 解 释 可 参 见 前 面 有 关 章 节 。SPSS 还 输 出 了 每 一 步 被 排 除 在 模 型 之 外 的 自 变 量 其 回 归 系 数 估 计 、 偏 相 关 系 数 、 多 重 共 线容 许 度 CTolerance , 详 见 后 一 节 ) , 参 见 表 5. 120 这 里 的 偏 相 关 系 数 是 控 制 模 型 中 所 包 含 的 自 变量 , 每 一 步 拟 合 模 型 的 残 差 与 此 时 模 型 之 外 的 自 变 量 的 偏 相 关 系 数 。• 109 •


表 5.10ANQVAeModel 8um of 8quares df Mean 8quare F 8ig.Regression 3.450 3.450 79.685 000 8Residual 才 645 38 043Total 5.095 392 Regression 4.091 2 2.045 75.329 .000bResidual 才 005 37 027Total 5.095 393 Regression 4.204 3 1.401 56.621 .000CResidual .891 36 025Total 5.095 394 Regression 4.324 4 1.081 49.037 .000dResidual .772 35 022Total 5.095 39a. Predictors: (Co 叶 剑 ant). 真 情 、 餐 tx 业 屑 地b. Predictors: (Co 问 stant). 宾 晴 、 督 tx 业 用 地 3 运 输 、 批 发 企 业 南 地c. Predictors: (Constant) , 真 悟 、 餐 饮 业 用 地 , l 主 柿 、 批 发 企 业 南 地 ! 士 ft 企 业 用 地d. Predictors: (Co 叫 stant) , 真 情 、 餐 tx 业 屑 地 , 运 输 、 批 发 企 业 用 地 1 工 业 企 业 用 地 , 零 售 业 用 地e.De 口 endent Variable固 体 垃 圾 排 放 量表 5. 11 Coefficients aUnstandardizedCoefficients8tandardizedCoefficientsModel B 8td. Error Beta 8ig.(Constant) 147 042 3.495 00 才宾 馆 、 餐 饮 业 用 地 010 00 才 .823 8.927 0002 (Constant) .128 .034 3.805 .00 才宾 馆 、 餐 饮 业 南 地 008 00 才 .675 8.542 000运 输 、 批 发 企 业 用 地 000 000 .384 4.857 0003 (Consta 内 t) 134 032 4.177 000宾 馆 、 餐 饮 业 m* 也 .008 .00 才 .689 9.096 .000运 输 、 批 发 企 业 用 地 .000 .000 .449 5.519 .000工 业 企 业 用 地 -3.736E-05 000 -.165 -2.142 0394 (Constant) 123 03 才 4.014 000宾 馆 、 餐 饮 业 ffl 地 013 002 1.078 5.936 000运 输 、 批 发 企 业 用 地 .000 .000 .534 6.282 .000工 业 企 业 用 地 -5.223E-05 000 -.231 -2.959 006零 售 业 用 地 -.001 000 -.441 -2.328 0268. Dependent Variable 固 体 垃 圾 排 放 量• 110 •


表 5. 12 Excluded Variables eCollinearity StatisticsModel Beta In Sig. Partial Correlation Tolerance工 业 企 业 Jtj 拙 -.007 a -.072 .943 -.012 946金 属 制 造 业 用 地 333 a 4.262 .000 574 960运 输 、 批 发 企 业 用 地 384 a 4.857 .000 624 853零 售 业 Jtj t 也 069 a 29 才 .772 048 1542 工 业 企 业 Jtj t 也 -.165 b -2.142 .039 -.336 815金 属 制 造 业 用 地 .034 b .195 .846 .033 .179零 售 业 南 地 -.238 b -1.224 .229 -.200 1393 金 属 制 造 业 用 地 059 C 355 .724 060 178零 售 业 Jtj 地 -.441 c -2.328 .026 -.366 1214 金 属 制 造 业 用 地 .045 d .283 .779 .048 .178a Prediclors in lhe Model: (Constanl).宾 馆 、 言 Hx 业 用 地b. Prediclors in the Model: (Constant) , 宾 馆 、 餐 饮 业 用 地 l 运 输 、 批 发 企 业 南 地c. Prediclors in the Model: (Constant). 宾 馆 、 每 t\ 业 用 地 l 运 输 、 批 发 企 业 用 地 ! 工 业 企 业 用 地d. Prediclors in the Model: (Co 叫 stant) , 宾 馆 、 言 Hx 业 用 地 .J 王 柿 、 批 发 企 业 用 地 ! 工 业 企 业 用 地 , 零 售 业 用 地e. Dependent Variable 固 体 垃 圾 排 放 量5.5 模 型 的 进 一 步 诊 断 与 修 正5.5.1 强 影 晌 点 的 识 别 与 处 理顾 名 思 义 , 强 影 响 点 指 对 多 重 线 性 回 归 模 型 参 数 估 计 有 很 强 影 响 的 数 据 点 。 由 于 多 重 线 性回 归 采 用 最 小 二 乘 法 进 行 参 数 估 计 , 此 时 对 所 有 的 记 录 均 一 视 同 仁 。 当 数 据 库 中 存 在 远 离 多 维空 间 数 据 主 体 的 记 录 时 , 它 们 将 导 致 拟 合 的 模 型 偏 向 该 数 据 点 。 对 于 强 影 响 点 的 识 别 是 进 行 多重 线 性 回 归 时 应 该 注 意 的 另 一 个 重 要 问 题 。(1) 残 差 。 前 文 提 到 各 种 类 型 残 差 中 以 标 准 化 残 差 最 为 常 用 。 一 般 地 , 标 准 化 残 差 大 于 3时 几 乎 可 以 肯 定 该 条 记 录 为 强 影 响 点 。 Linear Regression 过 程 中 Statistics 按 钮 提 供 了 Casewisediagnostics 复 选 杠 用 于 在 Output 窗 口 中 输 出 可 能 为 强 影 响 点 的 记 录 编 号 及 相 关 统 计 量 。 对 于 例5.2 , 没 有 记 录 标 准 化 残 差 大 于 3 , 可 要 求 输 出 2 倍 标 准 差 以 内 的 残 差 值 , 则 输 出 结 果 参 见表 5. 13 0表 5.13Casewise Diagnostics aCase Number Std. Residual 固 体 垃 坡 排 放 量 Predicted Value8 -2.078 .65 .9638Residual31260a. Dependent Variable 固 体 垃 坡 排 放 量据 表 5.13 判 断 , 第 8 条 记 录 可 能 是 强 影 响 点 , 其 标 准 化 残 差 为 一 2.0780• 111 •


(2) 强 影 响 点 统 计 量 。 除 了 残 差 之 外 , SPSS 中 还 可 以 通 过 Save 子 对 话 杠 中 的 Influence Statistics复 选 杠 提 供 一 系 列 用 于 强 影 响 点 识 别 的 统 计 量 。( DfB eta (s) : 设 从 数 据 库 中 剔 除 第 i 条 记 录 后 , 其 预 测 值 为 孔 (i) , 自 变 量 偏 回 归 系 数 向 量为 b (i) , 模 型 误 差 均 方 为 MSE (i) , 此 时 自 变 量 矩 阵 为 X( i) , 剔 除 残 差 为 r i 0 则 有 DfB eta (b Ci)) =bj-bwo 式 中 bj 为 包 含 第 i 条 记 录 时 模 型 中 第 j 项 的 参 数 估 计 , b Ci) j 为 不 包 含 该 条 记 录 时 模 型 中第 j 项 的 参 数 估 计 。对 例 5. 2 数 据 库 拟 合 包 含 所 有 自 变 量 的 回 归 模 型 ( 下 同 ) , 对 于 第 一 条 记 录X 1= 01 026913 312536) , 对 应 于 模 型 中 的 常 数 项 , 则 有 人 = O. 121 584 81, b (J) O = O. 123 743 60 ,DfBeta (b o ) = O. 121 584 81 - O. 123 743 60 = - 0.002 158 7902 Standα rdized DfBeta (s) : Standα rdized DfBeta (b Ci)) 为 DfB eta (b) 的 标 准 化 值 , Standα rdizedb - br 、DfB eta (b Ci)) = ~ 川 , 式 中 h ii 为 矩 阵 (X' X) -1 中 与 模 型 中 第 } . 项 相 对 应 的 第 j 行 、 j 列 元素 。对 于 例 5.2 数 据 库 中 的 第 一 条 记 录 的 常 数 项 计 算 其 Standardized DfB etα , 则 有 : MSE (1)=0.022403 95 ,h ll =0.ω4335 06 ,b o =0.121584 81, b mo =0.123 743 60 , Standα rdized DfBeta (b (J) 0)= - O. 068 497 450( DfF it: DfF it ci) = 孔 - Ýi (i)。 式 中 孔 为 包 含 第 i 条 记 录 时 多 重 线 性 回 归 模 型 对 该 条 记 录 反应 变 量 的 预 测 值 , 孔 (i) 为 将 该 条 记 录 自 变 量 值 代 入 不 包 含 该 条 记 录 时 拟 合 的 多 重 线 性 回 归 模 型计 算 的 反 应 变 量 估 计 值 。对 于 例 5. 2 数 据 库 中 的 第 一 条 记 录 则 有 , 们 =0.525 84646 , 们 (1) = 0.537 758 69 , DfFit (1)= - o. 011 912 24 0Fi - Ýi (i)4 Standα rdized DfFit : 为 DfFit ω 的 标 准 化 值 , Standα rd 时 d DfFit = I MSE (i) h (i)h (i) =χ (X' X) -1 x;。 式 中 , χ 为 该 条 记 录 的 自 变 量 向 量 ( 注 意 , 这 里 χ 为 小 写 )。对 于 例 5.2 数 据 库 中 的 第 一 条 记 录 , MSE (1) = O. 022 403 95 , h (i) = X i(X' X) -1 X'i =0.066 047 47 , 少 1 =0.525 84646 , 们 (1) = 0.537 758 69 , Standα rdized DfFit = - o. 309 672 7 0显 然 , 对 于 上 面 4个 统 计 量 , 其 值 越 大 , 越 说 明 该 条 记 录 可 能 为 强 影 响 点 。 对 于 Standα rdizedDfFit 而 言 , 当 其 值 大 于 2 时 , 可 怀 疑 该 记 录 为 强 影 响 点 。 Belsl 町 , Kuh, and Welsch 提 出 根 据 样本 含 量 校 正 准 则 , Standα rd 时 d DfFit >2 /p 辰 。 式 中 p 为 模 型 中 参 数 个 数 , n 为 样 本 含 量 。 StandardizedDfB eta 的 界 值 则 为 2/ 而 。( Covariance ratio: 为 不 包 含 该 条 记 录 与 包 含 该 条 记 录 时 反 应 变 量 的 观 测 值 的 方 差 协 方 差阵 定 义 的 行 列 式 的 值 (Determinant) 的 比 值 。 计 算 公 式 如 下 , 式 (5. 12) 中 X( i) 为 不 包 括 当 前 记 录的 数 据 库 中 所 有 其 他 记 录 的 自 变 量 矩 阵 ( 注 意 , 这 里 X 为 大 写 ) :Cov rα tio = det (MSE ω (X' ωXω) -1) /det (MSE (X' X) -1) (5. 12)Belsl 町 , Kuh, and Welsch 提 出 对 于 I cov ratio 一 1 I 主 主 的 记 录 , 可 能 为 强 影 响 点 。 式 (5. 12)n中 p 为 模 型 中 参 数 个 数 , n 为 样 本 含 量 。• 112 •


读 者 可 自 行 练 习 在 例 5.2 数 据 库 中 保 存 强 影 响 点 统 计 量 , 并 判 断 哪 些 记 录 可 能 为 强 影 响 点 。当 检 测 到 数 据 库 中 存 在 强 影 响 点 时 , 可 以 通 过 以 下 途 径 予 以 解 决 :(1) 首 先 考 虑 该 条 记 录 是 否 在 数 据 记 录 、 录 入 时 产 生 的 错 误 。 如 果 是 , 应 予 以 改 正 。 查 不 到原 始 记 录 不 能 予 以 修 正 者 , 应 将 该 条 记 录 删 除 。(2) 考 虑 该 条 记 录 是 否 与 数 据 库 中 其 他 记 录 是 否 分 属 不 同 亚 群 , 如 果 该 条 记 录 与 其 他 记 录明 显 不 同 , 也 可 以 考 虑 将 该 条 记 录 删 除 。(3) 如 果 以 上 两 条 均 不 满 足 , 此 时 不 宜 武 断 地 将 该 条 记 录 删 除 , 而 应 再 次 审 核 散 点 图 矩 阵 ,考 察 所 拟 合 的 模 型 对 于 当 前 数 据 库 是 否 合 适 , 考 虑 拟 合 其 他 形 式 的 模 型 予 以 修 正 。(4) 进 行 稳 健 回 归 (Robust Regression) , 如 加 权 最 小 二 乘 法 。 可 先 应 用 最 小 二 乘 法 做 一 次 普通 最 小 二 乘 法 的 多 重 线 性 回 归 , 并 模 型 残 差 保 存 为 新 变 量 , 然 后 将 残 差 作 为 加 权 变 量 , 进 行 加 权最 小 二 乘 法 回 归 分 析 。(5) 实 际 情 况 允 许 时 可 考 虑 增 加 样 本 含 量 。(6) 进 行 非 参 数 回 归 (Nonparametric Regression) 。5.5.2 多 重 共 线 性 的 识 别 与 处 理多 重 共 线 性 指 自 变 量 问 存 在 线 性 相 关 关 系 , 即 一 个 自 变 量 可 以 用 其 他 一 个 或 几 个 自 变 量 的线 性 表 达 式 进 行 表 示 。 若 存 在 多 重 共 线 性 , 计 算 自 变 量 的 偏 回 归 系 数 B = (X I X) - 1 X IY 时 , 矩 阵(X'X) 不 可 逆 , 导 致 B 存 在 无 穷 多 个 解 或 无 解 。 实 际 运 用 中 多 重 共 线 性 主 要 有 以 下 几 种 类 型 表现 :(1) 整 个 模 型 的 方 差 分 析 检 验 结 果 为 P< α , 但 各 自 变 量 的 偏 回 归 系 数 的 统 计 学 检 验 结 果 却P> α 。(2) 专 业 上 认 为 应 该 有 统 计 学 意 义 的 自 变 量 检 验 结 果 却 无 统 计 学 意 义 。(3) 自 变 量 的 偏 回 归 系 数 取 值 大 小 甚 至 符 号 明 显 与 实 际 情 况 相 违 背 , 难 以 解 释 。(4) 增 加 或 删 除 一 个 自 变 量 或 一 条 记 录 , 自 变 量 偏 回 归 系 数 发 生 较 大 变 化 。以 上 情 况 最 终 使 得 所 得 到 的 线 性 回 归 模 型 , 特 别 是 其 中 的 偏 回 归 系 数 难 以 有 合 乎 专 业 知 识的 解 释 。 对 于 多 重 共 线 性 的 识 别 , 可 以 通 过 Statistics 子 对 话 杠 中 的 Collinearity Diagnostics 复 选杠 予 以 实 现 。 复 选 杠 Collinearity Diagnostics 提 供 以 下 统 计 量 :(1) 容 忍 度 (Tolerance) : 某 自 变 量 的 容 忍 度 等 于 1 减 去 以 该 自 变 量 为 反 应 变 量 , Independentω 杠 中 选 入 的 其 他 自 变 量 为 自 变 量 所 得 到 的 线 性 回 归 模 型 的 决 定 系 数 。 显 然 , 容 忍 度 越 小 , 多重 共 线 性 越 严 重 。 有 学 者 提 出 , 容 忍 度 小 于 0.1 时 , 存 在 严 重 的 多 重 共 线 性 。 从 表 5.14 看 , 可 以认 为 多 重 共 线 性 对 于 例 5. 2 不 是 个 严 重 的 问 题 。(2) 方 差 膨 胀 因 子 (Variance inflation factor, VIF): 等 于 容 忍 度 的 倒 数 。 显 然 , VIF 越 大 , 多重 共 线 性 问 题 越 大 。 一 般 认 为 VIF 不 应 大 于 5 , 对 应 容 忍 度 的 标 准 , 也 可 放 宽 至 不 大 于 10 。(3) 特 征 根 CEigenvalue) : 对 模 型 中 常 数 项 及 所 有 自 变 量 计 算 主 成 分 , 如 果 自 变 量 问 存 在 较强 的 线 性 相 关 关 系 , 则 前 面 的 几 个 主 成 分 数 值 较 大 , 而 后 面 的 几 个 主 成 分 较 小 , 甚 至 接 近 0 。(4) 条 件 指 数 (Condition Index) : 等 于 最 大 的 主 成 分 与 当 前 主 成 分 的 比 值 的 算 术 平 方 根 。 所以 第 一 个 主 成 分 相 对 应 的 条 件 指 数 总 为 1 。 同 样 , 如 果 几 个 条 件 指 数 较 大 ( 如 大 于 30) , 则 提 示存 在 多 重 共 线 性 。• 113 •


表 5. 14 Coefficients aU nstandard ized CoefficientsCollinearity StatisticsIModel B Std. Error Tolera 门 ce VIF(Constant) 123 031工 业 企 业 南 地 -5.223E-05 000 708 才 412运 输 、 批 发 企 业 用 地 000 000 600 才 667零 售 业 JtJ 拙 -.001 .000 才 21 8.297宾 馆 、 餐 快 业 同 地 .013 .002 .131 7.620a. Dependent Variable 固 体 垃 极 排 放 量(5) 变 异 构 成 (Variance Proportion) : 回 归 模 型 中 各 项 ( 包 括 常 数 项 ) 的 变 异 被 各 主 成 分 所 能解 释 的 比 例 , 换 句 话 说 , 即 各 主 成 分 对 模 型 中 各 项 的 贡 献 。 如 果 某 个 主 成 分 对 两 个 或 多 个 自 变 量的 贡 献 均 较 大 ( 如 大 于 o. 们 , 说 明 这 几 个 自 变 量 问 存 在 一 定 程 度 的 共 线 性 。表 5. 15 Collinearity Diagnostics aVariance Propo 内 ionsDime Eigen Conditio 门 工 业 企 运 输 、 批 发 零 售 业 宾 馆 、 餐Model nSlon value Index (Constant) 业 用 地 企 业 同 地 用 地 快 .fr 同 地3.110 1.000 03 02 。 3 01 012 869 1.892 02 45 07 01 013 562 2.353 65 06 20 01 。。4 .4 才 B 2.728 .22 .31 .54 .01 .035 042 8.643 07 16 16 96 96a. De 口 e 门 denl Variable 固 体 垃 r2H1~ 放 量由 表 5.15 可 以 看 出 , 对 于 例 5.2 , 此 时 引 入 的 自 变 量 为 : 宾 馆 、 餐 饮 业 用 地 , 运 输 、 批 发 企 业用 地 , 工 业 企 业 用 地 , 零 售 业 用 地 。 其 中 第 5 个 主 成 分 对 宾 馆 、 餐 饮 业 用 地 , 零 售 业 用 地 的 贡 献 均为 96% , 说 明 这 两 个 变 量 之 间 存 在 一 定 程 度 的 共 线 性 。除 了 Collinearity Diagnostics 复 选 杠 提 供 以 下 统 计 量 外 , 还 可 以 通 过 考 察 自 变 量 间 的 简 单 线性 相 关 系 数 矩 阵 来 判 断 它 们 之 间 是 否 存 在 多 重 共 线 性 。 当 发 现 多 重 线 性 回 归 模 型 中 存 在 多 重 共线 性 时 , 可 通 过 以 下 方 法 予 以 解 决 :(1) 逐 步 回 归 。 使 用 逐 步 回 归 可 以 在 一 定 程 度 上 筛 选 存 在 多 重 共 线 性 的 自 变 量 组 合 中 对 反应 变 量 变 异 解 释 较 大 的 变 量 , 而 将 解 释 较 小 的 变 量 排 除 在 模 型 之 外 。 缺 点 是 当 共 线 性 较 为 严 重时 , 变 量 自 动 筛 选 的 方 法 并 不 能 完 全 解 决 问 题 。(2) 岭 回 归 。 为 有 偏 估 计 , 但 能 有 效 地 控 制 回 归 系 数 的 标 准 误 大 小 , 详 细 介 绍 参 见 第 6 章 。(3) 主 成 分 回 归 。 对 存 在 多 重 共 线 性 的 自 变 量 组 合 提 取 主 成 分 , 然 后 以 较 大 的 ( 如 大 于 1)几 个 主 成 分 与 其 他 自 变 量 一 起 进 行 多 重 线 性 回 归 。 得 出 的 主 成 分 回 归 系 数 再 根 据 主 成 分 表 达 式反 推 出 原 始 自 变 量 的 参 数 估 计 。 此 法 在 提 取 主 成 分 时 丢 失 了 一 部 分 信 息 , 几 个 自 变 量 间 的 多 重• 114 •


共 线 性 越 强 , 提 取 主 成 分 时 丢 失 的 信 息 越 少 。 详 细 介 绍 参 见 主 成 分 分 析 一 章 。(4) 路 径 分 析 。 如 果 对 自 变 量 间 的 联 系 规 律 有 比 较 清 楚 的 了 解 , 则 可 以 考 虑 建 立 路 径 分 析模 型 , 以 进 行 更 深 入 的 研 究 , 详 见 相 关 章 节 。5.6 本 章 小 结5.6.1 回 归 模 型 的 建 立 步 骤回 归 分 析 己 经 被 应 用 得 非 常 广 泛 , 作 为 一 个 严 肃 的 统 计 学 模 型 , 它 有 着 自 己 严 格 的 适 用 条件 , 在 拟 合 时 也 需 要 不 断 进 行 这 些 适 用 条 件 的 判 断 。 但 是 , 许 多 使 用 者 往 往 忽 视 了 这 一 点 , 只 是把 模 型 做 出 来 就 完 了 。 这 不 仅 浪 费 信 息 , 更 有 可 能 得 出 错 误 的 结 果 。 这 里 给 出 一 种 比 较 合 适 的回 归 分 析 操 作 步 骤 , 供 大 家 参 考 。(1) 做 出 散 点 图 , 观 察 变 量 间 的 趋 势 。 如 果 是 多 个 变 量 , 则 还 应 当 做 出 散 点 图 矩 阵 、 重 叠 散点 图 和 三 维 散 点 图 。 具 体 做 法 参 见 绘 图 部 分 。 绘 制 散 点 图 是 线 性 回 归 分 析 之 前 的 必 要 步 骤 , 不能 随 意 省 略 。(2) 考 察 数 据 的 分 布 , 进 行 必 要 的 预 处 理 。 即 分 析 变 量 的 正 态 性 、 方 差 齐 等 问 题 。 并 确 定 是否 可 以 直 接 进 行 线 性 回 归 分 析 。 如 果 进 行 了 变 量 变 换 , 则 应 当 重 新 绘 制 散 点 图 , 以 确 保 线 性 趋 势在 变 换 后 仍 然 存 在 。(3) 进 行 直 线 回 归 分 析 。 这 是 大 家 最 熟 悉 的 一 步 , 包 括 变 量 的 初 筛 、 变 量 选 择 方 法 的 确 定等 , 这 里 不 再 重 复 。(4) 残 差 分 析 。 这 是 模 型 拟 合 完 毕 后 模 型 诊 断 过 程 的 第 一 步 , 主 要 分 析 两 大 方 面 : 残 差 间 是否 独 立 , 可 以 采 用 Durbin-W atson 残 差 序 列 相 关 性 检 验 进 行 分 析 。 残 差 分 布 是 否 为 正 态 , 可 以 采用 残 差 列 表 及 一 些 相 关 指 标 来 分 析 , 但 最 重 要 和 直 观 的 方 法 为 图 示 法 。(5) 强 影 响 点 的 诊 断 及 多 重 共 线 性 问 题 的 判 断 。 这 两 个 步 骤 和 残 差 分 析 往 往 混 在 一 起 , 难以 完 全 分 出 先 后 , 具 体 的 方 法 和 操 作 请 参 见 本 章 相 应 内 容 。只 有 以 上 5步 全 部 通 过 , 研 究 者 才 能 认 为 得 到 的 是 一 个 统 计 学 上 无 误 的 模 型 , 下 一 步 该 做 的事 情 就 是 结 合 专 业 实 际 , 将 分 析 结 果 运 用 到 现 实 中 , 来 看 看 结 果 有 无 实 用 价 值 , 以 及 是 否 存 在 应用 中 的 其 他 问 题 。5.6.2 多 重 线 性 回 归 模 型 结 果 解 释 时 应 注 意 的 问 题(1) 研 究 类 型 。 研 究 类 型 对 于 回 归 模 型 的 结 果 解 释 及 具 体 应 用 而 言 具 有 相 当 重 要 的 意 义 。一 般 地 , 研 究 工 作 可 分 以 下 两 大 类 :4 实 验 CExperiment): 研 究 者 对 感 兴 趣 的 变 量 加 以 控 制 , 通 过 随 机 化 将 其 他 可 能 对 因 变 量 产生 影 响 变 量 在 不 同 亚 群 间 平 衡 掉 。 目 前 学 医 学 统 计 的 人 最 感 兴 趣 的 临 床 试 验 中 就 大 量 地 应 用 了随 机 化 分 组 。 实 验 研 究 的 分 析 结 果 可 以 确 定 变 量 间 的 因 果 关 系 。2 观 察 性 研 究 (Obser 刊 tional Study) : 研 究 者 不 能 对 感 兴 趣 的 变 量 加 以 任 何 控 制 , 而 仅 仅 是观 察 。 事 实 上 有 些 变 量 也 无 法 进 行 控 制 , 例 如 某 研 究 者 想 了 解 某 公 司 员 工 的 薪 酬 与 其 受 教 育 时间 、 工 龄 的 关 系 , 这 些 变 量 都 是 研 究 者 所 不 能 决 定 的 , 如 性 别 , 除 非 强 迫 受 试 者 进 行 变 性 手 术 。 研• 115 •


究 者 所 能 做 的 只 是 忠 于 事 实 的 记 录 , 然 后 对 其 加 以 分 析 。 这 种 研 究 类 型 资 料 的 分 析 结 果 对 确 定因 果 关 系 成 立 与 否 的 说 明 力 明 显 低 于 实 验 研 究 。(2) 背 景 条 件 。 当 今 社 会 发 展 迅 速 , 在 应 用 多 重 线 性 回 归 模 型 进 行 预 测 时 , 要 注 意 不 同 时 间拟 合 模 型 的 背 景 因 素 是 否 仍 保 持 不 变 。 如 20 世 纪 80 年 代 人 们 看 电 视 时 间 与 其 文 化 程 度 、 年 龄之 间 的 关 系 与 现 在 这 些 变 量 间 的 关 系 肯 定 不 一 样 了 , 因 为 现 在 电 视 普 及 率 远 高 于 以 前 。(3) 模 型 中 自 变 量 的 资 料 来 源 。 有 时 对 因 变 量 进 行 预 测 时 , 模 型 中 的 某 些 ( 个 ) 自 变 量 是 通过 另 外 的 途 径 估 计 或 通 过 其 他 模 型 预 测 得 到 的 。 如 在 进 行 每 年 出 生 人 数 预 报 时 , 采 用 的 变 量 之一 是 每 年 的 结 婚 人 数 , 根 据 他 们 在 婚 后 不 同 年 份 生 育 时 间 的 分 布 , 对 第 二 年 出 生 人 数 进 行 预 测 。这 样 出 生 人 数 的 预 测 精 度 将 很 大 程 度 上 依 赖 于 对 来 年 结 婚 人 数 预 测 的 准 确 性 。(4) 进 行 预 测 时 需 保 证 自 变 量 的 取 值 范 围 仍 在 观 测 到 的 取 值 范 围 之 内 , 但 当 自 变 量 数 较 多时 , 这 一 点 常 难 以 确 认 , 有 时 会 有 一 些 似 是 而 非 的 情 况 。 如 图 5. 14 所 示 , 从 町 、 町 的 边 际 分 布 来看 , X il , X i2 分 别 都 在 实 际 观 测 值 的 取 值 范 围 之 内 , 但 点 (X il , X i2 ) 却 不 在 变 量 町 、 町 的 联 合 分 布之 内 :图 5. 14 双 变 量 的 联 合 分 布 图当 仅 有 两 个 自 变 量 时 , 还 能 用 图 形 表 现 出 来 , 但 当 自 变 量 数 为 三 个 及 以 上 , 涉 及 多 维 空 间 时 ,只 能 靠 大 家 自 行 决 定 了 。 一 般 地 , 可 以 将 持 预 测 的 新 记 录 各 自 变 量 取 值 分 别 减 去 它 们 的 均 数 , 如果 符 号 与 这 几 个 自 变 量 的 偏 回 归 系 数 符 号 完 全 相 同 或 完 全 相 反 , 则 问 题 不 大 。 如 果 有 的 相 同 , 有的 相 反 , 则 应 谨 慎 从 事 , 很 可 能 就 会 出 现 图 5. 14 所 示 的 情 况 。总 之 , 建 立 一 个 " 完 美 " 的 多 重 线 性 回 归 是 一 个 需 要 反 复 进 行 的 过 程 , 不 能 指 望 一 蹦 而 就 。思 考 与 练 习1. 试 对 SPSS 白 带 数 据 库 Plastic 进 行 统 计 分 析 , 以 extram 、 additive 、 gloss 、 opacity 为 自 变 量 , 以 tear res 为 反 应变 量 建 立 合 适 的 多 重 线 性 回 归 模 型 。2. 对 上 面 逐 步 回 归 的 分 析 实 例 进 行 深 入 分 析 , 首 先 分 别 考 察 因 变 量 / 白 变 量 的 分 布 特 征 , 然 后 对 所 建 立 的回 归 模 型 进 行 残 差 分 析 , 考 察 数 据 是 否 符 合 线 形 回 归 的 要 求 , 数 据 中 有 无 强 影 响 点 。 并 借 此 来 理 解 残 差 分 析 的重 要 性 。• 116 •


参 考 文 献1 John Neter, Michael H. Kutner, Christopher J. Nachtsheim, etc. Applied Linear Statistical Models. McGraw-Hill, 19962 SPSSR 12.0 Command Syntax Reference. SPSS Company. Chicago, <strong>Il</strong>linois , 20033 Richard Johnson 著 . 实 用 多 元 统 计 分 析 . 陆 璇 译 . 北 京 : 清 华 大 学 出 版 社 , 20014 陈 峰 . 医 用 多 元 统 计 分 析 方 法 . 北 京 : 中 国 统 计 出 版 社 , 20005 曹 素 华 主 编 . 实 用 医 学 多 因 素 统 计 方 法 . 上 海 : 上 海 医 科 大 学 出 版 社 , 19986 金 主 焕 主 编 . 医 用 统 计 方 法 . 第 二 版 . 上 海 : 复 旦 大 学 出 版 社 , 2003• 117 •


第 6 章 线 性 回 归 的 衍 生 模 型在 第 5 章 中 学 习 了 多 重 线 性 回 归 模 型 , 并 从 中 得 知 该 模 型 有 自 身 的 使 用 条 件 , 如 线 性 关 联 、残 差 正 态 性 等 。 但 是 , 在 实 际 分 析 项 目 中 数 据 往 往 不 会 很 好 的 服 从 以 上 假 定 , 此 时 就 需 要 对 数 据加 以 变 换 使 之 符 合 模 型 需 求 , 或 者 对 模 型 加 以 改 进 使 之 能 处 理 相 应 的 数 据 , 总 之 这 是 一 个 双 向 的努 力 过 程 。 本 章 就 向 大 家 介 绍 一 些 SPSS 直 接 提 供 的 一 些 基 于 线 性 回 归 的 衍 生 模 型 , 它 们 均 可 用于 处 理 违 反 线 性 回 归 的 某 些 使 用 条 件 的 数 据 。6.1 非 直 线 趋 势 的 处 理 曲 线 直 线 化6. 1. 1 方 法 简 介在 多 重 线 性 回 归 中 , 各 自 变 量 和 因 变 量 之 间 均 应 呈 线 性 关 联 趋 势 。 这 应 当 是 线 性 回 归 的 几 个适 用 条 件 中 最 为 重 要 , 也 最 容 易 进 行 核 查 的 一 个 了 。 分 析 者 可 以 在 事 前 用 散 点 图 进 行 观 察 , 也 可 以在 模 型 拟 合 完 毕 后 对 残 差 进 行 分 析 。 当 该 条 件 被 违 反 时 , 就 必 须 要 采 取 相 应 的 处 理 措 施 。 其 中 最简 单 和 常 用 的 方 法 就 是 曲 线 直 线 化 , 其 基 本 原 理 是 将 变 量 进 行 变 换 , 从 而 将 曲 线 方 程 化 为 直 线 回 归方 程 进 行 分 析 。 例 如 通 过 查 阅 文 献 或 者 观 察 散 点 图 , 研 究 者 发 现 两 变 量 的 联 系 可 能 如 下 :y= α + b/χ其 中 α 和 b 均 为 待 估 参 数 , 则 分 析 时 可 设 变 量 z = l/x , 从 而 将 该 方 程 转 化 为 :y= α + b Xz通 过 对 该 方 程 进 行 标 准 的 线 性 回 归 分 析 , 就 可 以 得 到 相 应 参 数 的 估 计 值 。下 面 以 实 例 对 SPSS 中 曲 线 直 线 化 的 操 作 加 以 说 明 。6. 1. 2 使 用 Linear 过 程 进 行 分 析例 6. 1 根 据 文 献 资 料 , 随 着 通 风 时 间 的 增 加 , 密 闭 空 间 内 污 染 物 的 浓 度 应 当 里 指 数 方 程 下降 。 现 考 察 某 通 风 设 备 的 换 气 效 果 , 在 室 内 放 置 了 某 种 挥 发 性 物 质 ( 模 拟 毒 物 ) , 符 其 充 分 分 散到 室 内 空 气 中 后 开 始 通 风 , 每 一 分 钟 测 量 一 次 室 内 空 气 中 的 毒 物 浓 度 , 试 建 立 时 间 与 空 气 中 毒 物浓 度 的 指 数 方 程 , 数 据 见 curve. savo首 先 还 是 按 照 标 准 操 作 步 骤 , 绘 制 出 通 风 时 间 和 空 气 中 毒 物 浓 度 的 散 点 图 如 图 6. 1 所 示 , 从图 6. 1 中 可 见 , 通 风 时 间 和 毒 物 浓 度 存 在 着 较 明 显 的 联 系 , 但 不 是 直 线 关 联 , 而 是 曲 线 关 联 。 根据 文 献 , 己 生 日 两 者 应 当 里 指 数 关 系 , 即 己 有 明 确 的 方 程 y= α × eb × tune , 按 此 方 程 进 行 拟 合 即 可 。但 是 , 该 如 何 操 作 ? 最 简 单 的 思 路 就 是 首 先 对 方 程 两 侧 均 取 自 然 对 数 :• 118 •


2.52.01.51.01!ð主 0.5附口 口口 口0.0 o 2 4 6通 风 时 阐 ( 分 )口 口 口 口8 10 12 14E这 样 , 如 果 将 ln图 6.1 通 风 时 间 和 空 气 中 毒 物 浓 度 的 散 点 图lny=ln α+ b x timey 看 成 是 新 的 因 变 量 , 将 lnα 看 成 是 新 的 常 数 项 , 则 只 需 要 拟 合 相 应 的 直 线方 程 , 即 可 得 到 相 应 的 参 数 估 计 值 。这 里 就 采 用 上 述 思 路 进 行 操 作 , 首 先 对 因 变 量 y 去 自 然 对 数 , 随 后 直 接 拟 合 线 性 回 归 方 程 ,模 型 的 主 要 输 出 参 见 表 6. 1表 6. 1 Model SummaryAdjusted R Std. Error ofR R Square Square Ihe Estimale980 a .961 .958 .29876a. Predictors: (Cons 回 nt). 通 风 时 间 ( 分 )变 换 后 变 量 的 直 线 回 归 方 程 决 定 系 数 为 0.96 1, 显 然 , 拟 合 效 果 相 当 的 好 。表 6.2ANOVA bModelSum of Squar 芭 SRegression 28.588dfMean Square28.588F320.287Sig000 日Residual才 16013089Toial29.74914a. Prediclors: (Constan 的 , 通 叫 时 间 ( 分 )bO e 口 endenl Variable: LNY对 变 换 后 变 量 所 拟 合 的 模 型 进 行 的 方 差 分 析 结 果 表 明 , 该 模 型 是 有 统 计 学 意 义 的 , 可 参 见 表 6.2 。最 后 得 到 的 是 模 型 中 各 参 数 的 估 计 值 和 检 验 结 果 , 参 见 表 6.3 , 可 见 常 数 项 和 回 归 系 数 均 不等 于 0 , 由 此 可 以 写 出 相 应 的 回 归 方 程 如 下 :ln Ý = 1. 271 - O. 32 x time将 该 方 程 进 行 反 变 换 , 则 可 得 到 原 始 变 量 的 预 测 方 程 如 下 :ý = 3. 564 x time -0. 32• 119 •


表 6. 3 Coefficients aModel(Constant)BUnstandardizedCoefficients1.271Std. Error162StandardizedCoefficientsBeta7.831江nunununu通 风 时 间 ( 分 )-.320018980-17.897aDe 口 endent Variable: LNYep e L271 =3.564o6. 1. 3 使 用 曲 线 拟 合 过 程 分 析曲 线 关 联 是 经 常 会 遇 到 的 问 题 , 为 了 方 便 用 户 使 用 , 避 免 总 是 进 行 类 似 的 变 量 变 换 工 作 , SPSS将 一 些 常 用 的 曲 线 方 程 集 成 到 了 一 个 统 一 的 过 程 中 , 即 Curve Fit 过 程 , 用 户 如 果 需 要 拟 和 相 应 的 曲线 , 只 需 将 原 始 变 量 选 入 , 并 指 定 曲 线 种 类 , SPSS就 会 在 后 台 自 动 进 行 变 量 变 换 , 并 将 得 到 的 模 型方 程 变 换 回 用 原 始 变 量 表 示 的 方 式 。 下 面 就 使 用 该 过 程 对 例 6.1 进 行 分 析 , 操 作 如 下 :: Analyze-→ Regression 一 +Curve Estimation!Dependent 杠 : y! Independent 杠 : time! Models : Linear 、 Exponentiall 困Display ANOV A table曲 线 拟 合 过 程 的 主 对 话 杠 如 图 6.2所 示 , 其 中 可 以 选 入 多 个 因 变 量 , 系 统 会 依 次 拟 合 多 个 单图 6.2曲 线 拟 合 过 程 的 主 对 话 框• 120 •


因 变 量 模 型 ; 自 变 量 则 只 能 选 入 一 个 , 也 可 以 选 择 时 间 作 为 自 变 量 , 如 果 这 样 做 , 则 所 用 的 数 据 应为 时 间 序 列 数 据 格 式 。 例 6. 1 要 求 输 出 方 差 分 析 表 , 目 的 是 和 前 面 的 结 果 相 对 照 。结 果 输 出 的 标 题 为 "Curve Fit" , 具 体 内 容 如 下 :首 先 给 出 的 方 杠 中 的 文 本 是 相 应 模 型 的 负 相 关 系 数 、 决 定 系 数 、 校 正 后 的 决 定 系 数 等 , 和 前面 变 换 后 变 量 所 拟 合 的 线 性 回 归 分 析 的 决 定 系 数 等 相 比 , 就 会 发 现 实 际 上 是 一 回 事 。MODEL: MOD 1.Dependent variable. . YMethod.. EXPONENTListwise Deletion of Missing DataMultiple R . 98030R Square . 96099Adjusted R Square . 95799Standard Error . 29876接 下 来 的 方 杠 输 出 的 是 对 模 型 整 体 的 方 差 分 析 结 果 , 对 照 可 知 , 也 和 前 面 完 全 相 同 。Analysis of Variance:DF Su 日 1 of Squares Mean SquareRegression 28. 588458 28.588458Residuals 13 1. 160366 .089259F= 320.28691 Signif F = . 0000随 后 给 出 的 方 杠 中 的 文 本 也 是 模 型 中 各 参 数 的 估 计 值 和 检 验 结 果 , 虽 然 输 出 顺 序 略 有 不 同 ,比 如 此 处 的 常 数 项 为 3.5650 但 由 于 e 1. 271 = 3.564 , 可 知 唯 一 的 区 别 在 于 此 处 输 出 的 是 原 始 方 程的 系 数 , 末 位 误 差 仅 是 手 工 计 算 时 的 四 舍 五 入 所 至 , 结 果 实 际 上 和 前 面 完 全 相 同 。一 一 一 一 一 一 一 一 一 一 一 一 - Variables in the Equation一 一 一 一 一 一 一 一VariableTIME(Constant)B SE B一 .319533 .0178543.565262 .578767Beta T Sig T一 . 980303 - 17. 897 . 00006.160 .0000最 后 给 出 的 是 实 测 值 和 模 型 预 测 值 相 对 照 的 线 图 , 如 图 6. 3 所 示 , 可 见 模 型 的 拟 合 效 果 还 是 比较 好 的 。 但 是 在 浓 度 较 高 的 部 分 似 乎 预 测 值 有 些 偏 高 , 对 该 问 题 的 深 入 讨 论 详 见 下 一 章 。由 两 种 方 法 的 分 析 结 果 对 照 可 知 , 曲 线 拟 合 实 际 上 就 是 进 行 了 曲 线 直 线 化 的 分 析 , 两 者 没 有任 何 区 别 。• 121 •


图 6. 3 实 测 值 和 模 型 预 测 值 相 对 照 的 线 图曲 线 拟 合 过 程 中 还 提 供 了 Save子 对 话 框 , 可 存 储 预 测 值 、 残 差 、 可 信 区 间 等 , 读 者 参 照 线 性回 归 对 话 杠 中 的 相 应 内 容 即 可 理 解 , 这 里 不 再 详 述 。除 指 数 曲 线 外 , 曲 线 拟 合 过 程 还 提 供 了 其 他 一 些 常 用 的 曲 线 模 型 , 共 有 以 下 11 种 : Linear: 拟 合 直 线 方 程 , 实 际 上 与 Linear 过 程 的 二 元 直 线 回 归 相 同 。 Quadratic: 拟 合 二 次 方 程 Y = bo + b]X + b 2 X 2 0 Compound: 拟 合 复 合 曲 线 模 型 Y= b o x 肘 。 Growth: 拟 合 等 比 级 数 曲 线 模 型 Y = e Cbo+b)X) Logarithmic: 拟 合 对 数 方 程 Y = b o + b]ln X 0 Cubic: 拟 合 二 次 方 程 Y = b o + b]X + b 开 2 + b3X3 。 S: 拟 合 S 形 曲 线 Y = e Cbo+b)/X) 。 Exponential: 拟 合 指 数 方 程 Y= 斗 boe 旷 JTJf〈 令 > Inverse: 数 据 按 Y=b o +b]/X 进 行 变 换 。 Power: 拟 合 乘 事 曲 线 模 型 Y=boX 句 。 Logistic: 拟 合 Logistic 曲 线 模 型 Y = 11 C1 /u + b o x b~) , 该 线 型 要 求 输 入 上 界 。所 有 曲 线 模 型 的 拟 和 方 法 其 本 质 均 为 先 进 行 曲 线 直 线 化 , 随 后 进 行 模 型 拟 合 , 最 后 将 模 型 表达 式 转 换 回 原 始 变 量 的 表 达 方 式 。6.2 万 差 不 齐 的 处 理 加 权 最 小 二 乘 法6.2.1 方 法 简 介标 准 的 线 性 回 归 模 型 假 设 在 所 研 究 的 整 个 总 体 中 方 差 是 恒 定 的 , 即 因 变 量 的 变 异 不 随• 122 •


自 身 预 测 值 或 者 其 他 自 变 量 值 的 变 化 而 变 动 。 但 是 在 有 的 研 究 问 题 中 , 这 一 假 设 可 能 被 违反 , 因 变 量 的 变 异 会 明 显 随 着 某 些 指 标 的 改 变 而 改 变 , 这 可 以 是 因 变 量 的 变 异 随 自 身 数 值增 大 而 增 大 , 也 可 以 是 随 其 他 变 量 值 而 改 变 。 例 如 在 金 融 分 析 中 研 究 通 货 膨 胀 和 失 业 率 对股 票 价 格 的 影 响 , 由 于 高 价 股 票 位 置 较 高 , 股 价 有 足 够 的 波 动 空 间 , 而 且 炒 作 的 人 较 多 , 因此 其 股 价 的 波 动 一 般 都 会 大 于 低 价 股 票 。 又 如 以 地 区 为 观 察 单 位 调 查 某 种 疾 病 的 发 生 率 ,由 于 发 生 率 的 标 准 差 本 身 就 和 样 本 量 有 关 , 显 然 该 地 区 的 人 数 越 多 , 所 得 到 的 发 生 率 就 会越 稳 定 , 即 变 异 度 越 低 。 在 这 些 情 况 下 , 如 果 采 用 普 通 的 最 小 二 乘 法 (OLS) 来 分 析 , 就 使 得结 果 会 主 要 受 变 异 较 大 的 数 据 的 影 响 , 从 而 可 能 发 生 偏 差 。 而 如 果 能 够 根 据 变 异 的 大 小 对相 应 数 据 给 予 不 同 的 权 重 , 在 拟 合 时 对 变 异 较 小 ( 即 测 量 更 精 确 ) 的 测 量 值 赋 予 较 大 的 权重 , 则 能 够 提 高 模 型 的 精 度 , 达 到 更 好 的 预 测 效 果 。除 方 差 波 动 外 , 另 外 一 种 情 况 是 根 据 分 析 目 的 人 为 照 顾 某 些 样 本 数 据 , 最 常 见 于 实 验 室 研 究 中绘 制 标 准 曲 线 的 问 题 。 由 于 标 准 曲 线 所 涉 及 的 浓 度 范 围 往 往 较 宽 , 而 样 品 测 试 的 绝 对 误 差 往 往 又是 随 浓 度 增 大 而 增 大 的 , 如 果 以 普 通 OLS 加 以 拟 合 , 必 然 会 导 致 标 准 曲 线 在 高 浓 度 区 域 内 精 度 较高 , 而 在 低 浓 度 区 域 内 准 确 性 明 显 下 降 。 另 一 方 面 , 标 准 曲 线 更 重 视 的 是 相 对 误 差 而 不 是 绝 对 误差 , 而 不 同 浓 度 区 域 内 的 相 对 误 差 和 绝 对 误 差 往 往 远 远 不 成 比 例 , 例 如 浓 度 在 100 ng/ml 时 ,5 ng/ml 的 误 差 仅 使 其 相 对 误 差 达 到 5%; 而 当 浓 度 为 1 nglml 时 , 相 对 误 差 则 达 到 了 500% 。 显 然 ,为 了 保 证 曲 线 精 度 , 必 须 要 在 拟 合 时 对 低 浓 度 数 据 给 予 较 高 的 权 重 。为 了 解 决 上 述 为 不 同 测 量 值 给 予 不 同 权 重 的 问 题 , SPSS专 门 提 供 了 加 权 最 小 二 乘 法(WLS) , 它 可 以 根 据 用 户 提 供 的 权 重 变 量 的 大 小 为 不 同 的 数 据 赋 予 不 同 的 权 重 , 从 而 有 效 地 平衡 了 不 同 变 异 数 据 的 影 响 。 但 是 需 要 指 出 的 是 , 加 权 最 小 二 乘 法 是 一 种 有 偏 估 计 , 如 果 变 异 程 度实 际 上 并 无 波 动 , 或 选 择 了 错 误 的 变 量 用 于 预 测 变 异 程 度 , 则 它 的 拟 合 结 果 不 如 普 通 最 小 二 乘 法准 确 。 因 此 在 使 用 上 应 比 较 慎 重 。下 面 使 用 两 个 分 析 实 例 来 学 习 如 何 在 SPSS 中 实 现 本 方 法 。6.2.2 使 用 Linear 过 程 进 行 分 析例 6. 2 实 验 中 收 集 的 15 对 数 据 , 每 对 数 据 都 是 将 n 份 样 品 混 合 后 测 得 的 平 均 结 果 , 但 各对 数 据 的 n 大 小 不 等 , 试 求 出 X 对 Y 的 直 线 回 归 方 程 , 数 据 见 文 件 wls. savo ( 郭 祖 超 ,


表 6. 5 Coefficients aUnstandardizedCoefficienlsStandardizedCoefficienlsModelBStd. ErrorBela(Constant)7.45417343.143X-.0 才 5001-.987-22.468a.De 口 endent Variable. y仁 , 1 份 样 品 的 测 量 结 果 和 15 份 样 品 混 合 后 的 测 量 结 果 等 价 对 待 , 这 显 然 不 太 合 理 。 为 此可 以 考 虑 在 分 析 中 将 样 品 数 n 作 为 权 重 变 量 , n 越 大 的 测 量 { 直 在 计 算 中 给 予 的 权 重 越 高 , 对方 程 的 影 响 越 大 , 即 按 照 加 权 最 小 二 乘 法 来 拟 和 回 归 方 程 。Linear 过 程 中 可 以 直 接 指 定 权 重 变 量 以 实 现 加 权 最 小 二 乘 法 , 本 例 的 操 作 如 下 :: Analyze• Regression• LineariDependent 杠 :Yi Independent 杠 :XiWLS Weight 杠 :nl 回在 SPSS 11. 5 及 更 早 的 版 本 中 , WLS 杠 默 认 是 隐 藏 的 , 需 要 首 先 单 击 左 下 角 的 WLS 按 钮 扩展 对 话 框 , 12 版 中 则 直 接 可 以 使 用 。 本 例 使 用 力 日 权 法 后 的 分 析 结 果 参 见 表 6.6 和 表 6.70表 6.6Model SummaryAdjusled R Std. Error ofModel R R Square Square Ihe Eslimale982 3 .965 .962 .29365a. Predictors. (Constant) , X表 6 , 7 Coefficients a,bUnstandardizedCoefficienlsStandardizedCoefficienlsModelBStd. ErrorBeta(Con 剖 ant)7.19018838.316X -014a. Dependent Variable: yb Weighled Leasl Squares Regression - Weighted by n001 -.982-18.816由 表 6. 6 和 表 6. 7 可 见 , 常 数 项 和 回 归 系 数 的 估 计 值 均 有 改 变 , 而 决 定 系 数 则 由 原 先 的0.975 降 低 为 0.9650 由 于 决 定 系 数 等 是 按 照 普 通 最 小 二 乘 法 进 行 计 算 , 因 此 加 权 后 的 方 程 决 定• 124 •


系 数 必 然 会 小 于 普 通 最 小 二 乘 法 , 即 此 时 不 能 使 用 决 定 系 数 等 来 判 断 模 型 的 优 劣 。 对 本 例 可 绘制 普 通 最 小 二 乘 法 和 加 权 最 小 二 乘 法 的 回 归 直 线 加 以 比 较 , 如 图 6.4 所 示 , 加 权 方 法 的 直 线 更 靠近 中 部 那 些 混 合 样 品 数 n 较 大 的 测 量 值 , 而 对 两 端 n 较 小 的 测 量 值 则 比 普 通 回 归 直 线 更 远 一 些 ,显 然 这 些 测 量 值 在 计 算 时 对 方 程 的 影 响 程 度 是 不 同 的 。图 6.4普 通 最 小 二 乘 法 和 加 权 最 小 二 乘 法 的 回 归 直 线事 实 上 , 如 果 使 用 Weight Case 过 程 将 n 指 定 为 频 数 变 量 , 然 后 进 行 普 通 的 直 线 回 归 分 析 , 得到 的 分 析 结 果 和 上 述 加 权 最 小 二 乘 法 完 全 相 同 , 这 可 以 帮 助 读 者 深 入 理 解 权 重 这 一 概 念 。6.2.3 使 用 WLS 过 程 分 析在 上 面 的 例 子 中 权 重 的 大 小 有 明 确 的 表 达 , 但 有 时 权 重 的 大 小 并 不 十 分 明 确 , 需 要 在 数 据 拟合 时 加 以 搜 索 。 SPSS 为 此 提 供 了 WLS 过 程 未 完 成 更 为 复 杂 的 加 权 最 小 二 乘 分 析 。作 如 下 :下 面 就 采 用 Weight Estimation 过 程 来 对 例 6.2 进 行 分 析 , 并 将 结 果 和 标 准 做 法 相 比 较 。 操: Analyze-→ Regression 一 +W eight EstimationiDependent 杠 :Yi Independent 杠 :X:Weight Variable 杠 :nl 困可 见 基 本 的 操 作 和 前 面 基 本 没 有 区 别 , 分 析 中 用 到 的 操 作 界 面 如 图 6. 5 所 示 , 在 主 对 话 杠 中唯 一 比 较 特 殊 的 是 Weight Variable 框 , 它 用 于 选 入 一 个 权 重 变 量 , 系 统 将 按 照 1I( 权 重 变 量 )power 来 对 每 条 记 录 进 行 加 权 , 具 体 的 指 数 取 值 范 围 在 下 方 的 Power Range 杠 中 指 定 。 PowerRange 杠 和 Weight variable 杠 结 合 起 来 使 用 , 用 于 定 义 权 重 变 量 的 指 数 , 默 认 范 围 是 一 2 ~2 , 步 长。 .5 , 即 将 拟 合 指 数 分 别 为 一 2 、 一 1. 5 、 一 1 、 -0.5 、 0 、 o. 5 、 1 、1. 5 , 2 的 一 共 9 个 方 程 , 最 后 从 中 选 取• 125 •


效 果 最 佳 ( 对 数 似 然 值 最 大 ) 的 一 个 。 指 数 范 围 和 步 长 均 可 以 更 改 , 但 可 拟 合 的 方 程 总 数 应 限 制在 150 个 以 内 。图 6.5 , 万 LS 过 程 的 主 对 话 框例 6. 2 的 结 果 输 出 标 题 为 "Weighted Least Squares" , 具 体 内 容 如 下 :MODEL: MOD 2.Source variable.. nLog 一 likelihood Function = 11. 564660 POWER value = 一 2.000Log 一 likelihood Function = 13. 182434 POWER value = 一 1. 500Log 一 likelihood Function = 13.882671 POWER value = 一 1.000Log 一 likelihood Function = 13.496335 POWER value = 一 .500Log 一 likelihood Function = 12.381867 POWER value = .000Log 一 likelihood Function = 11. 099010 POWER value = .500Log 一 likelihood Function = 9.687088 POWER value = 1.000Log 一 likelihood Function = 7.786538 POWER value = 1. 500Log 一 likelihood Function = 5.277012 POWER value = 2.000The Value of POWER Maximizing Log 一 likelihood Function = - 1. 000例 6.2的 分 析 结 果 给 出 了 按 照 设 定 步 长 给 出 的 每 个 值 数 值 所 对 应 公 式 的 对 数 似 然 值 , 可 见指 数 为 一 1 时 对 数 似 然 值 达 到 最 大 , 因 此 最 终 确 定 指 数 值 为 一 10 即 权 重 函 数 为 1/ (n) -1 = n , 这和 数 据 的 实 际 情 况 完 全 重 合 !接 下 来 方 杠 中 的 文 本 为 模 型 总 的 拟 合 结 果 , 首 先 显 示 的 是 权 重 变 量 、 权 重 指 数 值 、 因 变 量 名和 缺 失 值 列 表 , 随 后 是 复 相 关 系 数 R 、 决 定 系 数 匠 、 调 整 的 决 定 系 数 和 复 相 关 系 数 的 标 准 误 。• 126 •


Source variable. . n POWER value = -1. 000Dependent variable. .yListwise Deletion of Missing DataMultiple RR SquareAdjusted R SquareStandard Error.98213.96458.96186.29365接 下 来 方 杠 中 的 文 本 为 模 型 的 方 差 分 析 表 , 可 见 该 模 型 有 统 计 学 意 义 。Analysis of Variance:RR ee Hhucmm 几 su 创 OnM〕 L配晴DF Sum of Squares Mean Square11咽 、E 3A30.529841 30.5298411.120982 .086229F = 354. 05393Signif F = .0000接 下 来 方 杠 中 的 文 本 提 供 了 各 个 系 数 的 检 验 结 果 , 可 见 变 量 X 具 有 统 计 学 意 义 。一 一 一 一 一 一 一 - Variables in the Equation一 一 一 一 一 一 一 一 一Variable B SE B Beta T Sig Tx 一 .014027 .000745 一 .982132 - 18. 816 .0000(Constant) 7. 189914 . 187648 38.316 .0000Log 一 likelihood Function = 13.882671例 6. 2 因 为 比 较 简 单 , 所 以 WLS 过 程 的 分 析 结 果 和 前 面 使 用 Linear 过 程 的 结 果 完 全 相 同 ,但 是 在 更 为 复 杂 的 问 题 中 , 则 WLS 搜 索 出 的 最 佳 权 重 可 能 会 有 所 改 变 。6.3 共 线 性 的 处 理 岭 同 归6.3.1 方 法 简 介上 一 章 对 多 重 共 线 性 问 题 作 了 初 步 介 绍 , 读 者 己 经 明 确 当 自 变 量 问 存 在 明 显 共 线 性 时 是 不• 127 •


能 直 接 使 用 最 小 二 乘 法 进 行 回 归 分 析 的 , 必 须 采 用 相 应 的 手 段 来 处 理 。 岭 回 归 就 是 一 种 专 门 用于 共 线 性 数 据 分 析 的 有 偏 估 计 回 归 方 法 , 它 实 际 上 是 一 种 改 良 的 最 小 二 乘 法 , 通 过 放 弃 最 小 二 乘法 的 无 偏 性 , 以 损 失 部 分 信 息 、 降 低 精 度 为 代 价 来 寻 求 效 果 稍 差 但 回 归 系 数 更 符 合 实 际 的 回 归 方程 。 故 岭 回 归 所 得 剩 余 标 准 差 比 最 小 二 乘 回 归 者 要 大 。 但 这 样 一 来 , 它 对 病 态 数 据 的 耐 受 性 就远 远 强 于 最 小 二 乘 法 。岭 回 归 的 原 理 较 为 复 杂 , 这 里 不 得 不 引 入 一 些 数 理 统 计 公 式 : 当 自 变 量 问 存 在 共 线 性 时 , 自变 量 的 相 关 矩 阵 之 行 列 式 就 近 似 为 0 , 或 称 奇 异 的 CSi 吨 ular) 。 此 时 , X'X 也 是 奇 异 的 。 但 如 果将 X'X 加 上 正 常 数 矩 阵 kJ, 则 X'X + kJ 的 奇 异 性 就 会 比 X'X 有 所 改 善 。 因 而 , 可 望 用 ÎJ Ck) =CX'X + kJ) -lX'Y 作 为 回 归 系 数 的 估 计 值 , 此 值 比 最 小 二 乘 估 计 稳 定 。 称 企 Ck) 为 回 归 系 数 的 岭估 计 。 显 然 , 当 k =0 时 , 企 Ck) 就 退 化 为 最 小 二 乘 估 计 ; 而 当 k→∞ 时 , 企 Ck) 就 趋 于 0 。 因 此 , k 不宜 太 大 。 但 是 , 由 于 k 的 选 择 是 任 意 的 , 岭 回 归 分 析 时 一 个 重 要 的 问 题 就 是 k 取 多 少 合 适 。 由 于岭 回 归 是 有 偏 估 计 , k 值 不 宜 太 大 ; 而 且 一 般 来 说 我 们 希 望 能 尽 量 保 留 信 息 , 即 尽 量 能 让 k 小 些 。因 此 可 以 观 察 在 不 同 k 的 取 值 时 方 程 的 变 动 情 况 , 然 后 取 使 得 方 程 基 本 稳 定 的 最 小 k 值 。SPSS中 没 有 为 岭 回 归 分 析 提 供 对 话 杠 界 面 , 但 为 之 编 制 了 一 套 完 整 的 宏 程 序 , 名 为 RidgeRegression. sps , 就 放 在 SPSS 的 安 装 路 径 之 中 , 它 的 调 用 方 式 如 下 ::INCLUDE I SPSS 所 在 路 径 \Ridge:ridgereg enter = 自 变 量 列 表/dep = 因 变 量 名/start = K 值 起 始 值 , 默 认 为 O/stop = K { 直 终 止 值 , 默 认 为 1/inc = K 值 搜 索 步 长 , 默 认 为 0.05Regression. sps I •/k = 允 许 搜 索 的 K 值 个 数 , 默 认 为 999.在 程 序 中 首 先 应 当 使 用 INCLUDE 命 令 读 入 该 宏 程 序 , 然 后 使 用 ridgereg序 中 凡 有 默 认 值 的 都 可 以 不 进 行 设 定 。 最 后 的 " " 表 示 整 个 语 句 结 束 , 不 能 遗 漏 。名 称 调 用 , 注 意 程6.3.2 分 析 实 例下 面 通 过 实 例 来 学 习 在 SPSS 中 如 何 进 行 岭 回 归 分 析 。例 6.3 现 测 得 22 例 胎 儿 的 身 长 、 头 围 、 体 重 和 胎 儿 受 精 周 龄 , 具 体 数 据 见 文 件 ridgereg. sav 。 研究 者 希 望 能 建 立 由 前 三 个 外 形 指 标 推 测 胎 儿 周 龄 的 回 归 方 程 。( 陈 峰 《 医 用 多 元 统 计 分 析 方 法 >> P46)从 分 析 问 题 的 实 质 看 , 这 是 一 个 较 为 典 型 的 回 归 分 析 。 同 时 根 据 医 学 常 识 , 显 然 身 长 、 头 围 、体 重 三 者 均 反 映 的 是 胎 儿 的 生 长 发 育 状 况 , 它 们 应 当 和 受 精 周 龄 间 存 在 着 明 确 的 正 相 关 关 系 。但 是 , 由 于 三 个 变 量 问 存 在 着 较 强 的 共 线 性 ( 因 为 它 们 反 映 的 都 是 生 长 发 育 状 况 这 一 个 " 因子 ") , 直 接 进 行 回 归 分 析 会 得 到 违 背 医 学 常 识 的 分 析 结 果 参 见 表 6.80显 然 , 除 了 身 长 的 回 归 系 数 尚 合 理 外 , 头 围 和 体 重 的 回 归 系 数 明 显 无 法 解 释 。 出 现 该 问 题 的原 因 需 要 从 回 归 模 型 中 系 数 的 含 义 来 理 解 。 例 如 头 围 的 系 数 代 表 的 是 控 制 了 其 他 自 变 量 的 影 响后 头 围 改 变 对 周 龄 在 数 量 上 的 影 响 程 度 。 现 在 , 由 于 第 一 个 变 量 身 长 代 表 的 也 是 发 育 状 况 , 将 其控 制 实 际 上 就 意 味 着 方 程 己 经 把 生 长 发 育 的 影 响 全 部 扣 除 了 , 从 而 随 后 计 算 的 头 围 回 归 系 数 反• 128 •


映 的 实 际 上 是 除 了 生 长 发 育 外 , 剩 余 的 " 头 围 " 信 息 中 其 他 因 素 的 影 响 程 度 。 显 然 , 该 回 归 系 数己 经 不 是 我 们 希 望 得 到 的 东 西 了 。表 6 . 8 Coefficients aUnstandardizedCoefficienlsModel B Sld_ Error(Constant) 11. 0121.718StandardizedCoefficienlsBela6.408Sig000身 长 (cm)1_6933702_3934_580000头 围 (cm)-2_159536-2_156-4_03 才00 才体 重 (g).007.001.7516.531000a Dependent Variable胎 儿 受 精 周 龄为 了 解 决 例 6.2中 因 自 变 量 共 线 性 而 带 来 的 系 数 不 合 理 问 题 , 这 里 采 用 SPSS 进 行 岭 回 归 分析 , 相 应 的 程 序 如 下 :INCLUDE I d:\spsswm\Ridge Regression. sps I •ridgereg enter = long touwei weight/dep = y/inc =0.01.注 意 在 INCLUDE 语 句 中 , 读 者 应 当 将 宏 程 序 路 径 设 定 为 自 己 机 器 上 SPSS择 菜 单 Run→All , 运 行 上 述 程 序 , 结 果 窗 口 中 就 会 给 出 相 应 的 分 析 结 果 如 下 :的 安 装 目 录 。 选R - SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF KK RSQ LONG TOUWEI WEIGHT.00000 .97542 2.393471 一 2. 15574 .751090.01000 .95864 .607980 一 .283630 .657896.02000 .95430 .426266 一 .064358 .616119.03000 .95209 . 363391 .026211 .584518.04000 .95055 .333852 .077547 .558977.05000 .94932 .317746 . 111300 .537699.06000 .94827 .308130 . 135457 .519612.07000 .94734 .302014 . 153711 .503999.08000 .94649 .297930 . 168027 .490351.09000 .94569 .295087 . 179562 .478294.10000 .94494 .293032 . 189047 .467544岭 回 归 分 析 中 的 运 行 结 果 为 不 同 k值 时 决 定 系 数 和 各 变 量 系 数 的 变 化 情 况 , 注 意 岭 回 归 在计 算 时 首 先 会 对 全 部 变 量 进 行 标 准 化 , 故 输 出 中 只 会 给 出 各 ( 标 化 ) 回 归 系 数 , 而 不 存 在 常 数 项 。• 129 •


为 方 便 起 见 , 这 里 只 列 出 了 前 10 行 结 果 。 可 见 当 k = O. 04 ~ O. 06 时 , 回 归 系 数 开 始 趋 于 稳 定 。如 选 择 k =0. 05 , 则 三 个 变 量 的 系 数 分 别 为 0.317746 、 O. 1 113 和 0.537 699 , 可 写 出 方 程 如 下 :zy =0.311 746 xzlong +0.111 3 xztouwei +0. 537 699 xzweight相 应 的 决 定 系 数 为 0.949 32 , 虽 然 没 有 原 方 程 的 0.975 42 高 , 但 方 程 中 三 个 变 量 的 系 数 均为 正 , 符 合 专 业 知 识 。 也 就 是 说 , 岭 回 归 通 过 丢 弃 少 量 的 信 息 , 换 来 了 方 程 系 数 的 合 理 估 计 。为 了 使 用 方 便 , 读 者 也 可 以 对 上 述 方 程 中 的 变 量 进 行 反 变 换 , 以 得 到 可 直 接 使 用 原 始 变 量 值的 方 程 。 但 软 件 并 未 直 接 提 供 该 功 能 , 读 者 需 要 根 据 各 变 量 的 均 数 和 标 准 差 手 工 进 行 计 算 。2.3935RIDGE TRACE.98R-SQUARE vs. K口.96目1. 2 当 62.94+-' '"cz J l89!ζ....吐 JcuE-lOl84-2.15570.000.25b. WEIGHT with K TOU 轧 'EI with K口 LONGwithK0.50 0.75 1.00.92.902 剧= rα3~ .86-.20.0 .2 .4 .6 .8 1.0 1.2KK图 6.6各 自 变 量 的 岭 迹 图图 6. 7 决 定 系 数 与 k 值 的 线 图图 6.6 为 将 不 同 k 值 时 各 变 量 的 回 归 系 数 连 成 的 曲 线 , 该 曲 线 被 形 象 地 称 为 岭 迹 CRidgeTrace) , 这 就 是 岭 回 归 名 称 的 由 来 。 可 见 当 k 到 达 0.05 附 近 时 , 三 条 岭 迹 都 开 始 变 得 平 稳 , 这 和前 面 的 结 论 相 一 致 。图 6. 7 为 不 同 k { 直 时 决 定 系 数 的 下 降 情 况 , 为 了 便 于 观 察 , 笔 者 在 k =0. 05 处 添 加 了 一 条 参考 线 , 可 见 决 定 系 数 一 开 始 明 显 下 降 , 但 当 k 超 过 0.05 后 , 决 定 系 数 一 直 处 于 缓 慢 下 降 中 , 没 有出 现 明 显 的 波 动 。 图 6. 7 反 映 出 的 信 息 也 支 持 前 面 做 出 的 结 论 。6.4 分 类 变 莹 的 数 值 化 最 优 尺 度 同 归6.4.1 方 法 简 介线 性 回 归 模 型 中 要 求 因 变 量 为 数 值 型 , 实 际 上 , 由 于 对 同 一 个 自 变 量 的 回 归 系 数 是 恒 定 值 ,例 如 x 从 1 上 升 到 2 和 从 100 上 升 到 101 被 假 设 为 对 y 数 值 的 影 响 均 为 b , 这 实 际 上 也 就 限 定 了自 变 量 的 测 量 方 式 也 应 当 是 等 距 的 。 但 是 , 现 实 问 题 中 大 量 的 数 据 为 分 类 资 料 , 例 如 收 入 级 别 在问 卷 中 被 收 集 为 高 、 中 、 低 、 极 低 4 档 , 如 果 将 其 编 码 为 4 、 3 、 2 、1, 直 接 作 为 自 变 量 纳 入 分 析 , 则 实• 130 •


际 上 是 假 设 这 4 档 间 的 差 距 完 全 相 等 , 或 者 说 它 们 对 因 变 量 的 数 值 影 响 程 度 是 均 匀 上 升 / 下 降的 , 这 显 然 是 一 个 过 于 理 想 和 简 单 的 假 设 , 有 可 能 导 致 错 误 地 分 析 结 论 。另 一 方 面 , 对 于 无 序 多 分 类 变 量 , 如 民 族 , 它 们 之 间 则 根 本 不 存 在 数 量 上 的 高 低 之 分 ,不 可 能 为 其 给 出 一 个 单 独 的 回 归 系 数 估 计 值 , 来 表 示 民 族 每 上 升 一 个 单 位 时 因 变 量 数 量 的变 化 趋 势 。 对 于 上 述 分 类 变 量 , 统 计 上 标 准 的 做 法 是 采 用 哑 变 量 4 进 行 拟 合 , 然 后 根 据 分 析结 果 考 虑 对 结 果 进 行 简 化 。 但 是 , 哑 变 量 分 析 的 操 作 比 较 麻 烦 , 而 且 对 分 析 者 的 统 计 知 识要 求 也 较 高 , 而 且 当 研 究 问 题 中 绝 大 多 数 变 量 都 是 分 类 变 量 时 , 这 种 分 析 思 路 实 际 上 是 很难 实 现 的 。那 么 , 能 否 通 过 某 种 方 法 , 对 分 类 变 量 进 行 变 换 , 为 每 个 类 别 给 予 一 个 适 当 的 量 化 评 分 , 该 评分 的 高 低 就 反 映 了 个 类 别 间 的 差 距 呢 ? 比 如 说 " 优 " 为 2 分 " 良 " 为 1 分 " 中 " 为 o. 5 分 , 这 就 说明 等 级 从 良 变 为 优 时 , 对 因 变 量 数 值 的 影 响 大 约 是 从 中 变 为 良 的 2 倍 。 同 理 , 对 无 序 自 变 量 也 可以 用 评 分 的 方 式 表 示 各 类 间 的 差 异 , 评 分 近 似 , 则 表 示 影 响 程 度 相 近 , 否 则 评 分 相 差 越 大 , 影 响 程度 差 异 也 越 大 。 为 实 现 这 一 设 想 , 统 计 学 家 为 此 进 行 了 长 期 的 研 究 , 并 最 终 得 出 了 令 人 兴 奋 的 结论 : 最 优 尺 度 变 换 。最 优 尺 度 变 换 专 门 用 于 解 决 在 统 计 建 模 时 如 何 对 分 类 变 量 进 行 量 化 的 问 题 , 其 基 本 思 路 是基 于 希 望 拟 合 的 模 型 框 架 , 分 析 各 级 别 对 因 变 量 影 响 的 强 弱 变 化 情 况 , 在 保 证 变 换 后 各 变 量 间 的联 系 成 为 线 性 的 前 提 下 , 采 用 一 定 的 非 线 性 变 换 方 法 进 行 反 复 迭 代 , 从 而 为 原 始 分 类 变 量 的 每 一个 类 别 找 到 最 佳 的 量 化 评 分 , 随 后 在 相 应 模 型 中 使 用 量 化 评 分 代 替 原 始 变 量 进 行 后 续 分 析 。 这样 就 可 将 各 种 传 统 分 析 方 法 的 适 用 范 围 一 举 扩 展 到 全 部 的 测 量 尺 度 , 如 对 无 序 多 分 类 分 析 、 有 序多 分 类 变 量 和 连 续 性 变 量 同 时 进 行 回 归 分 析 、 因 子 分 析 等 。如 果 最 优 尺 度 变 换 技 术 被 用 于 线 性 回 归 , 即 为 本 节 要 学 习 的 最 优 尺 度 回 归 方 法 , 在 SPSS使 用 分 类 回 归 (Categorical Regression) 过 程 实 现 。中6.4.2 分 析 实 例例 6.4现 收 集 了 一 批 妇 女 的 曾 生 子 女 数 、 年 龄 、 居 住 地 类 别 0: 城 市 , 2: 农 村 )、 受 教 育 程 度o ~ 5分 别 代 表 文 盲 半 文 盲 、 小 学 、 初 中 、 高 中 、 大 学 及 以 上 ) , 试 建 立 后 三 个 变 量 对 曾 生 子 女 数 的回 归 模 型 , 数 据 见 child. savo在 本 例 中 共 有 三 个 自 变 量 , 其 中 年 龄 为 连 续 性 变 量 , 居 住 地 为 两 分 类 变 量 , 它 们 均 可 直 接 纳入 回 归 模 型 ; 受 教 育 程 度 为 有 序 分 类 变 量 , 如 果 直 接 纳 入 , 实 际 上 就 是 假 定 各 类 别 问 等 距 , 这 可 能不 符 合 实 际 , 为 此 考 虑 使 用 4 个 哑 变 量 分 别 代 表 另 4 个 等 级 和 文 盲 半 文 盲 间 的 差 异 , 相 应 的 分 析结 果 参 见 表 6.9 和 表 6. 10 。由 表 6.10 的 结 果 可 见 年 龄 越 大 子 女 数 越 多 ( 这 是 显 然 的 ) , 农 村 妇 女 比 城 市 妇 女 子 女 多 。教 育 程 度 的 哑 变 量 分 析 结 果 显 示 : 小 学 文 化 会 比 文 盲 半 文 盲 平 均 少 生 1. 127 个 子 女 , 差 异 非 常 显著 ; 而 随 着 文 化 水 平 的 上 升 , 虽 然 子 女 数 越 来 越 少 , 但 下 降 趋 势 并 不 明 显 , 特 别 是 高 中 和 大 学 两 个级 别 , 可 以 发 现 基 本 上 处 于 同 一 水 平 。 从 4个 哑 变 量 的 系 数 估 计 值 可 知 , 有 无 文 化 的 影 响 非 常4 关 于 哑 变 量 的 详 细 讨 论 可 参 见 Logistic 回 归 一 章 。• 131 •


表 6.9Model SummaryAdjusled R Sld. Error ofModel R R Square Square Ihe Estimate978 a .956 .927 .308a. Predictors (Constant) , 是 否 女 学 , 是 否 高 中 , 居 住 地 , 是 否 小 学 , 年 龄 l 是 否 初 中表 6. 10 Coefficients aUnstandardizedCoefficienlsStandardizedCoefficienlsModel B Std. Error Beta Sig.(Constant) 438 727 602 562主 在 龄 068 013 569 5.183 00 才居 住 地 486 162 220 2.989 。 才 5是 否 小 学 -1.127 295 -.399 -3.820 004是 百 初 中 -1.309 352 -.514 -3.723 005是 否 高 中 -1.576 382 -.558 -4.127 003是 苦 大 学 1.569 370 616 4.240 002a.De 口 endent Variable曾 生 子 女 教大 , 而 从 小 学 到 高 中 , 子 女 数 是 缓 慢 下 降 的 , 之 间 的 差 别 相 对 较 小 , 高 中 和 大 学 则 基 本 上 无 差 异 ,这 充 分 说 明 了 各 类 别 对 因 变 量 影 响 的 差 异 并 非 等 距 。以 上 分 析 可 以 刻 画 出 各 自 变 量 和 因 变 量 的 关 系 , 但 是 各 哑 变 量 要 手 工 计 算 , 随 后 对 模 型 的 化简 也 非 常 麻 烦 。 另 一 方 面 , 如 果 希 望 比 较 影 响 程 度 的 强 弱 , 则 存 在 一 定 的 困 难 , 从 标 准 化 系 数 可见 年 龄 的 影 响 要 大 于 居 住 地 , 但 是 学 历 和 年 龄 的 影 响 孰 强 孰 弱 ? 学 历 是 以 4入 方 程 的 , 无 法 直 接 比 较 。如 下 :个 哑 变 量 的 形 式 进下 面 采 用 最 优 尺 度 回 归 方 法 对 例 6.4 进 行 分 析 , 以 将 其 结 果 和 上 述 分 析 结 果 加 以 比 较 , 操 作iAnalyze• Regression• Optimal ScalingiDe 叩 pe 臼 I 时 e 肘 m 削 nt丰 杠 匡 : chi 让 ld 巾 nu 皿 I 口 I川i 河 I 时 e 叩 pe 凹 I 时 e 凹 nt 丰 杠 匡 : age 、 area 、 eduij 在 中 age: 1Define Scale 1: 流 Numeric: 1Continuel( 选 中 area: 1Define Scale1: Nominal: ~ 豆 画:J 在 中 area: 1Define Scale1: 凉 。 时 inal: IContinue 1i 国分 析 中 相 应 的 对 话 杠 界 面 如 图 6. 8 所 示 。 在 最 优 尺 度 回 归 中 , 由 于 变 量 可 能 为 各 种 测 量 尺 度 ,因 此 用 户 必 须 具 体 指 定 每 一 个 变 量 的 测 量 尺 度 为 何 种 类 别 。 除 有 序 、 无 序 和 数 值 型 三 类 外 , SPSS• 132 •


还 对 两 种 分 类 变 量 类 型 提 供 了 样 条 光 滑 的 方 法 , 但 因 原 理 和 使 用 条 件 均 较 为 复 杂 , 建 议 读 者 慎 用 。图 6. 8 最 优 尺 度 回 归 过 程 的 对 话 框在 阅 读 分 析 结 果 前 , 需 要 再 回 顾 一 下 最 优 尺 度 回 归 的 本 质 : 首 先 对 原 始 变 量 进 行 变 换 , 将 各变 量 转 换 为 适 当 的 量 化 评 分 , 然 后 使 用 量 化 评 分 代 替 原 变 量 进 行 回 归 分 析 。 因 此 结 果 输 出 基 本上 都 是 变 换 后 评 分 的 分 析 结 果 , 参 见 表 6. 110表 6. 11 Model SummaryAdjusted R|V1ultiple R R Square Square978 .956 934Dependent Variable曾 生 于 女 教Predictors: 年 龄 居 住 地 受 教 育 程 度比 较 变 换 后 模 型 的 决 定 系 数 和 直 接 采 用 哑 变 量 拟 合 模 型 的 决 定 系 数 , 会 发 现 两 者 基 本 相 同 ,这 给 我 们 一 个 提 示 : 最 优 尺 度 回 归 能 够 给 予 分 类 变 量 正 确 的 量 化 评 分 , 从 而 得 到 正 确 地 分 析结 果 。表 6.12ANOVASum of SquaresRegression 15.299dfMean Square5 3.060F43.672Sig..000Residual70110.070Total丁 6.00015Depe 门 dent Variable 曾 生 子 女 数Predictors: 年 龄 居 住 地 受 教 育 程 度和 普 通 回 归 分 析 相 同 , 表 6. 12 进 行 的 是 总 模 型 有 无 意 义 的 检 验 , 所 以 结 论 为 变 换 后 评 分 拟合 的 模 型 具 有 统 计 学 意 义 。• 133 •


表 6. 13 CoefficientsStandardized CoefficientsBela Std_ Error df年 龄 570 092居 住 地 220 066受 教 育 程 度 -.446 092 3EEE- E


结 果 输 出 的 最 后 就 是 4 张 量 化 评 分 对 应 图 , 如 图 6.9 所 示 。 首 先 观 察 曾 生 子 女 数 , 由 于 被 设定 为 等 距 的 数 值 变 量 , SPSS 实 际 上 只 是 对 它 进 行 了 标 准 化 变 换 , 在 变 换 中 并 未 改 变 各 数 据 间 的差 异 比 例 。 年 龄 、 居 住 地 的 情 况 也 与 之 相 同 , 此 处 略 去 。最 后 来 考 察 受 教 育 程 度 变 换 前 后 的 分 值 对 应 , 可 见 高 中 、 大 学 两 个 等 级 被 给 予 了 相 同 的 量 化评 分 , 显 然 在 后 续 分 析 中 , 这 两 个 级 别 实 际 上 是 被 合 并 分 析 了 ; 小 学 ~ 高 中 三 个 等 级 的 评 分 逐 渐上 升 , 但 差 别 不 大 ; 文 盲 半 文 盲 和 小 学 相 比 , 评 分 差 距 非 常 大 。 由 于 随 后 的 回 归 分 析 是 用 变 换 后分 值 进 行 的 , 相 当 于 评 分 间 为 等 E 巨 变 化 。 对 照 前 面 哑 变 量 模 型 的 分 析 结 果 , 会 发 现 变 量 变 换 评 分和 哑 变 量 参 数 估 计 值 的 变 化 规 律 非 常 一 致 , 就 好 像 是 将 各 类 别 影 响 大 小 的 差 异 用 评 分 固 定 下 来了 一 样 。 对 比 两 个 模 型 的 分 析 结 果 , 读 者 应 当 更 容 易 理 解 " 在 保 证 变 换 后 各 变 量 间 的 联 系 成 为线 性 的 前 提 下 , 为 原 始 分 类 变 量 的 每 一 个 类 别 找 到 最 佳 的 量 化 评 分 " 这 句 话 的 含 义 。图 6.9原 始 变 量 类 别 与 变 换 后 评 分 的 对 应 图6.4.3 最 优 尺 度 方 法 的 应 用 注 意 事 项最 优 尺 度 变 换 是 一 种 非 常 有 用 的 方 法 , 其 应 用 范 围 不 仅 限 于 回 归 , 实 际 上 可 以 用 于 任 何 多 变量 模 型 和 多 元 模 型 框 架 。 但 是 该 方 法 也 有 明 显 的 缺 陷 , 在 应 用 时 应 当 加 以 注 意 , 这 里 总 结 如 下 :(1) 变 换 结 果 和 模 型 有 关 : 注 意 在 前 面 介 绍 最 优 尺 度 变 换 时 , 相 应 的 文 字 为 " 基 于 希 望 拟 合的 模 型 框 架 , 分 析 各 级 别 对 因 变 量 影 响 的 强 弱 变 化 情 况 " 显 然 , 最 终 的 量 化 评 分 会 受 到 希 望 拟合 的 模 型 的 影 响 , 变 换 仅 仅 保 证 相 应 的 量 化 评 分 在 当 前 模 型 框 架 中 为 最 优 , 如 果 模 型 进 行 了 更改 , 比 如 说 引 入 了 新 的 自 变 量 , 或 者 其 他 变 量 的 测 量 尺 度 进 行 了 更 改 , 则 量 化 评 分 的 结 果 也 会 发生 改 变 , 有 的 时 候 还 差 异 较 大 。(2) 样 本 量 不 宜 太 小 : 由 于 最 优 尺 度 变 换 是 对 分 类 变 量 各 类 别 求 出 最 佳 量 化 评 分 , 显 然 只 有各 类 别 的 样 本 量 较 多 , 才 能 保 证 相 应 评 分 的 准 确 和 稳 定 。 前 面 为 了 使 结 果 易 于 理 解 , 所 采 用 的 实例 样 本 量 较 小 , 但 相 应 的 分 析 结 果 也 就 会 较 为 敏 感 , 受 数 据 变 化 的 影 响 较 大 ( 参 见 思 考 与 练 习 )。一 般 而 言 , 此 处 的 样 本 量 要 求 可 参 考 分 层 扩 检 验 中 的 设 定 , 即 各 类 别 交 叉 时 单 元 格 内 均 为 5 例 以上 , 但 实 际 分 析 中 往 往 更 大 一 些 才 好 。• 135 •


(3) 对 有 序 变 量 的 处 理 : 在 对 有 序 分 类 变 量 进 行 变 换 时 , 最 优 尺 度 变 换 会 对 各 类 别 给 予 依 次上 升 或 下 降 的 量 化 评 分 , 即 { 固 定 各 类 别 的 作 用 是 单 调 上 升 或 下 降 的 。 如 果 实 际 情 况 并 非 如 此 , 则可 能 导 致 错 误 地 分 析 结 果 。 为 保 证 结 果 的 正 确 性 , 可 以 在 分 析 中 先 将 有 序 变 量 指 定 为 无 序 , 观 察其 变 换 后 评 分 是 否 为 单 调 升 降 趋 势 , 然 后 再 决 定 后 续 的 分 析 思 路 。(4) 最 佳 的 预 分 析 手 段 : 由 于 最 优 尺 度 回 归 主 要 给 出 的 是 变 换 后 评 分 的 分 析 结 果 , 许 多 有 用的 信 息 被 隐 含 在 变 换 过 程 中 。 同 时 其 原 理 较 难 理 解 , 结 果 在 直 接 应 用 上 也 有 一 定 困 难 。 因 此 , 使用 者 可 以 将 最 优 尺 度 分 析 作 为 一 种 预 分 析 手 段 , 通 过 它 快 速 发 现 各 类 别 间 的 差 异 和 联 系 , 然 后 回到 常 规 的 建 模 方 法 , 用 合 并 相 似 类 别 、 建 立 复 杂 的 哑 变 量 模 型 等 方 式 得 到 更 易 于 理 解 和 应 用 的 分析 结 果 。思 考 与 练 习1. 打 开 文 件 副 gereg. sav , 进 行 如 下 分 析 :1 绘 制 三 个 白 变 量 的 三 维 散 点 图 , 并 旋 转 观 察 , 从 中 可 以 得 到 怎 样 的 信 息 ?2 分 别 在 建 模 时 使 用 前 景 法 、 后 退 法 和 逐 步 法 , 仔 细 阅 读 每 一 部 中 各 参 数 估 计 值 的 变 化 , 并 比 较 最 终 的 分析 结 果 , 思 考 变 量 筛 选 方 法 是 否 能 解 决 白 变 量 的 共 线 性 问 题 ?2. 打 开 文 件 child. sav , 进 行 如 下 分 析 :1 将 变 量 age的 测 量 尺 度 由 数 值 型 改 为 有 序 变 量 , 重 新 进 行 最 优 尺 度 回 归 , 考 察 模 型 的 拟 合 结 果 和 参 数 估计 值 , 并 考 察 各 变 量 的 量 化 评 分 图 , 思 考 为 什 么 对 age 设 定 的 更 改 会 带 来 其 他 变 量 估 计 值 的 变 化 ?2 随 意 更 改 数 据 文 件 中 的 若 干 数 值 , 重 新 进 行 最 优 尺 度 回 归 , 考 察 结 果 的 变 化 情 况 , 特 别 是 量 化 评 分 的 变化 , 理 解 为 什 么 该 方 法 要 求 有 较 大 的 样 本 量 ?参 考 文 献1 Advanced Statistical Analysis U sing SPSS (v 10. 0 Revised). SPSS Inc. Chicago , <strong>Il</strong>linois , 20002 Market Segmentation U sing SPSS (v 10. 0 Revised). SPSS Inc. Chicago , <strong>Il</strong>linois , 20003 陈 峰 . 医 用 多 元 统 计 分 析 方 法 . 北 京 : 中 国 统 计 出 版 社 , 20004 张 文 膨 主 编 . SPSS 11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 希 望 电 子 出 版 社 , 2002• 136 •


第 7章 路 径 分 析 入 门在 上 一 章 中 , 己 经 讨 论 了 当 数 据 不 符 合 线 性 回 归 模 型 的 应 用 条 件 是 可 能 采 取 的 各 种 处 理 措施 。 但 是 , 实 际 情 况 往 往 会 更 加 复 杂 , 比 如 说 因 变 量 和 自 变 量 出 现 了 互 相 影 响 的 情 况 , 此 时 该 如何 处 理 ? 又 如 在 共 线 性 问 题 出 现 的 时 候 , 虽 然 可 以 使 用 岭 回 归 等 方 法 得 到 较 为 稳 健 的 分 析 结 果 ,但 是 这 样 毕 竟 会 损 失 信 息 , 而 且 如 果 从 专 业 上 , 大 致 能 够 描 述 自 变 量 间 是 如 何 互 相 影 响 的 话 , 仅仅 简 单 地 消 除 共 线 性 的 影 响 就 显 得 太 粗 糙 了 , 为 什 么 不 能 将 这 种 关 联 加 以 应 用 , 使 得 模 型 对 问 题的 刻 画 更 为 清 晰 呢 ? 本 章 将 要 介 绍 的 路 径 分 析 就 是 在 多 重 回 归 模 型 基 础 上 发 展 起 来 的 能 够 更 为细 致 、 深 入 地 刻 画 变 量 问 复 杂 联 系 的 一 种 统 计 模 型 。7.1 两 阶 段 最 小 二 乘 法由 于 路 径 分 析 较 为 复 杂 , 本 章 将 先 介 绍 比 较 简 单 的 两 阶 段 最 小 二 乘 法 , 以 帮 助 大 家 熟 悉 一 些基 本 的 概 念 。7. 1. 1 模 型 简 介普 通 最 小 二 乘 法 虽 然 不 能 和 因 果 关 系 画 等 号 , 但 其 在 拟 合 时 实 际 上 有 一 个 默 认 的 条 件 : 因 变量 的 大 小 受 自 变 量 影 响 , 但 自 变 量 应 当 是 独 立 取 值 , 特 别 是 不 应 当 受 因 变 量 的 影 响 。 但 是 , 在 许多 研 究 问 题 中 , 确 实 会 出 现 自 变 量 和 因 变 量 问 存 在 互 相 影 响 的 情 况 , 这 种 问 题 尤 其 在 与 经 济 支 出有 关 的 研 究 中 表 现 明 显 。 例 如 在 经 济 学 研 究 中 , 分 析 商 品 价 格 、 顾 客 收 入 对 日 用 品 需 求 的 影 响时 , 日 用 品 的 价 格 与 对 它 的 需 求 之 间 存 在 明 显 的 双 向 作 用 。 也 就 是 说 , 价 格 可 以 影 响 需 求 , 价 格低 会 促 进 需 求 上 升 ; 而 需 求 反 过 来 又 影 响 价 格 , 即 需 求 上 升 后 价 格 可 能 会 上 涨 。 又 如 在 卫 生 服 务研 究 中 , 分 析 治 疗 效 果 与 治 疗 花 费 之 间 的 关 系 , 一 般 花 费 的 越 多 , 疗 效 自 然 越 好 。 但 是 反 过 来 , 如果 病 人 预 期 自 己 能 得 到 更 彻 底 的 疗 效 , 往 往 愿 意 支 出 更 多 的 治 疗 费 用 。 除 此 以 外 , 在 进 行 工 资 水平 对 工 作 表 现 的 影 响 、 学 习 动 机 对 学 习 表 现 的 影 响 等 研 究 时 , 这 种 因 / 自 变 量 相 互 影 响 的 问 题 也是 非 常 明 显 的 。显 然 , 当 因 变 量 和 自 变 量 问 存 在 双 向 作 用 时 , 就 会 严 重 影 响 回 归 模 型 中 的 参 数 估 计 , 此 时 直接 使 用 普 通 的 最 小 二 乘 法 进 行 估 计 就 不 再 合 适 了 。 对 此 可 能 的 解 决 办 法 是 : 首 先 确 定 和 因 变 量有 双 向 关 系 的 自 变 量 ; 然 后 根 据 预 分 析 结 果 , 找 出 可 以 预 测 该 自 变 量 取 值 的 线 性 回 归 方 程 , 对 自变 量 进 行 单 独 的 估 计 ; 最 后 用 该 自 变 量 的 预 测 值 代 替 原 变 量 值 进 行 分 析 。 由 于 预 测 值 是 根 据 那些 与 因 变 量 无 双 向 关 系 的 变 量 计 算 而 来 , 可 以 认 为 它 与 因 变 量 的 关 系 也 是 单 向 的 , 从 而 解 决 了 双向 作 用 的 问 题 。• 137 •


7. 1. 2 使 用 Linear 过 程 进 行 分 析例 7. 1 本 例 来 自 Young Men (979) , 是 美 国 国 家 纵 向 社 会 调 查 数 据 的 一 部 分 , 包 含 了 38 名男 性 的 一 些 基 本 信 息 。 分 析 目 的 是 研 究 受 教 育 年 限 、 种 族 ( 是 否 黑 人 )、 年 龄 对 收 入 水 平 有 无 影响 。 数 据 见 文 件 2s1s. sav , 其 中 收 入 己 经 按 分 布 特 征 进 行 了 对 数 转 换 (LW) 。本 例 看 起 来 并 不 复 杂 , 如 果 采 用 普 通 的 回 归 分 析 , 则 结 果 参 见 表 7.10表 7. 1 Coefficients aUnstandardizedStandardizedCoefficientsCoefficie 门 tsModel B Std. Error Beta Sig(Constant) 4 .483 .327 13.726 .000是 否 黑 人 -.207 135 -.103 -1.530 128受 教 育 年 限 .023 .013 .115 1.715 .088年 龄 050 011 .310 4.605 000a. Dependent Variable 收 入 ( 对 数 值 )结 果 似 乎 也 是 可 以 解 释 的 , 但 是 , 一 个 明 显 的 问 题 是 教 育 程 度 和 收 入 存 在 双 向 的 影 响 : 高 收入 者 为 了 提 高 自 身 的 竞 争 力 , 都 会 尽 量 找 机 会 提 高 自 己 的 学 历 ; 而 高 学 历 的 人 由 于 更 有 价 值 , 得到 的 报 酬 也 会 更 多 。 这 种 双 向 作 用 使 得 普 通 最 小 二 乘 法 的 要 求 被 违 背 , 上 述 结 果 可 能 是 不 正确 的 。为 了 解 决 这 个 问 题 , 需 要 利 用 两 阶 段 最 小 二 乘 法 来 对 教 育 年 限 得 到 一 个 与 报 酬 无 关 的 估 计值 , 然 后 用 该 估 计 值 来 进 行 分 析 。 根 据 常 识 , 父 母 的 教 育 年 限 越 长 , 则 子 女 的 受 教 育 年 限 也 会 越长 。 而 父 母 教 育 年 限 可 以 被 认 为 是 与 子 女 收 入 水 平 无 关 的 , 因 此 , 可 以 利 用 这 两 个 变 量 先 求 出 受教 育 年 限 的 估 计 值 , 然 后 再 进 行 原 来 的 方 程 估 计 。 具 体 而 言 , 在 分 析 的 第 一 阶 段 将 采 用 如 下 线 性回 归 公 式 计 算 Ed 时 的 估 计 值 :Educ = 常 量 + fed + med + black + age方 程 中 引 入 的 black 和 age 实 际 上 对 Ed 时 没 有 影 响 , 这 可 以 通 过 普 通 回 归 分 析 发 现 。 此 处仍 将 其 引 入 方 程 是 为 了 符 合 两 阶 段 最 小 二 乘 法 对 话 杠 界 面 操 作 的 要 求 , 即 Instrumental 杠 的 变 量数 至 少 应 当 和 Explanatory 杠 中 相 等 , 这 样 就 可 以 将 两 次 分 析 的 结 果 相 对 照 。在 第 二 阶 段 中 拟 合 的 是 如 下 方 程 :LW= 常 量 + Educ 估 计 值 + black + age由 于 使 用 的 是 Educ 估 计 值 , 它 是 通 过 与 LW 的 影 响 无 关 的 变 量 计 算 出 来 的 , 因 此 该 方 程 在拟 合 时 就 不 会 违 反 普 通 最 小 二 乘 法 的 要 求 , 能 够 得 到 正 确 的 结 果 。下 面 开 始 进 行 分 析 , 首 先 拟 合 第 一 个 回 归 方 程 , 并 使 用 Save 子 对 话 杠 将 预 测 值 存 为 新 变 量 ,分 析 结 果 参 见 表 7.2 、 表 7.3 、 表 7.4 和 表 7.50表 7. 2 中 的 结 果 显 示 父 母 受 教 育 年 限 的 确 会 对 于 女 受 教 育 年 限 产 生 影 响 , 同 时 , Educ 的 预测 值 会 被 存 储 在 数 据 文 件 中 。 下 面 使 用 该 预 测 值 代 替 Educ合 , 结 果 如 下 :的 实 测 值 进 行 第 二 个 回 归 方 程 的 拟• 138 •


表 7. 2 Coefficients aUnstandardizedCoefficientsStandardizedCoefficientsModelBStd. ErrorBetaSig(Constant)7.241 1.5734.603 .000父 亲 受 教 育 年 限233 0732473.208 .002母 亲 受 教 育 年 限215 0752202.854 .005是 否 黑 人695 6510701.069 .287年 龄072 052.0891.366 .173a Dependent Variable受 教 育 年 限表 7.3Model SummaryModel R R Square357 a .128A 吗 us 恒 d R Square114SId. Error of the Estimale466a. Predictors' (Constant). 年 龄 l 是 否 黑 人 . Unstandardized Predicted Value表 7.4ANOVAbModelSum of SquaresRegression 6.212dfMean Square3 2.071F9.548s- gEonu nu aResidual 42.508196.217Total48.720199a. Prediclors: (Constanl) , 年 龄 , 是 否 黑 人 , Unstandardized Predicled Valueb D 间 的 denl Variable收 入 ( 对 数 值 J表 7. 5 Coefficients aModel(Constant)UnslandardizedCoefficientsB Std. Error4.695 .492SlandardizedCoefficientsUnstandardized.006 .033 .012 .176 .860Predicled Value是 E 堕 人年 …223 .139才 才 -1.605 110龄.051 .011.318 4.599 .000Beta9.534句-Dnu nua. De 口 endenl Variable 收 入 ( 对 数 值 )表 7.5为 对 各 个 变 量 的 检 验 结 果 , 由 于 使 实 用 教 育 年 限 的 预 测 值 进 行 分 析 , 就 避 免 了 自 变 量和 因 变 量 存 在 双 向 影 响 的 问 题 , 可 见 结 果 己 经 和 直 接 使 用 直 线 回 归 进 行 分 析 的 结 果 有 了 非 常 大的 区 别 。 最 终 影 响 收 入 的 因 素 只 有 年 龄 。• 139 •


7. 1. 3 使 用 2SLS 过 程 进 行 分 析在 上 面 的 分 析 中 , 可 能 大 家 己 经 发 现 , 实 际 上 就 是 通 过 进 行 了 两 次 线 性 回 归 解 决 了 双 向 影 响的 问 题 , 第 一 阶 段 的 回 归 方 程 用 于 对 存 在 双 向 影 响 的 自 变 量 进 行 估 计 , 第 二 阶 段 则 真 正 用 于 分 析相 应 的 问 题 。 由 于 每 一 次 回 归 都 是 使 用 最 小 二 乘 法 进 行 的 拟 合 , 因 此 这 种 方 法 就 被 形 象 的 称 之为 两 阶 段 最 小 二 乘 法 CTwo-stage Least Squares) 。 由 于 在 第 一 阶 段 中 用 于 预 测 自 变 量 的 那 些 变 量被 称 为 工 具 变 量 , 因 此 在 有 的 文 献 中 该 方 法 又 被 称 为 工 具 变 量 回 归 CInstrumentalVariable Regression)。为 了 方 便 用 户 操 作 , SPSS 为 该 方 法 提 供 了 一 个 专 门 的 对 话 杠 界 面 , 如 果 使 用 该 界 面 对 例 7. 1进 行 分 析 , 则 相 应 的 操 作 如 下 :: Analyze• Regression• Two-Stage Least-SquaresiDependent 杠 :LWi Explanatory 杠 :ed 时 、 black 、 age: Instrumental 丰 匡 : fed 、 med 、 black 、 agel 囚操 作 中 使 用 到 的 对 话 杠 界 面 实 际 上 非 常 简 单 , 其 基 本 结 构 和 Linear 过 程 主 对 话 杠 非 常 相 似 ,最 土 方 为 因 变 量 框 , 其 下 的 Explanatory 杠 实 际 上 用 于 设 定 希 望 最 终 拟 合 的 方 程 中 的 自 变 量 ( 解释 变 量 ) , 可 选 入 多 个 , 杠 中 的 变 量 将 全 部 用 来 进 行 分 析 。 比 较 特 殊 的 是 最 下 方 Instrumental 框 ,它 用 于 设 定 在 第 一 阶 段 中 用 于 计 算 自 变 量 估 计 值 的 工 具 变 量 , 如 果 有 变 量 在 Explanatory 杠 中 出现 , 但 不 在 Instrumental 杠 中 出 现 , 它 即 为 需 要 估 计 的 内 生 变 量 。 此 处 即 为 Educ 。 按 照 该 对 话 杠设 计 上 的 要 求 , 工 具 变 量 的 数 量 必 须 不 少 于 解 释 变 量 。 如 果 选 入 该 杠 的 变 量 和 Explanatory完 全 相 同 , 则 分 析 结 果 就 是 普 通 的 线 性 回 归 结 果 。杠 中图 7. 1 2 - stage Least Squares 过 程 主 对 话 框通 过 图 7. 1 中 的 设 定 , 可 以 看 到 变 量 Ed 盯 在 Explanatory 杠 中 出 现 , 但 没 有 被 选 入 Instrumental框 , 因 此 系 统 将 会 使 用 Instrumental 杠 中 的 全 部 工 具 变 量 对 其 进 行 预 测 , 然 后 使 用 预 测 值 代 替原 变 量 值 进 行 分 析 。 例 7. 1 的 结 果 输 出 标 题 为 叮 wo-stage Least Squares" , 具 体 内 容 如 下 :以 下 方 杠 中 的 文 本 是 输 出 的 开 始 部 分 , 给 出 一 些 基 本 信 息 , 可 知 估 计 内 生 变 量 的 方 程 只 有 一• 140 •


个 , 因 变 量 为 LW , 最 下 方 为 缺 失 值 列 表 本 例 中 无 缺 失 值 , 故 列 表 为 空 。MODEL: MOD 5.Equation number: 1Dependent variable:L WListwise Deletion of Missing Data接 下 来 方 杠 中 的 文 本 给 出 的 是 方 程 的 拟 合 结 果 , 可 见 总 模 型 的 F =9. 608 88 , P


以 不 考 虑 共 线 性 的 问 题 。Correlation Matrix of Parameter EstimatesEDUC BLACK AGEEDUC 1. 0000000 . 2235789 一 .2041616BLACK .2235789 1. 0000000 . 1092045AGE 一 .2041616 .1092045 1.00000007.2 路 径 分 析 入 门两 阶 段 最 小 二 乘 法 虽 然 可 以 解 决 因 / 自 变 量 存 在 双 向 影 响 时 的 问 题 , 但 其 功 能 仍 然 是 十 分 有限 的 , 当 遇 到 更 为 复 杂 的 情 况 时 就 无 能 为 力 了 。 此 时 如 果 研 究 者 从 专 业 背 景 上 能 够 对 变 量 间 的联 系 方 式 绘 制 出 一 个 基 本 框 架 的 话 , 就 可 以 采 用 路 径 分 析 (Path Analysis) 对 数 据 中 蕴 含 的 信 息进 行 更 为 精 确 的 刻 画 。7.2.1 模 型 简 介多 重 线 性 回 归 只 是 基 于 一 个 方 程 建 立 模 型 , 反 映 的 是 自 变 量 与 因 变 量 之 间 的 直 接 作 用 , 而 不能 反 映 因 素 间 的 间 接 关 系 。 但 是 , 变 量 间 的 关 系 往 往 错 综 复 杂 , 要 想 在 单 一 回 归 模 型 上 选 择 合 适的 变 量 集 无 疑 是 非 常 困 难 且 不 合 适 的 , 比 如 图 7.2所 示 的 这 个 经 过 简 化 的 疾 病 住 院 费 用 影 响 因素 的 例 子 :图 7.2疾 病 住 院 费 用 影 响 因 素 示 意 图从 常 识 可 知 , 住 院 天 数 是 影 响 住 院 费 用 最 主 要 的 因 素 。 除 住 院 费 用 外 , 年 龄 和 入 院 时 状 况 对住 院 费 用 也 有 影 响 , 但 它 们 同 时 又 对 住 院 天 数 也 有 影 响 , 从 而 住 院 天 数 还 对 费 用 有 着 间 接 的 作用 。 显 然 , 采 用 一 个 简 单 的 多 元 回 归 方 程 是 完 全 无 法 正 确 反 映 这 种 错 综 复 杂 的 关 系 的 。在 1920 年 , 遗 传 学 家 Wright 提 出 用 路 径 分 析 (Path Analysis) 解 决 上 述 问 题 , 其 基 本 思 想 是从 假 设 变 量 间 的 直 线 关 系 出 发 , 通 过 估 计 变 量 间 的 相 关 系 数 和 它 们 的 函 数 , 来 评 价 这 些 变 量 的 作用 及 相 互 间 的 关 系 。 此 后 , 经 济 、 社 会 及 心 理 领 域 的 递 推 模 型 、 结 构 方 程 模 型 和 确 定 性 因 子 分 析模 型 等 都 是 基 于 这 一 思 想 建 立 起 来 的 。1. 路 径 分 析 的 模 型 框 架实 际 上 , 路 径 分 析 就 是 多 重 线 性 回 归 模 型 的 扩 展 , 它 的 主 要 特 征 是 根 据 专 业 知 识 , 假 设 出 模• 142 •


型 中 各 变 量 的 具 体 联 系 方 式 , 这 种 联 系 一 般 会 被 绘 制 为 一 张 路 径 分 析 图 。 随 后 按 照 相 应 的 因 变量 数 分 别 拟 合 各 自 的 多 重 线 性 回 归 方 程 , 也 就 是 说 , 路 径 分 析 模 型 是 由 一 组 线 性 方 程 所 构 成 的 ,它 所 描 述 的 变 量 间 的 相 互 关 系 不 仅 包 括 直 接 的 , 还 包 括 间 接 的 和 全 部 的 关 联 。 模 型 中 有 的 变 量不 受 其 余 变 量 的 影 响 , 只 是 影 响 其 他 变 量 ; 而 有 的 变 量 则 会 既 受 其 他 变 量 的 影 响 , 又 同 时 会 影 响其 他 变 量 。 如 本 例 中 需 要 拟 合 的 是 如 下 两 个 方 程 :住 院 费 用 = 常 数 + 住 院 天 数 + 年 龄 + 入 院 时 情 况住 院 天 数 = 常 数 + 年 龄 + 入 院 时 情 况显 然 , 住 院 天 数 在 第 一 个 方 程 中 是 自 变 量 , 但 在 第 二 个 方 程 中 又 是 因 变 量 。 一 个 特 定 的 变 量可 能 在 一 个 方 程 中 是 因 变 量 而 在 另 一 个 方 程 中 是 自 变 量 。 通 过 这 两 个 方 程 , 就 可 以 知 道 年 龄 对于 住 院 费 用 的 作 用 是 由 两 部 分 构 成 的 , 第 一 部 分 是 对 住 院 费 用 的 直 接 影 响 , 而 第 二 部 分 则 是 通 过先 影 响 住 院 天 数 , 然 后 通 过 住 院 天 数 的 作 用 间 接 影 响 费 用 。 而 如 果 只 拟 合 第 一 个 回 归 方 程 , 则 会因 为 只 反 映 了 第 一 部 分 的 影 响 , 可 能 相 应 的 系 数 估 计 值 不 符 合 专 业 常 识 , 难 以 解 释 , 实 际 上 , 这 就是 前 面 反 复 提 到 的 共 线 性 问 题 的 表 现 之 一 。 显 然 , 路 径 分 析 模 型 可 以 从 根 本 上 对 存 在 共 线 性 的数 据 给 出 完 美 的 解 决 方 法 。2. 一 些 基 本 概 念在 路 径 分 析 中 经 常 会 遇 到 一 些 比 较 专 业 的 名 词 , 这 里 一 一 解 释 如 下 :(1) 外 生 变 量 与 内 生 变 量 : 外 生 变 量 (Exogenous Variable) 指 的 是 在 模 型 中 未 指 明 有 哪 些 因素 会 对 其 产 生 影 响 的 变 量 , 可 以 简 单 的 类 比 为 模 型 中 的 自 变 量 , 虽 然 这 样 变 量 必 然 会 受 到 某 些 因素 的 影 响 , 但 是 这 不 是 当 前 模 型 所 考 虑 的 问 题 。 换 言 之 , 在 当 前 模 型 中 , 外 生 变 量 只 会 起 到 影 响别 的 因 素 的 作 用 , 而 不 会 受 其 他 因 素 的 影 响 。和 外 生 变 量 相 对 应 , 内 生 变 量 (EndogenousVariable) 则 指 的 是 在 模 型 中 会 受 到 另 外 一 些 变 量所 影 响 的 变 量 。 换 言 之 , 内 生 变 量 的 变 异 有 一 部 分 是 由 模 型 中 的 其 他 外 生 变 量 或 者 内 生 变 量 所决 定 的 , 具 体 的 影 响 来 源 和 作 用 大 小 就 是 分 析 模 型 所 要 考 虑 的 问 题 。此 外 , 研 究 者 还 可 以 将 模 型 内 完 全 不 影 响 其 他 变 量 , 而 只 受 其 他 变 量 所 影 响 的 内 生 变 量 称 为最 终 结 果 变 量 (Ultimate Response V ariable) 。 如 在 上 面 的 例 子 中 , 住 院 费 用 就 是 最 终 结 果 变 量 ,这 一 变 量 往 往 是 研 究 的 真 正 目 的 , 而 其 余 内 生 变 量 的 出 现 很 有 可 能 仅 仅 是 为 了 使 得 对 它 的 研 究能 够 更 为 深 入 和 细 致 。(2) 递 归 模 型 和 非 递 归 模 型 : 一 般 而 言 , 在 路 径 分 析 中 , 任 意 两 个 变 量 可 能 存 在 如 下 的 4 种基 本 关 联 方 式 : A→B , A 可 能 对 B 有 影 响 , 但 B 不 会 影 响 A 。 A←B , B 可 能 对 A 有 影 响 , 但 A 不 会 影 响 B 。 A←→ B , A 与 B 之 间 存 在 着 双 向 的 影 响 关 系 , 即 直 接 反 馈 作 用 。 AB 之 间 的 具 体 影 响 方 式 不 明 , 但 是 存 在 相 关 。 实 际 上 , 这 一 方 式 还 应 当 包 含 一 种 特 例 ,就 是 变 量 A 与 自 身 存 在 自 反 馈 ( 白 相 关 )。显 然 , 如 果 模 型 中 只 存 在 前 两 种 联 系 方 式 , 则 整 个 路 径 分 析 模 型 全 部 为 单 向 链 条 关 系 , 不 会出 现 循 环 嵌 套 的 路 径 , 从 而 可 以 被 写 成 若 干 个 标 准 的 多 重 回 归 方 程 所 构 成 的 方 程 组 。 这 种 模 型就 被 称 为 递 归 模 型 (RecursiveModeD ; 反 之 , 如 果 模 型 中 存 在 后 两 种 关 系 ( 包 括 自 反 馈 ) , 则 被 称为 非 递 归 模 型 两 大 类 , 上 面 关 于 住 院 费 用 的 例 子 就 是 典 型 的 递 归 模 型 , 所 有 的 变 量 问 联 系 均 为 单• 143 •


向 , 不 存 在 循 环 、 自 反 馈 、 双 向 联 系 这 些 复 杂 情 况 。 非 递 归 模 型 的 求 解 方 法 要 比 递 归 模 型 复 杂 得多 , 详 细 介 绍 可 见 后 面 有 关 章 节 。(3) 标 准 化 与 非 标 准 化 的 路 径 系 数 : 在 土 文 介 绍 路 径 分 析 模 型 时 , 给 出 的 方 程 都 含 有 常 数项 , 也 就 是 使 用 原 始 变 量 的 普 通 回 归 方 程 。 此 时 如 果 进 行 路 径 分 析 , 则 求 解 出 的 全 部 是 非 标 准 化的 路 径 系 数 。 但 是 , 路 径 分 析 中 往 往 会 使 用 标 准 化 变 量 进 行 建 模 , 此 时 所 有 的 方 程 均 无 常 数 项 ,而 求 解 出 的 系 数 也 均 为 标 准 化 路 径 系 数 。 在 统 计 文 献 中 , 对 于 究 竟 采 用 何 种 为 优 尚 无 定 论 , 标 化系 数 建 立 的 路 径 分 析 模 型 没 有 常 数 项 , 更 为 简 沽 , 而 且 由 于 没 有 量 纲 , 不 同 的 路 径 系 数 可 以 直 接比 较 大 小 。 但 是 , 标 准 化 系 数 不 仅 反 映 了 变 量 问 联 系 的 强 度 , 还 表 示 了 各 变 量 的 方 差 、 协 方 差 , 甚至 于 在 有 的 模 型 中 可 能 还 会 包 括 在 模 型 外 的 其 他 变 量 的 方 差 。 因 此 标 化 系 数 有 特 定 样 本 的 含义 , 不 能 用 于 不 同 情 况 或 总 体 间 的 比 较 。与 之 相 对 应 , 非 标 化 系 数 有 明 确 的 量 纲 , 不 同 量 纲 的 系 数 间 不 能 相 互 比 较 , 同 时 会 使 得 模 型的 计 算 量 增 大 。 但 是 非 标 化 系 数 在 不 同 情 况 下 能 够 保 持 相 对 稳 定 , 且 更 加 易 于 理 解 和 应 用 。 因此 在 实 际 分 析 工 作 中 , 往 往 研 究 者 会 分 别 报 告 这 两 种 结 果 , 以 使 得 对 问 题 的 研 究 更 为 彻 底 。3. 路 径 分 析 的 基 本 步 骤作 为 一 个 比 较 复 杂 的 模 型 , 路 径 分 析 的 建 模 工 作 往 往 不 会 一 蹦 而 就 , 而 应 当 是 一 个 循 序 渐 进的 过 程 。(1) 模 型 设 定 : 首 先 , 研 究 者 必 须 根 据 前 期 研 究 的 结 果 , 或 者 专 业 背 景 知 识 来 设 定 初 始 的 理论 模 型 , 该 模 型 应 当 包 括 各 种 可 能 的 路 径 , 并 一 般 会 以 一 张 路 径 图 的 形 式 被 绘 制 出 来 , 以 便 能 帮助 研 究 者 较 好 地 理 请 各 种 关 系 。(2) 模 型 识 别 与 模 型 估 计 : 该 步 骤 应 当 尝 试 对 模 型 中 的 参 数 加 以 估 计 , 如 果 模 型 设 定 有 误 ,则 可 能 会 导 致 整 个 模 型 无 法 被 估 计 ( 无 解 或 无 唯 一 解 ) , 此 时 应 当 对 模 型 加 以 修 正 , 直 至 得 到 初步 的 估 计 值 。(3) 模 型 评 价 : 评 价 各 路 径 的 关 联 是 否 具 有 统 计 学 意 义 , 并 且 是 否 能 够 很 好 的 与 专 业 知 识 相吻 合 。 如 果 无 统 计 学 意 义 , 则 可 以 考 虑 将 该 路 径 删 除 ; 如 果 拟 合 结 果 不 符 合 专 业 知 识 , 则 需 要 考虑 是 否 整 个 模 型 框 架 存 在 较 大 问 题 。(4) 模 型 修 正 : 根 据 模 型 评 价 的 结 果 对 模 型 进 行 简 化 和 改 进 , 最 终 得 到 一 个 既 符 合 专 业 知识 , 又 与 数 据 的 特 征 相 吻 合 , 并 非 常 简 洁 的 路 径 分 析 模 型 。 显 然 , 一 个 最 终 的 模 型 时 需 要 经 过 多次 尝 试 和 修 正 才 能 够 得 到 的 。4. 路 径 分 析 的 检 验 方 法如 果 路 径 分 析 模 型 中 各 系 数 都 有 统 计 学 意 义 , 那 么 问 题 会 简 单 的 多 , 这 也 许 就 是 最 终 的 结 果了 。 但 是 当 模 型 中 存 在 无 统 计 学 意 义 的 系 数 时 , 该 如 何 评 价 简 化 后 模 型 的 效 果 呢 ? 虽 然 可 以 分别 对 系 数 进 行 检 验 , 但 显 然 对 两 个 模 型 进 行 整 体 上 的 比 较 更 为 妥 当 。 在 路 径 分 析 中 , 一 个 内 生 变量 实 际 上 就 对 应 了 一 个 回 归 方 程 , 每 个 回 归 方 程 都 会 有 一 个 确 定 系 数 , 它 表 示 相 应 内 生 变 量 的 方差 中 能 够 被 该 方 程 所 揭 示 的 比 例 , 而 1 - R 2 就 表 示 剩 余 的 部 分 。 那 么 , 对 应 于 所 有 内 生 变 量 的 残差 , 对 于 有 P 个 内 生 变 量 的 模 型 , 能 够 计 算 出 这 样 一 个 指 数 :Ri=1 一 c1 - R~) c1 - R;) …c1 - R~)该 指 数 表 示 由 模 型 能 够 解 释 的 广 义 方 差 占 总 广 义 方 差 的 比 例 。 将 原 模 型 与 化 简 后 模 型 的 指数 相 比 , 则 可 以 得 到 一 个 测 量 值 。:• 144 •


根 据 该 测 量 值 , 可 以 计 算 出 一 个 统 计 量 W:。 1-RL 模 型1 - R~{Ij 化 模 型W = - (n - d) ln Q其 中 n 为 样 本 量 , d 为 简 化 模 型 中 所 删 除 的 路 径 数 目 。 当 样 本 量 较 大 时 , W 服 从 自 由 度 为 d的 卡 方 分 布 , 这 样 就 可 以 使 用 卡 方 检 验 来 进 行 两 个 模 型 间 的 比 较 了 。土 文 曾 经 提 到 路 径 分 析 模 型 可 被 分 为 递 归 模 型 和 非 递 归 模 型 两 大 类 , 由 于 前 者 可 以 被 分 解为 多 重 回 归 方 程 组 , 因 此 分 析 要 简 单 得 多 , 可 以 从 原 理 上 采 用 多 重 线 性 回 归 方 法 来 拟 合 。 具 体 做法 为 按 路 径 分 析 图 中 存 在 的 因 变 量 数 分 别 拟 合 各 自 的 多 重 线 性 回 归 方 程 。 而 非 递 归 模 型 则 不然 , 往 往 需 要 采 用 更 为 专 业 的 算 法 和 软 件 才 能 力 日 以 拟 合 。 如 SPSS公 司 专 门 用 于 求 解 路 径 分 析 模型 和 更 复 杂 的 结 构 方 程 模 型 的 软 件 AMOS 就 可 以 完 成 这 一 任 务 。 本 书 由 于 所 使 用 的 工 具 为SP 筒 , 因 此 随 后 讨 论 的 实 例 将 仅 限 于 递 归 模 型 , 对 更 复 杂 的 非 递 归 模 型 感 兴 趣 的 读 者 可 以 参 考AMOS 的 用 户 手 册 。实 际 上 , 路 径 分 析 技 术 最 初 是 从 对 相 关 系 数 进 行 分 解 发 展 而 来 的 , 所 以 对 于 递 归 模 型 而 言 ,如 果 要 估 计 各 路 径 的 系 数 , 实 际 上 也 可 以 通 过 对 各 路 径 进 行 偏 相 关 分 析 来 实 现 , 因 本 书 篇 幅 所限 , 对 此 感 兴 趣 的 读 者 可 以 参 见 本 章 参 考 文 献 第 二 条 , 其 中 有 非 常 详 细 的 讨 论 , 这 里 不 再 详 述 。7.2.2 分 析 实 例例 7. 2 现 收 集 了 某 种 疾 病 病 人 的 住 院 数 据 , 包 括 如 下 变 量 : 性 别 、 年 龄 、 婚 姻 状 况 ( 两 分类 )、 入 院 情 况 ( 三 级 评 分 , 分 值 越 高 代 表 情 况 越 好 )、 住 院 天 数 和 住 院 总 费 用 。 因 年 龄 、 住 院 天 数和 住 院 总 费 用 均 为 偏 态 分 布 , 故 首 先 进 行 了 对 数 变 换 , 现 希 望 对 住 院 总 费 用 的 影 响 因 素 进 行 分析 , 数 据 见 path. savo根 据 常 识 , 住 院 天 数 越 长 、 费 用 就 会 越 高 , 但 同 时 住 院 天 数 也 会 受 其 他 自 变 量 的 影 响 , 因 此 综合 考 虑 之 下 , 本 例 应 当 拟 合 如 下 的 路 径 分 析 模 型 :( 内 =α2 响 x t:UJIj + ß22 x 时 + 乱 × 婚 否 中 评 分19 费 用 =α1+β11 X 性 别 +β12 x 19 年 龄 +β34 X 婚 否 +β14 X 评 分 +β15 x 19 天 数下 面 考 虑 对 该 模 型 加 以 拟 合 , 由 于 整 个 模 型 显 然 是 一 个 递 归 模 型 , 因 此 可 以 在 SPSS 中 使 用分 别 拟 合 回 归 方 程 的 方 法 来 实 现 对 模 型 中 各 参 数 的 估 计 , 首 先 对 住 院 天 数 的 回 归 方 程 进 行 估 计 ,结 果 参 见 表 7.6 和 表 7.70表 7.6Model SummaryModel R R Square Adjusted R Square Std. Error of the Estimate235 3 .055 .053 .18142a. Prediclors' (Conslant) , 入 院 情 况 ! 婚 姻 状 况 , 性 男 1 1. Ig( 年 龄 )可 见 年 龄 、 婚 姻 状 况 和 入 院 情 况 均 对 住 院 天 数 有 影 响 , 但 性 别 无 统 计 学 意 义 。 年 龄 越 大 、 未婚 、 入 院 情 况 较 好 者 住 院 时 间 较 长 。• 145 •


表 7.7Coefficients aUnslandardized CoefficienlsSlandardized CoefficientsModel B Sld. Error Bela Sig(Conslant) 45 才 043 10.459 000性 别 -.004 009 -.010 -.4 18 676Ig( 年 龄 ) 242 034 .263 7.138 000婚 姻 状 祝 029 014 .077 2.082 037入 院 情 况 .038 .009 .098 4.155 .000a Dependent Variable: 1 自 ( 住 院 天 数 )下 面 对 第 二 个 回 归 方 程 进 行 估 计 , 结 果 参 见 表 7. 8 和 表 7.90表 7.8Model SummaryModel R R Square Adjusted R Square Std. Error of Ihe Estimale462 a .213 .21 才 20323a. Predictors. (Constant). Ig( 住 院 天 数 ). 性 另 1]. 入 院 情 况 婚 姻 状 况 .Ig( 年 龄 )表 7 . 9 Coefficients aUnstandardized CoefficienlsSlandardized CoefficienlsModel B Sld. Error Bela Sig(Conslanl) 3.008 050 60.306 .000性 另 IJ -.030 .010 -.066 -3.065 .002Ig( 年 龄 ) 162 039 143 4.203 .000婚 姻 状 况 014 016 031 910 .363入 院 情 况 -.087 010 -.184 -8.475 .000Ig( 住 院 天 数 ) 453 027 369 才 6.679 .000a. Dependent Variable: 1 自 ( 宦 院 吕 费 用 )结 果 显 示 除 婚 姻 状 况 外 , 其 余 变 量 均 对 费 用 有 影 响 , 男 性 、 年 龄 较 大 、 入 院 情 况 较 差 者 费 用 较高 , 住 院 天 数 越 长 , 住 院 费 用 也 更 高 。读 者 可 能 会 发 现 一 个 很 有 趣 的 现 象 , 就 是 如 果 只 是 拟 合 第 二 个 方 程 的 话 , 则 所 得 到 的 结 果 其实 就 是 一 个 简 单 的 多 重 回 归 方 程 结 果 , 而 且 可 知 自 变 量 间 是 存 在 共 线 性 的 。 显 然 , 对 于 住 院 费 用而 言 , 使 用 路 径 分 析 模 型 建 模 时 对 其 变 异 的 解 释 度 ( 决 定 系 数 ) 和 直 接 进 行 回 归 分 析 并 无 差 异 ,也 就 是 说 , 路 径 分 析 并 不 会 使 得 模 型 对 最 终 结 果 变 量 的 预 测 变 得 更 加 准 确 。 但 是 , 通 过 对 自 变 量问 复 杂 关 联 的 刻 画 , 路 径 分 析 模 型 可 以 很 精 细 地 估 计 出 每 一 个 自 变 量 究 竟 是 通 过 何 种 方 式 来 作用 于 最 终 因 变 量 的 , 从 而 使 得 研 究 者 对 问 题 的 理 解 更 为 深 入 和 全 面 。在 上 面 的 结 果 中 , 看 到 性 别 、 婚 姻 状 况 分 别 在 一 个 方 程 中 无 统 计 学 意 义 , 为 此 可 以 将 上 述 模型 加 以 简 化 , 去 除 这 些 无 统 计 学 意 义 的 变 量 后 重 新 加 以 拟 合 , 分 析 结 果 参 见 表 7.10 和 表 7.110• 146 •


表 7. 10 Model SummaryModel R R Square Adjus 恒 d R Square Std. Error of the Eslimate.235 a ,055 ,053a. Predictors: (Constant) , 入 院 情 现 ! 婚 姻 状 况 , Ig( 年 龄 ). 才 8138表 7. 11 Coefficients aUnstandardized CoefficienlsSlandardized CoefficienlsModelBSld , ErrorBelaSig(Constant)44604110.847000Ig( 年 龄 )242034 .2637,150000婚 姻 状 况-,029,014 -.077-2.084,037入 院 情 况038009 .0984.141000a. De 口 endent Variable I 自 ( 宦 院 天 数 )可 见 方 程 的 决 定 系 数 基 本 未 变 , 现 在 所 有 的 自 变 量 均 有 统 计 学 意 义 。表 7. 12 Model SummaryModel R R Square Adjus 恒 d R Square Std. Error of the Estimate462 a .2 才 3 .211 20322a. Predictors' (Constant) , 性 剔 , 1 目 ( 住 院 天 数 ), 入 院 情 况 , Ig( 年 龄 )表 7.13Coefficients au 门 standardized Coefficients Slandardized CoefficientsModel B Std. Error Beta(Constanl) 2.992 .047 63,835Ig( 年 龄 ) 189 025 167 7.580入 院 情 况 -.087 010 - 才 83 -8 .465Ig( 佳 院 天 数 ) 452 027 368 才 6.655性 另 IJ .030 010 066 3 ,064Sig.000.000.000.000.002a Dependent Variable 1 自 ( 住 院 且 费 用 )和 住 院 天 数 的 方 程 一 样 , 决 定 系 数 也 基 本 未 发 生 变 化 , 自 变 量 均 有 统 计 学 意 义 , 参 见 表 7.12和 表 7.130 显 然 , 化 简 后 的 路 径 分 析 模 型 对 数 据 的 解 释 程 度 与 前 一 个 模 型 相 比 并 无 改 变 , 但 更加 简 洁 。本 例 所 拟 合 的 路 径 分 析 模 型 可 以 使 用 标 化 系 数 绘 制 出 路 径 分 析 图 如 图 7.3 所 示 。• 147 •


婚 古入 院 情 况0.09819 年 龄0.167。 .066性 别图 7.3 最 终 的 模 型 路 径 图 ( 标 化 系 数 )思 考 与 练 习使 用 路 径 分 析 模 型 对 本 章 的 例 7. 1 进 行 分 析 , 并 尝 试 着 对 模 型 中 不 必 要 的 路 径 加 以 简 化 ( 注 : 因 使 用 SPSS拟 合 , 在 模 型 中 先 不 要 考 虑 、 双 向 影 响 的 问 题 , 仍 然 按 照 例 题 的 思 路 分 析 )。参 考 文 献1 Stata Corp. , Stata Reference Manual, Release 5. College Station , TX: Stata Press , 19972 郭 志 刚 主 编 . 21 世 纪 社 会 学 系 列 教 材 社 会 统 计 分 析 方 法 :SPSS 软 件 应 用 . 北 京 : 中 国 人 民 大 学 出版 社 , 19993 吴 明 隆 . SPSS 统 计 应 用 实 务 . 北 京 : 中 国 铁 道 出 版 社 , 20004 张 家 放 主 编 . 医 用 多 元 统 计 方 法 . 武 汉 : 华 中 科 技 大 学 出 版 社 , 2002• 148 •


第 8 章 非 线 性 回 归 模 型8.1 模 型 简 介8. 1. 1 问 题 的 提 出前 面 章 节 中 曾 经 涉 及 自 变 量 和 因 变 量 间 里 曲 线 关 系 的 情 形 , 当 时 采 用 的 是 曲 线 直 线 化 的 策略 , 即 在 曲 线 关 系 比 较 简 单 时 , 可 以 进 行 变 量 变 换 将 曲 线 关 系 转 换 为 直 线 关 系 , 从 而 利 用 Linear过 程 分 析 。 但 是 , 曲 线 直 线 化 的 方 法 有 着 自 身 的 缺 陷 , 下 面 这 些 问 题 它 就 无 法 解 决 : 变 量 变 换 可 以 解 决 一 部 分 曲 线 拟 合 的 问 题 , 但 是 直 线 回 归 采 用 的 是 最 小 二 乘 法 , 它 保 证的 是 变 换 后 的 残 差 平 方 和 最 小 , 如 果 变 换 回 原 始 数 值 , 则 并 不 一 定 是 最 优 方 程 。 当 曲 线 关 系 极 为 复 杂 , 甚 至 不 存 在 显 示 表 达 式 时 , 往 往 是 不 可 能 通 过 变 量 变 换 转 换 为 直线 方 程 的 , 此 时 线 性 回 归 将 爱 莫 能 助 。 曲 线 直 线 化 后 仍 然 是 采 用 最 小 二 乘 法 加 以 拟 合 , 对 于 更 复 杂 的 拟 和 方 式 无 法 实 现 , 如 最小 一 乘 法 、 复 杂 的 加 权 方 法 等 。显 然 , 在 这 些 情 况 下 , 需 要 寻 求 更 强 的 分 析 方 法 。 非 线 性 回 归 就 是 针 对 以 上 更 复 杂 的 问 题 而提 出 的 一 个 通 用 的 模 型 框 架 , 它 采 用 迭 代 方 法 对 用 户 设 置 的 各 种 复 杂 曲 线 模 型 进 行 拟 合 , 同 时 将残 差 的 定 义 从 最 小 二 乘 法 向 外 大 大 扩 展 , 为 用 户 提 供 了 极 为 强 大 的 分 析 能 力 。8. 1. 2 模 型 入 门非 线 性 回 归 模 型 一 般 可 以 表 示 为 如 下 形 式 :Yi 夕 + e i = fCχ , θ) + e i其 中 fCx , θ) 为 期 望 函 数 , 该 模 型 的 结 构 和 线 性 回 归 模 型 非 常 相 似 , 所 不 同 的 是 期 望 函 数fCx , θ) 可 能 为 任 意 形 式 , 在 有 的 情 况 下 甚 至 于 可 以 没 有 显 式 表 达 式 。许 多 较 为 简 单 的 非 线 性 模 型 可 以 通 过 变 量 变 换 转 化 为 线 性 模 型 , 它 们 又 被 称 为 可 变 换 为 线性 的 模 型 。 在 非 线 性 回 归 中 , 可 变 换 为 线 性 的 模 型 有 许 多 优 点 , 诸 如 易 于 求 得 某 些 参 数 的 初 始 值等 。 如 果 采 用 将 它 们 变 换 为 线 性 模 型 , 然 后 进 行 估 计 的 策 略 , 则 就 是 前 面 己 经 学 习 过 的 曲 线 回归 。 然 而 , 必 须 指 出 , 数 据 的 变 换 会 导 致 随 机 误 差 项 分 布 的 变 换 , 认 清 这 点 非 常 重 要 , 因 为 这 将 影响 到 最 小 二 乘 法 所 求 得 的 解 的 含 义 , 以 及 模 型 的 适 用 条 件 。 如 果 假 定 变 换 前 模 型 的 误 差 项 服 从正 态 分 布 , 则 对 于 变 换 后 的 数 据 来 说 , 其 相 应 的 误 差 项 很 可 能 就 不 再 服 从 这 一 { 固 定 , 反 之 亦 然 , 不仅 是 正 态 性 , 包 括 方 差 齐 性 、 独 立 性 可 能 都 会 出 现 这 种 问 题 。 因 此 , 变 换 后 的 线 性 模 型 采 用 最 小• 149 •


二 乘 法 求 得 的 最 佳 参 数 估 计 值 并 不 一 定 是 原 模 型 的 最 佳 估 计 。 显 然 , 在 较 为 复 杂 的 非 线 性 模 型中 , 这 一 影 响 有 可 能 非 常 严 重 。 因 此 , 在 精 度 要 求 较 高 , 或 者 模 型 较 复 杂 的 非 线 性 回 归 问 题 中 , 采用 曲 线 直 线 化 来 估 计 非 线 性 方 程 并 不 是 一 个 好 的 策 略 。那 么 , 非 线 性 模 型 是 如 何 估 计 模 型 参 数 的 呢 ? 事 实 上 它 的 参 数 估 计 的 基 本 思 想 非 常 类 似 于线 性 模 型 , 也 是 先 给 出 一 个 表 示 估 计 误 差 的 函 数 ( 损 失 函 数 ) , 然 后 使 得 该 函 数 取 值 最 小 化 , 并 求得 此 时 的 参 数 估 计 值 。 以 常 用 的 最 小 二 乘 法 为 例 , 它 也 是 设 法 找 到 使 得 各 数 据 点 离 模 型 回 归 线纵 向 距 离 的 平 方 和 达 到 最 小 的 估 计 值 ( 损 失 函 数 为 残 差 绝 对 值 平 方 ) , 但 此 处 的 模 型 回 归 线 就 是相 应 的 曲 线 , 而 不 是 线 性 回 归 中 的 直 线 , 或 者 曲 线 拟 合 中 变 换 后 的 直 线 。由 于 期 望 函 数 并 非 直 线 , 使 得 模 型 无 法 直 接 计 算 出 最 小 二 乘 估 计 的 参 数 值 , 因 此 非 线 性 回 归 模型 一 般 采 用 高 斯 一 牛 顿 法 进 行 参 数 估 计 。 这 一 方 法 是 利 用 对 期 望 函 数 做 泰 勒 级 数 展 开 , 以 达 到 线性 近 似 的 目 的 , 并 反 复 迭 代 求 解 。 其 基 本 思 路 是 : 首 先 为 所 有 未 知 参 数 指 定 一 个 初 始 值 , 然 后 将 原方 程 按 泰 勒 级 数 展 开 , 并 只 取 一 阶 各 项 作 为 线 性 函 数 的 逼 近 , 其 余 项 均 归 入 误 差 中 ; 然 后 采 用 最 小二 乘 法 对 该 模 型 中 的 参 数 进 行 估 计 ; 用 参 数 估 计 值 替 代 初 始 值 , 将 方 程 再 次 展 开 , 进 行 线 性 化 , 从 而又 可 以 求 出 一 批 参 数 估 计 值 ; 如 此 反 复 , 直 至 参 数 估 计 值 收 敛 为 止 。 显 然 , 这 一 方 法 计 算 非 常 复 杂 ,必 须 借 助 于 计 算 机 完 成 , 并 且 在 许 多 时 候 , 初 始 值 的 设 定 对 模 型 能 否 顺 利 求 解 是 有 影 响 的 。非 线 性 回 归 模 型 在 SPSS中 可 以 采 用 由 和 c 由 两 个 过 程 来 拟 和 , 前 者 用 于 一 般 的 非 线 性 模 型 , 后者 可 用 于 带 约 束 条 件 的 非 线 性 模 型 的 拟 合 , 适 用 范 围 更 广 , 算 法 也 不 相 同 。 但 在 对 话 杠 级 别 中 , 它 们 都统 一 由 regress 菜 单 中 的 nor 由8.2 简 单 分 析 实 例这 里 将 仍 然 采 用 第 6 章 中 曲 线 拟 合 的 分 析 实 例 , 在 第 6 章 中 , 通 过 对 数 据 进 行 变 换 , 原 来 通风 时 间 和 毒 物 浓 度 间 的 曲 线 关 系 被 转 换 成 了 直 线 , 从 而 可 以 通 过 直 接 进 行 线 性 回 归 得 到 分 析 结果 。 但 是 , 此 时 是 按 照 变 换 后 的 数 据 关 系 得 到 最 小 二 乘 结 果 的 , 它 是 否 仍 然 是 变 换 前 的 最 优 结果 , 或 者 说 是 变 换 前 误 差 最 小 的 曲 线 模 型 呢 ? 这 里 将 采 用 非 线 性 回 归 的 方 法 对 该 案 例 进 行 分 析 。8.2.1 软 件 操 作 与 界 面 说 明由 于 在 第 6章 中 己 经 对 本 数 据 进 行 了 详 细 的 探 讨 , 这 里 不 再 进 行 预 分 析 , 直 接 进 行 非 线 性 回归 分 析 , 操 作 如 下 :: Analyze 一 今 Regression 一 今 Nonlinear Regression!Dependent 杠 : y:Model Expr'ess lOn 丰 匡 : a X exp Cb x time)|P 盯 ame 阳 1:Name 杠 : A: Starting Value 杠 :1: IADDIName 杠 : B: Starting Value 杠 : 1: 区 国|Continuel囚• 150 •


相 应 的 主 对 话 杠 如 图 8. 1 所 示 , 和 线 性 回 归 一 样 , 非 线 性 回 归 也 需 要 指 定 因 变 量 , 此 处 为 变量 y 。 但 是 , 由 于 非 线 性 回 归 模 型 可 能 的 模 型 表 达 式 种 类 繁 多 , 为 了 方 便 使 用 , 对 话 杠 中 直 接 提供 了 Model Expression 框 , 由 用 户 直 接 按 需 要 键 入 相 应 的 表 达 式 。 图 8. 1 中 下 方 的 软 键 盘 和 函 数列 表 也 是 为 了 方 便 书 写 模 型 表 达 式 而 设 立 的 。由 于 非 线 性 回 归 模 型 是 采 用 迭 代 的 方 法 求 解 , 因 此 必 须 为 所 有 模 型 参 数 设 定 一 个 初 始 值 , 具体 在 Parameters 子 对 话 杠 中 操 作 。 本 例 中 为 方 便 起 见 , 将 参 数 α 和 b 的 初 始 值 一 律 设 定 为 1 。 它对 于 本 例 这 种 简 单 模 型 的 拟 和 中 是 可 行 的 , 但 是 对 于 复 杂 的 模 型 , 初 始 值 的 设 定 是 一 个 需 要 小 心考 虑 的 问 题 , 详 细 介 绍 参 见 本 章 末 。图 8. 1 Non-li 时 ar Regression 过 程 主 对 话 框8.2.2 基 本 分 析 结 果结 果 输 出 标 题 为 "Non-limar Regression,,, 具 体 内 容 如 下 :以 下 方 杠 中 的 文 本 输 出 为 迭 代 过 程 记 录 , 由 于 输 出 太 长 , 这 里 删 除 了 中 间 部 分 。 观 察 残 差" 的 变 化 , 可 见 随 着 迭 代 地 进 行 , 残 差 ss 变 得 越 来 越 小 , 也 就 是 说 模 型 无 法 解 释 的 变 异 部 分 越来 越 少 。 但 这 一 过 程 不 是 无 限 进 行 下 去 的 , 当 进 行 了 15 步 迭 代 , 共 拟 合 了 32 个 模 型 后 , 残 差 ss以 及 各 参 数 的 估 计 值 均 稳 定 下 来 , 模 型 达 到 收 敛 标 准 。Iteration Residual SS A B1 1. 2359E + 13 1.00000000 1.000000001. 1 24. 83019604 .000001051 .9999999302 24. 83019604 .000001051 .9999999302.1 13. 32049895 .000001088 .93127682614 .0681052494 2. 85365413 一 .26747980• 151 •


14.1 .0681052465 2.85359225 一 .2674708715 .0681052465 2.85359225 一 .2674708715.1 .0681052465 2.85359522 一 .26747131Run stopped after 32 model evaluations and 15 derivative evaluations.Iterations have been stopped because the relative reduction between successiveresidual sums of squares is at most SSCON = 1. OOOE - 08接 下 来 方 杠 中 的 文 本 为 对 模 型 进 行 近 似 方 差 分 析 的 结 果 , 相 应 的 原 假 设 为 : 所 拟 合 的 模 型 对因 变 量 的 预 测 无 贡 献 。 由 于 这 里 进 行 的 是 非 线 性 回 归 , 方 差 分 析 的 F 值 和 p{ 直 只 有 参 考 意 义 ,因 此 结 果 中 并 不 给 出 , 用 户 可 以 手 工 计 算 。 显 然 , 最 终 的 P 值 远 小 于 0.05 , 拒 绝 原 假 设 , 可 以 认为 模 型 对 于 因 变 量 的 预 测 是 有 作 用 的 。方 杠 中 的 最 下 方 计 算 出 了 模 型 的 决 定 系 数 为 0.989 , 与 第 6 章 曲 线 拟 合 模 型 的 0.961 相 比 ,模 型 的 拟 合 效 果 似 乎 又 有 了 改 进 , 对 此 问 题 将 随 后 讨 论 。Nonlinear Regression Summary StatisticsDependent Variable YSource DF Sum of Squares Mean SquareRegression 2 11.50822 5.75411Residual 13 .06811 5. 238865E - 03Uncorrected Total 15 11. 57632CCorrected TotaD 14 6. 16660R squared = 1 - Residual SS / Corrected SS = .98896和 线 性 回 归 模 型 一 样 , 方 差 分 析 之 后 给 出 的 是 模 型 中 未 知 参 数 的 点 估 计 和 区 间 估 计 值 , 注 意参 数 估 计 值 的 标 准 误 为 近 似 标 准 误 , 所 以 相 应 的 可 信 区 间 仅 供 参 考 , 当 可 信 区 间 的 界 值 离 O 较 近时 , 下 结 论 应 慎 重 。 也 正 是 由 于 此 原 因 , 接 下 来 方 杠 中 的 文 本 输 出 并 不 给 出 基 于 u果 。 由 以 上 结 果 , 可 以 得 出 模 型 方 程 如 下 :ý = 2. 853 6 x time -0. 267 5检 验 的 检 验 结ParameterEstimateAsymptoticStd. ErrornL rtIo nJKYUhιoι叫 刊 plE Et t时e附rpuoy-- 5 %盯「 n ιE utlh二〕刊 咒m 1·IvtA 2.853595221 .100744118 2.635950786 3.071239656B 一 .267471305 .011676972 一 .292697870 一 .242244741接 下 来 方 杠 中 的 文 本 输 出 的 最 后 一 部 分 为 各 参 数 的 相 关 系 数 阵 , 对 于 较 复 杂 的 模 型 , 参 数 间• 152 •


的 相 关 系 数 可 用 来 辅 助 进 行 模 型 的 改 进 , 本 例 中 无 太 多 价 值 。Asymptotic Correlation Matrix of the Parameter EstimatesABA 1. 0000 一 .7967B 一 . 7967 1. 00008.2.3 模 型 的 进 一 步 分 析上 面 用 非 线 性 回 归 的 方 法 得 到 了 模 型 表 达 式 的 估 计 值 。 显 然 , 该 表 达 式 和 曲 线 拟 合 所 得 到 的结 果 并 不 相 同 , α 、 b 两 系 数 相 差 不 小 。 究 竟 哪 一 个 方 程 更 好 呢 ? 虽 然 从 决 定 系 数 上 看 似 乎 是 非 线性 回 归 的 方 程 更 优 , 但 需 要 指 出 的 是 , 曲 线 拟 合 中 计 算 出 的 决 定 系 数 实 际 上 是 曲 线 直 线 化 后 直 线 方程 的 决 定 系 数 , 并 不 一 定 代 表 变 换 前 的 变 异 解 释 程 度 , 即 两 个 模 型 的 决 定 系 数 可 能 是 不 可 比 的 。为 了 能 直 观 地 对 两 个 模 型 进 行 比 较 , 这 里 分 别 对 本 数 据 拟 合 这 两 个 模 型 , 并 利 用 Save 子 对话 杠 求 得 各 自 的 模 型 预 测 值 与 预 测 残 差 , 并 绘 制 图 形 如 图 8.2 所 示 。 图 8.2 Ca) 是 原 始 数 据 、 曲线 拟 合 模 型 、 非 线 性 回 归 模 型 三 者 的 比 较 , 从 中 可 见 在 通 风 时 间 大 于 4 min 时 , 两 个 模 型 的 预 测效 果 基 本 接 近 , 似 乎 是 非 线 性 回 归 模 型 更 好 一 些 。 但 是 在 小 于 4 min 时 , 则 曲 线 拟 和 模 型 的 预 测效 果 明 显 较 差 。 特 别 是 第 1 、 2 分 钟 的 数 据 , 显 然 预 测 误 差 较 大 。图 8.2曲 线 拟 和 模 型 与 非 线 性 回 归 模 型 预 测 效 果 的 比 较图 8.2 Cb) 是 两 个 模 型 残 差 的 比 较 , 可 见 曲 线 拟 合 模 型 对 第 1 分 钟 的 毒 物 浓 度 值 预 测 残 差 非常 大 , 而 非 线 性 回 归 相 应 的 残 差 就 很 小 。 除 第 1分 钟 外 , 其 余 各 点 的 残 差 也 基 本 上 都 是 后 者 为优 。 显 然 , 综 合 比 较 之 下 , 非 线 性 回 归 模 型 的 拟 合 效 果 要 更 好 。8.3 自 定 义 损 失 函 数 最 小 一 乘 法 实 例迄 今 为 止 , 在 拟 合 回 归 模 型 时 都 是 按 照 最 小 二 乘 法 的 原 则 进 行 的 , 即 将 预 测 值 和 实 测 值 之 差( 残 差 ) 的 平 方 和 达 到 最 小 作 为 模 型 最 优 的 评 判 标 准 , 这 被 称 为 模 型 的 误 差 函 数 , 或 者 损 失 函 数 。• 153 •


最 小 二 乘 法 由 于 在 统 计 理 论 上 可 以 得 到 非 常 好 的 推 导 , 应 用 十 分 广 泛 。 但 是 , 该 方 法 也 并 非 万能 , 它 也 有 自 身 的 弱 点 , 最 主 要 的 一 点 是 对 强 影 响 点 比 较 敏 感 。 由 于 采 用 的 是 残 差 平 方 和 , 绝 对值 越 大 的 残 差 , 在 平 方 之 后 其 影 响 就 会 被 放 得 更 大 , 从 而 导 致 回 归 线 明 显 向 这 些 强 影 响 点 偏 离 。这 时 研 究 者 就 应 当 考 虑 换 用 其 他 拟 合 标 准 。8.3.1 分 析 实 例下 面 用 分 析 实 例 对 此 问 题 进 行 说 明 。 某 公 司 生 产 的 产 品 其 成 本 主 要 受 两 种 原 材 料 的 影 响 ,为 及 时 调 整 生 产 , 协 调 库 存 , 现 收 集 了 一 批 产 品 产 量 与 相 应 生 产 中 两 种 原 材 料 消 耗 量 的 数 据 , 见文 件 nlin2. sav 。 现 就 此 建 立 原 材 料 消 耗 量 与 产 量 ( 因 变 量 ) 间 的 回 归 方 程 。本 例 中 共 有 两 个 自 变 量 , 一 个 因 变 量 , 如 果 直 接 进 行 线 性 回 归 分 析 , 则 结 果 参 见 表 8.10表 8. 1 Coefficients aUnstandardized8tandardizedModel(Constant)CoefficienlsB8td. Error才 24.772 127.376CoefficienlsBela980问一< JnunuA 7aFbnb『njLnu原 料 才12.2664.7714352.571原 料 23.7801.142.5603.309a.De 口 endent Variable合 同 主 精由 表 8. 1 可 知 , 两 种 原 材 料 均 和 产 量 有 关 , 相 应 的 回 归 方 程 为 :y = 124. 778 2 + 12. 266 x x 1 + 3.78 x x 2 (8. 1)为 了 对 数 据 的 理 解 更 为 充 分 , 现 绘 制 两 种 原 材 料 消 耗 量 和 产 量 间 的 重 叠 散 点 图 如 图 8. 3 所刁 亏 。图 8. 3 原 材 料 消 耗 量 和 产 量 的 重 叠 散 点 图• 154 •


从 图 8. 3 中 可 以 看 到 , 两 种 原 料 消 耗 量 和 产 量 问 均 呈 较 明 显 的 线 性 关 系 。 但 其 中 原 料 1 的第 6 条 记 录 和 原 料 2 的 第 14 条 记 录 散 点 均 偏 离 主 要 趋 势 较 远 , 即 相 同 产 量 下 原 材 料 消 耗 过 多 ,在 统 计 模 型 中 则 呈 现 为 强 影 响 点 。 图 8. 3 中 分 别 绘 制 出 了 两 个 单 变 量 回 归 方 程 的 参 照 线 。 显然 , 这 两 个 回 归 方 程 均 受 到 了 相 应 强 影 响 点 的 作 用 而 偏 离 主 要 趋 势 。 在 式 (8.1) 双 变 量 回 归 方程 中 , 情 形 也 必 然 相 同 。 为 此 , 需 要 考 虑 使 用 能 够 削 弱 强 影 响 点 作 用 的 拟 合 方 法 。在 各 种 替 代 方 法 中 , 最 小 一 乘 法 是 比 较 简 单 和 易 于 理 解 的 一 种 。 它 将 预 测 值 与 实 测 值 之 差( 残 差 ) 的 绝 对 值 之 和 作 为 损 失 函 数 。 这 样 , 由 于 不 再 进 行 平 方 , 相 应 强 影 响 点 的 作 用 就 会 远 小于 二 乘 法 中 了 。SPSS 的 非 线 性 回 归 过 程 中 为 用 户 提 供 了 自 定 义 损 失 函 数 的 功 能 , 具 体 在 Loss 子 对 话 杠 中 实现 , 本 例 操 作 如 下 :iAnalyze• Regression• Nonlinear RegressioniDependent 杠 : yiModel Express lOn 杠 : a + b1 x x1 + b2 x x2|P 盯 ame 阳 1:Name 杠 : A: Starting Value 杠 :1: IADDIName 杠 : B 1 : Starting Value 杠 :1: IADDIName 杠 : 曰 : Starti 吨 Value杠 :1:~ 国|Continuel匾 圄 虽 : 盯 何 附 叶 r 卜 叫 山 咐 创 de 叫 - 叫 efi 斗 削 耐 f 白 fin 耐 州圄操 作 中 使 用 到 的 Loss 子 对 话 杠 如 图 8.4 所 示 , 可 见 除 模 型 中 己 有 的 变 量 和 参 数 外 , SPSS 还提 供 了 两 个 系 统 变 量 resid 一 和 pred_ , 它 们 分 别 代 表 残 差 和 预 测 值 , 可 直 接 在 损 失 函 数 定 义 中 使用 。 此 处 使 用 了 resid 一 。 操 作 时 系 统 会 弹 出 警 告 对 话 框 , 要 求 更 改 拟 和 方 法 , 确 认 即 可 。 关 于 拟和 方 法 的 详 细 内 容 参 见 本 章 末 。图 8.4 Loss 子 对 话 框• 155 •


8.3.2 结 果 解 释相 应 的 分 析 结 果 如 下 :Iteration Loss funct A B1 B20.1 10410.55113 1.00000000 1.00000000 1.000000001. 1 285 1. 255127 1. 05619148 2.55165845 6.238855322.1 1858.019387 1. 30078339 18. 1078773 4.587964843. 1 1375.351023 1. 27418483 20. 7730765 2. 191182264.1 1132. 101260 1. 19730008 16.9314349 4.060061275. 1 1080.088794 1. 65036256 20.3029701 3.039944146. 1 1038.530447 1. 78182518 19.3106402 3. 196796417. 1 1034.677751 3.42375127 19. 7107206 3.051816698. 1 1032.924691 4. 14273965 19. 7490266 3.017249479. 1 103 1. 970193 5.00530188 19. 7562044 3.0040737410. 1 103 1. 576210 6. 85758612 19. 7032225 3.0012676311. 1 103 1. 501517 12.5417941 19. 3681023 3.0674799212. 1 1030. 073831 9.38074986 19. 5619908 3.0248746713.1 1030.073806 9.38077274 19. 5619892 3.0248750314. 1 1030.022580 8.97113052 19. 5768230 3.02373404Run stopped after 15 major iterations.Cannot improve on the current point.由 于 一 乘 法 在 统 计 理 论 上 无 法 进 行 二 乘 法 那 样 严 密 的 推 导 , 所 以 分 析 结 果 非 常 简 单 , 仅 给 出了 迭 代 过 程 , 最 终 迭 代 终 止 时 的 参 数 值 即 为 参 数 估 计 值 , 从 中 可 见 相 应 的 损 失 函 数 为 1 030.02 ,即 残 差 绝 对 值 之 和 为 1 030.020 而 相 应 的 模 型 为 :y =8.971 1 + 19. 5768 xx1 +3.0237 xx2和 前 面 最 小 二 乘 法 得 到 的 模 型 相 比 , 三 个 模 型 参 数 估 计 值 都 有 较 大 变 化 , 特 别 是 常 数 项 , 从124 一 下 降 低 到 了 8.97 , 那 么 究 竟 哪 个 模 型 更 为 合 理 ? 由 于 决 定 系 数 、 剩 余 标 准 差 等 一 系 列 判 断指 标 均 是 基 于 最 小 二 乘 法 推 导 而 来 。 如 果 使 用 它 们 进 行 评 判 , 则 必 然 会 得 出 一 乘 法 模 型 效 果 较差 的 结 论 。 这 里 绘 制 出 两 个 模 型 的 预 测 值 与 残 差 的 散 点 图 如 图 8. 5 所 示 。从 图 8.5 可 见 , 对 于 大 部 分 纪 录 , 一 乘 法 模 型 预 测 值 的 残 差 都 要 小 于 二 乘 法 残 差 , 显 然 , 这 说明 一 乘 法 模 型 对 大 部 分 散 点 的 拟 合 效 果 是 比 二 乘 法 好 的 。 然 而 注 意 第 6 条 记 录 的 散 点 , 显 然 对于 第 6条 记 录 , 一 乘 法 模 型 预 测 值 的 残 差 明 显 大 于 二 乘 法 。 也 就 是 说 , 一 乘 法 对 于 强 影 响 点 更 有耐 受 力 , 和 普 通 的 二 乘 法 模 型 相 比 , 一 乘 法 相 应 的 模 型 对 大 多 数 散 点 的 拟 合 效 果 更 好 , 但 对 于 个别 强 影 响 点 的 拟 合 效 果 会 更 差 。通 过 对 各 参 数 、 变 量 、 系 统 变 量 和 函 数 的 组 合 , 使 用 者 还 可 以 定 义 出 各 种 类 型 的 损 失 函 数 , 读者 们 可 自 行 尝 试 , 这 里 不 再 详 述 。• 156 •


图 8.5一 乘 法 与 二 乘 法 模 型 残 差 的 比 较8.4 分 段 同 归 模 型 的 拟 合在 许 多 情 况 下 , 变 量 间 的 非 线 性 关 系 不 容 易 用 一 个 统 一 的 函 数 关 系 未 定 义 , 当 不 需 要 对 变 化规 律 作 全 局 性 的 分 析 时 , 通 常 可 以 截 取 其 中 关 系 较 为 重 要 和 简 单 的 部 分 进 行 分 析 。 例 如 儿 童 的身 高 和 年 龄 的 联 系 为 一 个 较 复 杂 的 曲 线 , 但 3 ~ 10 岁 时 基 本 里 线 性 关 系 , 则 我 们 可 以 只 分 析 这 一部 分 的 数 据 , 以 保 证 结 果 的 简 洁 和 稳 定 。 但 当 需 要 全 局 性 分 析 时 , 就 必 须 要 包 含 整 个 取 值 区 间 的数 值 。 如 果 整 个 序 列 可 以 用 分 段 函 数 的 方 式 表 达 , 则 可 以 对 模 型 进 行 分 段 拟 合 。 但 这 样 每 一 部分 均 单 独 估 计 , 参 数 较 多 ( 如 残 差 项 就 有 多 个 ) , 且 将 样 本 人 为 分 开 , 当 样 本 量 较 小 时 会 导 致 分 析结 果 的 准 确 性 较 差 。 而 使 用 非 线 性 回 归 过 程 就 可 以 对 分 段 函 数 进 行 直 接 拟 合 , 以 充 分 利 用 信 息 ,提 高 模 型 的 预 测 精 度 。8.4.1 分 析 实 例近 几 年 全 球 气 候 异 常 , 入 夏 以 来 全 国 各 地 用 电 量 纷 纷 吃 紧 , 如 果 能 准 确 预 测 各 种 温 度 状 况 下的 用 电 负 荷 , 则 会 大 大 提 高 电 网 运 行 和 能 源 调 配 的 效 率 。 某 地 监 测 了 5 ~ 8 月 共 一 百 余 天 的 日 平均 气 温 , 以 及 当 地 当 天 的 居 民 用 电 总 量 , 现 希 望 建 立 居 民 用 电 量 与 日 平 均 气 温 间 的 预 报 方 程 。 数据 见 文 件 powe r. sav 。为 了 能 够 对 变 量 间 的 关 系 有 基 本 的 了 解 , 先 绘 制 日 平 均 气 温 和 居 民 生 活 用 电 量 间 的 散 点 图如 图 8. 6 所 示 。由 图 8. 6 可 见 日 平 均 气 温 对 生 活 用 电 量 的 影 响 里 明 显 的 阶 段 函 数 : 大 约 在 24 0C 左 右 以 下时 , 用 电 量 并 不 会 随 着 气 温 的 改 变 而 改 变 ; 而 在 此 温 度 以 上 时 , 用 电 量 随 着 平 均 气 温 的 上 升 呈 现出 明 显 的 线 性 上 升 趋 势 。 即 可 能 的 模 型 应 当 如 下 :• 157 •


图 8. 6 日 平 均 气 温 和 居 民 生 活 用 电 量 间 的 散 点 图 power =α1 power =α2 + b x avetempax 刊〉/ht统】m4pl < 』非 线 性 回 归 模 型 中 可 以 直 接 对 该 分 段 模 型 进 行 拟 合 , 唯 一 的 难 点 是 模 型 表 达 式 只 能 写 在 一个 公 式 中 , 这 里 需 要 利 用 逻 辑 表 达 式 来 实 现 , 具 体 如 下 :power = Ca 飞 retemp < 24) xα1 + Ca 飞 retemp > = 24) x Cα2 + b x a 飞 retemp)逻 辑 表 达 式 根 据 avetemp 的 取 值 是 否 符 合 要 求 得 出 逻 辑 结 果 为 O 或 1, 从 而 实 现 了 分 段 模 型的 要 求 。 SPSS 中 的 操 作 如 下 :? A马寸:Ar 叫 yze→ Regression→ Nonli 时 ariDependent 杠 : powerRegression: Model Expression 杠 : Cavetemp < 24) * al + Ca 刊 temp> = 24) * Ca2 + b * a 刊 temp)|P 盯 ameters1:Name 杠 :Al : 如 此 i 吨 Vah 町 杠 :1: IADDIName 杠 :A2: 如 此 i 吨 Vah 町 杠 :1: IADDI咀Name 杠 : B: Starting Value tl!: 1: IADD I囚8.4.2 结 果 解 释该 模 型 的 主 要 结 果 如 下 :• 158 •


Source DF Sum of Squares Mean SquareRegression 3 623971542.033 207990514.011Residual 104 1427763. 30675 13728. 49333Uncorrected Total 107 625399305. 340CCorrected TotaD 106 7376050. 18897R squared = 1 - Residual SS / Corrected SS = .80643由 以 上 输 出 可 知 模 型 的 决 定 系 数 为 0.806 , 应 当 说 是 比 较 高 的 。接 下 来 方 杠 中 的 文 本 给 出 了 模 型 中 的 参 数 估 计 值 , 由 此 可 写 出 分 段 模 型 如 下 : power = 2 157.62 avetemp < 24 power = 77. 56 + 86. 54 x avetemp avetemp 注 24这 里 可 将 温 度 为 24 0C 代 入 模 型 , 可 算 得 power为 分 段 点 是 比 较 合 理 的 。的 估 计 值 为 2157.52 , 因 此 , 模 型 中 以 24 0C 作Asymptotic 95 %Asymptotic Confidence IntervalParameter Estimate Std. Error Lower UpperA1 2157.6176471 20.094258277 2117.7699788 2197.4653153A2 77.562177019 167.31453374 一 254.2288221 409.35317616B 86.535613824 5.913463146 74. 808994494 98.262233154图 8. 7 分 段 模 型 拟 合 效 果 的 观 察对 本 模 型 还 可 做 出 自 变 量 与 残 差 的 散 点 图 , 可 见 在 24 0C 前 后 残 差 的 分 布 规 律 并 无 明 显 变化 , 离 散 程 度 基 本 相 同 , 因 此 对 模 型 进 行 联 合 拟 合 是 合 理 的 。 图 8.7 Cb) 则 为 模 型 预 测 值 和 实 测• 159 •


值 的 散 点 图 , 可 见 预 测 模 型 基 本 反 映 了 用 电 量 的 平 均 水 平 。8.4.3 模 型 的 进 一 步 分 析以 上 己 经 得 到 了 模 型 的 分 析 结 果 , 但 并 非 没 有 改 进 的 余 地 。 例 如 设 定 α1 和 α2 间 存 在 换 算关 系 , 使 得 模 型 在 分 段 点 处 直 接 相 连 。 即 方 程 如 下 :power = (a 飞 retemp < 24) xα+ (a 飞 retemp> = 24) x (α + b x (a 飞 retemp - 24) )这 样 就 将 未 知 参 数 从 三 个 减 少 为 两 个 。 不 仅 如 此 , 模 型 中 的 分 段 点 24 0C 是 由 散 点 图 观 察 而来 , 究 竟 最 佳 分 段 点 是 多 少 ? 可 将 其 也 设 为 待 估 参 数 , 即 方 程 为 :power = (a 飞 retemp < cpoint) xα+ (a 飞 retemp > = cpoint) x (α + b x (a 飞 retemp - cpoint) )这 里 就 对 此 模 型 进 行 拟 合 。 但 是 , 由 于 该 模 型 设 置 较 为 复 杂 , 为 了 保 证 能 够 得 到 合 理 的 结果 , 此 处 需 要 对 代 表 分 段 点 的 变 量 cpoint 的 取 值 空 间 加 以 限 制 , 己 知 其 合 理 范 围 应 当 在 24 0C 附近 , 因 此 可 设 定 为 23 ~ 26 0C 之 间 。 相 应 的 操 作 应 当 在 Constraints 子 对 话 杠 中 完 成 , 操 作 完 毕 后 对话 杠 如 图 8. 8 所 示 。分 析 结 果 中 的 主 要 部 分 如 下 :图 8. 8 Constraints 子 对 话 框Source DF Sum of Squares Mean SquareRegression 3 623971425.568 207990475.189Residual 104 1427879. 77202 13729.61319Uncorrected Total 107 625399305. 340(Corrected TotaD 106 7376050. 18897R squared = 1 - Residual SS / Corrected SS =.80642决 定 系 数 为 0.806 , 和 前 面 基 本 相 同 。• 160 •


接 下 来 方 杠 中 的 文 本 给 出 的 是 模 型 中 的 参 数 估 计 值 , 可 见 前 面 肉 眼 直 接 估 计 的 分 段 值 24 0C还 是 基 本 正 确 的 , 因 此 相 应 的 参 数 估 计 值 也 基 本 变 化 不 大 。 由 此 可 写 出 最 终 的 分 段 模 型 如 下 : power = 2 156.54 avetemp < 24 power = 2 156.54 + 86. 15 x (avetemp - 24) avetemp 注 24Asymptotic 95 %Asymptotic Confidence IntervalParameter Estimate Std. Error Lower UpperA 2156. 5454937 19. 790394264 2117.3003992 2195. 7905882B 86. 153363045 6. 184408585 73. 889448742 98.417277348CPOINT 23. 999999903 .420892443 23. 165354393 24.8346454138.5 其 他 需 要 注 意 的 问 题为 便 于 读 者 理 解 , 本 章 涉 及 的 例 子 均 为 较 简 单 的 非 线 性 模 型 , 并 未 涉 及 复 杂 的 模 型 表 达 式 ,但 复 杂 模 型 的 基 本 分 析 思 路 是 相 同 的 。 为 方 便 应 用 , 这 里 指 出 非 线 性 模 型 分 析 时 需 要 注 意 的 几个 重 要 问 题 。8.5.1 参 数 初 始 值 的 设 定前 面 在 引 例 中 模 型 所 有 参 数 的 初 始 值 均 被 设 定 为 1, 这 是 因 为 所 拟 合 的 模 型 比 较 简 单 , 数 据也 不 多 , 无 论 初 值 如 何 , 通 过 迭 代 都 可 以 最 终 获 得 正 确 的 取 值 。 但 在 拟 合 复 杂 模 型 时 , 这 种 做 法有 可 能 带 来 严 重 的 问 题 , 或 者 迭 代 不 收 敛 , 或 者 只 得 到 模 型 的 局 部 最 优 解 , 而 不 是 全 局 最 优 解( 就 像 孔 子 登 | 陆 泰 山 后 一 览 众 山 小 , 实 际 上 泰 山 并 非 最 高 , 只 是 在 齐 鲁 大 地 这 一 区 域 内 最 高 , 真正 的 最 优 解 应 当 是 喜 马 拉 雅 山 上 的 珠 穆 朗 玛 峰 )。那 么 , 如 何 设 置 初 始 值 ? 有 以 下 几 点 可 供 参 考 :(1) 多 选 几 个 初 始 值 进 行 拟 合 , 观 察 最 终 分 析 结 果 是 否 相 同 。 如 果 相 同 , 自 然 皆 大 欢 喜 ; 如果 有 不 同 , 则 重 点 比 较 这 几 个 解 何 者 最 优 。(2) 当 模 型 表 达 式 可 解 时 , 先 从 图 形 上 取 几 个 点 , 解 出 各 参 数 的 近 似 值 , 然 后 作 为 初 始 值 代入 。 这 些 近 似 值 往 往 和 实 际 值 非 常 接 近 , 从 而 避 免 了 局 部 最 优 解 的 问 题 。(3) 如 果 模 型 过 于 复 杂 , 则 最 好 在 迭 代 时 首 先 简 化 模 型 , 拟 合 不 太 复 杂 的 雏 形 。 然 后 逐 步 添加 内 容 , 最 终 拟 合 目 标 模 型 。8.5.2 模 型 的 拟 合 方 法SPSS 中 为 非 线 性 回 归 模 型 提 供 了 两 种 算 法 , 分 别 为 Sequential Quadratic Programming 和 Levenberg- Marquardt 法 , 前 者 为 默 认 方 法 , 但 只 能 用 于 简 单 的 模 型 。 当 使 用 特 殊 的 损 失 函 数 , 或 者对 参 数 取 值 范 围 进 行 设 定 时 , 该 方 法 将 不 可 用 , 此 时 系 统 会 提 示 将 算 法 更 改 为 Sequential QuadraticProgramming , 对 此 用 户 只 需 确 认 即 可 。• 161 •


对 于 较 为 复 杂 的 模 型 , 默 认 输 出 的 参 数 近 似 标 准 误 可 能 误 差 较 大 , 此 时 建 议 使 用 Bootstrap抽 样 方 法 来 估 计 参 数 的 精 确 标 准 误 。 i 衷 方 法 由 Efron 于 1979 年 提 出 , 是 基 于 大 量 计 算 的 一 种 模拟 抽 样 统 计 推 断 方 法 , 可 以 对 相 应 参 数 计 算 出 更 准 确 的 可 信 区 间 。 但 是 , 作 为 一 种 模 拟 抽 样 的 统计 计 算 学 方 法 , Bootstrap 对 机 器 的 运 算 速 度 和 内 存 要 求 相 当 惊 人 , 运 算 时 间 可 能 动 辄 数 十 分 钟 。" 倒 在 这 里 一 般 只 抽 几 十 次 样 , 但 也 非 常 耗 时 , 如 果 模 型 过 于 复 杂 , 样 本 量 又 较 多 , 要 慎 用 此 法 ,至 少 先 估 计 一 下 时 间 够 不 够 用 。以 上 算 法 和 Bootstrap 方 法 均 在 Options 子 对 话 杠 中 选 择 。思 考 与 练 习1. 在 本 章 开 头 曾 经 提 到 , 如 果 使 用 曲 线 直 线 化 的 方 法 , 则 数 据 的 变 换 会 导 致 随 机 误 差 项 分 布 的 变 换 , 从 而最 小 二 乘 法 得 到 的 将 不 再 是 最 优 解 , 那 么 , 假 如 所 用 的 变 换 只 是 针 对 自 变 量 , 而 因 变 量 仍 然 保 持 不 变 的 话 , 此 时曲 线 直 线 化 和 非 线 性 回 归 的 结 果 是 否 将 完 全 等 价 ? 试 思 索 这 一 问 题 , 并 找 一 个 身 边 的 例 子 试 验 一 下 。2. 在 对 第 4 节 的 用 电 量 数 据 进 行 拟 合 时 , 最 终 加 入 了 参 数 搜 索 的 限 制 条 件 , 现 要 求 尝 试 着 更 改 、 并 最 终 去除 对 变 量 cpoint的 取 值 空 间 的 限 制 条 件 , 比 较 这 样 做 模 型 的 分 析 结 果 有 什 么 变 化 , 并 借 此 思 考 加 入 这 些 限 制 有什 么 样 的 作 用 。3. 锡 克 试 验 阴 性 率 (0/0 ) 随 着 年 龄 的 增 长 而 增 高 , 某 地 查 得 儿 童 年 龄 ( 岁 )X 与 锡 克 试 验 阴 性 率 Y 的 资 料 如题 3 表 , 并 且 由 专 业 知 识 可 知 两 者 间 的 曲 线 方 程 应 当 为 对 数 形 式 , 即 19 (K - Y) = α+ 饵 , 其 中 K 为 一 个 未 知 的 常数 , 试 拟 合 该 曲 线 。题 3表年 龄 ( 岁 ) 2 3 4 5 6 7锡 克 试 验 阴 性 率 (0/0 ) 57. 1 76.0 90.9 93.0 96. 7 95.6 96.2参 考 文 献1 Douglas M. B, Donald G. W 著 . 现 代 外 国 统 计 学 优 秀 著 作 译 丛 : 非 线 性 回 归 分 析 及 其 应 用 . 韦 博 成 主 译 .北 京 : 中 国 统 计 出 版 社 , 19972 易 单 辉 . 统 计 预 测 : 方 法 与 应 用 . 北 京 : 中 国 统 计 出 版 社 , 20013 方 积 乾 主 编 . 医 学 统 计 学 与 电 脑 试 验 . 上 海 : 上 海 科 学 技 术 出 版 社 , 20014 张 文 月 三 主 编 . SPSS 11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 北 京 希 望 电 子 出 版 社 , 20025 陈 峰 主 编 . 现 代 医 学 统 计 方 法 与 Stata 应 用 . 北 京 : 中 国 统 计 出 版 社 , 2003• 162 •


第 9 章 二 分 类 Logistic 回 归 模 型前 面 介 绍 了 反 应 变 量 为 连 续 性 变 量 资 料 的 统 计 分 析 。 在 对 资 料 进 行 统 计 分 析 时 常 遇 到 反 应变 量 为 分 类 变 量 的 资 料 , 那 么 , 能 否 用 类 似 于 线 性 回 归 的 模 型 来 对 这 种 资 料 进 行 分 析 呢 ? 答 案 是肯 定 的 。 本 章 就 将 向 大 家 介 绍 对 二 分 类 因 变 量 进 行 回 归 建 模 的 Logistic进 一 步 深 入 介 绍 因 变 量 为 多 分 类 变 量 的 Logistic 回 归 模 型 。回 归 模 型 , 而 下 一 章 则 将9.1 模 型 简 介9. 1. 1 模 型 入 门在 很 多 场 合 下 都 能 碰 到 反 应 变 量 为 二 分 类 的 资 料 , 如 考 察 公 司 中 总 裁 级 的 领 导 层 中 是 否 有女 性 职 员 、 某 一 天 是 否 下 雨 、 某 病 患 者 结 局 是 否 痊 愈 、 调 查 对 象 是 否 为 某 商 品 的 潜 在 消 费 者 等 。对 于 分 类 资 料 的 分 析 , 相 信 大 家 并 不 陌 生 , 当 要 考 察 的 影 响 因 素 较 少 , 且 也 为 分 类 变 量 时 , 分 析 者常 用 列 联 表 CContingency Table) 的 形 式 对 这 种 资 料 进 行 整 理 , 并 使 用 x2 检 验 来 进 行 分 析 , 当 存 在分 类 的 混 杂 因 素 时 , 还 可 应 用 Mantel - Haenszel X 2 进 行 统 计 学 检 验 , 这 种 方 法 可 以 很 好 地 控 制 混杂 因 素 的 影 响 。 但 是 这 种 经 典 分 析 方 法 也 存 在 局 限 性 , 首 先 , 它 虽 然 可 以 控 制 若 干 个 因 素 的 作用 , 但 无 法 描 述 其 作 用 大 小 及 方 向 , 更 不 能 考 察 各 因 素 间 是 否 存 在 交 互 作 用 ; 其 次 , ~ 衷 方 法 对 样 本含 量 的 要 求 较 大 , 当 控 制 的 分 层 因 素 较 多 时 , 单 元 格 被 划 分 的 越 来 越 细 , 列 联 表 的 格 子 中 频 数 可能 很 小 甚 至 为 0 , 将 导 致 检 验 结 果 的 不 可 靠 。 最 后 J 检 验 无 法 对 连 续 性 自 变 量 的 影 响 进 行 分 析 ,而 这 将 大 大 限 制 其 应 用 范 围 , 无 疑 是 其 致 命 的 缺 陷 。那 么 , 能 否 建 立 类 似 于 线 性 回 归 的 模 型 , 对 这 种 数 据 加 以 分 析 ? 以 最 简 单 的 二 分 类 因 变 量 为例 来 加 以 探 讨 , 为 了 讨 论 方 便 , 常 运 义 出 现 阳 性 结 果 时 反 应 变 量 取 值 为 1, 反 之 则 取 值 为 0 。 例 如当 领 导 层 出 有 女 性 职 员 、 下 雨 、 痊 愈 、 是 潜 在 消 费 者 时 反 应 变 量 y = 1, 而 没 有 女 性 职 员 、 未 下 雨 、未 痊 愈 时 y =0 。 记 出 现 阳 性 结 果 的 频 率 为 p Cy = 1)。 很 显 然 , 0~P~lo首 先 , 回 顾 一 下 标 准 的 线 性 回 归 模 型 :y= α+β ]X] + … +β mXm如 果 对 分 类 变 量 直 接 拟 合 , 则 实 质 上 拟 合 的 是 发 生 概 率 , 参 照 前 面 线 性 回 归 方 程 , 很 自 然 地会 想 到 是 否 可 以 建 立 下 面 形 式 的 回 归 模 型 :p= α+β ]X] + … +β mXm显 然 , 该 模 型 可 以 描 述 当 各 自 变 量 变 化 时 , 因 变 量 的 发 生 概 率 会 怎 样 变 化 , 可 以 满 足 分 析 的• 163 •


基 本 需 要 。 实 际 上 , 统 计 学 家 们 最 早 也 在 朝 这 一 方 向 努 力 , 并 考 虑 到 最 小 二 乘 法 拟 合 时 遇 到 的 各种 问 题 , 对 计 算 方 法 进 行 了 改 进 , 最 终 提 出 了 加 权 最 小 二 乘 法 ( 参 见 本 书 第 6 章 ) 来 对 该 模 型 进行 拟 合 , 至 今 这 种 分 析 思 路 还 偶 有 应 用 。既 然 可 以 使 用 加 权 最 小 二 乘 法 对 模 型 加 以 估 计 , 为 什 么 现 在 又 放 弃 了 这 种 做 法 呢 ? 原 因 在于 有 以 下 两 个 问 题 是 这 种 分 析 思 路 所 无 法 解 决 的 :(1) 取 值 区 问 : 上 述 模 型 右 侧 的 取 值 范 围 , 或 者 说 应 用 上 述 模 型 进 行 预 报 的 范 围 为 整 个 实 数集 ( 一 ∞, +∞) , 而 模 型 左 边 的 取 值 范 围 为 O~P~ l, 二 者 并 不 相 符 。 模 型 本 身 不 能 保 证 在 自 变量 的 各 种 组 合 下 , 因 变 量 的 估 计 值 仍 限 制 在 o ~ 1 内 , 因 此 可 能 分 析 者 会 得 到 这 种 荒 唐 的 结 论 : 男性 、 30 岁 、 病 情 较 轻 的 患 者 被 治 愈 的 概 率 是 300% ! 研 究 者 当 然 可 以 将 此 结 果 等 价 于 100% 可 以治 愈 , 但 是 从 数 理 统 计 的 角 度 讲 , 这 种 模 型 显 然 是 极 不 严 谨 的 。(2) 曲 线 关 联 : 根 据 大 量 的 观 察 , 反 应 变 量 P 与 自 变 量 的 关 系 通 常 不 是 直 线 关 系 , 而 是 S 型曲 线 关 系 。 这 里 以 收 入 水 平 和 购 车 概 率 的 关 系 来 加 以 说 明 , 当 收 入 非 常 低 时 , 收 入 的 增 加 对 购 买概 率 影 响 很 小 ; 但 是 在 收 入 达 到 某 一 阔 值 时 , 购 买 概 率 会 随 着 收 入 的 增 加 而 迅 速 增 加 ; 在 购 买 概率 达 到 一 定 水 平 , 绝 大 部 分 在 该 收 入 水 平 的 人 都 会 购 车 时 , 收 入 增 加 的 影 响 又 会 逐 渐 减 弱 。 如 果用 图 形 来 表 示 , 则 如 图 9. 1 所 示 。 显 然 , 线 性 关 联 是 线 性 回 归 中 至 关 重 要 的 一 个 前 提 假 设 , 而 在上 述 模 型 中 这 一 假 设 是 明 显 无 法 满 足 的 。1.00 ..., P0.750.25o ov 。υ v图 9.1 反 应 变 量 P 与 白 变 量 呈 S 型 曲 线 示 意 图以 上 问 题 促 使 统 计 学 家 们 不 得 不 寻 求 新 的 解 决 思 路 , 如 同 本 书 第 6章 中 介 绍 的 , 在 曲 线 回 归中 , 往 往 采 用 变 量 变 换 , 使 得 曲 线 直 线 化 , 然 后 再 进 行 直 线 回 归 方 程 的 拟 合 。 那 么 , 能 否 考 虑 对 所预 测 的 因 变 量 加 以 变 换 , 以 使 得 以 上 矛 盾 得 以 解 决 ? 基 于 这 一 思 想 , 又 有 一 大 批 统 计 学 家 很 兴 奋的 在 寻 找 合 适 的 变 换 函 数 。 终 于 , 在 1970 年 , Cox 引 入 了 以 前 用 于 人 口 学 领 域 的 Logit 变 换(Logit Transfo 口 nation) , 成 功 地 解 决 了 上 述 问 题 。那 么 , 什 么 是 Logit 变 换 呢 ? 通 常 把 出 现 某 种 结 果 的 概 率 与 不 出 现 的 概 率 之 比 称 为 比 值P TÎ-.---. ---I---f-.._ r \ll:t. P(odds , 国 内 也 译 为 优 势 、 比 数 ) , 即 odds =~, 1 - P' 取 其 对 数 λ= ln (odds) = ln 。 这 就 是 logit 变V' /. '/Y" • --- --- 1 _ P 口换 。 下 面 来 看 一 下 该 变 换 是 如 何 解 决 上 述 两 个 问 题 的 , 首 先 是 因 变 量 取 值 区 间 的 变 化 , 概 率 是 以• 164 •


0.5 为 对 称 点 , 分 布 在 o ~ 1 的 范 围 内 的 , 而 相 应 的 logit ( 刊 的 大 小 为 : p = 0 logit (p) = ln (0/1) = 一 无 穷 大 P = O. 5 logit (p) = ln (0. 5/0. 5) = 0 P = 1 logit (p) = ln 0/0) = + 无 穷 大显 然 , 通 过 变 换 , logit ( 凹 的 取 值 范 围 就 被 扩 展 为 以 O 为 对 称 点 的 整 个 实 数 区 间 ( 一 ∞,+∞) , 这 使 得 在 任 何 自 变 量 取 值 下 , 对 P 值 的 预 测 均 有 实 际 意 义 。 其 次 , 大 量 实 践 证 明 ,logit (p) 往 往 和 自 变 量 呈 线 性 关 系 , 换 言 之 , 概 率 和 自 变 量 问 关 系 的 S 形 曲 线 往 往 就 符 合 logit 函数 关 系 , 从 而 可 以 通 过 该 变 换 将 曲 线 直 线 化 。 因 此 , 只 需 要 以 logit (p) 为 因 变 量 , 建 立 包 含 p 个自 变 量 的 Logistic 回 归 模 型 如 下 :logit (p) = β。 +β ]X] + … +βpX p以 上 即 为 Logistic 回 归 模 型 。 由 式 (9. 1) 可 逆 推 得 :P=~xp (,β。 +β ]X] + … +βpX p )一1-P=- 1 + exp (β。 +β ]X] + … +βpXJA1+exp(β。 +β ]X] + … +βpX p )上 面 三 个 方 程 式 相 互 等 价 。 通 过 大 量 的 分 析 实 践 , 发 现 Logistic分 类 数 据 的 建 模 需 求 , 因 此 目 前 它 己 经 成 为 了 分 类 因 变 量 的 标 准 建 模 方 法 。通 过 上 面 的 讨 论 , 可 以 很 容 易 地 理 解 二 分 类 Logistic 对 资 料 的 要 求 应 当 是 :回 归 模 型 可 以 很 好 地 满 足 对(1) 反 应 变 量 为 二 分 类 的 分 类 变 量 或 是 某 事 件 的 发 生 率 。 需 要 注 意 的 是 流 行 病 学 中 的 发 病率 ( 或 社 区 卫 生 服 务 研 究 中 的 两 周 患 病 率 ) 等 存 在 一 个 研 究 对 象 重 复 计 数 现 象 的 指 标 不 适 用 于Logistic 回 归 , 因 为 此 时 反 应 变 量 不 服 从 二 项 分 布 。(2) 自 变 量 与 logit (p) 之 间 为 线 性 关 系 。(3) 残 差 合 计 为 0 , 且 服 从 二 项 分 布 。(4) 各 观 测 间 相 互 独 立 。由 于 因 变 量 为 二 分 类 , 所 以 Logistic模 型 的 误 差 项 应 当 服 从 二 项 分 布 , 而 不 是 正 态 分 布 。 因此 , 该 模 型 实 际 上 不 应 当 使 用 以 前 的 最 小 二 乘 法 进 行 参 数 估 计 , 目 前 均 使 用 最 大 似 然 法 来 解 决 方程 的 估 计 和 检 验 问 题 。需 要 特 别 指 出 的 是 , 统 计 学 家 提 出 的 变 换 函 数 有 很 多 , 例 如 累 积 正 态 概 率 变 换 (Probit 模 型 )、重 对 数 变 换 Clog 一 log 模 型 ) 等 , 颇 有 百 家 争 鸣 的 味 道 。 只 是 Logistic 模 型 相 比 之 下 是 最 为 成 功 , 使用 最 为 广 泛 的 发 生 概 率 预 测 模 型 , 针 对 一 些 特 殊 的 情 况 , 分 析 者 可 能 还 是 要 求 助 于 其 他 变 换 方 法 ,而 不 能 不 顾 事 实 的 一 昧 " 独 尊 儒 术 "。 相 应 的 知 识 读 者 可 参 见 下 一 章 , 这 里 不 再 展 开 讨 论 。9. 1. 2 一 些 基 本 概 念由 于 使 用 了 logit 变 换 , Logistic 模 型 中 的 参 数 含 义 略 显 复 杂 , 但 有 很 好 的 实 用 价 值 , 为 此 现 对一 些 基 本 概 念 加 以 解 释 。1. 优 势 比如 前 所 述 , 人 们 常 把 出 现 某 种 结 果 的 概 率 与 不 出 现 的 概 率 之 比 称 为 比 值 (odds) , 即 odds =1-P 。 两 个 比 值 之 比 称 为 比 值 比 (Odds Ratio , 也 翻 译 成 优 势 比 , 简 称 OR) 。 首 先 考 察 OR 的 特性 :• 165 •


p , P 局若 P1 > P2 , 则 odds l一 ~ 'n > ~ = odds 21-P]" 1-P 2p , P 局若 P1 < P2 , 则 odds l一一 」 一


81) 1 (42/69) = 1. 217 , 并 不 完 全 相 同 。 但 是 , 当 研 究 结 果 出 现 阳 性 的 概 率 较 小 时 ( 一 般 认 为 小 于0. 1, 反 之 当 概 率 大 于 o. 9 时 亦 可 ), OR { 直 大 小 和 发 生 概 率 之 比 非 常 接 近 , 此 时 可 以 近 似 地 说 一组 研 究 对 象 的 阳 性 结 果 发 生 率 是 另 一 组 研 究 对 象 发 生 率 的 OR 值 倍 , 即 用 OR 值 的 大 小 来 近 似 地表 示 相 对 危 险 度 的 大 小 。9.2 简 单 分 析 实 例SPSS 中 通 过 regress lO n 模 块 中 的 Binary Logistic 过 程 实 现 结 果 变 量 为 二 分 类 的 Logistic 回 归 ,下 面 用 一 个 分 析 实 例 , 来 具 体 看 一 下 相 应 的 操 作 和 结 果 解 释 。例 9. 2 某 医 师 希 望 研 究 病 人 的 年 龄 ( 岁 )、 性 别 co 为 女 性 , 1 为 男 性 )、 心 电 图 检 验 是 否 异常 (ST 段 压 低 , 0 为 正 常 、 1 为 轻 度 异 常 、 2 为 重 度 异 常 ) 与 患 冠 心 病 是 否 有 关 , 数 据 见 logistic 一bina 叮 .savo调 用 SPSS 中 的 Binary Logistic 过 程 :!Analyze• Regression• Binary logistic!Dependent 杠 :ca! Covariates 杠 :sex , ecg 、 age! 因图 9. 2 Logistic 回 归 主 对 话 框本 例 中 涉 及 的 对 话 杠 界 面 如 图 9. 2 所 示 , 注 意 对 话 杠 中 部 有 一 个 以 前 未 出 现 过 的 a * b 按钮 , 用 于 纳 入 交 互 作 用 , 只 要 先 将 相 应 变 量 选 中 , 然 后 单 击 此 按 钮 , 相 应 的 交 互 项 就 会 被 纳 入 模型 。 本 例 因 较 为 简 单 , 未 用 到 此 功 能 。 性 别 虽 为 分 类 变 量 , 但 仅 有 两 个 取 值 水 平 , 所 以 可 以 直 接引 入 模 型 , 结 果 仍 然 可 以 被 正 确 解 释 。 本 例 的 分 析 结 果 如 下 :本 例 分 析 结 果 的 标 题 为 "Logistic Regression" , 具 体 内 容 如 下 :• 167 •


首 先 输 出 分 析 中 使 用 的 记 录 数 汇 总 , 此 处 略 。 当 前 数 据 库 中 有 效 记 录 数 共 计 78 条 记 录 , 涉及 分 析 的 变 量 有 缺 失 值 的 记 录 将 会 列 入 Unselected Cases 中 , 在 进 行 分 析 时 被 剔 除 。表 9. 1 Dependent Variable Encoding。 riginal ValueO未 患 病lnlernal Value。才 患 病表 9. 1 为 因 变 量 的 取 值 水 平 编 码 , SPSS 拟 合 模 型 时 默 认 取 值 水 平 高 的 为 阳 性 结 果 , 对 于 本例 来 讲 , 拟 合 的 模 型 是 logit (P I y = 患 病 )。 若 不 慎 在 录 入 数 据 时 将 患 病 、 未 患 病 两 个 水 平 弄 反了 , 可 以 4 通 过 数 据 处 理 恢 复 反 应 变 量 赋 值 水 平 ;2 将 下 面 所 有 的 回 归 系 数 正 负 号 颠 倒 ;3 通 过编 程 定 义 拟 合 的 模 型 以 应 变 量 取 值 水 平 低 的 为 阳 性 结 果 。随 后 将 开 始 进 行 模 型 拟 合 , 首 先 给 出 的 是 模 型 不 含 任 何 自 变 量 , 而 只 有 常 数 项 ( 即 无 效 模型 ) 时 的 输 出 结 果 , 故 标 题 显 示 为 : "Block 0: Beginning Block" 。 此 时 的 模 型 为 :exp (,β。) exp (0. 103)logit (p) = β 。 =0.103 , P 一 一 、 =0.525 7一 1 + exp (β。) -]表 9.2Classification Table a,bPredicled是 否 患 冠 .i',,~ 芮Step 0Observed是 否 患 冠 心 病未 患 病未 患 恼 患 病 Percentage Correclo 37 .0患 病。 41 才 00.0Overall Percentage52.6a. Constant is included in the modelb. The cut value is .500表 9. 2 输 出 的 是 模 型 中 仅 含 有 常 数 项 ( 见 表 9. 3 的 输 出 结 果 ) 时 计 算 的 预 测 分 类 结 果 , SPSS根 据 P 值 是 否 大 于 O. 5 将 观 察 对 象 判 断 为 是 否 出 现 阳 性 结 果 , 即 是 否 患 冠 心 病 。 由 于 模 型 中 仅含 有 常 数 项 , 因 此 所 有 人 的 预 测 概 率 均 为 样 本 率 估 计 值 P = 0.525 7 , 将 所 有 的 观 察 对 象 均 判 断为 冠 心 病 。 判 断 正 确 率 为 52.6% , 实 际 上 就 是 全 部 研 究 对 象 的 患 病 率 41178 = 0.525 6 ( 细 小 差别 为 四 舍 五 入 产 生 )。 也 就 是 说 , 由 于 当 前 样 本 中 大 部 分 人 为 患 病 , 因 此 当 模 型 中 不 包 含 任 何 自变 量 时 , 样 本 中 所 有 观 察 对 象 皆 被 预 测 为 患 病 , 总 的 预 测 准 确 率 为 52.6% 。表 9.3Variables in the EquationB S.E. Wald df Sig. Exp(B)Step 0 Constant 才 03 .227 .205 651 才 108表 9. 3 输 出 结 果 中 B 为 模 型 中 未 引 入 自 变 量 时 常 数 项 的 估 计 值 , S. E. 为 其 标 准 误 , Wald 为• 168 •


Waldx2 , 是 对 总 体 回 归 系 数 是 否 为 O 进 行 统 计 学 检 验 。 其 计 算 公 式 为 :对 于 例 9.2 /βz-ofiβ i \x =l 克 -;:J =~ 再 ~}2'X 2 = (0. 103/0. 227) 2 = O. 205 9 。 读 者 可 以 发 现 , 该 统 计 量 实 际 上 和 U 检 验 统 计量 很 像 , 仅 仅 是 多 了 一 个 平 方 而 己 。表 格 中 df 为 其 自 由 度 , Sig. 为 相 应 P 值 。 此 时 的 exp (B) 为 e 的 β。 次 方 。 其 实 际 意 义 为 总体 研 究 对 象 患 病 率 与 未 患 病 率 的 比 值 。 即 1. 108 = O. 525 6/0.474 40表 9.4Variables not in the EquationScore df SigStep 0 Variables sex 6.021 .0 才 4ecg 7.111 .008age 7.734 .005Overall Statistics 18.562 3 000表 9.4 输 出 了 当 前 未 引 入 模 型 的 变 量 的 比 分 检 验 (Score Test) 结 果 , 其 意 义 为 向 当 前 模 型 中引 入 某 变 量 ( 如 sex) 时 , 该 变 量 回 归 系 数 是 否 等 于 O 的 比 分 检 验 假 设 。 对 于 取 值 水 平 为 二 分 类的 自 变 量 来 说 , 得 分 检 验 的 扩 值 等 于 由 该 自 变 量 与 反 因 变 量 构 成 的 四 格 表 的 pearson x2 , 详 细 介绍 参 见 后 面 有 关 章 节 。基 于 无 效 模 型 , 现 在 开 始 在 分 析 中 引 入 自 变 量 , 由 于 本 例 尚 未 涉 及 变 量 筛 选 的 问 题 , 因 此 标题 为 "Block 1: Method = Enter" 。表 9.5Omnibus Tests of Model CoefficientsStep 1StepC 」川aE11叫 HUE-IEI e- -2 忡2 忡dfSigqJuqdqu.000Block000Model21.114000由 于 此 处 尚 未 涉 及 变 量 筛 选 的 问 题 , 模 型 中 会 同 时 引 入 三 个 自 变 量 , 自 由 度 =3 , 此 处 的 扩 值为 似 然 比 矿 , 等 于 上 一 步 ( 模 型 中 只 含 有 常 数 项 时 ) 的 一 210g ( 似 然 比 值 ) 与 当 前 模 型 的 一 210g ( 似然 比 值 ) 的 差 值 , 参 见 表 9.5 , 详 细 介 绍 参 见 有 关 章 节 。 本 例 x2=-86.8113 一 ( - 107. 925 7) =21. 11440表 9.6Model Summary-2 Log likelihood Cox & Snell R Square86.811 a .237Nagelkerke R Square.316a. Estimati 口 n terminated at iteration number 5 because pa 咱 们 etsr estimates changed by less than .00 才表 9. 6 输 出 了 当 前 模 型 的 一 210g ( 似 然 值 ) 和 两 个 伪 决 定 系 数 (" 伪 " 以 示 与 线 性 回 归 模 型• 169 •


中 的 决 定 系 数 相 区 别 ) Cox & Snell R 2 和 Nagelke r1 臼 R 2 0 后 两 者 从 不 同 角 度 反 映 了 当 前 模 型 中 自变 量 解 释 了 反 应 变 量 的 变 异 占 反 应 变 量 总 变 异 的 比 例 。 但 对 于 Logistic型 伪 决 定 系 数 的 大 小 不 像 线 性 回 归 模 型 中 的 决 定 系 数 那 么 大 。回 归 而 言 , 通 常 看 到 的 模~ . I L (0) \ 百Cox & Snell R L = 1 - I -: ::: \飞 L( 卢 ) )Cox & Snell R 2N egelkerke R L =1 - L (0) 王其 中 L (0) 为 模 型 中 只 含 有 常 数 项 时 的 似 然 值 , L ( 卢 ) 为 当 前 模 型 的 似 然 值 。 在 例 9.2 中 :iL (O)L fiexp(-107.9257/2)f78Cox &hell R2=1-i i-1-i i=0.2372飞 L( 卢 ) ) 一 飞 exp ( - 86. 811 3/2) )Nagelkerke g" =Cox & Snell R 2 O. 237 2~~/, ~ ~H~~~O" = ~. ~~, ~ _,,~O =0.3164eu u ul-L (O)fl-fexp(-107.9257/2) 丁表 9.7Classification Table aPredicted是 否 患 冠 , 山 病Observ 唱 d 未 患 病 患 病 Percentage Cor 陪 ctStep 1 是 杏 患 冠 心 病 来 患 病 25 12 67 ,6Overall Percentagea. The cut value is , 5 口 。吉 、 病10 31 75.671.8这 是 应 用 引 入 三 个 自 变 量 后 重 新 拟 合 的 回 归 模 型 进 行 预 测 的 分 类 表 格 , p >0. 5 判 断 为 出 现阳 性 结 果 。 可 见 己 经 出 现 了 被 预 测 为 未 患 病 的 研 究 对 象 , 此 处 78 例 研 究 对 象 中 共 有 56 (25 +3 1) 例 判 断 正 确 , 总 正 确 率 为 56/78 = 7 1. 8% , 参 见 表 9.70表 9. 8 Variables in the EquationB S , E Wald df Sig Exp(B)Step 1 a sex 1.356 .546 6 , 162 .013 3 ,882ecg 873 384 5.162 023 2.395age 093 035 7 ,000 008 才 097Constant -5 ,642 1,806 9 ,757 002 , 004a. Variable( 的 entered on step l' sex , ecg , age表 9. 8 输 出 了 模 型 中 各 自 变 量 的 偏 回 归 系 数 及 其 标 准 误 、 Wald x2 、 自 由 度 、 P 值 , 及 OR 值( 即 表 格 最 右 侧 的 Exp (B) )。 由 此 可 以 得 出 结 论 , 男 性 (sex = 1) 较 女 性 更 容 易 患 冠 心 病 、 心 电 图异 常 程 度 越 高 , 越 容 易 被 诊 断 为 冠 心 病 , 年 龄 越 大 的 越 容 易 患 冠 心 病 。 由 于 年 龄 不 可 能 为 0 , 且这 也 超 出 了 样 本 所 观 察 的 自 变 量 age 取 { 直 范 围 , 因 此 这 里 的 常 数 项 无 实 际 意 义 。到 此 为 止 , 可 建 立 如 下 Logistic 回 归 方 程 :• 170 •


exp ( - 5. 642 - 1. 356 X sex - O. 873 X ecg - o. 093 Xαge)p (y = 冠 心 病 ) = 1 + exp ( - 5. 642 - 1. 356 X sex - O. 873 X ecg - o. 093 Xαge)或 logit(p) = - 5. 642 - 1. 356 X sex - O. 873 X ecg - o. 093 Xαge9.3 分 类 自 变 莹 的 定 义 与 比 较 方 法9.3.1 使 用 哑 变 量 的 必 要 性在 回 归 模 型 中 , 回 归 系 数 b 表 示 其 他 自 变 量 不 变 , χ 每 改 变 一 个 单 位 时 , 所 预 测 的 y 的 平 均变 化 量 , 当 x为 连 续 性 变 量 时 这 样 解 释 没 有 问 题 , 二 分 类 变 量 由 于 只 存 在 两 个 类 别 间 的 比 较 , 也可 以 对 系 数 得 到 很 好 的 解 释 , 但 是 当 x为 多 分 类 变 量 时 值 拟 合 一 个 回 归 系 数 就 不 太 合 适 了 , 此 时需 要 使 用 哑 变 量 (Dummy Variable) 方 式 对 模 型 加 以 定 义 , 为 说 明 该 问 题 , 先 引 入 下 面 的 一 个 实例 。例 9.3 Hosmer 和 Lemeshow 于 1989 年 研 究 了 低 出 生 体 重 婴 儿 的 影 响 因 素 , 数 据 见 文 件logistic_step. sav 。 结 果 变 量 为 是 否 娩 出 低 出 生 体 重 儿 ( 变 量 名 为 LOW , 1, 低 出 生 体 重 , 即 婴 儿 出 生体 重 < 2 500 g 、 0 , 非 低 出 生 体 重 ) , 考 虑 的 影 响 ( 自 变 量 ) 有 : 产 妇 娃 振 前 体 重 c1 wt , 磅 ) 产 妇 年 龄 (age , 岁 ) 产 妇 在 娃 振 期 间 是 否 吸 烟 ( 旧 noke , O = 未 吸 、 1 = 吸 烟 ) 本 次 娃 振 前 早 产 次 数 (ptl, 次 ) 是 否 患 有 高 血 压 (ht , O = 未 患 、 1 = 患 病 ) 子 宫 对 按 摩 、 催 产 素 等 剌 激 引 起 收 缩 的 应 激 性 (ui , O = 无 、 1 = 有 ) 娃 振 前 三 个 月 社 区 医 生 随 访 次 数 (ftv , 次 ) 种 族 (race , 1 白 人 、 2= 黑 人 、 3 = 其 他 民 族 )本 例 包 含 的 自 变 量 种 类 齐 全 , 有 连 续 性 变 量 、 二 分 类 、 无 序 多 分 类 变 量 。 SPSS 默 认 将 所 有 的自 变 量 均 视 作 连 续 性 变 量 , 如 本 例 , 不 同 种 族 的 变 量 赋 值 为 1 、 2 、 3 , 但 这 仅 仅 是 一 个 代 码 丽 己 , 并不 意 味 着 白 人 、 黑 人 、 其 他 民 族 问 存 在 大 小 次 序 的 关 系 , 即 并 非 代 表 产 妇 娩 出 低 出 生 体 重 儿 概 率的 logit (p) 会 按 此 顺 序 线 性 增 加 或 减 少 。 即 使 是 有 序 多 分 类 变 量 , 如 家 庭 收 入 分 为 高 、 中 、 低 三档 , 各 类 别 间 的 差 距 也 是 无 法 准 确 衡 量 的 , 按 编 码 数 值 来 分 析 实 际 上 就 是 强 行 规 定 为 等 距 , 这 显然 可 能 引 入 更 大 的 误 差 。 在 以 上 情 况 时 , 就 必 须 将 原 始 的 多 分 类 变 量 转 化 为 数 个 哑 变 量 (DummyVariable) , 每 个 哑 变 量 只 代 表 某 两 个 级 别 或 若 干 个 级 别 间 的 差 异 , 这 样 得 到 的 回 归 结 果 才 能有 明 确 而 合 理 的 实 际 意 义 。SPSS 提 供 了 Categorical 按 钮 用 于 指 定 无 序 多 分 类 自 变 量 , 如 图 9.3 所 示 , 对 于 取 值 有 n 个 水平 的 自 变 量 X" 默 认 会 产 生 n-1 个 哑 变 量 X.(1), … ,x. (n - 1) , 此 时 以 第 n 水 平 为 参 照 水 平 ,SPSS 会 在 分 类 变 量 编 码 矩 阵 中 输 出 具 体 的 赋 值 情 况 , 矩 阵 中 元 素 均 为 "0" 的 那 一 行 表 示 以 该 自变 量 相 对 应 的 取 值 水 平 作 为 参 照 水 平 。 例 如 种 族 race 有 三 个 水 平 , 则 SPSS 会 产 生 两 个 哑 变 量 :在 表 9. 9 中 可 以 看 出 , 相 应 的 两 个 哑 变 量 含 义 如 下 : race (1) = 1 , 白 人 ;0 , 非 白 人• 171 •


图 9. 3 Categorical 子 对 话 框表 9. 9 Categorical Variables Codings种 族 1 白 人2 黑 人3 其 他 种 族Frequency962667Parameter coding(- 1· )-1(2)EAUnunuE -nvnunU内.000UnunU1.000000 race (2) = 1 , 黑 人 ;0 , 非 黑 人由 于 两 个 哑 变 量 是 同 时 使 用 的 , 而 只 有 " 其 他 种 族 " 这 一 类 在 两 个 哑 变 量 中 取 值 都 为 0 , 因 此当 同 时 使 用 时 , 实 际 上 两 个 哑 变 量 都 是 以 " 其 他 种 族 " 作 为 参 照 水 平 。 分 别 对 上 述 哑 变 量 的 系 数进 行 估 计 , 就 可 以 分 别 得 知 白 人 、 黑 人 和 参 照 水 平 ( 其 他 种 族 ) 的 差 异 , 而 这 两 个 哑 变 量 的 参 数 估计 值 之 差 就 反 映 了 白 人 和 黑 人 间 的 差 异 。 例 如 在 本 例 中 如 果 只 分 析 种 族 的 作 用 , 则 最 终 的 结 果参 见 表 9.10 。表 9. 10 Variables in the EquationB S.E Wald df Sig Exp(B)Step 1 a race 4.922 2 .085race(1 ) -.636 348 3.345 067 .529race(2) 209 471 才 97 657 才 232Constant -.519 253 4.218 040 .5958. Variable( 的 entered on step 1. race和 其 他 种 族 相 比 , 白 人 低 出 生 体 重 的 风 险 较 低 , 而 黑 人 则 风 险 较 高 , 但 两 者 均 无 统 计 学 意 义 。如 果 将 白 人 和 黑 人 相 比 , 则 相 应 的 系 数 为 一 o. 636 - o. 209 = - O. 845 , 其 OR 值 为 exp ( - 0.845)=0.43 , 白 人 的 风 险 要 比 黑 人 小 得 多 。 显 然 , 这 两 个 类 别 之 间 有 无 统 计 学 差 异 还 需 要 进 行 检 验 ,而 这 在 表 9.10 中 是 无 法 直 接 得 到 的 。表 9.10的 输 出 中 两 个 哑 变 量 均 无 统 计 学 意 义 , 如 果 同 一 分 类 变 量 的 不 同 哑 变 量 出 现 了 有 些• 172 •


有 意 义 , 有 些 无 意 义 的 情 形 , 又 该 如 何 处 理 ? 首 先 , 结 果 中 会 对 分 类 变 量 先 进 行 一 个 总 体 的 检 验 ,例 如 在 本 例 中 种 族 的 检 验 其 P 值 为 0.085 , 表 明 从 总 体 上 讲 , 种 族 应 当 对 因 变 量 无 影 响 , 此 时 所有 的 哑 变 量 都 不 用 再 纳 入 分 析 了 , 总 的 检 验 比 分 项 的 检 验 更 有 权 威 性 ( 还 记 得 放 大 一 类 错 误 的问 题 吗 ) ; 如 果 总 的 检 验 有 差 异 , 而 有 些 哑 变 量 无 统 计 学 意 义 , 则 由 于 哑 变 量 应 当 同 进 同 出 , 原 则上 仍 然 应 当 在 模 型 中 纳 入 所 有 的 哑 变 量 , 以 保 证 哑 变 量 所 代 表 含 义 的 正 确 性 。 否 则 , 剔 除 部 分 哑变 量 将 会 导 致 参 照 水 平 的 变 化 , 从 而 哑 变 量 的 具 体 含 义 也 会 发 生 改 变 。9.3.2 SPSS 中 预 设 的 哑 变 量 编 码 方 式除 以 上 默 认 的 哑 变 量 对 比 方 式 外 , SPSS 的 Categorical 子 对 话 杠 中 还 提 供 了 其 余 几 种 对 比方 式 :(1) Indicator: 指 示 对 比 。 用 于 指 定 某 一 分 类 变 量 的 参 照 水 平 。 这 时 计 算 出 来 的 参 数 βz 是 以该 变 量 的 最 后 一 个 或 第 一 个 水 平 作 为 参 照 水 平 ( 取 决 于 下 面 的 Reference Category 中 选 择 的 是last 还 是 first) 。 在 本 例 中 , Reference Category 均 为 last , 变 量 race ( 种 族 ) 以 " 其 他 种 族 " 作 为 参 照水 平 。(2) Simple: 简 单 对 比 。 可 计 算 该 分 类 变 量 的 各 水 平 与 参 照 水 平 相 比 的 βz 值 。 对 于 本 例 来说 , Simple 与 Indicator 选 项 是 一 样 的 , 前 提 是 下 面 的 Reference Category 中 所 选 择 的 同 是 last ( 或first) 。(3) Difference: 差 别 对 比 。 分 类 变 量 某 个 水 平 与 其 前 面 的 所 有 水 平 平 均 值 进 行 比 较 。 此 法与 Helmert 法 相 反 , 因 此 也 叫 反 Helmert 法 。 如 2 水 平 与 1 水 平 相 比 ;3 水 平 与 L2 水 平 的 平 均 值相 比 , 以 此 类 推 。 如 果 在 某 水 平 处 系 数 变 小 且 无 统 计 学 意 义 (P >0. 05) , 说 明 该 分 类 变 量 对 风 险率 产 生 的 影 响 在 该 水 平 处 达 到 停 滞 状 态 。 此 选 择 项 一 般 用 于 有 序 的 分 类 变 量 ( 如 吸 烟 剂 量 , 假设 研 究 者 将 其 作 为 无 序 多 分 类 的 自 变 量 进 行 分 析 ) , 对 于 无 序 分 类 变 量 则 无 实 际 意 义 。(4) Helmert: 赫 尔 默 特 对 比 。 分 类 变 量 某 水 平 与 其 后 面 各 水 平 平 均 值 进 行 比 较 。 如 果 在 某水 平 系 数 增 大 且 有 统 计 学 意 义 , 说 明 该 分 类 变 量 自 该 水 平 起 开 始 对 风 险 率 产 生 影 响 。 同 样 也 适用 于 有 序 的 分 类 变 量 。(5) Repeated: 重 复 对 比 。 分 类 变 量 的 各 水 平 与 其 前 面 相 邻 的 水 平 相 比 较 ( 第 一 水 平 除 外 ) ,此 时 以 " 前 一 水 平 " 为 参 照 水 平 。(6) Polynomial: 多 项 式 对 比 。 仅 用 于 数 字 型 的 分 类 变 量 。 无 效 假 设 是 假 设 各 水 平 是 等 距 离的 ( 可 以 是 线 性 的 关 系 , 也 可 以 是 立 方 、 四 次 方 的 关 系 )。 例 如 年 龄 每 增 加 5 岁 , 娩 出 低 出 生 体 重儿 的 危 险 增 加 幅 度 是 一 样 的 , 但 实 际 情 况 常 常 与 此 相 反 , 如 在 20 岁 与 30 岁 年 龄 段 , 年 龄 都 增 加5 岁 , 所 增 加 的 娩 出 低 出 生 体 重 儿 的 危 险 肯 定 是 不 一 样 的 , 具 体 情 况 需 根 据 各 人 的 研 究 课 题 。(7) Deviation: 离 差 对 比 。 除 了 所 规 定 的 参 照 水 平 外 , 其 余 每 个 水 平 均 与 总 体 水 平 相 比 。 此时 每 个 水 平 的 回 归 系 数 都 是 相 对 于 总 体 水 平 而 言 的 改 变 量 。 对 于 那 个 参 照 水 平 而 言 , 它 的 回 归系 数 可 以 通 过 其 他 n -1 个 回 归 系 数 算 出 来 , 等 于 O 减 去 其 他 几 个 水 平 回 归 系 数 的 代 数 和 。 即 此时 n 个 水 平 的 回 归 系 数 的 代 数 和 为 "(8) Special (Matrix) : 这 个 选 项 并 不 出 现 在 菜 单 中 , 必 必 、 须 通 过 编 程 才 可 达 到 。 研 究 者 可 以 自己 定 义 自 己 的 比 较 矩 阵 。事 实 上 , 如 果 大 家 己 经 学 习 了 方 差 分 析 模 型 , 就 会 发 现 以 上 列 出 的 编 码 方 式 和 方 差 分 析 中• 173 •


llContrast 子 对 话 杠 中 的 内 容 完 全 相 同 。 实 际 上 两 者 本 来 就 是 一 回 事 , 只 不 过 在 不 同 的 模 型 中 称 呼不 同 而 己 。 从 这 一 点 大 家 也 可 以 看 出 , 对 于 分 类 自 变 量 的 处 理 方 式 , 所 有 的 多 因 素 模 型 应 当 是 完全 一 致 的 。为 了 让 大 家 更 好 地 理 解 上 述 各 种 比 较 选 择 项 , 下 面 以 变 量 race为 例 , 根 据 以 上 各 种 对 比 方式 的 定 义 , 给 出 它 们 各 自 计 算 出 来 的 系 数 相 互 换 算 一 览 表 , 参 见 表 9. 1 1, 表 9. 12 和 表 9.13 , 其 中相 应 的 参 照 水 平 在 表 格 中 以 " 一 " 表 示 。表 9.11换 算 表 w种 族 Indicator Clast) Indicator (first) Simple Clast)臼 人 βl (0) β'l=βl黑 人 β2 β'l=ββl β'2=β2其 他 种 族 〈 卢 3 二 0) β'2 =0-βl (0)Simple (first)(0)β'l=ββlβ 飞 =0 -βl表 9. 12 换 算 表 己 主种 族自 人黑 人其 他 种 族Difference Helmert Repeated(0)β'l=β 够 2 + 0) /2 β'l=ββ2β'l=ββ1/ 1β'2 二 0- ( 卢 2 +β1) /2β 飞 =β2 - 0/1(0)β 飞 =β2 -0(0)表 9.13换 算 表 @种 族自 人黑 人其 他 种 族Deviation Clast)扎 β 恨二 --ov +一 υl2恨扎 ' +β -恨一 -υM ''V--3β吵',年β吵,年'[l寸、++QY/ ,、OVOV21 flfl0飞/+71/「// 句3」Deviation (first)胆 'l=β1 - \ 卢 1+β2 + 0) /3 ]β'l=β2 - Cß I +β2 + 0) /3β'2=β3 - \ 卢 1+β2 + 0) /3这 里 对 表 9.11 、 表 9. 12 和 表 9.13 中 的 符 号 加 以 解 释 :β1 , ß2 、 β3 、β4 是 指 用 "Indicator" Cl ast 作为 参 照 水 平 ) 法 计 算 出 来 的 回 归 系 数 , SPSS 输 出 的 结 果 中 并 没 有 "β3" , 这 是 因 为 系 统 将 这 一 水 平作 为 参 照 水 平 , 故 值 为 " 一 "。 表 中 后 面 的 β'lJpfF3 则 是 相 应 不 同 方 法 输 出 的 回 归 系 数 , 下 标与 SPSS 输 出 的 各 回 归 系 数 下 标 保 持 一 致 。 读 者 若 有 兴 趣 , 可 以 将 "Indicator" Cl ast 作 为 参 照 水平 ) 法 计 算 出 来 的 回 归 系 数 代 入 各 公 式 , 计 算 其 他 方 法 的 回 归 系 数 , 并 与 SPSS 输 出 的 结 果 相 比较 。 此 处 仅 仅 以 simple 的 结 果 为 例 加 以 演 示 , 参 见 表 9. 14 和 表 9. 150表 9. 14 Categorical Variables CodingsParameter codingFrequency (1 ) (2)种 族 1 白 人 96 .667 -.3332 黑 人 26 -,333 6673 其 他 种 族 67 -,333 -.333• 174 •


表 9.15Variables in the EquationB S.E Wald df Sig Exp(B)Step 1 a race 4.922 2 .085race(1 ) -.636 348 3.345 .067 529race(2) .209 471 .197 .657 1.232Constant -.661 176 14.129 .000 5 才 6a. Variable(s} entered on step 1 race读 者 可 能 己 经 发 现 以 上 各 哑 变 量 系 数 的 估 计 值 实 际 上 与 Indictor的 结 果 相 同 , 事 实 上 , 这 两种 编 码 方 式 的 区 别 之 处 为 模 型 的 截 距 不 同 。 应 用 Indicator时 常 数 项 α 代 表 的 是 参 照 水 平 的 效应 , 即 参 照 水 平 ( 其 他 种 族 ) 相 对 应 的 logit (p) 值 。 故 α=0.519; 而 应 用 simple 对 比 时 , 常 数 项 α是 分 类 变 量 三 种 取 值 时 比 数 自 然 对 数 值 的 均 数 , 反 映 的 是 三 种 分 类 的 平 均 效 应 , 此 时 常 数 项 =-0.661 = (-1. 1550 + (-0.3102) + (-0.5188) )/3 , 为 三 个 取 值 水 平 logit (p) 值 的 算 术 平 均值 。9.3.3 设 置 哑 变 量 时 要 注 意 的 问 题(1) 参 照 水 平 最 好 要 有 实 际 意 义 , 否 则 将 会 失 去 比 较 的 目 标 。 如 果 将 一 些 难 以 分 类 的 个 体放 到 一 起 , 然 后 美 其 名 曰 " 其 他 " 此 时 往 往 不 知 道 己 去 口 的 某 个 类 别 具 体 在 与 谁 进 行 比 较 , 进 而 导致 哑 变 量 的 回 归 系 数 难 以 解 释 。 因 为 不 同 研 究 样 本 中 的 " 其 他 " 往 往 是 不 同 的 , 这 样 研 究 结 果 之间 难 以 相 互 进 行 比 较 。 因 此 笔 者 不 推 荐 选 用 " 其 他 " 作 为 参 照 水 平 。(2) 参 照 水 平 组 应 有 一 定 的 频 数 作 保 证 。 如 果 参 照 水 平 频 数 过 少 , 将 导 致 其 他 与 之 相 对 比的 水 平 参 数 估 计 的 标 准 误 增 大 , 进 而 可 信 区 间 扩 大 , 精 确 度 降 低 。 有 学 者 认 为 , 参 照 水 平 组 的 频数 应 不 少 于 30 或 50 例 。(3) 如 果 不 通 过 Categorical 模 型 对 分 类 自 变 量 产 生 哑 变 量 , 而 是 自 己 通 过 Compute 过 程 产生 , 需 要 注 意 在 逐 步 回 归 筛 选 自 变 量 时 , 哑 变 量 应 该 同 时 进 入 模 型 或 者 同 时 退 出 模 型 。 而 且 当 分类 自 变 量 某 一 个 或 某 几 个 取 值 水 平 存 在 缺 失 值 时 , 各 哑 变 量 的 回 归 系 数 可 能 不 满 足 土 文 给 出 的关 系 表 , 这 是 因 为 由 于 SPSS 在 进 行 统 计 分 析 时 , 将 变 量 取 值 存 在 缺 失 值 的 记 录 删 除 , 从 而 导 致 每次 分 析 的 数 据 集 不 同 所 致 。(4) 对 有 序 自 变 量 的 分 析 。 二 是 从 专 业 出 发 , 如 果 认 为 在 不 同 等 级 对 反 应 变 量 的 影 响 程 度是 一 致 的 , 如 文 化 程 度 每 增 加 一 个 等 级 , 成 为 某 项 时 尚 消 费 品 潜 在 消 费 者 的 比 数 (P/ C1-p)) 的自 然 对 数 增 加 幅 度 也 相 同 , 这 时 可 以 将 该 变 量 作 为 连 续 性 变 量 进 行 处 理 , 这 样 得 到 的 模 型 也 更 简沽 , 结 果 的 解 释 也 更 方 便 。 当 专 业 上 不 能 给 出 以 上 假 设 时 , 则 需 要 先 将 该 有 序 变 量 分 别 以 哑 变 量和 连 续 性 变 量 的 方 式 引 入 模 型 , 观 察 各 哑 变 量 的 回 归 系 数 间 是 否 存 在 等 级 关 系 , 以 及 对 两 个 模 型进 行 似 然 比 检 验 , 似 然 比 正 值 等 于 两 个 模 型 的 一 210g(L) 之 差 , 自 由 度 为 两 个 模 型 中 自 变 量 个 数之 差 , 如 果 似 然 比 检 验 无 统 计 学 意 义 , 且 各 哑 变 量 的 回 归 系 数 间 存 在 等 级 关 系 , 可 以 将 该 自 变 量作 为 连 续 性 变 量 引 入 模 型 , 否 则 最 好 还 是 采 用 哑 变 量 的 方 式 引 入 模 型 。• 175 •


9.4 自 变 莹 的 筛 选 方 法 与 逐 步 同 归与 线 性 回 归 相 类 似 地 , 在 建 立 Logistic回 归 模 型 时 应 该 尽 量 引 入 对 反 应 变 量 有 影 响 作 用 的 变量 , 将 没 有 影 响 或 影 响 较 小 的 变 量 排 除 在 模 型 之 外 , 本 节 将 就 此 进 行 讨 论 。9.4.1 模 型 中 的 假 设 检 验 方 法在 前 面 分 析 实 例 的 输 出 中 一 共 可 以 看 到 三 种 假 设 检 验 的 结 果 , 它 们 在 Logistic 模 型 的 分 析 中都 非 常 重 要 , 但 作 用 各 不 相 同 , 下 面 将 依 次 讲 解 。1. Wald 检 验该 检 验 是 通 过 比 较 β 值 来 进 行 的 , 它 基 于 β 值 服 从 正 态 分 布 的 假 设 , 首 先 求 出 β 值 的 标 准误 , 然 后 基 于 正 态 分 布 原 理 求 出 P 值 。 可 以 看 出 , 参 数 可 信 区 间 的 估 计 式 就 是 基 于 Wald检 验的 。 在 结 果 输 出 中 , 关 于 β 值 的 所 有 检 验 都 进 行 的 是 Wald 检 验 。2. 似 然 比 检 验 (Likelihood Ratio Test)Logistic 模 型 的 估 计 一 般 采 用 的 是 最 大 似 然 法 , 即 使 得 模 型 的 似 然 函 数 L 达 到 最 大 值 。一 21n L 被 称 为 Deviance , 记 为 D 。 显 然 模 型 预 测 效 果 越 好 , 则 L 越 大 , D 值 也 越 大 。 似 然 比 检 验就 是 通 过 比 较 是 否 包 含 某 个 ( 或 几 个 ) 参 数 β 的 两 个 模 型 的 D 值 来 进 行 , 即 :G = Dp - Dk =X~-p (9. 1)式 (9. 1) 中 Dp 为 未 包 含 某 个 ( 或 几 个 ) 参 数 模 型 的 D , Dk 为 包 含 了 某 个 ( 或 几 个 ) 参 数 模 型 的D , 当 样 本 含 量 较 大 时 , 该 统 计 量 服 从 x2 分 布 。 在 引 例 的 输 出 中 ,Block 1 的 Omnibus Tests of ModelCoefficients 表 格 中 输 出 的 扩 统 计 量 就 是 似 然 比 检 验 的 结 果 , 即 分 别 是 当 前 步 、Block 和 模 型 与上 一 步 、Block 和 模 型 D 值 的 比 较 结 果 。 由 于 在 引 例 中 的 模 型 比 较 简 单 , 所 以 三 个 检 验 实 际 上 是一 回 事 。3. 比 分 检 验 (Score Test)以 未 包 含 某 一 个 ( 或 几 个 ) 参 数 的 模 型 为 基 础 , 保 留 模 型 中 参 数 的 估 计 值 , 并 假 设 新 增 加 的参 数 为 0 , 计 算 似 然 函 数 的 一 阶 偏 导 数 ( 又 称 有 效 比 分 ) 及 信 息 矩 阵 , 两 者 相 乘 即 为 比 分 检 验 统 计量 So 当 样 本 量 较 大 时 , S 也 服 从 x2 分 布 。 该 检 验 最 常 用 于 筛 选 变 量 , 在 引 例 的 输 出 中 ,Block 0的 Variables not in the Equation 表 输 出 的 就 是 比 分 检 验 的 结 果 。 实 质 上 , 比 分 检 验 和 扩 分 析 中 的xb 是 等 价 的 。4. 以 上 检 验 方 法 的 用 途上 述 三 种 假 设 检 验 中 , 似 然 比 检 验 是 基 于 整 个 模 型 的 拟 合 情 况 进 行 的 , 结 果 最 为 可 靠 ; 比 分检 验 结 果 一 般 与 似 然 比 检 验 一 致 。 最 差 的 就 是 Wald 检 验 , 它 考 虑 各 因 素 的 综 合 作 用 , 当 因 素 间存 在 共 线 性 的 时 候 , 结 果 不 可 靠 。 故 在 筛 选 变 量 时 , 用 Wald 法 应 慎 重 。 因 为 参 数 的 可 信 区 间 也是 基 于 该 检 验 算 得 的 , 故 以 95% 可 信 区 间 来 筛 选 变 量 也 应 慎 重 。了 解 了 三 种 检 验 的 特 点 后 , 就 可 以 通 过 一 些 技 巧 , 正 确 使 用 它 们 进 行 复 杂 模 型 的 拟 合 。 比 如说 希 望 检 验 多 分 类 自 变 量 某 两 个 水 平 的 效 应 是 否 相 同 , 就 可 以 先 拟 合 全 哑 变 量 模 型 , 然 后 将 这 两个 水 平 赋 予 相 同 哑 变 量 值 再 进 行 拟 合 , 比 较 两 个 模 型 的 Deviance , 进 行 自 由 度 为 1的 似 然 比 检• 176 •


验 , 就 可 以 得 知 它 们 的 效 应 是 否 相 同 。9.4.2 自 变 量 的 筛 选 方 法SPSS 提 供 了 6种 筛 选 自 变 量 的 方 法 , 向 前 法 (Forward) 有 三 种 , 即 一 般 统 计 学 书 上 所 说 的 逐步 回 归 法 , 具 体 做 法 是 SPSS 根 据 所 选 用 方 法 ( 以 Conditional法 为 例 ) 中 规 定 的 标 准 (p 值 ) 对 所有 的 变 量 进 行 筛 选 , 将 P 值 最 小 的 那 个 变 量 先 纳 入 模 型 ( 当 然 要 满 足 一 定 的 条 件 , 如 p{ 直 小 于0.05) 。 然 后 再 计 算 剩 下 的 变 量 的 P 值 , 将 剩 下 变 量 中 p{ 直 满 足 条 件 且 最 小 的 那 个 纳 入 模 型 。此 时 , 先 前 纳 入 模 型 的 变 量 有 可 能 受 后 面 进 入 模 型 的 变 量 的 影 响 而 变 得 无 统 计 学 意 义 。 因 此 每当 模 型 中 纳 入 新 变 量 后 , SPSS 将 对 模 型 内 的 变 量 逐 个 筛 选 , 看 有 无 哪 一 ( 几 ) 个 可 以 剔 除 。 如 此反 复 进 行 , 直 到 模 型 外 无 新 的 变 量 可 以 纳 入 模 型 , 模 型 中 也 无 可 以 剔 除 的 变 量 , 此 时 SPSS 得 到 最终 结 果 。 三 种 向 前 法 选 入 自 变 量 时 均 采 用 Score 检 验 , 而 剔 除 自 变 量 的 标 准 不 同 。 分 别 为 :(1) Forward: Conditional, 基 于 条 件 参 数 估 计 的 向 前 逐 步 回 归 法 。 选 入 变 量 时 基 于 Score 统计 检 验 结 果 , 剔 除 变 量 基 于 条 件 参 数 估 计 似 然 比 检 验 结 果 。(2) Forward: LR , 基 于 最 大 似 然 估 计 的 向 前 逐 步 回 归 法 。 选 入 自 变 量 基 于 Score 检 验 统 计量 , 剔 除 变 量 基 于 最 大 偏 似 然 估 计 的 似 然 比 检 验 结 果 。(3) Forward: Wald , 基 于 Wald 统 计 量 的 向 前 逐 步 回 归 法 。 选 入 自 变 量 基 于 Score 检 验 统 计量 , 剔 除 变 量 基 于 Waldx2 检 验 结 果 。向 后 法 CBackward) 则 是 先 把 所 有 变 量 先 放 入 模 型 , 然 后 按 照 相 应 的 标 准 一 个 接 一 个 地 剔 除 ,对 于 被 剔 除 的 变 量 不 再 考 虑 其 是 否 可 能 被 再 引 入 模 型 。 SPSS 也 提 供 了 三 种 方 法 :(1) Backward: Conditional, 基 于 条 件 参 数 估 计 的 向 后 逐 步 回 归 法 。 剔 除 变 量 基 于 条 件 参 数估 计 的 似 然 比 检 验 结 果 。(2) Backward: LR , 基 于 最 大 似 然 估 计 的 向 后 逐 步 回 归 法 。 剔 除 变 量 基 于 最 大 偏 似 然 估 计的 似 然 比 检 验 结 果 。(3) Backward: Wald , 基 于 Wald 统 计 量 的 向 后 逐 步 回 归 法 。 剔 除 变 量 基 于 Wald x2 检 验 结果 。基 于 条 件 参 数 估 计 和 偏 最 大 似 然 估 计 的 筛 选 方 法 都 比 较 可 靠 , 尤 以 后 者 为 佳 。 但 基 于 Wald统 计 量 的 检 验 则 不 然 , 它 实 际 上 未 考 虑 各 因 素 的 综 合 作 用 , 当 因 素 间 存 在 共 线 性 时 , 结 果 不 可 靠 ,故 应 当 慎 用 。 参 数 的 可 信 区 间 也 是 基 于 Wald 统 计 量 算 得 的 , 故 也 应 当 慎 用 。 还 需 要 注 意 的 是 ,逐 步 回 归 所 获 得 的 结 果 是 保 证 此 时 获 得 的 模 型 最 大 似 然 函 数 值 最 大 , 但 并 不 能 保 证 此 时 的 模 型其 预 测 精 度 最 高 。 最 终 模 型 的 选 择 仍 需 要 获 得 专 业 理 论 的 支 持 。9.4.3 分 析 实 例下 面 就 使 用 例 9.3 , 来 演 示 在 SPSS 中 如 何 实 现 逐 步 法 的 Logistic 回 归 分 析 , 为 使 得 结 果 更 容易 解 释 , 下 面 的 操 作 中 将 种 族 的 参 照 水 平 更 改 为 白 人 。: Analyze 一 今 Regression 一 今 Binary logistic!Dependent 杠 :LOW: Covariates 杠 :LWT 、 AGE 、 SMOKE 、 PTL 、 HT 、 UI , FTV 、 RACE• 177 •


--EI- ---EEEl-Ca二 ---FhueE O--riι七 at一 -一一一一 一..Categorical 川 阶 s: RACE I Referenceω 吨 。ry: First: ICh 画|Continuel:Method杠 : Forward: LR! IOptionsl: 由 CI for 叫 ( 自 ) : IContinue Ii 因主 要 分 析 结 果 如 下 :表 9. 16 Categorical Variables CodingsParameter codingFrequency (1 ) (2)种 族 1 白 人 96 .000 .0002 黑 人 26 1.000 0003 其 他 神 族 67 .000 1000表 9.16 中 输 出 变 量 race 在 产 生 哑 变 量 时 的 编 码 情 况 , 以 白 人 为 参 照 水 平 。随 后 的 标 题 "Block0: Beginnir表 9.17Variables not in the EquationScore df SigStep 0 Variables age 2.407 才 21Iwl 4.616 032race 5.005 2 .082race(1 ) 1.727 189race(2) 才 797 才 80smoke 4.924 .026ptl 7.267 007ht 4.388 036UI 4.205 .040ftv .934 .334Overall Sta!istics 29.140 9 001表 9.17 中 输 出 的 是 拟 合 包 含 常 数 项 和 任 一 个 自 变 量 的 Logistic 回 归 模 型 时 Score 检 验 统 计量 、 自 由 度 及 P 值 。 其 中 race 产 生 两 个 哑 变 量 , 因 此 其 总 自 由 度 为 2 。 由 表 9.17 可 以 发 现 , 本 次娃 振 前 早 产 次 数 CptD 的 Score 统 计 量 最 大 , p =0. 007 , 小 于 SPSS 默 认 选 入 变 量 的 标 准 CO.05) 因此 下 一 步 将 它 首 先 选 入 模 型 。随 后 的 标 题 "Block1: Method = Forward Stepwise CLikelihood Ratio) " 说 明 将 会 给 出 向 前 逐 步• 178 •


法 的 分 析 结 果 。表 9.18Omnibus Tests of Model CoefficientsChi-square df SigStep 1 Step 6.779 ,009Block 6.779 009Model 6.779 009Step 2 Step 4.309 038Block 11.089 主 004Model 11.089 2 ,004Step 3 Step 6.363 ,012Block 17.452 3 00 才Model 17.452 3 00 才表 9.18 输 出 了 对 每 一 步 引 入 变 量 后 , 对 模 型 中 是 否 所 有 参 数 均 为 O 的 似 然 比 检 验 。表 9.19Model SummaryStep -2 Log likelihood Cox & Snell R Square Nagelkerke R Square227 ,893 a .035 ,0502 223583 b .057 ,3 217.220 b .088 , 124080a Estimation terminated at iteratio 内 内 叫 mber 3 because 口 arameter estimates changed by less tha 门 口 。 1b. Estimation terminated at iteration n 吐 mber 4 because 口 arameter estimates changed by less than 001表 9.19 输 出 了 每 一 步 时 的 一 210g (L) , 可 用 于 进 行 似 然 比 检 验 , 还 输 出 两 种 伪 决 定 系 数 。表 9.20Variables in the Equation95.0% C .l.for EXP(B)B S , E Wald df Sig Exp(B) Lower UpperStep 1 a ptl ,802 .317 6 ,391 ,011 2.230 1 , 197 4 , 15 丁Constant -,964 .175 30.370 000 .381Step 2 b ptl 823 .318 6 ,683 010 2.277 1 ,220 4.250ht 才 272 .616 4 ,270 039 3.569 1 ,068 11 ,930Constant 1,062 .184 33 , 224 000 .346Step 3ι Iwt -,015 .007 5 ,584 ,018 .985 .972 .997ptl 728 .327 4 ,961 026 2.071 109 才 3 ,929ht 才 789 .694 6 ,639 010 5.986 1 ,535 23 ,348Constant 893 .829 1, 158 282 2.441a, Variable(s) e 叫 lered on step 1 pllb. Variable(s) enlered on step 2 htc, Variable(s) enlered on step 3 Iwt• 179 •


表 9. 20 输 出 了 每 一 步 逐 步 回 归 得 到 的 模 型 中 参 数 估 计 及 其 标 准 误 、 Wald x2 等 。 另 外 还 输出 了 。R 值 的 95% 可 信 区 间 。表 9.21Model if Term RemovedModel Log Changein-2 Sig.oftheVariable Likelihood Log Likelihood df ChangeStep 1 ptl -117.336 6.779 009Step 2 ptl -115.325 7.067 008ht -113.946 4.309 038Step 3 Iwt -11 才 792 6.363 012ptl -111.231 5.242 022ht -112.145 7.070 .008表 9. 21 输 出 了 对 于 己 在 模 型 中 的 自 变 量 是 否 需 要 被 剔 除 出 模 型 的 似 然 比 检 验 结 果 , 结 论 是" 一 个 都 不 能 少 "。SPSS 还 输 出 了 对 尚 不 在 模 型 中 的 自 变 量 是 否 能 被 引 入 的 Score 检 验 结 果 。 结 论 是 在 第 二 步引 入 " 是 否 患 有 高 血 压 " Cht) 。 限 于 篇 幅 原 因 , 只 列 出 第 一 步 的 结 果 。表 9.22Variables not in the EquationScoreStep 才 Variables age 3.149Iwt 3.340race 5.359race(1 ) 2.056race(2) 才 712smoke 3.164ht 4.722UI 2.162ftv .753Overall Statistics 22.858dfSig..076.0682 .069.152.191.075.030.141.3858 .004逐 步 回 归 结 果 对 于 当 前 样 本 数 据 集 效 果 较 好 , 但 对 于 相 同 研 究 的 另 一 个 数 据 库 应 用 同 样 的逐 步 回 归 方 法 不 能 保 证 得 到 同 样 的 自 变 量 子 集 。 尤 其 对 于 样 本 含 量 较 小 的 数 据 库 , 结 果 更 不 稳定 。 有 学 者 认 为 , 若 获 得 的 模 型 主 要 用 于 预 测 时 可 适 当 多 一 点 自 变 量 , 不 推 荐 应 用 逐 步 回 归 得 到的 模 型 进 行 预 测 。9.5 模 型 拟 合 效 果 与 拟 合 优 度 检 验当 所 研 究 的 问 题 较 为 复 杂 时 , 对 于 同 一 个 数 据 , 可 以 得 到 多 个 可 能 的 模 型 , 那 么 究 竟 模 型 的分 析 效 果 怎 么 样 ? 哪 一 个 又 是 最 优 的 模 型 ? 还 有 必 要 对 其 进 行 改 进 吗 ? 这 一 系 列 的 问 题 要 求 研• 180 •


究 者 找 到 一 系 列 的 指 标 对 所 拟 合 模 型 的 优 劣 程 度 , 以 及 是 否 需 要 进 一 步 改 进 进 行 判 断 , 本 节 将 深入 探 讨 此 问 题 。9.5.1 模 型 效 果 的 判 断 指 标对 于 所 建 立 的 模 型 , 通 常 可 以 使 用 一 些 比 较 复 杂 的 统 计 指 标 对 其 效 果 加 以 判 断 。 此 外 , 由 于反 应 变 量 为 分 类 变 量 , 对 其 类 别 预 测 的 正 确 率 显 然 也 是 非 常 直 观 的 效 果 判 断 指 标 , 这 里 对 常 用 的一 些 判 断 指 标 加 以 介 绍 。1. 对 数 似 然 值 与 伪 决 定 系 数Logistic 模 型 是 通 过 极 大 似 然 法 求 解 的 , 极 大 似 然 值 实 际 上 也 是 一 个 概 率 , 取 值 在 o ~ 1 之间 。 取 值 为 1, 代 表 模 型 达 到 完 美 , 此 时 其 对 数 值 为 0; 似 然 值 越 小 , 则 其 对 数 值 越 负 , 因 此 一 2 倍的 对 数 似 然 值 就 可 以 用 来 表 示 模 型 的 拟 合 效 果 , 其 值 越 小 , 越 接 近 于 0 , 说 明 模 型 拟 合 效 果 越 好 。对 于 同 一 个 数 据 , 当 数 据 库 的 自 变 量 中 不 存 在 缺 失 值 时 , 可 直 接 用 于 对 所 建 立 的 不 同 模 型 间 拟 合效 果 比 较 。 当 自 变 量 中 存 在 缺 失 值 时 , 要 特 别 小 心 , 因 为 一 般 统 计 软 件 在 进 行 计 算 时 会 把 含 有 缺失 值 的 记 录 予 以 剔 除 , 不 参 与 统 计 分 析 。 这 就 可 能 导 致 计 算 不 同 模 型 所 用 的 数 据 库 记 录 不 同 , 有的 多 一 点 , 有 的 少 一 点 。 这 时 就 不 能 直 接 应 用 一 210g likelihood 对 不 同 模 型 的 拟 合 效 果 进 行比 较 。为 了 方 便 使 用 , 从 对 数 似 然 值 出 发 还 可 以 计 算 出 伪 决 定 系 数 , 详 细 介 绍 参 见 前 面 有 关 叙 述 。该 指 标 的 解 释 类 似 于 回 归 模 型 中 的 决 定 系 数 , 更 为 方 便 。2. 模 型 预 测 正 确 率显 然 , 对 因 变 量 结 局 预 测 的 准 确 程 度 也 可 以 反 映 模 型 的 效 果 , SPSS 在 Logistic 回 归 过 程 中 会输 出 包 含 预 测 分 类 结 果 与 原 始 数 据 分 类 结 果 的 列 联 表 , 默 认 是 按 照 概 率 是 否 大 于 0.5 进 行 分 割 。如 例 9. 3 进 行 逐 步 回 归 的 第 二 步 Cstep3 ) 输 出 以 下 结 果 :表 9.23Classification Table aPredictedStep 3Observed低 出 生 体 豆 儿Overall Percentagef 民 出 生 体 重 儿正 常 低 出 生 体 重 Percentage CorrectE 常 123794.6低 出 生 体 重 471220.371 .4a. The cut value is .500由 表 9. 23 可 以 看 出 , 预 测 正 确 的 记 录 占 样 本 全 部 记 录 的 7 1. 4% , 其 中 出 生 体 重 正 常 者 中 有94.6% 的 人 被 正 确 预 测 为 正 常 , 但 低 出 生 体 重 中 只 有 20.3% 的 人 被 正 确 的 预 测 为 低 出 生 体 重 。除 在 结 果 中 直 接 输 出 外 , Binary Logistic 过 程 还 通 过 Save 子 对 话 杠 ( 如 图 9.4 所 示 ) 提 供 了保 存 研 究 对 象 预 测 类 别 、 预 测 概 率 的 功 能 , 研 究 者 可 进 一 步 将 预 测 分 类 结 果 和 概 率 保 存 为 新 变量 , 从 而 可 进 一 步 计 算 Kappa 系 数 等 一 致 性 指 标 。 对 于 例 9.3 , 则 可 以 使 用 预 测 的 分 类 结 果 进 行Kappa 检 验 如 下 , 参 见 表 9.240• 181 •


表 9.24Symmetric MeasuresMeasure of AgreementKappaValue.184Asymp. Std. Error a067Approx. T bApprox. Sig3.168 .002N of Valid Cases189a. Not assuming the null hy 口 othesisb. Using the asym 口 totic standard err 口 r assum ing the null hypothesis显 然 , 从 表 9. 24 中 的 结 果 可 见 , 虽 然 实 际 结 果 和 预 测 值 之 间 存 在 着 一 致 性 , 但 Kappa 值 比 较低 , 说 明 该 模 型 的 预 测 效 果 不 是 很 好 。图 9.4 Save 子 对 话 框3. ROC 曲 线通 过 预 测 正 确 率 对 模 型 拟 合 效 果 进 行 判 断 有 一 定 不 足 , 显 然 , 预 测 概 率 为 0.9 和 概 率 为 0.6的 含 义 是 不 同 的 , 但 预 测 正 确 率 的 计 算 仅 根 据 模 型 所 提 供 的 预 测 信 息 将 这 两 种 情 况 均 简 单 地 划分 为 同 一 类 , 损 失 大 量 的 信 息 。 能 否 直 接 利 用 预 测 概 率 进 行 评 判 ? ROC 曲 线 就 可 以 达 到 这 一 目的 。 ROC 曲 线 即 受 试 者 工 作 特 征 曲 线 CReceiver Operating Characteristic Curve) , 或 译 作 接 受 者 操作 特 征 曲 线 。 它 是 一 种 广 泛 应 用 的 数 据 统 计 方 法 , 1950 年 应 用 于 雷 达 信 号 检 测 的 分 析 , 用 于 区别 " 噪 声 " 与 " 信 号 " 1960 年 Lee Lusted 开 始 将 其 应 用 到 医 学 领 域 。 在 对 Logistic 回 归 模 型 拟 合效 果 进 行 判 断 时 , 通 过 ROC 曲 线 可 直 接 使 用 模 型 预 测 概 率 进 行 。 应 用 ROC 曲 线 可 帮 助 研 究 者确 定 合 理 的 预 测 概 率 分 类 点 , 即 将 预 测 概 率 大 于 ( 或 小 于 ) 多 少 的 研 究 对 象 判 断 为 阳 性 结 果 ( 或阴 性 结 果 )。Binary Logistic 过 程 的 Save 子 对 话 杠 中 提 供 了 保 存 研 究 对 象 预 测 概 率 的 功 能 , 如 图 9.4 所示 。 然 后 通 过 Graphs 菜 单 的 ROC Curve 子 菜 单 , 就 可 以 绘 制 出 ROC 曲 线 。 此 时 SPSS 将 根 据 不同 的 预 测 概 率 界 值 将 研 究 对 象 判 断 为 低 出 生 体 重 , 并 计 算 相 应 的 灵 敏 度 、 特 异 度 、c1 一 特 异 度 )等 指 标 。 关 于 ROC 曲 线 的 详 细 内 容 参 见 本 系 列 丛 书 的


: Graphs• ROC Curve:Test Variable杠 : PRE_l: State Variable 杠 : lowi 飞 lah 阳 of State Variable 杠 :1ROC Curve IWith diagonal reference lineStandard eηor and confidence interval囚输 出 结 果 如 图 9. 5 所 示 。l。υ0.8立 〉 于 0.6/日 由 5 丁 0.4//0.2/AV hHUι 。v v0.2 0.4 0.6 。 .81-Specificityl。υ图 9.5ROC 曲 线 用 于 模 型 拟 合 效 果 判 断图 9.5 即 为 ROC 曲 线 , 预 测 效 果 最 佳 时 , 曲 线 应 该 是 从 左 下 角 垂 直 上 升 至 顶 , 然 后 水 平 方 向向 右 延 伸 到 右 上 角 。 如 果 ROC曲 线 沿 着 主 对 角 线 方 向 分 布 , 表 示 分 类 是 机 遇 造 成 的 , 正 确 分 类和 错 分 的 概 率 各 为 50% , 此 时 该 诊 断 方 法 完 全 无 效 。 从 图 9.5 可 见 , 当 前 模 型 应 当 有 一 些 效 果 。表 9. 25Area Under the CurveTest Result Variable(s): Predicted probabilityAsymptotic 95% Confidence IntervalAreaStd. Error aAsymptotic SigbLower BoundUpper Bound.708.043 .000.624.792The test result variable(s): Predicted probabilily has al leasl one lie between thepositive actual stale group and the negative actual stale group. Slatistics may bebiaseda. U nder the nonparametrlc assumptionb. Null hyp 口 Ihesis: true area = 0.5表 9. 25 为 对 曲 线 下 面 积 进 行 计 算 的 结 果 , 给 出 了 曲 线 下 面 积 的 估 计 值 和 标 准 误 差 , 可 见 如果 根 据 当 前 模 型 预 测 概 率 进 行 预 测 , 则 ROC 曲 线 下 面 积 为 0.708 , 其 95% 可 信 区 间 为 (0. 624 ~• 183 •


O. 792) 。 随 后 进 行 的 是 面 积 是 否 为 O. 5 的 检 验 P 值 和 95% 可 信 限 。 下 面 的 脚 注 表 明 用 的 是 非参 数 假 设 , 无 效 假 设 是 面 积 为 0.5 。 可 见 当 前 模 型 的 预 测 效 果 和 无 效 模 型 比 起 来 还 是 有 差 异 的 09.5.2 拟 合 优 度 检 验在 上 面 虽 然 己 经 学 习 了 一 系 列 的 模 型 效 果 判 断 方 法 , 但 这 还 是 不 够 。 比 如 说 , 以 上 模 型 效 果判 断 指 标 究 竟 要 多 大 才 合 适 ? 根 据 现 有 的 资 料 和 模 型 , 能 否 进 一 步 改 善 模 型 , 使 预 测 精 度 更 佳 一些 ? 这 个 问 题 就 很 难 仅 仅 依 靠 上 述 指 标 加 以 回 答 。 此 时 就 需 要 使 用 拟 合 优 度 检 验 了 。1. 什 么 是 拟 合 优 度为 了 回 答 什 么 是 拟 合 优 度 , 先 要 引 入 两 个 简 单 的 概 念 : 自 变 量 组 合 与 饱 和 模 型 。(1) 自 变 量 组 合 : 即 模 型 中 协 变 量 的 各 种 取 值 组 合 的 总 数 , 就 是 指 如 果 按 自 变 量 进 行 排 列 组合 进 行 样 本 拆 分 的 话 , 最 多 可 能 拆 成 多 少 个 哑 组 , 其 计 算 方 法 为 m= 各 自 变 量 分 类 数 乘 积 (Numberof Covariate PaUems) 。 例 如 共 有 性 别 、 疗 法 种 类 两 个 自 变 量 , 则 该 数 据 中 的 自 变 量 组 合 共 有 4种 :男 性 、 标 准 疗 法女 性 、 标 准 疗 法男 性 、 新 疗 法女 性 、 新 疗 法显 然 , 在 对 数 据 进 行 分 析 时 , 至 多 只 能 细 分 到 各 种 自 变 量 组 合 , 在 每 一 种 组 合 下 计 算 出 因 变量 相 应 的 发 生 概 率 , 不 可 能 有 更 细 的 拆 分 了 。(2) 饱 和 模 型 : 若 模 型 中 的 参 数 (β。, β] ,… , ßp ) 的 个 数 p+l= 自 变 量 组 合 数 , 则 称 相 应 的 模型 为 饱 和 模 型 。 实 际 上 , 这 样 的 模 型 必 然 是 纳 入 了 自 变 量 的 所 有 主 效 应 、 各 阶 交 互 效 应 的 模 型 。如 果 进 一 步 的 举 例 说 明 : 单 自 变 量 模 型 本 身 就 是 饱 和 模 型 ; 双 自 变 量 模 型 的 饱 和 模 型 是 纳 入 了 交互 项 的 模 型 , 依 次 类 推 。 相 对 应 的 , 参 数 更 少 的 模 型 则 被 称 为 非 饱 和 模 型 , 又 称 简 约 模 型 。可 以 证 明 对 于 预 测 而 言 , 饱 和 模 型 的 样 本 符 合 率 是 最 高 的 , 为 什 么 会 这 样 呢 ? 这 是 因 为 在 饱和 模 型 中 , 每 一 种 自 变 量 组 合 方 式 都 可 以 在 模 型 中 找 到 相 应 的 参 数 表 达 式 与 之 对 应 , 不 可 能 更 加细 化 了 。 以 上 述 有 性 别 、 疗 法 种 类 两 个 自 变 量 的 模 型 为 例 , 4个 自 变 量 组 合 在 饱 和 模 型 中 对 应 的表 达 式 如 下 ( 设 男 性 、 标 准 疗 法 对 应 的 取 值 为 0): 男 性 、 标 准 疗 法 logit (p) = β。 +β] xO +β2 xO +β3 XOXO =β 。 男 性 、 新 疗 法 logit (p) = β。 +β] xO +β2 X 1 +β3 xOx1 =β 。 +β2 女 性 、 标 准 疗 法 logit (p) = β。 +β]xl+β2 xO +β3 x1xO =β 。 +βl 女 性 、 新 疗 法 logit (p) = β。 +β]xl+β2 X 1 +β3 x1x1 =β 。 +β]+β2 +β3从 由 这 4种 对 应 的 表 达 式 可 知 , 事 实 上 , 饱 和 模 型 的 预 测 值 就 是 各 组 合 下 的 样 本 均 数 / 样 本率 。 因 此 饱 和 模 型 是 对 当 前 数 据 能 够 拟 合 的 最 为 完 美 的 模 型 , 不 可 能 再 作 进 一 步 的 改 进 了 。 但是 , 饱 和 模 型 的 解 释 和 应 用 过 于 复 杂 , 而 且 模 型 中 往 往 存 在 着 大 量 的 无 统 计 学 意 义 的 参 数 , 对 饱和 模 型 进 行 无 用 参 数 的 简 化 , 得 到 最 合 适 的 非 饱 和 模 型 更 加 符 合 分 析 要 求 。 换 言 之 , 如 果 所 有 的影 响 因 素 都 被 挖 掘 出 来 了 , 那 么 在 控 制 了 这 些 影 响 因 素 后 , 模 型 的 预 测 效 果 就 应 当 等 同 于 饱 和 模型 。 因 此 , 考 察 当 前 模 型 是 否 可 以 进 一 步 改 善 可 以 检 验 当 前 模 型 与 饱 和 模 型 的 预 测 效 果 之 差 是否 有 统 计 意 义 , 这 就 是 模 型 的 拟 合 优 度 检 验 (Test of Goodness of Fit) 。由 以 上 讨 论 可 知 , 严 格 意 义 上 讲 , 模 型 效 果 的 判 断 指 标 和 拟 合 优 度 检 验 是 递 进 关 系 的 两 个 概念 。 拟 合 优 度 好 仅 仅 说 明 当 前 数 据 中 的 信 息 己 经 被 充 分 提 取 , 但 并 不 能 说 明 模 型 用 于 预 测 效 果• 184 •


就 一 定 很 好 。 例 如 使 用 某 数 据 的 饱 和 模 型 进 行 预 测 , 拟 合 优 度 自 然 是 完 美 无 缺 , 但 预 测 的 时 候 结果 则 是 : 在 某 种 自 变 量 组 合 下 , 治 愈 的 概 率 是 0.6 。 显 然 , 如 果 按 照 0.5为 界 值 预 测 为 可 以 治 愈的 话 , 平 均 就 有 40% 的 错 误 率 , 模 型 的 预 测 效 果 显 然 是 很 差 的 。 如 果 出 现 这 种 情 况 , 则 意 味 着 数据 采 集 中 漏 掉 了 真 正 有 影 响 的 自 变 量 。以 上 关 于 拟 合 优 度 的 概 念 实 际 上 在 所 有 的 预 测 模 型 中 都 适 用 , 对 于 方 差 分 析 / 回 归 模 型 也 是如 此 , 也 均 有 相 应 的 检 验 方 法 可 以 使 用 , 只 不 过 可 能 叫 法 不 同 , 如 同 在 第 一 章 中 遇 到 的 lacktest 一 样 , 其 实 质 也 是 拟 合 优 度 检 验 。2. 常 用 的 拟 合 优 度 检 验 方 法以 下 介 绍 4 种 常 用 的 拟 合 优 度 检 验 方 法 。 由 于 SPSS 在 Binary Logistic 过 程 中 没 有 输 出 前 两种 方 法 的 结 果 , 故 仅 作 简 要 介 绍 。 对 后 两 种 方 法 , 将 辅 以 实 例 说 明 。(1) Pearson 拟 合 优 度 检 验 和 Deviance 拟 合 优 度 检 验 : 由 于 饱 和 模 型 的 预 测 结 果 实 质 上 就 是各 自 变 量 组 合 下 的 样 本 率 , 因 此 当 前 模 型 和 饱 和 模 型 的 比 较 就 可 以 用 将 当 前 模 型 预 测 值 和 样 本实 测 值 进 行 比 较 的 方 法 来 实 现 。 Pearson计 量 , 而 Deviance 拟 合 优 度 检 验 则 略 有 不 同 , 两 者 的 计 算 公 式 为 :论 值 。of fit拟 合 优 度 检 验 的 统 计 量 。 p 实 际 上 就 是 普 通 的 扩 检 验 统2 Ac. - Tc) 2 2 /A,\Op=Z Z HTJ ,。L=Z ZMJ 叶 和其 中 , j = 1 或 2 表 示 因 变 量 的 不 同 取 值 , h 表 示 自 变 量 组 合 从 1 ~ s , A 表 示 实 际 值 , T 表 示 理Qp 和 QL 均 服 从 x2 分 布 , 自 由 度 为 自 变 量 组 合 数 与 模 型 中 参 数 个 数 之 差 。 若 p > 0.05 , 说明 模 型 拟 合 良 好 , 反 之 , 若 P~O. 05 , 则 模 型 拟 合 效 果 较 差 。以 上 两 种 方 法 对 样 本 含 量 有 一 定 要 求 , 大 致 如 下 : 每 一 自 变 量 组 合 的 样 本 例 数 不 少 于 10 。 80% 的 预 测 频 数 Thj 不 小 于 1 所 有 预 测 频 数 Thj 大 于 2 , 尤 其 不 能 为 0 。根 据 以 上 要 求 , 当 自 变 量 很 多 , 或 自 变 量 中 包 含 连 续 性 变 量 时 , 每 个 自 变 量 组 合 包 含 的 样 本例 数 往 往 很 少 , 只 有 一 两 例 , 达 不 到 上 述 要 求 , 也 就 不 能 用 以 上 两 种 方 法 进 行 拟 合 优 度 检 验 。 此时 可 用 以 下 介 绍 的 两 种 拟 合 优 度 检 验 方 法 。(2) 似 然 比 检 验 : 此 处 所 说 的 似 然 比 检 验 指 的 是 考 察 简 约 模 型 CReduced ModeD 与 饱 和 模 型CFull ModeD 之 间 差 别 的 似 然 比 检 验 。 所 谓 饱 和 模 型 是 指 模 型 中 除 了 包 含 各 自 变 量 的 主 效 应 项之 外 , 还 包 括 所 有 的 各 自 变 量 问 各 级 交 互 作 用 项 。 主 要 用 于 考 察 对 于 饱 和 模 型 是 否 能 够 进 一 步简 化 模 型 。 对 于 例 9.3 , 包 含 经 过 逐 步 回 归 筛 选 的 三 个 自 变 量 lwt 、 加 、 ptl 的 Logistic 饱 和 模 型 为 :logit Cp) = β。 +β1 X l1 川 +β2 X ht + β3 X ptl + β4 X Clwt x ht) + β5 X Clwt x ptZ) +β6 x Cht x ptZ) + β7 X Clwt • ht x ptZ)表 9.26Model SummaryStep -2 Log likelihood Cox & Snell R Square Nagelkerke R Square216.142 a .093 .131a. Eslimalion lerminaled al ileralion number 2 口 because maximum ileralions has been reached. Finalsolulion cannol be found• 185 •


拟 合 上 述 模 型 , 从 表 9. 26 的 输 出 结 果 中 可 以 查 到 此 时 模 型 的 一 2 Log likelihood 值 为216. 142 , 而 只 引 入 三 个 自 变 量 主 效 应 项 的 模 型 的 一 2 Log likelihood 为 217.220 , 二 者 之 差 为1. 078 , 服 从 自 由 度 为 4 ( 两 个 模 型 的 参 数 个 数 之 差 ) 的 扩 分 布 。 显 然 , p 值 > 0.050 说 明 只 需 拟合 包 含 三 个 自 变 量 主 效 应 项 的 Logistic 回 归 模 型 足 够 了 。 事 实 上 , 至 此 读 者 可 以 发 现 , 此 处 实 际上 就 是 对 饱 和 模 型 和 当 前 模 型 进 行 了 似 然 比 检 验 , 以 考 察 是 否 还 有 额 外 的 参 数 需 要 纳 入 。(α3)勘 H Oω 附 s 盯 I 口 阻 I阳2 ~ (ω4 一 T 凹 )2后 根 据 每 一 组 中 因 变 量 各 种 取 值 的 实 测 值 与 理 论 值 计 算 Pearsonx L= 芝 一 T 一 。 自 由 度 为 组数 减 2 ( 组 数 通 常 为 10 , 但 有 时 根 据 自 变 量 组 合 及 样 本 含 量 情 况 , 组 数 可 能 小 于 10) 0 ì 衷 方 法 通常 用 于 自 变 量 很 多 , 或 自 变 量 中 包 含 连 续 性 变 量 的 情 况 。 但 它 也 适 应 于 各 自 变 量 组 合 样 本 含 量足 够 大 的 情 况 。通 过 主 对 话 杠 中 的 Options按 钮 可 以 选 择 输 出 该 检 验 结 果 。 进 行 逐 步 回 归 时 , 选 中"Hosmer - Lemeshow goodness 一 of 白 曲 t" 选 项 可 对 每 二 步 筛 选 变 量 结 果 计 算 Hoω 阳 s 盯 I 阳 I计 量 。 对 于 例 9.3 , 我 们 只 列 出 第 三 步 的 Hoω 州 s 盯 I 阳 I9.280表 9.27Hosmer and Lemeshow TestChi-square9.979dfSig8 .266表 9.28Contingency Table for Hosmer and Lemeshow Test低 出 主 体 重 )~ = 0 正 常 低 出 丰 i 本 重 )~ = 1 低 tB 生 体 重Step 3Observed Expected Observed Expected16 16.697 3 2.303Total192 15 15.303 4 3.697193 18 17.461 5 5.539234 16 13.215 2 4.785185 15 13.708 4 5.292196 15 12.683 3 5.317187 11 12.310 7 5.690188 11 12.279 8 6.721199 6 10.531 13 8.4691910 7 5.812 10 11.188179.6 模 型 的 诊 断 与 修 正由 于 Logistic模 型 可 以 被 写 成 类 似 于 回 归 模 型 的 线 性 方 程 形 式 , 因 此 许 多 在 线 性 回 归 模 型 中• 186 •


的 知 识 都 可 以 被 系 统 的 移 植 过 来 使 用 。 有 鉴 于 此 , 许 多 类 似 的 知 识 点 在 此 将 不 再 重 复 , 仅 强 调 和回 归 模 型 中 不 相 同 的 内 容 。9.6.1 残 差 分 析SPSS 中 的 Logistic 回 归 过 程 可 以 使 用 Save 子 对 话 杠 在 数 据 库 中 保 留 以 下 几 种 残 差 :(1) Unstandardized: 实 际 发 生 概 率 与 根 据 模 型 预 测 的 概 率 之 差 值 , e i = Pi 一 扎 。 SPSS 定 义 出现 阳 性 结 果 的 记 录 其 实 际 发 生 概 率 为 1, 阴 性 结 果 的 记 录 其 实 际 发 生 概 率 为 0 。 本 例 , 则 低 出 生体 重 儿 的 实 际 发 生 概 率 为 1, 正 常 出 生 体 重 儿 的 实 际 发 生 概 率 为 0 。 如 第 一 条 记 录 Ci d = 85) 出 生体 重 正 常 , 则 实 际 发 生 低 出 生 体 重 的 概 率 为 0 , 而 根 据 其 产 妇 娃 振 前 体 重 Clwt)、 本 次 娃 振 前 早 产次 数 (pt Z) 、 是 否 患 有 高 血 压 (ht) 代 入 模 型 预 测 其 为 低 出 生 体 重 儿 的 概 率 为 0.128 99 , 故 残 差 =0-0.128 99 = -0.128 990(2) Logit 残 差 : 其 计 算 公 式 为 lre = e- P(II)Kp g 良 c1 - P(II)Kp g 良 )。(3) Studentized: 学 生 化 残 差 , 实 际 上 就 是 当 把 该 记 录 删 除 后 模 型 Deviance 的 改 变 量 。(4) Standardized: SPSS 存 储 的 变 量 名 为 zre , 实 际 上 它 就 是 Pe 盯 son 残 差 , 等 于 预 测 概 率 扎 除以 其 标 准 误 !Pi c1 -p) , 其 均 数 等 于 0 , 标 准 差 为 10(5) Deviance: dev i = 明 1 (p i - p) ! { - 2 [p)n ( 立 ) + c1 - p) ln c1 - p) }。 其 中 明 1 (Pi - p)意 为 取 其 括 号 内 的 符 号 , 如 果 实 际 概 率 小 于 预 测 概 率 , 则 deviance 残 差 为 负 , 反 之 为 正 。对 于 自 变 量 取 值 相 同 的 记 录 , 其 各 种 残 差 也 均 相 同 。 以 上 各 种 残 差 中 运 用 较 多 的 是 Standardized残 差 和 Deviance 残 差 , 如 果 残 差 值 绝 对 值 大 于 2 , 提 示 该 条 记 录 在 多 维 空 间 中 可 能 是 异 常点 。 在 得 到 残 差 后 , 进 行 残 差 分 析 的 基 本 思 路 和 线 性 回 归 模 型 基 本 相 同 , 这 里 不 再 重 复 。9.6.2 多 重 共 线 性 的 识 别 及 其 对 回 归 系 数 的 影 晌 及 处 理 办 法通 常 在 进 行 线 性 回 归 模 型 时 , 常 考 虑 到 是 否 存 在 自 变 量 间 的 多 重 共 线 性 , 而 在 反 应 变 量 为 分类 资 料 的 统 计 分 析 时 , 尤 其 是 Logistic回 归 分 析 时 分 析 者 常 常 会 忽 略 这 一 点 , 实 际 上 在 分 类 资 料的 统 计 分 析 中 , 多 重 共 线 性 的 情 况 仍 然 或 多 或 少 地 存 在 , 其 对 偏 回 归 系 数 的 影 响 也 仍 然 与 线 性 模型 中 的 表 现 一 致 , 如 增 加 或 删 除 一 条 记 录 , 模 型 中 偏 回 归 系 数 值 发 生 较 大 变 化 , 专 业 上 认 为 有 影响 的 因 素 无 统 计 学 意 义 , 反 倒 是 变 量 P 值 很 小 , 等 等 。 如 果 在 进 行 Logistic 模 型 分 析 中 , 尤 其 是在 向 模 型 中 引 入 交 互 作 用 项 时 出 现 了 回 归 结 果 反 常 现 象 , 则 自 变 量 间 的 多 重 共 线 性 是 需 要 排 除的 一 种 可 能 。 目 前 SPSS 的 Logistic 过 程 中 尚 没 有 关 于 多 重 共 线 性 诊 断 的 结 果 输 出 , 替 代 方 法 之一 是 运 用 相 同 的 反 应 变 量 与 自 变 量 , 拟 合 线 性 回 归 模 型 , 并 进 行 相 应 的 共 线 性 诊 断 。 如 果 确 实 出现 了 多 重 共 线 性 , 解 决 的 方 法 可 参 考 线 性 回 归 模 型 中 相 关 章 节 内 容 。思 考 与 练 习1. 试 运 用 本 章 所 介 绍 的 评 价 模 型 拟 合 优 度 的 指 标 对 例 9.1 数 据 库 所 拟 合 的 Logistic 回 归 模 型 拟 合 优 劣 进行 评 价 。2. 试 对 " 模 型 拟 合 效 果 与 拟 合 优 度 检 验 " 一 节 中 对 例 9.3 数 据 库 拟 合 的 Logistic 饱 和 模 型 中 出 现 的 回 归 系• 187 •


数 反 常 现 象 进 行 多 重 共 线 性 分 析 。( 提 示 , 应 用 Compute 命 令 计 算 各 自 变 量 的 交 互 作 用 项 )。参 考 文 献1 SPSS@ 12.0 Command Syntax Reference. SPSS Chicago, <strong>Il</strong>linois , 20032 Fox , J.. Line α r Statistical Models αnd Related Methods. New York: , 万 il 叮 , 19843 John Neter, Michael H. Kutner, Christopher J. Nachtsheim , etc. Applied Linear Statistical Models.McGraw - Hill, 1996.4 Agresti , A. Categorical Dα 的 Anα lysis. John Wil 叮 & Sons , 19905 陈 峰 . 医 用 多 元 统 计 分 析 方 法 . 北 京 : 中 国 统 计 出 版 社 , 20006 张 文 月 三 主 编 . SPSS 11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 希 望 电 子 出 版 社 , 20027 陈 峰 主 编 . 现 代 医 学 统 计 方 法 与 Stata 应 用 ( 第 二 版 ) . 北 京 : 中 国 统 计 出 版 社 , 20038 曹 素 华 主 编 . 实 用 医 学 多 因 素 统 计 方 法 . 上 海 : 上 海 医 科 大 学 出 版 社 , 1998• 188 •


第三部分多 元 统 计 分 析 方 法


第 m 章 多 分 类 、 的 才 Logistic 回 归 与 Probit 回 归10.1 有 序 多 分 类 Logistic 同 归 模 型当 反 应 变 量 水 平 数 大 于 2 时 , 就 不 能 简 单 地 将 其 中 两 个 水 平 单 独 拟 合 二 分 类 的 Logistic 回归 , 而 必 须 考 虑 拟 合 反 应 变 量 为 多 分 类 的 Logistic 回 归 。 根 据 反 应 变 量 水 平 是 否 有 序 又 可 分 为 反应 变 量 为 有 序 多 分 类 和 无 序 多 分 类 的 Logistic 回 归 。 两 种 模 型 原 理 不 同 , 下 面 分 别 进 行 介 绍 。10. 1. 1 模 型 简 介研 究 中 常 遇 到 反 应 变 量 为 有 序 多 分 类 的 资 料 , 如 城 市 综 合 竞 争 力 等 级 可 以 划 分 为 低 、 中 、 高 ;人 们 对 某 个 频 道 的 观 看 频 率 可 粗 略 划 分 为 天 天 看 、 经 常 看 、 偶 尔 看 和 从 来 不 看 ; 某 项 医 学 检 查 结果 分 为 一 、±、+、++ , 某 病 的 治 疗 效 果 分 为 痊 愈 、 有 效 、 好 转 、 无 效 , 等 等 。 对 于 这 种 类 型 的 资 料 ,可 以 通 过 拟 合 反 应 变 量 水 平 数 一 1 个 Logit 回 归 模 型 , 称 为 累 积 Logit 模 型 (Cuml 山 tive LogitsModeD 。 以 4 水 平 的 反 应 变 量 为 例 , 假 设 反 应 变 量 的 取 值 为 1 、 2 、 3 、 4 , 相 应 取 值 水 平 的 概 率 为1T] 、 1T 2 、 1T 3 、 町 , 对 p 个 自 变 量 拟 合 三 个 模 型 如 下 :1T] 1T]logit 1 一 一 = logit = 一 α]+β ]X] + … +β 产 p1 - 1T] 1T 2 + 1T 3 + 1T 400. 1)l-7T] + 1T2 . 1T] + 1T2oglt 一 logit = 一 α+β X , + … +βx1 一 (1T] + 1T2) - ~V5H 1T3+ 1T4'-"-2 'fJ]""'] , fJp""'p1T] + 1T2 + 1T3logit / '\ = logit ------ 一 α+β X , + … +βx1 一 (77l+772+773)7743l l p p7T]+ 1T2+ 1T00. 2)00.3)与 传 统 的 反 应 变 量 为 二 分 类 的 Logistic 回 归 相 比 , 进 行 Logit 变 换 的 分 别 为 1T] 、 作 ] + 1T 2 、 作 ]+1T 2+1T 3 , 即 反 应 变 量 有 序 取 值 水 平 的 累 积 概 率 (Cumulative Probability) 。 大 家 对 它 一 定 不 陌 生 了吧 , 对 某 分 类 变 量 描 述 其 频 数 分 布 时 , SPSS 会 专 门 输 出 这 一 列 。 这 里 进 行 Logit 变 换 的 目 的 仍 然是 使 得 回 归 方 程 左 边 的 取 值 范 围 扩 大 到 ( 一 ∞, +∞)。由 上 述 建 立 的 模 型 可 以 看 出 , 这 种 模 型 实 际 上 是 依 次 将 反 应 变 量 按 不 同 的 取 值 水 平 分 割 成两 个 等 级 , 对 这 两 个 等 级 建 立 反 应 变 量 为 二 分 类 的 Logistic 回 归 模 型 。 不 管 模 型 中 反 应 变 量 的 分割 点 在 什 么 位 置 , 模 型 中 各 自 变 量 的 系 数 βz 都 保 持 不 变 , 所 改 变 的 只 是 常 数 项 α 。 此 时 求 出 的OR { 直 是 自 变 量 每 改 变 一 个 单 位 , 反 应 变 量 提 高 一 个 及 一 个 以 上 等 级 的 比 数 比 。 上 述 三 个 模 型 中各 自 变 量 的 偏 回 归 系 数 始 终 保 持 不 变 , 这 是 拟 合 累 积 Logit 模 型 的 前 提 条 件 之 一 。 在 随 后 的 章 节中 会 向 大 家 介 绍 如 何 检 验 资 料 是 否 满 足 该 条 件 。• 189 •


特 别 需 要 注 意 的 是 , 与 二 分 类 Logistic 回 归 不 同 的 是 , 这 里 拟 合 的 模 型 中 常 数 项 之 前 的 符 号应 当 是 " 减 号 " 而 不 是 力 口 号 , 原 因 在 于 此 处 的 常 数 项 正 好 表 示 低 级 别 和 高 级 别 相 比 的 情 况 , 和 以前 的 常 数 项 含 义 正 好 相 反 , 且 必 然 有 α]


图 10. 1 Ordinal 过 程 主 对 话 框表 10.2的 警 告 信 息 说 明 白 变 量 的 各 种 取 值 水 平 组 合 中 有 多 少 其 观 察 频 数 为 0 。 由 于 数 据库 中 变 量 age 为 连 续 性 变 量 , 所 以 这 个 比 例 显 得 较 大 , 此 种 情 况 下 属 于 正 常 现 象 。随 后 的 表 格 会 输 出 反 应 变 量 与 离 散 自 变 量 不 同 取 值 水 平 的 边 际 频 数 分 布 CMarginalPercentage)。表 10.3Model Fitting InformationModelIntercept 0 门 Iy2Log Likelihood7297.880Chi-SquaredfSig.Final6202.150 1095.7309 000Li nk function: Logit表 10.3 为 对 模 型 中 是 否 所 有 自 变 量 偏 回 归 系 数 全 为 O 进 行 似 然 比 检 验 , 结 果 P


计 量 不 一 定 能 真 实 地 反 映 模 型 拟 合 情 况 。 当 自 变 量 中 存 在 连 续 性 变 量 时 , 如 本 例 中 的 年 龄 , 常 会导 致 上 述 比 例 过 高 。 与 上 述 两 个 统 计 量 相 比 , 似 然 比 x2 则 要 稳 健 得 多 。 本 例 两 个 统 计 量 对 应 的P 值 均 小 于 0.050表 10.5伪 决 定 系 数 都 不 会 太 高 。输 出 了 三 种 伪 决 定 系 数 。 对 于 分 类 数 据 的 统 计 分 析 , 对 此 不 必 太 在 意 , 一 般 情 况 下表 10.6Parameter EstimatesEstimate Std. Error Wald df Sig.Threshold [satis = 1] 1.288 150 73.282 000[satis = 2] -.263 150 3.098 078Location age -.031 002 199.377 000[i 门 ccat=1.00] 1.6 才 B .08 才 402.390 .000[i 门 ccat=2.00] 1.071 067 257.308 000[i 门 ccat=3.00] .607 .076 63.401 .000[inccat=4.00] oa 。[edu=1] 772 116 44.233 000[edu=2] -.510 .11 才 20.914 .000[edu=3] -.312 115 7.395 007[edu=4] -.096 115 696 404[edu=5] oa 。[gender=f .045 .049 .855 .355[gender=m oa 。Link function: Logita. This parameter is set to zero because it is redundant表 10.6输 出 了 最 重 要 的 结 果 : 回 归 系 数 估 计 。 由 于 本 例 反 应 变 量 水 平 数 为 3 , 因 此 会 建 立两 个 回 归 方 程 , 故 有 两 个 常 数 项 。 而 反 应 变 量 为 有 序 多 分 类 的 Logistic回 归 的 前 提 假 设 之 一 是 各自 变 量 对 于 反 应 变 量 的 影 响 在 两 个 回 归 方 程 中 相 同 , 因 此 各 自 变 量 的 偏 回 归 系 数 只 有 一 个 。 主对 话 杠 中 选 入 Factor (s) 杠 中 的 自 变 量 将 以 哑 变 量 的 形 式 引 入 模 型 。根 据 以 上 结 果 , 可 生 日 本 例 最 后 建 立 了 如 下 模 型 :(P I satis = 不 满 意 )logit (Pw' 不 满 意 ) = logit即 俨 何 Jæ. 1 一 (P I satis = 不 满 意 )• 192 •= - 1. 288 + ( - o. 03 1) ·αge + 1. 618 • (inccα t = 1) + 1. 071 • (inccα t = 2)


+ O. 607 • (inccα t =3) + (-0.772) • (edu = 1) + (-0.510) • (edu =2)+ (-0.312) • (edu =3) + (-0.096) • (edu =4) +0.045 • (gender =j)(P I satis = 不 满 意 ) + (P I satis = 态 度 中 立 )logi t (P satis = 不 满 / 中 立 ) = logit(P I satis = 满 意 )= -0.263 + (-0.031) ·αge + 1. 618 • (inccα t = 1) + 1. 071 • (inccα t = 2)+0.607 • (inccat =3) + (-0.072) • (edu = 1) + (-0.510) • (edu =2)+ (-0.312) • (edu =3) + (0.096) • (edu =4) +0.045 • (gender =ρ偏 回 归 系 数 具 体 解 释 与 上 一 章 中 二 分 类 Logistic 回 归 结 果 基 本 一 致 , 这 里 不 再 赘 述 。 注 意 模型 中 的 常 数 项 估 计 值 直 接 就 是 负 值 , 无 须 再 手 工 添 加 符 号 。在 实 际 应 用 中 , 分 类 自 变 量 ( 如 婚 姻 状 况 ) 各 哑 变 量 的 偏 回 归 系 数 可 能 其 中 某 一 ( 几 ) 个 有 统计 学 意 义 , 而 其 他 的 没 有 统 计 学 意 义 。 此 时 建 议 保 留 该 自 变 量 。10. 1. 3 模 型 适 用 条 件 的 检 验前 面 在 介 绍 模 型 时 提 到 不 管 反 应 变 量 的 分 割 点 在 什 么 位 置 , 模 型 中 各 自 变 量 的 系 数 β 都 保持 不 变 , 亦 即 自 变 量 的 回 归 系 数 与 分 割 点 无 关 , 这 是 应 用 有 序 多 分 类 Logistic 回 归 的 一 个 前 提 。也 就 是 说 , 两 个 回 归 方 程 在 多 维 空 间 中 相 互 平 等 , 因 此 检 验 结 果 的 标 题 为 平 行 线 检 验 (Test ofParallel Lines) 。 在 多 数 情 况 下 , 这 个 适 用 条 件 都 是 成 立 的 , 但 SPSS 也 为 该 条 件 提 供 了 相 应 的 检验 方 法 , 具 体 用 Output 子 对 话 杠 左 下 角 的 Test of parallel lines 复 选 杠 实 现 。 例 10. 1 如 果 进 行 平行 性 检 验 , 则 相 应 的 分 析 结 果 参 见 表 10.70表 10. 7 Test of Parallel Li nes aMENG OEueAUEHHn 副- E·:lEn -t E E-CAV --lH川』 白H CAV>U百V2Log Li kelihood Chi-Square6202.150dfSig剧6189.793 12.3579 194The null hypothesis states that the location parameters (slope coefficients) are thesame across response categories.a. Li nk funclion: Logil这 里 输 出 的 是 检 验 各 自 变 量 对 于 反 应 变 量 的 影 响 在 两 个 回 归 方 程 中 是 否 相 同 的 结 果 。 其 实质 是 拟 合 不 限 定 系 数 相 等 的 模 型 (General ModeD , 将 该 模 型 的 似 然 值 和 当 前 限 定 系 数 相 等 的 模型 (Null Hypothesis) 加 以 比 较 , 进 行 似 然 比 检 验 , 如 果 该 检 验 结 果 P >0. 05 , 说 明 各 回 归 方 程 互 相平 行 , 可 以 使 用 Ordinal Regression 过 程 进 行 分 析 , 否 则 应 当 考 虑 进 行 处 理 。为 了 帮 助 大 家 对 平 行 假 设 的 理 解 , 在 此 通 过 如 图 10. 2 所 示 的 对 话 杠 中 的 "Saved variables"系 列 中 的 "Estimated response probabilities" 复 选 项 保 留 对 应 的 反 应 变 量 各 取 值 水 平 的 预 测 概 率 ,SPSS 产 生 变 量 "ESTi 1" 。 变 量 名 中 的 EST 为 estimated , i 表 示 反 应 变 量 的 第 i 个 取 值 水 平 , 1 表示 第 一 次 预 测 结 果 。应 用 三 个 分 类 的 预 测 概 率 p1 、 p2 、 p3 及 相 应 logit (p1/ c1 - p1) )、 logit ( (p1 + p2) / c1 - p1 -p2)) 值 与 年 龄 绘 制 统 计 图 如 图 10.3 所 示 。• 193 •


图 10.2 Output 子 对 话 框图 10.3 预 测 概 率 与 Logit 的 统 计 图由 于 模 型 中 并 非 仅 有 年 龄 一 个 自 变 量 , 这 就 导 致 了 同 一 年 龄 的 人 其 预 测 的 概 率 并 不 相 同 。此 处 绘 制 的 统 计 图 中 各 条 曲 线 是 应 用 4 年 收 入 水 平 在 2. 5 万 以 下 ;2 文 化 程 度 为 初 中 及 以 下 ;3 女 性 的 研 究 对 象 其 工 作 满 足 程 度 预 测 概 率 进 行 绘 制 的 。 由 图 10.3 Ca) 可 以 发 现 , 随 着 年 龄 的增 加 , 工 作 满 意 的 概 率 迅 速 下 降 ; 态 度 中 立 的 概 率 先 上 升 , 再 下 降 , 但 变 化 趋 势 较 为 平 缓 ; 对 工 作感 到 不 满 意 的 概 率 迅 速 上 升 。 从 图 10.3 Cb) 则 可 以 清 楚 地 看 出 , 两 条 直 线 平 行 。 年 龄 每 增 加 一岁 , logit Cp1/ c1 - p1) )、 logit C Cp1 + p2) / c1 - p1 - p2) ) 保 持 不 变 , 为 一 常 数 , 等 于 两 个 常 数 项 之差 : 一 1. 288 一 C - 0.263) = - 1. 0250 这 也 可 以 通 过 模 型 计 算 公 式 导 出 。如 果 平 行 性 假 设 不 能 被 满 足 , 又 当 如 何 处 理 ? 首 先 , 有 序 Logistic 模 型 对 此 适 用 条 件 有 一 定• 194 •


的 耐 受 性 , 当 条 件 被 轻 微 违 反 时 ( 如 P 值 很 接 近 0.05) , 参 数 的 估 计 仍 然 是 较 为 稳 定 的 。 对 此 问题 , 国 内 的 学 者 还 进 行 过 深 入 的 研 究 , 李 康 、 郭 祖 超 C1 993 年 ) 等 曾 就 此 作 过 讨 论 。 但 是 , 如 果 平行 性 检 验 的 P 值 非 常 小 , 是 不 能 就 这 样 蒙 混 过 关 的 。 简 单 地 说 , 可 能 导 致 该 情 形 出 现 的 原 因 主要 有 两 个 : 连 接 函 数 选 择 不 准 确 , 或 者 系 数 的 确 在 随 着 分 割 点 发 生 变 化 。 这 里 先 来 讨 论 前 者 , 在许 多 情 况 下 , 选 择 正 确 的 连 接 函 数 就 可 以 找 到 满 足 平 行 性 假 设 的 模 型 。 在 表 Model Fitting Information的 下 方 指 出 了 当 前 拟 合 模 型 的 连 接 函 数 (Link Function) 为 logit 函 数 。 SPSS 共 提 供 5 种 连接 函 数 , 分 别 用 于 以 下 这 些 不 同 的 资 料 :(1) logit:f(χ) = ln (x/ c1 - x) 。 用 于 反 应 变 量 各 取 值 水 平 发 生 概 率 相 近 的 资 料 , 可 通 过SPSS 产 生 的 反 应 变 量 频 数 表 予 以 判 断 。 该 连 接 函 数 为 Ordinal Regression 过 程 默 认 选 项 。(2) Complementary log 一 log:f(χ) = log ( 一 log c1 - x) )。 用 于 反 应 变 量 取 值 水 平 高 的 水 平 发生 概 率 高 的 资 料 。(3) N egative log 一 log:f(χ) = 一 log ( 一 log (χ) )。 与 上 一 连 接 函 数 相 反 , 用 于 反 应 变 量 取 值水 平 低 的 水 平 发 生 概 率 高 的 资 料 。(4) Probit:f(χ) =φ1 (χ) 。 用 于 潜 在 变 量 (Latent Variable) 服 从 正 态 分 布 的 资 料 。(5) Ca 时 hit:f(χ) = tan (p (x - O. 5) )。 用 于 潜 在 变 量 存 在 很 多 极 端 值 的 资 料 。如 果 对 模 型 拟 合 没 有 特 殊 要 求 , 尤 其 是 反 应 变 量 水 平 数 较 少 的 情 况 下 , 建 议 大 家 使 用 默 认 的logit 函 数 。本 例 因 变 量 满 意 度 的 频 数 分 布 参 见 表 10.80表 10.8满 意 度CumulaliveFrequency Percent Valid Percenl Perce 门 tValid 满 意 2630 41.1 41.1 41.1态 度 中 立 1393 21.8 2 才 8 62.9不 满 意 2377 37.1 37.1 才 00.0Total 6400 100.0 100.0在 Options 子 对 话 杠 的 最 下 方 就 是 link 下 拉 列 表 , 可 以 选 择 以 上 5 种 连 接 函 数 , 有 兴 趣 的 读者 可 以 试 着 对 本 例 拟 合 其 他 类 型 连 接 函 数 的 模 型 。 如 果 各 种 连 接 函 数 都 无 法 满 足 平 行 性 假 定 ,则 需 要 考 虑 回 归 系 数 是 否 会 随 着 分 割 点 而 发 生 改 变 。 此 时 最 好 使 用 无 序 多 分 类 的 Logistic进 行 模 型 拟 合 , 然 后 再 根 据 系 数 估 计 值 考 虑 如 何 进 行 处 理 , 详 细 介 绍 参 见 下 一 节 。回 归10.2 7 己 序 多 分 类 Logistic 同 归 模 型10.2.1 模 型 简 介无 序 多 分 类 的 Logistic回 归 模 型 用 与 分 析 因 变 量 为 无 序 多 分 类 的 情 况 , 除 此 之 外 , 如 果 因 变量 为 有 序 分 类 , 但 存 在 以 下 情 况 时 也 应 该 用 无 序 多 分 类 的 Logistic 回 归 分 析 :• 195 •


(1) Test of Parallel Lines 检 验 P


图 10.4 Multinomial Logistic 主 对 话 框首 先 会 输 出 了 反 应 变 量 与 离 散 自 变 量 不 同 取 值 水 平 的 边 际 频 数 分 布 CMarginal Percentage) 。表 10.9Model Fitting InformationModel -2 Log Li kelihood Chi-Square df SigIntercept 0 门 Iy 2718.636Fi 门 al 2600 , 138 才 18 .4 97 14 000对 模 型 中 是 否 所 有 自 变 量 偏 回 归 系 数 全 为 O进 行 似 然 比 检 验 , 模 型 中 未 引 入 自 变 量 时- 21n CL) 为 2718.636 , 引 入 自 变 量 后 减 小 至 2 600. 138 , 二 者 之 差 等 于 118.497 , 自 由 度 为 14 ,P


O. 458 • Csex = 1) 00.4)表 10. 11 Li kelihood Ratio TestsEffectInterceptageeducdegreesex-2 Log Li kelihood of Reduced Model Chi-Square2600 , 138 a ,0002641 , 003 40 , 8652600 才 4 才0032627.453 27 , 3142637.480 37 ,341df内URL内/-白USig.000.999.001《 4.000The chi-square statistic is the difference in -2 log-likelihoods between the final model and areduced model , The reduced model is formed by omitting an effect from the final model. Thenull hypothesis is that all parameters of that effect are 0a This reduced m 口 del is equivalent to the final model because omitting the effect does not increase the degrees offreedom式 00.4) 中 Cagecat = 1) 指 当 年 龄 分 组 变 量 取 值 为 1 时 , 括 号 内 取 值 为 1, 反 之 为 0 。 实 际 上就 是 对 变 量 agecat 产 生 的 三 个 哑 变 量 之 一 , 其 他 依 此 类 推 。 大 家 还 可 以 写 出 独 立 候 选 人 与 克 林顿 比 较 的 回 归 模 型 。表 10.12Parameter EstimatesVOTE FOR CLl NTON,StdBUSH, PEROT a B Error Wald df Sig. Exp(B)Bush Intercep! -,836 778 1, 156 282age 001 003 096 757 1.001educ -,001 ,039 ,001 .978 ,999[degree=O] -, 224 426 277 599 799[degree=1] 384 283 1.845 174 1.468[degree=2] .435 ,298 2 , 133 .144 1.545[degree=3] .428 ,213 4 ,057 .044 1.534[degree=4] Ob 。[sex=1] 458 105 19 ,040 000 1.580[sex=2] Ob 。Perot Intercep! -,759 1 才 05 472 492age -,030 005 33 ,000 000 971educ -.003 055 003 959 997[degree=O] -.259 .641 I 才 64 .685 ,771[degree=1] 770 411 3.512 061 2.160[degree=2] 853 411 4 ,301 038 2.347[degree=3] ,618 ,316 3 ,819 .051 1.856[degree=4] Ob 。[sex=1] 772 142 29 .469 000 2.165[sex=2] Ob 。a The reference category is: Clintonb. This parameter is set to zero because it is redundant• 198 •


由 所 建 立 的 模 型 可 以 看 出 : 别 的 自 变 量 均 没 有 统 计 学 意 义 , 只 有 选 民 的 性 别 有 统 计 学 意 义 ,选 民 性 别 的 偏 回 归 系 数 为 0.458 , OR 值 为 1. 58 , 参 见 表 10. 120 这 说 明 男 性 选 民 选 老 布 什 的 概率 与 选 克 林 顿 的 概 率 之 比 , 较 女 性 选 民 的 这 一 比 值 大 1. 58 倍 。至 于 佩 罗 与 克 林 顿 的 比 较 , 读 者 可 自 行 练 习 解 释 。由 以 上 结 果 可 知 , 模 型 可 进 一 步 考 虑 剔 除 年 龄 变 量 , 这 可 以 应 用 Multinomial Logistic 过 程 中Model 子 对 话 杠 的 Cunstom/Stepwise 单 选 杠 对 模 型 中 的 自 变 量 进 行 筛 选 , 只 需 将 欲 进 行 筛 选 的 自变 量 纳 入 Stepwise Terms 杠 中 , 然 后 在 对 话 杠 的 右 下 角 选 取 自 变 量 的 筛 选 方 法 即 可 。 相 应 的 操作 读 者 可 自 行 练 习 , 这 里 不 再 详 述 。10.3 1:1 配 对 Logistic 同 归10.3.1 模 型 简 介在 本 书 第 2章 对 实 验 设 计 的 介 绍 中 学 习 了 成 组 设 计 和 配 伍 设 计 等 方 法 , 后 者 由 于 能 过 通 过配 对 / 配 伍 的 方 法 控 制 影 响 实 验 效 应 的 主 要 非 处 理 因 素 , 在 统 计 效 能 上 要 比 普 通 的 成 组 实 验 高 。在 结 局 变 量 为 分 类 资 料 的 研 究 中 也 常 常 会 采 用 配 伍 设 计 , 如 流 行 病 学 的 病 例 对 照 实 验 中 采 取 1: 1或 者 1: R 配 比 的 方 法 来 选 择 对 照 , 使 得 病 例 和 对 照 在 一 个 或 多 个 混 杂 因 素 方 面 尽 可 能 相 同 。 这种 试 验 设 计 的 数 据 如 果 采 用 Logistic 回 归 模 型 来 分 析 , 就 应 当 使 用 配 对 Logistic 回 归 模 型 。配 对 Logistic 回 归 模 型 又 称 为 条 件 Logistic 回 归 模 型 , 适 用 于 配 对 方 法 收 集 的 资 料 。 在 流 行病 学 相 关 参 考 书 中 提 到 配 对 Logistic 回 归 分 析 时 , 总 是 提 到 当 某 种 病 的 病 人 难 以 寻 找 时 , 可 采 用配 对 设 计 。 实 际 上 病 人 不 难 寻 找 时 , 也 可 采 用 , 可 以 提 高 研 究 设 计 的 效 率 。 每 一 配 对 组 若 包 括 一个 病 例 与 一 个 对 照 , 则 称 为 1: 1 配 对 ; 若 每 个 配 对 组 包 含 一 个 病 例 与 r 个 对 照 , 则 称 为 1 : r 配 对 ;在 复 杂 的 实 验 设 计 中 还 会 出 现 m:n 配 对 的 情 况 。 以 最 简 单 的 1: 1 配 对 研 究 为 例 , 所 收 集 到 的 原始 数 据 形 式 参 见 表 10. 13 0表 10.13收 集 的 原 始 数 据配 对 组 号 病 例 组 对 照 组l X1Al 101' , ••• 'X lO mXl11 111' , ••• , X 11m2 X 201, … , X 20m X 211 ,… , X 21mn X__ nOl' f\ l , ••• 'X nO mX nll ~~. • ,..., Xnlm那 么 , 相 应 的 模 型 是 怎 样 建 立 和 拟 合 的 呢 ? 如 果 分 层 来 考 虑 , 则 第 i 配 对 组 的 Logistic 回 归模 型 为 :logit (p) = α i+ β ]X] + … +β mXm i=l , …, n 00.5)由 模 型 表 达 式 式 00. 们 可 以 发 现 , 参 数 β] , 乱 ,… , ßm 是 各 配 对 组 共 有 的 , 这 意 味 着 同 一 协 变量 在 不 同 配 对 组 中 有 相 同 的 作 用 , 即 协 变 量 的 作 用 不 随 配 对 组 号 的 变 化 而 变 化 , 它 们 分 别 描 述 协• 199 •


变 量 叫 ,… , X m 对 目 标 变 量 的 作 用 , 其 意 义 与 非 条 件 Logistic 回 归 中 相 同 ; 而 参 数 αz 是 随 配 对 组 的变 化 而 变 化 的 , 它 描 述 各 配 对 组 的 特 性 , 即 反 映 了 在 各 配 对 组 中 混 杂 因 素 的 作 用 强 度 。 显 然 , 实际 上 并 不 关 心 它 们 的 取 值 大 小 , 因 此 在 拟 合 时 用 条 件 似 然 函 数 代 替 了 一 般 模 型 的 似 然 函 数 , 从 而在 拟 合 中 消 去 了 反 映 层 因 素 的 参 数 , 提 高 了 统 计 分 析 的 效 能 。 但 是 , 在 参 数 拟 合 时 一 般 仍 用 极 大似 然 法 , 采 用 Newton -Raphson 多 次 逼 近 法 求 解 。包 括 SPSS 和 SAS 在 内 的 多 数 统 计 软 件 都 没 有 为 配 对 Logistic 模 型 提 供 直 接 拟 合 的 方 法 , 但是 , 通 过 模 型 的 原 理 , 将 数 据 格 式 略 加 变 换 后 就 可 以 采 用 常 用 的 其 他 方 法 来 拟 合 , 下 面 将 重 点 讲解 最 为 常 用 的 两 种 。1. 用 变 量 差 值 拟 合当 数 据 为 1: 1 配 对 时 , 通 常 可 以 通 过 求 出 同 一 对 中 病 例 与 对 照 的 所 有 协 变 量 的 差 值 , 然 后 利用 该 差 值 直 接 拟 合 不 含 常 数 项 的 成 组 Logistic 模 型 , 所 得 参 数 值 即 为 所 需 的 协 变 量 参 数 值 。 这 是因 为 在 1: 1 配 对 的 Logistic 模 型 中 , 似 然 函 数 可 被 写 为 如 下 形 式 :L= 自 叫 CU;β)00.6)如 果 对 式 00. 6) 中 的 分 子 和 分 母 同 除 以 exp Cu;β) , 则 函 数 变 为 :L= 白 叫 ((uz-uJV)fJ 1 + exp C CU i- v) ,β)这 恰 恰 等 于 以 d iU i - v il 为 协 变 量 , 不 含 常 数 项 的 两 分 类 成 组 Logistic 模 型 的 似 然 函 数 , 因此 可 以 对 数 据 加 以 变 换 后 直 接 采 用 Binary Logistic 模 型 进 行 拟 合 。 但 在 SPSS 中 这 种 方 法 难 以 通过 调 用 Logistic过 程 予 以 实 现 , 这 是 因 为 反 应 变 量 的 差 值 为 一 个 常 数 ( 如 患 病 赋 值 为 1, 未 患 病 赋值 为 0 , 此 时 反 应 变 量 = 1 - 0 = 1) 0 SPSS 在 调 用 Logistic 回 归 过 程 时 会 检 验 反 应 变 量 分 类 水 平是 否 为 两 个 , 如 果 反 应 变 量 只 有 一 个 取 值 水 平 , 会 拒 绝 继 续 运 算 。{ 且 SPSS中 无 序 多 分 类 的 MultinomialLogistic过 程 可 以 实 现 该 方 法 , 当 发 现 因 变 量 为 一 常 数 时 , 系 统 会 自 动 切 换 为 拟 合 条 件Logistic 模 型 , 从 而 通 过 拟 合 不 包 含 常 数 项 的 模 型 实 现 1: 1 配 对 的 Logistic 回 归 。需 要 注 意 的 是 , 该 方 法 只 适 用 于 1: 1 配 对 的 情 况 , 并 且 由 于 要 求 出 差 值 , 必 须 将 同 一 对 的 病例 和 对 照 录 入 在 一 条 记 录 中 , 这 和 通 常 的 数 据 录 入 格 式 不 一 致 。2. 用 分 层 Cox 模 型 来 拟 合采 用 分 层 Cox 模 型 的 拟 合 语 句 来 拟 合 配 对 Logistic 模 型 纯 粹 是 一 种 分 析 技 巧 : 由 于 在 分 层Cox 模 型 中 , 各 层 的 基 线 风 险 函 数 h Oi Ct) 之 间 完 全 无 关 ; 而 作 为 半 参 数 方 法 , Cox 模 型 在 拟 合 时 并不 估 计 基 线 风 险 函 数 h Oi Ct) , 只 估 计 各 协 变 量 的 系 数 值 β 。 这 和 配 对 Logistic 模 型 中 不 关 心 矶 的大 小 , 只 求 出 系 数 值 β 的 思 路 恰 巧 一 致 。用 分 层 Cox 模 型 来 拟 合 配 对 Logistic 模 型 的 适 用 范 围 非 常 广 , 1: 1 配 对 、 1: r 配 对 和 n:m 配 对的 时 候 都 可 以 使 用 , 分 析 得 到 的 参 数 估 计 值 和 检 验 结 果 也 完 全 相 同 。 但 由 于 学 习 该 方 法 需 要 懂得 Cox 模 型 , 尤 其 是 分 层 Cox 模 型 的 基 本 概 念 , 因 此 这 里 只 做 一 说 明 , 具 体 的 拟 合 原 理 和 分 析 实例 将 放 在 生 存 分 析 一 章 中 讲 解 , 读 者 可 参 见 相 应 内 容 。10.3.2 分 析 实 例例 10.3Mack 等 人 09 世 纪 70 年 代 ) 欲 考 察 服 用 雌 激 素 与 患 于 宫 内 膜 癌 的 关 系 , 对 退 休 居• 200 •


住 在 社 区 的 妇 女 进 行 调 查 。 对 照 匹 配 的 条 件 如 下 : 与 子 宫 内 膜 癌 患 者 的 年 龄 相 差 不 超 过 一 岁 , 婚姻 状 况 相 同 , 居 住 在 同 一 社 区 。 除 是 否 服 从 雌 激 素 外 , 研 究 的 自 变 量 还 包 括 肥 胖 、 胆 囊 病 史 、 服 用其 他 非 雌 激 素 药 物 。 本 例 选 自 其 中 63 对 数 据 , 数 据 见 文 件 1 _ 1 _ logistic. sav , 其 中 变 量 id 为 对于 号 , case1 变 量 为 病 例 , 赋 值 均 为 1; case2 变 量 为 对 照 , 赋 值 均 为 0 , 其 余 变 量 的 命 名 规 则 依 此类 推 。由 于 本 研 究 为 1:1 配 对 , 因 此 可 以 使 用 变 量 差 值 方 式 加 以 拟 合 。 首 先 运 用 COMPUTE 过 程 产生 配 对 Logistic 回 归 的 分 析 变 量 。 也 可 以 通 过 以 下 程 序 予 以 实 现 。COMPUTE case = case1 - case2 .COMPUTE age = age1 - age2 .COMPUTE est = est1 - est2 .COMPUTE gall = gall1 - ga1l2 .COMPUTE nonest = nonest1 - nonest2 .EXECUTE.随 后 调 用 Multinomial Logistic 过 程 如 下 :: Analyze• Regression• Multinomial LogisticiDependent 杠 : caseiCovariate (s) 杠 : age 、 est 、 gall 、 m 时 st! 匾 画 : 去 除 Include intercept in model 复 选 杠 : IContinueli 因上 述 过 程 首 先 产 生 用 于 分 析 的 每 一 对 记 录 的 自 变 量 之 差 , 随 后 使 用 差 值 进 行 模 型 的 拟 合 。由 于 每 一 行 代 表 一 个 独 立 的 对 于 , 因 此 不 需 要 专 门 指 定 配 对 编 号 变 量 , 需 要 注 意 的 是 要 产 生 的 新变 量 均 选 入 Covariateω 杠 中 , 而 不 能 将 它 们 选 入 Factors 这 个 杠 中 。 本 例 构 造 似 然 函 数 如 下 :L 一 前 叫 ( (αge1 一 咿 川 ] + (est1 - est 川 2 + (gall1 - gall2) , b 3 + …)-141+exp((αge1 一 αge2) 'b] + (est1 - est2) 'b 2+ (gα111 - gα ll2) , b 3+ …)ι 叫 (αge • b] + ω · b 2 + gall • b 3 + nonest • b 4 )141+exp(αge • b] + est • b 2 + μ II • b 3 + nonest • b 4 )通 过 对 上 述 似 然 函 数 求 偏 导 数 , 令 其 等 于 O 即 可 对 回 归 系 数 进 行 求 解 。 相 应 的 SPSS 的 输 出结 果 如 下 :表 10.14WarningsThe dependent variable has only one valid value. A condilionallogislic regression model will be fit!ed表 10.14 所 示 的 是 系 统 给 出 的 警 告 , 说 明 由 于 反 应 变 量 仅 有 一 个 取 值 水 平 , 因 此 SPSS将 拟合 条 件 Logistic 回 归 模 型 。随 后 系 统 会 列 出 数 据 库 中 记 录 情 况 , 共 63条 记 录 。 由 自 变 量 不 同 取 值 水 平 组 成 的 亚 群 共27 个 。• 201 •


表 10. 15 Model Fitting Informationc- s-3 a-­内 -LE -LE LKE 计 。 」n q-4 UE 「.. GVE ·I· eE l· 旧..e,ι nu-川··E---7'OO-df Sigf8735 13Final 4 000旧对 模 型 中 所 有 偏 回 归 系 数 是 否 均 为 O表 10. 150进 行 似 然 比 检 验 , 结 果 说 明 它 们 不 全 为 0 , 参 见表 10. 16 Pseudo R-SquareCox and Snell .4 19Nagelkerke .558McFadden.39 才SPSS 照 例 输 出 了 三 种 伪 决 定 系 数 , 参 见 表 10.16 , 本 例 的 伪 决 定 系 数 比 较 大 。表 10.17Li kelihood Ratio Tests2 Log Likelihood ofEffect Reduced Model Chi-Square df Sigage 53.658 480 .488esl 72. 013 18.836 .000gall 58.770 5.592 .018nonest 53.279 102 .750The chi-square stalistic is the difference in -2 log-likelihoods betweenthe fi 门 al model and a reduced modei. The reduced model is formed byomitting an effect from Ihe final model. The null hypothesis is thal allparamelers of Ihal effecl are 0表 10.17 输 出 从 当 模 型 中 分 别 剔 除 每 一 个 自 变 量 后 拟 合 新 的 条 件 Logistic 回 归 模 型 的 负 二倍 似 然 对 数 值 , 用 于 考 察 是 否 可 以 从 当 前 模 型 中 剔 除 该 自 变 量 。 可 以 看 出 年 龄 、 服 用 其 他 非 雌 激素 药 物 的 P 值 均 大 于 0.050 提 示 可 以 进 一 步 采 用 逐 步 回 归 法 对 当 前 模 型 中 自 变 量 进 行 筛 选 。表 10. 18 Parameter Estimatescase B Std. Error Wald df Sig Exp(B)1. 00 age .277 403 473 491 才 320esl 2.698 .824 10.712 .001 14.851gall 1.836 .904 4.122 .042 6.270nonest .256 .807 .100 .752 才 回 291• 202 •


由 表 10. 18 可 见 , 服 用 雌 激 素 者 患 于 宫 内 膜 癌 的 概 率 是 未 服 用 雌 激 素 者 的 14. 129 倍 。 有 胆囊 病 史 者 患 者 患 于 宫 内 膜 癌 的 概 率 是 没 有 胆 囊 病 史 者 的 5.074 倍 , 但 P =0. 042 , 下 这 一 结 论 要小 心 谨 慎 , 可 以 适 当 扩 大 样 本 量 , 再 对 这 一 因 素 进 行 研 究 。 这 里 的 P 值 与 上 面 的 P 值 并 不 相 同 ,是 因 为 此 处 使 用 的 是 Wald 统 计 量 。在 SPSS 中 应 用 Multinomial Logistic 过 程 处 理 配 对 Logistic 回 归 时 , 需 注 意 以 下 几 点 :(1) 数 据 库 结 构 与 运 用 Cox 过 程 不 同 。 此 处 数 据 库 中 每 一 条 记 录 包 括 一 个 对 于 中 的 两 个 观察 对 象 。(2) 所 拟 合 的 模 型 不 能 包 含 常 数 项 。10.4 Probit 同 归 模 型10.4.1 模 型 简 介Probit 的 意 思 为 " 概 率 单 位 " (Probability Unit) , 最 早 在 20 世 纪 30 年 代 由 Chester Bliss 提 出并 应 用 。 Probit 回 归 模 型 可 用 于 对 反 应 变 量 为 分 类 变 量 的 资 料 进 行 统 计 分 析 。 与 Logistic 回 归相 类 似 地 , 也 存 在 反 应 变 量 为 二 分 类 、 有 序 多 分 类 、 无 序 多 分 类 三 种 情 况 , 但 目 前 最 常 用 的 是 二 分类 的 情 形 , SPSS 也 仅 能 处 理 反 应 变 量 为 二 分 类 的 资 料 。 本 节 内 容 仅 就 此 进 行 讲 解 。实 际 应 用 中 , 对 于 同 一 资 料 用 Probit 回 归 与 Logistic 回 归 分 析 的 结 果 非 常 接 近 。 但 Logistic回 归 的 应 用 比 Probit 回 归 更 广 泛 。 这 是 因 为 :4 Logistic 回 归 中 的 偏 回 归 系 数 可 以 计 算 其exp (b) , 即 OR 值 , 可 以 得 到 很 好 的 解 释 与 应 用 。 而 Probit 回 归 中 的 偏 回 归 系 数 解 释 起 来 比 较 麻烦 ( 见 下 文 )。2 目 前 有 很 多 针 对 Logistic 回 归 模 型 的 诊 断 及 补 救 措 施 , 而 对 于 Probit 回 归 而 言而 有 信 方 面 相 对 缺 乏 。 当 然 , 这 一 点 类 似 " 先 有 鸡 还 是 先 有 蛋 " 的 问 题 , 很 难 说 是 因 为 模 型 诊 断措 施 较 多 而 导 致 了 Logistic 回 归 的 更 多 应 用 , 还 是 说 因 为 Logistic 回 归 更 多 的 应 用 促 进 了 其 模 型诊 断 措 施 的 发 展 。Probit 回 归 建 立 的 模 型 是 :φ1 (p) = α+β 'x 或 p= φ(α+β 'x)其 中 β 'x 称 作 概 率 密 度 函 数 值 , 服 从 标 准 正 态 分 布 。 φ 为 累 积 标 准 正 态 分 布 函 数 , φl 为 其反 函 数 , 即 概 率 密 度 函 数 。 也 就 是 说 , Probit 回 归 是 在 正 态 分 布 的 理 论 基 础 上 进 行 的 , 而 Logistic回 归 是 建 立 在 二 项 分 布 的 基 础 上 的 。 因 此 笔 者 建 议 当 自 变 量 中 连 续 性 变 量 较 多 且 服 从 正 态 分布 , 可 考 虑 使 用 Probit 回 归 ; 如 果 自 变 量 中 分 类 变 量 较 多 , 可 考 虑 使 用 Logisitc 回 归 。Probit回 归 模 型 中 偏 回 归 系 数 βz 的 含 义 为 其 他 自 变 量 取 值 保 持 不 变 时 自 变 量 每 改 变 一 个 单位 , 出 现 阳 性 结 果 的 概 率 密 度 函 数 值 的 改 变 量 。 显 然 , 这 种 解 释 远 不 如 Logistic释 直 观 和 有 用 , 这 也 导 致 了 研 究 者 更 喜 欢 使 用 Logistic 模 型 。对 Probit 回 归 模 型 构 造 似 然 函 数 如 下 :式 中 w j 为 权 重 。ln L =ZWjlnφ(α+β 'x) + L, w)n [1 一 φ(α+β 'x) ]模 型 中 系 数 的 解• 203 •


10.4.2 实 例 一 与 Logistic 模 型 比 较例 10.4 以 例 9. 1 为 例 , 比 较 Logistic 回 归 结 果 与 Probit 回 归 的 分 析 结 果 。在 拟 合 时 , 反 应 变 量 ( 本 例 为 是 否 患 病 ) 的 赋 值 必 须 为 0 、1, 且 1为 阳 性 结 果 ( 患 病 ) ,。 为 阴性 结 果 ( 未 患 病 )。 这 是 因 为 SPSS 默 认 变 量 取 值 = 1 表 示 出 现 阳 性 结 果 。 另 外 , 由 于 SPSS 默 认的 是 对 频 数 表 资 料 进 行 Probit回 归 分 析 , 而 本 例 资 料 并 非 各 自 变 量 不 同 取 值 水 平 组 合 的 频 数 表资 料 , 每 一 条 记 录 表 示 一 个 观 察 对 象 , 此 处 需 指 定 一 个 频 数 变 量 count = 1 0 建 立 频 数 变 量 可 使 用以 下 程 序 语 句 实 现 :COMPUTE count = 1.EXECUTE.随 后 使 用 Probit 模 型 分 析 如 随 后 虚 线 杠 中 所 示 , Probit 过 程 主 对 话 杠 如 图 10.5 所 示 。iAna1yze• Regression• Probit:Response Frequency 杠 : caiTotal Observed 杠 : counti Covariates 杠 : age 、 ecg 、 sex:OK图 10.5 Probit 过 程 主 对 话 框1. 结 果 解 释首 先 输 出 有 关 数 据 库 信 息 , 共 有 78 条 非 频 数 表 资 料 记 录 纳 入 分 析 , 其 中 66 条 记 录 出 现 阴 性结 果 CControl Group) 。• 204 •


************ PROBIT ANALYSIS ************DATA Information78 unweighted cases accepted.o cases rejected because of missing data.66 cases are in the control group.随 后 方 杠 中 的 文 本 为 Probit 回 归 模 型 的 参 数 估 计 , Regression Coeff. 表 示 回 归 系 数 , StandardError 表 示 标 准 误 差 , Coeff. /S. E. 表 示 回 归 系 数 / 标 准 误 差 , 实 际 上 就 是 检 验 所 需 的 U 值 。 据 此 写出 模 型 表 达 式 如 下 :MODEL Informationp= φC -3. 36445 +0.80375 • sex +0. 51967 • ecg +0. 055 65 ·αge)ONLY Normal Sigmoid is requested.************ PROBITParameter estimates converged after 13 iterations.ANALYSIS ************Optimal solution found.Parameter Estimates CPROBIT model:CPROBIT Cp)) = Intercept + BX):Regression Coeff. Standard Error Coeff. /S. E.sex .80375 .31948 2.51579ecg .51967 .22278 2.33263age .05565 .02022 2.75293Intercept Standard Error Intercept/S. E.- 3.36445 1. 01571 - 3.31241随 后 的 两 个 方 杠 还 输 出 了 模 型 拟 合 优 度 检 验 结 果 及 自 变 量 偏 回 归 系 数 的 相 关 矩 阵 。拟 合 优 度 检 验 结 果 p = 0.394 , 说 明 当 前 模 型 拟 合 良 好 , 且 在 可 信 区 间 计 算 时 不 再 进 行 异 质性 校 正 。Pearson Goodness-of-Fit Chi Square = 76.634 DF = 74 P = .394Since Goodness-of-Fit Chi square is NOT significant, no heterogeneityfactor is used in the calculation of confidence limits.Covariance Cbelow) and Correlation Cabove) Matrices of Parameter EstimatesAGESEXECGAGE.00041. 17485.03118SEX.00113. 10207.00489ECG.00014.00035.04963SPSS 默 认 情 况 下 还 输 出 对 模 型 中 第 一 个 自 变 量 ( 与 Covariates 杠 中 自 变 量 的 排 列 顺 序 有• 205 •


关 ) 的 不 同 取 值 水 平 的 实 际 观 察 频 数 CNumber of Subjects) , 其 中 出 现 阳 性 结 果 的 例 数 CObservedResponses) 、 预 期 出 现 阳 性 结 果 的 理 论 频 数 CExpected Responses) 。 限 于 篇 幅 , 此 处 仅 输出 前 5 例 。 对 于 本 例 而 言 , 一 条 记 录 代 表 一 个 观 察 对 象 , 故 实 际 观 察 频 数 均 为 1 , 即 前 面 所 产生 的 变 量 count = 1 ; 其 中 出 现 阳 性 结 果 的 频 数 在 数 值 上 等 于 变 量 ca C 是 否 患 冠 心 病 ) 的 编 码 ,预 期 出 现 阳 性 结 果 的 理 论 频 数 在 数 值 上 等 于 该 观 察 对 象 患 冠 心 病 的 预 测 概 率 , 与 最 后 一 列 相坐寸最 后 的 方 杠 中 的 文 本 是 对 输 出 的 残 差 做 残 差 分 析 , 用 于 判 断 所 拟 合 的 模 型 中 反 应 变 量 与 自变 量 间 的 函 数 关 系 是 否 合 适 , 还 可 用 于 分 析 有 无 其 他 变 量 要 引 入 模 型 、 模 型 中 有 无 变 量 可 以 剔除 、 异 常 观 测 点 等 。 其 思 路 与 方 法 和 线 性 回 归 一 章 中 所 介 绍 的 基 本 一 致 。* * * * * * * * * * * *PROBIT ANALYSIS* * * * * * * * * * * *Observed and Expected FrequenciesNumber of Observed ExpectedAGE Subjects Responses Responses Residual Prob28.00 1. 0 .0 .035 一 .035 .0354442.00 1. 0 1. 0 .412 .588 .4116346.00 1. 0 .0 .388 一 .388 .3878945.00 1. 0 .0 .678 一 .678 .6784234.00 1. 0 .0 .070 一 .070 .070472. 和 Logistic 回 归 的 结 果 比 较如 果 对 该 数 据 进 行 Logistic 回 归 , 结 果 参 见 表 10. 190表 10. 19 Variables in the EquationB S.E Wald df Sig Exp(B)Step 1 a sex 1.356 546 6.162 013 3.882ecg 873 384 5.162 023 2.395age 093 035 7.000 008 才 097Constant -5.642 1.806 9.757 002 .004a. Variable(s} entered on step l' sex, ec 日 , age刚 才 说 Probit 回 归 结 果 与 Logistic 回 归 结 果 一 致 , 而 此 时 的 系 数 怎 么 不 一 样 了 ? 这 涉 及 对 于Probit 回 归 系 数 的 解 释 问 题 。 以 年 龄 age 为 例 , 其 偏 回 归 系 数 为 0.055 65 , 表 示 当 性 别 、 心 电 图 保持 不 变 时 , 年 龄 每 增 加 一 岁 , 患 冠 心 病 的 概 率 密 度 函 数 值 增 加 0.055650进 一 步 举 例 如 下 : 设 对于 性 别 为 男 性 、 心 电 图 检 验 结 果 为 轻 度 异 常 、 年 龄 30岁 的 人 患 冠 心 病 的 概 率 为 0.40 , 则 相 应 的概 率 密 度 函 数 值 为 一 0.253 35 , 则 相 同 性 别 、 相 同 心 电 图 检 验 结 果 , 年 龄 为 31 岁 者 患 冠 心 病 的 概率 密 度 函 数 值 为 一 0.253 35 +0.055 65 = -0.1977 , 相 应 的 概 率 为 0.421 9 。 则 30 岁 、 31 岁 时 患病 与 未 患 病 的 比 值 比 分 别 为 0.4/ c1 -0.4) =0.6667 、 0.4219/ c1 -0.421 9) =0.7290 , 此 时 的OR 值 为 O. 729 0/0. 666 7 = 1. 093 5 , 与 Logistic 回 归 分 析 结 果 中 的 exp Cβ) = 1. 097 一 致 。 感 兴 趣• 206 •


的 读 者 还 可 以 在 上 述 假 定 的 基 础 上 对 其 他 年 龄 患 冠 心 病 的 概 率 进 行 计 算 , 并 计 算 相 应 的 OR 值进 行 验 证 。实 际 上 , 在 Probit 过 程 的 主 对 话 杠 左 下 角 有 概 率 变 换 函 数 的 选 项 , 默 认 为 Probit , 如 果 改 为Logit , 则 实 际 上 拟 合 的 就 是 Logistic 回 归 模 型 。 Probit 回 归 结 果 与 Logistic 回 归 结 果 的 关 系 可 以用 图 10.6 表 现 出 来 :以 本 例 中 的 年 龄 与 患 病 为 例 , 拟 合 仅 含 有 年 龄 的 Probit 回 归 和 Logistic 回 归 模 型 如 下 :Probit 回 归 :p = φ1 ( _ 2. 296 6 + O. 050 5 xαge)xp ( - 3. 643 + O. 080 xαge)gistic 回 归 :p = 1 + exp ( - 3. 643 + O. 080 xαge)Logistic 回 归 的 预 测 概 率 可 以 通 过 Save 按 钮 予 以 实 现 , 而 Probit 回 归 的 预 测 概 率 需 应 用compute 过 程 进 行 计 算 :compute pre = CDFNORM ( - 2.296 6 + 0.0505 * age).exec.将 两 个 模 型 中 预 测 概 率 与 年 龄 绘 制 在 同 一 个 图 中 , 如 图 10.6 所 示 。图 10.6 Probit 模 型 与 Logistic 模 型 的 预 测 概 率 比 较图 中 虚 线 ( 稍 平 缓 者 ) 为 Logistic 回 归 预 测 概 率 , 实 线 ( 稍 陡 峭 者 ) 为 Probit 回 归 预 测 概 率 , 从图 10.6 中 可 以 看 出 , 二 者 非 常 接 近 。10.4.3 实 例 二 计 算 LD50在 医 学 研 究 中 特 别 是 毒 理 学 、 药 理 学 研 究 中 , 常 需 计 算 半 数 致 死 量 、 半 数 有 效 剂 量 等 剂 量反 应 关 系 的 等 统 计 指 标 。 现 在 标 准 的 做 法 就 是 通 过 调 用 Probit 过 程 进 行 统 计 分 析 。 下 面 给 出 一简 单 实 例 , 不 作 展 开 讨 论 。例 10.5 为 研 究 某 化 学 物 质 对 小 鼠 的 急 性 毒 性 大 小 , 测 试 了 不 同 剂 量 组 的 死 亡 情 况 , 数 据见 probit _ LD50. sav , 求 该 化 学 物 的 LD50 。• 207 •


!Analyze• Regression• Probit:Response Frequency 杠 : dead!Total Observed 杠 : total! Covariates 杠 : C!Transform 杠 : Log base 10! 因在 操 作 中 , Transform杠 用 于 选 择 是 否 对 自 变 量 进 行 对 数 及 采 用 常 用 对 数 还 是 自 然 对 数 变换 , 这 主 要 是 从 药 理 、 毒 理 等 学 科 的 专 业 出 发 。 通 常 进 行 对 数 变 换 后 的 剂 量 与 死 亡 率 之 间 里 对 称的 S 型 曲 线 , 而 未 进 行 对 数 变 换 的 剂 量 与 死 亡 率 之 间 为 长 尾 S 型 曲 线 。本 例 的 主 要 分 析 结 果 如 下 , 方 杠 中 的 文 本 为 Probit误 的 估 计 值 可 以 看 出 , 剂 量 浓 度 的 确 是 对 死 亡 率 有 影 响 的 。回 归 模 型 的 参 数 估 计 , 从 回 归 系 数 和 标 准************ PROBIT ANALYSIS ************Parameter estimates converged after 10 iterations.Optimal solution found.Parameter Estimates (PROBIT model:Regression Coeff.(PROBIT (p)) = Intercept + BX):Standard ErrorC 6.58917 .85530Coeff. /S. E<strong>.7.</strong>70391Intercept Standard Error Intercept/S. E.-21. 537 80 2.802 18 -7.68608Pearson Goodness-of-Fit Chi Square = .432 D F = 8 P = 1. 000随 后 方 杠 中 的 文 本 输 出 了 半 数 致 死 剂 量 LD50 , 为 1 856.380 即 给 予 该 剂 量 水 平 时 , 将 有50% 的 小 鼠 死 亡 。 其 95% 可 信 区 间 为 c1 725. 72 ~ 1 993.49) 。************ PROBITConfidence Limits for Effective CPI o Ebr且.01 823.40130.02 905.695 7395 % Confidence LimitsC Lower Upper614.315 04 984.49407697.070 12 1 063.642 38ANALYSIS ************. 45 1 776.630 17 1 创 4. 046 73 1 904. 975 84.50 1 856.38448 1 725.725 86 1 993.486 52.55 1 939.71902 1 807.91431 2090.204 36. 98 3 804.990 16 3 255.051 23 4 903.885 16.99 4 185.277 98 3 517.043 29 5 564.01455• 208 •


Probit Transformed Responses2ZAC 』也AU吁J]RSqLinear 二 0.9943.0 3.1 3.2 3.3 3.4 3.5Log of被 度图 10.7 剂 量 对 数 与 概 率 单 位 之 间 的 关 系 图SPSS 还 输 出 了 剂 量 对 数 与 概 率 单 位 之 间 的 关 系 图 。 图 中 的 回 归 直 线 是 经 过 编 辑 后 加 上 去的 。 当 拟 合 的 Probit 模 型 中 仅 含 有 一 个 自 变 量 时 , SPSS 才 会 输 出 半 数 致 死 ( 或 有 效 ) 剂 量 及 剂 量对 数 与 概 率 单 位 的 关 系 图 , 如 图 10.7 所 示 。思 考 与 练 习1. 试 对 例 10.1 进 行 无 序 多 分 类 Logistic 回 归 并 与 有 序 多 分 类 Logistic 回 归 进 行 比 较 。2. 试 对 例 10.2 资 料 运 用 COX 回 归 方 法 拟 合 条 件 Logistic 回 归 , 并 与 本 章 所 介 绍 方 法 进 行 比 较 。 注 意 数 据库 的 格 式 。参 考 文 献1 SPSS ( 12.0 Command Syntax Reference. SPSS Chicago, <strong>Il</strong>linois, 20032 Fox , J.. Linear Statistical Models and Related Methods. New York: , 万 il 叮 , 19843 John Neter, Michael H. Kutner, Christopher J. Nachtsheim, etc. Applied Linear Statistical Models. McGraw-Hill, 1996.4 Agresti , A. Cα tegorical Datα Anα lysis. John Wil 叮 & Sons , 19905 陈 峰 . 医 用 多 元 统 计 分 析 方 法 . 北 京 : 中 国 统 计 出 版 社 , 20006 曹 素 华 主 编 . 实 用 医 学 多 因 素 统 计 方 法 . 上 海 医 科 大 学 出 版 社 , 1998• 209 •


第 11 章 主 成 分 分 析 与 因 子 分 析实 际 工 作 中 , 为 了 全 面 系 统 地 反 映 问 题 , 往 往 收 集 的 变 量 较 多 , 但 这 样 就 会 经 常 出 现 所 收 集的 变 量 问 存 在 较 强 相 关 关 系 的 情 况 。 这 些 变 量 问 存 在 着 较 多 的 信 息 重 复 , 直 接 用 它 们 分 析 现 实问 题 , 不 但 模 型 复 杂 , 还 会 因 为 变 量 问 存 在 的 多 重 共 线 性 而 引 起 极 大 的 误 差 。为 了 能 够 充 分 而 有 效 的 利 用 数 据 , 通 常 希 望 用 较 少 的 新 指 标 代 替 原 来 较 多 的 旧 变 量 , 同 时 要求 这 些 新 指 标 尽 可 能 地 反 映 原 变 量 的 信 息 。 主 成 分 分 析 和 因 子 分 析 正 是 解 决 此 问 题 最 有 效 的 多元 统 计 方 法 , 它 们 能 够 提 取 信 息 , 使 变 量 简 化 阵 维 , 从 而 使 问 题 更 加 简 单 直 观 , 在 经 济 、 社 会 等 领域 得 到 广 泛 应 用 。1 1 . 1 主 成 分 分 析主 成 分 分 析 是 考 察 多 个 变 量 间 相 关 性 的 一 种 多 元 统 计 方 法 。 它 是 研 究 如 何 通 过 少 数 几 个 主分 量 来 解 释 多 个 变 量 间 的 内 部 结 构 。 也 就 是 说 , 从 原 始 变 量 中 导 出 少 数 几 个 主 分 量 , 使 它 们 尽 可能 多 地 保 留 原 始 变 量 的 信 息 , 且 彼 此 间 互 不 相 关 。 主 成 分 分 析 的 应 用 目 的 可 以 被 简 单 归 结 为 两句 话 : 数 据 的 压 缩 、 数 据 的 解 释 。 它 常 被 用 来 寻 找 判 断 某 种 事 物 或 现 象 的 综 合 指 标 , 并 且 给 综 合指 标 所 包 含 的 信 息 以 适 当 的 解 释 , 从 而 更 加 深 刻 的 揭 示 事 物 的 内 在 规 律 。 但 是 在 实 际 应 用 中 , 主成 分 分 析 更 多 的 只 是 一 种 达 到 目 的 的 中 间 手 段 , 而 并 非 目 的 本 身 , 它 往 往 会 被 作 为 许 多 大 型 研 究的 中 间 步 骤 , 在 对 数 据 进 行 浓 缩 后 继 续 采 用 其 他 多 元 统 计 方 法 以 解 决 实 际 问 题 。11. 1. 1 模 型 入 门主 成 分 这 个 概 念 由 Karl Pearson 在 1901 年 提 出 , 但 当 时 只 进 行 了 非 随 机 变 量 的 讨 论 , 1933年 Hotelli 吨 则 将 此 概 念 推 广 到 了 随 机 变 量 中 。 其 原 理 实 际 上 可 以 很 简 单 地 用 如 图 1 1. 1 所 示 的一 幅 示 意 图 来 加 以 说 明 。 在 某 次 分 析 中 涉 及 两 个 自 变 量 , 但 是 从 散 点 图 可 以 很 明 显 的 观 察 到 两者 间 存 在 着 相 关 关 系 , 直 接 纳 入 分 析 就 有 可 能 因 多 元 共 线 性 而 无 法 得 出 正 确 结 论 。 那 么 , 如 何 来对 这 两 个 变 量 所 携 带 的 信 息 进 行 浓 缩 处 理 ? 在 统 计 学 上 所 谓 的 信 息 实 际 上 往 往 指 的 是 数 据 的 变异 , 从 散 点 图 上 可 见 , 个 体 散 点 构 成 了 一 个 椭 圆 形 轮 廓 的 点 阵 , 在 该 椭 圆 的 长 轴 方 向 上 , 数 据 的 变异 明 显 较 大 , 而 在 短 轴 方 向 上 变 异 则 要 小 得 多 。 如 果 现 在 沿 着 椭 圆 的 长 短 轴 方 向 设 定 一 个 新 的坐 标 系 , 如 图 1 1. 1 中 虚 线 所 示 , 则 新 产 生 的 这 两 个 变 量 和 原 始 变 量 问 存 在 着 明 显 的 数 学 换 算 关系 。 但 是 这 两 个 新 变 量 彼 此 不 相 关 , 且 信 息 量 的 分 布 显 然 不 同 , 长 轴 变 量 携 带 了 大 部 分 数 据 的 变异 信 息 , 而 短 轴 上 的 变 量 只 携 带 了 一 小 部 分 变 异 信 息 。 在 这 种 情 况 下 , 只 需 要 使 用 长 轴 方 向 上 的新 变 量 , 就 可 以 代 表 原 先 的 两 个 变 量 的 大 部 分 信 息 , 这 样 就 将 两 个 有 相 关 性 的 变 量 浓 缩 成 了 一 个• 213 •


图 1 1. 1 主 成 分 分 析 的 原 理 示 意 图新 变 量 , 达 到 了 降 维 的 目 的 。 显 然 , 椭 圆 的 长 短 轴 相 差 得 越 大 , 说 明 两 变 量 间 的 相 关 性 越 强 , 则 降维 也 就 越 有 道 理 。1. 主 成 分 分 析 的 数 学 模 型通 常 数 学 上 的 处 理 是 将 原 来 的 p 个 指 标 作 线 性 组 合 , 作 为 新 的 综 合 指 标 。 如 果 将 选 取 的 第一 个 线 性 组 合 即 第 一 个 综 合 指 标 记 为 F l, 一 般 自 然 希 望 Fl 中 尽 可 能 多 地 反 映 原 来 指 标 的 信 息 ,这 里 的 " 信 息 " 用 什 么 表 示 呢 ? 最 经 典 的 方 法 就 是 用 凹 的 方 差 来 表 达 , 即 Var (F l) 越 大 , 则 表 示Fl 包 含 的 信 息 越 多 。 因 此 在 所 有 的 线 性 组 合 中 所 选 取 的 第 1 主 成 分 应 该 是 方 差 最 大 的 。 如 果第 1 主 成 分 不 足 以 完 全 代 表 原 来 p 个 指 标 的 信 息 , 再 考 虑 选 第 2 个 线 性 组 合 凹 , 即 第 2 主 成 分 ,依 次 类 推 可 以 造 出 第 3 , 第 4 ,…, 第 p 个 主 成 分 。 这 些 主 成 分 间 互 不 相 关 , 且 方 差 递 减 。 在 实 际应 用 中 , 通 常 只 选 前 面 几 个 最 大 的 主 成 分 , 虽 然 这 样 损 失 了 部 分 信 息 , 但 抓 住 了 主 要 矛 盾 , 并 从 原始 变 量 中 进 一 步 提 取 了 某 些 信 息 , 从 而 既 减 少 了 变 量 的 数 目 又 抓 住 了 主 要 矛 盾 , 有 利 于 问 题 的 分析 和 处 理 。假 设 有 n 个 样 本 , 测 得 p 项 指 标 (p < n) 。 得 到 原 始 数 据 资 料 阵 :X= (X 1 ' 孔 ,… , Xp ) , 且 协差 阵 为 .l;, 令 协 差 阵 的 特 征 根 值 为 λl 王 三 九 三 三 … 主 礼 , 所 以 有 Var (F l) 王 三 Var (F2) 王 三 … 主 Var (Fp)王 三 0 , 向 量 1 1 , 1 2 ,… 4 为 相 应 的 单 位 特 征 向 量 , 则 X 的 第 i 个 主 成 分 为 :zz=l;XG=1 , 2,… ,p)实 际 问 题 中 往 往 协 差 阵 z 未 知 , 这 时 可 以 用 其 估 计 值 S( 样 本 协 差 阵 ) 来 代 替 。 同 时 由 于 指标 的 量 纲 不 同 , 所 以 在 计 算 前 往 往 要 消 除 量 纲 的 影 响 , 而 将 原 始 数 据 标 准 化 , 此 时 :S =R =lx'xn因 此 也 可 以 计 算 相 关 阵 , 从 而 得 到 特 征 值 并 进 行 主 成 分 分 析 。 原 则 上 如 果 有 n 个 变 量 , 则 最多 可 以 提 取 出 n 个 主 成 分 , 但 如 果 将 它 们 全 部 提 取 出 来 就 失 去 了 该 方 法 简 化 数 据 的 实 际 意 义 。一 般 是 按 累 计 贡 献 率 的 大 小 取 前 k 个 , 多 数 情 况 下 提 取 出 前 2 ~ 3 个 主 成 分 己 包 含 了 90% 以 上• 214 •


的 信 息 , 其 他 的 可 以 忽 略 不 计 。2. 主 成 分 模 型 中 各 统 计 量 的 意 义(1) 特 征 根 CEigenvalue) : 它 可 以 被 看 成 是 主 成 分 影 响 力 度 的 指 标 , 代 表 引 入 该 主 成 分 后 可以 解 释 平 均 多 少 原 始 变 量 的 信 息 。 如 果 特 征 根 小 于 1, 说 明 该 主 成 分 的 解 释 力 度 还 不 如 直 接 引入 一 个 原 变 量 的 平 均 解 释 力 度 大 。 因 此 一 般 可 以 用 特 征 根 大 于 1 作 为 纳 入 标 准 。ω 主 成 分 刑 方 差 贡 献 率 : 其 计 算 公 式 为 λ/主 以 明 主 成 分 刑 方 差 在 全 部 方 差 中的 比 重 。 这 个 值 越 大 , 表 明 主 成 分 Zi 综 合 X 1 , 丸 ,… , X p 信 息 的 能 力 越 强 。ω 累 计 贡 献 率 : 前 川 成 分 的 累 计 贡 献 率 以 为 主 λ / 主 以 示 前 面 k 个 主 成 分累 计 提 取 了 X 1 , 丸 ,… , Xp 多 少 的 信 息 。 一 般 来 说 , 如 果 前 k 个 主 成 分 的 贡 献 率 达 到 85% , 表 明 前k 个 主 成 分 基 本 包 含 了 全 部 测 量 指 标 所 具 有 的 信 息 , 这 样 既 减 少 了 变 量 的 个 数 又 便 于 对 实 际 问题 的 分 析 和 研 究 。3. 主 成 分 分 析 的 步 骤主 成 分 分 析 常 常 通 过 以 下 4 步 解 决 :(1) 对 原 来 的 p 个 指 标 进 行 标 准 化 , 以 消 除 变 量 在 数 量 极 或 量 纲 上 的 影 响 。(2) 根 据 标 准 化 后 的 数 据 矩 阵 求 出 协 方 差 或 相 关 阵 。(3) 求 出 协 方 差 矩 阵 的 特 征 根 和 特 征 向 量 。(4) 确 定 主 成 分 , 结 合 专 业 知 识 给 各 主 成 分 所 蕴 含 的 信 息 给 予 适 当 的 解 释 。在 SPSS 中 没 有 把 主 成 分 分 析 作 为 一 种 独 立 的 分 析 方 法 , 而 是 和 因 子 分 析 共 用 一 个 过 程 , 因此 在 SPSS 中 进 行 主 成 分 分 析 时 会 输 出 许 多 因 子 分 析 中 的 结 果 , 但 是 这 并 不 影 响 分 析 结 果 的 准 确性 , 而 且 相 应 的 输 出 都 可 以 根 据 因 子 分 析 模 型 和 主 成 分 分 析 模 型 之 间 的 关 系 进 行 转 换 。4. 主 成 分 分 析 的 用 途如 前 所 述 , 主 成 分 分 析 往 往 会 在 大 型 研 究 中 成 为 一 个 中 间 环 节 , 用 于 解 决 数 据 信 息 浓 缩 等 问题 , 这 就 可 能 产 生 各 种 各 样 的 组 合 方 法 。 这 里 仅 举 最 为 典 型 的 两 种 应 用 情 况 。(1) 主 成 分 评 价 : 在 进 行 多 指 标 综 合 评 价 时 , 由 于 要 求 评 价 结 果 客 观 、 全 面 , 就 需 要 从 各 个 方面 用 多 个 指 标 进 行 测 量 , 但 这 样 就 使 得 观 测 指 标 间 存 在 信 息 重 叠 , 同 时 还 会 存 在 量 纲 、 累 加 时 如何 确 定 权 重 系 数 等 问 题 。 为 此 就 可 以 使 用 主 成 分 分 析 方 法 进 行 信 息 的 浓 缩 , 并 解 决 权 重 的 确 定等 问 题 。 本 章 最 后 的 综 合 分 析 实 例 即 为 此 类 问 题 。(2) 主 成 分 回 归 : 在 线 性 回 归 模 型 中 , 常 用 最 小 二 乘 法 求 回 归 系 数 的 估 计 。 但 是 当 存 在 多 重共 线 性 时 , 最 小 二 乘 法 的 估 计 结 果 并 不 很 理 想 , 因 为 此 时 它 的 均 方 误 差 大 , 使 估 计 不 稳 定 。 这 时可 考 虑 用 主 成 分 回 归 求 回 归 系 数 的 估 计 , 所 谓 主 成 分 回 归 是 用 原 自 变 量 的 主 成 分 代 替 原 自 变 量作 回 归 分 析 。 多 重 共 线 是 由 自 变 量 之 间 关 系 复 杂 、 相 关 性 大 引 起 的 , 而 主 成 分 既 保 留 了 原 指 标 的绝 大 部 分 信 息 , 又 有 主 成 分 间 互 不 相 关 的 优 点 , 故 用 主 成 分 替 代 原 指 标 后 , 再 用 最 小 二 乘 法 建 立主 成 分 与 目 标 变 量 问 回 归 方 程 所 得 的 回 归 系 数 估 计 能 克 服 " 估 计 不 稳 定 " 的 缺 点 。 但 主 成 分 估计 不 是 无 偏 估 计 。• 215 •


一11. 1. 2 简 单 分 析 实 例例 1 1. 1 现 希 望 对 30 个 省 市 自 治 区 经 济 发 展 基 本 情 况 的 八 项 指 标 进 行 分 析 。 具 体 采 用 的指 标 有 :GDP 、 居 民 消 费 水 平 、 固 定 资 产 投 资 、 职 工 平 均 工 资 、 货 物 周 转 量 、 居 民 消 费 价 格 指 数 、 商品 零 售 价 格 指 数 、 工 业 总 产 值 , 数 据 文 件 见 factor1. sav 。这 是 一 个 综 合 分 析 问 题 , 八 项 指 标 较 多 , 可 以 用 主 成 分 分 析 法 进 行 综 合 。 打 开 文 件 后 在SPSS 中 的 操 作 如 下 :: Analyze 一 今 Data Reduction-• Factor Analysis:Variables 丰 匡 : x1 ~ x8ilDesc 呻 tives1: Correlation Matrix 杠 组 :: 因nLoFTρPlu e 、 iEt QFEE -E<strong>Il</strong>且 口u二 -----EI-ι 、七 OnEUρt 1一 - - l一 一一 v 一操 作 中 涉 及 的 对 话 杠 界 面 如 图 1 1. 2 所 示 。图 1 1. 2 Factor 过 程 的 主 对 话 框 和 Desc 呻 tives 子 对 话 框SPSS 在 调 用 Factor Analyze 过 程 进 行 分 析 时 , 首 先 会 自 动 对 原 始 变 量 进 行 标 准 化 , 因 此 以 后的 输 出 结 果 中 在 通 常 情 况 下 都 是 指 标 准 化 后 的 变 量 。 在 结 果 输 出 中 会 涉 及 一 些 因 子 分 析 中 的 内容 , 因 此 这 里 仅 给 出 与 主 成 分 分 析 有 关 的 部 分 如 下 :表 11. 1 Correlation Matrix居 民 消 圃 5E 资 职 工 平 货 物 周 居 民 消 费 商 品 价 工 业 总GDP 费 水 平 产 投 资 均 工 资 转 量 价 格 指 数 格 指 数 产 值Corr GDP 1 ,000 267 95 才 187 617 273 264 874elation居 民 消 费 水 平 ,267 1 ,000 .426 .716 -.151 -,235 -.593 ,363固 定 资 产 投 资 ,951 .426 1.000 .396 .431 -,280 -.359 ,792职 工 平 均 工 资 187 716 396 1 ,000 -.357 -,145 -.543 099货 物 周 转 量 617 -, 151 431 -.357 1 ,000 -,253 022 659居 民 消 费 价 格 指 数 -,273 -,235 -,280 -.145 -.253 1.000 763 -, 125商 品 价 格 指 数 -,264 -,593 -,359 -.543 022 763 1,000 -, 192工 业 总 严 值 ,874 ,363 ,792 .099 .659 -,125 -.192 1 ,000• 216 •


表 1 1. 1 为 8 个 原 始 变 量 之 间 的 相 关 系 数 矩 阵 , 可 见 许 多 变 量 之 间 直 接 的 相 关 性 比 较 强 , 的确 存 在 信 息 上 的 重 叠 。表 11.2Total Variance ExplainedInitial EigenvaluesExtraction Sums of Squared LoadingsComponent Total % of Variance Cumulative % Total % ofVaria 门 ce Cumulative %3.754 46.924 46.924 3.754 46.924 46.9242 2.203 27.532 74 .456 2.203 27.532 74 .4563 1.208 15.096 89.551 1.208 15.096 89.55 才4 .403 5.042 94 .5935 .214 2.673 97.2666 138 1.722 98.9887 .066 ,829 99.8178 015 183 才 00.000Extraction Method: Principal Component Analysis表 1 1. 2 给 出 的 是 各 成 分 的 方 差 贡 献 率 和 累 计 贡 献 率 , 由 表 1 1. 2 可 知 , 只 有 前 3 个 特 征 根 大于 1, 因 此 SPSS只 提 取 了 前 三 个 主 成 分 。 第 一 主 成 分 的 方 差 所 占 所 有 主 成 分 方 差 的 46.92% , 接近 一 半 , 前 三 个 主 成 分 的 方 差 贡 献 率 达 到 89.55% , 因 此 选 前 三 个 主 成 分 己 足 够 描 述 经 济 发 展 的水 平 。表 11 .3 Component Matrix aComponent2GDP 884 .385居 民 消 费 水 平 606 -.596固 定 资 产 投 资 ,911 . 才 63职 工 平 均 工 资 465 -.725货 物 周 转 量 486 .737居 民 消 费 价 格 指 数 -, 5 才 O .257商 品 价 格 指 数 -, 62 才 .596工 业 总 严 值 822 .4293120277,213362279,794,433210Exlraction Method: Principal Compone 门 tAnalysisa. 3 components extracted随 后 表 1 1. 3 中 的 输 出 为 主 成 分 系 数 矩 阵 , 可 以 说 明 各 主 成 分 在 各 变 量 上 的 载 荷 , 从 而 得 出各 主 成 分 的 表 达 式 , 注 意 在 表 达 式 中 各 变 量 己 经 不 是 原 始 变 量 , 而 是 标 准 化 变 量 。F1 =0. 884ZX1 +0. 606ZX2 +0. 911ZX3 +0. 465ZX4 +0. 486ZX5 -0. 510ZX6 -0. 621ZX7 +0.822ZX8F2 = O. 385ZX1 - O. 596ZX2 + O. 163ZX3 - O. 725ZX4 + 0.737 ZX5 + 0.257 ZX6 - O. 596ZX7 +• 217 •


0.429ZX8F3 = O. 120ZX1 + 0.277 ZX2 + O. 213ZX3 + O. 362ZX4 - O. 279ZX5 + O. 794ZX6 - O. 433ZX7 +0.210ZX8由 于 各 自 变 量 己 经 过 标 准 化 , 因 此 以 上 三 个 主 成 分 的 均 数 均 为 0 。 可 以 证 明 , 各 主 成 分 的 方差 应 当 为 前 述 特 征 根 λ, 但 这 里 计 算 出 的 数 值 方 差 均 为 特 征 根 的 平 方 , 即 各 主 成 分 的 原 始 数 值还 应 该 除 以 一 个 特 征 根 的 平 方 根 才 行 , 详 见 章 末 小 节 。 在 第 1 主 成 分 的 表 达 式 中 , X1 , X2 , 刀 , 恩的 系 数 较 大 , 可 以 看 成 是 反 映 GDP 、 固 定 资 产 投 资 、 居 民 消 费 水 平 和 工 业 总 产 值 的 综 合 指 标 。 在第 2 主 成 分 中 , X4 和 岛 的 系 数 较 大 , 可 以 看 成 是 反 映 职 工 平 均 工 资 和 货 物 周 转 量 方 面 的 综 合 指标 。 在 第 3 主 成 分 中 , X6 系 数 较 大 , 可 以 看 成 是 反 映 居 民 消 费 价 格 指 数 方 面 的 综 合 指 标 。主 成 分 分 析 本 质 上 是 一 种 矩 阵 变 换 过 程 , 并 不 要 求 各 主 成 分 部 具 有 实 际 意 义 , 本 例 中 各 主 成分 含 义 显 得 并 不 十 分 明 确 , 我 们 将 在 后 面 的 因 子 分 析 中 对 其 继 续 进 行 分 析 。11. 1. 3 对 主 成 分 分 析 的 进 一 步 说 明在 上 例 中 , 介 绍 了 如 何 计 算 主 成 分 。 实 际 上 , 在 统 计 界 对 于 主 成 分 分 析 法 是 否 能 作 为 一 种 独立 的 统 计 方 法 还 存 在 争 议 , 很 多 人 认 为 主 成 分 分 析 法 只 是 一 种 思 想 , 只 能 被 看 成 是 其 他 多 元 统 计分 析 方 法 的 基 础 。 统 计 软 件 的 设 定 也 各 不 相 同 , SPSS 就 没 有 把 主 成 分 分 析 法 单 独 列 出 , 但 在 另一 些 统 计 软 件 中 主 成 分 分 析 法 却 又 单 独 存 在 。 的 确 , 从 应 用 范 围 和 功 能 上 讲 , 因 子 分 析 法 完 全 能够 替 代 主 成 分 分 析 法 , 并 且 功 能 更 为 强 大 。但 是 , 不 管 怎 么 说 , 主 成 分 分 析 法 还 是 有 其 独 到 之 处 的 , 特 别 是 在 综 合 评 价 和 主 成 分 回 归( 用 各 主 成 分 得 分 作 为 新 的 自 变 量 来 代 替 原 来 的 多 个 自 变 量 , 以 消 除 多 重 共 线 性 ) 时 相 当 有 用 。比 如 在 上 例 中 , 计 算 出 三 个 主 成 分 后 , 可 以 根 据 其 代 数 式 计 算 出 三 个 主 成 分 得 分 , 随 后 用 一 定 的方 法 得 到 综 合 得 分 , 并 根 据 各 地 区 的 综 合 得 分 进 行 排 序 , 对 各 地 区 进 行 比 较 , 具 体 的 操 作 读 者 可以 参 见 最 后 的 综 合 案 例 分 析 未 完 成 。11 .2 囚 子 分 析因 子 分 析 是 由 Charles Spearman 在 1904 年 首 次 提 出 , 并 在 其 后 半 生 一 直 致 力 于 发 展 此 理 论 ,使 之 最 终 成 为 了 现 代 统 计 学 的 重 要 分 支 , 因 此 它 被 公 认 为 因 子 分 析 之 父 。 因 子 分 析 在 某 种 程 度上 可 以 被 看 成 是 主 成 分 分 析 的 推 广 和 扩 展 , 它 对 问 题 的 研 究 更 为 深 入 , 是 将 具 有 错 综 复 杂 关 系 的变 量 ( 或 样 品 ) 综 合 为 数 量 较 少 的 几 个 因 子 , 以 再 现 原 始 变 量 与 因 子 之 间 的 相 互 关 系 , 探 讨 多 个能 够 直 接 测 量 , 并 且 具 有 一 定 相 关 性 的 实 测 指 标 是 如 何 受 少 数 几 个 内 在 的 独 立 因 子 所 支 配 的 , 同时 根 据 不 同 因 子 还 可 以 对 变 量 进 行 分 类 , 属 于 多 元 分 析 中 处 理 降 维 的 一 种 统 计 方 法 。11.2.1 模 型 入 门1. 因 子 分 析 数 学 模 型因 子 分 析 是 通 过 研 究 多 个 变 量 间 相 关 系 数 矩 阵 ( 或 协 方 差 矩 阵 ) 的 内 部 依 赖 关 系 , 找 出 能 综合 所 有 变 量 的 少 数 几 个 随 机 变 量 , 这 几 个 随 机 变 量 是 不 可 测 量 的 , 通 常 称 为 因 子 。 然 后 根 据 相 关性 的 大 小 把 变 量 分 组 , 使 得 同 组 内 的 变 量 之 间 相 关 性 较 高 , 但 不 同 组 的 变 量 相 关 性 较 低 。• 218 •


各 个 因 子 间 互 不 相 关 , 所 有 变 量 都 可 以 表 示 成 公 因 子 的 线 性 组 合 。 因 子 分 析 的 目 的 就 是 减少 变 量 的 数 目 , 用 少 数 因 子 代 替 所 有 变 量 去 分 析 整 个 经 济 问 题 。设 有 N 个 样 本 , p 个 指 标 , X = (X I , X2 , …, XP)T 为 随 机 向 量 , 要 寻 找 的 公 因 子 为 F = (F I,F2' … Jmy , 则 模 型X I = α llFI + α 12 F 2 + … +αlmFm+ElX 2 = α 21FI + α 22 F 2 + … +α 2m F m + 8 2xp=α pl FI + a p2 F 2 + … +α pmFm + 8称 为 因 子 模 型 。 矩 阵 A = (a i) 称 为 因 子 载 荷 矩 阵 , 引 为 因 子 载 荷 (Loading) , 其 实 质 就 是 公因 子 F 和 变 量 屯 的 相 关 系 数 。 E 为 特 殊 因 子 , 代 表 公 因 子 以 外 的 影 响 因 素 , 实 际 分 析 时 忽 略 不计 。对 求 得 的 公 因 子 , 需 要 观 察 它 们 在 哪 些 变 量 上 有 较 大 的 载 荷 , 再 据 此 说 明 该 公 因 子 的 实 际 含义 。 如 果 难 于 对 因 子 F 给 出 一 个 合 理 的 解 释 , 需 要 进 一 步 作 因 子 旋 转 , 以 求 旋 转 后 能 得 到 更 加合 理 的 解 释 。因 子 模 型 有 两 个 特 点 , 其 一 , 模 型 不 受 量 纲 的 影 响 ; 其 二 , 因 子 载 荷 不 是 唯 一 的 , 通 过 因 子 轴的 旋 转 , 可 以 得 到 新 的 因 子 载 荷 阵 , 使 意 义 更 加 明 显 。得 到 初 始 因 子 模 型 后 , 因 子 载 荷 矩 阵 往 往 比 较 复 杂 , 不 利 于 因 子 的 解 释 。 因 子 可 以 通 过 因 子轴 的 旋 转 , 使 得 载 荷 矩 阵 中 各 元 素 数 值 向 o -1 分 化 , 同 时 保 持 同 一 行 中 各 元 素 平 方 和 ( 公 因 子方 差 ) 不 变 。 通 过 因 子 旋 转 , 各 变 量 在 因 子 上 载 荷 更 加 明 显 , 因 此 也 有 利 于 对 各 公 因 子 给 出 更 加明 显 合 理 的 解 释 。求 出 公 因 子 后 , 还 可 以 用 回 归 估 计 等 方 法 求 出 因 子 得 分 的 数 学 模 型 , 将 各 公 因 子 表 示 成 变 量的 线 性 形 式 , 并 进 一 步 计 算 出 因 子 得 分 , 对 各 案 例 进 行 综 合 评 价 。Fi = bilX I + b i2X 2 + … + b inX n(i = 1, 2 ,… , m)2. 因 子 模 型 中 各 统 计 量 的 意 义(1) 因 子 载 荷 问 : 因 子 载 荷 引 为 第 i 个 变 量 在 第 j 个 因 子 上 的 载 荷 , 实 际 上 就 是 X 与 Fj 的 相关 系 数 , 表 示 变 量 X i 依 赖 因 子 f 己 的 程 度 , 反 映 了 第 i 个 变 量 X i 对 于 第 j 个 公 因 子 f 己 的 重 要 性 。(2) 变 量 X 的 变 量 共 同 度 : k 个 公 因 子 对 第 i 个 变 量 方 差 的 贡 献 称 为 第 i 个 变 量 的 共 同 度 ,也 被 称 为 公 因 子 方 差 比 , 记 为 矿 , 公 式 为 :hj= 立α;。= 1, 2 ,… , k)表 示 全 部 公 因 子 对 变 量 X 的 总 方 差 所 做 出 的 贡 献 , 也 即 是 变 量 X 的 信 息 能 够 被 k个 公 因 子所 描 述 的 程 度 。(3) 公 因 子 氏 的 方 差 贡 献 率 : 在 因 子 载 荷 矩 阵 A 中 , 各 列 元 素 叭 的 平 方 和 记 为 d , 有 :d = 立 α;(i = 1, 2 ,… ,p)表 示 第 j 个 公 因 子 Fj 对 于 X 所 提 供 方 差 的 总 和 , 它 是 衡 量 公 因 子 相 对 重 要 性 的 指 标 。 方 差贡 献 率 越 大 , 表 明 公 因 子 对 X 的 贡 献 越 大 。• 219 •


3. 因 子 分 析 的 注 意 事 项(1) 样 本 量 不 能 太 小 。 对 于 因 子 分 析 而 言 , 要 求 样 本 量 比 较 充 足 , 否 则 结 果 可 能 不 太 可 靠 。一 般 而 言 , 要 求 样 本 量 至 少 是 变 量 数 的 5 倍 以 上 , 如 果 要 想 得 到 比 较 理 想 的 结 果 , 则 应 该 在 10 倍以 上 。 其 次 , 除 了 比 例 关 系 外 , 样 本 总 量 也 不 能 太 少 , 按 理 论 要 求 应 该 在 100 以 上 。不 过 在 实 际 的 经 济 和 社 会 问 题 中 , 很 多 时 候 样 本 量 都 达 不 到 这 个 要 求 , 这 时 也 可 以 适 当 放 宽要 求 , 通 过 检 验 来 判 断 结 果 的 可 靠 性 。(2) 各 变 量 问 应 该 具 有 相 关 性 。 如 果 变 量 问 彼 此 独 立 , 则 无 法 从 中 提 取 公 因 子 , 也 就 谈 不 上因 子 分 析 法 的 应 用 。 在 SPSS 中 , 可 以 通 过 Bartlett 球 形 检 验 来 判 断 , 如 果 相 关 阵 是 单 位 阵 , 则 各变 量 独 立 , 因 子 分 析 ; 去 无 效 。(3) KMO 检 验 。 KMO 检 验 用 于 检 查 变 量 间 的 偏 相 关 性 , 取 值 在 o ~ 1 之 间 。 KMO 统 计 量 越接 近 于 1, 变 量 间 的 偏 相 关 性 越 强 , 因 子 分 析 的 效 果 越 好 。 实 际 分 析 中 , KMO 统 计 量 在 O. 7 以 上时 , 效 果 比 较 好 ; 而 当 KMO 统 计 量 在 0.5 以 下 时 , 此 时 不 适 合 应 用 因 子 分 析 法 , 应 考 虑 重 新 设 计变 量 结 构 或 者 采 用 其 他 统 计 分 析 方 法 。(4) 因 子 分 析 中 各 公 因 子 应 该 具 有 实 际 意 义 。 在 主 成 分 分 析 中 , 各 主 成 分 实 际 上 是 矩 阵 变换 的 结 果 , 因 此 意 义 不 明 显 并 不 重 要 。 但 是 在 因 子 分 析 中 , 提 取 出 的 各 因 子 应 该 具 有 实 际 意 义 ,否 则 就 应 该 重 新 设 计 要 测 量 的 原 始 变 量 。11.2.2 简 单 分 析 实 例在 前 面 己 经 对 全 国 30 个 省 市 自 治 区 的 经 济 发 展 状 况 进 行 了 主 成 分 分 析 , 最 终 的 结 果 并 不 是十 分 明 确 , 现 在 采 用 因 子 分 析 法 进 行 分 析 , 操 作 如 下 :: Analyze 一 今 Data Reduction 一 今 Factor Analysis:Variables 丰 匡 : x1 ~ x8|Descriptive1:KMO and Bartlett' s test of sphericity: ~ 豆 豆 且|Extraction1: 引 cree plot: IContinuel因1. 基 本 分 析 结 果这 里 只 对 比 较 重 要 的 结 果 加 以 解 释 , 对 相 同 的 输 出 结 果 不 再 重 复 说 明 。KMO 和 球 形 Bartlett 检 验 用 于 因 子 分 析 的 适 用 性 检 验 。 KMO 检 验 变 量 间 的 偏 相 关 是 否 较小 , Bartlett 球 形 检 验 是 判 断 相 关 阵 是 否 是 单 位 阵 , 参 见 表 1 1. 40表 11. 4 KMO and Bartlett's TestKaiser-Meyer-Olkin Measure of Sampling Adequacy..620BartleU's Test of SphericityApprox. Chi-SquaredfSig.231.28528.000• 220 •


由 Bartlett 检 验 可 以 看 出 , 应 拒 绝 各 变 量 独 立 的 假 设 , 即 变 量 问 具 有 较 强 的 相 关 性 。 但 是KMO 统 计 量 为 0.620 , 小 于 0.7 , 说 明 各 变 量 问 信 息 的 重 叠 程 度 可 能 不 是 特 别 的 高 , 有 可 能 做 出的 因 子 分 析 模 型 不 是 很 完 善 , 但 还 是 值 得 尝 试 的 。表 11.5CommunalitiesInilial ExlractionGDP 1.000 945居 民 消 费 水 平 1.000 .799固 立 资 产 投 资 1.000 902职 工 平 均 工 资 1.000 873货 物 周 转 量 1.000 857居 民 消 费 价 格 指 数 1.000 957商 品 价 恪 指 数 1.000 .928工 业 总 产 值 1.000 .904Exlraction Method: Principal Component Analysis变 量 共 同 度 Communalities 是 表 示 各 变 量 中 所 含 原 始 信 息 能 被 提 取 的 公 因 子 所 表 示 的 程 度 ,由 表 1 1. 5 中 所 示 的 变 量 共 同 度 可 知 : 几 乎 所 有 变 量 共 同 度 都 在 80% 以 上 , 因 此 提 取 出 的 这 几 个公 因 子 对 各 变 量 的 解 释 能 力 是 较 强 的 。图 1 1. 3 碎 石 图图 1 1. 3 被 称 为 碎 石 图 (Scree Plot) , Scree 一 词 来 自 地 质 学 , 表 示 在 岩 层 斜 坡 下 方 发 现 的 小 碎石 , 这 些 碎 石 的 地 质 学 价 值 不 高 , 可 以 忽 略 。 碎 石 图 用 于 显 示 各 因 子 的 重 要 程 度 , 其 横 轴 为 因 子序 号 , 纵 轴 表 示 特 征 根 大 小 。 它 将 因 子 按 特 征 根 从 大 到 小 依 次 排 列 , 从 中 可 以 非 常 直 观 的 了 解 到哪 些 是 最 主 要 的 因 子 。 前 面 陡 峭 的 对 应 较 大 的 特 征 根 , 作 用 明 显 ; 后 面 的 平 台 对 应 较 小 的 特 征根 , 其 影 响 不 明 显 。 本 例 中 可 见 前 三 个 因 子 的 散 点 位 于 陡 坡 上 , 而 后 五 个 因 子 散 点 形 成 了 平 台 ,且 特 征 根 均 小 于 1, 因 此 至 多 考 虑 前 三 个 公 因 子 即 可 。• 221 •


随 后 会 输 出 方 差 累 计 贡 献 率 表 格 , 和 主 成 分 分 析 中 完 全 相 同 , 因 此 省 略 。表 11 . 6 Component Matrix aComponent2 3GDP .884 ,385 , 120居 民 消 费 水 平 .606 -,596 277固 定 资 产 投 资 .911 163 213职 工 平 均 工 资 .465 -.725 362货 物 周 转 量 .486 ,737 -,279居 民 消 费 价 恪 指 数 -.510 ,257 ,794商 品 价 格 指 数 -.621 596 433工 业 总 产 值 .822 429 210Extraction Method: Principal Component Analysis.a, 3 componenls exlracled表 1 1. 6 为 曾 经 阅 读 过 的 因 子 载 荷 矩 阵 , 在 前 面 己 经 直 接 按 列 的 方 向 将 其 解 释 为 各 主 成 分 的系 数 , 实 际 上 严 格 讲 因 子 载 荷 矩 阵 应 该 是 各 因 子 在 各 变 量 上 的 载 荷 , 即 是 各 因 子 对 各 变 量 的 影 响度 。ZX1 = O. 884F1 + O.385F2 + O. 120F3 + 8 1ZX2 = O. 606F1 - O. 596F2 - O. 277 F3 + 8 2ZX8 = O. 822F1 + O.429F2 - O.210F3 + 8 8在 表 达 式 中 各 变 量 己 经 不 是 原 始 变 量 , 而 是 标 准 化 变 量 。 E 表 示 特 殊 因 子 , 是 除 了 这 4 个 公因 子 外 影 响 该 变 量 的 其 他 因 素 , 其 对 该 变 量 的 影 响 程 度 为 1 一 变 量 共 同 度 。原 来 设 计 了 8个 变 量 来 表 示 经 济 发 展 水 平 , 而 经 过 因 子 分 析 后 , 只 需 用 三 个 因 子 即 可 描 述 影响 地 区 经 济 发 展 状 况 。2. 因 子 旋 转因 子 分 析 要 求 提 取 出 的 公 因 子 有 实 际 含 义 , 但 是 从 上 面 各 因 子 和 原 始 变 量 的 相 关 系 数 可 以看 出 , 现 在 各 因 子 的 意 义 不 是 很 明 显 , 为 了 使 因 子 载 荷 矩 阵 中 系 数 更 加 显 著 , 可 以 对 初 始 因 子 载荷 矩 阵 进 行 旋 转 , 使 因 子 和 原 始 变 量 间 的 关 系 进 行 重 新 分 配 , 相 关 系 数 向 0-1 分 化 , 从 而 更 加 容易 进 行 解 释 。图 1 1. 4 是 因 子 旋 转 的 示 意 图 , 该 资 料 是 对 肝 炎 病 人 的 一 些 症 状 进 行 了 因 子 分 析 , 该 图 形 也被 称 为 因 子 空 间 载 荷 图 , 散 点 的 坐 标 实 际 上 就 是 因 子 载 荷 矩 阵 中 的 系 数 值 。 图 1 1. 4Ca) 为 默 认提 取 情 形 下 的 分 析 结 果 , 可 见 所 有 变 量 都 和 第 一 公 因 子 有 较 强 烈 的 相 关 性 , 丽 和 第 二 公 因 子 的 相关 均 比 较 弱 , 这 使 得 因 子 的 含 义 很 难 解 释 ; 图 1 1. 4 Cb) 为 进 行 因 子 旋 转 后 的 结 果 , 可 以 发 现 旋 转使 得 因 子 载 荷 阵 中 的 系 数 开 始 向 0-1分 化 , 从 而 使 各 因 子 的 意 义 更 明 显 。 现 在 口 淡 、 抑 郁 、 健 忘等 主 观 症 状 和 第 一 公 因 子 有 较 强 的 相 关 性 , 而 尿 黄 、 腹 部 膨 隆 等 客 观 症 状 和 第 二 公 因 子 的 相 关 性较 强 , 因 此 这 两 个 公 因 子 可 以 被 分 别 命 名 为 主 观 症 状 和 客 观 症 状 因 子 。 需 要 注 意 的 是 在 旋 转 前• 222 •


于 斜 交 旋 转 则 显 示 旋 转 后 的 因 子 载 荷 阵 、 因 子 结 构 矩 阵 和 因 子 间 的 相 关 阵 。 而 因 子 空 间 载 荷 图是 一 个 二 维 或 三 维 的 图 形 , 以 因 子 为 坐 标 轴 , 画 出 各 变 量 在 图 形 中 分 布 。 如 果 只 有 两 个 因 子 , 则给 出 以 两 个 因 子 为 坐 标 轴 的 平 面 散 点 图 , 如 果 多 于 两 个 因 子 , 则 给 出 前 三 个 因 子 的 三 维 散 点 图 。对 于 本 例 可 以 采 用 方 差 最 大 旋 转 加 以 分 析 , 如 果 对 于 各 种 旋 转 方 法 没 有 把 握 , 选 择 它 一 般 没有 什 么 问 题 。 结 果 输 出 中 的 变 化 如 下 :表 11 . 7 Total Variance ExplainedInilial EigenvaluesRolalion Sums of Squared Loadings,Componenl Tolal % of Variance Cumulative % Total % of Variance Cumulative %3 ,754 46.924 46.924 3.207 40 ,092 40 ,0922 2 ,203 27.532 74 .456 2.217 27 ,708 67 ,8003 1,208 15.096 89.551 1.740 21 ,752 89 55 才4 403 5.042 94.5935 214 2.673 97.2666 138 1.722 98.9887 066 829 99.8178 015 183 才 00 , 000Exlraclion Melhod Principal Componenl Analysis方 差 解 释 表 格 ( 己 经 过 编 辑 ) 最 右 侧 会 给 出 旋 转 后 各 因 子 的 载 荷 情 况 , 由 表 1 1. 7 可 知 , 只 有前 三 个 特 征 根 大 于 1, 因 此 SPSS 只 提 取 了 前 三 个 公 因 子 。 在 旋 转 后 三 个 公 因 子 的 方 差 累 计 贡 献均 发 生 了 变 化 , 但 仍 然 会 保 持 从 大 到 小 的 顺 序 , 而 且 前 三 个 因 子 的 方 差 贡 献 率 仍 为 89.55% , 和旋 转 前 完 全 相 同 , 因 此 选 前 三 个 因 子 己 足 够 描 述 经 济 发 展 的 水 平 。表 1 1. 8 Rotated Com ponent Matrix a 表 11 . 9 Rotated Component Matrix aComponenlComponenl2 3 2 3GDP 955 .124 -.131 GDP 955 .124 -,131居 民 消 费 水 平 219 .841 209 工 业 总 产 值 944 .109固 定 资 产 投 资 ,872 .351 -.137 固 定 资 产 投 资 .872 .351 -,137职 工 平 均 工 资 ,048 .925 -.121 货 啕 周 转 量 .751 -.507 -,192货 物 周 转 量 751 -.507 -.192 职 工 平 均 ± 资 .925 -,121居 民 消 费 价 格 指 数 -, 135 -.013 969 居 民 消 费 水 平 219 .841 -,209商 品 价 格 指 数 -.104 -.496 819 居 民 消 费 价 格 指 数 -.135 969工 业 总 产 值 944 .109 -.014 商 品 价 格 指 数 -, 104 -.496 819Exlraclion Melhod: Principal Componenl AnalysisExlraclion Melhod: Principal Componenl AnalysisRotalion Method: Varimax with Kaiser NormalizalionRolalion Melhod: Varimax with Kaiser Normalization8. Rolalion c 口 n \lerged in 5 ilerations a. Rotation con\lerged in 5 iterations进 行 方 差 最 大 旋 转 后 , 旋 转 后 的 因 子 载 荷 矩 阵 如 表 1 1. 8 和 表 1 1. 9 所 示 , 注 意 右 侧 的 表 格Options 子 对 话 杠 中 Coefficient Display Format 复 选 杠 组 后 的 结 果 , 可 见 表 格 按 照 系 数 大 小 进 行 了• 224 •


排 序 , 而 且 过 小 的 系 数 也 被 抑 制 输 出 , 使 得 结 果 更 清 晰 易 读 。 但 内 容 实 际 上 是 相 同 的 。 由表 1 1. 8 和 表 1 1. 9 中 可 以 看 出 第 一 公 因 子 在 X] 、 皂 、 毛 和 凡 有 较 大 的 载 荷 , 主 要 从 GDP 、 固 定 资产 投 资 、 货 物 周 转 量 和 工 业 总 产 值 反 映 经 济 发 展 状 况 , 可 以 命 名 为 总 量 因 子 。 第 二 公 因 子 在 X 2 、毛 上 有 较 大 载 荷 , 从 居 民 消 费 水 平 和 职 工 平 均 工 资 方 面 反 映 经 济 发 展 水 平 , 因 此 命 名 为 消 费 因子 。 第 二 公 因 子 在 毛 和 X7 上 有 较 大 载 荷 , 表 现 为 居 民 消 费 价 格 指 数 和 水 平 价 格 指 数 方 面 , 因 此命 名 为 价 格 因 子 。 与 未 旋 转 前 相 比 较 , 旋 转 后 各 公 因 子 的 意 义 显 然 更 加 明 确 合 理 。3. 因 子 表 达 式前 面 得 到 了 因 子 结 构 表 达 式 , 可 以 将 各 变 量 表 示 为 公 因 子 的 线 性 形 式 , 但 是 更 多 的 时 候 需 要将 公 因 子 表 达 为 各 变 量 的 线 性 形 式 。 公 因 子 的 表 达 式 也 称为 因 子 得 分 函 数 系 数 , 但 是 在 因 子 分 析 中 , 不 能 像 主 成 分 分析 一 样 , 直 接 从 列 的 分 析 得 到 公 因 子 的 表 达 式 , 也 就 是 它 不能 通 过 矩 阵 变 换 的 方 法 由 因 子 载 荷 阵 得 到 , 只 能 采 用 估 计的 方 法 求 得 。 最 常 用 的 估 计 方 法 是 Regression回 归 法 , 也是 SPSS 的 默 认 估 计 方 法 。 其 次 也 可 以 用 Bartlett 或 者 Anderson-Rubin 估 计 法 。在 Score 子 对 话 杠 中 选 择 "Display factor score coeffi- 图 1 1. 6 Score 子 对 话 框cient matrix ,,, 如 图 1 1. 6 所 示 , 即 可 输 出 因 子 得 分 函 数 的 系 数 矩 阵 。 如 果 还 选 择 了 "Save as variables", 则 SPSS 还 可 以 直 接 保 存 各 因 子 得 分 值 为 一 个 变 量 。 估 计 出 因 子 得 分 函 数 后 , 虽 然 可 以 人工 计 算 出 因 子 得 分 , 但 是 需 要 先 将 变 量 标 准 化 , 再 输 入 公 式 计 算 , 比 较 麻 烦 , 而 通 过 该 选 项 就 可 以直 接 将 各 因 子 的 得 分 存 为 相 应 的 新 变 量 。在 本 例 中 可 以 得 到 了 如 表 1 1. 10 所 示 的 因 子 得 分 函 数 系 数 矩 阵 , 据 此 可 以 直 接 写 出 各 公 因子 的 表 达 式 。表 11. 10 Component Score Coefficient MatrixComponent2 3GDP 306 .011 047居 民 消 费 水 平 025 .387 040面 走 资 产 投 资 .270 .129 .075职 工 平 均 工 资 -.025 .451 096货 物 周 转 量 248 -.319 -.139居 民 消 费 价 格 指 数 070 .180 653商 品 价 格 指 数 .077 -.098 .462工 业 总 严 值 317 .026 123Extraction Method: Principal Component AnalysisRotation Method: Varimax with Kaiser NormalizationF1 = O. 306ZX1 + O. 025ZX2 + O. 270ZX3 - O. 025ZX4 + O. 248ZX5 + O. 070ZX6 + 0.077 Z X7+0. 317ZX8• 225 •


F2 =0. 011ZX1 +0. 387ZX2 +0. 129ZX3 +0. 451ZX4 -0. 319ZX5 +0. 180ZX6 -0. 098ZX7 +0.026ZX8F3 = 0.047 ZX1 + O. 040ZX2 + O. 075ZX3 + O. 096ZX4 - O. 139ZX5 + O. 653ZX6 + O. 462ZX7 +0.123ZX811 .3 因 子 分 析 的 进 一 步 讨 论在 前 面 讨 论 了 因 子 分 析 的 基 本 原 理 、 操 作 过 程 和 结 果 分 析 , 己 经 能 够 满 足 绝 大 多 数 的 应 用 要求 , 但 因 子 分 析 本 身 是 非 常 强 大 的 , 除 了 常 见 的 基 本 方 法 外 , 还 有 很 多 地 方 值 得 我 们 进 一 步 学 习和 探 讨 。11.3.1 不 同 的 因 子 分 析 法因 子 分 析 是 从 主 成 分 分 析 ; 去 发 展 而 来 , 但 是 却 不 局 限 于 主 成 分 法 , 根 据 提 取 公 因 子 的 方 法 ,因 子 分 析 法 也 有 不 同 的 类 别 。 在 Factor Analysis 对 话 杠 中 单 击 Extraction 对 话 框 , 打 开 Extraction提 取 因 子 对 话 框 , 通 过 Method 下 拉 框 , 可 以 选 择 不 同 的 因 子 分 析 法 , 如 图 1 1. 7 所 示 。图 11. 7 Extraction 子 对 话 框(1) Principal Components: 主 成 分 法 , 这 是 默 认 选 项 。 通 过 主 成 分 分 析 的 思 想 进 行 提 取 公 因子 , 它 假 设 变 量 是 各 因 子 的 线 性 组 合 。 i 衷 方 法 从 解 释 变 量 的 变 异 出 发 , 尽 量 使 变 量 的 方 差 能 够 被主 成 分 所 解 释 。 此 法 为 系 统 默 认 值 , 绝 大 多 数 情 况 下 无 需 更 改 。(2) Unweight Least Square: 不 加 权 最 小 平 方 法 。 i 衷 方 法 使 实 际 的 相 关 阵 和 再 生 的 相 关 阵 之差 的 平 方 和 达 到 最 小 。(3) Generalized Least Square: 力 日 权 最 小 平 方 法 。 用 变 量 { 直 进 行 加 权 。 i 衷 方 法 也 是 使 实 际 的相 关 阵 和 再 生 的 相 关 阵 之 差 的 平 方 和 达 到 最 小 。(4) Maximum Likelihood: 最 大 似 然 法 。 该 方 法 不 要 求 数 据 服 从 正 态 分 布 , 在 样 本 量 较 大 时使 用 较 好 。(5) Principal Axis Factoring: 主 轴 因 子 法 。 该 方 法 从 原 始 变 量 的 相 关 性 出 发 , 使 得 变 量 间 的相 关 程 度 能 够 尽 可 能 地 被 公 因 子 解 释 。 i 衷 方 法 重 在 解 释 变 量 的 相 关 性 , 确 定 内 在 结 构 , 而 对 于 变量 方 差 的 解 释 不 太 重 视 。• 226 •


(6) Alpha Factoring:α 因 子 分 析 法 。 将 变 量 看 成 是 从 潜 在 变 量 空 间 中 抽 取 出 的 样 本 , 在 计算 中 尽 量 使 得 变 量 的 α 信 度 达 到 最 大 。(7) Image Factoring: 映 像 因 子 分 析 法 。 该 方 法 把 一 个 变 量 看 作 是 其 他 变 量 的 多 元 回 归 , 据此 概 念 提 取 公 因 子 。事 实 上 , 如 果 变 量 数 和 样 本 量 都 大 , 而 且 相 关 性 也 高 , 则 各 种 因 子 提 取 法 的 结 果 基 本 相 同 , 区别 仅 仅 在 于 其 分 析 思 想 不 同 。 主 成 分 法 是 最 常 用 的 方 法 , 在 多 数 情 况 下 也 是 最 佳 的 选 择 ; 如 果 样本 量 极 大 c1 500 以 上 ) , 则 极 大 似 然 法 的 结 果 稍 为 更 精 确 些 ; 如 果 数 据 不 好 ( 样 本 小 , 或 变 量 少 ) ,α因 子 法 或 映 像 因 子 法 可 能 更 好 ; 当 对 各 种 方 法 的 原 理 不 太 清 楚 或 者 适 用 条 件 不 明 的 情 况 下 , 主成 分 法 仍 然 是 最 好 的 选 择 。11.3.2 相 关 阵 和 协 方 差在 计 算 特 征 根 和 特 征 向 量 时 , 可 以 选 择 使 用 变 量 间 的 相 关 阵 或 者 协 方 差 阵 , SPSS默 认 选 择相 关 阵 。从 相 关 阵 或 协 差 阵 计 算 主 成 分 , 进 行 因 子 分 析 其 结 果 是 不 同 的 。 相 关 阵 不 会 受 到 变 量 量 纲的 影 响 , 而 协 差 阵 受 变 量 量 纲 影 响 很 大 , 当 变 量 取 { 直 范 围 相 差 很 大 或 量 纲 不 同 时 , 应 该 进 行 标 准化 , 不 过 这 点 在 SPSS 中 倒 不 存 在 , 因 为 在 SPSS 的 Factor Analyze 分 析 模 块 中 本 身 就 包 含 了 一 个标 准 化 过 程 。如 果 不 考 虑 数 值 范 围 和 量 纲 的 影 响 , 根 据 协 差 阵 或 相 关 阵 计 算 特 征 根 和 特 征 向 量 , 并 进 一 步得 到 因 子 载 荷 差 异 不 大 , 尽 管 数 值 上 有 所 不 同 , 但 其 计 算 结 果 对 因 子 的 解 释 和 方 差 贡 献 率 的 解释 , 在 一 般 情 况 下 是 一 致 的 , 不 会 发 生 矛 盾 。11.3.3 确 定 公 因 子 数 量与 主 成 分 分 析 类 似 , 在 选 取 公 因 子 时 , 也 可 以 根 据 累 计 方 差 贡 献 率 选 取 前 k 个 公 因 子 , 以 达到 简 化 变 量 结 构 的 目 的 。此 外 , 在 选 择 公 因 子 时 , 也 要 注 意 对 应 特 征 根 的 大 小 , 因 为 特 征 根 某 种 程 度 上 可 以 看 作 是 衡量 对 应 公 因 子 影 响 力 大 小 的 指 标 。 一 般 来 说 , 要 求 特 征 根 大 于 1 。 因 为 如 果 特 征 根 小 于 1, 说 明该 公 因 子 的 解 释 力 度 太 弱 , 还 比 不 上 直 接 引 入 一 个 原 变 量 的 平 均 解 释 力 度 大 。在 实 际 应 用 中 , 可 以 将 累 计 贡 献 率 和 特 征 根 大 小 综 合 起 来 考 虑 。 如 果 大 多 数 特 征 根 都 小 于1, 而 且 大 多 数 公 因 子 的 贡 献 率 都 较 小 , 则 往 往 是 选 择 的 原 指 标 不 大 合 理 或 者 样 本 容 量 太 小 , 应 继续 深 入 调 整 。如 果 研 究 者 有 特 殊 需 要 , 也 可 以 在 Extraction子 对 话 杠 中 指 定 要 提 取 的 公 因 子 数 目 , 以 达 到特 定 的 研 究 目 的 。11 .4 因 子 分 析 综 合 案 例重 庆 是 一 个 新 兴 直 辖 市 , 三 峡 库 区 建 设 和 西 部 大 开 发 使 重 庆 得 到 了 千 载 难 逢 的 发 展 机 遇 。但 由 于 历 史 原 因 , 重 庆 地 方 经 济 发 展 极 不 平 衡 , 地 区 差 异 明 显 , 是 大 城 市 带 动 大 农 村 的 格 局 , 属 于典 型 的 二 元 经 济 结 构 。 在 重 庆 经 济 的 发 展 战 略 中 , 怎 样 对 自 身 的 经 济 发 展 状 况 进 行 评 价 , 协 调 内• 227 •


部 的 经 济 结 构 , 找 到 拉 动 经 济 的 " 增 长 极 " 则 是 实 现 重 庆 经 济 崛 起 , 将 重 庆 建 设 成 为 长 江 中 上 游中 心 城 市 战 略 目 标 的 基 础 和 前 提 。在 衡 量 一 个 地 区 的 经 济 发 展 状 况 时 , 并 不 能 仅 仅 简 单 比 较 一 两 项 指 标 数 据 , 而 是 应 该 从 社 会经 济 发 展 的 各 方 面 综 合 考 察 , 从 而 描 述 社 会 经 济 的 现 状 , 找 出 存 在 的 问 题 及 其 影 响 因 素 , 为 地 区经 济 发 展 提 高 政 策 制 定 依 据 。 本 例 使 用 因 子 分 析 综 合 评 价 方 法 , 对 重 庆 市 40 个 区 市 县 的 经 济 情况 进 行 分 析 , 并 按 经 济 综 合 实 力 评 价 各 区 市 县 的 地 位 和 发 展 状 况 。 在 分 析 过 程 中 , 本 例 选 取 了 能足 够 反 映 经 济 发 展 总 体 水 平 的 9项 主 要 指 标 ( 均 以 万 元 为 单 位 ) , 指 标 数 据 来 源 于 重 庆 市 统 计 年鉴 2001 年 , 数 据 见 文 件 factor2. sav 0址 :GDPx2: 工 业 总 产 值x4: 水 陆 货 运 总 量 x5: 邮 电 通 讯 总 量x7: 预 算 内 财 政 收 入 x8: 城 乡 居 民 储 蓄 余 额1. 数 据 整 理 和 分 析 操 作x3 : 农 业 总 产 值而 : 固 定 资 产 投 资x9: 社 会 消 费 品 零 售 额打 开 数 据 后 , 在 SPSS 中 进 行 因 子 分 析 的 操 作 如 下 :iAnalyze• Data Reduction• Factor Analysis:Variables 杠 : x1 ~ x9| 胁 scriptive1: 即 KMO and Bartlett' s test of sphericity: IContinuel匾 亟 虽 : 没 Varimax I 部 Loading Plots: 巨 亟 画E 画 :Saving as VariableDisplay factor score coefficient matrixQUEBBenr C rI e OιEt..二 --七 On一 一 一-jιEt--n- -It- -ejSorted by size ISuppress absolute value less than: 1Continuel2. 因 子 分 析 结 果表 1 1. 11 KMO and Ba 时 lett's TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.766Bartle!t's T est of SphericityApprox. Chi-SquaredfSig413.90036.000由 表 1 1. 11 可 知 , KMO 统 计 量 为 0.766 >0.7 , 分 子 分 析 的 效 果 比 较 好 , 再 由 Bartlett 球 形 检• 228 •


验 , 可 知 各 变 量 的 独 立 性 假 设 不 成 立 , 故 因 子 分 析 的 适 用 性 检 验 通 过 。表 11. 12 Total Variance Explained,| 门 itial Eigenvalues Rotation Sums of Squared LoadingsComponent Tolal % of Variance Cumulalive % Tolal % of Variance Cumulalive %5848 64.983 64.983 4.462 49.580 49 , 5802 1.13 才 12.570 77.553 2.423 26.917 76.4983 1 , 033 11 .478 89.031 1.128 12.534 89 03 才4 417 4.631 93.6625 .245 2.724 96.3866 199 2.212 98.5987 068 757 99.3558 .034 .379 99.7349 .024 .266 才 00.000Exlraclion Melhod: Principal Componenl Analysis由 相 关 系 数 矩 阵 R 计 算 得 到 特 征 值 、 方 差 贡 献 率 和 累 积 贡 献 率 , 如 表 1 1. 12 所 示 , 可 知 第 一因 子 的 方 差 占 所 有 因 子 方 差 的 65% 左 右 , 前 三 个 因 子 的 方 差 贡 献 率 达 到 89.03% ( 三 :::85%) , 因 此选 前 三 个 因 子 己 经 足 够 描 述 经 济 发 展 的 总 体 水 平 。表 11. 13 CommunalitiesInitial ExlractionGDP( 万 兀 ) 1.000 .944工 业 总 产 值 ( 万 元 ) 1.000 96 才农 业 总 产 值 ( 万 元 ) 1.000 988水 | 罚 货 物 周 转 量 ( 亿 吨 ) 1 , 000 676邮 电 通 讯 总 暨 ( 万 元 ) 1 , 000 959固 定 资 产 投 资 ( 记 元 ) 1 , 000 887f 也 方 财 政 预 算 内 收 入 (1z. 元 ) 1.000 .88 才城 乡 居 民 储 蓄 存 款 余 额 ( 亿 元 ) 1.000 .783社 会 消 费 品 零 售 总 额 ( 万 元 ) 1.000 933Exlraction Melhod: Principal Component Analysis.提 取 出 三 个 公 因 子 后 , 可 以 计 算 各 变 量 的 共 同 度 , 如 表 1 1. 13 所 示 。 变 量 共 同 度 表 示 各 变 量中 所 含 原 始 信 息 能 被 提 取 出 的 公 因 子 所 表 示 的 程 度 , 由 表 1 1. 14 所 示 的 变 量 共 同 度 可 知 , 除 了X4 固 定 资 产 投 资 的 共 同 度 为 67% , 其 余 变 量 的 共 同 度 都 在 80% 以 上 , 因 此 这 三 个 公 因 子 对 各 经济 指 标 的 解 释 能 力 是 比 较 强 的 。采 用 主 成 分 法 计 算 因 子 载 荷 矩 阵 A , 根 据 因 子 载 荷 矩 阵 可 以 说 明 各 因 子 在 各 变 量 上 的 载 荷 ,即 影 响 程 度 。 由 于 初 始 的 因 子 载 荷 矩 阵 系 数 不 是 太 明 显 , 为 了 使 因 子 载 荷 矩 阵 中 系 数 向 0-1 分• 229 •


化 , 对 初 始 因 子 载 荷 矩 阵 进 行 方 差 最 大 旋 转 , 旋 转 后 的 因 子 载 荷 矩 阵 如 表 1 1. 14 所 示 。表 1 1. 14 Rotated Component Matrix aCompo 门 ent邮 电 通 讯 总 量 ( 万 元 )社 会 消 费 品 零 售 总 额 ( 万 元 )城 乡 居 ~ 储 蓄 存 款 余 额 ( 亿 元 )地 方 财 政 预 算 内 收 入 ( 亿 元 )GDP( 万 元 )固 定 资 产 投 资 ({; 乙 元 ).975.902.828.815.707.6602.336.311.451.608.651水 脏 货 物 周 转 量 ( 亿 吨 ) .631.525工 业 总 产 值 ( 万 元 )农 业 总 产 值 ( 万 元 ).123.9673才 才 9273I 才 65-.103993Exlraction Melhod: Principal Componenl Analysis.Rotation Method: Varimax wilh Kaiser Normalizaliona. Rotation co 门 ver 臼 ed in 6 iterations由 输 出 表 可 以 看 出 , 第 一 公 因 子 在 除 川 和 引 外 的 其 他 变 量 上 都 有 较 大 载 荷 , 主 要 表 现 除 工农 业 外 的 各 经 济 指 标 的 综 合 影 响 , 因 此 定 义 为 经 济 发 展 的 综 合 实 力 因 子 ; 第 二 公 因 子 在 X2 上 有很 大 载 荷 , 体 现 工 业 在 经 济 发 展 中 的 作 用 , 定 义 为 工 业 发 展 的 影 响 因 子 ; 而 第 二 公 因 子 只 在 毛 上有 很 大 载 荷 , 表 现 农 业 在 经 济 发 展 中 的 作 用 , 定 义 为 农 业 发 展 的 影 响 因 子 。 这 三 个 因 子 的 性 质 及其 顺 序 较 好 地 体 现 了 其 代 表 的 产 业 对 社 会 经 济 发 展 的 影 响 及 其 地 位 , 也 完 全 符 合 社 会 经 济 发 展的 规 律 , 即 农 业 整 体 经 济 中 的 地 位 逐 渐 降 低 , 而 第 二 产 业 的 比 重 逐 渐 增 大 。图 1 1. 8 为 本 次 分 析 的 因 子 载 荷 图 ( 经 过 编 辑 ) , 从 中 得 出 的 结 论 和 上 面 完 全 相 同 。NEUE且自oulnυ0.5。Ox3ox2x6q,xlOX\x7oox9x8ox5mEUZO 鸟Eoυl。"0.5。ox3。x2xlOo Yic7x6 D口。 oJYx4 xS'"'x50.50.51.01.00.5 0 0.5Component 1l。"1.01.00.5 0Component 10.5hv图 1 1. 8因 子 载 荷 图• 230 •


3. 重 庆 市 各 区 市 县 经 济 发 展 的 综 合 评 价为 了 考 察 各 区 市 县 的 发 展 状 况 , 并 对 其 进 行 分 析 和 综 合 评 价 , 采 用 回 归 方 法 求 出 因 子 得 分 函数 , SPSS 输 出 的 函 数 系 数 矩 阵 如 表 1 1. 15 所 示 。表 11 . 15 Component Score Coefficient MatrixCompo 门 entGDP( 万 兀 ) .062工 业 总 严 值 ( 万 元 ) -.293农 业 总 产 值 ( 万 元 ) -.015水 陆 货 物 周 转 量 ( 亿 吨 ) .065邮 电 通 讯 总 量 ( 万 元 ) .413国 走 资 产 投 资 ( 亿 元 ) .0291 世 方 财 政 预 算 内 收 入 ( 亿 元 ) .162城 乡 居 而 储 蓄 存 款 余 额 ( 亿 元 ) .219社 会 消 费 品 零 售 总 额 ( 万 元 ) .240Extraction Method: Principal Component Analysis.Rotation Method: Varimax with Kaiser NormalizationComponent Scores.2.183.669-.047.163-.395.237.037-.06407132 才 1-.133888-.079-.062才 才 3.079-.052099由 系 数 矩 阵 将 三 个 公 因 子 表 示 为 9 个 指 标 的 线 性 形 式 。 因 子 得 分 函 数 为 :F1 = O. 062x1 - 0.293χ2 -0.015χ3 +0.065χ4+0.413χ5 + O. 029x6 + O. 162χ7+O. 219x8 + O. 240x9F2 = O. 183x1 + O. 669x2 - 0.047χ3+0.163χ4 -0.395χ5 +0.237χ6 +0.037χ7一0.064χ8 - O. 071x9F3 = O. 211x1 - O. 133χ2 +0. 888χ3 - O. 079x4 - O. 062χ5 +0. 113χ6 +0. 079x7一0.052χ8 -0. 099x9SPSS 己 经 计 算 出 三 个 公 因 子 的 得 分 , 保 存 在 fac 1 ~ fac 3 中 , 三 个 公 因 子 分 别 从 不 同 方 面反 映 了 重 庆 市 各 区 市 县 的 经 济 发 展 状 况 的 总 体 水 平 , 但 单 独 使 用 某 一 公 因 子 并 不 能 对 各 区 市 县在 全 市 中 的 地 位 作 出 综 合 评 价 , 因 此 按 各 公 因 子 对 应 的 方 差 贡 献 率 为 权 数 计 算 如 下 综 合 统 计 量 :λ1λ 、λ2F = 且 F , + 牛 F 叫 + F 、λ]+λ2 +λλ]+λ2 +λ λ]+λ2 +λ=0. 730F] +0. 141F 2+0. 129F 3在 SPSS 中 用 程 序 计 算 综 合 因 子 得 分 :Comp score = 0.73 * fac1 _ 1 + O. 141 * fac2 1 + O. 129 * fac3 1.Exec.• 231 •


得 到 综 合 因 子 得 分 score , 并 求 出 各 地 区 的 排 序 , 结 果 参 见 表 1 1. 160表 11.16各 区 市 县 因 子 得 分区 市 县 Fl F2 F3 综 合 得 分 排 名 区 市 县 Fl F2 F3综 合 得 分排 名万 外 | 区 1.525 0.237 1. 078 1.285 2 璧 山 县 - o. 318 o. 047 - o. 446洁 陵 区 0.828 0.602 0.917 0.807 3 梁 平 县 - 0.194 - O. 442 0.032i 俞 中 区 5.382 -1. 401 -1. 551 3.530 城 口 县 -0.734 -0.779 -1. 240大 渡 口 - 0.741 0.900 -1. 413 - 0.596 36 丰 都 县 - 0.290 - 0.646 - 0.095江 北 区 0.694 1.693 -1. 679 0.529 6 垫 江 县 - 0.085 - 0.304 - 0.095沙 坪 坝 0.323 2.393 -0.766 0.475 8 武 隆 县 -0.482 -0.696 -0.524九 龙 坡 -0.294 3.757 -0.312 0.276 11 , 忠 县 - O. 196 - 0.698 0.322南 岸 区 0.182 1.968 -1. 069 0.273 12 开 县 0.076 -0.307 1.279北 暗 区 0.164 0.276 -0.602 0.081 14 云 阳 县 - 0.272 - 0.625 0.513万 盛 区 -0.561 -0.637 -1. 157 -0.649 37 奉 节 县 - 0.357 - 0.591 0.400双 桥 区 -0.773 -0.605 -1. 636 -0.861 40 巫 山 县 -0.498 -0.674 -0.649i 俞 :1 t 区 0.249 0.463 O. 769 0.347 9 巫 溪 县 -0.667 -0.760 -0.795巳 南 区 - 0.274 0.536 1.249 0.037 15 石 柱 县 -0.534 -0.651 -0.587黔 江 区 -0.406 -0.499 -0.431 -0.422 29 秀 山 县 -0.598 -0.714 -0.436长 寿 县 0.215 0.489 0.486 0.288 10 国 阳 县 -0.510 -0.828 -0.294基 江 县 - 0.264 - 0.219 0.745 -0.128 18 彭 水 县 -0.581 -0.750 -0.174撞 南 县 -0.314 -0.511 0.645 -0.218 22 江 津 市 0.310 0.399 3.080铜 梁 县 - O. 106 - 0.289 0.553 -0.047 16 合 川 市 O. 733 0.003 1.666大 足 县 -0.335 -0.231 0.565 -0.204 21 永 川 市 0.382 0.579 1.020荣 昌 县 -0.315 -0.261 0.348 -0.222 24 南 川 市 - 0.363 - 0.222 0.285- 0.283 26-0.200 19-0.806 39-0.315 28-0.118 17-0.518 30-0.200 200.177 13-0.221 23-0.292 27-0.542 32-0.697 38- 0.558 34-0.594 35-0.527 31- 0.553 330.679 5O. 750 40.492 7-0.260 25由 于 本 文 选 用 的 是 总 体 规 模 指 标 , 因 此 表 1 1. 16 所 示 排 名 表 示 的 是 各 地 区 社 会 经 济 发 展 整体 规 模 的 比 较 情 况 。 从 表 中 结 果 可 知 , 综 合 实 力 ( 除 工 农 业 外 ) 因 子 得 分 最 高 的 是 渝 中 区 、 万 外 |区 、 洁 陵 区 、 合 川 市 和 江 北 区 , 工 业 实 力 因 子 得 分 最 高 的 是 九 龙 坡 区 、 沙 坪 坝 区 、 南 岸 区 和 江 北 区 ,农 业 实 力 因 子 得 分 最 高 的 是 江 津 市 、 合 川 市 、 万 州 区 和 永 川 市 。 三 个 因 子 加 权 综 合 后 即 表 示 各 地区 社 会 经 济 发 展 的 整 体 水 平 , 综 合 得 分 最 高 的 是 渝 中 区 , 万 外 | 区 和 洁 陵 区 , 排 名 靠 前 的 主 要 是 主城 各 区 , 排 名 靠 后 的 则 是 以 城 口 、 巫 溪 、 秀 山 、 石 柱 为 代 表 的 库 区 区 县 , 基 本 上 代 表 了 重 庆 市 的 社会 经 济 现 状 。根 据 表 1 1. 16 中 的 结 果 还 可 以 作 进 一 步 的 分 析 , 由 结 果 得 知 , 三 峡 库 区 边 远 区 市 县 表 现 较 为一 致 , 作 为 第 一 类 , 其 主 要 特 征 是 综 合 实 力 因 子 、 工 业 实 力 因 子 和 农 业 实 力 因 子 的 得 分 均 较 低 , 整体 经 济 基 础 薄 弱 , 社 会 生 产 力 水 平 低 下 ; 而 以 荣 昌 、 大 足 、 璧 山 、 基 江 为 代 表 的 成 渝 和 渝 黔 线 区 市县 为 第 二 类 , 其 特 征 是 工 业 实 力 因 子 和 农 业 实 力 因 子 得 分 较 高 , 但 综 合 实 力 因 子 得 分 较 低 ; 其 他以 渝 中 区 、 沙 坪 坝 区 为 代 表 的 主 城 各 区 及 少 数 经 济 发 展 较 好 的 区 市 县 为 第 二 类 , 其 主 要 特 征 是 综合 实 力 因 子 和 工 业 实 力 因 子 均 较 高 。由 各 区 市 县 的 综 合 得 分 比 较 结 果 可 以 很 好 地 解 释 重 庆 市 政 府 制 定 的 整 体 经 济 发 展 战 略 , 将整 个 重 庆 划 分 为 都 市 经 济 发 达 国 、 渝 因 经 济 走 廊 和 三 峡 库 区 生 态 经 济 带 的 发 展 思 路 , 三 个 经 济 区域 针 对 各 自 特 点 确 定 经 济 发 展 方 向 和 重 点 。• 232 •


11 .5 主 成 分 分 析 和 因 子 分 析 的 比 较1. 两 种 方 法 的 异 同主 成 分 分 析 和 因 子 分 析 都 是 用 于 将 多 个 相 关 变 量 简 化 为 少 数 几 个 综 合 指 标 的 多 元 统 计 分 析方 法 , 可 以 在 尽 可 能 保 留 变 量 信 息 的 基 础 上 降 低 变 量 维 数 。 这 两 种 方 法 的 用 途 非 常 类 似 , 但 是 却有 着 很 大 的 不 同 。主 成 分 分 析 法 可 以 看 作 是 对 原 始 数 据 的 协 差 阵 或 相 关 阵 进 行 矩 阵 变 换 而 来 , 不 要 求 数 据 矩阵 有 特 定 的 结 构 形 式 。 而 因 子 分 析 { 固 定 数 据 阵 有 特 定 的 模 型 , 且 满 足 特 定 的 条 件 , 否 则 因 子 分 析就 可 能 是 虚 假 的 。对 于 每 一 个 原 始 数 据 矩 阵 而 言 , 其 主 成 分 系 数 矩 阵 是 唯 一 的 , 各 主 成 分 可 以 直 接 写 为 对 应 的特 征 向 量 与 相 应 原 始 变 量 的 线 性 组 合 , 也 不 一 定 要 求 各 主 成 分 具 有 实 际 含 义 。 因 子 分 析 可 以 看作 是 主 成 分 分 析 法 的 扩 展 , 其 初 始 因 子 载 荷 可 以 通 过 特 征 向 量 和 特 征 根 求 得 , 但 是 由 于 确 定 的 公因 子 数 往 往 小 于 原 始 变 量 数 , 因 此 在 因 子 载 荷 中 包 含 特 殊 因 子 的 影 响 ; 同 时 因 子 载 荷 不 是 唯 一的 , 这 种 不 唯 一 性 看 似 不 利 , 实 际 上 为 因 子 旋 转 提 供 了 方 便 , 便 于 对 因 子 载 荷 进 一 步 简 化 , 使 得 各公 因 子 具 有 明 确 的 实 际 意 义 。当 特 殊 因 子 变 差 贡 献 率 为 零 时 , 主 成 分 分 析 和 因 子 分 析 完 全 等 价 。 因 此 当 因 子 模 型 成 立 , 而且 特 殊 因 子 变 差 贡 献 很 小 时 , 可 以 期 待 二 者 得 到 相 同 的 结 果 , 而 当 特 殊 因 子 贡 献 较 大 时 , 因 子 分析 把 公 因 子 和 特 殊 因 子 严 格 区 分 开 , 而 主 成 分 分 析 则 把 这 些 因 子 不 加 区 别 地 混 在 一 起 作 为 主 成分 保 留 或 舍 弃 , 此 时 二 者 在 结 果 上 存 在 明 显 不 同 。在 应 用 范 围 上 , 二 者 差 别 不 大 , 在 有 些 统 计 学 者 看 来 , 可 以 直 接 把 主 成 分 分 析 法 包 括 到 因 子分 析 法 中 。 本 书 认 为 二 者 还 是 有 一 定 差 别 的 , 如 果 不 需 要 仔 细 研 究 变 量 的 内 部 结 构 , 只 需 要 进 行综 合 评 价 , 使 用 主 成 分 显 然 更 加 简 单 , 同 时 不 需 要 考 虑 数 据 阵 的 结 构 形 式 问 题 。 如 果 要 考 察 变 量间 的 内 部 结 构 , 则 因 子 分 析 法 显 然 更 合 适 , 通 过 因 子 旋 转 可 以 使 得 到 的 公 因 子 更 容 易 解 释 。 当 然具 体 怎 样 使 用 这 还 关 系 到 研 究 者 的 个 人 喜 好 和 习 惯 , 笔 者 就 习 惯 采 用 因 子 分 析 法 进 行 综 合 评 价 ,因 为 通 过 适 用 性 检 验 可 以 检 验 变 量 组 的 设 置 是 否 合 理 。2. 两 种 方 法 的 数 学 关 联设 原 始 数 据 相 关 阵 的 特 征 根 为 λ1 ' 儿 ,…, 人 , 特 征 向 量 为 :(U ll U …12 U 1p ìu= IU 21 U 22… U 2p"Up1 U p2 … U pp )对 于 主 成 分 分 析 而 言 , 特 征 向 量 U 就 是 其 主 成 分 系 数 矩 阵 , 而 对 于 因 子 分 析 而 言 , 其 初 始 因子 载 荷 阵 为 :• 233 •


AUi从ì (U 11IU 21川AU l2 从U 22 Ah 几 lU 2p AIU p2 儿在 SPSS 中 只 能 进 行 因 子 分 析 , 不 能 直 接 进 行 主 成 分 分 析 , 如 果 需 要 在 SPSS 中 进 行 主 成 分 分析 , 需 要 注 意 以 下 事 项 :(1) 在 因 子 分 析 中 的 Extraction 对 话 杠 中 , 指 定 公 因 子 数 目 为 原 始 变 量 数 , 使 得 初 始 因 子 载荷 中 不 包 含 特 征 因 子 。几 ) \U p1 从(2) 通 过 前 面 所 述 的 初 始 因 子 载 荷 阵 和 特 征 向 量 之 间 的 关 系 式 , 计 算 出 主 成 分 系 数 矩 阵 , 即将 各 主 成 分 上 的 载 荷 分 别 除 以 相 应 的 主 成 分 特 征 值 的 平 方 根 。不 过 在 一 般 情 况 下 , 直 接 从 初 始 因 子 载 荷 阵 按 列 的 分 析 写 出 主 成 分 表 达 式 问 题 也 不 大 , 即 不乘 以 特 征 根 的 平 方 根 不 影 响 主 成 分 本 身 的 结 构 和 性 质 。U pp几 j思 考 与 练 习1. 对 于 1 1.1. 1 节 中 的 例 题 , 试 根 据 得 到 的 主 成 分 对 各 地 区 经 济 状 况 进 行 综 合 评 价 分 析 , 得 出 排 序 情 况 。2. 文 件 development. sav 是 某 年 我 国 各 省 发 展 状 况 的 一 些 指 标 , 包 括 人 均 GDP 、 人 力 资 源 指 数 (CAPITA L)、人 均 收 入 CINCOME) 、 人 均 净 收 入 (NETINC)、 教 育 指 数 、 健 康 指 数 , 试 用 主 成 分 法 或 因 子 分 析 法 寻 找 出 这 些 指 标主 要 代 表 了 发 展 状 况 的 哪 些 特 征 , 以 及 各 省 市 的 发 展 程 度 排 序 。3. 对 某 市 15 个 大 中 型 工 业 企 业 经 济 效 益 进 行 分 析 。 经 研 究 , 从 有 关 经 济 效 益 指 标 中 选 择 7 个 指 标 作 分 析 ,即 : 固 定 资 产 产 值 率 、 固 定 资 产 利 税 率 、 资 金 利 润 率 、 资 金 利 税 率 、 流 动 资 金 周 转 天 数 、 销 售 收 入 利 税 率 和 全 员 劳动 生 产 率 , 数 据 文 件 " 某 市 工 业 企 业 效 益 指 标 .sav" , 试 研 究 i 京 市 大 中 型 工 业 企 业 经 济 效 益 的 状 况 及 差 异 。参 考 文 献l 于 秀 林 , 任 雪 松 . 多 元 统 计 分 析 . 北 京 : 中 国 统 计 出 版 社 , 19992 郭 志 刚 主 编 . 21 世 纪 社 会 学 系 列 教 材 社 会 统 计 分 析 方 法 :SPSS 软 件 应 用 . 北 京 : 中 国 人 民 大 学 出 版社 , 19993 陈 峰 . 医 用 多 元 统 计 分 析 方 法 . 北 京 : 中 国 统 计 出 版 社 , 20004 张 文 月 三 主 编 . SPSS 11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 北 京 希 望 电 子 出 版 社 , 20025 卫 海 英 主 编 . SPSS 10.0 在 经 济 管 理 中 的 应 用 . 北 京 : 中 国 统 计 出 版 社 , 20006 江 莹 . 天 津 市 各 区 县 经 济 发 展 水 平 评 价 . 数 理 统 计 与 管 理 .2002( 1): 4-9• 234 •


第 12章 聚 类 分 析12.1 模 型 简 介12. 1. 1 问 题 的 提 出人 以 类 聚 , 物 以 群 分 , 人 们 总 是 试 图 把 万 千 世 界 中 的 事 物 按 照 它 们 的 各 种 属 性 和 特 征 分 成 有限 的 类 别 , 从 而 方 便 地 进 行 进 一 步 的 认 识 和 研 究 。把 事 物 分 成 若 干 类 别 的 方 法 有 很 多 种 , 能 够 想 到 最 简 单 的 方 法 就 是 根 据 经 验 来 划 分 。 例 如图 12. 1 (a) 所 显 示 的 数 据 是 某 次 科 学 研 究 中 调 查 的 18 岁 人 群 的 身 高 和 体 重 散 点 图 , 为 了 能 够 进一 步 研 究 , 人 们 希 望 对 其 进 行 分 类 。 通 常 可 以 想 到 的 最 简 单 的 方 法 就 是 根 据 常 识 可 以 把 人 群 分为 4 类 瘦 高 、 胖 高 、 瘦 小 、 矮 胖 , 标 准 是 :(1) 瘦 高 : 身 高 大 于 人 群 平 均 身 高 , 体 重 小 于 人 群 平 均 体 重 ;(2) 胖 高 : 身 高 大 于 人 群 平 均 身 高 , 体 重 大 于 人 群 平 均 体 重 ;(3) 瘦 小 : 身 高 小 于 人 群 平 均 身 高 , 体 重 小 于 人 群 平 均 体 重 ;(4) 矮 胖 : 身 高 小 于 人 群 平 均 身 高 , 体 重 大 于 人 群 平 均 体 重 。分 类 结 果 如 图 12. 1 (a) 所 示 。 但 是 仔 细 考 虑 , 会 发 现 这 种 分 类 方 法 会 有 一 些 问 题 , 一 是 不 同类 别 在 散 点 图 中 没 有 明 显 的 区 分 ; 二 是 很 少 利 用 了 数 据 本 身 的 信 息 , 在 这 个 例 子 中 仅 仅 利 用 了 平均 数 信 息 ; 二 是 如 果 当 区 分 变 量 多 时 ( 比 如 10个 ) , 就 很 难 再 用 经 验 对 其 进 行 这 种 " 机 械 " 的 分 类了 。考 虑 到 以 上 问 题 , 人 们 发 明 了 根 据 数 据 本 身 结 构 特 征 对 数 据 进 行 分 类 的 方 法 聚 类 分 析 ,通 过 聚 类 分 析 , 可 以 把 数 据 分 成 若 干 个 类 别 , 使 得 类 别 内 部 的 差 异 尽 可 能 的 小 , 类 别 间 的 差 异 尽可 能 的 大 。 图 12. 1 (b) 图 就 是 利 用 聚 类 分 析 得 到 的 身 高 体 重 数 据 的 分 类 结 果 , 它 把 人 群 分 成 了5 类 , 可 以 看 出 不 同 的 类 别 之 间 的 区 别 明 显 了 ( 表 现 在 图 中 就 是 不 同 类 别 问 散 点 有 一 定 距 离 ) , 更多 了 利 用 了 数 据 本 身 的 信 息 , 位 于 图 形 右 上 方 的 异 常 值 也 被 单 独 的 划 成 了 一 类 , 另 外 这 种 分 类 方法 可 以 同 时 处 理 很 多 个 变 量 情 况 下 的 分 类 问 题 。和 在 前 面 章 节 学 习 的 统 计 方 法 不 同 , 聚 类 分 析 是 一 种 探 索 性 的 统 计 分 析 方 法 , 它 没 有 过 多 的统 计 理 论 支 持 , 也 没 有 很 多 的 统 计 检 验 对 聚 类 结 果 的 正 确 性 " 负 责 " 仅 仅 是 按 照 所 定 义 的 距 离将 数 据 进 行 归 类 而 己 , 有 的 统 计 学 家 就 因 此 而 拒 绝 承 认 它 是 一 种 统 计 方 法 。 从 应 用 的 角 度 讲 , 针对 某 一 个 特 定 问 题 , 很 难 得 出 一 个 完 全 确 定 , 也 能 够 得 到 理 论 完 全 支 持 的 结 论 , 更 多 的 时 候 是 依据 聚 类 结 果 在 问 题 中 的 " 有 用 性 " 来 判 断 模 型 效 果 的 好 坏 。• 235 •


图 12.1不 同 的 分 类 方 法 示 意 图12. 1. 2 聚 类 分 析 入 门聚 类 分 析 的 实 质 就 是 按 照 距 离 的 远 近 将 数 据 分 为 若 干 个 类 别 , 以 使 得 类 别 内 数 据 的 " 差 异 "尽 可 能 小 , 类 别 | 可 " 差 异 " 尽 可 能 大 。 因 此 , 在 进 行 聚 类 分 析 是 要 重 点 要 明 确 以 下 一 些 问 题 :1. 所 用 的 变 量 类 型变 量 可 以 被 分 成 两 类 , 一 类 是 分 类 变 量 ( 诸 如 民 族 、 性 别 等 ) , 另 一 类 是 连 续 性 变 量 ( 诸 如 身高 、 销 售 收 入 等 )。 这 两 类 变 量 在 聚 类 时 常 用 的 距 离 测 量 方 式 完 全 不 同 , 如 连 续 性 变 量 一 般 使 用欧 氏 平 方 距 离 , 而 分 类 变 量 则 使 用 矿 作 为 距 离 指 标 。 因 此 , 多 数 传 统 聚 类 方 法 只 能 使 用 单 一 种类 的 变 量 进 行 分 析 , 如 果 数 据 中 同 时 有 这 两 类 变 量 , 则 或 者 只 采 用 连 续 性 变 量 进 行 分 析 , 将 分 类变 量 用 于 结 果 的 描 述 和 验 证 ; 或 者 将 分 类 变 量 按 照 哑 变 量 的 方 式 拆 分 成 多 个 二 分 类 变 量 , 然 后 按照 连 续 性 变 量 的 方 式 进 行 分 析 。 不 过 , 近 年 来 新 发 展 出 的 一 些 智 能 聚 类 方 法 己 经 可 以 很 好 的 同时 分 析 这 两 种 变 量 , 两 步 聚 类 就 是 其 中 的 典 型 代 表 。2. 聚 类 方 法 的 选 择传 统 的 聚 类 方 法 大 致 可 以 分 为 两 大 类 , 一 类 是 层 次 聚 类 法 (HierarchicaD , 另 一 类 是 重 新 定位 聚 类 法 (Relocation) , 也 称 非 层 次 聚 类 法 。 各 种 聚 类 方 法 分 别 有 着 不 同 的 适 用 条 件 , 对 于 不 同数 据 会 有 不 同 的 表 现 , 很 难 有 统 一 的 标 准 说 明 什 么 时 候 应 该 选 用 什 么 样 的 方 法 。 涉 及 每 种 方 法的 细 节 在 本 章 后 面 的 段 落 里 还 会 有 更 加 详 细 的 介 绍 。3. 距 离 的 定 义在 聚 类 分 析 中 最 重 要 的 问 题 就 是 如 何 描 述 " 差 异 " 通 常 的 做 法 是 通 过 距 离 或 者 相 似 性 的 方式 来 描 述 。 统 计 学 家 发 明 了 各 种 各 样 描 述 距 离 和 相 似 性 的 方 法 , 在 SPSS 提 供 的 距 离 和 相 似 性 度量 就 有 多 达 30 余 种 之 多 。 而 在 统 计 学 中 最 常 用 的 是 距 离 表 达 是 欧 几 里 得 距 离 , 对 于 两 条 数 据(X 1 ' 川 , ZI ) 和 ( 町 , 仇 , Z2) , 欧 几 里 得 距 离 的 计 算 公 式 是 :E 即 lid( 1, 2)= !(x 1-X 2)2 + (Y1 -Y2)2 + (ZI -Z2)2• 236 •


但 是 在 聚 类 别 分 析 中 往 往 会 使 用 欧 几 里 得 距 离 的 平 方 来 度 量 距 离 , 大 多 数 的 聚 类 过 程 默 认都 采 用 这 样 的 距 离 度 量 。4. 数 据 的 标 准 化 问 题通 过 上 面 介 绍 的 距 离 度 量 可 以 发 现 一 个 问 题 , 就 是 如 果 不 同 变 量 的 数 量 级 相 差 太 大 , 会 使 得两 个 变 量 的 影 响 明 显 不 平 衡 。 比 如 如 果 叫 和 町 的 数 量 级 是 万 , 而 川 和 们 的 数 量 级 是 十 , 那 么 在计 算 距 离 的 时 候 就 会 发 现 y 变 量 对 距 离 计 算 的 结 果 影 响 相 对 于 χ 就 显 得 微 不 足 道 了 , 这 显 然 不是 我 们 希 望 看 到 的 。 为 了 解 决 这 个 问 题 , 如 果 各 变 量 的 数 量 级 相 差 太 大 , 在 进 行 聚 类 分 析 之 前 ,要 对 数 据 进 行 标 准 化 , 使 得 不 同 数 量 级 的 数 据 之 间 可 以 比 较 。 常 用 的 标 准 化 方 式 有 两 种 , 一 种 是把 数 据 全 部 标 准 化 为 服 从 平 均 数 为 0 , 标 准 差 为 1的 标 准 正 态 分 布 , 另 一 种 是 把 数 据 变 换 为 范 围在 o ~ 1 之 间 的 数 据 。 当 然 还 有 很 多 别 的 数 据 标 准 化 方 法 , 在 这 里 就 不 一 一 赘 述 了 , 感 兴 趣 的 朋友 可 以 参 看 相 关 的 统 计 书 籍 或 者 查 看 SPSS 的 帮 助 内 容 。12. 1. 3 聚 类 分 析 的 方 法 体 系在 实 际 的 聚 类 分 析 中 , 研 究 者 不 可 能 去 考 察 所 有 可 能 的 类 别 组 合 情 况 , 这 在 拥 有 强 大 计 算 能力 的 今 天 也 是 不 大 现 实 的 。 因 此 , 有 必 要 发 展 各 种 各 样 的 聚 类 算 法 , 以 期 能 尽 快 找 到 " 合 理 " 的聚 类 , 而 又 不 必 考 察 所 有 可 能 的 结 构 。 聚 类 方 法 经 过 多 年 的 发 展 , 己 经 逐 渐 形 成 了 自 身 的 方 法 体系 。 以 前 曾 经 按 照 方 法 是 对 观 测 还 是 对 变 量 进 行 分 类 , 将 对 变 量 的 分 类 为 R 型 聚 类 , 对 观 测 的分 类 称 为 Q 型 聚 类 , 但 实 际 上 这 两 种 聚 类 在 数 学 上 是 对 称 的 , 没 有 什 么 不 同 。 如 果 按 照 方 法 原理 来 区 分 , 经 典 的 聚 类 方 法 大 致 可 被 分 为 两 类 : 层 次 聚 类 法 CHierarchical Clustering) 和 非 层 次 聚类 法 CNon -Hierarchical Clustering) 。 除 此 以 外 , 近 年 来 发 展 出 的 一 系 列 智 能 聚 类 方 法 则 可 以 被 归为 一 个 新 的 类 别 。1. 层 次 聚 类 法层 次 聚 类 方 法 首 先 会 确 定 距 离 的 基 本 定 义 , 以 及 类 问 距 离 的 计 算 方 式 , 随 后 按 照 距 离 的 远近 , 通 过 把 距 离 接 近 的 数 据 一 步 一 步 归 为 一 类 , 直 到 数 据 完 全 归 为 一 个 类 别 为 止 , 或 者 是 首 先 认为 所 有 的 数 据 都 是 一 个 类 别 , 然 后 通 过 把 距 离 远 的 数 据 一 步 一 步 分 离 开 来 , 直 到 所 有 的 数 据 各 自成 为 一 类 为 止 这 样 就 得 到 了 一 系 列 ( 从 被 合 并 为 一 大 类 到 这 n个 元 素 各 自 被 分 为 一 类 ) 可 能 的聚 类 结 果 , 最 后 再 利 用 一 些 相 应 的 指 标 来 确 定 聚 为 几 类 的 结 果 是 最 为 合 适 的 。 显 然 , 这 一 系 列 的聚 类 结 果 间 存 在 着 嵌 套 , 或 者 说 层 次 的 关 系 , 因 此 这 一 类 方 法 的 名 称 被 称 为 层 次 聚 类 法 。由 于 这 种 结 果 上 的 层 次 关 系 , 整 个 分 析 过 程 , 特 别 是 每 一 步 中 完 成 的 合 并 或 分 割 都 可 以 用 一张 三 维 空 间 的 图 形 来 表 示 , 这 种 图 被 称 为 " 树 状 图 " 是 层 次 聚 类 法 结 果 解 释 的 重 要 工 具 。SPSS为 层 次 聚 类 法 提 供 了 很 好 的 支 持 , 具 体 的 过 程 为 菜 单 中 的 Analyze→Classify→ HierarchicalCluster 02. 非 层 次 聚 类 法设 计 非 层 次 聚 类 方 法 或 者 说 重 新 定 位 法 的 目 的 是 为 了 将 案 例 快 速 分 成 K 个 类 别 , 一 般 而 言具 体 的 类 别 个 数 需 要 在 分 析 前 就 加 以 确 定 , 整 个 分 析 过 程 使 用 迭 代 的 方 式 进 行 , 首 先 起 步 于 一 个初 始 的 分 类 , 然 后 通 过 不 断 的 迭 代 把 数 据 在 不 同 类 别 之 间 移 动 , 直 到 最 后 达 到 一 定 的 标 准 为 止 ,整 个 计 算 过 程 中 不 需 要 存 储 基 本 数 据 或 者 距 离 矩 阵 , 因 此 不 会 出 现 多 个 互 相 嵌 套 的 聚 类 结 果 , 而计 算 速 度 也 要 快 得 多 。• 237 •


目 前 , 非 层 次 聚 类 法 中 以 K 一 均 值 聚 类 法 (K - means Clustering) 最 为 常 用 , 该 方 法 也 被 称 为快 速 聚 类 法 , SPSSClustero3. 智 能 聚 类 方 法中 提 供 的 也 正 是 这 种 方 法 , 具 体 是 菜 单 中 的 Analyze → Classify → K - Means随 着 近 年 来 数 据 仓 库 和 数 据 挖 掘 技 术 的 逐 渐 成 熟 , 海 量 数 据 的 聚 类 分 析 己 经 成 为 了 一 个 现实 的 问 题 , 但 是 以 上 传 统 方 法 均 远 远 不 能 满 足 需 求 。 首 先 , 数 据 挖 掘 面 对 的 是 海 量 数 据 , 过 高 的计 算 量 会 使 得 方 法 不 具 实 用 价 值 ; 其 次 , 传 统 方 法 中 使 用 的 距 离 指 标 往 往 不 能 满 足 复 杂 的 数 据 联系 需 要 , 特 别 是 连 续 性 、 离 散 性 数 据 混 合 出 现 的 情 形 ; 最 后 , 这 些 方 法 在 类 别 数 确 定 时 或 者 要 求 用户 自 行 指 定 , 或 者 需 要 计 算 出 所 有 可 能 的 解 决 方 案 后 从 中 加 以 判 断 , 这 些 往 往 都 不 符 合 数 据 挖 掘的 实 际 情 况 。为 此 , 希 望 能 找 到 这 样 一 些 聚 类 方 法 , 它 们 计 算 量 较 小 , 能 自 动 判 断 最 适 宜 的 类 别 数 , 同 时 又能 够 发 掘 类 别 间 的 复 杂 联 系 。 借 助 于 人 工 智 能 技 术 的 发 展 , 一 系 列 新 的 智 能 聚 类 方 法 被 发 展 出来 , 其 中 较 常 见 的 是 两 步 聚 类 法 和 神 经 网 络 中 的 自 组 织 图 技 术 。 SPSS 从 1 1. 5 版 起 提 供 了 两 步聚 类 法 , 具 体 位 置 为 菜 单 Analyze→ Classify→ TwoStep Cluster 0 而 对 自 组 织 图 的 支 持 则 放 在 了 数据 挖 掘 专 用 工 具 Clementine 中 , 在 SPSS 中 并 未 提 供 。12.2 层 次 聚 类 法12.2.1 方 法 原 理根 据 运 算 的 方 向 , 层 次 聚 类 法 可 以 被 分 为 合 并 法 和 分 解 法 两 大 类 , 但 这 两 类 方 法 的 运 算 原 理实 际 上 是 完 全 相 同 的 , 仅 仅 是 方 向 相 反 而 己 。 SPSS 中 提 供 的 是 层 次 聚 类 法 中 的 合 并 法 。 它 的 实现 过 程 如 下 :(1) 首 先 将 各 条 数 据 各 自 作 为 一 类 ( 这 时 有 n 类 ) , 按 照 所 定 义 的 距 离 计 算 各 数 据 点 之 间 的距 离 , 形 成 一 个 距 离 阵 ;(2) 将 距 离 最 近 的 两 条 数 据 并 为 一 个 类 别 , 从 而 成 为 了 n 一 1 个 类 别 , 计 算 新 产 生 的 类 别 与其 他 各 个 类 别 之 间 的 距 离 或 者 相 似 度 ( 这 涉 及 如 何 计 算 两 个 类 别 之 间 距 离 或 者 相 似 度 的 问 题 ) ,形 成 了 新 的 距 离 阵 ;(3) 按 照 和 第 二 步 是 相 同 的 原 则 , 再 将 距 离 最 接 近 的 两 个 类 别 合 并 , 这 时 如 果 类 的 个 数 仍 然大 于 1, 则 继 续 重 复 这 一 步 骤 , 直 到 所 有 的 数 据 都 被 合 并 成 为 一 个 类 别 为 止 。层 次 聚 类 法 的 优 点 是 非 常 明 显 的 : 可 以 对 变 量 ( 样 品 ) 或 记 录 进 行 聚 类 , 变 量 可 以 为 连 续 或分 类 变 量 , 提 供 的 距 离 测 量 方 法 和 结 果 表 示 方 法 也 非 常 丰 富 。 但 是 由 于 它 要 反 复 计 算 距 离 , 当 样本 量 太 大 或 变 量 较 多 时 , 采 用 层 次 聚 类 运 算 速 度 明 显 较 慢 。在 层 次 聚 类 法 中 , 当 每 个 类 别 有 多 于 一 个 的 数 据 点 构 成 时 , 就 会 涉 及 如 何 定 义 两 个 类 间 的 距离 的 问 题 。 根 据 计 算 两 个 类 别 之 间 距 离 的 不 同 , 会 得 到 不 同 的 结 果 , 也 就 进 一 步 构 成 了 不 同 的 层次 聚 类 方 法 。 常 用 的 方 法 有 如 下 几 种 , 如 图 12.2 所 示 。(1) 最 短 距 离 法 (Nearest Neighbor) : 用 两 个 类 别 中 各 个 数 据 点 之 间 最 短 的 那 个 距 离 来 表 示两 个 类 别 之 间 的 距 离 。• 238 •


(2) 最 长 距 离 法 (Furthest Neighbor) : 用 两 个 类 别 中 各 个 数 据 点 之 间 最 长 的 那 个 距 离 来 表 示两 个 类 别 之 间 的 距 离 。(3) 重 心 法 (Centroid Clustering) : 用 两 个 类 别 的 重 心 之 间 的 距 离 来 表 示 两 个 类 别 之 间 的 距 离 。(4) 组 间 平 均 距 离 法 (Between - Groups Linkage) : 又 被 称 为 类 平 均 法 , 是 用 两 个 类 别 间 各 个数 据 点 两 两 之 间 的 距 离 的 平 均 未 表 示 两 个 类 别 之 间 的 距 离 , 这 是 SPSS 默 认 的 方 法 。(5) 离 差 平 方 和 法 (Ward' s Method) : 这 一 方 法 的 思 想 直 接 来 自 方 差 分 析 , 是 使 得 各 类 别 中的 离 差 平 方 和 较 小 , 而 不 同 类 别 之 间 的 离 差 平 方 和 较 大 。 使 用 该 方 法 , 将 倾 向 于 使 得 各 个 类 别 间的 样 本 量 尽 可 能 相 近 。除 以 上 几 种 方 法 外 , SPSS 在 12版 中 还 提 供 了 中 位 数 距 离 等 方 法 , 但 大 量 实 践 证 明 , 默 认 的组 间 平 均 距 离 法 是 一 种 非 常 优 秀 和 稳 健 的 方 法 , 在 多 数 情 况 下 表 现 最 为 优 异 , 因 此 一 般 使 用 该 默认 值 即 可 。图 12.2层 次 聚 类 法 类 别 问 距 离 的 计 算 方 法 示 意 图12.2.2 分 析 实 例例 12. 1 为 了 反 映 中 国 各 地 区 的 生 活 水 平 差 异 性 , 我 们 收 集 整 理 了 2002 年 中 国 部 分 省 市的 国 民 经 济 数 据 , 具 体 包 括 : 人 均 国 内 生 产 总 值 (GDP) 、 年 平 均 人 口 (Population) 、 城 镇 居 民 家 庭平 均 每 人 全 年 消 费 性 支 出 (City _ Consume) 、 农 村 居 民 家 庭 平 均 每 人 生 活 消 费 支 出 (Rural Consume)和 各 地 区 居 民 消 费 价 格 指 数 (Pindex) , 数 据 具 体 情 况 详 见 " 国 民 经 济 数 据 -sav" 。 现 希 望 通过 聚 类 分 析 的 方 法 把 相 似 的 省 份 找 出 来 , 即 把 这 些 省 份 归 为 若 干 的 类 别 , 从 而 更 好 地 了 解 中 国 各省 市 地 区 生 活 水 平 的 差 异 。1. 数 据 的 初 步 分 析首 先 对 数 据 进 行 初 步 的 考 察 , 对 各 个 指 标 做 简 单 描 述 性 统 计 分 析 。表 12. 1Descriptive Statistics人 均 GDPN31Minimum Maximum Mean2895.29 37382.00 9377. 1057Std. Deviation7165.64615人 口 数31262.50 9405.50 4080.82262643.68482城 镇 家 庭 人 均 全 年 消 费 | 主 支 出313894.51 9336.10 5367.76811445.44846农 村 家 庭 人 均 生 活 消 费 支 出311098.39 4753.23 1828.8500819.93364各 地 区 居 民 消 费 价 格 指 数3198.50 104.00 100.80321.39415Valid N (Iistwise)31• 239 •


从 表 12. 1 中 可 以 看 出 5 个 指 标 的 数 量 级 各 不 相 同 , 平 均 数 从 最 小 的 100. 80 到 最 大 的9 377. 1 1, 而 标 准 差 也 从 1. 39~7165.65 , 显 示 了 数 据 量 纲 之 间 很 强 的 差 异 性 。 这 说 明 为 了 消 除不 同 变 量 大 小 不 同 对 聚 类 结 果 的 影 响 , 有 必 要 在 聚 类 分 析 之 前 需 要 对 数 据 进 行 标 准 化 处 理 。 这可 以 先 在 Descriptive 过 程 中 进 行 , 也 可 以 在 聚 类 分 析 中 直 接 完 成 。为 了 更 加 直 观 清 楚 地 了 解 数 据 的 分 布 特 征 , 还 可 以 对 各 省 市 的 5 个 变 量 分 布 情 况 绘 制 条 图 。此 处 将 图 形 略 去 。 如 果 绘 制 出 此 图 形 , 可 从 图 中 可 以 看 出 人 均 GDP 、 人 口 数 、 城 镇 居 民 家 庭 平 均每 人 全 年 消 费 性 支 出 、 农 村 居 民 家 庭 平 均 每 人 生 活 消 费 支 出 等 4个 指 标 在 这 些 省 市 中 有 着 比 较大 的 差 异 。 但 是 由 于 各 地 区 居 民 消 费 价 格 指 数 取 值 相 对 比 较 集 中 (98. 50 ~ 104.00) , 31 个 省 市的 取 值 差 异 很 小 , 在 条 形 图 中 甚 至 很 难 看 出 差 别 。 进 一 步 考 虑 该 变 量 的 经 济 含 义 , 可 知 这 一 指 标在 各 省 市 应 当 是 有 比 较 大 差 异 的 , 只 是 由 于 取 值 的 方 法 使 得 这 种 差 异 很 难 体 现 出 来 , 为 此 生 成 一个 新 的 变 量 :Pindex Revise = 各 地 区 居 民 消 费 价 格 指 数 一 100这 一 指 标 反 映 了 消 费 价 格 当 年 净 增 长 的 百 分 点 。 从 而 使 得 消 费 价 格 指 数 在 各 省 市 的 分 布 有着 明 显 的 差 异 。从 以 上 描 述 性 统 计 可 以 得 出 这 些 省 市 的 一 个 一 般 性 认 识这 些 省 市 的 生 活 水 平 并 不 平均 , 从 5个 指 标 来 看 , 都 有 着 比 较 显 著 的 差 异 。 但 是 因 为 问 题 复 杂 , 变 量 众 多 , 仅 仅 通 过 一 般 的 描述 性 统 计 的 方 法 , 很 难 把 这 些 省 市 按 照 这 5个 变 量 取 值 的 差 异 分 成 若 干 个 类 别 , 这 正 是 聚 类 分 析要 解 决 的 问 题 。2. 操 作 说 明在 SPSS 中 , 实 现 层 次 聚 类 法 的 过 程 步 骤 如 下 :iAnalyze• Classify• Hierarchical Cluster:Variable ω 杠 :GDP 、 Pindex Revise 等 5 个 变 量iLabel Cases by杠 : 省 份IPlotsl: 常 Dend 时 ram I Icicle: None: IContinuel匾 画 :Cluster Method 下 拉 列 表 : Wards MethodTransform V alues: Standardize: 下 拉 列 表 : Z score哑Cluster Membership: 必 然 Range of solutions: 3 ~ 8曰在 层 次 聚 类 法 的 操 作 过 程 中 , 只 需 按 照 菜 单 、 对 话 杠 中 提 供 的 项 目 进 行 选 择 就 可 以 完 成 了 ,如 图 12.3 所 示 。 但 上 面 的 操 作 中 涉 及 的 内 容 较 多 , 这 里 解 释 如 下 :(1) 在 Plot 中 , 谱 系 图 (Dendrogram) 并 不 是 过 程 的 默 认 选 项 , 但 是 它 往 往 是 观 察 理 解 聚 类 结• 240 •


果 的 重 要 图 形 , 一 般 要 选 择 它 , 冰 柱 图 CIcicle) 也 是 查 看 聚 类 结 果 的 一 类 图 形 , 但 是 它 无 论 从 应 用范 围 还 是 易 于 理 解 性 方 面 , 都 要 比 谱 系 图 差 一 些 , 所 以 这 里 没 有 选 择 显 示 。(2) 在 Method 中 , 可 以 从 下 拉 菜 单 Cluster Method 中 , 选 择 不 同 的 层 次 聚 类 方 法 , 在 本 例 中 ,选 择 了 Ward' s method , 这 实 际 上 是 经 多 次 尝 试 后 确 定 下 来 的 , 这 里 直 接 给 出 的 最 终 选 择 。(3) 根 据 所 用 变 量 是 连 续 性 、 频 数 变 量 还 是 两 分 类 变 量 , SPSS 提 供 了 不 同 的 距 离 测 量 方 法供 用 户 选 择 。 一 般 而 言 对 每 一 类 变 量 类 型 使 用 其 默 认 方 法 即 可 。 这 里 使 用 默 认 的 平 方 欧 几 里 得距 离 的 方 法 。(4) 在 Method 中 , 默 认 的 选 择 是 不 对 数 据 进 行 标 准 化 , 但 是 当 进 入 聚 类 的 变 量 之 间 数 量 级相 差 比 较 大 的 时 候 , 往 往 要 根 据 数 据 的 实 际 情 况 选 择 相 应 的 标 准 化 方 法 , 在 这 个 例 子 中 把 全 部 数据 标 准 化 为 Z 评 分 ; 右 侧 的 TransformMeasures 杠 组 还 可 以 设 置 进 一 步 的 变 换 方 法 , 可 以 为 先 取绝 对 值 再 变 换 、 变 换 后 更 改 正 负 号 、 或 者 先 将 取 值 范 围 变 换 为 o ~ 1 再 进 行 变 换 。 一 般 来 说 不 需要 使 用 这 些 选 项 。(5) 在 Save 中 , 填 写 希 望 保 存 的 聚 类 类 别 数 范 围 为 3 ~ 8 , 据 此 选 项 , SPSS 将 在 数 据 编 辑 窗口 中 添 加 7 个 变 量 , 分 别 标 明 聚 类 数 为 3 ~ 8 类 情 况 下 各 省 市 所 属 的 类 。图 12.3 Hierarchical Cluster Analysis 过 程 的 对 话 框3. 结 果 解 释根 据 以 上 设 置 , SPSS 给 出 的 聚 类 结 果 如 下 :首 先 在 标 题 中 就 会 给 出 具 体 所 用 的 距 离 运 义 方 法 , 本 例 中 的 标 题 为 "Ward LinkagJ , 随 后 会输 出 聚 类 过 程 表 , 它 说 明 层 次 聚 类 过 程 中 的 每 一 个 步 骤 是 如 何 进 行 的 , 一 般 来 讲 , 步 骤 数 为 参 加聚 类 的 数 据 条 数 减 1 ( 在 这 里 是 30 步 )。 但 为 了 便 于 显 示 , 这 里 只 给 出 头 、 尾 几 步 的 情 况 。表 12.2 的 第 1 列 列 出 了 聚 类 过 程 的 步 骤 号 , 第 2 列 和 第 3 列 出 了 在 某 一 步 骤 中 哪 些 省 市 参与 了 合 并 , 例 如 从 结 果 中 可 以 看 出 , 在 第 1 步 中 , 第 3 条 记 录 ( 河 北 ) 和 第 17 条 记 录 ( 湖 北 ) 首 先被 合 并 在 一 起 。 第 4 列 列 出 了 每 一 聚 类 步 骤 的 聚 类 系 数 , 这 一 数 值 表 示 被 合 并 的 两 个 类 别 之 间的 距 离 大 小 。 第 5 列 和 第 6 列 表 示 参 与 合 并 的 省 市 ( 类 别 ) 是 在 第 几 步 中 第 一 次 出 现 的 , 0 代 表该 记 录 是 第 一 次 出 现 在 聚 类 过 程 中 , 例 如 , 从 聚 类 过 程 第 2步 中 可 以 看 出 , 该 步 骤 中 参 与 合 并 的省 市 是 第 3 条 记 录 ( 河 北 ) 所 在 类 别 和 第 12 条 记 录 ( 安 徽 ) 所 在 类 别 , 而 第 3 条 记 录 所 在 类 别 第• 241 •


一 次 出 现 是 在 第 1 步 , 它 首 先 和 第 17 条 记 录 进 行 了 合 并 ; 而 第 20 条 记 录 ( 广 西 ) 所 在 类 别 第 一 次出 现 是 在 聚 类 过 程 中 的 第 12 步 , 它 首 先 和 第 22 条 记 录 ( 重 庆 ) 进 行 了 合 并 。 第 7 列 表 示 在 这 一步 骤 中 合 并 的 类 别 , 下 一 次 将 在 第 几 步 中 与 其 他 类 再 进 行 合 并 , 例 如 在 聚 类 过 程 第 2 步 中 , 看 到这 一 步 中 合 并 产 生 的 类 别 将 在 第 15 步 和 其 他 类 别 再 进 行 合 并 。 这 里 读 者 朋 友 要 注 意 , 在 聚 类 过程 的 描 述 中 , 往 往 一 个 记 录 号 己 经 不 单 单 代 表 的 是 一 个 记 录 , 而 是 一 个 类 别 , 例 如 在 上 面 所 讲 的第 2 步 中 , 记 录 号 3 代 表 的 是 河 北 、 湖 北 两 条 记 录 组 成 的 类 别 , 而 不 仅 仅 是 第 3 条 记 录 ( 河 北 ) 一个Cluster Combined表 12.2Agglomeration ScheduleStage Cluster First AppearsStage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage3 17 111 。 O 22 3 12 246 。 153 5 7 407 。 O 424 2 28.412 。 O 2625 4 5 32.928 21 19 2726 9 41.666 24 O 2827 4 28 54.441 25 20 2928 11 68.972 26 22 3029 3 4 87.757 23 27 3030 3 才 50.000 28 29 O聚 类 过 程 表 中 大 部 分 内 容 并 不 是 通 常 要 关 注 的 对 象 , 因 为 在 大 部 分 实 际 应 用 中 , 并 不 关 心 聚类 的 具 体 过 程 。 但 是 当 需 要 判 断 数 据 应 该 分 成 多 少 类 别 时 , 聚 类 系 数 那 一 列 却 有 着 很 好 的 参 考价 值 。 事 实 上 , 可 以 根 据 该 系 数 的 变 化 来 判 断 数 据 应 该 被 分 成 多 少 类 , 当 两 个 相 邻 步 骤 系 数 变 化远 大 于 前 面 相 邻 步 骤 变 化 时 , 便 可 以 大 致 确 定 从 统 计 意 义 上 讲 , 应 该 将 聚 类 过 程 进 行 到 那 里 的 类别 数 是 较 为 合 适 的 。 在 这 个 例 子 中 , 在 第 25 步 中 , 聚 类 系 数 是 32.928 , 仅 比 第 24 步 中 的 28.412大 4.516 , 而 在 第 26 步 中 , 聚 类 系 数 为 4 1. 666 , 比 第 25 步 中 聚 类 系 数 大 了 8.738 , 系 数 差 E 巨 大 了很 多 , 从 而 可 以 从 统 计 意 义 上 大 致 认 为 聚 类 过 程 结 束 于 第 26 步 是 合 理 的 , 此 时 所 有 数 据 被 分 为6 类 。 同 样 , 我 们 还 可 以 发 现 , 在 第 27 、 29 、 30 步 时 , 聚 类 系 数 同 前 一 步 骤 相 比 同 样 大 了 很 多 , 这说 明 , 数 据 被 分 成 5 类 、 3 类 或 者 2 类 同 样 也 是 合 理 的 。 当 然 , 这 种 方 法 只 是 起 到 一 个 参 考 作 用 ,真 正 数 据 应 该 分 成 多 少 类 , 还 是 需 要 分 析 者 根 据 自 己 实 际 问 题 综 合 进 行 判 断 。聚 类 分 析 产 生 的 最 重 要 的 结 果 就 是 所 谓 的 谱 系 图 CDendrogram), 有 些 统 计 书 籍 中 也 把 它 叫做 树 状 图 。 如 图 12.4 所 示 。 通 过 谱 系 图 可 以 非 常 直 观 地 看 出 整 个 聚 类 过 程 和 结 果 。在 谱 系 图 中 , 聚 类 的 全 过 程 以 直 观 的 方 式 表 现 出 来 , 它 把 类 间 的 最 大 距 离 算 做 相 对 距 离 为25 , 其 余 的 距 离 均 换 算 成 与 之 相 比 的 相 对 距 离 大 小 。 图 形 的 左 边 代 表 进 行 聚 类 的 对 象 或 者 事 物 ,而 对 象 或 者 类 别 的 合 并 则 通 过 线 条 连 接 的 方 式 来 表 示 , 在 这 个 例 子 中 , 对 应 的 是 这 些 省 市 列 在 结果 的 最 左 端 , 而 在 结 果 的 上 部 列 出 的 是 类 别 间 的 相 对 距 离 。 通 过 观 察 这 个 结 果 , 可 以 把 这 些 省 市• 242 •


分 成 若 干 个 类 别 。 下 面 列 举 两 种 比 较 典 型 的 聚 类 方 案 。LabelCASENumo 5 10 15 20 25+- 一 一 一 一 -- 一 + 一 一 一 一 一 一 一 -← 一 - 一 -- 一 一 →-- 一 一 - 一 一 一 +- 一 一 一 一 一 一 一 +; 可 北湖 北安 徽湖 南江 苏山 东四 川河 南青 海宁 夏甘 肃新 疆广 西陕 西贵 州重 庆内 蒙 古吉 林黑 龙 江辽 宁山 西江 西云 南海 南西 藏晰 江广 东福 建咽EI句、d勺J1218101523162930句 GAU--hHU牛句J吁中2724225786414252126II1913北 京天 津2土 悔 9图 12.4层 次 聚 类 语 系 图(1) 方 案 一 : 分 成 6 类 或 者 5 类 。第 1 类 : 包 含 上 海 1 省 市 ;第 2 类 : 包 含 北 京 、 天 津 2 省 市 ;第 3 类 : 包 含 河 北 、 湖 北 、 安 徽 、 湖 南 、 江 苏 、 山 东 、 四 川 |、 河 南 等 8 省 市 ;第 4类 : 包 含 广 西 、 陕 西 、 贵 州 、 重 庆 、 内 蒙 古 、 吉 林 、 黑 龙 江 、 辽 宁 、 山 西 、 江 西 、 云 南 、 海 南 、 西• 243 •


藏 等 13 省 市 ;第 5 类 : 包 含 浙 江 、 广 东 、 福 建 等 3 省 市 ;第 6 类 : 包 含 。 青 海 、 宁 夏 、 甘 肃 、 新 疆 等 4 省 市 。其 中 第 1 类 和 第 2 类 可 以 合 并 为 一 类 , 这 时 总 类 别 数 就 是 5 类 。 事 实 上 , 由 于 在 分 成 6 类时 , 第 1 个 类 别 只 有 上 海 一 个 省 市 , 所 以 在 这 种 聚 类 方 案 中 , 更 倾 向 于 将 31 个 省 市 分 成 5 类 。(2) 方 案 二 : 分 成 3 类 或 者 2 类 。第 1 类 : 包 含 上 海 、 天 津 、 北 京 、 浙 江 、 广 东 、 福 建 等 6 省 市 ;第 2 类 : 包 含 河 北 、 湖 北 、 安 徽 、 湖 南 、 江 苏 、 山 东 、 四 川 |、 河 南 等 8 省 市 ;第 3类 : 包 含 青 海 、 宁 夏 、 甘 肃 、 新 疆 、 广 西 、 陕 西 、 贵 州 、 重 庆 、 内 蒙 古 、 吉 林 、 黑 龙 江 、 辽 宁 、 山西 、 江 西 、 云 南 、 海 南 、 西 藏 等 17 省 市 。其 中 第 二 类 和 第 二 类 可 以 合 并 为 一 类 , 这 时 总 类 别 数 就 是 二 类 。 但 是 , 由 于 分 成 两 类 区 分 性不 强 , 所 以 在 这 种 聚 类 方 案 中 , 常 更 倾 向 于 将 这 些 省 市 分 成 三 类 。4. 聚 类 结 果 的 验 证 和 进 一 步 分 析以 上 介 绍 的 是 SPSS中 聚 类 分 析 产 生 的 结 果 , 但 是 仔 细 考 虑 , 会 发 现 通 过 这 样 的 分 析 , 还 是 难以 断 定 到 底 把 川 省 市 分 成 多 少 类 别 是 合 理 的 。 为 了 确 定 分 成 多 少 个 类 别 合 适 , 并 且 为 各 个 类 别命 名 , 还 需 要 对 聚 类 结 果 进 行 进 一 步 的 分 析 。在 进 行 聚 类 的 过 程 中 , 总 是 理 想 化 的 希 望 每 个 类 别 包 含 的 对 象 是 差 不 多 相 等 的 , 但 是 从 以 上的 分 析 可 以 看 出 , 这 几 乎 是 不 可 能 的 , 于 是 找 出 尽 可 能 " 等 分 " 的 分 类 就 是 通 常 确 定 类 别 数 目 的原 则 之 一 。当 把 31 个 省 市 分 为 3 ~ 8 类 时 各 类 的 省 市 个 数 如 表 12.3 所 示 。表 12.3各 类 的 省 市 个 数2 3 4 5 6 7 8Ward Method (8) 8 5 B 3 4Ward Method (7) 2 8 5 8 3 4Ward Method (6) 2 8 13 3 4Ward Method (5) 3 8 13 3 4Ward Method (4) 3 8 17 3Ward Method (3) 6 8 17从 表 12.3 中 可 以 直 观 的 看 出 , 把 31 个 省 市 分 为 5 类 是 相 对 合 适 的 。 这 个 时 候 最 大 的 类 别中 含 有 13 个 省 市 , 占 全 部 省 市 的 4 1. 9% , 而 最 小 的 类 别 中 含 有 3 个 省 市 , 占 全 部 省 市 的 9.7% 。而 其 他 分 类 方 法 或 者 含 有 的 类 别 过 少 ( 例 如 分 为 3 类 或 者 2 类 时 ) , 或 者 某 一 类 别 中 含 有 的 省 份过 少 ( 例 如 分 为 6 类 或 者 7 类 时 )。在 确 定 的 分 成 多 少 个 类 别 以 及 每 个 类 别 中 含 有 多 少 个 省 市 以 后 , 接 下 来 最 关 心 的 就 是 各 个类 别 是 否 有 显 著 差 异 , 以 及 各 个 类 别 具 有 怎 样 的 特 征 , 这 可 以 通 过 表 格 和 图 形 两 种 方 式 对 之 进 行观 察 。首 先 , 可 以 应 用 SPSS 中 的 Means 过 程 计 算 各 个 类 别 的 描 述 统 计 量 和 各 个 类 别 中 5 个 变 量 是• 244 •


否 有 显 著 差 异 的 方 差 分 析 表 , 结 果 参 见 表 12.4 和 表 12.50表 12.4ReportMea 门Ward 城 镇 居 民 家 庭 平 均 每 农 村 居 国 家 庭 平 均 各 地 区 居 民 消 费Melhod (5) 人 均 GDP 人 口 数 人 全 年 消 费 性 支 出 每 人 生 活 悄 费 支 出 价 格 指 数 -10027686.4786 1343.0000 8415.3467 34520620 1.43332 775 才 2991 7468.0625 4927.4875 1704.3075 72503 6286.3535 3143.6154 4694.0031 1447.7899 36924 13582.3095 5437.6667 7355.7 才 00 2895.1985 -.73335 5787.7307 1388.0000 4661 .4250 1299.2102 3.0500Tolal 9377.1057 4080.8226 5367.7681 1828.8500 8032表 12.5ANOVABelween GroupsSum of Squares df Mean Square F Sig人 均 GDP 1255616794.26 才 4 313904198.565 28.659 000人 口 数 才 60221068.312 4 40055267.078 2 才 060 000城 镇 居 民 家 庭 平 均 每 人 全 年 消 费 性 支 出 49166873.689 4 才 22917 才 8 .4 22 23.651 000农 忖 居 民 家 庭 平 均 每 人 生 活 消 费 支 出 14449596.776 4 3612399.194 才 6 .4 22 000各 地 区 居 民 消 费 价 格 指 数 -100 30.964 4 7.741 7.360 .000从 表 12.4 和 表 12.5 中 可 以 看 出 , 各 个 类 别 之 间 在 人 均 国 内 生 产 总 值 、 年 平 均 人 口 、 城 镇 居民 家 庭 平 均 每 人 全 年 消 费 性 支 出 、 农 村 居 民 家 庭 平 均 每 人 生 活 消 费 支 出 和 各 地 区 居 民 消 费 价 格指 数 等 5 个 变 量 上 都 是 有 显 著 差 异 的 , 且 这 种 差 异 均 具 有 统 计 意 义 。除 了 通 过 表 格 的 方 式 , 我 们 同 样 可 以 通 过 图 形 的 方 式 对 各 个 类 别 在 各 个 变 量 上 的 取 值 情 况进 行 描 述 。 这 可 以 通 过 绘 制 多 重 线 图 , 或 者 分 组 条 图 来 实 现 这 一 目 的 。 当 然 , 在 本 例 中 为 了 保 证各 个 变 量 之 间 具 有 可 比 性 , 可 以 首 先 对 5 个 变 量 进 行 标 准 化 处 理 , 具 体 的 操 作 读 者 可 自 行 完 成 。5. 最 终 的 类 别 特 征 描 述综 合 以 上 的 分 析 , 将 31 个 省 市 按 照 生 活 水 平 的 差 异 情 况 可 以 分 成 5 类 , 并 且 可 以 总 结 出 各个 类 别 的 特 征 如 下 :第 1类 : 高 生 活 水 平 省 市 。 人 均 GDP 、 城 镇 居 民 和 农 村 居 民 家 庭 平 均 每 人 全 年 消 费 支 出 远 高于 其 他 类 别 。 这 一 类 别 中 包 含 上 海 、 北 京 、 天 津 等 3 直 辖 市 。第 2 类 : 人 口 众 多 , 生 活 水 平 一 般 省 市 。 此 类 别 中 最 重 要 的 特 征 是 人 口 众 多 , 平 均 人 口 数 远高 于 其 他 类 别 。 包 含 河 北 、 湖 北 、 安 徽 、 湖 南 、 江 苏 、 山 东 、 四 川 |、 河 南 等 8 省 市 。第 3 类 : 生 活 水 平 一 般 , 人 口 数 较 少 省 市 。 此 类 别 和 第 2 类 差 异 主 要 在 于 人 口 数 少 于 第 2类 。 这 一 类 别 中 包 含 广 西 、 陕 西 、 贵 州 、 重 庆 、 内 蒙 古 、 吉 林 、 黑 龙 江 、 辽 宁 、 山 西 、 江 西 、 云 南 、 海 南 、西 藏 等 13 省 市 。• 245 •


第 4 类 : 消 费 水 平 相 对 人 均 GDP 较 高 , 平 均 物 价 水 平 降 低 的 省 市 。 从 描 述 表 格 中 可 以 看 出 ,其 他 4 个 类 别 标 准 化 以 后 的 人 均 GDP 、 城 镇 居 民 和 农 村 居 民 家 庭 平 均 每 人 全 年 消 费 支 出 都 非 常接 近 , 而 这 个 类 别 城 镇 居 民 和 农 村 居 民 家 庭 平 均 每 人 全 年 消 费 支 出 却 高 出 很 多 。 另 外 , 它 也 是 所有 类 别 中 唯 一 一 个 类 别 内 所 有 省 市 消 费 价 格 指 数 都 小 于 100 的 类 别 。 这 一 类 别 中 包 含 浙 江 、 广东 、 福 建 等 3 省 市 。第 5 类 : 人 口 稀 少 , 生 活 水 平 低 , 平 均 物 价 水 平 提 高 的 省 市 。 这 个 类 别 中 , 人 口 数 量 少 。 平 均人 均 GDP 、 平 均 城 镇 居 民 和 农 村 居 民 家 庭 平 均 每 人 全 年 消 费 支 出 也 是 各 个 类 别 中 最 低 的 。 这 一类 别 中 包 含 青 海 、 宁 夏 、 甘 肃 、 新 疆 等 4 省 市 。12.2.3 对 层 次 聚 类 法 的 进 一 步 讨 论层 次 聚 类 法 是 一 种 应 用 非 常 普 遍 的 聚 类 方 法 , 除 了 以 上 的 应 用 , 还 有 其 他 一 些 应 用 , 这 里 对需 要 注 意 的 一 些 问 题 加 以 讨 论 。1. 以 不 同 的 标 准 进 行 聚 类图 12.5聚 类 的 不 同 模 式 示 意 图从 上 面 的 分 析 实 例 中 我 们 可 以 看 出 , 这 里 得 到 的 各 个 类 别 的 差 异 性 表 现 在 5 个 变 量 在 类 别内 取 值 差 异 小 , 而 在 类 别 问 取 值 差 异 大 。 事 实 上 , 这 只 是 聚 类 分 析 的 一 种 角 度 , 聚 类 分 析 还 有 一个 角 度 , 就 是 按 照 变 量 取 值 的 模 式 来 进 行 聚 类 , 即 按 照 我 们 的 分 析 对 象 在 各 个 变 量 上 的 取 值 来 找出 类 别 , 那 些 所 有 变 量 取 值 都 大 的 归 为 一 类 、 那 些 所 有 变 量 取 值 都 小 的 归 为 一 类 等 。 以 图 12.5所 示 的 情 形 为 例 , 假 设 聚 类 对 象 有 4 个 事 物 , 这 里 用 4 条 线 一 -A 、 B 、 C 、 D 来 表 示 。 横 轴 代 表 不同 的 变 量 , 共 计 有 5 个 变 量 , 纵 轴 代 表 变 量 取 值 。 如 果 这 时 想 要 把 它 分 成 两 个 类 别 , 可 以 有 两 种标 准 来 划 分 : 按 照 线 条 间 的 距 离 , 我 们 会 把 A 、 B 归 入 一 类 , 而 把 C 、 D 归 入 另 一 类 , 这 正 是 在 上 面的 分 析 实 例 中 的 思 路 ; 而 如 果 按 照 线 条 形 状 相 似 性 来 说 , 则 会 把 A 、 C归 入 一 类 ; 而 把 B 、 D 归 入 另一 类 , 这 就 是 聚 类 分 析 的 另 外 一 种 思 路 。在 SPSS 中 实 现 这 一 思 路 是 通 过 对 变 量 进 行 不 同 标 准 化 的 方 式 来 进 行 的 , 在 SPSS 中 默 认 的• 246 •


变 量 标 准 化 是 以 变 量 的 平 均 值 和 标 准 差 等 统 计 量 作 为 参 照 来 进 行 的 。 而 如 果 选 择 了 以 记 录 的 平均 数 和 标 准 差 等 统 计 量 作 为 参 照 来 进 行 并 进 行 聚 类 , 就 会 得 到 按 照 数 据 的 取 值 模 式 而 得 到 的 聚类 结 果 。 具 体 在 操 作 上 , 除 对 数 据 进 行 行 列 转 置 外 , 还 可 以 通 过 将 变 量 标 准 化 的 方 法 改 为 按 照 记录 来 进 行 ( 即 在 Transform Values 下 拉 列 表 中 选 择 标 化 方 法 后 , 在 下 方 的 单 选 杠 组 中 选 择 ByCase , 而 不 是 默 认 的 By Variable) , 读 者 朋 友 可 使 用 该 方 法 自 行 对 例 12. 1 进 行 分 析 , 并 比 较 两 种方 法 所 得 结 果 的 异 同 之 处 。2. 对 变 量 的 聚 类以 上 进 行 的 聚 类 过 程 都 是 针 对 记 录 来 进 行 的 聚 类 , 但 是 有 些 时 候 , 针 对 特 定 的 目 的 , 有 可 能也 需 要 对 变 量 进 行 聚 类 , 把 众 多 的 变 量 按 照 相 似 性 进 行 有 效 的 区 分 。 当 然 , 在 学 习 了 上 一 章 的 内容 以 后 , 大 家 应 当 己 经 明 白 , 对 变 量 进 行 相 似 性 区 分 的 方 法 以 因 子 分 析 和 主 成 分 分 析 更 为 合 适 ,而 聚 类 分 析 实 在 是 过 于 粗 糙 了 。 但 是 为 了 使 得 整 个 方 法 体 系 更 为 完 整 , 这 里 还 是 对 变 量 聚 类 的问 题 稍 加 讨 论 一 下 。在 变 量 聚 类 时 , 大 部 分 要 考 虑 的 问 题 是 和 记 录 聚 类 是 完 全 相 同 的 。 只 不 过 可 能 会 涉 及 变 量标 准 化 和 数 据 排 列 方 向 的 问 题 , SPSS 中 可 以 直 接 进 行 变 量 聚 类 , 而 无 须 进 行 数 据 的 转 置 。 在 主对 话 右 侧 有 一 个 Cluster 单 选 杠 组 , 只 要 将 其 切 换 为 Variables , 系 统 就 会 进 行 变 量 聚 类 。变 量 聚 类 中 需 要 专 门 注 意 的 问 题 有 两 点 , 首 先 , 变 量 问 距 离 的 定 义 习 惯 上 使 用 Pearson 相 关系 数 。 在 许 多 情 况 下 使 用 相 关 系 数 可 以 得 到 更 为 合 理 的 结 果 ; 其 次 , 如 果 要 进 行 变 量 的 标 化 , 则默 认 应 当 按 照 By Case 方 向 , 而 不 是 By Variable 方 向 , 当 然 , 如 果 使 用 相 关 系 数 作 为 距 离 测 量 , 则无 须 考 虑 标 化 问 题 。如 果 希 望 在 变 量 聚 类 时 有 尽 量 大 的 自 由 度 , 则 可 以 考 虑 先 进 行 数 据 的 行 列 转 置 , 然 后 按 照 记录 聚 类 的 方 法 来 进 行 分 析 。 毕 竟 相 对 而 言 , 记 录 聚 类 的 选 择 余 地 要 灵 活 得 多 。 而 只 要 操 作 正 确 ,两 者 的 分 析 结 果 是 完 全 相 同 的 。12.3 K- 均 值 聚 类 法12.3.1 方 法 原 理K 一 均 值 聚 类 法 (K - Means Cluster)又 叫 快 速 聚 类 法 , 可 以 用 于 大 量 数 据 进 行 聚 类 分 析 的 情形 。 正 如 在 本 章 开 始 介 绍 的 那 样 , K - Means 聚 类 法 是 一 种 非 分 层 的 聚 类 方 法 , 在 SPSS 中 它 是 按照 如 下 步 骤 来 进 行 的 :(1) 首 先 确 定 需 要 聚 类 的 类 别 数 量 , 这 个 是 由 分 析 者 自 己 指 定 ( 这 也 就 是 K - Means 中 K 的含 义 ) , 在 实 际 分 析 过 程 中 , 往 往 需 要 研 究 者 根 据 问 题 , 反 复 尝 试 把 数 据 分 成 不 同 的 类 别 数 , 并 进行 比 较 , 从 而 找 出 最 优 的 方 案 。(2) 根 据 分 析 者 自 己 指 定 的 聚 类 中 心 , 或 者 由 数 据 本 身 结 构 的 中 心 初 步 确 定 每 个 类 别 的 原始 中 心 点 。(3) 逐 一 计 算 每 一 记 录 到 各 个 类 别 中 心 点 的 距 离 , 把 各 个 记 录 按 照 距 离 最 近 的 原 则 归 入 各个 类 别 , 并 计 算 新 形 成 类 别 的 中 心 点 ( 用 平 均 数 表 示 , 这 也 就 是 K - Means 中 Means 的 含 义 )。(4) 按 照 新 的 中 心 位 置 , 重 新 计 算 每 一 记 录 距 离 新 的 类 别 中 心 点 的 距 离 , 并 重 新 进 行 归 类 ,• 247 •


更 新 类 别 中 心 点 。(5) 重 复 步 骤 4 , 直 到 达 到 一 定 的 收 敛 标 准 , 或 者 达 到 分 析 者 事 先 指 定 的 迭 代 次 数 为 止 。由 于 事 先 指 定 了 类 别 数 , 并 且 类 别 数 远 远 小 于 记 录 个 数 , K - Means 聚 类 的 速 度 往 往 要 明 显的 快 于 层 次 聚 类 法 , 这 也 就 是 它 又 称 之 为 快 速 聚 类 法 的 由 来 。 和 层 次 聚 类 法 相 比 , 快 速 聚 类 法 的计 算 量 非 常 小 , 从 而 可 以 有 效 地 处 理 多 变 量 、 大 样 本 数 据 而 不 占 用 太 多 的 内 存 空 间 和 计 算 时 间 ;同 时 在 分 析 时 用 户 可 以 人 为 指 定 初 始 中 心 位 置 , 或 者 将 曾 做 过 的 聚 类 分 析 结 果 作 为 初 始 位 置 引入 分 析 , 这 在 有 前 人 工 作 可 借 鉴 时 是 非 常 有 用 的 。 但 是 , 该 方 法 的 应 用 范 围 比 较 有 限 : 要 求 用 户事 先 知 道 需 要 将 样 品 分 为 多 少 类 、 只 能 对 记 录 进 行 聚 类 而 不 能 对 变 量 聚 类 、 所 使 用 的 变 量 必 须 都是 连 续 性 变 量 。 并 且 对 变 量 的 多 元 正 态 性 、 方 差 齐 性 等 条 件 要 求 较 高 , 如 果 忽 视 这 些 问 题 就 可 能会 导 致 错 误 的 结 果 。12.3.2 分 析 实 例例 12.2 telco. sav 数 据 是 反 映 移 动 电 话 客 户 使 用 于 机 情 况 的 一 个 数 据 集 。 包 含 6 个 变 量 ,分 别 是 客 户 编 号 CCustomer ID) 、 工 作 日 上 班 时 期 电 话 时 长 CPeak mins) 、 工 作 日 下 班 时 期 电 话时 长 COffP eak mins) 、 周 末 电 话 时 长 CWeekend mins) 、 国 际 电 话 时 长 CInternational mins) 、 总通 话 时 长 CTotal mins) 和 平 均 每 次 通 话 时 长 CAverage _ mins) 。 现 希 望 对 移 动 用 户 进 行 细 分 , 以了 解 他 们 不 同 的 手 机 消 费 习 惯 。 根 据 前 期 的 调 研 , 研 究 者 认 为 移 动 用 户 应 当 被 分 为 5个 主 要 群体 , 现 希 望 得 到 相 应 的 定 量 聚 类 结 果 。1. 数 据 的 初 步 分 析这 里 仍 然 应 当 首 先 对 数 据 进 行 描 述 性 统 计 , 结 果 参 见 表 12.60表 12. 6 Descriptive StatisticsN Minimum Maximum Mean Std. Deviation工 作 日 上 班 时 期 电 话 时 长 3395 5.77 2846.40 708.3469 515.25799工 作 日 下 班 时 期 电 话 时 长 3395 3.20 1058.40 30 才 8049 195.33152周 末 电 话 时 长 3395 66 205.00 54.1649 35.26109国 际 电 话 时 长 3395 01 1014.82 172.3492 146.68342总 通 话 时 长 3395 54.81 3423.30 1064.3 才 68 560.80133平 均 每 次 遇 话 时 长 3395 .63 53.58 4.1267 3.80400Valid N (Iistwise) 3395从 表 12.6 中 可 以 看 出 , 尽 管 数 据 的 量 纲 是 一 样 的 , 都 是 反 映 通 话 时 长 的 数 据 , 但 是 数 据 取 值却 仍 然 有 很 大 的 差 异 。 平 均 数 据 从 最 小 的 4. 126 7 ~ 最 大 的 1 064.316 8 , 标 准 差 也 从 3. 804 ~560.801 , 分 布 差 异 较 大 。 为 了 消 除 这 种 差 异 的 影 响 , 仍 然 需 要 考 虑 对 数 据 进 行 标 准 化 处 理 。 在SPSS 中 , 快 速 聚 类 法 并 不 像 层 次 聚 类 法 那 样 , 可 以 自 动 对 数 据 进 行 标 准 化 , 需 要 事 先 对 数 据 进 行标 准 化 , 这 可 以 用 SPSS 中 的 Descriptive 过 程 来 实 现 。2. 操 作 说 明在 SPSS 中 , 实 现 快 速 聚 类 法 的 过 程 步 骤 如 下 :• 248 •


iAnalyze• Classify• K - Means Cluster:Variableω 杠 :6个 标 化 后 变 量iLabel Cases by 杠 : 客 户 编 号 (Customer ID):Number of Clusters: 5匾 画 : Maximum 阳 ations: 100: ~ 亟 豆 ­ISavel: 商 Cluster membership: ~ 孟 豆 画 EIOptionsl: 辩 川圄图 12.6K - Means 聚 类 过 程 的 对 话 框相 对 于 层 次 聚 类 法 而 言 , 快 速 聚 类 法 过 程 需 要 设 置 的 东 西 己 经 少 了 许 多 , 如 图 12.6所 示 , 这里 仍 然 解 释 如 下 :(1) 快 速 聚 类 中 的 聚 类 类 别 数 需 要 分 析 者 自 己 指 定 , 在 这 里 指 定 的 是 50(2) 默 认 情 况 下 , 初 始 聚 类 中 心 由 K - Means 过 程 给 出 , 但 是 如 果 分 析 者 需 要 , 也 可 以 从 指定 的 文 件 读 入 , 具 体 在 主 对 话 杠 左 下 角 的 Cluster Centers 杠 组 中 实 现 。 读 者 从 中 还 能 看 到 可 以 将本 次 聚 类 的 类 中 心 存 为 一 个 文 件 供 下 一 次 使 用 。 当 聚 类 中 心 由 分 析 者 给 出 时 , 可 以 要 求 聚 类 中心 不 进 行 更 新 , 即 主 对 话 杠 中 的 Method 单 选 杠 组 的 相 应 功 能 。 这 个 时 候 聚 类 过 程 就 不 会 进 行 迭代 , 实 际 是 一 个 分 类 过 程 。 但 多 数 情 况 下 , 迭 代 的 聚 类 结 果 都 要 好 得 多 。(3) 在 It erate 中 , 通 常 确 定 最 大 迭 代 次 数 为 100 , 同 时 收 敛 标 准 为 默 认 。 默 认 是 当 如 果 当 所有 类 别 中 心 更 新 变 化 的 大 小 都 小 于 初 始 类 别 中 心 最 小 距 离 的 2% 时 或 者 迭 代 次 数 达 到 指 定 的 最大 迭 代 次 数 时 , 迭 代 终 止 。 本 例 由 于 样 本 量 较 大 , 所 以 必 须 要 将 最 大 此 数 加 以 放 大 。(4) 在 Save 中 , 选 择 了 存 储 Cluster Membership , 这 时 聚 类 过 程 将 在 数 据 文 件 中 对 每 个 记 录给 出 它 所 属 的 类 别 号 。(5) Options 是 要 求 聚 类 分 析 结 果 显 示 哪 些 内 容 的 选 项 , 本 例 要 求 显 示 初 始 聚 类 中 心 CInitialCluster Centers) 和 方 差 分 析 表 (ANOVA Table) 。 方 差 分 析 用 来 分 析 聚 类 结 果 中 各 类 别 是 否 有 显著 差 异 的 以 及 各 个 变 量 对 聚 类 结 果 的 重 要 程 度 。• 249 •


3. 结 果 解 释分 析 结 果 的 标 题 显 示 为 "Quick Cluster" , 即 快 速 聚 类 。表 12.7Initial Cluster CentersCluster2 3 4 5Zscore 工 作 日 上 班 时 期 电 话 时 长 3.2 才 791 -1.16165 2.64849 .19729 1.93001Zscore 工 作 日 下 班 时 期 电 话 时 长 -.65276 -1.26557 -1.03058 3.87339 -.17204Zscore: 周 末 电 话 时 长 3.72 才 81 3.11491 -.02169 -.90652 -1.2128 才Zscore 国 际 电 话 时 长 4.90995 -1.16636 .29390 2.77257 .53252Zscore 总 通 话 时 长 2.96323 -1.31226 2.07308 1.47340 1.63709Zscore: 平 均 每 次 通 话 时 长 -.51651 30760 5.49282 -.22792 12 ,99993如 表 12.7所 示 , 在 所 有 结 果 中 , 首 先 给 出 的 是 初 始 的 聚 类 中 心 , 它 列 出 每 一 类 别 初 始 走 义 的中 心 点 , 在 本 例 中 , 这 些 中 心 点 都 是 由 SPSS软 件 自 动 生 成 的 , 实 际 上 就 是 数 据 集 中 的 某 一 条 记录 , 其 选 择 的 原 则 是 使 得 各 初 始 类 中 心 的 散 点 在 所 有 变 量 构 成 的 空 间 中 离 的 尽 可 能 远 , 而 且 能 尽量 广 地 分 布 在 空 间 中 。 但 需 要 注 意 的 是 , 若 由 SPSS软 件 自 动 生 成 聚 类 的 初 始 中 心 点 , 那 么 这 些中 心 点 会 与 记 录 的 排 列 顺 序 有 关 , 因 此 要 尽 量 避 免 记 录 出 现 有 规 律 的 排 列 , 必 要 时 可 以 先 用 随 机数 排 序 来 打 乱 顺 序 。表 12. 8 Iteration Histo 叩 aChange in Cluster CentersIteration 2 3 4 53.894 3.450 3.201 3.605 3.458234829 207 725 312 1.943374 127 457 262 964208 100 330 206 504303132333435000 000 。 才 O 010 000005 002 01 才 009 000008 001 007 005 000.004 .000 .002 .001 .000007 000 004 000 000000 000 000 000 000a. Convergence achieved d ue 10 门 。 口 r small cha 门 ge in cluster centers The maximum absolute coordinate changefor any center is 口 口 口 The current iteralion is 35 , The minimum distance between initial centers is 7. 6 日 自表 12.8 是 迭 代 过 程 表 , 从 中 可 以 看 出 每 一 次 迭 代 过 程 中 类 别 中 心 点 的 变 化 , 由 于 表 格 较 长 ,这 里 省 略 了 中 间 各 步 的 输 出 。 可 以 看 到 , 类 别 中 心 点 变 化 越 来 越 小 , 直 到 最 终 趋 近 于 0 。 整 个 迭代 过 程 在 第 35步 终 止 , 因 为 此 时 己 经 满 足 了 上 面 提 到 的 迭 代 终 止 的 第 二 个 标 准 , 所 以 可 以 认 为各 类 别 中 心 己 经 收 敛 了 。• 250 •


表 12.9Final Cluster CentersCluster1 2 3 4 5Zscore 工 作 日 土 班 时 期 电 话 时 长 1.60559 -.78990 61342 -.33584 37303Zscore: 工 作 日 T 班 时 期 电 话 时 长 46081 -.58917 -.49365 1.18873 -.29014Zscore: 周 末 电 话 时 长 -14005 -.15010 35845 -02375 -.40407Zscore 国 际 电 话 时 长 1.68250 -.64550 .04673 .02351 -.04415Zscore 总 道 话 时 长 1.62690 -.94040 .4 1420 .10398 .21627Zscore: 平 均 每 次 通 话 时 长 -06590 -.14835 -05337 -14059 4.87718K - Means生 成 的 另 一 个 比 较 重 要 的 结 果 是 最 终 的 类 别 中 心 点 , 也 就 是 各 个 类 别 在 各 个 变 量上 的 平 均 值 。 如 表 12.9 所 不 。表 12.10ANOVAClusterErrorMean Square df Mean Square df FZscore: 工 作 日 上 班 时 期 电 话 时 长 582.315 4 .314 3390 才 854.022Zscore: 工 作 日 T 班 时 期 电 话 时 长 468.001 4 .449 3390 1042.395Zscore: 周 末 电 话 时 长 39.060 4 .955 3390 40.896Zscore: 国 际 电 话 时 长 443. 才 79 4 .478 3390 926.658Zscore: 总 道 话 时 长 605.770 4 .286 3390 2 才 15.071Zscore: 平 均 每 次 通 话 时 长 463.823 4 .454 3390 1021.872Sig000000000.000.000000The F tests should be used only for descriptive purposes because the clusters have been chosen tomaximize the differences among cases in di 怦 érent clusters. The observed significance levels are notcorrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal表 12.10为 分 析 中 要 求 给 出 的 方 差 分 析 表 , 实 际 上 就 是 按 照 类 别 分 组 后 对 所 有 变 量 依 次 进行 的 单 因 素 方 差 分 析 , 然 后 将 结 果 汇 总 到 一 张 表 格 中 而 己 。 从 中 可 以 看 出 哪 些 变 量 在 各 类 间 的差 异 具 有 统 计 学 意 义 , 并 根 据 F 值 的 大 小 近 似 得 到 哪 个 变 量 在 聚 类 分 析 中 的 作 用 更 大 的 结 论 。例 如 在 本 例 中 , 可 以 得 出 结 论 , 认 为 在 聚 类 分 析 的 结 果 中 , 各 个 变 量 对 聚 类 结 果 的 重 要 程 度 排 序为 : 总 通 话 时 长 > 工 作 日 上 班 时 期 电 话 时 长 > 工 作 日 下 班 时 期 电 话 时 长 > 平 均 每 次 通 话 时 长 >国 际 电 话 时 长 > 周 末 电 话 时 长 。表 12. " Number of Cases in each Cluster一 Cluster 443.0002 1239.0003 831.0004 806.0005 76.000Valid 3395.000Missing 000• 251 •


在 K - Means 生 成 的 结 果 中 , 最 后 一 个 列 出 的 是 各 个 类 别 中 的 记 录 数 量 。 如 表 12.11 所 示 ,可 见 人 数 最 多 的 是 第 2 类 , 而 最 少 的 是 第 5 类 , 第 一 类 的 人 群 也 较 少 , 各 类 人 数 的 高 低 有 时 可 以为 最 终 类 别 特 性 的 确 定 起 到 辅 助 作 用 。 例 如 , 人 数 最 多 的 那 个 群 体 往 往 就 是 " 人 民 群 众 "。以 上 就 是 全 部 的 输 出 结 果 , 如 果 希 望 分 析 地 更 为 详 细 , 接 下 来 仍 然 可 以 对 标 化 前 的 原 始 变 量进 行 统 计 图 和 统 计 表 的 描 述 , 己 得 到 各 类 差 异 更 清 楚 的 印 象 , 这 些 工 作 读 者 可 自 行 练 习 , 此 处 不再 详 述 。4. 最 终 的 类 别 特 征 描 述结 合 以 上 的 所 有 分 析 结 果 , 最 终 可 以 对 各 个 聚 类 类 别 的 特 征 描 述 如 下 :第 1 类 : 总 通 话 时 间 长 , 工 作 日 上 班 时 间 通 话 比 例 高 用 户 。 此 类 用 户 数 量 为 443 人 。 i 豆 类 客户 的 总 通 话 平 均 时 间 是 各 类 客 户 中 最 高 的 , 并 且 工 作 日 上 班 时 间 通 话 占 总 通 话 比 例 很 高 ( 工 作日 上 班 通 话 平 均 与 全 部 通 话 平 均 之 比 达 到 了 77.69%) , 另 外 , l 豆 类 客 户 国 际 通 话 时 间 也 是 各 类中 最 高 的 。 可 以 叫 做 " 高 端 商 用 客 户 "。第 2 类 : 总 通 话 时 间 短 , 各 时 段 通 话 时 间 都 短 。 此 类 用 户 数 量 为 1239 人 。 i 豆 类 客 户 的 总 通话 平 均 时 间 是 各 类 客 户 中 最 低 的 , 并 且 在 各 个 时 段 通 话 时 间 普 遍 较 短 。 可 以 叫 做 " 少 使 用 低 端客 户 "。第 3 类 : 总 通 话 时 间 居 中 , 工 作 日 上 班 时 间 通 话 比 例 高 用 户 。 此 类 用 户 数 量 为 831 人 。 i 豆 类客 户 最 重 要 的 特 征 是 工 作 日 上 班 时 间 通 话 比 例 高 ( 工 作 日 上 班 通 话 平 均 与 全 部 通 话 平 均 之 比 达到 了 79.01% )。 可 以 叫 做 " 中 端 商 用 客 户 "。第 4 类 : 总 通 话 时 间 居 中 , 工 作 日 下 班 时 间 通 话 比 例 高 用 户 。 此 类 用 户 数 量 为 806 人 。 i 豆 类客 户 工 作 日 下 班 时 间 通 话 比 例 高 ( 工 作 日 下 班 通 话 平 均 与 全 部 通 话 平 均 之 比 达 到 了 47.57%) ,远 高 于 其 他 类 别 同 一 比 例 。 可 以 叫 做 " 中 端 日 常 用 客 户 "。第 5 类 : 每 次 通 话 时 间 长 客 户 。 i 豆 类 用 户 数 量 为 76 人 , 此 类 用 户 数 量 较 少 。 最 大 的 特 征 就是 平 均 每 次 通 话 时 间 特 别 长 , 每 次 通 话 时 长 平 均 达 到 了 其 他 类 别 每 次 通 话 时 长 平 均 的 5 倍 以 上 ,而 其 他 方 面 无 明 显 特 征 。 可 以 叫 做 " 长 聊 客 户 "。12.4 两 步 聚 类 法 简 介12.4.1 方 法 原 理如 前 所 述 , 两 步 聚 类 法 (TwoStep Cluster) 属 于 近 年 来 才 发 展 起 来 的 智 能 聚 类 方 法 的 一 种 , 用于 解 决 海 量 数 据 、 复 杂 类 别 结 构 时 的 聚 类 分 析 问 题 。 准 确 地 讲 , 两 步 聚 类 法 本 身 是 在 1996年 才被 明 确 的 提 出 , 和 前 面 介 绍 的 层 次 聚 类 法 和 快 速 聚 类 法 相 比 , 两 步 聚 类 法 有 着 鲜 明 的 特 点 。 首先 , 用 于 聚 类 的 变 量 可 以 是 连 续 变 量 也 可 以 是 离 散 变 量 , 而 不 必 需 要 像 其 他 算 法 那 样 , 在 进 行 聚类 之 前 对 离 散 变 量 首 先 要 进 行 连 续 化 ; 其 次 , 相 比 其 他 聚 类 算 法 , 两 步 聚 类 法 占 用 内 存 资 源 少 , 对于 大 数 据 量 , 运 算 速 度 较 快 。 而 这 些 特 性 都 是 由 两 步 聚 类 法 的 算 法 原 理 决 定 的 ; 第 二 , 它 是 真 正的 在 利 用 统 计 量 作 为 距 离 指 标 进 行 聚 类 , 同 时 又 可 以 根 据 一 定 的 统 计 标 准 来 " 自 动 地 " 建 议 甚 至于 确 定 最 佳 的 类 别 数 , 结 果 的 正 确 性 更 有 保 障 。 正 是 因 为 该 方 法 有 这 么 多 的 优 点 , 因 此 SPSS才在 1 1. 5 版 中 将 其 引 入 。 而 目 前 在 几 大 主 流 统 计 软 件 中 , 也 只 有 SPSS 能 够 实 现 该 方 法 。• 252 •


顾 名 思 义 , 两 步 聚 类 是 分 成 两 个 步 骤 完 成 聚 类 的 。 第 一 个 步 骤 是 预 聚 类 , 首 先 对 记 录 进 行 初步 的 归 类 ( 允 许 的 最 大 类 别 数 由 使 用 者 自 己 指 定 ) ; 第 二 个 步 骤 是 正 式 聚 类 , 在 这 个 步 骤 中 对 第一 步 中 完 成 的 初 步 聚 类 进 行 再 聚 类 并 确 定 最 终 的 聚 类 方 案 , 并 且 在 这 个 步 骤 中 会 根 据 一 定 的 统计 标 准 确 定 聚 类 的 类 别 数 量 。 以 下 分 别 介 绍 这 两 个 步 骤 。1. 预 聚 类这 一 步 骤 通 过 构 建 和 修 改 聚 类 特 征 树 CCluster Feature Tree) 完 成 。 聚 类 特 征 树 包 含 许 多 层的 节 点 , 每 一 节 点 包 含 若 干 条 目 , 而 每 一 个 叶 子 节 点 代 表 一 个 子 类 , 有 多 少 个 叶 子 就 有 多 少 个 子类 , 而 那 些 非 叶 子 节 点 和 其 中 的 条 目 则 用 来 指 引 新 进 入 的 记 录 应 该 进 入 哪 个 叶 子 节 点 , 每 个 条 目中 的 信 息 就 是 所 谓 的 聚 类 特 征 CClusterFeature) , 包 括 针 对 连 续 变 量 的 均 值 和 方 差 以 及 针 对 离 散变 量 的 计 数 。针 对 每 一 个 记 录 , 都 要 从 根 开 始 进 入 聚 类 特 征 树 , 并 依 照 节 点 中 条 目 信 息 的 指 引 找 到 最 接 近的 子 节 点 , 直 到 到 达 叶 子 节 点 为 止 。 如 果 这 一 记 录 与 叶 子 节 点 中 条 目 的 距 离 小 于 临 界 值 , 那 么 它进 入 i 衷 于 节 点 , 并 且 子 节 点 的 聚 类 特 征 得 到 更 新 , 反 之 , 该 记 录 会 重 新 生 成 一 个 新 的 叶 子 节 点 。如 果 这 时 子 节 点 的 数 目 己 经 大 于 指 定 的 最 大 聚 类 数 量 , 则 聚 类 特 征 树 会 通 过 调 整 距 离 临 界 值 的方 式 进 行 重 新 构 建 。 当 所 有 记 录 都 通 过 以 上 方 式 进 入 了 聚 类 特 征 树 , 预 聚 类 过 程 也 就 结 束 了 。子 节 点 的 数 量 就 是 预 聚 类 数 量 。2. 正 式 聚 类在 第 二 步 中 , 将 以 第 一 步 完 成 的 预 聚 类 作 为 输 入 , 对 之 进 行 再 聚 类 , 直 到 使 用 者 指 定 的 类 别 。由 于 在 这 个 阶 段 所 需 处 理 的 类 别 己 经 远 小 于 原 始 数 据 的 数 量 , 所 以 我 们 可 以 采 用 传 统 的 聚 类 方法 进 行 处 理 就 可 以 了 , 在 SPSS 中 是 使 用 合 并 型 层 次 聚 类 法 进 行 的 。在 层 次 聚 类 的 每 一 个 阶 段 中 , 都 会 计 算 反 映 现 有 分 类 是 否 适 合 现 有 数 据 的 统 计 指 标 : AICCAkaike Information Criterion) 或 者 BIC CSchwartz Bayesian Criterion) 准 则 , 这 两 个 指 标 越 小 , 说 明聚 类 效 果 越 好 , 两 步 聚 类 算 法 会 根 据 AIC 和 BIC 的 大 小 , 以 及 类 间 最 短 距 离 的 变 化 情 况 来 确 定最 优 的 聚 类 类 别 数 。因 两 步 聚 类 法 功 能 很 强 , 而 原 理 又 较 为 复 杂 , 这 里 仅 用 一 个 分 析 实 例 来 演 示 一 下 其 基 本 用法 , 对 该 方 法 感 兴 趣 的 读 者 可 参 考 本 章 末 所 附 笔 者 发 表 的 相 关 参 考 文 献 , 或 者 参 考 SPSS的 用 户手 册 和 算 法 手 册 来 了 解 更 多 的 知 识 。12.4.2 分 析 实 例例 19.3 这 个 例 子 是 患 有 某 种 疾 病 的 患 者 的 病 例 数 据 。 数 据 包 含 500 个 病 人 的 资 料 数 据 ,涉 及 变 量 及 变 量 的 基 本 情 况 如 下 : Age: 年 龄 , 连 续 变 量 , 取 值 范 围 是 15 ~ 74 , 平 均 数 为 44.21 , 标 准 差 为 17.210 Sex: 性 别 , 离 散 变 量 , 取 值 为 男 和 女 。 BP: 血 压 , 离 散 变 量 , 取 值 为 高 、 低 和 正 常 。 Cholesterol: 胆 固 醇 浓 度 , 离 散 变 量 。 取 值 为 高 和 正 常 。 Na: 血 液 中 的 铀 含 量 , 连 续 变 量 。 取 值 范 围 是 o. 5 ~ 0.9 , 平 均 数 为 0.707 8 , 标 准 差 为0.11660 K: 血 液 中 的 饲 含 量 , 连 续 变 量 。 取 值 范 围 是 O. 02 ~ 0.08 , 平 均 数 为 0.049 8 , 标 准 差 为• 253 •


0.017 3 。现 希 望 通 过 聚 类 的 方 法 对 病 人 的 情 况 进 行 归 类 , 以 更 清 晰 地 了 解 这 类 病 人 的 特 征 。1. 操 作 说 明在 SPSS 中 , 两 步 聚 类 的 对 话 杠 如 图 12.7 所 示 , 实 现 两 步 聚 类 法 的 过 程 步 骤 如 下 :!Analyze• Classify• TwoStep Cluster: Categorical 柏 ~: Sex 、 BP 、 Cholesterol:Coω 佣 nti 山 m 川 时 Variables 丰 杠 匡 :Age 、 Na 、 K 豆IPlotsl: 按 照 如 图 所 示 设 置匾 画 : S 缸 圳 阳 山 tati挝 巾 灿 山 tisti 加 川 时 削 叫 肚 叫 i 忙 C川回参? 接图 12.7两 步 聚 类 的 对 话 框在 应 用 SPSS 进 行 两 步 聚 类 法 时 , 操 作 中 主 要 注 意 以 下 问 题 :(1) 两 步 聚 类 法 可 以 同 时 处 理 连 续 变 量 和 离 散 变 量 。 在 主 对 话 杠 中 连 续 变 量 和 离 散 变 量 要分 别 放 入 相 应 的 对 话 杠 中 。 其 中 离 散 变 量 ( 例 如 性 别 ) 无 法 放 入 Continuous Variables 杠 中 , 但 是连 续 变 量 ( 例 如 年 龄 ) 却 可 以 放 入 Categorical 杠 中 , 这 时 将 把 连 续 变 量 当 作 离 散 变 量 来 处 理 , 但 这样 做 往 往 得 到 的 结 果 并 不 是 我 们 期 望 得 到 的 。(2) 如 果 只 对 连 续 变 量 进 行 聚 类 , 描 述 记 录 之 间 的 距 离 性 时 可 以 使 用 欧 氏 (E 时 lidean) 距离 , 也 可 以 使 用 对 数 似 然 值 (Log 一 likelihood), 如 果 使 用 前 者 , 则 该 方 法 和 传 统 的 聚 类 方 法 并 无 太大 区 别 ; 但 是 若 进 行 聚 类 的 还 有 离 散 变 量 , 那 么 就 只 能 使 用 对 数 似 然 值 来 表 述 记 录 间 的 差 异 性 。(3) 在 Options 中 , 当 连 续 变 量 问 取 值 差 异 较 大 时 , 应 该 把 数 据 放 入 To be Standardized 杠 中 ,对 其 进 行 标 准 化 。 实 际 上 , 系 统 默 认 就 会 对 所 有 连 续 变 量 进 行 标 化 ; 另 外 , 在 Options中 , 还 可 以• 254 •


通 过 Advance 选 项 对 聚 类 特 征 树 构 建 进 行 设 定 。(4) 在 Plots 中 提 供 了 很 多 种 方 法 帮 助 更 好 地 理 解 聚 类 分 析 的 结 果 , 包 括 每 个 类 别 在 总 体 中所 占 比 例 、 反 映 变 量 在 聚 类 结 果 中 的 相 对 重 要 性 的 图 形 等 , 详 细 介 绍 可 见 结 果 解 释 。(5) 在 Output 中 , 可 以 选 择 输 出 哪 些 结 果 帮 助 我 们 更 好 地 对 聚 类 结 果 进 行 解 释 , 默 认 会 输出 各 类 别 的 变 量 统 计 描 述 和 类 别 频 数 分 布 , 本 例 还 要 求 输 出 信 息 指 标 的 变 化 情 况 。 在 该 对 话 杠中 还 可 以 要 求 存 储 各 条 记 录 的 类 别 归 属 为 新 变 量 。2. 结 果 解 释表 '2., 2 Auto-ClusteringSchwarz's BayesianNumber of Clusters Criterion (BIC) BlC Change a3579.426234567891111112941.099 -638.3272621.569 -319.5302366.305 255.2642243.387 -122.9182 才 23.38120 才 1 .4 541935.9961877. 3690123451825.8301784.6481766.8821798.9271833.9571869.015-120.006-111.926-75.458-58.627-51.53941.181- 才 7.76732.04535.03035.059a. The changes are from Ihe previous number of cluslers in Ihe lableb The ralios of changes are relalive 10 the change for the two cluster s 口 lutionRatio of BICChangesb1.000501400193.188175118092081065028-.050-.055-.055Ratio of DistanceMeasures c1.8351.2021.7151.0161.0461.2651.1391.0621.1001.2932.6551.1101.0011.007c. The ratios of d istance measures are based on Ihe current number of clusters against the previ 口 us number of clusters表 12.12 是 整 个 输 出 结 果 中 最 为 重 要 , 但 统 计 难 度 也 最 高 的 结 果 列 表 。 表 12.12 中 给 出 了样 本 被 聚 为 1 ~ 15 类 时 BIC 值 等 相 关 统 计 指 标 的 具 体 数 值 , 这 里 依 次 解 释 如 下 :(1) 在 确 认 最 佳 类 别 数 时 最 重 要 的 指 标 是 BIC 值 , 即 Bayes 信 息 准 则 , 其 数 值 越 小 代 表 效 果越 好 , 而 其 右 侧 的 BIC Change 列 则 反 映 相 邻 两 种 结 果 的 BIC 值 之 差 , 可 见 BIC 值 以 聚 为 12 类 时最 小 , 但 在 8 类 以 后 , BIC 的 下 降 就 不 太 明 显 了 。 综 合 观 察 之 下 , 可 以 认 为 聚 为 4 ~ 8 类 都 是 可 供考 虑 的 选 择 范 围 。(2) 除 BIC 值 外 , 两 步 聚 类 法 还 会 利 用 相 邻 两 步 的 最 小 类 问 距 离 比 来 进 一 步 确 认 最 佳 的 类别 数 。 从 相 应 的 结 果 可 见 , 最 小 类 问 距 离 比 共 有 三 个 高 峰 , 分 别 对 应 了 2 类 、 4 类 和 12 类 的 情形 。 以 12 类 时 为 例 , 其 数 值 为 2.655 , 意 思 是 和 聚 为 13 类 时 的 最 小 类 问 距 离 相 比 , 12 类 时 的 最小 类 问 距 离 是 它 的 2.655倍 。 由 于 第 二 步 是 采 用 的 是 层 次 聚 类 法 , 这 些 结 果 是 嵌 套 的 关 系 , 因 此• 255 •


这 就 意 味 着 在 原 来 12 类 的 基 础 上 再 拆 分 出 的 两 个 新 类 相 比 之 下 其 实 差 别 很 小 , 恐 怕 意 义 不 大 。显 然 , 该 指 标 越 大 , 表 示 当 前 结 果 越 好 。 结 合 前 面 的 BIC 大 小 , 可 以 认 定 对 于 本 例 而 言 , 4 类 或 者12 类 是 统 计 上 认 为 最 佳 的 类 别 数 。 显 然 , 基 于 统 计 算 法 给 出 最 佳 类 别 数 建 议 是 两 步 聚 类 法 的 一大 优 势 , 是 传 统 聚 类 方 法 所 不 能 比 拟 的 。实 际 上 , 就 以 上 的 两 个 指 标 , SPSS 会 有 严 格 的 算 法 来 确 认 可 供 选 择 的 类 别 范 围 , 这 里 只 是 一个 形 象 的 解 释 。 同 时 , SPSS 会 在 计 算 中 最 终 确 认 一 个 它 所 认 为 的 最 佳 类 别 数 , 并 用 该 类 别 数 进行 后 续 分 析 , 在 本 例 中 , 该 数 值 会 被 定 为 4 类 。表 12. 13 Cluster DistributionN % ofCombi 内 ed % ofTotalCluster 98 19.6% 19.6%2 132 26.4% 26.4%3 136 27.2% 27.2%4 134 26.8% 26.8%Combined 500 100.0% 100.0%Total 500 才 00.0%表 12.13 为 确 定 聚 为 4 类 后 , SPSS 中 通 过 频 数 表 的 方 式 给 出 的 各 个 类 别 所 包 含 的 样 本 数 ,可 以 看 出 每 个 类 别 包 含 记 录 数 量 大 体 相 差 不 大 。SPSS 随 后 将 按 照 聚 为 4 类 的 标 准 对 用 于 聚 类 的 各 变 量 在 类 间 的 差 异 进 行 描 述 , 具 体 有 表 格和 图 形 两 种 方 式 。 对 于 连 续 变 量 , 表 格 显 示 各 个 变 量 的 平 均 数 和 标 准 差 , 而 图 形 则 是 用 误 差 图 来表 示 均 值 和 95% 置 信 区 间 的 范 围 ; 对 于 离 散 变 量 , 表 格 和 图 形 则 用 来 表 示 变 量 在 各 个 类 别 的 频数 分 布 。此 处 会 给 出 标 题 "Cluster Profiles" , 表 示 随 后 将 输 出 各 类 的 轮 廓 特 征 。表 12.14Centroids年 龄 制 含 量 辛 甲 含 量Mean Std. Deviation Mean Std. Deviation Mea 门 Std. DeviationCluster 44.54 才 8.345 7244 11215 0500 017562 44.08 才 6.186 6872 11396 0501 017403 45.57 才 7.505 6919 11797 0507 016394 42.72 才 7.102 .7319 .11601 .0483 .01801Combined 44.21 才 7.210 .7078 .11661 .0498 .01730为 节 省 篇 幅 , 表 12.14 的 输 出 中 只 给 出 连 续 变 量 的 列 表 , 可 见 对 于 铀 含 量 而 言 , 第 3 类 的 均数 是 最 高 的 , 而 第 4类 中 铀 含 量 的 均 数 是 最 低 的 。 类 似 地 也 可 以 分 析 另 外 两 个 连 续 变 量 , 以 及 各个 分 类 变 量 在 各 类 别 中 的 特 征 , 这 里 不 再 赘 述 。同 样 , 这 里 统 计 图 也 仅 对 连 续 变 量 和 分 类 变 量 各 举 一 例 , 如 图 12.8 所 示 , 可 见 铀 含 量 的 变 化情 况 和 表 格 中 基 本 一 致 , 而 离 散 变 量 性 别 而 言 , 第 1 类 别 和 第 4 类 别 男 性 和 女 性 基 本 是 等 比 例• 256 •


图 12.8各 个 类 别 中 变 量 比 较 的 图 形的 , 而 第 2 类 别 中 只 有 男 性 , 第 3 类 别 中 只 有 女 性 。 显 然 , 这 是 一 个 非 常 明 显 的 特 征 。在 两 步 聚 类 中 , 还 提 供 了 一 类 独 特 的 图 形 结 果 , 用 来 比 较 各 个 变 量 对 聚 类 结 果 的 重 要 性 , 具体 有 两 种 展 示 方 式 , 一 种 是 为 每 一 个 变 量 做 一 张 条 图 , 通 过 直 条 的 长 度 来 确 定 该 变 量 对 于 各 个 类别 的 重 要 性 , 此 时 Plots 对 话 杠 中 的 Rank Variables 应 该 选 择 为 By cluster; 另 一 种 是 为 每 一 个 类别 做 两 张 图 , 通 过 条 形 图 的 长 度 来 确 定 该 类 别 中 各 个 变 量 的 重 要 性 , 一 张 图 是 比 较 连 续 变 量 对 于聚 类 结 果 的 重 要 性 , 另 一 张 图 是 离 散 变 量 对 于 聚 类 结 果 的 重 要 性 , 在 这 种 方 式 下 两 步 聚 类 中 的Plots 对 话 杠 中 的 Rank Variables 应 该 选 择 为 By variable 0 本 例 就 是 这 种 情 况 。 这 样 说 比 较 抽 象 ,下 面 通 过 具 体 的 输 出 来 加 以 说 明 。TwoSt 叩 Cluster Number=2 TwoStep Cluster Number 二 2Bo 口 ferro 口 i Adjustm 巳 口 t Applied Bonferroni A 副 ustment Applied胆 固 醇 斗 饷 含 量 -v号 ' 口 国>血 压性 别年 龄。 50 100 150 2.0 1.5 1.0 0.5 0.0Chi-Squar 巳Student' s t图 12.9 各 变 量 在 聚 类 结 果 中 的 重 要 性 图 示 By variable 方 式图 12.9 是 按 照 第 二 种 方 式 CBy variable) , 做 出 的 第 2 类 别 中 各 个 变 量 重 要 程 度 图 。 从 图 中可 以 看 出 , 在 第 2类 中 , 离 散 变 量 中 胆 固 醇 最 为 重 要 , 血 压 次 之 , 而 性 别 几 乎 无 任 何 意 义 ; 连 续 变量 中 , 铀 含 量 最 为 重 要 , 而 饲 含 量 次 之 。 在 图 12.9中 , 条 形 图 的 方 向 向 左 , 说 明 该 类 中 铀 含 量 是小 于 总 体 的 平 均 水 平 的 。 说 明 在 第 2类 中 , 胆 固 醇 和 铀 含 量 分 别 是 该 类 区 别 于 其 他 类 的 重 要 离• 257 •


散 变 量 和 连 续 变 量 。对 于 其 余 的 各 个 变 量 和 各 个 类 别 的 图 形 , 限 于 篇 幅 , 这 里 就 不 一 一 列 出 了 , 感 兴 趣 的 读 者 朋友 可 以 自 己 应 用 该 附 带 数 据 来 得 出 全 部 的 结 果 。3. 最 终 的 类 别 特 征 描 述通 过 以 上 分 析 , 尤 其 是 上 面 各 个 变 量 对 于 聚 类 结 果 重 要 性 的 分 析 , 我 们 可 以 把 病 人 分 为 4 个类 别 , 他 们 的 特 征 分 别 如 下 。第 1 类 : 高 血 压 、 胆 固 醇 浓 度 正 常 。 此 类 别 病 人 数 量 为 98 人 , 占 病 人 总 数 19.6% 。 全 部 为高 血 压 、 胆 固 醇 浓 度 正 常 的 患 者 , 性 别 无 明 显 特 征 , 血 液 中 铀 含 量 高 于 平 均 水 平 。第 2 类 : 男 性 、 胆 固 醇 浓 度 高 。 此 类 别 病 人 数 量 为 136 人 , 占 病 人 总 数 27.2% 。 全 部 为 男 性胆 固 醇 浓 度 高 的 患 者 , 血 压 无 明 显 特 征 , 并 且 血 液 中 铀 含 量 低 于 平 均 水 平 。第 3 类 : 女 性 、 胆 固 醇 浓 度 高 。 此 类 病 人 数 量 为 134 人 , 占 病 人 总 数 26.8% 。 全 部 女 性 胆 固醇 浓 度 高 的 患 者 , 血 压 无 明 显 特 征 , 并 且 血 液 中 铀 含 量 高 于 平 均 水 平 。第 4 类 : 非 高 血 压 、 胆 固 醇 浓 度 正 常 。 此 类 病 人 数 量 为 132 人 , 占 病 人 总 数 26.4% 。 全 部 为胆 固 醇 浓 度 正 常 , 无 一 人 为 高 血 压 , 并 且 血 液 中 铀 含 量 低 于 平 均 水 平 。12.5 本 章 方 法 小 结上 面 介 绍 了 SPSS 提 供 的 三 种 聚 类 方 法 的 使 用 特 点 和 结 果 表 述 , 并 针 对 每 种 方 法 举 了 一 个 简单 的 实 例 。 但 是 , 当 真 正 要 运 用 聚 类 分 析 解 决 实 际 问 题 时 , 读 者 往 往 会 有 无 从 下 手 、 得 到 聚 类 结果 难 以 解 释 、 或 者 结 果 可 以 解 释 , 聚 类 结 果 的 可 靠 性 、 稳 定 性 又 不 知 道 如 何 保 证 等 方 方 面 面 的 问题 。 结 合 这 些 问 题 , 本 章 将 对 聚 类 方 法 做 一 简 要 地 总 结 。1. 聚 类 方 法 的 选 择聚 类 分 析 是 一 种 探 索 性 的 数 据 分 析 方 法 , 针 对 不 同 的 数 据 可 能 有 不 同 的 适 合 方 法 , 很 难 说 哪一 种 方 法 是 最 好 的 。 而 最 重 要 的 一 个 原 则 就 是 如 果 得 到 的 聚 类 结 果 如 果 区 分 度 足 够 大 , 又 能 够结 合 问 题 很 好 的 总 结 各 个 类 别 的 特 征 , 那 么 这 种 聚 类 方 法 就 是 好 的 、 有 效 的 。针 对 上 面 提 到 的 三 种 方 法 , 对 于 不 同 的 数 据 会 有 不 同 的 选 择 , 读 者 朋 友 可 以 在 总 体 上 把 握 这几 个 原 则 , 当 然 , 这 些 原 则 也 只 是 一 些 相 对 原 则 , 最 重 要 的 还 是 要 掌 握 原 理 , 灵 活 使 用 。(1) 从 聚 类 类 型 来 考 虑 : 如 果 聚 类 是 对 记 录 进 行 聚 类 , 那 么 三 种 方 法 都 可 以 考 虑 ; 如 果 聚 类是 对 变 量 进 行 聚 类 , 只 能 选 择 层 次 聚 类 法 进 行 。(2) 从 数 据 量 考 虑 : 如 果 需 要 聚 类 的 数 据 量 较 少 ( 1 000) , 应 该 考 虑 选 择 快 速 聚 类 别 法 或 者 两 步 聚 类 法 进 行 。 如 果 数 据量 在 100~ 1 000 之 间 , 理 论 上 现 在 的 计 算 条 件 是 可 能 满 足 任 何 聚 类 方 法 的 要 求 的 , 但 是 结 果 的展 示 会 比 较 困 难 , 例 如 不 可 能 再 去 直 接 观 察 树 状 图 了 。(3) 参 加 聚 类 的 变 量 类 型 : 如 果 参 加 聚 类 的 变 量 都 是 连 续 性 的 , 则 三 种 方 法 都 可 以 考 虑 使用 ; 如 果 参 加 聚 类 的 变 量 包 含 离 散 变 量 , 那 么 应 该 使 用 两 步 聚 类 法 进 行 , 或 者 先 按 照 本 章 开 始 部分 介 绍 的 方 法 首 先 对 离 散 变 量 进 行 连 续 化 处 理 后 再 进 行 聚 类 。• 258 •


(4) 是 否 指 定 类 别 数 量 : 两 阶 段 法 按 照 一 定 的 统 计 标 准 自 动 给 出 类 别 的 数 量 , 层 次 聚 类 法 可以 产 生 一 定 类 别 范 围 的 聚 类 结 果 , 而 快 速 聚 类 法 要 求 使 用 者 必 须 事 先 给 出 聚 类 的 类 别 数 。2. 聚 类 结 果 的 检 验聚 类 分 析 不 像 其 他 的 统 计 分 析 方 法 , 可 以 通 过 一 定 的 统 计 量 对 聚 类 结 果 进 行 检 验 , 更 多 的 时候 , 聚 类 分 析 的 结 果 是 否 " 漂 亮 " 是 由 结 果 的 " 有 用 性 " 来 决 定 的 。 但 是 , 从 另 一 个 方 面 , 聚 类 分 析的 可 靠 性 、 稳 定 性 却 是 可 以 通 过 一 定 的 比 较 得 到 感 性 认 识 的 。 下 面 提 供 几 种 常 用 的 思 路 。(1) 除 非 针 对 特 定 的 目 的 ( 例 如 异 常 值 发 现 ) , 通 常 总 是 希 望 聚 类 分 析 的 结 果 在 各 个 类 别 中包 含 的 记 录 数 目 大 致 相 当 , 如 果 某 一 聚 类 结 果 记 录 过 于 集 中 在 某 一 类 , 就 有 理 由 怀 疑 其 结 果 的" 有 用 性 "。(2) 可 以 对 同 一 数 据 集 使 用 不 同 的 方 法 ( 例 如 , 使 用 快 速 聚 类 法 和 两 步 聚 类 法 ) 进 行 聚 类 ,然 后 对 两 个 结 果 进 行 比 较 。 如 果 两 个 结 果 在 类 别 数 量 、 记 录 在 类 别 中 的 分 布 、 类 别 特 征 等 方 面 有很 大 差 异 , 则 有 理 由 怀 疑 聚 类 结 果 的 " 稳 定 性 "。 该 思 想 实 际 上 来 源 与 数 据 挖 掘 理 论 , 是 目 前 较好 的 聚 类 结 果 验 证 方 法 之 一 。(3) 如 果 数 据 量 较 大 , 可 以 把 一 个 数 据 集 按 照 一 定 比 例 ( 例 如 1: 1) 随 机 拆 分 成 两 个 , 然 后 分别 对 两 个 数 据 集 用 同 一 种 方 法 进 行 聚 类 。 如 果 两 个 结 果 在 类 别 数 量 、 类 别 特 征 等 方 面 有 很 大 差异 , 则 有 理 由 怀 疑 聚 类 结 果 的 " 可 靠 性 "。3. 聚 类 结 果 的 解 释 和 描 述进 行 聚 类 分 析 是 为 了 其 结 果 能 够 加 以 应 用 , 对 结 果 的 解 释 和 描 述 无 疑 是 一 个 非 常 关 键 的 环节 。 在 这 个 过 程 中 , 有 两 个 很 重 要 的 问 题 , 需 要 特 别 加 以 注 意 。(1) 变 量 对 于 结 果 的 重 要 性 。 除 了 两 步 聚 类 法 之 外 , 其 余 两 种 方 法 都 没 有 直 接 给 出 这 个 比较 , 一 般 来 说 , 可 以 应 用 类 似 在 快 速 聚 类 法 中 提 到 的 思 路 , 对 于 聚 类 结 果 , 以 类 别 作 为 区 分 水 平 ,对 各 个 变 量 做 单 因 素 分 析 , 通 过 比 较 F 值 大 小 的 方 式 得 到 各 个 变 量 的 相 对 重 要 性 , F 值 越 大 的 变量 , 或 者 说 P 值 越 小 , 相 对 来 说 对 聚 类 结 果 的 影 响 也 越 大 。(2) 对 于 类 别 特 征 的 描 述 。 主 要 通 过 描 述 性 统 计 量 和 各 种 统 计 图 形 来 进 行 , 但 这 并 不 意 味着 要 忽 视 统 计 检 验 的 作 用 。 一 般 而 言 , 如 果 在 样 本 量 较 充 足 的 情 形 下 , 某 变 量 在 各 组 间 无 统 计 学差 异 , 则 可 以 认 为 该 变 量 对 类 别 区 分 无 贡 献 , 从 而 可 以 将 该 变 量 剔 除 出 分 析 以 简 化 问 题 。4. 聚 类 分 析 中 应 该 注 意 的 其 他 问 题(1) 对 于 参 加 聚 类 变 量 之 间 大 小 差 异 比 较 大 的 情 况 , 应 该 考 虑 对 原 始 数 据 做 标 准 化 处 理 以后 , 再 进 行 聚 类 。 在 层 次 聚 类 法 和 两 步 聚 类 法 中 , 都 有 是 否 对 变 量 进 行 标 准 化 的 选 项 , 直 接 选 取就 可 以 了 , 而 对 于 快 速 聚 类 别 法 , 是 没 有 这 样 的 选 项 的 , 如 果 需 要 , 应 该 牢 记 在 聚 类 分 析 之 前 要 对变 量 进 行 标 准 化 处 理 。(2) 在 进 行 记 录 聚 类 时 , 选 取 聚 类 变 量 切 忌 " 眉 毛 胡 子 一 把 抓 " 应 该 尽 可 能 考 虑 变 量 之 间的 相 关 性 。 如 果 两 个 强 相 关 的 变 量 同 时 进 入 聚 类 分 析 , 就 相 当 于 它 们 所 代 表 的 这 一 因 素 的 权 重远 远 高 于 其 他 变 量 , 从 而 该 因 素 将 更 加 能 够 影 响 聚 类 结 果 , 有 些 时 候 这 样 的 结 果 是 我 们 所 需 要的 , 但 是 更 多 的 时 候 却 是 由 于 考 虑 不 周 所 造 成 , 这 样 很 容 易 造 成 聚 类 结 果 的 区 分 度 不 强 或 者 意 义不 大 。 因 此 如 果 存 在 共 线 性 问 题 , 最 好 先 对 变 量 进 行 预 处 理 ( 剔 除 , 或 者 提 取 主 成 分 ) 再 进 行 聚类 分 析 。• 259 •


思 考 与 练 习1. 对 于 例 12. 1 中 的 数 据 , 试 分 别 使 用 K - Means 聚 类 法 和 两 步 聚 类 法 进 行 聚 类 , 并 比 较 它 们 的 结 果 。2. 对 于 例 12. 1 中 的 数 据 , 考 虑 对 各 地 区 居 民 消 费 价 格 指 数 不 进 行 反 向 变 换 , 直 接 纳 入 分 析 , 将 这 样 的 分 析结 果 和 现 有 结 果 相 比 较 , 看 看 是 否 有 差 异 , 并 思 考 为 什 么 会 出 现 这 样 的 结 果 和 这 种 变 换 , 还 有 标 化 的 用 途 何 在 ?3. 对 例 12.2 , 尝 试 不 对 原 始 数 据 进 行 标 准 化 , 会 得 到 怎 样 的 结 果 , 并 与 书 中 结 果 进 行 比 较 。4. 对 例 l 口 2.3 , 尝 试 把 年 龄 当 作 离 散 变 量 处 理 , 放 入 Ca 冽 te 吨 g 萨 0 创 or 阴 时 叮5. 对 例 12.3 , 尝 试 着 首 先 把 离 散 变 量 进 行 连 续 化 , 再 使 用 K - Means 方 法 进 行 聚 类 , 看 看 会 得 到 怎 样 的 结果 , 并 与 使 用 两 步 聚 类 方 法 得 到 的 结 果 进 行 比 较 。参 考 文 献1 Richard Johnson 著 . 实 用 多 元 统 计 分 析 . 陆 璇 译 . 北 京 : 清 华 大 学 出 版 社 , 20012 张 文 膨 主 编 . SPSS 11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 希 望 电 子 出 版 社 , 20023 郭 志 刚 主 编 . 21 世 纪 社 会 学 系 列 教 材 社 会 统 计 分 析 方 法 :SPSS 软 件 应 用 . 北 京 : 中 国 人 民 大 学 出 版社 , 19994 张 文 眩 , 姜 庆 五 等 . 基 于 基 因 序 列 聚 类 的 甲 型 流 感 病 毒 H3 抗 原 变 异 规 律 研 究 . 中 华 流 行 病 学 , 2004 ( 待发 表 )• 260 •


第 13章 判 别 分 析判 别 分 析 最 初 是 由 费 希 尔 (R. A. Fisher) 于 1936 年 在 生 物 学 上 植 物 分 类 中 提 出 来 的 , 那 时候 的 费 希 尔 判 别 分 析 只 是 一 种 分 类 方 法 而 没 有 数 学 上 的 理 论 依 据 。 大 约 在 20 世 纪 50 年 代 出 现了 贝 叶 斯 判 别 , 它 证 明 了 费 希 尔 判 别 的 合 理 性 , 所 以 国 际 上 一 般 都 把 这 两 种 判 别 分 析 合 称 为Fisher 判 别 分 析 , 简 写 为 LDF/DF (Linear Discriminant Analysis) 。 判 别 分 析 的 因 变 量 是 走 类 或 者走 序 变 量 , 以 此 把 样 本 划 分 为 不 同 的 组 类 , 而 自 变 量 可 以 是 任 何 尺 度 的 变 量 , 只 是 定 性 变 量 需 要以 虚 拟 变 量 的 方 式 进 入 模 型 。 其 目 的 在 于 建 立 一 种 线 性 组 合 使 得 用 最 优 化 的 模 型 来 概 括 分 类 之间 的 差 异 。 其 用 途 是 可 以 根 据 己 去 口 的 样 本 的 分 类 情 况 来 判 断 未 知 待 判 的 样 本 的 归 属 问 题 。 例如 , 信 用 风 险 的 判 别 、 市 场 细 分 中 的 客 户 分 类 、 地 质 层 的 判 断 、 模 式 识 别 的 问 题 等 , 是 应 用 相 当 广泛 的 多 元 统 计 技 术 。13. 1 模 型 简 介判 别 分 析 的 模 型 按 照 判 别 的 不 同 准 则 可 以 分 为 典 型 判 别 分 析 、 贝 叶 斯 判 别 分 析 、 非 参 数 判 别分 析 等 不 同 模 型 , 其 实 由 于 判 别 分 析 的 内 容 相 当 丰 富 , 其 方 法 体 系 几 乎 可 以 覆 盖 多 元 统 计 的 所 有内 容 , 本 章 将 以 较 常 用 的 典 型 判 别 分 析 为 主 , 对 判 别 分 析 的 方 法 原 理 , 实 现 方 式 等 加 以 介 绍 , 以 帮助 读 者 更 好 的 理 解 使 用 该 方 法 。13. 1. 1 典 型 判 别 分 析 的 基 本 原 理在 判 别 技 术 的 发 展 史 上 典 型 判 别 分 析 最 先 出 现 , 其 原 理 是 Fisher借 鉴 自 己 创 造 的 方 差 分 析的 思 想 , 试 图 找 到 一 个 由 原 始 自 变 量 组 成 的 线 性 函 数 使 得 组 间 差 异 和 组 内 差 异 的 比 值 最 大 化 。这 一 点 如 图 13.1 所 示 , 设 希 望 通 过 对 X1 、 刀 两 个 自 变 量 的 取 值 将 总 体 1 、 2 分 开 , 单 看 总 体 1 、 2在 两 个 自 变 量 轴 上 都 是 有 部 分 重 合 的 。 但 是 在 将 变 量 X1 、 X2 重 新 组 合 , 得 到 线 性 判 别 函 数 1 、 2后 , 可 以 发 现 使 用 线 性 判 别 函 数 2 可 以 把 总 体 L2 之 间 的 差 异 拉 得 很 开 。 因 此 , 可 以 只 使 用 线 性判 别 函 数 2 代 替 原 有 的 两 个 自 变 量 进 行 判 别 , 并 得 到 更 好 的 结 果 , 这 就 是 典 型 判 别 分 析 的 基 本型 、 想如 果 用 公 式 来 对 上 述 思 想 进 行 表 述 , 则 设 ng 为 样 本 大 小 的 权 重 , 组 间 差 异 B 为 :B= 主 叭 一 元 ) 气 -Y; 组 内 差 异 之 和 S 为 : S = 主 rg(Ins-:111xgo 而 判 别 函 数 的b'Bb表 达 式 为 u = b' X vx l' Fisher 判 别 分 析 就 是 计 算 出 b 值 , 使 得 max 。 这 样 实 际 就 是 计 算 原b"O b' Sb• 261 •


x2图 13.1典 型 判 别 分 析 的 示 意 图始 自 变 量 的 投 影 平 面 使 得 在 各 点 的 影 子 在 投 影 平 面 上 的 区 分 最 大 。 图 13.1 很 形 象 地 说 明 了 这个 思 想 。 事 实 上 , 由 于 前 面 己 经 学 习 过 因 子 分 析 的 基 本 思 想 , 读 者 可 以 很 容 易 将 这 种 投 影 的 原 理和 因 子 分 析 中 提 取 公 因 子 的 方 法 对 应 起 来 , 这 两 种 方 法 在 许 多 方 面 都 是 相 似 的 , 只 不 过 在 因 子 分析 中 寻 求 的 是 提 取 信 息 量 的 最 大 化 , 而 典 型 判 别 分 析 中 则 寻 求 的 是 组 间 差 异 的 最 大 化 而 己 。13. 1. 2 判 别 分 析 的 适 用 条 件 和 违 背 条 件 时 的 处 理 方 法1. 判 别 分 析 的 适 用 条 件事 实 上 , 建 立 一 个 好 的 判 别 模 型 并 不 容 易 , 研 究 者 要 正 确 使 用 任 何 统 计 方 法 必 须 先 知 道 其 统计 假 设 是 什 么 , 判 别 分 析 的 前 提 和 假 设 可 以 简 单 归 纳 如 下 :(1) 自 变 量 和 因 变 量 间 的 关 系 符 合 线 性 { 固 定 。(2) 因 变 量 的 取 { 直 是 独 立 的 , 且 必 须 是 事 先 就 己 经 确 定 。(3) 自 变 量 服 从 多 元 正 态 分 布 。(4) 所 有 自 变 量 在 各 组 间 方 差 齐 , 协 方 差 矩 阵 也 相 等 。(5) 自 变 量 间 不 存 在 多 重 共 线 性 。值 得 指 出 的 是 , 以 上 条 件 中 的 多 元 正 态 分 布 、 协 方 差 矩 阵 相 等 几 个 条 件 在 实 际 数 据 中 很 难 满足 , 但 相 对 而 言 , 判 别 分 析 在 违 反 这 些 适 用 条 件 时 显 得 比 较 稳 健 , 如 果 轻 微 违 反 , 它 们 对 结 果 的 影响 其 实 不 大 。 而 变 量 的 共 线 性 问 题 在 判 别 分 析 中 的 影 响 不 是 特 别 严 重 , 这 是 因 为 判 别 分 析 关 心的 重 点 是 对 应 变 量 的 判 别 效 果 , 而 不 是 自 变 量 的 影 响 程 度 。 存 在 共 线 性 可 能 使 方 程 系 数 和 变 量发 生 改 变 , 但 不 会 对 判 别 效 果 产 生 太 大 影 响 , 读 者 在 学 习 了 线 性 回 归 一 章 后 对 此 应 当 非 常 清 楚 。2. 违 背 条 件 时 的 处 理 方 法• 262 •


验 。 要 是 样 本 服 从 多 元 正 态 分 布 , 采 用 二 次 判 别 , 但 是 应 该 注 意 到 二 次 判 别 分 析 没 有 计 算 判如 果 样 本 严 重 违 反 了 判 别 分 析 的 适 用 条 件 , 则 可 以 采 取 一 些 处 理 办 法 加 以 补 救 , 总 结 如 下 :(1) 当 样 本 的 多 元 正 态 分 布 假 设 不 能 满 足 的 时 候 采 取 的 措 施 和 方 法 如 下 : 如 果 数 据 的 超 平 面 是 若 干 分 段 结 构 的 话 , 采 用 分 段 判 别 分 析 。 如 果 数 据 满 足 方 差 和 协 方 差 的 齐 次 性 可 以 采 用 距 离 判 别 分 析 、 经 典 判 别 分 析 、 贝 叶 斯 判别 分 析 中 的 任 何 一 种 , 因 为 此 时 三 者 是 等 价 的 , 建 议 使 用 经 典 判 别 分 析 。 如 果 数 据 不 满 足 方 差 和 协 方 差 的 齐 次 性 , 则 采 用 经 典 判 别 分 析 、 非 参 数 判 别 分 析 、 距 离判 别 分 析 , 这 些 方 法 无 此 适 用 条 件 。 进 行 变 量 变 换 。(2) 方 差 和 协 方 差 的 齐 次 性 不 能 满 足 的 时 候 可 以 采 取 的 措 施 如 下 : 增 加 样 本 , 这 有 时 可 以 使 其 影 响 减 小 。 慎 重 的 进 行 变 量 变 换 。 采 用 经 典 判 别 分 析 、 非 参 数 判 别 分 析 、 距 离 判 别 分 析 , 这 些 方 法 无 此 适 用 条 件 。 在 合 乎 总 体 实 际 情 况 的 前 提 下 , 保 证 各 个 分 组 的 样 本 量 一 样 , 判 别 分 析 中 分 组 之 间 样 本量 一 样 可 以 带 来 以 下 几 个 好 处 : 使 得 结 果 与 方 差 齐 次 性 假 设 不 会 偏 离 得 太 大 ;F 检 验 时 第 二 类 错误 ( 实 际 上 为 虚 假 的 条 件 下 正 确 的 拒 绝 了 原 假 设 的 概 率 ) 得 到 减 小 ; 使 得 均 值 更 加 容 易 比 较 和 检错 率 和 统 计 检 验 的 公 式 。(3) 存 在 多 重 共 线 性 时 可 以 采 取 的 措 施 如 下 : 增 加 样 本 量 。 使 用 逐 步 判 别 分 析 。 采 用 岭 判 别 分 析 。 对 自 变 量 进 行 主 成 分 分 析 , 用 因 子 代 替 自 变 量 进 行 判 别 分 析 。 通 过 相 关 矩 阵 结 合 实 际 的 理 论 知 识 删 去 某 些 产 生 共 线 性 的 自 变 量 。显 然 , 上 述 措 施 和 线 性 回 归 中 对 共 线 性 的 处 理 方 式 是 非 常 类 似 的 。(4) 当 线 性 假 设 被 违 反 的 时 候 可 以 采 取 的 措 施 如 下 : 采 用 二 次 判 别 分 析 。 K 最 近 邻 判 别 分 析 或 核 密 度 判 别 分 析 两 种 非 参 数 判 别 分 析 。 离 散 型 判 别 分 析 或 混 合 型 判 别 分 析 。由 于 判 别 分 析 的 目 的 是 建 立 准 确 有 效 的 判 别 函 数 , 除 了 以 上 使 用 条 件 外 , 他 对 样 本 量 也 有 一定 的 要 求 , 一 般 而 言 样 本 量 n 应 在 所 使 用 的 自 变 量 个 数 p 的 10 ~20 倍 以 上 时 , 函 数 才 比 较 稳 定 ,至 少 也 应 当 在 p 的 5 倍 以 上 ; 而 自 变 量 个 数 p 在 8 ~ 10 个 之 间 时 , 函 数 的 判 别 效 果 才 可 能 比 较 理想 。 当 然 , 在 实 际 工 作 中 判 别 函 数 的 自 变 量 个 数 往 往 会 超 过 10 个 , 但 请 一 定 记 住 : 越 多 并 不 代 表效 果 就 越 好 。13. 1. 3 判 别 效 果 的 评 价对 于 判 别 分 析 , 人 们 最 关 心 的 是 建 立 的 判 别 函 数 用 来 进 行 判 别 时 准 确 度 如 何 。 在 评 价 时 一般 都 使 用 错 判 率 和 正 判 率 加 以 表 示 , 后 者 就 是 1 一 判 错 率 , 低 的 判 错 率 和 高 的 正 判 率 (Hit Ratio)• 263 •


就 说 明 判 别 的 效 果 较 好 。 但 是 , 判 别 结 果 还 要 依 赖 于 总 体 本 身 的 分 离 程 度 , 不 同 总 体 的 差 异 越 大越 能 得 到 好 的 判 别 结 果 。 从 判 别 分 析 的 正 确 率 角 度 来 考 察 判 别 模 型 要 达 到 多 少 才 是 可 以 接 受 ?可 以 借 鉴 "20% /25% " 法 则 : 正 确 分 类 的 比 率 应 该 超 过 随 机 分 组 比 率 的 20% 或 者 25% 。 计 算 随机 分 组 的 比 率 分 作 两 种 情 况 :4 自 然 分 组 的 总 体 中 样 本 是 等 概 率 的 情 况 ;2 自 然 分 组 的 总 体 中样 本 是 不 等 概 率 的 情 况 。 所 以 针 对 两 种 不 同 情 况 期 望 达 到 的 正 确 率 计 算 公 式 为 :等 概 率 : 000% -;- C) x 1. 2 或 1. 25不 等 概 率 :(pi+Pi+P:+ …+ 乓 )x 1. 2 或 1. 25其 中 G 表 示 总 类 别 数 。 以 上 公 式 中 乘 以 1. 2 是 取 正 确 分 类 的 比 率 应 该 超 过 随 机 分 组 比 率20% 的 情 况 , 如 果 超 过 了 上 述 界 值 , 则 可 以 认 为 判 别 是 有 作 用 的 。具 体 在 错 判 / 正 判 率 的 计 算 时 , 为 了 使 得 评 价 结 果 更 为 可 观 、 稳 定 , 能 够 代 表 总 体 的 真 实 情况 , 又 可 以 有 以 下 几 种 计 算 方 式 :(1) 自 身 验 证 : 即 将 训 练 样 本 依 次 代 入 判 别 函 数 , 用 这 样 计 算 出 的 错 判 率 来 考 察 错 判 情 况 是否 严 重 。 但 是 这 种 方 法 往 往 会 高 估 判 别 效 果 , 自 身 验 证 的 效 果 好 , 并 不 能 说 明 该 函 数 用 来 判 别 外部 数 据 的 效 果 也 好 , 实 用 价 值 不 大 。(2) 外 部 数 据 验 证 : 即 判 别 函 数 建 立 完 成 后 , 重 新 再 收 集 一 部 分 样 本 数 据 , 用 判 别 函 数 进 行判 别 , 看 看 错 判 是 否 严 重 。 这 种 验 证 方 法 理 论 上 较 好 , 但 再 收 集 的 样 本 数 据 不 能 被 用 来 建 立 函数 , 有 些 浪 费 , 而 且 很 难 保 证 两 次 收 集 的 样 本 是 同 质 的 。(3) 样 本 二 分 法 : 是 外 部 数 据 验 证 的 改 进 , 采 用 随 机 函 数 将 所 用 样 本 分 为 两 部 分 , 一 般 是 按2: 1 的 比 例 拆 分 , 多 的 部 分 用 于 建 立 判 别 函 数 , 剩 下 的 用 于 验 证 。 这 种 做 法 可 以 保 证 验 证 用 样 本和 训 练 用 样 本 的 同 质 性 , 是 最 为 理 想 的 。 但 它 要 求 样 本 量 较 大 , 否 则 建 立 的 判 别 函 数 不 稳 定 , 白白 浪 费 信 息 。(4) 交 互 验 证 (Cross-Validation) : 这 是 近 年 来 逐 渐 发 展 起 来 的 一 种 非 常 重 要 的 判 别 效 果 验证 技 术 。 它 在 样 本 二 分 法 的 基 础 上 又 大 大 前 进 了 一 步 , 具 体 来 说 就 是 在 建 立 判 别 函 数 时 依 次 去掉 一 例 , 然 后 用 建 立 起 来 的 判 别 函 数 对 该 例 进 行 判 别 , 用 这 种 方 法 可 以 非 常 有 效 地 避 免 强 影 响 点的 干 扰 。 在 SPSS 中 己 经 提 供 了 交 互 验 证 功 能 , 可 直 接 使 用 对 话 杠 操 作 。(5) Bootstrap 法 : 该 方 法 在 交 互 验 证 的 基 础 上 又 前 进 了 一 步 。 其 基 本 思 想 为 : 在 原 始 数 据 的范 围 内 做 有 放 回 的 抽 样 , 样 本 含 量 仍 为 n , 原 始 数 据 中 每 个 观 察 单 位 每 次 被 抽 到 的 概 率 相 等 , 为l/n , 所 得 样 本 称 为 Bootstrap 样 本 。 从 该 样 本 可 以 得 到 一 个 判 别 分 析 结 果 ; 重 复 抽 取 这 样 的 样 本若 干 次 , 这 样 可 以 建 立 起 来 一 系 列 判 别 函 数 , 相 应 的 每 个 系 数 都 有 一 系 列 取 值 。 采 用 Bootstrap方 法 的 原 理 就 可 以 求 出 最 " 稳 健 " 的 判 别 函 数 。 用 这 种 方 法 可 以 非 常 充 分 地 利 用 样 本 信 息 , 求 得的 判 别 函 数 又 可 以 有 效 地 避 免 强 影 响 点 的 干 扰 。 但 是 , 各 个 Bootstrap 样 本 中 显 然 都 含 有 相 同 个体 , 严 格 讲 这 并 不 符 合 验 证 的 要 求 。除 使 用 正 判 / 错 判 率 外 , 研 究 者 还 可 以 使 用 许 多 更 为 复 杂 和 专 业 的 指 标 进 行 判 别 效 果 的 评价 , 如 阳 性 预 测 值 、 阴 性 预 测 值 等 , 因 篇 幅 所 限 , 这 里 不 再 详 述 。13. 1. 4 判 别 分 析 的 一 般 步 骤对 于 一 个 实 际 的 判 别 分 析 问 题 , 分 析 者 需 要 做 的 工 作 往 往 并 不 是 简 单 地 运 行 一 遍 分 析 程 序这 样 简 单 , 而 是 全 面 地 对 数 据 进 行 考 察 , 一 般 而 言 , 可 能 需 要 经 历 以 下 几 个 步 骤 :• 264 •


确 定 研 究 问 题 → 检 查 适 用 条 件 → 评 价 判 别 效 果 → 解 释 模 型 结 果 → 应 用 模 型 做 预 测(1) 确 定 研 究 问 题 : 确 定 研 究 要 得 到 什 么 信 息 以 及 和 建 立 判 别 分 析 的 目 的 是 否 一 致 。(2) 检 查 适 用 条 件 : 首 先 要 确 定 数 据 收 集 的 方 式 是 否 适 合 做 判 别 分 析 。 判 别 分 析 要 求 各 自变 量 为 连 续 性 或 有 序 分 类 变 量 , 如 果 存 在 无 序 多 分 类 变 量 , 可 以 使 用 哑 变 量 方 式 纳 入 。 在 收 集 方式 得 到 确 认 后 , 考 虑 是 否 需 要 建 立 外 部 验 证 样 本 , 以 及 分 析 样 本 和 验 证 样 本 的 比 例 选 择 为 多 少( 一 般 为 6:4 或 7: 纱 , 注 意 组 间 比 例 最 好 按 照 总 体 比 例 来 分 配 , 比 如 总 体 分 组 之 间 的 比 例 是 1: 2: 1,那 么 分 析 样 本 和 验 证 样 本 中 分 组 之 间 的 比 例 都 必 须 是 和 总 体 一 样 的 1: 2: 1 。 最 后 进 行 数 据 满 足判 别 分 析 假 设 的 检 验 , 例 如 是 否 服 从 多 元 正 态 分 布 以 及 方 差 一 协 方 差 齐 次 性 , 是 否 存 在 复 共 线性 。 检 验 的 时 候 一 定 先 检 验 多 元 正 态 分 布 之 后 再 检 验 方 差 一 协 方 差 齐 次 性 ! 违 反 假 设 的 情 况 可以 根 据 前 面 介 绍 的 各 种 办 法 进 行 违 背 假 设 的 处 理 。(3) 评 价 判 别 效 果 : 即 对 分 析 的 错 判 率 等 进 行 评 价 , 如 前 所 述 。(4) 解 释 模 型 结 果 : 这 一 部 分 将 放 到 后 面 SPSS 的 具 体 操 作 中 来 介 绍 。(5) 应 用 模 型 做 预 测 : 预 测 具 体 样 本 采 用 的 方 法 有 三 种 : 回 代 法 , 贝 叶 斯 法 , 分 界 点 法 。 其 中回 代 法 在 前 面 己 经 介 绍 了 , 就 不 再 重 复 , 而 贝 叶 斯 法 和 回 代 法 类 似 , 就 是 找 出 最 大 后 验 概 率 的 数值 作 为 判 别 归 属 。 分 界 点 ; 去 主 要 是 应 用 于 典 型 判 别 分 析 , 在 判 别 函 数 的 个 数 不 同 时 分 界 点 的 取法 有 所 不 同 。 简 言 之 , 就 是 计 算 待 判 案 例 离 每 个 类 别 重 心 的 距 离 远 近 , 并 根 据 所 使 用 的 各 判 别 函数 所 携 带 的 信 息 量 大 小 进 行 加 权 , 最 后 将 该 案 例 分 配 入 距 离 最 近 的 一 类 中 去 。实 际 的 工 作 中 统 计 软 件 一 般 并 不 提 供 分 界 点 法 , 而 是 直 接 采 用 贝 叶 斯 法 进 行 判 别 , 毕 竟它 的 理 论 相 对 而 言 最 为 系 统 , 完 善 , 所 有 判 别 结 果 都 是 直 接 给 出 的 。 其 实 知 道 分 界 点 法 的 原理 以 后 动 手 编 程 也 不 复 杂 , 如 果 读 者 一 定 要 采 用 分 界 点 法 , 则 可 以 自 行 编 程 完 成 。 在 SPSS 的判 别 分 析 中 可 以 通 过 领 域 图 (Territorial Map) 来 实 现 分 界 点 法 的 判 别 方 式 , 详 细 介 绍 参 见 后 面有 关 章 节 。13.2 简 单 分 析 实 例这 里 使 用 的 数 据 就 是 Fisher当 初 在 有 关 判 别 分 析 方 法 的 开 拓 性 工 作 中 所 使 用 的 王 军 尾 花 资料 , 该 数 据 由 安 德 森 收 集 , 包 含 了 刚 毛 、 变 色 、 佛 吉 尼 亚 这 三 种 王 军 尾 花 的 花 尊 长 、 宽 和 花 瓣 长 、 宽 ,分 析 目 的 是 希 望 能 够 使 用 这 4 个 变 量 来 对 花 的 种 类 进 行 区 分 , 数 据 见 lns. sav 。13.2. 1 软 件 操 作 与 界 面 说 明现 在 来 重 复 这 个 试 验 , 首 先 需 要 考 虑 的 是 分 析 方 法 的 适 用 条 件 问 题 , 通 过 直 方 图 , 可 以 看 到4 个 用 于 判 别 的 变 量 基 本 上 分 布 都 接 近 正 态 , 而 分 组 变 量 描 述 也 可 以 看 到 方 差 基 本 上 在 各 组 间差 异 不 大 。 虽 然 严 格 地 讲 还 应 当 考 察 数 据 的 多 元 正 态 分 布 情 况 , 但 由 于 判 别 分 析 是 一 种 比 较 稳健 的 方 法 , 适 用 条 件 的 轻 微 违 反 不 会 对 结 果 产 生 强 烈 的 影 响 , 因 此 可 以 直 接 对 该 数 据 进 行 分 析 ,而 不 再 详 细 进 行 这 些 考 察 。下 面 开 始 进 行 分 析 , 操 作 如 下 :• 265 •


Analyze• Classify • DiscriminantGrouping Variable杠 : group|Define Range1: 在 Minimum 杠 中 叭 " 在 Maximum 中 填 "3" : I Continue IIndependent 杠 : 选 入 Slen 、 swid 、 plen 、 pwid回在 操 作 中 只 涉 及 了 主 对 话 框 , 并 未 对 选 项 加 以 更 改 。 判 别 分 析 的 主 对 话 杠 非 常 简 单 , 如 图13.2 所 示 , 上 方 的 Grouping variable 杠 用 于 选 择 己 去 口 的 类 别 变 量 , 选 入 后 应 使 用 Define Range 按钮 具 体 确 定 变 量 的 取 值 范 围 。 Independents 杠 用 于 选 入 建 立 判 别 函 数 所 需 的 变 量 。 如 果 不 能 确定 这 些 自 变 量 是 否 都 有 贡 献 , 则 可 以 使 用 逐 步 法 来 进 行 筛 选 。 下 面 的 Selection Variable 杠 则 用于 筛 选 一 部 分 记 录 进 入 分 析 。 对 话 杠 最 下 方 的 4 个 按 钮 则 用 于 对 模 型 作 进 一 步 的 参 数 设 定 , 详细 介 绍 见 后 面 有 关 章 节 。图 13.2判 别 分 析 的 主 对 话 框13.2.2 基 本 分 析 结 果最 先 给 出 的 是 描 述 统 计 , 包 括 频 数 和 缺 失 值 的 统 计 , 总 样 本 以 及 各 组 的 均 值 情 况 等 。 因 为 比较 简 单 , 所 以 不 再 加 以 讲 解 。随 后 会 给 出 标 题 "Analysis 1: Summary of Canonical Discriminant Functions" , 这 表 示 下 面 输 出的 是 典 型 判 别 函 数 。表 13.1 给 出 了 判 别 函 数 的 特 征 根 以 及 判 别 指 数 , 由 于 前 面 己 经 提 到 该 方 法 对 判 别 函 数 的 提取 方 式 和 因 子 分 析 极 为 相 似 , 因 此 表 13.1 完 全 可 以 按 照 因 子 分 析 中 的 同 类 表 格 进 行 读 取 , 特 征根 代 表 了 携 带 信 息 量 的 多 少 , 而 相 应 的 判 别 指 数 ( 方 差 解 释 度 ) 也 是 从 特 征 根 计 算 而 来 。 可 见 本• 266 •


表 13. 1 EigenvaluesFunction Eigenvalue % of Variance Cumula!ive % Canonical Correlation30 .4 19 a 99.0 990 .9842 .293 a 1.0 100.0 .476目 First 2 canonical dis 口 riminant functions were used in the analysis例 中 只 提 取 了 两 个 判 别 函 数 , 且 绝 大 部 分 信 息 都 在 第 一 个 判 别 函 数 上 。 应 该 注 意 的 是 表 13.1中最 后 一 列 给 出 了 该 判 别 函 数 所 对 应 的 典 型 相 关 系 数 "CanonicalCorrelation" , 其 计 算 公 式 为J 元 马 k + 1 。 其 实 典 型 判 别 分 析 和 典 型 相 关 分 析 是 等 价 的 。 这 一 点 将 在 最 后 进 一 步 讨 论 。土 文 中 发 现 第 二 个 判 别 函 数 携 带 的 信 息 量 很 少 , 而 表 13.2 就 是 进 一 步 对 特 征 根 的 显著 性 检 验 , 实 际 是 间 接 的 检 验 判 别 函 数 有 无 统 计 学 意 义 , 其 原 { 假 曰 设 是 : 各 分 组 的 均 { 值 直 向 量 丰 相 日等 ( 即 分 组 之 间 的 重 J 心 心 是 完 全 重 合 , 无 法 进 行 判 别 区 分 的 )λ, 其 Wi 让 lks 旷 'Lambd 巾 a 的 计 算 公 式 为 :J 上 叫 , 川 k k= 山 4 札 叫 = Oι, 斗tJfA 山 lλ i+ 1应 当 保 留 。表 13.2 W iII 侣 . LambdaTest of Function(s) Wilks' Lambda Chi-square1 through 2 .025 538.950df8Sig.0002 774 37.3513000表 13.3为 两 个 判 别 函 数 中 各 个 变 量 的 标 准 化 系 数 , 可 用 来 判 断 两 个 函 数 分 别 主 要 受 哪 些 变量 的 影 响 较 大 。 同 时 , 知 道 了 该 系 数 就 可 以 写 出 标 准 化 的 判 别 函 数 式 。 本 例 的 两 个 典 型 判 别 函数 式 如 下 :表 13.3Standardized Canonical Discriminant Function CoefficientsFunction2:tt 尊 长 -.346 .039在 尊 竞 -.525 .742在 精 长 846 -.386: 在 附 竟 613 555D1 = -0.346 Xz 花 尊 长 -0.525 Xz 花 尊 宽 +0.846 Xz 花 瓣 长 +0.613xz 花 瓣 宽D2 =0.039 Xz 花 尊 长 +0.742 Xz 花 尊 宽 -0.386 Xz 花 瓣 长 +0.555 Xz 花 瓣 宽变 量 名 前 加 z 表 明 是 标 准 化 以 后 的 数 值 。 实 际 上 两 个 函 数 式 计 算 的 是 各 观 测 在 各 个 判 别 维度 上 的 坐 标 值 , 这 样 , 就 可 以 通 过 这 两 个 函 数 式 计 算 出 各 观 测 的 具 体 空 间 位 置 。 另 外 , 这 里 的 标化 判 别 函 数 实 质 上 和 典 型 相 关 分 析 中 得 到 的 典 型 变 量 的 转 化 公 式 等 价 。• 267 •


表 13.4 给 出 的 是 判 别 得 分 和 自 变 量 之 间 的 相 关 系 数 , 所 以 有 些 书 称 它 为 组 内 结 构 系 数 / 判别 负 载 CStructurecorrelations / Discriminant loadings. ) , SPSS 在 结 果 中 用 "* " 标 识 出 了 每 个 自 变量 中 与 每 组 判 别 得 分 中 相 关 系 数 最 大 的 一 个 函 数 , 这 有 些 类 似 于 主 成 分 分 析 中 的 成 分 结 构 。 由表 格 可 见 , 第 一 判 别 函 数 主 要 与 " 花 瓣 长 " 这 个 自 变 量 相 关 , 另 三 个 自 变 量 则 主 要 与 第 二 判 别 函数 相 关 。 由 于 前 面 的 结 果 己 经 表 明 第 一 个 判 别 函 数 携 带 了 绝 大 多 数 判 别 信 息 , 这 提 示 我 们 可 能" 花 瓣 长 " 这 个 变 量 在 判 别 分 析 中 起 了 主 要 作 用 。 事 实 上 , 如 果 只 用 它 进 行 分 析 , 用 交 互 印 证 法发 现 其 正 判 率 高 达 93.3% , 而 选 择 了 所 有 变 量 才 提 高 到 了 98% 。 这 提 示 我 们 , 如 果 出 于 实 际 条件 的 限 制 , 无 法 收 集 全 部 自 变 量 的 话 , 那 么 是 否 只 用 一 个 自 变 量 就 可 以 达 到 近 似 的 分 析 结 果 ? 从经 济 的 角 度 出 发 , 多 了 某 些 自 变 量 在 数 据 收 集 上 可 能 是 一 种 浪 费 。表 13.4Structure MatrixFunction花 瓣 t 乏 726* .165花 尊 宽 -.121 .879*花 瓣 宽 651 .718*花 尊 长 .221 .340*Pooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functionsVariables ordered by absolute size of correlation within function.费 Larges! absolu!e correla!ion belween each variable and a 门 y discriminan! fun c!ion2表 13.5给 出 的 是 各 组 的 判 别 函 数 的 重 心 , 或 者 说 是 各 组 的 判 别 得 分 的 均 值 向 量 。 前 面 的 判别 函 数 的 检 验 就 是 分 别 检 验 这 两 个 向 量 在 各 组 是 否 相 等 。 在 得 知 各 类 别 重 心 后 , 只 需 要 为 每 个待 判 个 案 求 出 判 别 得 分 , 然 后 计 算 出 该 个 案 的 散 点 离 哪 一 个 中 心 最 近 , 就 可 以 得 到 该 个 案 的 判 别结 果 了 。表 13.5Functions at Group Centroids分 类 1刑 毛 莺 尾 范 -7.392变 色 莺 犀 花 1.763佛 吉 尼 平 莺 尾 花 5.629FunctionUnstandardized canonical discriminantfunctions evaluated at group means2219-.737518上 面 给 出 的 就 是 默 认 情 况 下 的 全 部 分 析 结 果 , 可 见 其 中 的 判 别 函 数 使 用 的 是 标 化 变 量 , 相 对而 言 使 用 不 是 非 常 方 便 , 如 果 希 望 得 到 直 接 使 用 原 始 变 量 的 判 别 函 数 , 则 可 以 在 Statistic 子 对 话杠 中 选 择 最 左 下 方 的 U nstandarized 框 , 可 以 得 到 如 表 13.6 所 示 的 输 出 。表 13.6 给 出 的 就 是 使 用 原 始 变 量 的 判 别 函 数 , 式 中 有 常 数 项 , 可 写 出 表 达 式 如 下 :D1 = - 2. 526 - O. 063 x 花 尊 长 -0.155 x 花 尊 宽 +0.196 x 花 瓣 长 +0.299 x 花 瓣 宽 03. 1)• 268 •


表 13.6Canonical Discriminant Function CoefficientsFunclion2在 尊 长 -.063 007在 尊 宽 -.155 218花 瓣 长 196 -.089花 瓣 宽 299 271(Conslanl) -2.526 -6.987Unstandardized coefficientsD2 = - 6. 987 + O. 007 x 花 尊 长 +0.218 x 花 尊 宽 -0.089 x 花 瓣 长 +0.271 x 花 瓣 宽 03. 2)式 (1) 和 式 。) 中 所 有 的 自 变 量 均 为 未 标 化 前 的 原 始 变 量 , 使 用 上 更 为 方 便 。 事 实 上 , 读 者可 以 直 接 对 标 化 式 中 的 各 标 化 变 量 进 行 反 变 换 , 得 到 的 结 果 就 是 式 03. 1) 和 式 03. 2) 。13.2.3 判 别 结 果 的 图 形 化 展 示上 面 的 分 析 结 果 虽 然 己 经 可 以 直 接 使 用 , 但 是 非 常 不 直 观 , 如 果 希 望 能 直 接 观 察 到 坐 标 空 间的 划 分 情 况 , 则 可 以 使 用 Classify 子 对 话 杠 中 的 Plot 杠 组 进 行 结 果 的 图 形 化 展 示 , 如 图 13.3 所示 , 三 个 复 选 杠 分 别 用 于 输 出 联 合 分 布 图 、 单 独 分 布 图 和 领 域 图 , 在 它 们 的 帮 助 之 下 , 研 究 者 可 以更 好 地 了 解 判 别 分 析 的 效 果 究 竟 如 何 。图 13. 3 Classify 子 对 话 框1. 领 域 图Territorial map 复 选 杠 用 于 做 出 领 域 图 , 该 图 形 实 际 上 是 将 分 析 中 得 出 的 判 别 函 数 用 图 形 的结 果 加 以 表 达 , 如 图 13.4 所 示 。图 13.4 为 领 域 图 。 为 了 便 于 显 示 , 这 里 删 除 了 一 些 坐 标 空 间 。 两 个 判 别 函 数 分 别 构 成 了 图形 的 两 个 维 度 , 而 三 类 花 的 重 心 用 星 号 被 绘 制 在 图 中 , 整 个 平 面 空 间 则 按 照 离 各 类 别 重 心 的 距 离• 269 •


Canonical OiscriminantFunction 2UO--』ovTe 创 r 叫 O 时 ori 忖 ial Ma 叩 p4.0 。 4.0GO OM---Tll4.0牛­12 2312 2312 2312 2312 23。12 2312 2312 23*12 申 2312 2312 2312 2312 23-4.012 23Symbol 吕12.0 8.0 4.0 。 4.08.0 12.0Canonical Oiscriminant Function 1used in territorial mapS )'1ηbol Group Labell 刚 毛 茸 尾 花2 2 变 色 茸 尾 花3 3 佛 吉 尼 亚 莺 尾 花* Indicates a group centroid图 13.4判 别 分 析 中 的 领 域 图被 划 分 出 了 清 楚 的 界 线 , 注 意 由 于 两 个 维 度 的 显 示 比 例 不 一 样 , 使 得 分 界 线 看 起 来 似 乎 不 均 衡 ,但 实 际 上 相 应 的 分 界 线 就 使 各 中 心 连 线 的 垂 直 平 分 线 。 当 新 案 例 被 计 算 出 散 点 坐 标 后 , 即 可 被绘 制 在 该 图 形 中 , 该 坐 标 点 落 在 那 个 范 围 , 就 应 当 属 于 哪 个 类 别 。 从 图 13.4 中 也 可 以 清 楚 地 感觉 到 三 类 在 第 一 个 维 度 上 被 明 显 地 分 开 了 , 而 第 二 个 维 度 上 则 重 合 严 重 。 但 是 , 第 二 个 维 度 仍 然对 判 别 结 果 有 帮 助 , 例 如 当 第 一 个 函 数 值 为 4 时 , 如 果 第 二 个 函 数 值 为 一 4 , 则 该 案 例 应 被 判 为 2类 ; 如 果 值 为 4 , 则 应 为 3 类 。 因 此 第 二 个 函 数 仍 然 应 当 在 判 别 中 使 用 , 以 上 图 形 观 察 的 结 果 和前 面 统 计 表 格 的 结 果 完 全 一 致 。下 面 用 数 据 集 中 的 第 一 例 来 演 示 领 域 图 的 用 法 , 该 案 例 4 个 自 变 量 的 取 值 分 别 为 50 、 33 、14 , 2 , 将 这 些 数 值 代 入 未 标 化 的 判 别 公 式 , 可 以 得 到 坐 标 值 如 下 :D1 = -2.526 -0.063 x50 -0.155 x33 +0. 196 x 14 +0.299 x2 = -7.499• 270 •


D2 = -6.987 +0.007 x50 +0. 218 x33 -0.089 x 14 +0.271 x2 = -0.147从 图 13.4 中 坐 标 位 置 可 见 , 该 案 例 显 然 应 当 被 判 为 第 1 类 , 即 刚 毛 王 军 尾 花 , 这 一 例 的 判 别 结果 和 实 际 情 形 也 是 相 一 致 的 。如 果 需 要 同 时 对 一 批 未 知 样 品 给 出 类 别 判 断 , 则 可 以 使 用 软 件 Save子 对 话 杠 中 的 存 储 功能 , 一 次 性 的 将 全 部 案 例 的 判 别 结 果 给 出 , 因 篇 幅 所 限 , 读 者 可 自 行 操 作 , 这 里 不 再 详 述 。2. 联 合 分 布 图 和 单 独 分 布 图这 两 种 图 形 都 用 于 展 示 样 本 中 各 类 别 在 判 别 空 间 中 的 分 布 情 况 , 例 如 选 择 Combine groups杠 后 可 以 绘 制 联 合 分 布 图 如 图 13.5 所 示 : 可 以 看 到 两 条 坐 标 轴 由 第 一 判 别 函 数 和 第 二 判 别 函 数构 成 。 显 然 , 刚 毛 花 的 空 间 位 置 远 离 另 两 种 花 , 不 太 容 易 错 判 , 而 变 色 花 和 佛 吉 尼 亚 花 在 分 界 线附 近 略 有 重 合 , 可 能 误 判 主 要 会 在 这 两 个 类 别 间 发 生 。 从 这 幅 图 中 , 同 样 可 以 看 到 在 第 一 判 别 轴上 三 种 不 同 类 型 的 植 物 区 分 得 很 清 楚 , 而 在 第 二 判 别 轴 土 重 合 得 就 非 常 厉 害 。翩 ;图 13.5三 类 的 联 合 分 布 图单 独 分 布 图 的 情 况 和 联 合 分 布 图 基 本 相 似 , 只 是 各 类 分 别 绘 制 而 己 。13.2.4 判 别 效 果 的 验 证Classify 子 对 话 杠 左 下 角 的 Display 杠 组 用 于 对 判 别 分 析 的 效 果 进 行 验 证 。 其 中 Casewise 杠用 于 列 表 输 出 所 有 案 例 的 判 别 情 况 , 缸 S 出 ur 口 mrout 杠 用 于 给 出 交 互 验 证 的 判 别 验 证 结 果 , 如 表 1 口 3. 7 所 示 。表 1 口 3. 7 的 上 半 部 分 就 是 采 用 回 代 法 得 到 的 判 别 信 息 , 其 实 等 价 于 S 且 出 ur 口 mr刚 毛 花 全 部 正 确 预 测 , 丽 另 两 种 花 则 存 在 错 判 。 下 半 部 分 就 是 用 交 互 印 证 法 得 到 的 判 别 信 息 , 最后 也 会 给 出 错 误 率 。 因 为 是 " 经 典 " 示 范 样 本 , 所 以 正 确 判 断 率 非 常 之 高 。 用 前 面 给 出 的 计 算 公式 :000% .;.3) x 1. 25 =41. 67% , 其 实 只 要 超 过 这 个 数 就 可 以 了 。 显 然 , 如 果 用 本 例 建 立 的 判• 271 •


别 函 数 进 行 新 样 品 的 判 别 , 效 果 将 是 非 常 令 人 满 意 的 。表 13.7Classification Results b,cPredicted Group Membership分 类 刚 毛 茸 尾 花 变 色 毒 尾 花 f 弗 吉 尼 亚 毒 尾 花 Total。 riginal Count 刚 毛 王 军 尾 花 50 。 。 50变 色 茸 尾 花 。 48 2 50{ 弗 吉 尼 亚 莺 尾 花 。 49 50% 刚 毛 茸 尾 花 100.0 O 。 1000变 色 莺 尾 花 。 96.0 4 ,0 100.0佛 吉 尼 亚 莺 尾 在 .0 2.0 98.0 100.0Cross-validated a Count 日 IJ 毛 茸 尾 花 50 。 O 50变 色 莺 尾 花 。 48 2 501 弗 吉 尼 亚 莺 尾 花 。 2 48 50% 日 IJ 毛 茸 尾 花 100.0 ,0 .0 100.0变 色 毒 尾 花 .0 96.0 4 ,0 100 ,0{ 弗 吉 尼 亚 毒 尾 花 。 4.0 96.0 1000a. Cross validation is d 口 ne only for th 口 se 臼 ses in the analysis In cross validation , each case is classified by the functions derived from all cases口 ther than that caseb 98.0~ 比 of original grouped cases correc!ly classifiedc. 97.3% of cross-valida!ed grouped cases 口 orrectly classified13.2.5 适 用 条 件 的 判 断 方 法前 面 在 模 型 适 用 条 件 考 察 时 只 使 用 了 简 单 的 统 计 描 述 , 如 果 希 望 详 细 考 察 , 则 可 以 使 用Statistics 子 对 话 框 , 如 图 13.6 所 示 , 它 的 功 能 共 分 三 大 部 分 , 其 中 两 部 分 部 和 适 用 条 件 考 察 有关 :图 13. 6 Statistics 子 对 话 框(1) Descripti 刊 s 复 选 杠 组 : 提 供 适 用 条 件 考 察 的 统 计 量 , Means 杠 给 出 自 变 量 在 各 组 的 描 述• 272 •


统 计 量 , Univariate ANOVAs 杠 针 对 所 有 自 变 量 进 行 单 因 素 方 差 分 析 , 看 它 们 在 各 组 间 有 无 差 别 。而 Box's M 杠 则 进 行 组 间 协 方 差 齐 性 检 验 , 协 方 差 齐 是 判 别 分 析 的 适 用 条 件 , 只 有 该 检 验 p{ 直 大于 Alpha 水 准 的 数 据 才 可 进 行 判 别 分 析 。 但 是 从 实 用 角 度 来 说 , 真 正 完 全 满 足 该 条 件 的 数 据 几 乎不 存 在 , 所 以 一 般 都 不 关 心 它 的 结 果 。(2) Matrix 复 选 杠 组 : 用 于 给 出 组 内 相 关 阵 、 组 内 协 方 差 阵 、 分 组 协 方 差 阵 和 总 协 方 差 阵 , 可以 用 于 模 型 适 用 条 件 的 判 断 , 但 一 般 也 很 少 关 心 它 的 结 果 。如 果 要 求 进 行 上 述 的 两 种 检 验 , 则 结 果 中 给 出 如 下 输 出 :表 13.8为 所 有 的 变 量 做 单 因 素 的 方 差 分 析 , 其 原 假 设 是 : 该 自 变 量 在 各 组 总 体 之 间 没 有 差异 。 从 表 13.8 中 最 后 的 Sig 值 可 见 , 很 明 显 各 组 之 间 存 在 差 异 , 因 此 这 些 变 量 对 类 间 的 判 别 可能 是 有 作 用 的 。表 13.8Tests of Equality of Group MeansWilks' Lambda F df1 df2 Sig花 草 享 长 397 111.847 2 147 000在 尊 宽 .598 49.371 2 147 .000花 瓣 长 059 1179.052 2 147 000花 帽 宽 071 960007 2 147 000这 里 会 输 出 标 题 : "Box's Test of Equality of Covariance Matrices" , 表 明 将 给 出 Box'sM 检 验 的结 果 。表 13.9 和 表 13.10 为 协 方 差 齐 性 的 Box's M 检 验 , 从 右 侧 的 输 出 可 见 组 间 协 方 差 齐 这 一 原假 设 被 拒 绝 , 竟 然 连 Fisher 给 出 的 判 别 分 析 实 例 都 违 反 这 一 适 用 条 件 , 从 这 一 点 也 可 以 看 出 协 方差 齐 等 要 求 实 际 上 往 往 是 被 忽 视 的 。表 13.9 Log Determinants分 类-Rank刚 毛 茸 尾 花变 色 茸 尾 花佛 土 届 亚 茸口尾 花Pooled wilhin-groupsA 『AHAHA『Log Determinant5.3537.59410.4958.920The ranks and nalural logarilhms of determinants p 门 ntedare Ihose of the group covariance matrices.Box's MF表 13.10Approx.df1df2Sig.Test Results162.59677566 ,7.81120751000Tests null hypothesis of equal populalion cc13.3 贝 叶 斯 判 别 分 析目 前 世 界 上 有 三 大 统 计 学 派 : 经 典 学 派 ( 频 数 学 派 、 抽 样 学 派 ) , 信 念 学 派 ( 其 始 祖 就 是 Fish-• 273 •


er) 、 贝 叶 斯 学 派 。 它 们 有 不 同 的 统 计 哲 学 , 而 且 在 近 代 信 念 学 派 和 贝 叶 斯 学 派 常 常 不 和 , 学 术 上的 争 论 不 断 。 但 是 , 在 判 别 分 析 上 这 两 个 学 派 却 恰 恰 是 " 不 谋 而 合 " 的 , 结 果 可 以 很 好 地 互 相 转换 , 而 且 贝 叶 斯 判 别 要 比 典 型 判 别 更 好 用 ( 或 者 说 是 更 接 近 用 己 知 推 断 未 知 的 想 法 )。13.3. 1 方 法 原 理贝 叶 斯 学 派 的 基 本 思 想 就 是 利 用 己 去 口 的 先 验 ( 先 于 本 次 研 究 ) 概 率 去 推 证 将 要 发 生 的 后 验( 试 验 结 果 ) 概 率 , 其 公 式 可 以 在 任 何 一 本 数 理 统 计 的 书 上 找 到 , 在 此 就 不 再 详 述 了 。 贝 叶 斯 判别 分 析 就 是 利 用 贝 叶 斯 概 率 法 则 进 行 判 别 , 其 理 论 基 础 比 Fisher的 典 型 判 别 分 析 更 加 具 有 统 计理 论 支 持 。 假 设 qi (X) 为 g 个 总 体 的 分 布 密 度 ( 无 法 知 道 具 体 的 形 式 的 ) 为 假 设 的 先 验 概 率 , 而对 应 的 概 率 密 度 函 数 为 :+兀 (χ) = (2τ)-M|Vz|-l 飞 xp J 1 2 (X - X) , V - 1 i(X - X) 1,,- ,-, " ,,- ,- , r其 中 V 是 第 i 个 总 体 的 协 方 差 矩 阵 , k 是 变 量 个 数 。根 据 贝 叶 斯 概 率 公 式 可 以 得 出 , 把 类 t 的 样 本 判 别 为 类 i 的 事 后 概 率 是 :、 q 1: (X ) .• ~P \X ε[ Iχεtj=g , z=1 , 42 ,…, g: 二 q 1: (X)这 时 令 : Yi (X) = ln [q 1: (X 门 , 于 是 事 后 概 率 变 为 :exp [Yi (χ) ]p (X ε i Iχεt)=g , i=1 , 2 ,…, g: 二 叫 [Yi (X) ]ln I Y I + kln C2'1T) +α -X) 'y-1 cx -X)其 中 有 : Yi (X) = ln (q) - ,.., 而 这 里 的 (X-JDFVZ l(X-D2可 以 用 广 义 距 离 平 方 公 式 来 修 正 变 异 和 先 验 概 率 对 距 离 的 影 响 , 其 广 义 距 离 平 方 公 式 为 : D 2 (X)= d7 (X) + v (i) + w (i)。 其 中 当 组 内 变 异 相 等 时 采 用 合 并 协 方 差 矩 阵 , 这 时 v (i) = 0 , D7 (X) 就是 x 的 一 个 线 性 函 数 , 所 以 Yi (X) 也 是 x 的 一 个 线 性 函 数 : Yi (X) = bX + b O 否 则 采 用 组 内 协 方 差 矩阵 v (i) = ln ( I V iI )。 当 使 用 组 内 协 方 差 矩 阵 的 时 候 计 算 的 是 二 次 型 判 别 函 数 (Quadratic DiscriminantFunctions) 。对 于 广 义 距 离 平 方 公 式 在 各 总 体 的 先 验 概 率 相 等 时 w (i) = 0 , 否 则 先 验 概 率 不 相 等 时 w( i)= -21n(q) 。其 实 贝 叶 斯 判 别 分 析 就 是 计 算 每 个 样 本 的 后 验 概 率 以 及 判 错 率 , 用 最 大 后 验 概 率 来 划 分 样本 的 分 类 4 并 且 使 得 期 望 损 失 达 到 最 小 , 而 当 把 最 小 判 错 率 作 为 损 失 值 的 定 义 时 , 期 望 损 失 最 小原 则 就 变 成 了 期 望 判 错 率 最 小 原 则 , 进 一 步 讲 要 是 还 要 考 虑 取 得 不 同 自 变 量 的 数 值 是 具 有 代 价的 ( 及 收 集 样 本 的 费 用 ) , 如 何 使 得 特 征 变 量 的 代 价 最 优 , 此 时 就 是 序 贯 判 别 分 析 了 。总 结 一 下 典 型 判 别 分 析 和 贝 叶 斯 判 别 分 析 的 差 异 : 前 者 并 不 考 虑 样 本 的 具 体 分 布 , 只 求 组 间差 异 和 组 内 差 异 的 比 值 最 大 化 。 而 后 者 是 从 样 本 的 多 元 分 布 出 发 , 充 分 利 用 多 元 正 态 分 布 的 概4 请 读 者 注 意 , 这 是 在 样 本 的 先 验 概 率 都 是 相 等 的 条 件 下 得 到 的 用 最 大 后 验 概 率 预 测 样 本 的 说 法 。• 274 •


率 密 度 提 供 的 信 息 计 算 后 验 概 率 。 正 如 张 尧 庭 教 授 所 说 " 概 率 密 度 利 用 分 布 的 信 息 越 多 , 效 率就 越 高 , 条 件 也 就 越 苛 刻 。 好 东 西 啊 , 要 求 的 假 设 条 件 肯 定 越 多 "。13.3.2 软 件 实 现SPSS 可 以 完 整 的 实 现 Bayes 判 别 的 各 项 功 能 , 这 里 分 述 如 下 :(1) 先 验 概 率 的 设 定 : 在 Classify 子 对 话 杠 的 Prior Probabilities 单 选 杠 组 中 操 作 , All groupsequal 单 选 杠 指 定 每 类 的 先 验 概 率 相 等 , Compute from group sizes 单 选 杠 则 将 样 本 中 各 组 的 比 例作 为 先 验 概 率 , 选 择 这 个 的 时 候 最 好 先 考 虑 一 下 样 本 对 总 体 的 代 表 性 有 多 大 。 如 果 样 本 并 非 从总 体 中 随 机 抽 样 而 来 , 则 样 本 比 例 可 能 与 总 体 比 例 完 全 无 关 , 此 时 最 好 不 要 这 样 设 定 。(2) 距 离 的 计 算 方 式 : 即 前 面 提 到 的 广 义 距 离 平 方 公 式 不 同 算 法 的 选 择 , 在 Classify 子 对 话杠 中 的 Use Covariance Matrix 单 选 杠 组 中 操 作 , Within-groups 单 选 杠 为 默 认 值 , 设 定 为 组 内 变 异相 等 , 于 是 采 用 合 并 协 方 差 矩 阵 , 这 时 v (0 = 00 Separate-groups 单 选 杠 则 是 认 为 组 内 变 异 不 相等 , 所 以 采 用 组 内 协 方 差 矩 阵 , 这 时 v (0 = ln ( I V. I ) , 并 且 SPSS 会 给 出 判 别 得 分 的 协 方 差 矩 阵以 及 齐 次 性 检 验 。 如 果 选 择 了 后 者 , 则 交 互 验 证 功 能 将 不 可 用 , 这 是 因 为 目 前 为 止 采 用 组 内 协 方差 矩 阵 计 算 的 交 互 印 证 的 算 法 理 论 还 没 有 给 出 。(3) 判 别 函 数 表 达 式 : 在 Statistics 子 对 话 杠 中 , 就 是 左 下 角 的 Fisher 框 , 这 一 点 非 常 特 殊 , 因为 许 多 教 材 中 将 典 型 判 别 分 析 称 为 Fisher 判 别 , 而 SPSS 认 为 Bayes 判 别 中 的 基 本 思 想 , 即 按 判别 函 数 值 最 大 的 一 组 进 行 归 类 这 种 思 想 是 Fisher 提 出 来 的 , 因 此 将 该 方 法 称 为 Fisher 线 性 判 别函 数 , 大 家 不 要 弄 泪 。在 本 例 中 如 果 采 用 Bayes 判 别 函 数 进 行 分 析 , 则 软 件 会 为 每 一 类 都 生 成 一 个 函 数 式 , 分 析 结果 中 的 相 应 表 格 如 表 13.11 所 示 。表 13.11Classification Function Coefficients分 类日 1) 毛 茸 尾 花 变 色 茸 尾 花 佛 吉 尼 亚 莺 尾 花花 草 享 长 1.687 1.10 才 .865花 草 享 宽 2.695 1.070 747花 瓣 长 -.880 1.00 才 1.647花 瓣 竟 -2.284 .197 1.695(Constant) -80.268 -71.196 -103.890Fisher's linear discriminant functions表 13.11 即 为 相 应 Fisher 判 别 函 数 的 系 数 , 据 此 可 以 写 出 判 别 函 数 式 如 下 :刚 毛 王 军 尾 花 y = - 80. 268 + 1. 687 x 尊 长 +2.695 x 尊 宽 -0.880 x 瓣 长 -2.284 x 瓣 宽变 色 王 军 尾 花 y = - 71. 196 + 1. 101 x 尊 长 + 1. 070 x 尊 宽 +1.∞ 1 x 瓣 长 +0. 197 x 瓣 宽佛 吉 尼 亚 王 军 尾 花 : Y = -103.890 +0. 865 x 尊 长 +0.747 x 尊 宽 + 1. 647 x 瓣 长 + 1. 695 x 瓣 宽下 面 就 可 以 利 用 这 些 判 别 式 直 接 计 算 新 观 测 属 于 各 类 的 评 分 , 得 分 最 高 的 一 类 就 是 该 观 测相 应 的 类 别 。 同 样 对 第 一 条 记 录 可 以 计 算 出 结 果 如 下 :• 275 •


刚 毛 王 军 尾 花 y = - 80. 268 + 1. 687 x 50 + 2. 695 x 另 一 0.880 x 14 -2. 284 x2 =76.129变 色 王 军 尾 花 Y = -71. 196 + 1. 101 x50 + 1. 070 x33 + 1. 001 x 14 +0.197 x2 =33. 572佛 吉 尼 亚 王 军 尾 花 : Y = -103.890 +0. 865 x50 +0.747 x33 + 1. 647 x 14 + 1. 695 x2 = -9.541由 于 刚 毛 花 判 别 函 数 的 得 分 最 高 , 因 此 和 前 面 相 同 , 判 别 结 果 为 将 其 归 为 刚 毛 花 一 类 。13.4 对 判 别 分 析 的 进 一 步 讨 论13.4. 1 逐 步 判 别 分 析提 到 判 别 分 析 中 自 变 量 的 选 择 问 题 , 通 常 人 们 想 到 的 是 逐 步 判 别 分 析 。 其 实 这 牵 涉 到 一 个理 论 和 实 际 情 况 分 离 的 矛 盾 。 对 这 里 的 数 据 使 用 各 种 逐 步 判 别 分 析 , 4 个 变 量 都 能 被 选 择 进 入模 型 。 可 是 前 面 在 没 有 做 逐 步 判 别 分 析 的 时 候 知 道 只 选 择 " 花 瓣 长 " 这 个 变 量 做 判 别 分 析 也 可以 得 到 很 好 的 结 果 。 其 实 不 同 逐 步 判 别 方 法 的 设 置 方 式 是 等 价 的 , 都 是 不 停 计 算 不 同 自 变 量 组合 , 看 得 到 结 果 是 否 总 体 之 间 存 在 显 著 性 的 差 异 。 这 里 只 是 简 单 的 介 绍 SPSS 默 认 的 方 法 , 其 他的 就 不 再 多 介 绍 了 。SPSS 默 认 的 判 别 方 法 是 Wilks' Lambda 法 。 假 设 r = n - 1 一 句 + g) /2, h = g - 1 (n 为 样 本量 , g 为 分 组 个 数 , q 为 被 选 择 的 变 量 个 数 ), W 为 组 内 协 方 差 矩 阵 , T 为 混 合 总 体 的 总 协 方 差 矩阵 ( 当 然 , 在 计 算 的 时 候 是 采 用 样 本 矩 阵 去 估 计 总 体 矩 阵 )。 于 是 A=IWI/ITI 就 作 为 一 个 描 述g 个 总 体 之 间 差 异 的 指 标 , 其 值 越 小 说 明 差 异 越 大 。 这 种 方 法 在 样 本 数 据 不 服 从 多 元 正 态 的 时候 是 具 有 稳 健 性 的 , 不 像 Box's M 统 计 量 ( 其 实 SPSS 、 SAS 都 提 供 的 是 Bartlett'S X2 检 验 ) 对 正 态 性要 求 很 高 。逐 步 判 别 分 析 的 选 项 都 放 置 在 Method 子 对 话 杠 中 , 其 选 项 和 结 果 输 出 都 和 线 性 回 归 中 的 逐步 法 非 常 相 似 , 因 此 这 里 不 再 详 述 。13.4.2 判 别 分 析 和 因 子 分 析 的 相 似 性 和 差 异判 别 分 析 在 探 索 数 据 结 构 的 用 法 和 因 子 分 析 有 类 似 的 效 果 。 差 别 在 于 判 别 分 析 的 结 构 反 映在 因 变 量 的 不 同 水 平 上 , 而 因 子 分 析 的 结 构 反 映 的 是 不 可 测 量 的 潜 变 量 。 前 者 是 因 果 模 型 (DependenceModeD , 研 究 的 是 自 变 量 如 何 影 响 因 变 量 , 后 者 是 相 依 模 型 CInterdependence ModeD , 在研 究 上 没 有 因 变 量 , 自 变 量 的 区 分 。 所 以 在 探 索 结 构 的 时 候 ; 两 者 就 有 差 异 , 判 别 分 析 是 尝 试 找到 这 种 结 构 或 者 几 个 维 度 : 在 维 度 上 因 变 量 的 不 同 层 次 差 异 最 大 。 因 子 分 析 是 尝 试 找 到 某 种 结构 或 者 几 个 维 度 使 得 变 量 之 间 的 结 构 关 系 更 加 清 晰 。 总 之 , 记 住 判 别 分 析 的 坐 标 轴 是 第 一 、 二 判别 函 数 , 其 作 用 是 标 识 每 个 样 本 的 位 置 以 及 不 同 因 变 量 的 结 构 关 系 ; 因 子 分 析 的 坐 标 轴 是 第 一 、二 因 子 , 其 作 用 是 标 识 每 个 变 量 的 绝 对 位 置 以 及 位 置 之 间 所 揭 示 的 结 构 关 系 。13.4.3 二 类 判 别 和 多 重 回 归 的 等 价 性如 果 类 别 数 为 2 , 则 判 别 分 析 被 称 为 两 类 判 别 。 对 于 这 样 的 数 据 , 可 以 构 造 以 下 虚 拟 变 量 :• 276 •「 一 1, 当 其 属 于 4 类 时Y=i1 , 当 其 属 于 B 类 时


此 时 可 用 该 哑 变 量 作 为 因 变 量 进 行 回 归 分 析 , 其 中 判 别 系 数 的 检 验 和 多 重 回 归 中 的 每 个 变量 回 归 系 数 的 t 检 验 等 价 , 且 有 成 比 例 的 关 系 。 而 这 时 t 检 验 又 与 检 验 每 个 变 量 对 错 判 率 影 响 的显 著 性 是 等 价 的 。这 里 采 用 孙 尚 拱 所 著 的 《 实 用 判 别 分 析 》 书 中 的 数 据 " 回 归 和 判 别 的 比 较 .SAγ' 进 行 分 析 。回 归 模 型 为 y = x 1 + x2 + x3 + x4 + β。。 计 算 得 到 的 结 果 和 未 标 准 化 的 判 别 系 数 比 较 ( 采 用 与 因变 量 相 比 ) 如 表 13.12 所 示 。表 13.12回 归 分 析 和 判 别 分 析 的 系 数 比 较回 归 判 别 系 数 比 值铜 蓝 蛋 白 0.001 709 0.007 644 0.223 579蓝 色 反 应 0.010 043 0.044921 0.223 579口 51 噪 乙 酸 0.037 51 0.167 771 0.223 579中 性 硫 化 物 0.007 026 0.031 427 0.223 579常 数 项 -2.001 25 -8.95098 0.223 579再 比 较 逐 步 判 别 分 析 的 结 果 , 其 判 别 模 型 中 选 择 的 是 " 蓝 色 反 应 "、" 呵 | 睐 乙 酸 " 两 个 变 量 , 在下 面 回 归 系 数 的 t 检 验 知 道 也 是 这 两 个 变 量 的 回 归 系 数 最 显 著 。 因 此 猜 测 两 者 的 自 变 量 的 显 著性 检 验 其 实 是 等 价 的 。 对 于 这 一 点 具 体 的 理 论 上 的 等 价 性 , 可 以 参 考 孙 尚 拱 所 著 的 《 实 用 判 别分 析 》 书 第 62 页 。 这 里 不 再 重 复 。思 考 与 练 习1. 建 立 经 典 线 性 判 别 分 析 模 型 的 主 要 步 骤 有 哪 些 ?2. 判 别 分 析 模 型 有 哪 些 主 要 应 用 领 域 , 几 种 方 法 各 自 的 原 理 是 什 么 ?3. 采 用 本 章 的 数 据 进 行 判 别 分 析 ( 分 别 用 两 种 方 法 做 ) , 评 价 贝 叶 斯 判 别 和 费 希 尔 判 别 在 实 际 不 同 数 据 判别 的 优 劣 。参 考 文 献1 Market Segmentation Using SPSS. SPSS Inc. Chicago , <strong>Il</strong>linois , 20002 Advanced Statistical Analysis Using SPSS. SPSS Inc. Chicago , <strong>Il</strong>linois , 20033 Richard Johnson 著 . 实 用 多 元 统 计 分 析 . 陆 璇 译 . 北 京 : 清 华 大 学 出 版 社 , 20014 孙 尚 拱 , 潘 恩 沛 . 实 用 判 别 分 析 . 北 京 : 科 学 出 版 社 , 19905 孙 尚 拱 . 医 学 多 变 量 统 计 与 统 计 软 件 . 北 京 : 北 京 医 科 大 学 出 版 社 , 20006 柯 惠 新 , 祝 建 华 , 孙 江 华 . 传 播 统 计 学 . 北 京 : 北 京 广 播 学 院 出 版 社 , 20037 张 文 膨 . SPSS 11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 北 京 希 望 电 子 出 版 社 , 20028 张 尧 庭 . 多 元 统 计 分 析 选 讲 . 北 京 : 中 国 统 计 出 版 社 , 20029 于 秀 林 , 任 雪 松 . 多 元 统 计 分 析 . 北 京 : 中 国 统 计 出 版 社 , 199910 高 惠 旋 . SAS 系 统 . SAS/STAT 软 件 使 用 于 册 . 北 京 : 中 国 统 计 出 版 社 , 1998• 277 •


第 14章 典 型 相 关 分 析在 一 元 统 计 分 析 中 , 研 究 两 个 随 机 变 量 之 间 的 线 性 相 关 关 系 , 可 以 用 简 单 相 关 系 数 ; 研 究 一个 随 机 变 量 与 多 个 随 机 变 量 之 间 的 线 性 相 关 关 系 , 可 用 复 相 关 系 数 。 但 如 果 要 研 究 两 组 变 量 的相 关 关 系 时 , 这 些 统 计 方 法 就 无 能 为 力 了 。 在 现 实 生 活 中 , 两 组 变 量 之 间 具 有 相 关 关 系 的 问 题 很多 , 例 如 投 资 性 变 量 ( 如 劳 动 者 人 数 、 货 物 周 转 量 、 生 产 建 设 投 资 等 ) 与 国 民 收 入 变 量 ( 如 工 农 业国 内 收 入 、 运 输 业 国 内 收 入 、 建 筑 业 国 内 收 入 等 ) 具 有 相 关 关 系 ; 运 动 员 的 体 力 测 试 指 标 ( 如 反 复横 向 跳 、 纵 跳 、 背 力 、 握 力 等 ) 与 运 动 能 力 测 试 指 标 ( 如 耐 力 跑 、 跳 远 、 投 球 等 ) 之 间 具 有 相 关 关 系坐寸1936 年 Hotelling 首 先 提 出 了 典 型 相 关 分 析 法 , 用 于 研 究 一 组 随 机 变 量 与 另 一 组 随 机 变 量 之间 的 相 关 关 系 。 它 借 用 了 主 成 分 分 析 的 思 想 , 根 据 变 量 间 的 相 关 关 系 , 寻 找 一 个 或 少 数 几 个 综 合变 量 ( 实 际 观 察 变 量 的 线 性 组 合 ) 对 来 替 代 原 变 量 , 从 而 将 二 组 变 量 的 关 系 集 中 到 少 数 几 对 综 合变 量 的 关 系 上 。14. 1 方 法 介 绍14. 1. 1 典 型 相 关 分 析 的 基 本 思 想典 型 相 关 分 析 就 是 研 究 两 组 变 量 之 间 相 关 关 系 的 一 种 多 元 统 计 分 析 方 法 , 设 两 组 变 量 用X]' 皂 ,… , Xp 及 Y]' 飞 ,… , Yq 表 示 , 要 研 究 两 组 变 量 的 相 关 关 系 , 一 种 方 法 是 分 别 研 究 X i 与 毛 (i =1, 2 ,… ,p;j = 1 , 2 ,… , q) 之 间 的 相 关 关 系 , 然 后 列 出 相 关 系 数 表 进 行 分 析 , 当 两 组 变 量 较 多 时 , 这种 做 法 不 仅 烦 琐 , 也 不 易 抓 住 问 题 的 实 际 ; 另 一 种 方 法 是 采 用 类 似 于 主 成 分 分 析 的 做 法 , 在 每 一组 变 量 中 都 选 择 若 干 个 有 代 表 性 的 综 合 指 标 ( 变 量 的 线 性 组 合 ) , 通 过 研 究 两 组 综 合 指 标 之 间 的关 系 来 反 映 两 组 变 量 之 间 的 相 关 关 系 。 怎 样 寻 找 综 合 指 标 , 使 它 们 之 间 具 有 最 大 的 相 关 性 , 这 就是 典 型 相 关 分 析 问 题 。典 型 相 关 分 析 首 先 在 每 组 变 量 中 找 出 变 量 的 线 性 组 合 , 使 其 具 有 最 大 相 关 性 , 然 后 再 在 每 组变 量 中 找 出 第 二 对 线 性 组 合 , 使 其 与 第 一 对 线 性 组 合 不 相 关 , 而 第 二 对 本 身 具 有 最 大 相 关 性 , 如此 继 续 下 去 , 直 到 两 组 变 量 之 间 的 相 关 性 被 提 取 完 毕 为 止 。 这 些 综 合 变 量 被 称 为 典 型 变 量 , 或 典则 变 量 , 第 I 对 典 型 变 量 间 的 相 关 系 数 则 被 称 为 第 I 典 型 相 关 系 数 。 一 般 来 说 , 只 需 要 提 取 1 ~ 2对 典 型 变 量 即 可 较 为 充 分 的 概 括 样 本 信 息 。设 两 组 变 量 用 X= (X]' 皂 ,…, XJP 及 Y= (Y]' 飞 ,…, 飞 ) I 表 示 ( 设 p~q) 。 设 p + q 维 随 机• 278 •


.~/ x\ .. .. '"~. ($11 .4'12 \向 量 Z = I ~T~J 的 协 差 阵 .4' = I '""" '"".~ 1 ' 其 中 .4' 11 是 X 的 协 差 阵 ,.4' 泣 是 Y 的 协 差 阵 ,.4' 12 =.4" 21 是 x ,飞 YI \ .4'21 .4' 泣 !Y 的 协 差 阵 。用 X 和 Y 的 线 性 组 合 u= α 'x , V=b'Y 之 间 的 相 关 来 研 究 X 和 Y 之 间 的 相 关 性 。 典 型 相 关分 析 的 目 的 就 是 希 望 找 到 向 量 α 和 b , 使 ρ 阳 , V) 最 大 , 从 而 找 到 替 代 原 始 变 量 的 典 型 变 量 U 和V。 在 实 际 问 题 中 , 也 可 以 从 样 本 的 相 关 阵 R 出 发 来 计 算 样 本 的 典 型 相 关 系 数 和 典 型 变 量 。可 以 证 明 , 当 两 个 变 量 组 均 只 有 一 个 变 量 时 , 典 型 相 关 系 数 即 为 简 单 相 关 系 数 ; 当 一 组 变 量只 有 一 个 变 量 时 , 典 型 相 关 系 数 即 为 复 相 关 系 数 。 故 可 以 认 为 典 型 相 关 系 数 是 简 单 相 关 系 数 、 复相 关 系 数 的 推 广 , 或 者 说 简 单 相 关 系 数 、 复 相 关 系 数 是 典 型 相 关 系 数 的 特 例 。14. 1. 2 典 型 相 关 分 析 的 数 学 描 述 4典 型 相 关 系 数 的 数 学 运 义 为 :ov (U, V)α ' .4' 12 bρ (U , V) =飞 幅 只 U) / 而 只 有 Jτ 11 a fbτ2 b由 于 随 机 变 量 乘 以 常 数 不 改 变 其 相 关 系 数 , 为 阳 止 不 必 要 的 结 果 重 复 出 现 , 最 好 在 其 中 附 加如 下 约 束 条 件 :Vα r (U) = α ' .4' 11 a = 1 V,α r (V) = b' .4'22 b = 1这 里 不 加 证 明 的 引 入 该 问 题 的 求 解 结 果 , 详 细 推 导 可 以 参 考 相 关 书 籍 。记 A = .4' 1~ 1 .4'12.4'2; 1 .4'21 , B = .4'2; 1 .4'21 .4' 1~ 1 .4'12 ' 则 有 4α=λ 切 , Bb = λ 2b , 其 中 λ2 既 是 4 又 是 B 的 特征 根 , α 和 b 就 是 对 应 于 4 和 B 的 特 征 向 量 。在 实 际 问 题 中 , 也 可 以 从 样 本 的 相 关 阵 R 出 发 来 计 算 样 本 的 典 型 相 关 系 数 和 典 型 变 量 。 己生 日 p +q 维 总 体 Z 的 n 次 中 心 化 观 测 数 据 阵 为 :Z = (X y)将 样 本 的 相 关 相 关 矩 阵 R 剖 分 为 :R=(;::;::)若 { 固 定 z ~ Np + q (0 ,.4') , 则 协 差 阵 z 的 最 大 似 然 估 计 为 :s=二1 /X'X X'Y\ ß {SII S12\Z'Z= 二 \= I \n n \ Y' X Y' Y I \ S21 S22 J可 以 根 据 样 本 协 差 阵 S 出 发 , 去 研 究 两 组 变 量 间 的 相 关 关 系 。 有 :.4' 11 = S1 R lI S 1.4' 22 = S2R 22 S 2将 其 代 入 前 述 4 、 B 的 表 达 式 , 得 :.4' 12 = S1 R 12 S 24 对 算 法 不 感 兴 趣 的 读 者 可 跳 过 本 小 节 , 不 影 响 对 其 余 内 容 的 理 解 。• 279 •


(Rl~lR12R2;lR21 -Â;) (Slâ ω) =0(R2;lR21Rl~lR12 -Â;) (S/) ω) =0则 Slâ ω , S/) ω 分 别 为 矩 阵 Rl~l R 12 R 2 ;1 R 21 , R 2 ;1 R21Rl~1 R 12 的 相 应 于 特 征 根 材 的 特 征 向 量 。从 而 得 到 第 i 对 样 本 的 典 型 变 量 为 :从 而 可 以 得 到 第 i 个 典 型 相 关 系 数 λ 。uz=d ω'x , vz=8ω Y i= 1, 2 , … ,p14.2 分 析 实 例例 14.1 为 研 究 运 动 员 体 力 与 运 动 能 力 的 关 系 , 对 某 高 中 二 年 级 男 生 38 人 进 行 体 力 测 试( 共 7 项 指 标 ) 及 运 动 能 力 测 试 ( 共 5 项 指 标 ) , 参 见 图 14. 1, 数 据 见 ccoη. savo体 力 测 试 指 标 : 址 : 反 复 横 向 跳 ( 次 ) , χ2: 纵 跳 (cm) , x3: 背 力 (kg) , χ4: 握 力 (kg) , x5: 台 阶 试验 ( 指 数 ) , 而 : 立 运 体 前 屈 (cm) , χ7: 俯 卧 上 体 后 仰 (cm) 。运 动 能 力 测 试 指 标 :y1 :50 米 跑 ( 秒 ) , y2: 跳 远 (cm) , y3: 投 球 (m) , 叫 : 引 体 向 上 ( 次 ) , β: 耐力 跑 (s) 。图 14. 1 体 力 与 运 动 能 力 测 试 数 据 ( 部 分 )根 据 要 求 需 要 分 析 两 组 变 量 之 间 的 相 关 性 , 虽 然 可 以 计 算 两 组 变 量 间 的 简 单 相 关 系 数 矩 阵 ,但 难 以 整 体 把 握 各 变 量 之 间 的 关 系 , 也 不 能 确 定 变 量 之 间 是 简 单 相 关 还 是 复 相 关 , 因 此 最 合 适 的方 法 还 是 将 两 组 变 量 各 自 作 为 整 体 进 行 典 型 相 关 分 析 。在 SPSS 中 可 以 有 两 种 方 法 来 拟 合 典 型 相 关 分 析 , 第 一 种 是 采 用 Manova 过 程 来 拟 合 , 第 二 种是 采 用 专 门 提 供 的 宏 程 序 来 拟 合 , 后 者 在 使 用 上 非 常 简 单 , 而 输 出 的 结 果 又 非 常 详 细 , 因 此 这 里只 对 其 他 进 行 介 绍 。 该 程 序 名 为 Canonical correlation. sps , 就 放 在 SPSS 的 安 装 路 径 之 中 , 调 用 方式 如 下 ::I NCLUDE'SPSS 所 在 路 径 \Canonical correlation. sps'.!CANCORR SET1 = 第 一 组 变 量 的 列 表/SET2 = 第 二 组 变 量 的 列 表 .• 280 •


在 程 序 中 首 先 应 当 使 用 INCLUDE 命 令 读 入 典 型 相 关 分 析 的 宏 程 序 , 然 后 使 用 CANCORR 名 称 调用 典 型 相 关 分 析 。 注 意 INCLUDE 语 句 只 需 要 运 行 一 次 , 随 后 在 关 闭 SPSS 前 宏 程 序 会 一 直 驻 留内 存 , 以 后 重 复 分 析 时 只 需 要 运 行 CANCORR 命 令 即 可 。 注 意 最 后 的 " " 表 示 整 个 语 句 结 束 , 不能 遗 漏 。 如 本 例 可 以 在 Syntax 窗 口 中 输 入 以 下 程 序 :INCLUDE 'C: \program files \spss\Canonical correlation. sps'CANCORR SET1 = X1 to X7/SET2 = Y1 to Y5 .选 择 菜 单 Run→ Run , 运 行 上 述 程 序 , 即 可 得 到 典 型 相 关 分 析 结 果 。 因 结 果 输 出 内 容 较 多 ,下 面 将 分 节 对 其 加 以 解 释 。14.2.1 两 组 变 量 间 的 相 关 系 数接 下 来 三 个 方 杠 分 别 输 出 的 是 体 力 测 试 指 标 内 部 的 相 关 系 数 、 运 动 能 力 测 试 指 标 内 部 的 相关 系 数 以 及 两 组 指 标 间 相 关 系 数 。Run MATRIX procedure:Correlations for Set - 1x1 x2 x3 x4 x5 x6 x7x1 1.0000 .2692 .1836 一 .0321 .2390 .0614 一 .1524x2 .2692 1.0000 .0598 .0406 一 .0653 .3463 .2426x3 .1836 .0598 1.0000 .1768 一 .3106 一 .0588 一 .2976x4 一 .0321 .0406 .1768 1.0000 一 .0361 .0524 .1773x5 .2390 一 .0653 一 .3106 一 .0361 1.0000 .0507 .3557x6 .0614 .3463 一 .0588 .0524 .0507 1.0000 .2737x7 一 .1524 .2426 一 .2976 .1773 .3557 .2737 1.0000由 体 力 测 试 指 标 内 部 相 关 系 数 看 , 各 指 标 间 相 关 系 数 较 小 , 即 指 标 间 没 有 多 大 的 重 复 。 如 果两 个 指 标 相 关 系 数 很 大 , 可 能 这 两 个 指 标 反 映 的 是 同 一 个 方 面 , 可 以 考 虑 合 并 。Correlations for Set - 2y1 y2 y3 y4 y5y1 1.0000 一 .4429 一 .2647 一 .4629 .0777y2 一 .4429 1.0000 .4989 .6067 一 .4744y3 一 .2647 .4989 1.0000 .3562 一 .5285y4 一 .4629 .6067 .3562 1.0000 一 .4369y5 .0777 一 .4744 一 .5285 一 .4369 1.0000运 动 能 力 测 试 指 标 间 的 相 关 系 数 也 比 较 类 似 , 不 过 y2 ( 跳 远 ) 和 y4 ( 引 体 向 上 ) 之 间 的 相 关系 数 较 大 , 达 到 0.6067 , 这 两 个 指 标 之 间 似 乎 有 较 大 联 系 。• 281 •


Correlations Between Set - 1 and Set - 2y1 y2 y3 y4 y5x1 一 .3866 .3537 .4092 .2682 一 .4677x2 一 .3900 .5584 .3977 .4511 一 .0488x3 一 .1306 .3082 .1899 .1884 一 .2235x4 一 .2834 .2711 一 .0414 .2470 一 .1007x5 一 .4327 一 . 1822 一 .0117 .1444 一 .0155x6 一 .0800 .2596 .3310 .2359 一 .2939x7 一 .2643 .1140 .0284 .0516 .2096分 组 相 关 系 数 之 后 输 出 的 是 体 力 与 运 动 能 力 之 间 的 相 关 性 系 数 , 从 二 者 的 直 接 相 关 系 数 看 ,只 有 x2 C 纵 跳 ) 和 y2 C 跳 远 ) 之 间 有 关 联 程 度 较 大 , 相 关 系 数 为 0.558 4 , 而 其 他 体 力 指 标 和 运 动能 力 指 标 间 的 直 接 关 联 不 大 , 更 多 的 可 能 是 综 合 影 响 。 但 是 , 由 于 变 量 间 的 交 互 作 用 , 因 此 这 个简 单 相 关 系 数 矩 阵 只 能 作 为 参 考 , 不 能 真 正 反 映 两 组 变 量 间 的 实 质 联 系 。14.2.2 典 型 相 关 系 数 及 显 著 性 检 验接 下 来 方 杠 中 的 文 本 输 出 显 示 了 典 型 相 关 分 析 的 结 果 。 第 一 典 型 相 关 系 数 为 0.763 , 第 二典 型 相 关 系 数 为 0.706 , 第 二 典 型 相 关 系 数 为 0.607 , 均 比 体 力 指 标 和 运 动 能 力 指 标 两 组 间 的 任一 个 相 关 系 数 大 , 即 综 合 的 典 型 相 关 分 析 效 果 好 于 简 单 相 关 分 析 。Canonical Correlations1 .7632 .7063 .6074 .3325.295由 于 此 处 的 典 型 相 关 系 数 都 是 从 样 本 数 据 算 得 的 , 和 简 单 相 关 系 数 一 样 , 这 里 也 有 必 要 进 行其 总 体 系 数 是 否 为 O 的 假 设 检 验 。 此 处 采 用 的 是 Bartlett 的 扩 检 验 , 零 假 设 为 对 应 的 典 型 相 关 系数 为 0 。 由 随 后 方 杠 中 的 检 验 结 果 得 知 , 第 一 典 型 相 关 系 数 和 第 二 典 型 相 关 系 数 的 显 著 性 概 率CSig. ) 为 0.001 和 0.015 , 在 α=0.05 的 情 况 下 , 否 定 典 型 相 关 系 数 为 零 的 假 设 , 说 明 这 两 对 典 型变 量 间 的 相 关 性 是 显 著 的 。 实 际 上 , 如 果 rj 无 统 计 学 意 义 , 则 其 后 的 rj + 1 川 +2' … , rp 肯 定 也 无 统计 学 意 义 , 只 是 统 计 软 件 由 于 计 算 方 便 , 故 将 检 验 结 果 一 并 输 出 了 。Test that remaining correlations are zero:Wilk I 自 Chi - SQ DF Sig.1 .108 67. 970 35.000 .0012 .258 4 1. 378 24.000 .0153 .513 20. 344 15.000 .1594 .812 6. 340 8.000 .6095 .913 2. 772 3.000 .428• 282 •


从 以 上 分 析 结 果 可 知 , 体 力 测 试 指 标 和 运 动 能 力 测 试 指 标 相 关 性 的 研 究 可 以 转 化 为 研 究 第一 对 典 型 相 关 变 量 之 间 的 关 系 以 及 第 二 对 典 型 相 关 变 量 之 间 的 关 系 。14.2.3 典 型 变 量 的 系 数以 下 结 果 中 会 输 出 原 始 变 量 CRaw Canonical Coefficients) 和 标 准 化 变 量 CStandardized CanonicalCoefficients)的 典 型 相 关 变 量 的 换 算 系 数 。 由 于 体 力 和 运 动 能 力 变 量 没 有 相 同 的 量 纲 , 因 此最 好 使 用 标 准 化 的 系 数 。Standardized Canonical Coefficients for Set - 12 3 4 5x1 .314 .171 .761 .429 .579x2 .628 一 .463 一 .542 一 .477 一 .290x3 .295 .005 .019 一 .004 .053x4 .309 .155 一 .078 .622 一 .689x5 .335 .841 一 .628 一 .445 一 .204x6 .033 .146 .599 一 .483 一 .270x7 .077 一 .390 一 .082 .528 .935Raw Canonical Coefficients for Set - 11 2 3 4 5x1 .092 .050 .223 .126 .170x2 .084 一 .062 一 .073 一 .064 一 .039x3 .014 .000 .001 .000 .003x4 .058 .029 一 .014 .116 一 .129x5 .023 .058 一 .044 一 .031 一 .014x6 .005 .025 . 101 一 .081 一 .045x7 .009 一 .047 一 .010 .063 .113Standardized Canonical Coefficients for Set - 21 2 3 4 5y1 一 .578 一 .753 .321 一 .440 一 .508y2 .299 一 1. 087 .297 .807 一 .068y3 .199 一 .267 .164 一 .981 .700y4 .228 .038 一 .475 一 .812 一 .956y5 .033 一 .882 一 .845 一 .396 .228Raw Canonical Coefficients for Set - 21 2 3 4 5y1 一 1.648 一 2. 147 .914 一 1. 255 - 1. 450y2 .007 一 .026 .007 .019 一 .002y3 .072 一 .097 .060 一 .357 .255y4 .060 .010 一 .126 一 .215 一 .253y5 .001 一 .028 一 .027 一 .013 .007• 283 •


由 这 两 对 典 型 变 量 的 系 数 , 可 以 研 究 体 力 和 运 动 能 力 指 标 之 间 的 相 关 关 系 。 从 结 果 中 可 以看 出 一 个 特 殊 状 况 , 变 量 y1 (50 m ß{!D 的 系 数 为 负 , 即 所 耗 时 间 越 短 , 表 示 运 动 能 力 越 强 。由 以 上 输 出 可 知 , 来 自 于 体 力 指 标 的 第 一 典 型 变 量 的 计 算 公 式 为 ( 注 意 公 式 中 均 为 标 准 化变 量 ) :U1 =0. 314x1 +0.628χ2 +0. 295χ3 + O. 309x4 + O. 335χ5 +0.033χ6 +0.077χ7来 自 于 运 动 能 力 指 标 的 第 一 典 型 变 量 :V1 = -0. 578y1 +0. 299y2 +0. 199y3 +0. 228y4 +0. 033y5在 第 一 对 典 型 变 量 中 , 大 部 分 变 量 的 系 数 都 比 较 均 匀 , 无 论 是 体 力 指 标 还 是 运 动 能 力 指 标 的系 数 都 表 明 , 其 测 试 结 果 越 好 , 则 表 明 其 综 合 运 动 能 力 越 强 , 可 以 解 释 为 全 面 能 力 程 度 。 其 中 注意 川 的 系 数 为 负 , 即 时 间 越 短 , 则 综 合 运 动 能 力 越 高 。来 自 于 体 力 指 标 的 第 二 典 型 变 量 为 :U2 = O. 171x1 - 0.463χ2 +0.005χ3 + O. 155χ4 +0. 841χ5+0.146χ6 -0. 390x7来 自 于 运 动 能 力 指 标 的 第 二 典 型 变 量 为 :V2 = -0. 753y1 -1. 087y2 -0. 267y3 +0. 038y4 -0. 882y5在 第 二 对 典 型 变 量 中 , 在 体 力 指 标 中 x2 ( 纵 跳 ) 和 x5 ( 台 阶 试 验 ) 的 系 数 较 大 , 在 运 动 能 力 指标 中 y1 (50 m ß{!D 、 y2 ( 跳 远 ) 和 β( 耐 力 跑 ) 的 系 数 较 大 , 所 以 第 二 对 典 型 变 量 可 以 解 释 为 腿 部能 力 的 关 系 , 表 示 跑 和 跳 的 能 力 。14.2.4 典 型 结 构 分 析典 型 结 构 进 行 分 析 即 分 析 原 始 变 量 和 典 型 变 量 之 间 的 相 关 程 度 , 由 于 前 面 的 检 验 说 明 只 有第 一 对 和 第 二 对 典 型 变 量 有 统 计 学 意 义 , 因 此 此 处 只 考 虑 这 两 对 变 量 即 可 。Canonical Loadings表 示 一 组 原 始 变 量 与 其 相 应 的 典 型 变 量 之 间 的 关 系 , 如 体 力 测 试 指 标 原始 变 量 与 表 示 体 力 的 典 型 变 量 U1 之 间 的 变 系 ; Cross Loadings 表 示 一 组 原 始 变 量 与 其 对 立 的 典型 变 量 之 间 的 关 系 , 如 表 示 运 动 能 力 的 原 始 变 量 与 表 示 体 力 的 典 型 变 量 U1 之 间 的 关 系 。Canonical Loadings for Set - 1 表 示 表 示 体 力 指 标 的 原 始 变 量 与 表 示 体 力 的 典 型 变 量 U1 之 间的 相 关 分 析 。 在 第 一 对 典 型 变 量 中 , 所 有 体 力 指 标 通 过 典 型 变 量 与 除 y1 (50 m 跑 ) 和 β( 耐 力跑 ) 之 外 的 运 动 能 力 指 标 里 正 相 关 关 系 , 符 合 实 际 情 况 。根 据 以 上 结 果 可 以 做 出 第 一 对 典 型 变 量 和 原 始 变 量 的 典 型 结 构 示 意 图 如 图 14.2 所 示 。Canonical Loadings for Set - 2 表 示 运 动 能 力 的 原 始 变 量 和 典 型 变 量 V1 之 间 的 相 关 分 析 。 y1和 y5 与 日 的 相 关 系 数 为 负 , 而 且 β 与 日 的 相 关 系 数 (-0.358) 与 β 在 V1 上 的 典 型 系 数(0.033) 反 号 , 因 此 β( 耐 力 跑 ) 在 这 两 组 变 量 中 是 一 个 校 正 变 量 , 可 以 作 为 y1 对 V1 影 响 的 一 个修 正 。一 个 变 量 同 典 型 变 量 的 相 关 系 数 与 其 在 典 型 变 量 上 的 系 数 符 号 相 反 似 乎 矛 盾 , 不 过 在 多 个原 始 变 量 之 间 也 存 在 紧 密 相 关 的 情 况 下 这 是 正 常 的 , 其 表 现 与 回 归 分 析 中 的 多 重 共 线 性 相 类 似 ,在 典 型 相 关 分 析 中 通 过 典 型 结 构 分 析 可 以 找 出 这 种 联 系 。Cross Loadings 表 示 一 组 原 始 变 量 与 其 对 立 的 典 型 变 量 之 间 的 关 系 , 可 以 用 于 判 断 一 个 原 始指 标 是 否 可 以 用 其 对 立 的 典 型 变 量 进 行 预 测 , 本 例 中 比 较 有 用 的 是 判 断 表 示 体 力 的 典 型 变 量 U1是 否 可 以 预 测 表 示 运 动 能 力 的 各 原 始 指 标 y1 ~β 。• 284 •


Canonical Loadings for Set - 12 3 4 5x1 .598 .311 .521 .064 .325x2 .751 一 .510 一 . 111 一 .347 一 .012x3 .316 一 .118 .297 .166 一 .178x4 .380 .039 一 .081 .672 一 .551x5 .296 .773 一 .412 一 .170 .281x6 .306 一 .060 .399 一 .468 一 .128x7 .277 一 .163 一 .409 .167 .492Cross Loadings for Set - 12 3 4 5x1 .456 .220 .316 .021 .096x2 .573 一 .360 一 .067 一 .115 一 .003x3 .241 一 .083 .180 .055 一 .053x4 .290 .028 一 .049 .223 一 .162x5 .226 .546 一 .250 一 .056 .083x6 .234 一 .042 .242 一 .155 一 .038x7 .211 一 .115 一 .248 .056 .145Canonical Loadings for Set - 22 3 4 5y1 一 .866 一 .286 .300 一 .192 一 .204y2 .777 一 .446 .349 .207 一 .182y3 .564 一 .131 .505 一 .542 .340y4 .733 .017 一 .016 一 .295 一 .612y5 一 .358 一 .300 一 .840 .061 .269Cross Loadings for Set - 22 3 4 5y1 一 .660 一 .202 .182 一 .064 一 .060y2 .592 一 .315 .212 .069 一 .054y3 .431 一 .092 .306 一 .180 .100y4 .559 .012 一 .009 一 .098 一 .180y5 一 .273 一 .212 一 .510 .020 .079• 285 •


0.5640.733立 定 { 本 前 屈图 14.2第 一 对 典 型 变 量 的 典 型 结 构 图由 Cross Loadings for Set - 2 可 以 看 出 , y1 (50 m 跑 ) , y2 ( 跳 远 ) 和 y4 ( 引 体 向 上 ) 可 以 较 好 地由 表 示 体 力 指 标 的 典 型 变 量 U1 来 预 测 , 相 关 系 数 分 别 为 一 o. 66 、 0.592 和 0.559 决 定 系 数 分 别为 0.44 、 O. 35 和 0.31 。在 本 小 节 中 只 对 第 一 对 典 型 变 量 进 行 了 典 型 结 构 分 析 , 即 只 分 析 了 输 出 结 果 中 的 第 一 列 数据 , 由 于 第 二 对 典 型 变 量 表 示 腿 部 力 量 也 是 显 著 的 , 读 者 也 可 以 试 着 对 其 进 行 分 析 。14.2.5 典 型 冗 余 分 析典 型 冗 余 分 析 用 来 表 示 各 典 型 变 量 对 原 始 变 量 组 整 体 的 变 差 解 释 程 度 , 分 为 组 内 变 差 解 释和 组 间 变 差 解 释 , 以 下 输 出 即 为 典 型 冗 余 分 析 的 结 果 。Redundancy Analysis:Proportion of Variance of Set - 1 Explained by Its Own Can. Var.Prop VarCV1 -1 .203CVl-2CVl-3CVl-4CV1 -5.143.125.126. 111Proportion of Variance of Set - 1 Explained by Opposite Can. Var.Prop VarCV2 - 1 . 118CV2 -2CV2 -3CV2 -4CV2 -5• 286 •.071.046.014.010


由 以 上 结 果 可 知 , 来 自 于 体 力 指 标 的 第 一 典 型 变 量 U1 可 以 解 释 相 应 的 体 力 变 量 组 20.3%的 组 内 变 差 , 第 二 典 型 变 量 U2 可 以 解 释 体 力 变 量 组 14.3% 的 组 内 变 差 。注 意 体 力 指 标 和 运 动 能 力 指 标 之 间 有 因 果 关 系 , 因 此 变 差 解 释 并 不 完 全 是 双 向 的 , 比 如 说 根据 输 出 结 果 还 可 以 得 出 结 论 " 来 自 于 运 动 能 力 的 第 一 典 型 变 量 V1 可 以 解 释 对 立 的 体 力 变 量 组11. 8% 的 变 差 , 第 二 典 型 变 量 V2 只 能 解 释 体 力 变 量 组 7.1% 的 变 差 " 但 是 用 运 动 能 力 去 解 释 体力 , 好 像 有 些 因 果 颠 倒 , 因 此 是 不 合 适 的 。来 自 于 运 动 能 力 的 第 一 典 型 变 量 V1 可 以 解 释 相 应 的 运 动 能 力 变 量 组 46.8% 的 组 内 变 差 ,而 第 二 典 型 变 量 V2 则 只 能 解 释 7.8% 的 变 差 。来 自 于 体 力 指 标 的 第 一 典 型 变 量 U1可 以 解 释 对 立 的 运 动 能 力 变 量 组 27.2% 的 变 差 , 而 第二 典 型 变 量 U2 则 只 能 解 释 3.9% 的 变 差 。从 接 下 来 方 杠 中 的 结 果 看 , 第 二 典 型 变 量 不 管 是 对 相 应 原 始 变 量 组 还 是 对 立 的 原 始 变 量 组的 解 释 能 力 都 不 够 强 , 这 一 个 典 型 相 关 模 型 的 效 果 不 够 理 想 。Proportion of Variance of Set - 2 Explained by Its Own Can. Var.Prop VarCV2 -1 .468CV2 -2 .078CV2 -3 .235CV2 -4 .093CV2 -5 .127Proportion of Variance of Set - 2 Explained by Opposite Can. Var.Prop VarCV1 -1 .272CV1 -2 .039CVl-3.086CVl-4.010CVl-5.011一 一 一 一 一 - END MATRIX一 一 一 一 一再 仔 细 观 察 , 体 力 指 标 的 第 一 典 型 变 量 无 论 是 对 自 身 的 体 力 原 始 指 标 还 是 对 相 对 立 的 运 动能 力 原 始 指 标 的 解 释 程 度 都 比 较 差 , 说 明 我 们 选 择 的 体 力 指 标 变 量 组 可 能 不 是 太 恰 当 , 没 有 真 正反 映 体 力 和 运 动 能 力 的 关 系 , 需 要 重 新 补 充 或 调 整 , 从 典 型 结 构 分 析 中 可 以 看 出 , β 、 而 和 川 在第 一 和 第 二 典 型 变 量 中 的 影 响 都 很 小 , 可 以 考 虑 对 其 进 行 调 整 , 并 补 充 新 的 变 量 。至 此 , 读 者 朋 友 们 己 经 了 解 了 典 型 相 关 分 析 的 所 有 关 键 输 出 。 最 后 , 用 一 个 形 象 的 类 比 来 加深 大 家 对 该 方 法 各 种 分 析 结 果 的 理 解 。 进 行 典 型 相 关 分 析 好 比 是 研 究 北 京 和 上 海 两 地 在 运 输 交通 方 面 的 联 系 强 度 , 人 员 、 货 物 种 类 、 邮 件 等 就 是 研 究 中 的 原 始 变 量 , 每 一 对 典 型 变 量 就 如 同 一 种运 输 方 式 , 如 第 一 对 代 表 两 地 的 火 车 运 输 , 第 二 对 代 表 两 地 的 航 空 运 输 , 依 此 类 推 。 而 这 些 典 型• 287 •


变 量 所 求 出 的 典 型 相 关 系 数 则 相 当 于 具 体 运 输 方 式 的 运 力 大 小 。 那 么 运 输 的 是 什 么 呢 ? 人 员 可能 主 要 通 过 火 车 、 航 空 来 进 行 , 而 货 物 可 能 主 要 通 过 火 车 、 汽 车 来 进 行 , 这 种 对 具 体 每 一 个 原 始 变量 是 通 过 那 些 典 型 相 关 系 数 和 对 方 进 行 联 系 的 分 析 就 是 典 型 结 构 分 析 。 最 后 , 通 过 对 研 究 中 包括 的 各 种 运 输 方 式 的 汇 总 , 我 们 可 以 发 现 整 个 研 究 框 架 是 否 基 本 包 括 了 两 地 间 的 所 有 运 输 需 求 ,如 果 有 明 显 的 差 异 , 则 有 可 能 还 有 一 些 比 较 重 要 的 运 输 方 式 没 有 被 包 括 , 甚 至 于 可 能 提 示 两 地 问存 在 着 非 法 的 地 下 运 输 渠 道 , 有 必 要 展 开 一 次 大 检 查 , 这 实 际 上 就 是 典 型 冗 余 分 析 的 贡 献 。14.3 小 结典 型 相 关 分 析 是 一 种 比 较 复 杂 的 多 元 分 析 方 法 , 在 实 际 应 用 中 要 特 别 对 其 应 用 条 件 和 结 果分 析 的 解 释 加 以 注 意 。14. 3. 1 典 型 相 关 分 析 的 应 用在 进 行 变 量 问 关 联 强 度 的 分 析 时 , 如 果 手 中 有 众 多 变 量 纠 缠 不 洁 , 不 知 如 何 下 子 时 , 此 时 需要 冷 静 考 虑 , 假 如 能 根 据 定 性 分 析 理 出 变 量 的 层 次 结 构 , 判 断 出 某 一 个 变 量 受 其 他 几 个 变 量 的 影响 , 那 么 复 相 关 分 析 和 偏 相 关 分 析 是 不 错 的 选 择 。 如 果 搞 不 清 变 量 之 间 的 关 系 , 只 能 将 其 分 为 两类 , 或 者 变 量 结 构 太 复 杂 , 呈 现 网 状 结 构 时 , 较 好 的 选 择 就 是 典 型 相 关 分 析 , 但 这 也 仅 仅 是 数 据 分析 的 第 一 步 , 在 发 现 了 数 据 蕴 含 的 基 本 规 律 后 , 最 好 再 换 用 其 他 更 为 精 确 的 多 元 统 计 分 析 模 型 加以 深 入 分 析 。 例 如 结 构 方 程 模 型 就 是 比 较 好 的 选 择 , 它 可 以 在 典 型 相 关 分 析 结 果 的 基 础 上 进 一步 对 研 究 者 所 提 出 的 假 设 加 以 验 证 。进 行 典 型 相 关 分 析 前 , 需 要 对 两 个 变 量 组 进 行 初 步 分 析 , 判 断 变 量 组 之 间 的 影 响 是 双 向 相 关还 是 单 向 的 因 果 关 系 , 这 对 于 结 果 的 解 释 非 常 重 要 , 如 本 节 中 的 例 子 就 是 单 向 的 因 果 关 系 , 输 出结 果 中 某 些 数 据 就 不 能 使 用 。在 对 所 有 的 输 出 结 果 进 行 分 析 时 , 要 注 意 重 点 和 主 次 关 系 , 最 重 要 的 就 是 典 型 相 关 系 数 、 典型 变 量 的 表 达 式 和 典 型 结 构 分 析 三 块 。 首 先 根 据 典 型 相 关 系 数 及 其 检 验 判 断 需 要 选 取 几 对 典 型变 量 , 通 常 只 选 一 两 对 , 然 后 由 典 型 变 量 的 系 数 矩 阵 写 出 典 型 变 量 的 表 达 式 , 最 后 由 典 型 结 构 输出 画 出 比 较 简 明 的 示 意 图 表 示 两 组 变 量 之 间 的 影 响 程 度 。由 典 型 变 量 的 表 达 式 和 典 型 结 构 图 可 以 看 出 变 量 组 之 间 的 影 响 关 系 , 不 过 与 其 他 多 元 分 析方 法 类 似 , 这 需 要 研 究 者 较 多 的 经 验 和 对 相 关 专 业 领 域 知 识 的 了 解 , 切 忌 生 搬 硬 套 。14.3.2 典 型 相 关 分 析 和 因 子 分 析因 子 分 析 法 是 很 多 多 元 统 计 分 析 方 法 的 基 础 , 典 型 相 关 分 析 与 因 子 分 析 法 有 类 似 之 处 , 都 是对 多 个 相 关 变 量 进 行 综 合 和 简 化 , 从 中 提 取 出 最 主 要 的 成 分 来 代 表 变 量 组 。但 是 二 者 在 应 用 范 围 上 有 着 明 显 的 区 别 , 因 子 分 析 法 是 分 析 一 组 相 互 有 关 联 的 变 量 之 间 的内 部 结 构 , 用 少 数 几 个 公 因 子 来 代 替 整 个 变 量 组 的 信 息 , 即 变 量 降 维 。 在 此 基 础 上 , 可 以 进 一 步进 行 综 合 评 价 或 回 归 分 析 ( 消 除 多 重 共 线 性 的 影 响 )。而 典 型 相 关 分 析 是 研 究 两 组 变 量 之 间 的 联 系 。 在 两 组 原 始 变 量 之 间 , 各 变 量 的 影 响 关 系 可能 是 相 互 交 叉 成 网 状 , 难 以 把 握 , 通 过 典 型 相 关 分 析 后 , 可 以 从 中 提 取 出 多 对 典 型 变 量 , 把 原 来 相• 288 •


互 交 叉 的 联 系 变 成 清 晰 的 各 对 典 型 变 量 之 间 的 联 系 。 即 通 过 第 一 对 典 型 变 量 了 解 主 要 相 关 关系 , 通 过 第 二 对 典 型 变 量 了 解 次 要 相 关 关 系 , 依 此 类 推 , 每 一 对 典 型 变 量 也 代 表 了 对 各 自 变 量 组信 息 的 提 取 , 不 同 对 的 典 型 变 量 之 间 相 互 独 立 , 这 和 因 子 分 析 中 的 公 因 子 比 较 相 似 , 但 是 典 型 变量 的 提 取 原 则 是 使 得 每 对 典 型 变 量 间 的 相 关 系 数 达 到 最 大 , 这 一 点 又 和 因 子 分 析 中 有 所 不 同 。对 于 两 组 相 关 变 量 的 分 析 , 除 了 典 型 相 关 分 析 之 外 , 还 有 多 元 线 性 回 归 分 析 MLR ( 不 是 一 个因 变 量 的 多 重 回 归 , 而 是 多 个 因 变 量 的 回 归 分 析 ) , 主 成 分 回 归 分 析 PCR 及 近 年 发 展 起 来 的 偏 最小 二 乘 回 归 分 析 PLS , 有 兴 趣 的 读 者 可 以 查 阅 相 关 的 资 料 , 这 里 不 再 详 述 。思 考 与 练 习全 国 30 个 省 市 自 治 区 农 村 居 民 收 入 和 支 出 的 资 料 如 下 , 试 进 行 典 型 相 关 分 析 。反 映 农 村 居 民 收 入 的 变 量 有 4 个 :Xl: 劳 动 者 报 酬 ( 元 ) X2: 家 庭 经 营 收 入 ( 元 )X3: 转 移 性 收 入 ( 元 ) X4: 财 产 性 收 入 ( 元 )反 映 农 村 居 民 生 活 费 支 出 的 变 量 有 8 个 :X5: 食 品 支 出 ( 元 )X7: 居 住 支 出 ( 元 )X9: 医 疗 保 健 支 出X6: 衣 着 支 出 ( 元 )X8: 家 庭 设 备 及 服 务 支 出 ( 元 )X lO: 交 通 和 通 信 支 出 ( 元 )Xll: 文 教 、 娱 乐 支 出 ( 元 ) X12: 其 他 商 品 和 服 务 支 出 ( 元 )数 据 文 件 " 农 村 居 民 收 入 支 出 数 据 .sav"参 考 文 献1 Richard Johnson 著 . 实 用 多 元 统 计 分 析 . 陆 璇 译 . 北 京 : 清 华 大 学 出 版 社 , 20012 于 秀 林 , 任 雪 松 . 多 元 统 计 分 析 . 北 京 : 中 国 统 计 出 版 社 , 19993 张 文 膨 主 编 . SPSS 11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 北 京 希 望 电 子 出 版 社 , 20024 郭 志 刚 主 编 . 21 世 纪 社 会 学 系 列 教 材 社 会 统 计 分 析 方 法 :SPSS 软 件 应 用 . 北 京 : 中 国 人 民 大 学 出 版社 , 19995 张 家 放 主 编 . 医 用 多 元 统 计 方 法 . 武 汉 : 华 中 科 技 大 学 出 版 社 , 20026 高 惠 璇 . 两 个 多 重 相 关 变 量 组 的 统 计 分 析 . 数 理 统 计 与 管 理 . 2002 (1) : 57 - 64• 289 •


第 15章 对 应 分 析15.1 模 型 简 介15. 1. 1 问 题 的 提 出研 究 分 类 变 量 间 的 联 系 是 统 计 分 析 中 常 见 的 工 作 , 扩 检 验 、 二 分 类 Logistic 模 型 等 是 常 用 的方 法 。 但 是 , 当 所 涉 及 的 分 类 变 量 类 别 较 多 , 或 者 分 类 变 量 个 数 较 多 时 , 这 些 方 法 就 会 显 得 力 不从 心 。 例 如 , 研 究 全 国 56 个 民 族 的 职 业 分 布 规 律 , 在 通 过 抽 样 收 集 到 数 据 后 , 可 以 很 容 易 地 使 用矿 检 验 得 出 各 民 族 问 职 业 分 布 有 差 异 的 结 论 。 但 是 , 这 样 的 结 论 又 有 什 么 用 呢 ? 我 们 更 希 望 得知 的 是 每 个 民 族 更 倾 向 于 从 事 何 种 职 业 , 例 如 蒙 古 族 更 倾 向 于 从 事 农 牧 业 、 朝 鲜 族 更 倾 向 于 教 师职 业 等 , 这 种 结 论 才 是 真 正 有 用 的 。 要 得 到 这 种 精 确 、 全 面 的 结 果 , 也 就 是 对 分 类 变 量 各 类 别 间的 联 系 进 行 清 楚 地 呈 现 , 就 需 要 在 方 法 学 上 有 相 应 的 突 破 。 人 们 也 一 直 在 寻 找 针 对 此 类 问 题 的适 当 统 计 分 析 方 法 , 大 致 而 言 有 两 种 解 决 思 路 :(1) 采 用 对 数 线 性 模 型 、 多 分 类 Logistic 模 型 等 对 类 别 间 的 联 系 进 行 精 确 建 模 , 通 过 假 设 检验 的 方 法 确 定 分 类 变 量 各 类 别 之 间 究 竟 有 无 联 系 。 这 样 虽 然 精 确 , 但 相 应 模 型 的 操 作 和 解 释 都非 常 复 杂 , 并 非 普 通 用 户 轻 易 能 够 掌 握 的 , 同 时 分 析 结 果 在 呈 现 上 也 较 为 困 难 。(2) 采 用 图 形 化 呈 现 的 方 式 , 通 过 对 应 分 析 将 交 叉 表 转 换 为 相 应 的 对 应 分 析 图 , 这 样 虽 然 没有 涉 及 假 设 检 验 , 无 法 得 到 确 切 的 统 计 结 论 。 但 是 结 果 更 为 直 观 , 而 且 操 作 简 单 、 对 结 果 的 解 释也 更 加 容 易 。 显 然 , 这 种 方 式 更 为 广 大 读 者 所 喜 闻 乐 见 。对 应 分 析 的 起 源 较 多 , 现 在 一 般 认 为 它 起 源 于 20 世 纪 30 ~20 世 纪 40 年 代 的 一 批 互 相 独 立的 文 献 , 如 Richardson 和 Kuder (933) 、 Hirshfeld (935) 、 Horst (935) 、 Fisher (940) 、 Guttman(94 1) 等 , 很 难 说 哪 位 统 计 学 家 是 该 方 法 的 真 正 作 者 , 有 的 认 为 是 Fisher , 有 的 则 认 为 是 French 。同 时 因 其 来 源 众 多 , 它 的 别 名 也 较 多 , 如 同 质 性 分 析 、 数 量 化 方 法 等 。 但 所 有 这 些 方 法 的 基 本 原理 是 相 同 的 。 长 期 以 来 , 对 应 分 析 在 法 国 和 日 本 都 非 常 流 行 , 这 部 分 是 因 国 情 所 致 , 但 更 重 要 的是 几 位 统 计 学 家 在 各 自 国 内 所 起 的 推 动 作 用 。 现 在 , 随 着 国 内 统 计 软 件 的 逐 渐 普 及 , 对 应 分 析 的优 势 越 来 越 为 人 所 知 , 在 国 内 也 正 在 得 到 越 来 越 广 泛 的 应 用 。15. 1. 2 模 型 入 门对 应 分 析 的 实 质 就 是 将 行 、 列 变 量 的 交 叉 表 变 换 为 一 张 散 点 图 , 从 而 将 表 格 中 包 含 的 类 别 关联 信 息 用 各 散 点 空 间 位 置 关 系 的 形 式 表 现 出 来 , 但 是 , 其 中 所 使 用 的 算 法 较 为 复 杂 , 其 整 个 分 析• 290 •


过 程 可 以 被 大 致 分 为 以 下 5 步 :1. 数 据 的 变 换 与 标 准 化由 于 对 应 分 析 的 主 要 目 的 是 呈 现 出 各 类 别 间 的 联 系 , 因 此 它 首 先 需 要 对 数 据 进 行 变 换 , 使 得这 种 联 系 能 够 被 凸 现 出 来 。 具 体 的 方 式 是 假 设 行 、 列 变 量 问 无 关 联 , 随 后 在 绘 制 出 两 变 量 相 应 的交 叉 表 后 , 基 于 该 原 假 设 计 算 各 单 元 格 内 的 标 准 化 残 差 为 :观 察 频 数 一 理 论 频 数标 准 化 残 差 =飞 / 理 论 频 数这 样 就 将 原 始 的 频 数 阵 转 换 为 了 一 个 新 的 数 据 阵 Z 。 在 变 换 后 , 每 个 单 元 格 内 的 数 据 反 映当 前 单 元 格 偏 离 该 无 关 联 假 设 的 程 度 , 相 应 的 两 变 量 类 别 问 联 系 越 强 , 则 单 元 格 内 数 据 的 绝 对 值就 越 大 , 数 据 的 正 负 则 反 映 了 是 正 向 还 是 负 向 联 系 。 对 应 分 析 随 后 的 分 析 步 骤 就 是 将 变 换 后 的数 据 阵 转 换 为 相 应 的 散 点 图 而 己 。随 后 的 4 步 数 学 昧 较 重 , 读 者 不 需 要 完 全 理 解 , 只 需 知 道 每 一 步 的 结 果 是 什 么 即 可 。2. 奇 异 值 分 解对 矩 阵 Z 进 行 奇 异 值 分 解 CSingular Value Decomposition) , 公 式 如 下 :Z=KAL'其 中 K'K=L'L= l, 而 A 则 为 对 角 阵 , 其 中 包 含 一 些 奇 异 值 , 且 沿 主 对 角 线 从 大 到 小 排 列 , 每个 奇 异 值 就 对 应 了 结 果 中 的 一 个 维 度 。 该 步 骤 实 际 上 确 定 了 分 析 结 果 的 最 大 维 度 数 , 以 及 每 个维 度 所 携 带 的 信 息 量 。3. 行 、 列 尺 度 的 调 整按 照 行 、 列 变 量 相 应 的 类 别 构 成 比 , 对 K 、 L 矩 阵 中 包 含 的 奇 异 向 量 进 行 标 准 化 , 使 之 具 有 单位 长 度 。 标 化 后 K 、 L 实 际 上 就 分 别 将 行 、 列 变 量 各 散 点 的 坐 标 确 定 了 下 来 。4. 估 计 方 差 与 协 方 差这 一 步 的 实 际 含 义 是 通 过 对 方 差 、 协 方 差 的 估 计 , 初 步 得 到 各 类 别 所 对 应 的 散 点 坐 标 。5. 行 、 列 评 分 的 标 准 化按 照 所 选 定 的 标 准 化 方 法 , 对 计 算 出 的 行 、 列 变 量 坐 标 进 行 标 化 , 该 步 骤 进 行 完 后 , 得 到 的 就是 最 终 在 图 形 中 呈 现 的 散 点 坐 标 。在 这 5 步 中 , 后 4 步 基 本 上 被 固 定 下 来 , 没 有 太 多 的 选 项 可 供 调 整 , 最 为 重 要 的 是 第 一 步 , 其变 化 将 在 15. 1. 3 节 中 详 细 讲 解 。15. 1. 3 SPSS 中 的 相 应 功 能对 应 分 析 可 根 据 所 分 析 变 量 的 数 目 被 分 为 简 单 对 应 分 析 和 多 重 对 应 分 析 两 种 : 简 单 对 应 分析 用 于 分 析 两 个 分 类 变 量 间 的 联 系 , 在 SPSS 中 可 以 使 用 属 于 Base 模 块 的 Correspondence Analy­SlS 过 程 完 成 0 多 重 对 应 分 析 则 用 于 是 分 析 多 个 分 类 变 量 之 间 的 类 别 联 系 , SPSS 中 提 供 的 是 基于 最 优 尺 度 变 换 的 多 重 对 应 分 析 , 该 功 能 由 属 于 Category 模 块 的 Optimal Scaling 过 程 来 实 现 。15.2 简 单 分 析 实 例这 里 以 较 为 经 典 的 头 发 颜 色 与 眼 睛 颜 色 的 研 究 案 例 来 说 明 SPSS中 对 应 分 析 的 实 现 方 法 , 该• 291 •


数 据 由 Fisher 在 1940 年 首 次 引 用 。 研 究 者 收 集 了 苏 格 兰 北 部 Caithness 郡 5 387 名 小 学 生 眼 睛与 头 发 颜 色 的 数 据 , 见 表 15. 1, 其 中 眼 睛 有 深 、 棕 、 蓝 、 浅 4 种 颜 色 , 头 发 有 金 、 红 、 棕 、 深 、 黑 5 种颜 色 。 研 究 者 希 望 知 道 头 发 和 眼 睛 的 颜 色 间 存 在 何 种 关 联 , 即 某 种 头 发 颜 色 的 人 眼 睛 更 倾 向 于何 种 颜 色 ?表 15.1头 发 颜 色 与 眼 睛 颜 色 的 交 叉 表头 发 颜 色J 口 "- 计金 色 红 色 棕 色 深 色 黑 色~~ 深 色 98 48 403 681 85 1 315睛 棕 色 343 84 909 412 26 1 774颜 蓝 色 326 38 241 110 3 718色 浅 色 688 116 584 188 4 1 580合 计 1 455 286 2 137 1 391 118 538715.2.1 对 数 据 的 初 步 分 析数 据 见 文 件 hair&eye.sav , 对 于 两 个 分 类 变 量 间 是 否 有 联 系 这 一 问 题 , 通 常 可 以 首 先 对 数 据进 行 描 述 , 以 获 得 初 步 信 息 。 除 交 叉 表 以 外 , 统 计 图 也 是 用 于 描 述 的 重 要 工 具 , 对 该 问 题 可 以 分别 做 出 条 图 和 马 赛 克 图 如 图 15. 1 所 示 。2,500l2 ,000 什眼 睛 颜 色 1.0口 深 色口 棕 色K; 注 吁 E 蓝 色 0.8目 情 色眼 睛 剧 色口 深 笆口 棕 色曰 蓝 色目 睹 色U -5 C 1.J 5001,000350.4500..,.,......0.2。金 色 红 色 棕 邑 深 色 黑 色0.0金 色 红 色 棕 邑 深 邑 黑 色头 发 颜 色头 发 颜 色图 15.1头 发 颜 色 与 眼 睛 颜 色 的 条 图 与 马 赛 克 图条 图 反 映 的 是 原 始 频 数 大 小 , 从 中 可 见 深 色 头 发 中 深 色 眼 睛 的 人 远 比 金 色 头 发 众 多 。 但 是 ,由 于 各 类 别 的 总 人 数 并 不 相 同 , 直 接 比 较 原 始 频 数 并 不 合 理 。 更 妥 当 的 办 法 是 进 行 各 类 别 构 成比 的 比 较 。 马 赛 克 图 反 映 的 就 是 这 一 信 息 。 从 图 15. 1 中 可 以 看 到 : 随 着 头 发 颜 色 有 金 色 、 红 色逐 渐 变 为 神 色 、 黑 色 , 人 群 中 眼 睛 颜 色 为 浅 色 的 比 例 越 来 越 低 , 而 眼 睛 深 色 的 比 例 越 来 越 高 。 显然 , 这 一 信 息 提 示 头 发 颜 色 和 眼 睛 颜 色 之 间 是 有 关 联 的 。以 上 信 息 是 通 过 对 样 本 的 直 接 观 察 而 来 , 那 么 这 种 联 系 究 竟 是 真 实 存 在 , 还 是 由 抽 样 误 差 导致 的 假 象 ? 这 可 以 通 过 检 验 来 加 以 验 证 。 对 于 两 分 类 变 量 的 关 联 问 题 一 般 使 用 扩 检 验 来 验 证 ,在 SPSS 中 使 用 Crosstab 过 程 实 现 , 结 果 如 表 15.2 所 示 , 可 见 矿 值 为 1 240.4 , P 值 远 小 于 0.05 ,因 此 可 以 认 为 眼 睛 颜 色 和 头 发 颜 色 间 存 在 关 联 。 但 是 , 究 竟 是 怎 样 的 联 系 方 式 ? 是 其 中 仅 某 两• 292 •


类 问 存 在 联 系 , 例 如 浅 色 头 发 的 人 浅 色 眼 睛 的 较 多 ; 还 是 两 两 都 有 联 系 ? 这 是 扩 检 验 所 不 能 回答 的 , 需 要 采 用 更 复 杂 的 分 析 方 法 才 能 得 到 进 一 步 的 分 析 结 果 , 而 对 应 分 析 就 是 一 个 很 好 的 选择 。15.2.2 正 式 分 析1. 操 作 说 明下 面 使 用 对 应 分 析 对 本 例 进 行 分 析 , 由 于 只 涉 及 两 个 分 类 变 量 , 因 此 可 以 考 虑 使 用 简 单 对 应分 析 , 相 应 的 操 作 如 下 :: Analyze 一 今 Data Reduction 一 今 Correspondence Analysis:Row 杠 : hair!j 在 中 hair: 1Define Ran 伊 1: Minimum 杠 : 1: Maximum 杠 : 5: IUpdatel: IContinue I!Column 杠 : eyel 选 中 eye: 1Define 阳 R 叫 ann 吨 g 伊 附 e时i 因可 见 该 过 程 的 操 作 并 不 复 杂 , 只 需 要 将 相 应 的 行 、 列 变 量 选 入 , 并 确 定 相 应 的 取 值 范 围 即 可 。简 单 对 应 分 析 中 有 许 多 选 项 , 例 如 在 Model 子 对 话 杠 中 的 功 能 就 对 应 了 前 面 对 应 分 析 计 算 中 的各 个 步 骤 。 但 是 在 多 数 情 况 下 均 使 用 默 认 值 即 可 , 因 此 这 里 均 使 用 默 认 值 , 随 后 再 对 较 为 有 用 的图 15. 2 Correspondence 过 程 的 主 对 话 框• 293 •


功 能 作 进 一 步 解 释 。2. 结 果 解 释对 应 分 析 的 结 果 中 首 先 会 输 出 该 模 块 的 版 权 信 息 , 说 明 该 模 块 是 由 荷 兰 Leiden大 学 DTSS课 题 组 编 制 的 。 随 后 才 是 正 式 的 分 析 结 果 , 这 里 一 一 解 释 如 下 :表 15.3Correspondence Table眼 睛 颜 色头 发 颜 色 深 色 棕 色 蓝 色 i 戈 色 Active Margin金 鱼 98 343 326 688 1455红 色 48 84 38 1 才 6 286棕 色 403 909 241 584 2137深 色 681 4 才 2 110 188 1391黑 色 85 26 3 4 118Active Margin 1315 1774 718 1580 5387首 先 输 出 的 这 张 表 格 被 称 为 对 应 分 析 表 , 如 表 15.3所 示 , 但 是 大 家 可 以 看 出 , 这 实 际 上 就 两个 变 量 的 行 × 列 表 。 由 于 对 应 分 析 随 后 的 计 算 是 完 全 基 于 该 表 格 而 来 , 所 以 首 先 将 其 输 出 , 便 于对 变 量 间 的 关 联 进 行 大 致 的 观 察 , 也 可 用 于 检 查 有 无 数 据 录 入 错 误 。表 15.4SummaryProportion of InertiaDimension Singular Value Inerlia Chi Square Sig. Accounted for Cumulalive446 199 866 8662 .173 .030 .131 .9963 029 001 004 才 000Total 230 1240.039 oooa 1.000 才 000a. 12 degrees of freedom表 15.4为 整 个 对 应 分 析 的 结 果 汇 总 表 ( 右 侧 有 删 节 ) , 在 对 应 分 析 中 , 最 多 可 以 提 取 的 维 度数 等 于 两 变 量 最 小 类 别 数 一 1 。 但 是 , 往 往 前 两 、 三 个 维 度 就 携 带 了 绝 大 多 数 信 息 , 因 此 可 以 只 对前 几 个 维 度 进 行 观 察 , 以 方 便 结 果 的 解 释 。 这 里 的 汇 总 表 主 要 用 于 给 出 所 提 取 的 每 个 维 度 ( 因子 ) 所 携 带 的 信 息 量 , 从 而 可 以 帮 助 确 定 需 要 使 用 多 少 个 维 度 ( 因 子 ) 对 结 果 进 行 解 释 。 从 左 到右 的 前 6 个 指 标 依 次 是 维 数 、 奇 异 值 、 惯 量 、 总 的 x2 检 验 及 P 值 、 方 差 解 释 比 例 , 依 次 说 明 如 下 :(1) 奇 异 值 和 惯 量 : 奇 异 值 这 个 术 语 来 自 于 矩 阵 运 算 , 就 是 前 面 讲 对 应 分 析 计 算 步 骤 中 进 行奇 异 值 分 解 所 得 到 的 东 西 。 对 矩 阵 运 算 原 理 不 熟 悉 的 朋 友 可 以 不 去 多 考 虑 它 。 它 的 平 方 就 是 惯量 CInertia), 相 当 于 因 子 分 析 中 常 说 的 特 征 根 , 用 于 说 明 对 应 分 析 各 个 维 度 的 结 果 能 够 解 释 列 联表 中 两 变 量 联 系 的 程 度 。 但 是 , 由 于 这 里 是 对 应 分 析 , 所 以 他 的 大 小 不 再 像 因 子 分 析 中 那 样 明 白的 代 表 该 因 子 平 均 携 带 了 多 少 个 原 始 变 量 的 信 息 。 但 是 , 所 有 维 度 惯 量 的 总 和 则 可 以 用 来 表 示总 信 息 量 的 大 小 。• 294 •


(2)x2 检 验 及 P 值 : 大 家 从 x2 值 和 P 值 大 小 即 可 看 出 , 此 处 进 行 的 扩 检 验 就 是 前 面 初 步 分 析中 Crosstab 过 程 所 进 行 的 Pearsonx2 检 验 ! 也 就 是 检 验 行 变 量 和 列 变 量 间 是 否 存 在 关 联 。 因 此 ,它 可 以 被 看 成 是 对 应 分 析 适 用 条 件 的 检 验 , 因 为 只 有 当 行 变 量 和 列 变 量 间 有 关 联 时 , 才 需 要 使 用对 应 分 析 对 这 种 联 系 加 以 详 细 分 析 , 否 则 , 就 没 有 使 用 对 应 分 析 的 必 要 了 。(3) 方 差 解 释 比 例 : 表 明 每 个 维 度 所 携 带 的 信 息 量 , 实 际 上 就 是 按 照 每 个 维 度 的 惯 量 占 惯 量总 和 的 比 例 计 算 而 来 , 这 一 点 上 惯 量 倒 是 和 因 子 分 析 中 的 特 征 根 完 全 相 同 。 从 表 15.4 可 见 第 一维 占 了 总 信 息 量 的 o. 199/0.23 = 86.6% , 第 二 维 占 了 13.1% , 第 二 维 则 仅 占 0.4% 。 三 个 维 度 加起 来 共 携 带 了 100% 的 原 始 信 息 量 。 显 然 , 由 于 前 两 个 维 度 即 携 带 了 绝 大 部 分 信 息 , 而 且 二 维 图形 要 比 三 维 图 形 更 容 易 观 察 和 理 解 , 因 此 本 例 中 完 全 可 以 使 用 三 维 空 间 进 行 分 析 结 果 的 解 释 。表 格 最 右 侧 还 会 给 出 各 奇 异 值 的 标 准 差 及 相 关 系 数 , 对 结 果 解 释 影 响 不 大 , 可 忽 略 。表 15.5Overview Row Poi nts aScore in DimensionContributionOf Poinl 10 Inerlia of Dimensio 门 10of Dimension Inerlia of Poinl头 发 酣 邑 Mass z Inerlia 2 2 Tolal金 色 270 -.814 -.4 17 .088 40 才 271 907 093 才 000红 鱼 053 -.349 -.116 .004 014 004 770 033 803棕 色 397 -.063 500 .018 004 572 039 961 1.000深 色 258 881 -.250 .092 449 093 969 030 才 000黑 色 022 1.638 -.688 .028 132 060 934 064 998Aclive Tolal 才 000 .230 1.000 1.000a. Symmetrical normalizatio 门表 15.5 为 行 变 量 ( 头 发 颜 色 ) 各 类 别 的 分 析 结 果 概 况 , 由 于 各 类 别 均 以 散 点 的 形 式 在 空 间中 呈 现 , 故 称 行 点 汇 总 表 。 表 15.5 中 主 要 给 出 各 类 别 在 各 维 度 上 的 评 分 , 以 及 相 应 的 信 息 贡 献量 两 大 类 信 息 , 分 述 如 下 :(1) Mass: 实 际 上 就 是 各 种 类 别 的 构 成 比 , 例 如 发 色 为 金 色 的 共 1 455 人 , 占 总 数 的 构 成 比为 1 455/5 387 = 27% , 依 此 类 推 。 构 成 比 的 大 小 可 以 近 似 的 反 映 计 算 出 的 相 应 指 标 是 否 稳 定 ,因 为 构 成 比 越 高 , 说 明 频 数 越 多 , 而 相 应 的 分 析 结 果 就 越 不 易 受 个 别 极 端 样 本 值 的 影 响 。(2) Score in dimension: 给 出 各 类 别 在 相 关 维 度 上 的 评 分 , 首 先 给 出 的 是 在 默 认 提 取 的 两 个维 度 上 各 类 别 的 因 子 负 荷 值 ( 空 间 坐 标 值 ) , 随 后 的 I 时 rtia列 则 给 出 了 惯 量 在 行 变 量 中 的 分 解 情况 , 它 反 映 了 总 惯 量 (0.23) 中 分 别 由 各 行 变 量 类 别 所 提 供 的 部 分 , 数 值 越 大 , 说 明 该 类 别 对 惯 量的 贡 献 越 大 。 其 大 小 既 和 相 应 的 构 成 比 有 关 , 也 和 该 类 别 与 另 一 变 量 的 关 联 度 有 关 。 例 如 黑 色的 构 成 比 只 有 2.2% , 而 惯 量 比 例 则 达 到 了 。 .028/0.23 = 12. 2% , 这 说 明 它 和 列 变 量 的 关 联 可 能较 为 明 显 。(3) Contrib 川 lOn: 首 先 给 出 在 各 维 度 上 信 息 量 在 各 类 别 间 的 分 解 情 况 , 本 例 中 可 见 第 一 维 度的 信 息 主 要 被 金 色 、 深 色 和 黑 色 三 个 类 别 所 携 带 , 反 言 之 , 这 三 个 类 别 在 第 一 维 度 上 的 区 分 度 较好 , 这 从 坐 标 值 上 即 可 得 到 验 证 。 同 理 , 在 第 二 维 度 上 则 是 金 色 和 棕 色 的 区 分 度 较 好 。 随 后 给 出• 295 •


的 是 各 类 别 的 信 息 在 各 维 度 上 的 分 布 比 例 , 例 如 金 色 的 总 信 息 量 中 有 90.7% 分 布 在 第 一 维 上 ,只 有 9.3% 分 布 在 第 二 维 上 。 综 合 观 察 , 可 知 除 了 棕 色 外 , 绝 大 多 数 类 别 的 信 息 部 分 布 在 第 一 维上 。 最 右 侧 给 出 的 是 各 维 度 的 信 息 比 例 之 和 , 可 见 红 色 这 一 类 别 在 前 两 维 中 只 提 取 出 了 80.3%的 信 息 量 , 因 此 如 果 红 色 的 解 释 不 理 想 或 不 合 理 , 则 可 考 虑 是 否 加 入 第 二 维 度 以 改 善 解 释 。表 15.6Overview Column Points aScore in DimensionContributionOf Poinl to Inertia Of Dimension 10of DimensionInerlia of Poinl眼 睛 颜 色 Mass 2 Inertia 2 2 Total深 色 .244 1.052 -.322 .125 .605 .145 .965 .035 才 回 000棕 色 329 050 588 020 .002 657 018 981 .999蓝 色 .133 -.599 -.397 .026 .107 .121 .836 .143 .979浅 色 293 -.660 -.212 060 .286 076 956 039 .995Aclive T olal 1.000 230 1.000 1.000a. Symmetrical normalization表 15.6为 列 变 量 各 类 别 分 析 情 况 的 汇 总 , 阅 读 方 式 和 前 面 相 同 , 不 再 重 复 解 释 , 大 家 只 须 注意 惯 量 总 和 也 是 0.23 , 即 行 、 列 变 量 的 分 解 是 在 相 同 的 解 释 空 间 中 进 行 的 , 故 此 , 相 应 的 类 别 散点 才 能 被 放 在 同 一 个 空 间 中 加 以 阅 读 。图 15.3对 应 分 析 图分 析 结 果 中 最 后 给 出 的 是 对 应 分 析 图 ( 为 便 于 阅 读 , 此 处 己 经 过 编 辑 ) , 如 图 15.3所 示 , 实际 上 对 于 对 应 分 析 而 言 , 由 于 所 有 主 要 信 息 均 反 映 在 该 图 形 中 , 各 类 别 散 点 在 空 间 中 的 距 离 和 位置 就 反 映 了 各 自 间 的 关 系 , 因 此 多 数 分 析 报 告 均 只 使 用 这 张 图 进 行 描 述 。 阅 读 该 图 形 主 要 可 以了 解 同 一 变 量 各 类 别 的 区 分 程 度 , 以 及 不 同 变 量 各 类 别 间 的 关 联 程 度 如 何 , 因 此 对 应 分 析 图 的 阅读 可 按 如 下 顺 序 进 行 :• 296 •


(1) 考 察 同 一 变 量 的 区 分 度 : 首 先 分 别 考 察 行 变 量 、 列 变 量 各 类 别 间 是 否 被 清 晰 地 分 开 了 ,可 以 分 别 检 查 在 各 个 维 度 上 的 区 分 情 况 , 如 果 同 一 变 量 不 同 类 别 在 某 个 方 向 上 靠 得 较 近 , 则 说 明这 些 类 别 在 该 维 度 上 区 别 不 大 。 在 本 例 中 , 可 以 看 到 无 论 是 头 发 颜 色 还 是 眼 睛 颜 色 在 空 间 位 置上 部 分 得 比 较 开 。 分 维 度 考 察 , 则 可 以 注 意 它 们 在 第 二 维 度 上 的 区 分 度 稍 差 一 些 。(2) 考 察 不 同 变 量 的 类 别 联 系 : 这 才 是 对 应 分 析 所 真 正 关 心 的 问 题 。 一 般 而 言 , 落 在 从 图 形原 点 (0 , 0) 处 出 发 相 同 方 位 上 大 致 相 同 区 域 内 的 不 同 变 量 的 分 类 点 彼 此 有 联 系 。 散 点 问 距 离 越近 , 说 明 关 联 倾 向 越 明 显 ; 散 点 离 原 点 越 远 , 也 说 明 关 联 倾 向 越 明 显 。下 面 就 根 据 以 上 原 则 对 图 形 结 果 加 以 解 释 :(1) 眼 睛 棕 色 和 头 发 棕 色 两 个 散 点 靠 得 非 常 近 。 显 然 这 两 种 特 征 之 间 存 在 关 联 。(2) 同 理 , 也 容 易 确 定 眼 睛 深 色 和 头 发 黑 色 存 在 关 联 。 但 是 头 发 黑 色 是 否 也 有 关 联 ? 它 离眼 睛 深 色 有 一 定 的 距 离 , 但 是 要 注 意 到 如 果 考 察 相 对 于 原 点 的 位 置 , 则 头 发 黑 色 这 一 散 点 基 本 上在 原 点 和 眼 睛 黑 色 散 点 连 线 的 延 长 线 上 , 因 此 可 以 认 为 头 发 神 色 、 黑 色 都 和 眼 睛 深 色 有 联 系 。(3) 头 发 金 色 和 眼 睛 蓝 色 、 浅 色 的 散 点 在 一 起 , 因 此 可 以 认 为 它 们 之 间 存 在 联 系 。 虽 然 头 发红 色 的 散 点 空 间 位 置 也 在 它 们 附 近 , 但 是 注 意 到 该 散 点 距 离 原 点 较 近 , 因 此 对 它 的 解 释 要 小 心 ,即 它 的 联 系 可 能 比 较 弱 。这 样 , 通 过 对 应 分 析 图 , 就 可 以 非 常 直 观 而 简 明 地 得 到 头 发 颜 色 和 眼 睛 颜 色 间 的 关 联 特 征 ,显 然 , 借 助 于 图 形 化 的 结 果 , 对 应 分 析 要 比 对 数 线 性 模 型 等 建 模 方 法 更 容 易 理 解 和 应 用 。15.2.3 对 引 例 的 进 一 步 分 析1. 加 入 更 多 维 度前 面 的 分 析 结 果 共 使 用 了 两 个 维 度 , 它 们 累 计 携 带 了 99.6% 的 信 息 量 , 应 当 说 己 经 非 常 充分 了 。 但 考 虑 到 现 有 结 果 中 对 头 发 红 色 的 解 释 度 较 弱 , 而 该 类 别 尚 有 一 些 信 息 在 第 二 维 度 中 , 因此 可 以 要 求 将 第 二 维 度 也 加 入 解 释 。 该 选 项 在 Model 子 对 话 杠 中 更 改 , 如 图 15.4 所 示 , 最 土 方图 15.4Model 子 对 话 框• 297 •


的 Dimensions In Solution 杠 中 用 于 指 定 希 望 提 取 的 维 度 数 , 默 认 为 两 维 , 更 改 为 三 维 后 分 析 结 果中 即 会 输 出 相 应 的 三 维 分 析 结 果 , 此 处 给 出 第 三 个 维 度 的 图 形 ( 经 过 编 辑 ) 如 图 15.5 所 示 。图 15.5第 一 、 三 维 度 的 对 应 分 析 图可 见 在 第 三 个 维 度 中 , 红 色 和 其 他 各 类 别 的 距 离 均 比 较 远 , 该 维 度 提 供 的 多 余 信 息 并 未 能 改善 对 头 发 红 色 与 眼 睛 颜 色 间 关 联 性 的 解 释 。 考 虑 到 本 身 第 三 个 维 度 的 信 息 量 就 非 常 少 , 因 此 对于 本 问 题 而 言 , 二 维 的 解 释 是 较 为 合 理 和 充 分 的 。2. 最 优 对 应 表当 参 与 对 应 分 析 的 变 量 其 类 别 间 可 能 存 在 某 种 内 在 的 次 序 关 系 时 , 分 析 者 往 往 希 望 能 够 在表 格 中 直 接 观 察 到 这 种 次 序 , 即 各 类 别 按 照 这 种 关 系 从 达 到 小 依 次 排 列 。 对 应 分 析 中 可 以 提 供这 种 输 出 , 由 于 各 类 别 在 各 维 度 上 都 己 算 出 相 应 的 坐 标 值 , 因 此 只 需 要 将 各 类 别 按 照 坐 标 值 从 小到 大 依 次 排 列 即 可 。 相 应 的 选 项 为 Statistic 子 对 话 杠 中 部 的 Permutations of the correspondence table复 选 框 , 如 图 15.6 所 示 , 生 成 的 排 序 表 格 被 称 为 Permut 叫 Table 0 本 例 中 的 最 优 对 应 表 如 表15.7 所 示 。表 15.7 Permuted Correspondence Table According to Dimension 1眼 睛 颜 色头 发 两 色 浅 巴 直 巴 棕 邑 深 巳 Active Margin金 邑 688 326 343 98 1455红 色 116 38 84 48 286惊 色 584 24 才 909 403 2137深 色 188 1 才 O 412 68 才 1391黑 色 4 3 26 85 118Active Margin 1580 718 1774 1315 5387联 系 各 类 别 相 应 的 第 一 维 坐 标 , 读 者 就 可 以 发 现 眼 睛 颜 色 和 头 发 颜 色 的 各 类 别 都 是 按 照 坐标 值 从 小 到 大 进 行 排 列 , 可 以 发 现 眼 睛 颜 色 似 乎 是 从 浅 到 深 、 而 头 发 颜 色 则 是 从 金 、 红 到 深 、 黑 ,更 为 重 要 的 是 , 表 格 中 频 数 会 集 中 在 主 对 角 线 上 , 使 得 对 应 关 系 要 比 原 来 清 楚 一 些 。 如 现 在 可 以立 刻 发 现 黑 色 头 发 和 眼 睛 深 色 、 棕 色 有 较 强 的 关 联 。• 298 •


Permutations of the correspondence table 复 选 杠 下 部 的 Maximum dimension for 杠 用 于 指 定 希望 使 用 几 个 维 度 的 坐 标 生 成 最 优 对 应 表 , 默 认 只 使 用 一 维 。 如 果 指 定 两 维 以 上 , 则 会 对 每 个 维 度都 生 成 一 个 单 独 的 最 优 对 应 表 。图 15. 6 Statistics 子 对 话 框3. 散 点 坐 标 的 可 信 区 间在 前 面 提 到 过 , 对 应 分 析 只 是 一 个 统 计 描 述 方 法 , 它 仅 仅 是 将 表 格 信 息 转 化 为 图 形 的 方 式 来展 现 。 但 许 多 时 候 都 希 望 相 应 的 分 析 结 果 在 统 计 上 能 较 为 有 力 , 而 不 仅 仅 是 一 种 " 可 能 " 的 情形 。 为 此 , 对 应 分 析 过 程 中 提 供 了 计 算 各 散 点 坐 标 可 信 区 间 的 功 能 , 通 过 观 察 各 类 别 可 信 区 间 的大 小 及 重 叠 程 度 , 就 可 以 对 分 析 结 果 得 到 更 清 晰 明 了 的 认 识 。 该 功 能 位 于 Statistic子 对 话 杠 的最 下 方 , Confidence Statistic 复 选 杠 组 由 Row points 和 Column points 两 个 复 选 杠 构 成 , 分 别 用 于 计算 行 、 列 类 别 散 点 的 坐 标 可 信 区 间 , 这 里 以 行 变 量 为 例 , 相 应 的 分 析 结 果 参 见 表 15.80表 15.8Confidence Row PointsStandard Deviation i 门DimensionCorrelation头 发 颜 色 2 1-2金 色 026 028 -.452红 色 083 133 088惊 色 036 02 才 078深 色 023 026 502黑 色 .058 .069 .404注 意 表 格 中 给 出 的 是 各 维 度 上 坐 标 的 标 准 差 ( 实 际 上 是 标 准 误 ) , 通 过 它 就 可 以 计 算 出 相 应坐 标 的 95% 可 信 区 间 , 相 对 应 的 矩 形 区 域 就 是 总 体 中 该 散 点 的 95% 可 能 分 布 范 围 。 但 是 , 如 果右 侧 行 / 列 坐 标 的 相 关 系 数 较 大 , 则 建 议 计 算 行 、 列 坐 标 的 联 合 二 元 可 信 区 间 , 这 样 结 果 会 更 为准 确 。15.3 基 于 均 数 的 对 应 分 析在 前 面 的 案 例 中 讲 解 了 如 何 使 用 对 应 分 析 对 交 叉 表 数 据 进 行 分 析 。 显 然 , 通 过 第 一 步 的 变• 299 •


换 , 交 叉 表 就 被 转 换 成 了 反 映 关 联 程 度 强 弱 的 数 据 阵 , 随 后 的 分 析 完 全 在 按 照 连 续 性 资 料 的 分 析方 式 进 行 。 这 就 提 供 了 一 种 可 能 : 对 应 分 析 是 否 也 能 够 用 于 连 续 性 资 料 的 分 析 ?在 许 多 研 究 报 告 中 , 都 使 用 分 类 汇 总 的 数 据 表 格 来 反 映 某 种 特 征 信 息 , 例 如 分 地 区 来 统 计 各种 产 品 的 当 月 销 售 额 、 分 不 同 的 人 群 特 征 计 算 受 访 者 对 5 种 试 用 品 的 满 意 度 评 分 均 数 等 。 此 时地 区 和 产 品 类 别 形 成 了 交 叉 表 , 所 不 同 的 是 每 个 单 元 格 内 不 再 是 频 数 , 而 使 相 应 的 统 计 指 标 , 如均 数 等 , 我 们 能 否 也 用 对 应 分 析 来 对 类 别 间 的 联 系 进 行 呈 现 , 比 如 能 否 说 显 示 出 A 产 品 在 上 海地 区 销 售 较 好 ( 注 意 : 这 实 质 上 是 交 互 作 用 ) ? 从 原 理 来 看 , 这 显 然 应 当 是 可 能 的 。 本 节 就 来 探讨 如 何 使 用 对 应 分 析 对 汇 总 数 据 进 行 呈 现 。15.3.1 方 法 原 理由 于 对 应 分 析 的 第 一 步 是 进 行 数 据 的 标 准 化 , 将 数 据 转 换 为 代 表 行 、 列 变 量 问 类 别 联 系 的 数据 阵 , 基 于 均 数 的 对 应 分 析 也 需 经 过 该 步 骤 。 但 是 , 由 于 单 元 格 内 不 再 是 频 数 , 不 存 在 行 、 列 合 计频 数 , 也 就 不 能 再 像 交 叉 表 时 一 样 基 于 无 效 假 设 计 算 标 化 残 差 。 这 里 最 终 又 求 助 于 标 准 的 空 间距 离 的 概 念 , 就 像 在 聚 类 分 析 中 一 样 , 使 用 欧 氏 距 离 来 代 表 相 应 单 元 格 均 数 偏 离 无 关 联 假 设 的程 度 。但 是 , 仅 仅 找 到 距 离 表 达 的 指 标 还 不 够 , 如 果 不 对 距 离 进 行 标 准 化 , 则 其 大 小 会 受 到 相 应 指标 测 量 尺 度 大 小 的 影 响 , 从 而 失 去 相 互 比 较 的 意 义 , 对 应 分 析 中 针 对 欧 氏 距 离 共 提 供 了 5 种 标 准化 方 式 , 分 述 如 下 :(1) Row and Column Means Removed: 为 缺 省 值 , 在 标 化 时 将 行 合 计 均 数 和 列 合 计 均 数 的 影响 都 移 去 。 也 就 是 说 , 行 、 列 类 别 问 均 数 的 差 异 不 再 对 结 果 产 生 影 响 , 不 同 地 区 所 有 产 品 平 均 销售 额 的 不 同 不 再 纳 入 分 析 , 不 同 产 品 所 有 地 区 平 均 销 售 额 的 差 异 也 不 再 纳 入 分 析 , 在 结 果 中 呈 现的 只 是 行 、 列 变 量 类 别 间 的 交 互 作 用 , 例 如 A 产 品 在 上 海 地 区 的 销 售 额 比 其 他 地 区 都 高 。 而 C产 品 销 量 在 各 地 都 高 于 其 他 产 品 , 或 者 上 海 地 区 的 各 种 产 品 销 售 额 都 高 于 其 他 地 区 这 类 信 息 将不 进 入 分 析 。 显 然 , 由 于 行 、 列 类 别 问 均 数 的 差 别 往 往 是 研 究 者 所 感 兴 趣 的 , 这 一 缺 省 设 置 往 往不 是 最 佳 选 择 。(2) Row/Column Means Removed: 在 标 化 时 只 移 除 行 / 列 变 量 合 计 均 数 差 异 的 影 响 。 以 行 变量 为 例 , 如 果 某 一 类 别 的 均 数 与 另 一 类 别 均 数 差 始 终 为 一 常 数 , 例 如 A 产 品 在 各 地 的 销 量 大 约都 比 D 产 品 高 2万 , 则 该 方 法 会 将 这 种 差 异 的 影 响 消 除 。 换 言 之 , 类 别 问 均 数 的 相 加 差 异 将 被消 除 。 对 于 存 在 上 限 的 量 表 数 据 , 如 五 分 量 表 、 七 分 量 表 , 题 目 均 数 的 差 异 往 往 是 相 加 类 型 的 。(3) Row/Column Totals are Equalized and Row/Column Means Removed: 在 标 化 时 首 先 将 原 始数 据 除 以 行 / 列 合 计 , 然 后 再 移 除 行 、 列 均 数 差 异 的 影 响 。 以 行 变 量 为 例 , 如 果 某 一 类 别 的 均 数 与另 一 类 别 均 数 之 比 终 为 一 常 数 , 例 如 A 产 品 在 各 地 的 销 量 大 约 都 为 D 产 品 的 1. 2 倍 , 则 该 方 法会 将 这 种 差 异 的 影 响 消 除 。 换 言 之 , 类 别 问 均 数 的 相 乘 差 异 将 被 消 除 。 对 于 无 上 限 数 据 , 或 者 量纲 相 差 较 大 的 各 指 标 , 例 如 比 较 各 国 家 的 GDP , 均 数 间 的 差 异 往 往 是 相 乘 类 型 的 。距 离 测 量 方 式 , 以 及 相 应 的 距 离 标 准 化 方 法 均 在 Model 子 对 话 杠 中 选 择 , 在 对 欧 氏 距 离 进 行标 准 化 后 , 剩 余 的 步 骤 就 和 普 通 的 对 应 分 析 完 全 相 同 了 , 此 处 不 赘 。• 300 •


15.3.2 分 析 实 例这 里 使 用 的 数 据 来 自 《 中 国 统 计 年 鉴 , 2000>> , 共 纪 录 了 29 个 省 、 市 、 自 治 区 当 年 的 城 市 市 政工 程 建 设 状 况 , 具 体 有 如 下 6 个 指 标 :road: 年 末 实 有 道 路 长 度 area: 年 末 实 有 道 路 面 积 bridge: 城 市 桥 梁 数under: 城 市 下 水 道 长 度 water: 城 市 污 水 处 理 能 力 lamp: 城 市 路 灯 数现 希 望 考 察 各 省 市 城 市 设 施 水 平 的 建 设 情 况 差 异 , 特 别 是 各 地 区 在 这 6个 指 标 上 分 别 存 在着 哪 些 优 势 和 不 足 之 处 。本 例 中 的 数 据 为 原 始 数 据 , 并 非 汇 总 后 的 均 数 , 但 两 者 在 分 析 原 理 上 是 完 全 相 同 的 。 注 意 ,这 里 的 分 析 目 的 主 要 是 考 察 各 地 区 在 各 个 指 标 上 有 什 么 样 的 差 异 , 比 如 北 京 在 哪 些 指 标 土 高 于平 均 水 平 , 而 那 些 指 标 上 低 于 平 均 , 这 正 好 符 合 对 应 分 析 反 映 类 别 间 差 异 的 特 点 , 因 此 考 虑 使 用对 应 分 析 。 如 果 分 析 目 的 不 同 , 例 如 为 综 合 评 价 , 则 应 考 虑 因 子 分 析 等 方 法 , 详 见 本 章 末 。在 基 于 均 数 的 对 应 分 析 中 , SPSS 不 能 直 接 从 原 始 数 据 进 行 均 数 汇 总 , 需 要 分 析 者 首 先 将 数据 汇 总 好 , 然 后 整 理 成 SPSS 可 以 直 接 识 别 的 形 式 。 SPSS 可 以 直 接 读 取 的 数 据 格 式 有 两 种 , 除 了前 面 使 用 过 的 频 数 格 式 外 , 基 于 均 数 的 对 应 分 析 中 更 常 用 的 为 类 似 于 原 始 汇 总 表 格 的 交 叉 表 格式 , 本 例 中 的 数 据 格 式 如 图 15.7 所 示 。图 15.7 文 件 meancores. sav 的 数 据 格 式完 整 的 数 据 见 文 件 meancores.sav 。 可 见 该 格 式 实 际 上 就 是 行 、 列 变 量 形 成 的 交 叉 表 , 列 变量 每 一 个 类 别 以 单 独 变 量 的 形 式 出 现 , 而 行 变 量 各 类 别 则 单 独 占 一 行 , 同 时 数 据 中 有 一 个 数 值 型变 量 rowcat_ , 其 取 值 和 变 量 值 标 签 就 代 表 了 行 变 量 的 不 同 类 别 名 称 。 例 如 本 例 中 1 的 标 签 为 广东 , 2 的 为 江 苏 , 依 此 类 推 。由 于 此 处 需 要 使 用 欧 式 距 离 来 表 示 关 联 程 度 , 首 先 需 要 考 虑 应 当 采 用 何 种 距 离 标 准 化 方 法 。显 然 , 6 项 指 标 的 均 数 大 不 相 同 , 而 这 并 不 是 我 们 所 要 关 心 的 , 同 时 它 们 的 量 纲 也 相 差 较 大 , 最大 、 最 小 值 的 倍 数 在 数 十 到 上 千 不 等 ; 另 一 方 面 , 各 省 市 发 展 水 平 的 差 异 是 我 们 希 望 考 察 的 内 容 ,即 上 海 的 平 均 发 展 水 平 是 否 高 于 北 京 , 诸 如 此 类 。 因 此 , 本 例 中 使 用 Column Totals are Equalizedand Column Means Removed 这 一 标 化 方 法 更 为 妥 当 , 它 可 以 消 除 各 指 标 均 数 和 量 纲 不 同 的 影 响 ,同 时 又 保 留 了 地 区 发 展 水 平 的 差 异 。最 后 , 因 数 据 是 以 交 叉 表 方 式 提 供 , SPSS 无 法 用 对 话 杠 直 接 分 析 , 我 们 可 以 首 先 利 用 对 话 杠粘 贴 出 程 序 框 架 , 然 后 加 以 修 改 , 这 是 SPSS 使 用 中 的 常 用 技 巧 , 操 作 如 下 :• 301 •


!Analyze• Data Reduction→ Corre 叩 onde 时 e Analysis:Row 杠 : road! 选 中 hair: IDefine Rar 时 : Minimum 杠 : 1: Maximum 杠 :2: IUpda 曰 : IContinue I!Column杠 : 盯 eai 选 中 eye: IDefine 阳 R an 吨 g 伊 附 e时匹 ~:Distance Measure:Standardization Method:EuclideanColumn Totals are Equalized and Column Means Removed对 话 杠 操 作 中 选 入 road 和 area , 并 将 它 们 的 取 值 范 围 定 义 为 1 ~ 2 只 是 为 了 能 进 行 程 序 粘贴 , 并 无 实 际 意 义 。 操 作 完 毕 后 生 成 的 程 序 如 左 下 所 示 , 注 意 其 中 的 TABLE 语 句 , 请 将 其 改 为 右侧 所 示 的 内 容 。CORRESPONDENCETABLE = road c1 2) BY area c1 2)CORRESPONDENCETABLE = all (29 6)/DIMENSIONS = 2/DIMENSIONS = 2/MEASURE = EUCLID/STANDARDIZE = CSUM/NORMALIZATION = SYMMETRICAL/MEASURE = EUCLID/STANDARDIZE = CSUM/NORMALIZATION = SYMMETRICAL/PRINT = TABLE RPOINTS CPOINTS /PRINT = TABLE RPOINTS CPOINTS/PLOT = NDIM C1, MAX) BIPLOT (20). /PLOT = NDIM C1, MAX) BIPLOT (20).all (29 6) 表 明 数 据 是 以 交 叉 表 的 形 式 出 现 , 而 且 为 29 行 、 6 列 (rowcat 为 控 制 变 量 , 不 计 入列 中 ) , 运 行 上 述 程 序 , 即 可 得 到 分 析 结 果 , 其 中 的 主 要 内 容 参 见 表 15.90表 15.9SummaryProportio 门 of InertiaDimension Singular Value Inertia Accounted for Cumulative758 575 .721 72 才2 397 158 .198 9 才 93 206 043 .053 9734 .133 .018 .022 .9955 063 004 .005 1.000Total 797 1000 1.000表 15.9 为 提 取 维 度 的 汇 总 表 , 可 见 前 两 个 维 度 共 携 带 了 总 信 息 量 的 9 1. 9% , 因 此 使 用 默 认的 二 维 结 果 是 比 较 好 的 选 择 。• 302 •


图 15.8 即 为 最 终 的 对 应 分 析 图 , 首 先 在 指 标 散 点 中 , 6 个 散 点 并 未 被 完 全 分 开 , 其 中 道 路 长度 、 道 路 面 积 、 下 水 道 长 度 和 路 灯 数 基 本 重 叠 , 显 然 , 从 常 识 而 言 , 这 4 个 指 标 应 当 是 紧 密 相 关 的 。其 次 各 省 市 散 点 也 未 完 全 分 开 , 内 蒙 、 宁 夏 等 散 点 聚 集 在 一 起 , 这 说 明 它 们 的 发 展 水 平 接 近 , 另 一方 面 , 山 东 、 广 西 等 4 个 散 点 远 离 原 点 , 也 互 相 远 离 , 这 说 明 这 4 个 省 市 的 发 展 水 平 和 平 均 水 平 相差 较 大 , 而 且 各 自 特 点 不 同 。 现 在 考 察 指 标 散 点 和 省 市 散 点 间 的 关 系 , 可 见 上 海 和 水 处 理 散 点 的放 射 方 向 一 致 , 查 看 原 始 数 据 , 会 发 现 上 海 市 的 污 水 处 理 能 力 是 全 国 最 高 的 ; 江 苏 散 点 和 桥 梁 散点 的 放 射 方 向 一 致 , 在 原 始 数 据 中 江 苏 的 桥 梁 指 标 也 是 最 高 的 ; 在 另 4 个 指 标 中 , 广 东 、 山 东 两 省基 本 均 处 于 全 国 前 两 名 , 这 在 图 中 则 表 现 为 它 们 正 好 位 于 相 应 4 个 指 标 散 点 的 放 射 线 上 。原 点 代 表 全 国 的 平 均 水 平 , 而 在 指 标 放 射 线 的 反 方 向 则 说 明 该 指 标 要 低 于 平 均 水 平 , 例 如 图15.8 中 可 见 吉 林 位 于 水 处 理 散 点 的 反 方 向 , 在 原 始 数 据 中 , 吉 林 的 该 项 指 标 居 全 国 倒 数 第 二 ; 同理 , 可 以 发 现 宁 夏 的 多 项 指 标 均 敬 陪 末 座 , 图 15.8下 方 。中 该 散 点 则 位 于 最 远 离 多 数 指 标 散 点 的 最 右2。 山 东0 广 东NZCZEUE 』 -Dhυ辽 宁 、 盹 阳 111下 水 道 ‘。 长 I!?c;1 喷 , T , 而桥 梁 俨 与 华 、"'1 陕 >'k V 远 叫 ..,...-‘,.... 古 气 , 肃 τ'" 一。 -ìt 月 ::!L~'õl 0;;' 庆 '""....~1'-1.. 办 黑 龙 江 -f 西 里· 水 处 理2。 土 悔司J2 。 2Dimension 1图 15.8基 于 均 数 的 对 应 分 析 图通 常 可 以 根 据 指 标 散 点 与 各 省 市 在 图 中 的 分 布 位 置 进 行 省 市 发 展 水 平 的 分 类 , 由 于 绝 大 部分 指 标 散 点 位 于 第 二 象 限 , 因 此 可 以 这 样 进 行 分 类 : 第 二 、 三 象 限 为 发 展 较 好 的 省 市 ; 第 一 象 限 为发 展 程 度 中 等 的 省 市 ; 第 四 象 限 则 为 欠 发 达 省 市 。 朋 友 们 可 以 使 用 聚 类 分 析 、 主 成 分 分 析 等 方 法进 行 省 市 分 类 , 会 发 现 结 果 非 常 相 似 。本 例 中 使 用 Column Totals are Equalized and Column Means Removed 这 一 距 离 标 化 方 法 得 到了 相 应 的 分 析 结 果 , 感 兴 趣 的 朋 友 可 以 尝 试 使 用 默 认 标 化 方 法 进 行 分 析 , 会 发 现 相 应 的 结 果 完 全不 同 , 而 且 远 不 如 现 在 的 结 果 更 为 实 用 。 毕 竟 在 这 个 问 题 中 , 省 市 间 综 合 发 展 水 平 的 差 异 是 研 究者 所 关 心 和 感 兴 趣 的 , 不 应 当 被 移 除 出 模 型 。• 303 •


15.4 多 重 对 应 分 析15.4.1 方 法 原 理在 前 面 的 分 析 中 , 考 察 的 都 是 一 个 二 维 交 叉 表 中 行 、 列 变 量 问 各 类 别 的 联 系 情 况 , 在 许 多 时候 , 我 们 希 望 能 够 同 时 考 察 多 个 分 类 变 量 类 别 取 值 间 的 联 系 , 例 如 性 别 、 职 业 、 学 历 等 和 职 务 级 别间 的 联 系 如 何 。 显 然 , 对 应 分 析 也 应 当 可 以 解 决 此 类 问 题 , 但 是 , 简 单 对 应 分 析 只 能 对 两 个 分 类变 量 进 行 分 析 , 这 里 则 涉 及 多 个 分 类 变 量 。 可 以 考 虑 采 用 变 量 合 并 的 方 法 , 比 如 将 婚 姻 状 况 和 教育 程 度 合 并 成 一 个 多 分 类 变 量 , 取 值 为 己 婚 & 初 中 及 以 下 、 未 婚 & 初 中 及 以 下 , 诸 如 此 类 , 然 后再 使 用 简 单 对 应 分 析 加 以 拟 合 。 但 这 样 做 无 疑 会 非 常 笨 拙 。 而 且 在 这 种 细 分 组 合 下 , 往 往 会 出现 大 量 理 论 频 数 非 常 低 的 单 元 格 , 导 致 结 果 的 不 稳 定 。SPSS中 提 供 了 直 接 对 多 个 分 类 变 量 进 行 对 应 分 析 的 功 能 , 即 多 重 对 应 分 析 。 但 是 , 这 一 方法 和 前 述 的 简 单 对 应 分 析 并 不 完 全 相 同 。 首 先 , 它 被 归 入 了 同 质 性 分 析 的 范 畴 ; 其 次 , 它 的 算 法也 和 简 单 对 应 分 析 不 同 , 它 会 首 先 对 各 变 量 进 行 最 优 尺 度 变 换 , 以 尽 量 凸 现 类 别 间 差 异 , 然 后 再按 照 标 准 的 对 应 分 析 算 法 进 行 计 算 。 这 使 得 即 使 在 两 变 量 的 情 况 下 , 这 两 个 过 程 的 结 果 也 不 会完 全 等 价 。 不 过 只 要 使 用 正 确 , 两 个 结 果 在 解 释 上 应 当 是 基 本 一 致 的 。15.4.2 分 析 实 例1. 操 作 说 明数 据 集 mcorres. sav 来 自 SAS 自 带 的 示 例 数 据 , 它 提 供 了 某 次 调 查 得 来 的 轿 车 特 征 与 一 些 用户 特 征 的 数 据 , 请 分 析 汽 车 原 产 地 Corigin) 、 汽 车 大 小 Csize) 、 轿 车 类 型 Ctype) 、 居 住 情 况 Chome) 、收 入 情 况 Cincome) 、 性 别 Csex) 、 婚 姻 状 况 Cmarit) 之 间 的 联 系 如 何 。解 : 以 上 变 量 绝 大 多 数 为 无 序 多 分 类 或 二 分 类 变 量 , 同 时 研 究 它 们 间 的 联 系 可 以 使 用 的 方 法有 对 数 线 性 模 型 和 多 重 对 应 分 析 两 种 , 从 结 果 的 直 观 性 和 可 解 释 性 上 讲 , 多 重 对 应 分 析 要 更 好些 , 此 处 即 采 用 该 方 法 。 为 了 能 够 保 证 结 果 的 正 确 性 , 预 分 析 时 最 好 能 够 对 各 变 量 间 的 两 两 关 联性 进 行 扩 检 验 , 此 处 略 去 详 细 输 出 。 预 分 析 结 果 中 可 见 除 性 别 和 多 数 变 量 问 无 明 显 关 联 外 , 其余 变 量 几 乎 均 存 在 联 系 。 出 于 解 决 问 题 的 需 要 , 这 里 可 以 考 虑 先 将 所 有 变 量 一 并 纳 入 , 在 得 到 分析 结 果 后 再 进 一 步 考 虑 改 进 方 法 。由 于 这 里 需 要 进 行 的 是 多 重 对 应 分 析 , SPSS中 将 该 方 法 纳 入 了 最 优 尺 度 分 析 的 统 计 对 话 杠中 , 相 应 的 操 作 如 下 :• 304 •


!Analyze• Data Reduction• Optimal Scalingi:Define: :!Variables杠 :ongm 、 SIze 、 typei 选 中 以 上 三 个 变 量 : 1Define Ra 吨 e1: Maximum 杠 :3: 1Continuel!Variables 杠 :home 、 i 肘 。me 、 sexi 选 中 以 上 三 个 变 量 : 1Define Ra 吨 e1: Maximum 杠 :2: 1Continuel!Variables杠 :marit; 油 选 中 m 川 叫 m 削 盯 it: 恒 1 胁 Defi 阳 白 时 R 问 叫 ann 吨 g 伊 附 咐 e 叶 时 叫 | ~ 卅 川 Maxir 灿 : 灿 缸 m 川 心 力 xlm豆 d 叮 巾 叩 叫 1I I 口 m 川 由 山 1; 画 匾 亟 i 画 ~:P 阳 l 扣 lot 川 t:; 因Discrimination Measure: 巨 亟 画图 15. 9 Optimal Scaling 预 定 义 对 话 框 图 15. 10 Homals 过 程 主 对 话 框最 优 尺 度 分 析 过 程 中 首 先 弹 出 的 是 预 定 义 对 话 框 , 如 图 15.9所 示 , 用 于 在 同 质 性 分 析 ( ep多 重 对 应 分 析 )、 分 类 数 据 的 主 成 分 分 析 和 非 线 性 典 型 相 关 分 析 这 三 种 方 法 中 进 行 选 择 , 默 认 的方 法 即 为 同 质 性 分 析 。 在 随 后 的 主 对 话 杠 中 , 用 户 只 需 要 选 入 分 析 的 变 量 , 并 在 Define Range 子对 话 杠 中 定 义 变 量 取 值 范 围 即 可 , 如 图 15.10 所 示 , 注 意 在 这 里 分 类 代 码 的 最 小 值 固 定 为 1, 因此 只 能 设 置 最 大 值 。 如 数 据 中 最 小 值 不 为 1, 则 应 首 先 进 行 变 换 。主 对 话 杠 最 下 方 的 Dimensions in Solutions 用 于 定 义 解 释 空 间 的 维 度 , 默 认 为 2 维 。 此 处 未进 行 更 改 。2. 结 果 解 释同 质 性 分 析 的 输 出 和 简 单 对 应 分 析 不 太 一 样 , 这 里 对 其 主 要 部 分 说 明 如 下 :首 先 会 输 出 荷 兰 Leiden 大 学 DTSS 课 题 组 的 版 权 声 明 、 分 析 中 使 用 的 记 录 数 统 计 和 所 有 7个 分 类 变 量 的 频 数 表 输 出 , 此 处 全 部 省 略 。在 表 15.10 和 表 15.11 两 个 表 格 中 , 表 15. 10 为 迭 代 记 录 , 显 示 在 第 18 次 迭 代 后 收 敛 , 该 表右 侧 给 出 了 最 后 一 次 的 步 长 。 表 15.11 给 出 了 按 要 求 提 取 的 两 个 维 度 的 特 征 根 值 。• 305 •


表 15.10 Iteration History 表 15.11 EigenvaluesDifference from Dimension Eigenvaluethe Previous .326lIeration Fit Iteration18 a .560787 .0000052 .235a The iterati 口 同 process stopped because the convergence test value was reached在 多 重 对 应 分 析 中 , 可 使 用 的 最 高 维 度 数 = 变 量 中 类 别 总 数 一 变 量 数 。 若 样 本 数 低 于 此 差值 , 则 最 大 维 度 数 为 样 本 数 。 在 本 例 中 , 最 多 可 取 3 x 3 + 2 x 2 + 4 -7 = 10 个 维 度 。 但 是 绝 大 多数 问 题 不 需 要 取 太 多 维 数 , 一 般 都 使 用 2 ~3 个 维 度 进 行 结 果 解 释 。 每 一 个 维 度 的 特 征 根 代 表 该维 度 对 各 变 量 的 解 释 度 / 区 分 度 , 数 值 越 大 , 表 示 该 维 度 上 各 变 量 的 区 分 程 度 越 好 , 最 大 为 1 。 但是 , 由 于 采 用 了 最 优 尺 度 变 换 , 各 维 度 的 特 征 根 提 取 都 是 独 立 进 行 的 , 因 此 不 能 相 加 以 代 表 模 型总 的 解 释 程 度 , 也 就 无 法 得 知 模 型 的 总 解 释 程 度 如 何 , 这 也 是 基 于 最 优 尺 度 变 换 的 多 重 对 应 分 析的 缺 点 之 一 。0.4。 汽 车 大 小O 汽 车 原 产 地F 斗5。m 5E0.3F 呵 0.2。 轿 车 类 型。 收 入 情 况。婚 姻 状 况。 l0.00.00 性 别 o 居 住 情 况0.1 0.2 0.3 0.4 0.5DÌmensÌon 10.6 0.7图 15.11判 别 程 度 测 量 图在 特 征 根 之 后 给 出 的 是 Discrimination Measures 表 , 本 处 将 其 略 去 , 直 接 给 出 由 表 格 中 数 据绘 制 的 判 别 程 度 测 量 图 , 如 图 15.11所 示 , 图 中 用 散 点 坐 标 的 形 式 显 示 出 了 各 变 量 在 二 个 维 度 上的 区 分 程 度 。 可 见 婚 姻 、 收 入 这 两 个 变 量 在 两 个 维 度 上 的 区 分 程 度 都 相 当 好 , 其 余 变 量 有 的 在 第一 维 度 、 有 的 在 第 二 维 度 上 的 区 分 度 较 好 , 而 性 别 在 两 个 维 度 上 的 区 分 程 度 均 较 差 。随 后 输 出 的 7 个 表 格 依 次 给 出 各 变 量 的 各 取 值 类 别 在 两 个 维 度 中 的 坐 标 值 , 此 处 略 。随 后 输 出 的 图 15.12 即 为 多 重 对 应 分 析 图 。 阅 读 该 图 形 时 所 遵 从 的 原 则 和 简 单 对 应 分 析 图基 本 类 似 , 具 体 来 说 有 如 下 几 点 :(1) 落 在 由 原 点 (0 , 0) 出 发 接 近 相 同 方 位 及 图 形 相 同 区 域 的 同 一 变 量 的 不 同 类 别 具 有 类 似• 306 •


QuantificationsN=2.01. 5 斗 口 大 型1IA 。υ。u;0.5Z UE白0.00.5-1.0。 美 国。 未4 吊υ只 自'家 用 车 | 一 份 收 入 +。 x '1 租 房已 婚 有 孩 于 | 咽 。 男目 中 型 商 用 车A 买 房 l女 o日 本+~ 份 收 入 0 [1 小 型欧 训 )(。 己 婚 | 跑 车有 西 于主 主-0.5 0.0 0.5 1.0Dimension 1。 汽 车 原 产 地口 汽 车 大 小轿 车 类 型X 居 佳 情 况A 收 人 情 况+ 性 别 状 况婿 捆00图 15.12多 重 对 应 分 析 图的 性 质 。(2) 落 在 原 点 出 发 接 近 相 同 方 位 及 图 形 相 同 区 域 的 不 同 变 量 的 类 别 间 可 能 有 联 系 。根 据 以 上 原 则 , 可 以 在 图 中 得 出 如 下 线 索 :(1) 未 婚 、 一 份 收 入 、 租 房 子 之 间 有 联 系 。(2) 跑 车 、 车 型 为 小 型 和 日 本 产 有 联 系 。(3) 己 婚 、 双 份 收 入 有 联 系 , 买 房 子 和 性 别 为 女 性 似 乎 和他 们 也 有 点 联 系 。(4) 己 婚 有 孩 子 、 家 用 车 和 车 型 为 中 型 有 联 系 。现 在 , 分 析 者 就 可 以 在 确 定 市 场 战 略 、 市 场 细 分 等 方 面 充分 利 用 以 上 信 息 , 比 如 今 后 向 己 婚 家 庭 投 送 广 告 时 重 点 就 放在 中 型 家 用 车 上 , 而 己 婚 ( 无 孩 子 ) 家 庭 的 市 场 尚 无 合 适 车 型 ,可 以 考 虑 专 门 开 发 一 种 新 车 来 占 领 市 场 。 至 于 未 婚 、 租 房 子 、一 份 收 入 的 人 群 , 从 常 识 讲 不 会 有 太 多 钱 来 买 车 , 属 于 典 型 的垃 圾 客 户 , 放 在 那 里 不 管 就 是 了 。图 15.13 为 对 象 评 分 图 , 即 个 体 散 点 图 。 用 于 显 示 所 有观 测 在 相 应 解 释 空 间 中 的 分 布 情 况 , 该 图 形 可 用 于 协 助 进 行图 15.13 个 体 散 点 图市 场 细 分 , 本 例 中 因 观 测 分 布 均 匀 , 用 处 不 大 。 注 意 由 于 例 数 较 多 , 图 15. 13 中 采 用 的 是 葵 花(Sunflower) 方 式 以 显 示 出 散 点 的 琉 密 程 度 。 关 于 葵 花 选 项 的 含 义 和 用 法 可 参 见 基 础 教 程 。在 得 到 初 步 的 分 析 结 果 后 , 研 究 者 还 需 要 对 结 果 进 行 验 证 和 改 进 , 例 如 对 照 原 始 的 频 数 表 ,• 307 •


以 确 认 图 形 中 所 观 察 到 的 联 系 的 确 存 在 。 另 一 方 面 , 由 于 性 别 的 区 分 度 不 大 , 可 以 考 虑 将 其 去掉 , 以 其 能 够 改 善 结 果 的 解 释 。 感 兴 趣 的 朋 友 可 自 行 操 作 , 这 里 不 再 详 述 。15.5 对 应 分 析 中 的 其 他 问 题15.5.1 对 应 分 析 结 果 的 正 确 解 释对 应 分 析 因 其 结 果 易 于 解 释 , 往 往 会 在 粗 心 的 使 用 者 手 中 得 到 实 际 错 误 地 分 析 结 果 , 最 常 见的 错 误 是 将 构 成 比 和 原 始 频 数 弄 泪 。 例 如 在 头 发 和 眼 睛 颜 色 的 数 据 中 , 头 发 金 色 和 眼 睛 蓝 色 、 浅色 散 点 存 在 关 联 , 初 学 者 很 容 易 做 出 结 论 : 金 色 头 发 的 儿 童 中 蓝 色 、 浅 色 眼 睛 者 居 多 。 真 的 是 这样 吗 ? 考 察 原 始 频 数 , 就 会 发 现 根 本 不 是 这 么 回 事 ! 实 际 上 金 色 头 发 儿 童 中 眼 睛 颜 色 为 棕 色 的比 蓝 色 的 还 多 ! 为 什 么 会 这 样 ? 这 需 要 从 数 据 变 换 说 起 , 在 变 换 时 基 于 的 是 如 下 原 假 设 : 行 、 列变 量 问 无 关 联 , 也 就 是 说 , 无 论 头 发 为 什 么 颜 色 , 各 种 眼 睛 颜 色 的 构 成 比 均 保 持 不 变 ( 也 就 是 和平 均 水 平 相 同 ) , 反 之 亦 然 。 因 此 , 和 扩 检 验 一 样 , 这 里 考 察 的 是 不 同 类 别 间 比 例 和 平 均 水 平 相比 的 差 异 , 而 不 是 某 个 头 发 颜 色 类 别 内 各 眼 睛 颜 色 的 频 数 / 构 成 比 哪 个 更 高 。 本 例 中 棕 色 眼 睛 的总 样 本 比 例 为 32.9% , 而 在 金 色 头 发 儿 童 中 为 23.6% , 还 低 于 平 均 水 平 ; 而 蓝 色 眼 睛 总 样 本 比 例为 13.3% , 金 色 头 发 中 则 为 22.4% , 要 高 于 平 均 水 平 , 在 5种 头 发 颜 色 的 儿 童 中 也 是 最 高 的 。 因此 正 确 的 结 论 应 当 是 : 金 色 头 发 的 儿 童 中 蓝 色 、 浅 色 眼 睛 的 比 例 高 于 其 他 颜 色 头 发 的 儿 童 , 或 者说 高 于 平 均 水 平 。15.5.2 罕 见 类 别 和 相 似 类 别 的 处 理首 先 回 忆 一 下 对 应 分 析 的 原 理 : 它 首 先 要 基 于 行 、 列 变 量 问 无 关 联 的 原 假 设 对 交 叉 表 频 数 进行 变 换 , 然 后 再 对 变 换 后 的 数 据 进 行 分 析 。 为 了 能 使 变 换 后 的 标 准 化 残 差 较 为 稳 定 , 各 单 元 格 的理 论 频 数 就 不 应 过 少 ( 通 常 认 为 应 当 大 于 5) 。 而 当 某 一 类 别 的 频 数 太 少 时 , 相 应 单 元 格 的 理 论频 数 就 很 小 , 该 单 元 格 增 、 减 一 两 个 频 数 , 相 应 的 类 别 散 点 在 空 间 中 的 位 置 就 会 发 生 剧 烈 变 化 , 而且 该 散 点 坐 标 往 往 比 较 极 端 , 严 重 影 响 整 个 分 析 结 果 的 观 察 和 解 释 。除 了 将 罕 见 类 别 进 行 合 并 、 删 除 之 外 , 为 了 解 决 这 一 问 题 , SPSS 中 还 提 供 了 将 相 应 类 别 指 定为 " 附 加 类 " 进 行 分 析 的 功 能 。 所 谓 附 加 CSupplementaD 类 , 就 是 指 在 提 取 公 因 子 , 生 成 解 释 空 间时 不 参 与 计 算 的 类 别 , 它 们 在 维 度 提 取 完 毕 后 会 计 算 出 自 身 的 空 间 坐 标 , 从 而 也 在 对 应 分 析 图 中以 三 点 的 形 式 表 示 出 来 。 这 样 , 由 于 它 们 不 参 与 因 子 的 提 取 , 就 可 以 保 证 解 释 空 间 的 稳 定 性 。除 罕 见 类 别 外 , 交 叉 表 中 往 往 还 会 出 现 相 似 类 别 , 如 前 面 市 政 发 展 水 平 的 例 子 中 , 6个 指 标里 4 个 指 标 的 散 点 基 本 上 完 全 重 合 , 为 了 简 化 模 型 , 方 便 解 释 , 可 以 考 虑 将 这 4 个 指 标 完 全 绑 定 ,即 限 定 它 们 在 空 间 中 的 坐 标 完 全 相 同 。 采 用 这 一 方 式 , 就 可 以 起 到 简 化 模 型 结 果 的 作 用 。 当 然 ,该 技 巧 也 可 用 于 对 罕 见 类 别 的 处 理 。简 单 对 应 分 析 过 程 中 的 Define Range 子 对 话 杠 提 供 了 将 相 应 类 别 制 定 为 附 加 类 或 者 绑 定 类的 功 能 , 只 需 要 首 先 选 中 相 应 的 类 别 , 然 后 单 击 右 侧 的 Categories must be eql 叫 或 者 Category issupplemental 单 选 框 , 就 可 以 将 相 应 类 别 指 定 为 绑 定 类 或 者 附 加 类 。• 308 •


15.5.3 有 序 类 别 的 处 理在 前 面 多 重 对 应 分 析 的 实 例 中 , 汽 车 大 小 实 际 上 为 有 序 分 类 变 量 , 但 是 对 应 分 析 中 不 能 直 接利 用 这 种 有 序 信 息 , 计 算 中 仍 然 将 该 变 量 按 照 无 序 分 类 的 方 式 加 以 处 理 。 一 般 而 言 , 这 种 信 息 的损 失 影 响 不 大 , 因 为 研 究 者 可 以 从 对 应 分 析 途 中 各 类 别 散 点 间 的 位 置 了 解 这 种 有 序 信 息 的 作 用 ,即 在 结 果 解 释 时 将 顺 序 关 系 加 入 。 从 图 中 可 见 , 大 型 、 中 型 、 小 型 三 个 散 点 从 左 到 右 下 分 布 得 较有 规 律 , 与 其 相 关 的 类 别 逐 渐 从 美 国 过 渡 到 欧 、 日 , 从 家 用 车 、 商 用 车 到 跑 车 , 非 常 容 易 解 释 。 同时 , 中 型 、 小 型 两 散 点 的 距 离 要 小 于 它 们 和 大 型 车 间 的 距 离 , 提 示 这 两 个 类 别 间 的 差 异 相 对 要 小一 些 。 事 实 上 , 分 析 者 可 以 通 过 对 应 分 析 将 有 序 变 量 数 量 化 , 这 种 用 法 和 最 优 尺 度 变 换 的 思 路 是完 全 一 致 的 。15.6 本 章 方 法 小 结15.6.1 对 应 分 析 与 其 他 分 析 方 法 的 关 系1. 对 应 分 析 与 x2 检 验由 前 面 对 应 分 析 的 原 理 可 知 , 在 进 行 列 联 表 分 析 时 , 数 据 的 标 准 化 就 是 基 于 扩 检 验 的 原 假设 进 行 的 。 事 实 上 , 通 过 计 算 公 式 可 知 :X2= 三 标 准 化 残 差 2显 然 二 者 间 有 着 密 切 的 联 系 , 可 以 将 扩 值 看 成 是 实 际 数 据 偏 离 原 假 设 程 度 的 总 体 测 量 指标 , 而 对 应 分 析 则 是 将 这 种 偏 离 情 况 进 行 了 细 化 和 图 形 呈 现 。由 于 对 应 分 析 基 本 上 是 一 种 统 计 描 述 方 法 , 因 此 x2 检 验 往 往 被 作 为 对 其 适 用 条 件 的 检 查 手段 。 在 对 应 分 析 结 果 中 , 行 、 列 变 量 间 是 否 存 在 关 联 的 检 验 用 的 就 是 扩 检 验 。 一 般 而 言 , 当 x2 检验 有 统 计 学 意 义 时 , 对 应 分 析 才 有 可 能 在 各 类 别 间 找 到 较 为 明 显 的 类 别 联 系 。 但 是 , 由 于 扩 检验 是 一 个 总 体 检 验 , 不 排 除 可 能 有 少 数 类 别 间 的 联 系 被 淹 没 在 绝 大 多 数 无 关 类 别 中 的 情 形 出 现 。因 此 这 里 的 扩 检 验 一 般 不 是 严 格 的 以 0.05 作 为 判 断 水 准 , 具 体 界 值 为 多 少 才 合 适 并 无 统 一 标准 , 但 从 经 验 上 讲 , 如 果 P 值 大 于 0.2 , 则 多 半 无 进 行 对 应 分 析 的 必 要 ; 如 果 在 o. 05 ~ 0.2 之 间 ,则 可 以 考 虑 进 行 对 应 分 析 , 但 是 对 结 果 的 解 释 要 慎 重 。2. 对 应 分 析 与 典 型 相 关 分 析 的 等 价 性作 为 多 元 统 计 分 析 方 法 , 简 单 对 应 分 析 用 于 分 析 行 变 量 各 类 别 与 列 变 量 各 类 别 间 的 联 系 , 而实 际 上 在 计 算 时 他 是 将 各 类 别 看 成 是 一 个 单 独 的 变 量 , 即 研 究 行 变 量 组 和 列 变 量 组 间 的 联 系 。前 面 己 经 学 习 过 的 典 型 相 关 分 析 就 是 用 于 研 究 两 组 变 两 间 的 相 关 性 , 实 际 上 对 于 交 叉 表 资 料 的分 析 , 这 两 种 分 析 方 法 是 完 全 等 价 的 。 只 不 过 要 进 行 典 型 相 关 分 析 , 就 必 须 要 将 原 始 资 料 转 换 为变 量 组 的 形 式 , 以 数 据 hair&eye 为 例 , 需 要 为 眼 睛 颜 色 建 立 4 个 哑 变 量 , 头 发 颜 色 建 立 5 个 哑 变量 , 它 们 在 眼 睛 / 头 发 为 相 应 颜 色 时 取 1, 否 则 取 0 。 如 图 15. 14 所 示 。随 后 在 SPSS 中 进 行 典 型 相 关 分 析 , 程 序 如 下 :INCLUDE 'e:\SPSS company\spss\Canonical correlation. sps '.• 309 •


图 15.14哑 变 量 设 置 格 式 示 意CANCORR SET1 = h1 h2 h3 h4/SET2 = e1 e2 e3.注 意 由 于 各 哑 变 量 问 存 在 共 线 性 , 故 只 能 纳 入 n -1 个 。 典 型 相 关 分 析 的 部 分 结 果 如 下 :Canonical Correlations1 .4462 .1733.029可 见 一 共 可 提 取 3 个 典 型 相 关 系 数 , 注 意 其 大 小 分 别 为 0.446 、 0.173 和 0.029 , 恰 好 等 于 对应 分 析 中 的 奇 异 值 ! 可 见 两 种 算 法 在 本 质 上 是 等 价 的 。 但 是 , 典 型 相 关 分 析 侧 重 于 求 解 典 型 相关 系 数 , 而 对 应 分 析 则 侧 重 于 对 列 联 表 的 结 构 进 行 详 细 解 释 。随 后 输 出 的 是 三 个 典 型 相 关 系 数 的 检 验 结 果 , 可 见 前 两 个 均 有 统 计 学 意 义 , 而 第 三 个 典 型 相关 系 数 则 P 值 稍 大 , 因 此 , 典 型 相 关 分 析 可 以 从 维 度 检 验 的 角 度 告 诉 我 们 第 三 个 维 度 是 不 需 要纳 入 考 虑 的 , 前 两 个 维 度 己 经 足 够 了 。Test that remaining correlations are zero:WiU 豆 ' 自 Chi - SQ DF Sig.1 .776 1364.921 12.000 .0002 .969 169.041 6.000 .0003 .999 4.628 2.000 .099典 型 相 关 分 析 的 结 果 在 许 多 方 面 都 可 以 和 简 单 对 应 分 析 互 为 补 充 , 感 兴 趣 的 读 者 可 自 行 仔细 对 照 阅 读 , 这 里 不 再 重 复 。3. 对 应 分 析 与 因 子 分 析 的 关 系因 子 分 析 方 法 可 以 被 认 为 是 多 元 分 析 的 基 石 , 对 应 分 析 和 因 子 分 析 间 也 存 在 着 非 常 紧 密 地联 系 。 读 者 可 以 简 单 的 把 对 应 分 析 理 解 为 分 类 数 据 的 因 子 分 析 。 但 是 , 这 两 种 方 法 的 侧 重 点 并不 相 同 , 例 如 在 案 例 meancores. sav 中 , 细 心 的 读 者 会 发 现 该 数 据 完 全 符 合 使 用 因 子 分 析 的 要 求 。但 是 , 如 果 使 用 因 子 分 析 , 则 重 在 考 察 数 据 的 关 联 程 度 , 计 算 过 程 中 提 取 的 是 各 变 量 间 的 相 关 性 ,相 应 的 解 释 空 间 也 是 在 变 量 关 联 程 度 的 强 弱 基 础 上 加 以 构 造 ; 如 果 使 用 对 应 分 析 , 则 重 在 考 察 类别 间 的 差 异 , 经 过 第 一 步 的 数 据 变 换 后 , 数 据 中 保 留 的 信 息 反 映 的 是 样 本 数 据 偏 离 行 、 列 类 别 间无 联 系 ( 无 交 互 作 用 ) 这 一 假 设 的 程 度 。 相 应 的 解 释 空 间 集 中 反 映 的 是 各 类 别 在 关 联 程 度 上 的差 异 。 如 果 将 这 两 个 空 间 图 放 在 一 起 比 较 , 则 会 发 现 两 个 散 点 的 大 致 位 置 存 在 一 定 的 对 应 关 系 ,• 310 •


但 并 不 完 全 相 同 , 就 好 像 是 对 应 分 析 将 因 子 分 析 中 的 位 置 差 异 强 烈 放 大 了 一 样 。15.6.2 对 应 分 析 的 优 势 与 劣 势对 应 分 析 因 其 结 果 的 易 读 性 , 近 年 来 得 到 了 越 来 越 广 泛 的 应 用 , 但 是 , 这 一 方 法 的 特 点 也 导致 其 极 易 被 滥 用 , 因 此 读 者 朋 友 们 有 必 要 认 真 考 虑 其 优 、 劣 势 所 在 。1. 对 应 分 析 的 优 势(1) 结 果 直 观 、 简 单 : 对 应 分 析 属 于 多 维 图 示 分 析 技 术 之 一 , 它 最 主 要 的 结 果 就 是 对 应 分 析图 , 非 常 容 易 理 解 , 这 也 是 对 应 分 析 比 对 数 线 性 模 型 这 些 专 业 建 模 方 法 更 受 应 用 统 计 人 员 欢 迎 的原 因 。(2) 适 于 研 究 较 多 分 类 变 量 : 多 重 对 应 分 析 可 以 将 多 个 分 类 变 量 的 关 联 在 一 张 图 形 中 表 现出 来 , 当 变 量 数 较 多 时 , 该 优 势 非 常 明 显 。(3) 适 于 分 析 多 分 类 变 量 : 当 分 类 变 量 的 类 别 数 越 多 时 , 对 应 分 析 图 形 化 结 果 的 优 势 就 越 明显 。 它 省 去 了 复 杂 的 建 模 和 检 验 过 程 , 可 以 直 接 观 察 到 最 为 主 要 的 关 联 特 征 。2. 对 应 分 析 的 劣 势(1) 不 能 进 行 具 体 联 系 的 检 验 : 对 应 分 析 在 本 质 上 仍 然 只 是 一 种 统 计 描 述 方 法 , 他 无 法 对 所观 察 到 的 变 量 类 别 间 的 联 系 进 行 检 验 , 从 而 在 统 计 上 加 以 确 认 。 因 此 , 对 应 分 析 在 结 果 解 释 上 要小 心 , 特 别 是 多 重 对 应 分 析 , 事 先 一 定 要 采 用 卡 方 检 验 等 统 计 方 法 进 行 预 分 析 , 筛 除 掉 实 际 上 无联 系 的 变 量 。 在 得 到 图 形 结 果 后 也 要 将 图 形 和 原 始 数 据 反 复 对 照 , 以 确 保 结 论 的 正 确 性 。(2) 无 法 自 动 判 断 最 佳 维 度 数 : 对 应 分 析 只 能 根 据 研 究 者 指 定 的 数 量 进 行 相 应 维 度 的 提 取 ,而 不 能 自 动 判 断 最 合 适 的 维 度 数 。 这 需 要 研 究 者 根 据 情 况 自 行 决 定 。 一 般 而 言 , 二 、 三 维 是 最 为合 适 的 , 能 在 信 息 量 和 易 读 性 上 达 到 较 好 的 平 衡 , 如 果 届 时 困 难 , 则 考 虑 加 入 新 的 维 度 以 改 善 结果 解 释 。(3) 分 析 结 果 对 极 端 值 敏 感 : 由 于 对 应 分 析 的 第 一 步 是 对 数 据 进 行 标 准 化 变 换 , 对 于 罕 见 类别 或 者 小 样 本 , 变 换 后 非 常 容 易 出 现 极 端 值 , 这 使 得 分 析 结 果 严 重 受 这 些 类 别 的 影 响 ; 另 一 方 面 ,作 为 描 述 方 法 , 对 应 分 析 的 结 果 应 当 越 稳 定 越 好 , 所 以 进 行 对 应 分 析 时 样 本 量 不 能 太 小 , 具 体 的样 本 量 一 般 可 参 考 x2 检 验 的 要 求 , 并 最 好 尽 量 再 大 一 些 。思 考 与 练 习1. 1992 年 美 国 大 选 时 出 现 了 三 位 候 选 人 , 最 终 是 克 林 顿 击 败 了 老 布 什 和 佩 罗 当 选 总 统 , 那 么 不 同 教 育 程 度的 选 民 其 倾 向 性 如 何 ? SP 白 白 带 数 据 集 vote r. sav 是 一 部 分 抽 样 调 查 数 据 , 变 量 pres92 纪 录 受 访 者 选 择 了 哪 位候 选 人 , degree 则 为 受 访 者 的 文 化 程 度 , 试 使 用 对 应 分 析 考 察 不 同 文 化 程 度 的 选 民 其 倾 向 如 何 , 并 回 答 下 列 问题 :(1) 对 于 该 数 据 , 解 释 空 间 的 维 度 设 定 为 几 维 比 较 合 适 , 一 维 可 以 吗 ?(2) 如 果 希 望 简 化 结 果 解 释 , 可 以 进 行 哪 些 操 作 ?(3 ) 对 照 原 始 交 叉 表 中 的 构 成 比 和 图 形 分 析 的 结 果 , 仔 细 体 会 对 应 分 析 结 果 的 实 际 含 义 是 什 么 。2. 打 开 数 据 文 件 hair& 叮 e , 进 行 操 作 , 并 回 答 以 下 问 题 :(1) 使 用 同 质 性 分 析 方 法 对 该 数 据 进 行 拟 合 , 将 分 析 结 果 和 简 单 对 应 分 析 相 对 照 , 理 解 两 种 方 法 在 分 析 结• 311 •


果 上 的 联 系 。(2) 使 用 典 型 相 关 对 数 据 进 行 分 析 , 仔 细 对 照 典 型 相 关 分 析 和 对 应 分 析 的 结 果 , 理 解 两 者 间 的 区 别 和 联 系 。3. 打 开 数 据 文 件 meancores. sav , 对 其 进 行 因 子 分 析 和 对 应 分 析 , 并 回 答 如 下 问 题 :(1) 本 例 中 提 取 几 个 公 因 子 比 较 合 适 ?(2) 对 照 因 子 分 析 的 解 释 空 间 和 对 应 分 析 的 解 释 空 间 , 两 者 的 异 、 同 点 在 哪 里 ?(3 ) 采 用 不 同 的 空 间 距 离 标 化 方 法 , 对 照 各 种 方 法 所 得 到 的 对 应 分 析 结 果 , 深 入 理 解 各 种 标 准 方 法 的 作 用 ,以 及 对 分 析 结 果 的 影 响 。(4) 打 开 数 据 文 件 mcorres. sav , 在 分 析 中 将 结 果 空 间 指 定 为 三 个 维 度 , 考 察 第 三 个 维 度 主 要 对 结 果 进 行 了怎 样 的 改 善 , 并 确 认 是 否 应 当 将 该 维 度 加 入 解 释 。参 考 文 献1 Perceptual Mapping Using SPSS Categories (v8.0 Revised). SPSS Inc. Chicago, <strong>Il</strong>linois , 19982 Richard Johnson 著 . 实 用 多 元 统 计 分 析 . 陆 璇 译 . 北 京 : 清 华 大 学 出 版 社 , 20013 方 积 乾 主 编 . 医 学 统 计 学 与 电 脑 试 验 . 第 二 版 . 上 海 : 上 海 科 学 技 术 出 版 社 , 20014 郭 志 刚 主 编 . 21 世 纪 社 会 学 系 列 教 材 社 会 统 计 分 析 方 法 :SPSS 软 件 应 用 . 北 京 : 中 国 人 民 大 学 出 版社 , 1999• 312 •


第 16 章 多 维 尺 度 分 析在 工 作 中 常 常 会 遇 到 这 样 的 情 况 , 有 n 个 由 多 个 指 标 反 映 的 客 体 , 但 是 反 映 客 体 的 指 标 个 数是 多 少 不 清 楚 , 甚 至 指 标 本 身 是 什 么 也 是 模 糊 的 , 更 谈 不 上 直 接 测 量 或 观 察 它 , 仅 仅 所 能 知 道 的是 这 n 个 客 体 之 间 的 某 种 距 离 ( 相 异 性 ) 或 者 是 某 种 相 似 性 。 我 们 希 望 仅 由 这 种 距 离 或 者 相 似性 给 出 的 信 息 出 发 , 在 较 低 维 的 欧 氏 空 间 把 这 n 个 客 体 ( 作 为 几 何 点 ) 的 相 似 程 度 用 图 形 表 达 出来 。 从 而 可 能 通 过 相 关 的 专 业 知 识 揭 示 这 n 个 客 体 之 间 的 真 实 结 构 关 系 。 这 就 是 多 维 尺 度 分 析所 要 研 究 的 问 题 。多 维 尺 度 分 析 (Multidimensional Scaling, MDS) 是 基 于 研 究 现 象 之 间 的 相 似 性 或 距 离 将 研 究对 象 在 一 个 低 维 ( 一 般 为 二 至 三 维 ) 的 空 间 形 象 地 表 示 出 来 , 进 行 聚 类 或 维 度 内 含 分 析 的 一 种 图示 法 。 它 涉 及 这 样 的 问 题 : 当 m 个 指 标 中 各 对 应 项 目 之 间 的 相 似 性 或 距 离 给 定 时 , 求 这 些 项 目在 低 维 空 间 中 的 表 示 , 并 使 项 目 间 的 接 近 程 度 与 原 先 的 相 似 性 或 距 离 " 大 体 匹 配 "。 简 单 地 说 ,就 是 从 客 体 间 的 相 似 性 或 相 异 性 数 据 出 发 , 用 低 维 空 间 中 的 点 结 构 (Configuration of Points) 来 表示 研 究 客 体 , 从 而 揭 示 数 据 的 潜 在 结 构 。多 维 尺 度 分 析 中 的 标 度 变 换 也 许 不 可 能 同 原 始 相 似 性 或 相 异 性 的 排 序 严 格 匹 配 。 因 此 , 多维 尺 度 分 析 方 法 试 图 找 到 r 主 m -1维 空 间 中 的 某 些 结 构 , 使 上 述 匹 配 尽 可 能 良 好 。 匹 配 优 度 的数 值 量 度 称 为 应 力 。事 实 上 , 多 维 尺 度 分 析 是 一 类 统 计 分 析 方 法 的 统 称 , 它 最 早 产 生 于 心 理 度 量 分 析 , 并 在 许 多领 域 中 得 到 了 广 泛 的 应 用 。 在 当 今 的 市 场 研 究 中 , 多 维 尺 度 分 析 就 是 非 常 重 要 的 一 种 分 析 方 法 。它 使 用 的 数 据 是 消 费 者 对 一 些 商 品 相 似 程 度 或 差 异 程 度 的 评 分 , 通 过 分 析 产 生 一 张 能 够 看 出 这些 商 品 间 相 关 性 的 匹 配 图 。 例 如 , 希 望 研 究 消 费 者 对 自 己 公 司 某 个 品 牌 的 产 品 和 另 外 几 个 主 要竞 争 对 手 产 品 的 认 可 程 度 , 则 使 用 多 维 尺 度 分 析 可 以 回 答 这 样 的 问 题 : 消 费 者 认 为 哪 些 品 牌 的 产品 类 似 于 我 们 的 产 品 ? 在 这 些 品 牌 中 消 费 者 用 于 评 价 相 似 性 的 是 哪 些 特 征 指 标 ?下 面 结 合 MDS 的 理 论 背 景 , 来 由 浅 入 深 地 介 绍 它 的 基 本 操 作 。16.1 古 典 MDS 模 型16. 1. 1 方 法 原 理进 。古 典 MDS (classical MDS) 是 最 早 出 现 的 一 种 MDS 方 法 , 由 塔 格 森 CTorgerson) 于 1950 年 引设 .1 = (8 i ) 为 一 个 nXn 相 异 性 矩 阵 , 在 j 表 示 客 体 i与 客 体 j 之 间 的 相 异 性 , 古 典 MDS 的 目 标• 313 •


是 用 某 个 r 维 欧 氏 空 间 中 的 n 个 点 叫 , 屿 ,… , X n 来 表 示 n 个 研 究 客 体 。 记 :d ij = 11 X i 一 句 11 = { 立 (X ik 一 气 k) 2 rd ij 表 示 点 X i (X il , χ 泣 ,… , X ir ) 和 Xj = ( 勺 ' 勺 ,… , Xρ 之 间 的 欧 氏 距 离 , 在 古 典 MDS 模 型 中 是近 似 将 相 异 性 数 据 看 成 是 点 之 间 的 距 离 , 即 :Sq ztlzjO 模 型 拟 合 的 优 度 可 用 下 述 两 个 量 来 描 述 :α1 = ( 三 λ j/ 二 | 人 1) x 10 肌 α2 = ( 三 叮 三 对 ) x 100%αl 称 为 百 分 变 差 (Percentage V ariation) , α2 称 为 平 方 百 分 变 差 (Squared Percentage Variation); 人 为 n 个 点 在 第 j 个 坐 标 上 的 方 差 , ep:要 ….人 =? 三 (X ij -X)2 , j= 1,... , r人 的 大 小 可 描 述 第 j 个 坐 标 的 重 要 性 。 由 人 的 单 调 性 , 知 ; 第 1 坐 标 最 重 要 , 第 2 坐 标 次 重上 面 讲 述 的 古 典 MDS 分 析 适 用 于 数 据 为 一 个 单 独 矩 阵 的 情 况 , 当 数 据 为 采 集 白 不 同 个 体 的多 个 矩 阵 时 , 则 需 要 拟 合 重 复 多 维 尺 度 分 析 (RMDS) 模 型 。 其 原 理 和 土 文 基 本 相 似 , 这 里 不 再 详述 。当 数 据 为 相 似 性 矩 阵 时 , 算 法 略 有 不 同 。 记 C = (C i ) 为 相 似 阵 , c ij 表 示 客 体 i 与 客 体 j 之 间的 相 似 性 。 在 计 算 过 程 中 , 直 接 令 伪 中 心 化 内 积 矩 阵 为 :B=HCH 即 可 。 以 后 的 计 算 方 法 是 相 同的 。 在 SPSS Base 模 块 的 三 级 子 菜 单 Multidimensional Scaling 中 , 就 只 提 供 相 异 性 数 据 的 MDS 方法 。 当 数 据 为 相 似 性 时 , 需 要 使 用 具 有 更 强 扩 展 功 能 的 另 一 个 三 级 子 菜 单 MultidimensionalScaling(PROXSCAL) 子 菜 单 , 关 于 它 的 具 体 使 用 情 况 , 可 参 看 后 面 的 两 节 。16. 1. 2 分 析 实 例下 面 通 过 一 个 例 子 来 看 一 下 古 典 MDS 方 法 在 SPSS 中 是 如 何 实 现 的 , 它 是 关 于 中 国 12 个 城市 间 航 空 距 离 的 数 据 , 如 图 16. 1 所 示 , 它 是 作 者 经 多 次 在 网 络 上 查 找 才 全 部 找 到 的 , 读 者 在 使 用该 数 据 时 , 要 注 意 注 明 出 处 。1. 操 作 与 界 面 说 明数 据 见 文 件 mds 1.sav , 注 意 是 以 距 离 阵 的 格 式 进 行 排 列 的 , 由 于 距 离 阵 是 对 称 的 , 在 录 入 数据 时 只 输 入 了 距 离 阵 的 下 半 部 , 这 对 分 析 没 有 影 响 。打 开 数 据 后 , 在 SPSS 中 进 行 以 下 操 作 :: Analyze• Scale • Multidimensional Scaling...:Variables 杠 : 选 入 所 有 的 12 个 变 量 ( 城 市 )匾 画 : 磁 Ratio:IContinuel匾 亟 画 : 由 Group plots: 臣 亟 画囚先 看 看 上 述 操 作 所 涉 及 和 展 示 的 SPSS 的 对 话 杠 。 操 作 的 主 对 话 杠 ( 如 图 16. 2 所 示 ) 并 不复 杂 , Variables 杠 用 于 选 入 表 示 距 离 的 各 个 变 量 , 它 下 方 的 Individual Matrices for 杠 用 于 当 数 据• 314 •


图 16.1MDS 数 据 的 排 列 格 式文 件 中 有 多 个 被 调 查 者 的 距 离 阵 时 , 使 用 该 杠 选 入 代 表 不 同 受 访 者 的 变 量 。 当 选 择 Distances 中的 Create distances from data 时 该 杠 可 用 , 系 统 会 自 动 调 用 相 应 算 法 进 行 分 析 。 注 意 , 此 时 系 统 调用 的 算 法 和 只 有 一 个 矩 阵 ( 如 它 们 相 应 距 离 的 平 均 值 ) 是 不 同 的 , 具 体 情 况 后 面 会 有 详 述 。图 16.2MDS 过 程 主 对 话 框除 主 对 话 杠 外 , 上 面 的 操 作 中 也 用 到 了 另 外 两 个 子 对 话 杠 ( 如 图 16.3所 示 ) , 在 左 侧 的Model 子 对 话 杠 中 将 数 据 的 测 量 尺 度 改 为 了 比 率 尺 度 , 在 右 面 的 Options子 对 话 杠 中 要 求 结 果 中显 示 空 间 匹 配 图 。 注 意 , 虽 然 空 间 匹 配 图 是 MDS 分 析 中 非 常 重 要 的 工 具 , 但 是 在 SPSS 中 , 它 却不 是 默 认 的 输 出 结 果 之 一 , 只 能 在 每 次 使 用 时 手 工 选 择 它 。 希 望 SPSS 在 新 版 本 中 把 Group plots变 为 默 认 复 选 杠 。 对 这 些 子 对 话 杠 中 相 关 选 项 的 介 绍 参 见 后 面 有 关 章 节 。2. 结 果 解 释结 果 输 出 标 题 为 "Alscal" , 即 调 用 的 相 应 过 程 名 称 。• 315 •


图 16.3MDS 过 程 的 子 对 话 框随 后 方 杠 中 显 示 的 是 在 SPSS 默 认 的 情 况 下 , 两 维 空 间 的 迭 代 记 录 。 可 以 看 出 , SPSS 在 迭 代3 次 后 S-stress 值 的 变 化 CImprovement) 为 0.00005 , 小 于 默 认 的 0.00 1, 达 到 收 敛 标 准 。Iteration history for the 2 dimensional solution Cin squared distances)Y oung' s S-stress formula 1 is used.Iteration S-stress Improvement1Iq--句3.05144.04720.04714.00424.00005Iterations stopped becauseS - stress improvement is less than .001000接 下 来 方 杠 中 的 文 本 为 统 计 量 Stress 和 RSQ 的 具 体 解 释 及 计 算 结 果 。 RSQ 即 决 定 系 数 , 表示 总 变 异 中 能 够 被 相 对 空 间 距 离 所 解 释 的 比 例 。 Stress 值 是 依 据 克 鲁 斯 卡 尔 CKruskaD 应 力 公 式I 计 算 的 结 果 。 Stress { 直 为 0.03678 , 这 是 一 个 非 常 小 的 Stress 0 RSQ 的 值 为 0.993 89 , 己 经 非 常接 近 1 了 。 克 鲁 斯 卡 尔 给 出 了 一 种 经 验 的 评 价 Stress 优 劣 的 尺 度 : 若 Stress 三 ~20% , 则 近 似 程 度为 差 CBad) ; ~ 10% , 为 满 意 CFair) ; ~5% 则 为 好 CGood) ; ~2. 5% , 为 很 好 CExcellent) ; 其 理 想 的情 况 为 Stress = 0 , 称 为 完 全 匹 配 CPrefect) 。 所 以 , 关 于 中 国 12 个 城 市 的 航 空 距 离 的 MDS 模 型 的拟 合 效 果 是 相 当 好 的 。 至 于 前 面 提 到 的 克 鲁 斯 卡 尔 应 力 公 式 I 和 还 没 有 提 到 的 应 力 公 式 IL 在后 面 的 分 析 中 , 将 进 行 具 体 的 介 绍 。• 316 •


Stress and squared correlation CRSQ) in distancesRSQ values are the proportion of variance of the scaled data Cdisparities)in the partition Crow , matrix, or entire data) whichis accounted for by their corresponding distances.Stress values are Kruskal' s stress formula 1.For matrixStress = .03678 RSQ = .99389接 下 来 方 杠 中 显 示 的 是 我 国 12 个 城 市 在 MDS 中 三 维 空 间 的 一 种 坐 标 值 。 根 据 多 维 尺 度 法解 的 概 念 和 有 关 性 质 , 它 的 解 不 是 唯 一 的 。 在 这 里 给 出 多 维 尺 度 法 解 的 概 念 和 有 关 性 质 。 设 求得 的 n 个 点 为 町 ,…, 凡 , 写 成 矩 阵 形 式 :x= C 町 ,…, 凡 γ , 则 称 X 为 D 的 一 个 解 。 在 多 维 尺 度 分析 中 , 形 象 地 称 X 为 距 离 阵 D 的 一 个 拟 合 构 图 , 由 这 n 个 点 之 间 的 欧 氏 距 离 构 成 的 距 离 阵 称 为D 的 拟 合 距 离 阵 。 所 谓 拟 合 构 图 , 其 意 义 是 有 了 这 n 个 点 的 坐 标 , 可 以 在 R k 中 画 出 图 来 , 使 得 它们 的 距 离 阵 矶 和 原 始 的 n 个 客 体 的 距 离 阵 D 接 近 , 给 出 原 始 的 n 个 客 体 关 系 一 个 有 意 义 的 解释 。 特 别 地 , 如 果 Dg=D , 则 称 X 为 D 的 一 个 构 图 。 可 以 发 现 , 由 于 求 解 的 n 个 点 仅 仅 要 求 它 们的 相 对 欧 氏 距 离 和 D 接 近 , 即 只 要 求 它 们 的 相 对 位 置 确 定 而 与 它 们 在 R k中 绝 对 位 置 无 关 , 所 以求 得 的 解 不 是 唯 一 的 。Stimulus CoordinatesDimensionStimulus Stimulus 2Number Name1 北 京 1.0964 一 1.88242 合 肥 .6331 一 .21673 长 沙 一 .4960 .21024 杭 州 1.0866 .29645 南 昌 .0387 .40266 南 京 .9062 一 .17107 上 海 1. 2038 .13778 武 汉 一 .0744 一 . 15689 广 州 一 .6766 1. 313210 成 都 一 1. 8158 一 .922511 福 州 | .6795 1.123512 昆 明 一 2.5815 一 . 1342• 317 •


图 16.4 12 城 市 三 维 空 间 匹 配 图 图 16.5 欧 氏 距 离 模 型 线 性 拟 合 散 点 图图 16.4 是 多 维 尺 度 分 析 中 输 出 的 我 国 12 城 市 三 维 空 间 匹 配 图 。 它 是 系 统 将 各 个 城 市 ( 变量 ) 按 照 实 际 距 离 计 算 出 来 的 相 应 距 离 在 空 间 中 排 列 起 来 的 。 由 于 它 的 解 不 是 唯 一 的 , 所 以 看上 去 它 与 地 图 上 的 排 列 不 完 全 相 同 。 事 实 上 , 从 上 海 到 成 都 连 一 条 直 线 的 话 , 大 致 就 是 实 际 中 国地 图 上 的 东 西 向 , 而 北 京 到 广 州 | 连 的 直 线 大 致 就 是 地 图 上 的 南 北 向 , 因 此 大 家 可 以 发 现 和 实 际 的地 图 相 比 , 其 差 异 就 在 于 地 图 的 坐 标 系 统 进 行 了 旋 转 , 而 各 城 市 的 相 对 位 置 均 保 持 不 变 , 基 本 上都 是 吻 合 的 。 这 正 是 MDS 在 正 交 ( 旋 转 、 平 移 ) 变 换 下 有 不 变 性 的 具 体 表 现 。附 带 说 明 的 是 , 如 果 在 Model中 选 Minimum = 1 , Maximum = 2 , 则 SPSS 会 给 出 一 维 和 二 维 的两 个 解 。 对 一 维 的 结 果 而 言 , 它 实 际 上 就 是 按 照 地 图 上 最 长 轴 的 方 向 进 行 了 提 取 , 12 个 城 市 大致 按 照 西 南 方 向 ( 北 京 向 成 都 、 昆 明 方 向 ) 排 在 一 条 直 线 上 。 由 于 这 12 个 城 市 间 的 南 北 距 离 仅仅 略 大 于 东 西 距 离 , 实 际 差 别 比 较 小 。 所 以 , 一 维 解 的 RSQ = 0.794 57 就 比 较 差 了 , 同 时 S =0.2703 , 远 比 二 维 的 Stress = 0.036 78 大 得 多 。 当 然 , 如 果 以 越 南 、 智 利 两 国 的 城 市 为 例 , 一 维 解的 RSQ 就 可 能 比 较 大 了 。 这 有 助 于 大 家 理 解 两 个 维 度 的 含 义 。图 16.5 是 欧 氏 距 离 模 型 线 性 拟 合 散 点 图 , 提 供 的 是 原 始 数 据 的 不 一 致 程 度 和 用 线 性 模 型 计算 出 来 的 欧 氏 距 离 间 的 散 点 图 。 如 果 模 型 的 拟 合 程 度 好 , 则 所 有 散 点 应 当 在 一 条 直 线 上 , 从 中 可见 各 点 基 本 上 处 在 一 条 直 线 上 , 没 有 明 显 的 离 群 点 , 因 此 模 型 的 拟 合 效 果 是 比 较 好 的 。严 格 地 说 , 似 乎 对 于 本 数 据 而 言 , 这 些 点 应 该 完 全 在 同 一 直 线 上 , 那 么 哪 些 原 因 影 响 了 模 型的 拟 合 效 果 呢 ? 首 先 , 中 国 的 地 理 跨 度 比 较 大 , 大 家 都 知 道 地 球 表 面 实 际 上 是 一 个 球 面 , 转 换 到平 面 的 二 维 坐 标 系 难 免 会 有 一 些 偏 差 。 其 次 , 民 航 的 有 关 机 构 公 布 的 两 个 机 场 之 间 的 距 离 不 一定 很 精 确 , 而 且 存 在 多 个 机 场 的 情 况 , 例 如 上 海 就 有 两 个 机 场 , 分 布 在 上 海 的 东 西 两 侧 , 其 他 机 场到 上 海 的 距 离 可 能 不 是 同 一 机 场 的 距 离 , 这 种 情 况 对 模 型 拟 合 的 影 响 也 不 可 忽 视 。最 后 , 如 果 在 操 作 时 选 择 Options 子 对 话 杠 中 的 Model and Options Summary 复 选 框 , 则 结 果输 出 最 前 面 会 给 出 非 常 详 细 的 模 型 拟 合 参 数 汇 总 表 , 参 见 随 后 方 杠 中 的 内 容 , 对 它 进 行 阅 读 可 以有 助 于 大 家 深 入 了 解 MDS 模 型 在 拟 合 时 所 需 要 考 虑 的 各 种 问 题 。• 318 •


Alscal Procedure OptionsData Options一Number of Rows CObservations/Matrix).Number of Columns CVariables).Number of MatricesMeasurement LevelData Matrix ShapeTypeApproach to Ties .Conditionality .Data Cutoff at.tEA唱EI唱EI?-7-RS.DL ti--T. om-mt山mMmMatrixAV AV Aυ严十FC-E且AV AV AV-mkmLUEEiFti刷ιvdEt'''aModel Options一Model.Mt·ITw- UUHN mm1J 副 mρvlIMum 肌 mvMn3( ι门Rml川h.u巾 b 电 t呻 mt『umss 町 旧咀 计 vdvd时H叮 且 t叮 也吨Euclid22Not PermittedOutput Options一hDCOhE 山 {apdp-NH h.1 Loha-z·1 - EKEnL寸比 如 T--OR n-1.UMH血 mJUA· ω1M h 1§M cmM e FO TIr tphIU f--t ·EI电 盯 a --- nn sa们 OALm a 0r且u· t t呻tM 明 s「 hd 旧 JEEQ -川Q口J-、Q且 口PrintedNot PrintedPlottedNot CreatedComputedAlgorithmic Options一MGM -CQUL '-F EHm 咄 1mmm 诩 mmtQC 1 H tH 川 口r··咄E ρl l 吁C计u ρ 且飞 配l川O 、-­J且Wu-EEA啤Missing Data Estimated byQU30.00100.00500Ulbounds• 319 •


16. 1. 3 距 离 的 计 算 方 式在 上 面 的 例 子 中 , 距 离 的 测 量 是 非 常 精 确 的 , 而 且 是 以 最 为 简 单 的 对 称 矩 阵 的 方 式 给 出 。 但是 在 许 多 实 际 问 题 中 , 研 究 者 得 到 的 不 是 直 接 的 距 离 测 量 值 , 而 是 要 通 过 一 些 原 始 数 据 对 距 离 进行 计 算 ; 或 者 说 由 于 数 据 采 集 的 原 因 , 距 离 阵 的 排 列 方 式 比 较 特 殊 , 下 面 就 来 看 一 下 距 离 的 计 算和 数 据 排 列 方 式 都 有 哪 些 情 况 。1. 通 过 原 始 数 据 计 算 距 离在 主 对 话 杠 的 左 下 角 如 果 选 择 Create distances from data 复 选 框 , 则 其 下 方 的 Measure 子 对话 杠 变 黑 可 用 , 可 以 用 来 对 具 体 的 距 离 计 算 方 式 加 以 设 定 。 实 际 上 , 该 对 话 杠 的 基 本 内 容 和 聚 类分 析 中 的 Method 子 对 话 杠 基 本 相 同 , 主 要 区 别 是 它 们 默 认 的 距 离 类 型 有 所 不 同 : 这 里 的 Method子 对 话 杠 默 认 的 是 Euclidean distance , 即 欧 几 里 得 距 离 。 以 两 变 量 差 值 平 方 和 的 平 方 根 为 距 离 。聚 类 分 析 中 的 Method 子 对 话 杠 默 认 的 是 Squared Euclidean distance , 即 欧 氏 平 方 距 离 。 以 两 变 量差 值 平 方 和 为 距 离 。 由 于 欧 氏 平 方 距 离 不 需 要 进 行 开 方 运 算 , 因 此 这 种 测 量 方 法 更 重 视 较 多 和较 大 的 数 值 距 离 。 有 关 的 详 细 情 况 , 参 看 聚 类 分 析 部 分 的 相 应 介 绍 。注 意 , 在 SPSS 提 供 的 模 型 中 , 明 氏 距 离 (Minkowski) 、 欧 氏 距 离 (E 时 lidean dista 时 e) 、 绝 对 值距 离 (Block) 、 和 切 氏 距 离 (Chebychev) 属 于 同 一 种 类 型 , 其 中 欧 氏 距 离 最 为 常 用 , 是 SPSS 在 这 里的 默 认 距 离 。 但 这 类 距 离 也 有 一 些 缺 点 , 一 方 面 它 受 各 指 标 的 量 纲 的 影 响 , 因 此 在 计 算 前 应 先 将原 始 数 据 标 准 化 ; 另 一 方 面 它 们 没 有 考 虑 指 标 之 间 的 相 关 性 。距 离 模 型 的 选 择 比 较 复 杂 , 而 且 主 观 性 比 较 强 。 一 般 地 , 当 指 标 间 的 相 关 性 较 弱 或 对 指 标 的相 关 性 进 行 了 处 理 , 则 通 常 选 用 欧 氏 距 离 。 否 则 , 应 选 用 斜 交 空 间 距 离 , 但 是 在 样 本 较 多 时 计 算工 作 量 太 大 , 需 要 很 大 的 内 存 空 间 , 而 SPSS 目 前 还 没 有 提 供 斜 交 空 间 距 离 模 型 , 这 也 是 SPSS 有待 改 进 的 一 个 方 面 。2. 选 择 不 同 的 距 离 排 列 方 式当 所 提 供 的 直 接 为 距 离 测 量 值 时 , 所 提 供 的 数 据 就 是 一 个 或 多 个 距 离 矩 阵 , 可 直 接 用 于 分析 , 但 数 据 的 排 列 方 式 等 也 有 多 种 选 择 。 首 先 在 Shape图 16.6 所 示 。子 对 话 杠 中 可 以 确 定 矩 阵 资 料 的 形 状 , 如图 16.6Shape 子 对 话 框(1) Square symmetric: 距 离 阵 为 完 全 对 称 形 式 , 行 / 列 表 示 相 同 的 项 目 , 沿 对 角 线 上 下 三 角 中相 应 的 数 值 也 对 称 相 等 , 本 例 即 为 这 种 情 况 。 如 果 只 录 入 了 半 个 矩 阵 , 系 统 会 自 动 填 充 另 一 半 。(2) Square asymmetric: 距 离 阵 为 不 完 全 对 称 形 式 , 行 / 列 表 示 相 同 的 项 目 , 但 沿 对 角 线 上 下三 角 中 相 应 的 数 值 并 不 相 等 。• 320 •


(3) Rectangular: 距 离 阵 为 长 方 形 完 全 不 对 称 形 式 , 行 / 列 表 示 不 同 的 项 目 。 如 果 数 据 文 件表 示 的 是 多 个 长 方 形 矩 阵 , 则 还 要 在 下 方 的 Number of rows 杠 中 指 定 每 个 矩 阵 所 使 用 的 行 数 , 该数 值 必 须 大 于 4 , 并 且 各 矩 阵 使 用 的 行 数 应 当 相 同 。在 设 定 了 距 离 阵 的 排 列 方 式 以 后 , Model 子 对 话 杠 中 的 Conditionality 单 选 杠 组 还 可 以 进 一步 走 义 距 离 阵 的 情 况 。4 Matrix: 当 只 有 一 个 距 离 阵 ( 本 例 就 是 ) , 或 每 个 距 离 阵 代 表 一 个 不 同 的 个 体 时 采 用 , 它 表示 距 离 阵 内 的 数 值 意 义 相 同 , 是 可 以 相 互 比 较 的 。2 Row: 该 选 项 只 在 非 对 称 或 长 方 阵 时 可 用 , 表 示 仅 仅 同 一 行 间 数 据 的 比 较 才 有 实 际 意 义 ,同 一 列 间 的 数 据 无 需 进 行 比 较 。( U nconditional: 进 行 比 较 时 不 受 任 何 限 制 , 资 料 中 任 意 两 个 数 据 间 的 比 较 都 有 实 际 意 义 。一 般 而 言 , 对 于 直 接 采 集 的 距 离 数 据 , 最 好 按 照 最 为 简 单 的 对 称 方 式 采 集 和 录 入 , 以 免 为 分析 带 来 不 必 要 的 麻 烦 。16.2 非 度 量 MDS 模 型在 上 面 的 例 子 中 , 城 市 间 的 直 线 距 离 是 可 以 被 精 确 测 量 的 , 且 为 最 准 确 的 比 率 测 量 ( 关 于 测量 尺 度 的 概 念 可 参 见 本 丛 书 基 础 教 程 )。 但 并 非 所 有 的 距 离 都 可 以 像 这 样 被 准 确 的 测 量 , 比 如品 牌 间 的 差 异 , 或 者 两 个 概 念 间 的 差 异 就 是 如 此 。 在 市 场 研 究 或 者 心 理 学 研 究 中 , 大 量 的 问 题 都只 能 用 问 卷 的 方 式 以 有 序 测 量 尺 度 被 收 集 , 此 时 传 统 的 古 典 MDS 模 型 就 不 一 定 适 用 , 而 非 度 量的 MDS 模 型 则 更 为 合 适 。16.2.1 数 据 测 量 尺 度 的 设 定为 了 能 够 使 用 非 度 量 的 MDS 模 型 , 需 要 首 先 了 解 在 对 话 杠 中 应 当 如 何 对 测 量 尺 度 加 以 设定 。 Model 子 对 话 杠 中 的 Level of Measurement 单 选 杠 组 就 用 于 完 成 此 任 务 。(1) Ordinal: 数 据 为 有 序 测 量 尺 度 , 即 有 序 分 类 资 料 , 由 于 调 查 数 据 多 是 由 受 访 者 对 相 似 性进 行 主 观 判 断 ( 打 分 ) , 所 以 多 数 情 况 下 数 据 应 当 为 该 类 型 。 此 时 系 统 进 行 的 是 采 用 秩 次 拟 合 的非 度 量 测 量 多 维 尺 度 分 析 。 它 下 方 的 Untie tied observations 复 选 杠 用 于 改 变 对 相 同 分 值 的 处 理方 式 , 默 认 情 况 是 在 分 析 中 将 相 同 分 值 赋 予 相 同 秩 次 , 如 果 担 心 同 一 个 被 调 查 者 采 用 的 评 判 标 准不 稳 定 , 例 如 虽 然 都 赋 予 相 同 的 分 数 , 但 实 际 判 断 标 准 可 能 有 不 同 , 这 时 最 好 选 中 该 框 , 此 时 相 同评 分 将 赋 予 不 同 的 秩 次 。(2) Interval: 数 据 为 标 度 测 量 中 的 区 间 测 量 , 即 连 续 性 资 料 , 此 时 进 行 的 是 准 确 测 量 多 维 尺度 分 析 (MMDS) 。 比 如 摄 氏 温 度 、 经 纬 度 、 年 代 、 智 商 和 考 试 成 绩 等 都 属 于 区 间 测 量 。 它 们 共 同的 特 性 是 没 有 绝 对 的 零 点 , 相 | 陆 两 点 的 问 阳 是 相 同 的 , 可 进 行 加 减 运 算 , 不 能 进 行 乘 除 运 算 。(3) Ratio: 数 据 为 标 度 测 量 中 的 比 率 测 量 , 即 连 续 性 资 料 , 此 时 进 行 的 是 准 确 测 量 多 维 尺 度分 析 (MMDS) 。 我 们 见 到 的 生 活 中 的 物 理 测 量 距 离 长 度 、 重 量 、 速 度 、 具 体 收 入 、 年 龄 等 都 属 于 比率 测 量 。 它 们 共 同 的 特 性 是 有 绝 对 的 零 点 , 相 临 两 点 的 问 阳 是 相 同 的 , 可 进 行 加 减 乘 除 四 则 运算 。 是 最 高 级 的 测 量 水 平 , 上 例 的 数 据 就 是 这 种 类 型 。事 实 上 , 上 述 不 同 类 型 的 测 量 并 没 有 严 格 的 界 限 。 当 有 序 尺 度 的 类 别 划 分 比 较 多 时 , 相 邻 类• 321


别 间 的 问 阳 就 会 比 较 小 , 间 隔 间 的 差 别 会 更 小 , 通 常 可 以 认 为 间 隔 间 无 差 别 , 间 隔 相 同 。 这 样 , 就可 以 把 这 种 测 量 数 据 按 区 间 测 量 水 平 对 待 。 有 人 认 为 , 当 有 序 尺 度 的 类 别 划 分 在 5 个 以 上 时 , 可以 把 有 序 尺 度 数 据 当 作 区 间 测 量 数 据 使 用 。 不 过 为 稳 妥 起 见 , 最 好 尽 量 不 要 这 样 使 用 。还 有 , 有 些 指 标 值 很 难 区 分 它 属 于 什 么 测 量 水 平 , 比 如 海 拔 高 度 , 就 很 难 区 分 它 是 区 间 测 量还 是 比 率 测 量 。 正 因 为 如 此 , SPSS 在 定 义 变 量 时 , 就 没 有 区 分 区 间 测 量 和 比 率 测 量 。 但 可 能 是出 于 模 型 本 身 的 要 求 , SPSS 在 这 里 却 进 行 了 区 分 。16.2.2 方 法 原 理目 前 求 解 非 度 量 标 度 问 题 己 有 一 些 方 法 。 比 较 流 行 的 是 谢 怕 德 (Shepard) 于 1962 年 提 出 的一 种 MDS 模 型 , 并 由 克 鲁 斯 卡 尔 于 1964 年 给 出 了 一 种 有 效 的 算 法 。这 种 非 度 量 MDS 模 型 的 基 本 特 征 是 将 相 似 性 或 相 异 性 数 据 看 成 是 点 问 距 离 的 单 调 函 数 , 以下 统 一 用 8 ij 表 示 客 体 i 与 客 体 j 之 间 的 相 似 性 或 相 异 性 , d ij 为 点 X i 与 点 引 之 间 的 距 离 。 在 非 度量 MDS 模 型 中 { 固 定 :Sq zf(dtj) , 其 中 , 当 8 ij 为 相 似 性 时 f 为 单 调 降 函 数 , 当 8 ij 为 丰 日 异 性 时 f 为 单调 增 函 数 。 上 述 要 求 的 实 质 是 要 求 最 后 计 算 出 来 的 点 结 构 的 点 问 距 离 与 数 据 之 间 应 有 一 种 保 持原 有 次 序 的 关 系 。 即对 相 异 性 数 据 , 应 有 :8 ij::::;;, 8 kl• d ij d 06. 1)::::;;, kl对 相 似 性 数 据 , 应 有 :8 ij ::::;;, 8 kl→ d ij 王 三 d kl 06. 2)在 理 想 的 情 况 下 , 式 06. 1) 和 式 06. 2) 可 以 满 足 , 但 在 大 多 数 实 际 情 况 下 , 上 述 单 调 关 系 只能 在 一 定 程 度 上 得 到 满 足 , 克 鲁 斯 卡 尔 给 出 了 上 述 单 调 性 满 足 的 度 量 , 并 通 过 最 小 化 这 种 度 量 给出 有 效 的 算 法 。 其 算 法 的 具 体 定 义 如 下 :设 ß = (8 i ) nXn 为 一 个 相 异 性 矩 阵 , Xnxn 为 r 维 空 间 n 个 点 的 坐 标 阵 , d ij 为 点 X i 与 Xj 之 间 的距 离 , 对 屯 的 单 调 增 函 数 d ij = !(8 i ) , 定 义川 ρ= [ 主 主 ( 川 i)2/ 主 主 d;lf (163)川 ρ= [ 主 主 ( 川 JV 主 主 ( 川 2lf (164)其 中 d= 古 二 三 川 为 屯 的 有 效 个 数 , S] (X ,j) 和 S2 钮 ,j) 分 别 称 为 克 鲁 斯 卡 尔 应 力 I和 H 。在 式 06.3) 和 式 06.4) 应 力 的 定 义 中 , 当 8 ij 为 相 似 性 时 , d ij 改 为 屯 的 单 调 降 函 数 。 以 下 简记 5] 钮 ,ρ 和 52 钮 ,ρ 为 5] 和 52' 克 鲁 斯 卡 尔 建 议 用 应 力 5] } 或 52 来 衡 量 拟 合 的 优 度 , 并 给 出 通过 最 小 化 5] 或 52 来 求 解 的 算 法 。 其 过 程 是 : 首 先 给 定 X 的 初 始 值 , 该 初 始 值 可 采 用 古 典 解 或 随机 初 始 值 。 其 次 对 给 定 的 X , 用 单 调 回 归 方 法 得 到 一 组 {({) , 然 后 固 定 这 一 组 {d i) 再 对 X 进 行更 新 , 更 新 的 方 法 是 一 种 经 验 的 梯 度 法 , 多 为 研 究 人 员 所 使 用 。 上 述 过 程 反 复 进 行 , 直 到 应 力 值降 到 某 个 指 定 的 极 限 以 下 , 或 者 应 力 值 不 再 发 生 显 著 变 化 为 止 。• 322 •


事 实 上 , 如 果 用 通 俗 的 语 言 来 解 释 , 上 述 非 度 量 模 型 的 原 理 就 是 首 先 保 持 原 距 离 数 据 的 次 序关 系 , 然 后 用 相 同 次 序 的 数 列 替 换 原 数 据 进 行 古 典 模 型 的 分 析 ( 该 替 换 数 列 被 称 为 Disparities) ,如 此 反 复 尝 试 , 一 直 到 模 型 效 果 达 到 最 佳 为 止 。 这 种 算 法 的 基 本 特 点 是 一 个 二 重 迭 代 过 程 , 该 过程 在 人 工 情 况 下 非 常 繁 琐 , 但 在 SPSS 中 , 它 却 是 如 此 的 短 暂 。16.2.3 分 析 实 例在 一 次 调 查 中 , 我 们 收 集 了 华 东 师 范 大 学 社 会 学 系 某 个 班 的 40 位 大 学 生 对 中 国 9所 大 学 差异 性 的 评 分 。 O 分 为 差 异 最 小 , 9 分 为 差 异 最 大 , 从 O 分 到 9 分 差 异 程 度 逐 渐 增 加 。 文 件mds2. sav 是 其 中 第 一 位 学 生 的 数 据 , 如 图 16. 7 所 示 。图 16. 7 第 一 位 学 生 的 测 量 数 据如 果 将 该 数 据 直 接 进 行 古 典 MDS 模 型 的 分 析 , 则 最 终 得 到 的 定 位 图 如 图 16. 8 所 示 。N口OZ口UE币。1.51.0|l←M斗牛口叶东」师川一川大快一特师 大oo 南 京 大 学o 北 京 大 学复 旦 大 学o 清 华 大 学 。 lo o 中 国 科 大o上 海 交 大o8 o8g「→一oDimension 10.5 1.0 1.5 2.0 2.5 3.0Disparities图 16.8使 用 古 典 模 型 对 第 一 位 学 生 评 价 结 果 的 空 间 定 位 和 模 型 拟 合 效 果 图可 见 该 学 生 非 常 明 显 的 将 师 范 大 学 、 文 理 综 合 性 大 学 和 工 科 大 学 区 分 了 开 来 , 同 时 模 型 的 拟合 指 标 为 Stress= 0.213 71 , RSQ = 0.856 87 , 应 当 说 模 型 的 解 释 程 度 尚 可 。 但 是 , 由 于 该 数 据 显然 是 以 问 卷 打 分 的 方 式 来 判 断 距 离 的 远 近 , 作 为 有 序 尺 度 来 加 以 分 析 更 为 合 适 。 这 里 就 按 此 思路 来 进 行 分 析 , 在 Model 子 对 话 杠 中 将 测 量 尺 度 改 为 Ordinal , 且 选 中 下 方 的 Untie Tied 复 选 杠 以区 分 相 同 的 分 值 , 重 新 进 行 分 析 后 主 要 结 果 如 下 杠 所 示 。• 323 •


Warning # 14654> The total number of parameters being estimated Cthe number of stimulus> coordinates plus the number of weights , if any) is large relative to the> number of data values in your data matrix. The results may not be reliable> since there may not be enough data to precisely estimate the values of the> parameters. Y ou should reduce the number of parameters Ce. g. request> fewer dimensions) or increase the number of observations.> Number of parameters is 18. Number of data values is 36Stress and squared correlation CRSQ) in distancesRSQ values are the proportion of variance of the scaled data Cdisparities)in the partition Crow , matrix, or entire data) whichis accounted for by their corresponding distances.Stress values are Kruskal' s stress formula 1.For matrixStress = .01576 RSQ = .99873上 面 方 杠 中 我 们 只 给 出 了 最 关 键 的 部 分 , 首 先 会 有 一 个 警 告 , 说 明 在 当 前 模 型 中 一 共 需 要 拟合 18 个 参 数 , 但 只 有 36 个 数 据 , 可 能 数 据 量 不 足 。 如 果 使 用 一 个 矩 阵 来 进 行 非 度 量 模 型 , 就 经常 会 遇 到 该 警 告 。 最 后 模 型 的 拟 合 指 标 为 Stress= 0.015 76 , RSQ = O. 998 73 , 显 然 效 果 要 比 古典 模 型 好 得 多 。 但 大 家 注 意 结 果 中 对 这 些 指 标 的 说 明 , 这 里 的 决 定 系 数 实 际 上 指 的 是 变 换 后 数据 CDisparities) 的 解 释 度 , 而 变 换 中 显 然 是 要 损 失 一 部 分 信 息 的 , 因 此 究 竟 对 原 数 据 的 解 释 效 果是 否 更 佳 还 很 难 说 。图 16.9 Ca) 为 模 型 的 拟 合 结 果 , 可 见 和 古 典 模 型 的 结 果 相 比 , 现 在 的 结 果 很 明 显 的 缩 小 了 师1.51.0


范 大 学 间 的 差 异 , 同 时 综 合 大 学 和 理 工 科 大 学 间 的 界 面 也 开 始 变 得 模 糊 起 来 。 清 华 、 北 大 、 复 旦三 所 大 学 之 间 变 得 更 为 接 近 了 , 和 原 先 的 结 果 相 比 , 这 似 乎 更 为 接 近 大 多 数 人 脑 海 中 的 印 象 。 图16.9 Cb) 给 出 的 是 变 换 后 数 据 的 拟 合 效 果 散 点 图 , 显 然 模 型 对 变 换 后 数 据 的 解 释 度 是 非 常 高 的 。3-1。 才 o自 @8 ooo 88 e国。8o8国oos e8 o2 3 4 5 6 7 8 2 3 4 5 6 7 8ObservationsObservations(a)(b)o图 16.10 观 测 值 和 变 换 后 数 据 CDispa 出 ies) 间 的 关 联图 16.10 显 不 的 是 模 型 对 原 始 数 据 的 解 释 程 度 。 图 6. 10 Ca) 给 出 的 是 经 过 连 续 变 换 后 原 始数 据 和 最 终 的 模 型 距 离 间 的 对 应 关 系 , 而 图 16. 10 Cb) 则 只 给 出 原 始 数 据 和 变 换 数 据 间 的 关 系 。显 然 , 和 古 典 模 型 相 比 , 当 前 模 型 对 原 始 数 据 的 解 释 程 度 的 确 要 稍 好 一 些 。16.3 考 虑 个 体 差 异 的 MDS 模 型在 土 文 中 所 举 的 例 子 都 只 有 一 个 矩 阵 , 但 是 在 实 际 问 题 中 , 显 然 数 据 会 从 多 个 受 访 者 处 采集 , 每 一 个 受 访 者 的 数 据 都 可 以 构 成 一 个 矩 阵 。 那 么 如 何 来 进 行 分 析 呢 ? 如 果 直 接 将 原 始 数 据进 行 平 均 , 当 然 可 以 把 资 料 重 新 浓 缩 为 一 个 矩 阵 , 但 是 会 损 失 大 量 的 信 息 。 直 接 使 用 多 矩 阵 资 料进 行 重 复 多 维 尺 度 CRMDS) 模 型 的 分 析 当 然 是 可 以 的 , 但 是 这 样 并 没 有 考 虑 个 体 间 的 差 异 , 可 能并 不 合 适 。 因 为 不 同 个 体 的 评 判 断 标 准 往 往 不 太 一 致 ( 跳 水 比 赛 中 , 同 一 个 运 动 员 的 动 作 , 不 同的 裁 判 给 分 不 同 就 属 于 这 种 情 况 ) , 有 时 候 虽 然 经 过 事 先 训 练 , 或 在 比 赛 前 统 一 标 准 , 差 异 仍 然较 大 。 例 如 同 一 个 体 操 运 动 员 的 动 作 , A 裁 判 打 8 分 , B 裁 判 可 能 打 9 分 , C 裁 判 可 能 就 会 打 7.5分 。 显 然 , 更 妥 当 的 方 式 是 采 用 考 虑 个 体 差 异 的 MDS 模 型 进 行 分 析 。16.3.1 方 法 原 理个 体 差 异 的 多 维 尺 度 分 析 是 这 样 一 种 方 法 : 设 有 g 个 关 于 同 一 组 客 体 的 相 异 性 ( 相 似 性 )数 据 矩 阵 ß 1 , ß 2 ,…, 龟 , 这 些 数 据 矩 阵 可 能 是 来 自 不 同 的 受 访 者 或 不 同 的 调 查 地 区 等 , 称 这些 不 同 的 受 访 者 或 不 同 的 调 查 地 区 为 主 体 。 这 样 g 个 矩 阵 对 应 着 g 个 主 体 。 INDSCAL CIndividualDifference Scaling) 是 一 种 MDS 模 型 , 其 目 的 不 仅 是 要 分 析 客 体 的 结 构 , 而 且 进 一 步 要 分析 主 体 之 间 的 差 异 , 称 为 个 体 差 异 的 多 维 尺 度 分 析 法 , 或 者 加 权 个 体 差 异 欧 氏 距 离 模 型CWMDS) 。• 325 •


在 INDSCAL 模 型 中 , 仍 然 假 定 n 个 客 体 可 用 r 维 空 间 中 的 n 个 点 叫 , 屿 ,… , X n 来 表 示 。 但是 对 不 同 的 主 体 , 散 点 问 距 离 的 定 义 是 不 同 的 , 设 吨 , k 为 第 k 个 立 体 关 于 客 体 i 与 客 体 j 之 间 的距 离 , 其 表 达 式 为 :吨 , k = { 立 叫 (X it - XjJ2} 2吨 , k 相 当 于 对 第 t 个 坐 标 加 权 ~ 后 计 算 的 欧 氏 距 离 , 权 ~ 代 表 第 k 个 主 体 对 第 t 个 坐标 的 重 视 程 度 。在 SPSS 中 , 只 需 要 在 Model 子 对 话 杠 左 下 角 选 择 Individual differences Euclidean Distance 单选 框 , 就 可 以 使 用 该 模 型 进 行 拟 合 。 如 果 要 允 许 某 些 个 体 的 权 重 值 为 负 , 则 选 中 下 方 的 Allownegative subject weights 复 选 杠 即 可 。16.3.2 分 析 实 例在 上 一 节 中 只 分 析 了 一 位 学 生 的 数 据 , 现 在 将 全 体 学 生 的 资 料 放 在 一 起 加 以 分 析 , 数 据 见mds3. savo考 虑 到 每 位 受 访 者 的 选 择 偏 好 可 能 有 所 不 同 , 因 此 使 用 加 权 的 个 体 差 异 模 型 进 行 分析 , 操 作 如 下 :iAna1yze• Scale• Multidimensional Scaling...:Variables 杠 : 选 入 9 个 学 校 变 量画 画 :Level of measurement: 过 Ordinal: U ntie tiled observationsScaling Model: 君 在 individual difference …: 日 Allow negative subject weights|Continuel匾 豆 ~: 由 Groupplots: ~ 亟 且国由 于 数 据 集 为 40 个 矩 阵 从 上 往 下 排 列 的 格 式 , SPSS 会 在 计 算 时 自 动 将 每 一 个 矩 阵 看 成 是不 同 个 体 的 采 访 结 果 , 相 应 的 分 析 结 果 如 下 :由 随 后 方 杠 中 的 文 本 可 见 , 模 型 首 先 会 对 40 个 矩 阵 分 别 拟 合 MDS 模 型 , 然 后 按 照 加 权 的 方式 进 行 模 型 效 果 的 平 均 , 可 见 每 个 个 体 的 拟 合 效 果 相 差 很 大 , 如 第 一 个 学 生 的 模 型 决 定 系 数 为0.953 , 而 第 11 个 学 生 的 模 型 决 定 系 数 只 有 0.244 , 最 终 加 权 平 均 后 的 总 模 型 决 定 系 数 为 0.7240• 326 •


Matrix Stress RSQ Matrix Stress RSQ.091 .953 2 . 159 .8613 .296 .467 4 .254 .6085 .225 .685 6 .247 .6697 .155 .863 8 .217 .7579 .312 .441 10 .293 .80211 .352 .244 12 .155 .84913 .215 .774 14 .263 .59315 .338 .297 16 .189 .87717 .287 .563 18 .271 .54319 .165 .833 20 .099 .94321 .048 .987 22 .265 .57323 .168 .915 24 .226 .68725 .270 .660 26 .081 .97427 .308 .414 28 .129 .90129 .216 .739 30 . 194 .77531 .229 .680 32 .143 .87433 .170 .836 34 .216 .71635 .187 .784 36 . 164 .83437 .209 .729 38 .214 .74539 . 191 .814 40 .220 .710A veraged (rms) overmatncesStress .22185 RSQ = .72418接 下 来 方 杠 中 的 结 果 给 出 的 是 9 所 学 校 在 二 维 结 果 空 间 中 各 自 的 坐 标 值 。DimensionStimulus Stimulus 2NumberName1 北 京 大 学 一 1.0370 .91742 北 京 师 大 1. 0812 .96163 南 京 大 学 一 .7445 .95564 中 国 科 大 一 .0424 一 1. 78055 复 旦 大 学 一 .8132 .34566 华 东 师 大 1. 2565 .50777 清 华 大 学 一 .8964 一 .80108 上 海 交 大 一 .5068 一 1.42489 东 北 师 大 1.7026 .3185• 327 •


接 下 来 方 杠 中 的 结 果 实 际 上 给 出 的 是 对 每 一 个 个 体 而 言 它 在 模 型 中 的 权 重 大 小 , 以 及 每 一个 维 度 的 重 要 性 , 最 终 对 两 个 维 度 的 总 体 重 要 性 是 通 过 每 个 个 体 的 维 度 重 要 性 平 均 而 来 , 可 见 维度 一 携 带 了 原 始 信 息 的 将 近 50% , 而 维 度 二 携 带 了 信 息 量 的 22.88% , 两 者 相 加 正 好 为 总 模 型 的决 定 系 数 72.42% 。Subject weights measure the importance of each dimension to each subject.Squared weights sum to RSQ.A subject with weights proportional to the average weights has a weirdness ofzero , the mlmmum value.A subject with one large weight and many low weights has a weirdness near one.A subject with exactly one positive weight has a weirdness of one ,the maximum value for nonnegative weights.Subject WeightsDimensionSubject Weird 一 1 2Number ness.1155 .8616 .45862 . 1824 .8372 .40003 .2210 .5053 .46014 .4939 .4281 .65155 .2565 .5952 .575436 .4832 .5098 .757737 .2800 .6015 .605638 .2043 .7839 .361339 .3392 .8478 .309440 .1751 .6437 .5433Overall importance ofeach dimension: .4954 .2288最 后 的 方 杠 中 文 字 输 出 最 后 的 内 容 实 际 上 是 个 体 权 重 的 另 一 种 表 达 方 式 , 这 里 不 再 详 述 。• 328 •


Flattened Subject WeightsVariableSubject PlotNumber Symbol.22882 2 .38093 3 一 .58684 4 一 1.38785 5 一 .6812NZCE口UE-口0.5Individual diflerences(weighted) Euclidean distancemodel北 京 大 学 古 干1. 0l -1 U.'.'/ò. o 阐 λ 、A nV υ白 恒V、1wnlυ1I一--2.0W气大 学。 复 旦 大 学。 清 华 大 学上 悔 交 大 o叫 中 国 科 大。Dimension 1(a)o 北 京 师 大 1.00o 华 东 师 大 0.75。 东 北 师 大 N:5 0.505 0.2580.00-0.250.50Individual diílerences(weighted) Euclidean distancemodel032 2 日n帘。。句,年扣tNF7001 白 吃J 严 萄 2803OEzt 002 口 007:5b2109 017 06~o08R3 吕025 - 才 21 吕 026010 00232 0.3 0.4 0.5 0.6 0.7 0.8Dimension 10.9 1.0(b)图 16.11空 间 定 位 图 和 个 体 差 异 图图 16. 11 (a) 给 出 的 就 是 总 模 型 的 变 量 空 间 定 位 图 。 可 见 对 全 体 学 生 而 言 , 9 所 学 校 还 是 被比 较 清 楚 的 分 成 了 3 大 块 , 基 本 上 是 按 照 文 理 综 合 大 学 、 工 科 大 学 和 师 范 类 大 学 的 方 式 在 区 分 。相 比 之 下 , 清 华 大 学 要 更 加 接 近 综 合 性 大 学 的 区 域 , 这 反 映 了 在 工 科 大 学 中 , 清 华 大 学 离 综 合 性大 学 的 差 距 最 小 。图 16. 11 (b) 给 出 的 是 不 同 个 体 在 每 一 个 维 度 上 的 信 息 分 配 程 度 , 实 际 上 就 是 前 面 subjectweights 的 结 果 中 各 维 度 重 要 性 以 散 点 图 的 方 式 进 行 了 呈 现 。 可 见 不 同 个 体 的 差 异 还 是 比 较 大的 , 特 别 是 在 第 一 维 度 。 其 中 绝 大 部 分 受 访 者 的 判 定 信 息 主 要 体 现 在 第 一 维 度 , 而 只 有 少 数 受 访者 的 判 定 信 息 在 第 二 维 度 上 分 布 更 多 ( 如 33 、 34 号 受 访 者 )。16.3.3 空 间 定 位 图 的 含 义 解 释在 土 文 中 对 空 间 定 位 图 一 直 都 是 进 行 着 简 单 而 直 观 的 解 释 , 但 是 在 真 正 的 概 念 定 位 研 究 中 ,如 何 对 定 位 图 的 信 息 加 以 深 入 发 掘 , 以 找 到 对 数 据 更 为 合 乎 专 业 知 识 的 解 释 是 非 常 重 要 的 。般 而 言 , 对 一 个 空 间 定 位 图 的 解 释 可 以 按 以 下 三 个 步 骤 进 行 :(1) 哪 些 散 点 比 较 接 近 ( 相 似 ) , 所 有 的 散 点 大 致 被 分 为 了 几 类 。• 329 •


(2) 如 果 有 可 能 , 为 每 个 维 度 找 到 一 个 合 理 的 解 释 。(3) 寻 找 图 形 散 点 间 相 关 性 的 合 理 解 释 , 从 而 提 出 切 合 实 际 问 题 的 建 议 。按 照 上 述 步 骤 , 可 以 对 本 例 的 空 间 图 依 次 得 到 分 析 结 果 如 下 :4 散 点 分 类 : 所 有 散 点 大 致 可 以 被 分 为 三 类 , 它 们 在 空 间 中 的 排 列 位 置 区 分 比 较 清 晰 , 即 在受 访 者 的 概 念 定 位 中 , 这 三 类 学 校 的 差 异 是 比 较 明 确 的 。2 维 度 解 释 : 从 学 校 特 征 可 以 发 现 , 以 上 三 类 学 校 基 本 上 可 以 被 定 义 为 文 理 综 合 大 学 、 工 科大 学 和 师 范 类 大 学 。 在 第 一 维 度 上 , 综 合 性 大 学 在 左 , 工 科 大 学 居 中 , 师 范 类 大 学 在 右 , 因 此 可 以比 较 明 确 地 认 为 第 一 维 度 实 际 上 就 是 反 映 了 学 校 类 型 间 的 差 异 。 而 在 第 二 维 度 上 , 如 果 将 9个学 校 一 起 观 察 , 则 很 难 得 出 一 个 一 致 的 变 化 趋 势 来 , 但 是 如 果 分 成 三 个 类 别 , 则 可 以 发 现 第 二 维度 的 方 向 在 每 个 类 别 内 部 部 大 致 反 映 了 一 个 所 在 城 市 的 差 异 , 同 时 也 反 映 了 学 校 综 合 实 力 的 差异 , 例 如 在 师 范 类 院 校 中 , 北 师 大 在 第 二 维 度 上 得 分 最 高 , 华 师 大 居 中 , 东 北 师 大 最 低 , 对 另 外 两个 类 别 也 是 如 此 。 因 此 可 以 认 为 第 二 个 维 度 应 当 是 反 映 了 学 校 综 合 实 力 的 差 异 。 但 这 种 综 合 实力 的 对 比 在 不 同 类 问 可 能 是 不 具 可 比 性 的 。醺 疆 置惨遭 曾 旷司 赔E着 最图 16.12个 体 差 异 的 性 别 定 位由 于 原 始 数 据 中 提 供 了 受 访 者 的 性 别 , 因 此 可 以 将 性 别 数 据 和 个 体 权 重 差 异 散 点 图 结 合 起来 进 行 观 察 , 如 图 16. 12 所 示 。 从 中 可 见 有 数 名 男 性 和 未 答 性 别 者 极 端 重 视 第 一 维 度 , 而 大 多 数女 性 受 访 者 则 不 会 如 此 极 端 , 相 对 而 言 对 两 个 维 度 都 比 较 重 视 。 事 实 上 , 如 果 有 较 多 的 辅 助 变 量可 供 使 用 的 话 , 通 过 这 种 描 述 , 研 究 者 就 有 可 能 对 每 个 维 度 的 含 义 进 行 更 精 确 的 定 位 和 解 释 。3 散 点 定 位 的 合 理 解 释 与 建 议 : 由 于 本 例 中 散 点 的 分 类 比 较 清 楚 明 确 , 因 此 大 的 类 别 特 征不 需 要 过 多 的 解 释 , 进 一 步 的 分 析 重 点 可 以 放 在 一 些 具 体 的 学 校 差 异 上 。 例 如 对 综 合 性 大 学 而言 , 可 以 看 到 北 大 在 空 间 图 上 的 定 位 在 最 左 上 角 , 而 南 大 离 它 最 近 , 复 旦 相 对 而 言 要 较 远 一 些 。对 此 可 以 解 释 为 在 受 访 者 心 目 中 , 相 对 而 言 复 旦 的 综 合 实 力 应 当 是 和 北 大 、 南 大 存 在 一 定 差 距• 330 •


的 。 而 在 工 科 学 校 中 , 可 以 看 到 很 明 显 存 在 清 华 、 上 交 大 、 中 科 大 的 顺 序 , 这 客 观 反 映 了 学 校 实力 / 影 响 力 的 位 次 。 如 果 仔 细 考 虑 中 科 大 , 可 以 发 现 它 实 际 上 不 能 被 算 作 一 个 单 纯 的 工 科 学 校 ,而 是 原 先 被 定 位 在 理 工 综 合 性 大 学 上 , 那 么 本 次 研 究 显 然 反 映 了 学 校 在 受 访 者 心 理 定 位 上 的 偏移 , 学 校 急 需 采 取 各 种 措 施 加 强 宣 传 , 来 改 善 心 理 定 位 出 现 的 这 种 偏 移 趋 势 。除 此 以 外 , 以 上 学 校 定 位 的 关 联 还 可 以 和 学 校 近 年 的 变 化 联 系 起 来 , 北 大 、 复 旦 近 年 来 分 别合 并 了 北 医 和 上 医 , 清 华 实 际 上 也 开 始 与 协 和 加 强 联 系 , 从 理 论 上 讲 似 乎 这 三 所 学 校 的 概 念 定 位应 当 更 为 接 近 。 但 事 实 上 并 非 如 此 , 在 空 间 图 中 南 大 并 未 明 显 的 和 以 上 学 校 分 开 , 反 而 离 北 大 最近 。 对 此 可 能 的 解 释 为 : 虽 然 以 上 学 校 在 合 并 了 医 学 院 校 后 门 类 变 得 更 为 齐 全 , 但 这 些 学 校 在 并校 后 并 未 充 分 宣 传 其 新 增 加 的 医 学 专 业 实 力 , 从 而 在 本 次 研 究 的 受 访 者 心 目 中 , 还 是 将 它 们 按 照合 并 前 的 特 征 加 以 定 位 。 显 然 , 这 种 存 在 偏 差 的 心 理 定 位 会 对 各 校 的 生 源 产 生 明 显 的 影 响 , 这 的确 是 应 当 引 起 各 学 校 重 视 的 一 个 问 题 。最 后 需 要 指 出 的 是 , 本 次 研 究 数 据 仅 来 自 于 一 个 本 科 生 班 级 , 其 分 析 结 果 仅 用 于 方 法 演 示 ,并 不 代 表 各 学 校 间 的 真 实 心 理 定 位 和 差 异 。16.4 基 于 最 优 尺 度 变 换 的 MDS 模 型16.4.1 方 法 简 介我 们 知 道 经 典 的 多 维 尺 度 分 析 是 将 相 异 性 数 据 近 似 看 成 是 点 之 间 的 距 离 。 对 于 不 能 直 接 测量 距 离 的 情 形 , 非 度 量 MDS 模 型 中 采 用 了 克 鲁 斯 卡 尔 提 出 的 变 换 公 式 加 以 拟 合 。 但 是 在 更 为 复杂 的 数 据 中 , 这 种 变 换 可 能 还 稍 嫌 简 单 , 不 能 得 到 令 人 满 意 的 结 果 。 除 此 之 外 , 前 面 使 用 的 Multi巾 nensional Scaling (ALSCAL) 过 程 只 能 分 析 不 相 似 性 数 据 , 即 矩 阵 中 大 的 数 值 表 示 不 相 似 的 程度 大 。 但 是 有 时 采 集 的 数 据 为 相 似 性 数 据 , 即 矩 阵 中 大 的 数 值 表 示 相 似 的 程 度 大 。 此 时 如 果 一定 要 用 ALSCAL 过 程 分 析 , 就 只 能 对 数 据 进 行 变 换 , 显 然 非 常 麻 烦 。为 了 解 决 上 述 问 题 , SPSS 在 Categorical 模 块 中 加 入 了 基 于 最 优 尺 度 变 换 的 MDS 过 程 , 其 菜单 项 名 称 叫 Multidimensional Scaling (PROXSCA) 。 实 际 上 , PROXSCA 是 Proximity Scaling 的 缩写 。 PROXSCAL 过 程 是 对 原 ALSCLA 过 程 的 大 大 扩 展 , 使 得 SPSS 对 MDS 模 型 的 分 析 能 力 上 了一 个 新 的 台 阶 。PROXSCAL 过 程 最 明 显 的 功 能 改 进 有 两 处 , 首 先 对 分 析 相 似 性 数 据 或 者 不 相 似 性 数 据 都 可以 进 行 分 析 , 只 需 要 在 Model 子 对 话 杠 中 对 Proximities 单 选 杠 组 的 选 择 加 以 更 改 即 可 。 其 次 它将 最 优 尺 度 变 换 方 法 引 入 了 MDS 模 型 , 从 而 在 样 本 量 充 足 的 研 究 问 题 中 有 可 能 得 到 更 为 准 确 的分 析 结 果 。 但 除 此 之 外 , PROXSCAL 过 程 的 改 进 之 处 还 有 许 多 , 这 里 一 一 介 绍 如 下 。(1) Proximities 单 选 杠 组 : 用 于 选 择 距 离 阵 中 记 录 的 是 相 似 性 距 离 还 是 不 相 似 性 距 离 , 默 认选 项 为 Dissimilarities ( 不 相 似 性 距 离 ) , 即 距 离 值 越 大 , 则 两 者 离 得 越 远 , 越 不 相 似 。 如 果 记 录 的是 相 似 性 距 离 , 则 数 值 越 大 越 相 似 , 此 时 应 更 改 为 下 方 的 Similarities 0(2) 其 他 的 变 化 情 况 是 : LSCAL 提 供 的 是 比 较 经 典 的 5 个 分 析 模 型 , 而 PROXSCAL 是 使 用了 Data Theo 叮 Scaling System Group (DTSS) 的 最 优 化 数 据 转 换 的 方 法 , 提 供 了 4 个 更 高 级 的 模型 。 同 时 , PROXSCAL 过 程 提 供 了 更 加 丰 富 的 模 型 诊 断 、 设 置 和 结 果 输 出 。 改 进 的 东 西 很 多 , 会• 331


在 后 面 结 合 案 例 给 予 适 当 的 介 绍 。1. 数 据 排 列 格 式图 16.13预 定 义 对 话 框在 调 用 PROXSCAL 过 程 时 , 首 先 会 弹 出 预 定 义 对 话 杠 ( 如 图 16. 13 (a) 所 示 ) , 对 数 据 的 排 列格 式 加 以 设 定 。 具 体 而 言 上 方 的 DataFormat 单 选 杠 组 用 于 确 定 数 据 直 接 是 相 似 性 测 量 数 据 , 还是 需 要 进 行 相 似 性 计 算 的 原 始 数 据 。 如 果 是 前 者 , 则 Number of Sources 单 选 杠 组 用 于 确 定 数 据为 单 独 的 一 个 距 离 阵 , 还 是 多 个 距 离 阵 的 复 合 形 式 。 而 距 离 阵 数 据 最 多 可 以 有 5 种 排 列 方 式 :(1) One Source 杠 组 : 当 上 面 选 择 数 据 为 单 独 的 一 个 距 离 阵 时 可 用 , 数 据 有 两 种 排 列 方 式 。 相 似 性 矩 阵 是 以 方 阵 的 形 式 分 布 在 多 列 上 , 这 种 情 况 最 多 见 。 三 相 似 性 矩 阵 的 结 果 被 记 录 在 了 同 一 列 中 , 由 另 两 个 行 / 列 变 量 来 确 定 相 应 数 据 在 矩阵 中 的 位 置 。列 方 式 。(2) Multiple Sources 杠 组 : 当 上 面 选 择 数 据 为 多 个 距 离 阵 的 复 合 形 式 时 可 用 , 数 据 有 三 种 排 份 与 所 有 距 离 阵 按 照 从 上 到 下 的 次 序 在 相 同 的 列 中 依 次 排 列 , 上 一 节 中 使 用 的 例 子 就 属于 这 种 情 况 。 γ 均 所 有 距 离 阵 被 放 置 在 不 同 的 列 中 , 由 另 两 个 行 变 量 和 列 变 量 来 确 定 相 应 数 据 在 矩 阵中 的 位 置 。 所 有 距 离 阵 被 放 置 在 同 一 列 中 , 除 了 使 用 两 个 行 / 列 变 量 来 确 定 相 应 数 据 在 矩 阵 中的 位 置 外 , 还 有 第 三 个 变 量 用 于 确 定 数 据 是 属 于 哪 个 矩 阵 。根 据 上 面 预 定 义 对 话 杠 的 不 同 选 择 , 随 后 弹 出 的 主 对 话 杠 各 不 相 同 , 但 实 际 上 其 中 的 内 容 都是 互 相 统 一 的 , 和 前 面 讲 过 的 知 识 也 完 全 连 贯 , 因 此 这 里 不 再 详 述 。2. 数 据 测 量 尺 度在 PROXSCAL 过 程 中 , 无 论 数 据 为 何 种 测 量 尺 度 , 都 会 首 先 对 其 进 行 最 优 尺 度 变 换 , 然 后 再• 332 •


进 行 分 析 。 该 变 换 的 原 理 我 们 在 回 归 衍 生 模 型 一 章 中 己 经 介 绍 过 了 , 这 里 不 再 重 复 。 具 体 而 言 ,测 量 尺 度 可 以 在 Model 子 对 话 杠 ( 如 图 16. 14 所 示 ) 的 Proximity Transformations 单 选 杠 组 中 加 以设 定 , 共 有 4 种 方 式 : Ratio: 数 据 为 标 度 测 量 中 的 比 例 测 量 。 Interval: 数 据 为 标 度 测 量 中 的 区 间 测 量 , 即 连 续 性 资 料 。 Ordinal: 数 据 为 有 序 测 量 尺 度 , 即 有 序 分 类 资 料 。 Spline: 对 原 数 据 先 进 行 无 损 分 段 多 项 式 样 条 光 滑 (Smooth non-decreasing piecewise polynomialtransformation) , 然 后 再 进 行 分 析 。 所 采 用 的 次 方 数 和 内 核 数 可 在 下 方 杠 中 更 改 。图 16.14Model 子 对 话 框3. 可 供 拟 合 的 模 型 种 类PROXSCAL 过 程 在 可 拟 合 的 模 型 上 也 作 了 一 些 改 进 , 注 意 虽 然 有 些 模 型 和 ALSCAL 过 程 相同 , 但 这 里 是 基 于 最 优 尺 度 变 换 后 的 数 据 进 行 拟 合 , 所 以 结 果 不 能 完 全 等 价 , 但 基 本 上 是 能 对 应起 来 的 。具 体 的 设 定 在 Model 子 对 话 杠 的 ScalingModel 单 选 杠 组 中 进 行 , 可 供 选 择 的 种 类 有 以 下 几种 : Identity: 所 有 个 体 采 用 的 测 量 尺 度 都 是 相 同 的 , 这 是 默 认 选 项 , 分 析 时 不 再 考 虑 个 体 差异 。 Weighted E 时 lidean: 权 重 欧 氏 模 型 , 该 模 型 考 虑 个 差 异 ( 属 于 个 体 差 异 模 型 ) , 对 每 一 个距 离 阵 都 有 自 己 的 个 体 空 间 , 并 且 在 得 出 综 合 结 果 时 自 动 给 予 不 同 个 体 不 同 的 权 重 。 Generalized Euclidean: 广 义 欧 氏 模 型 , 每 个 个 体 空 间 相 当 于 公 共 空 间 的 不 同 旋 转 , 并 且在 各 个 维 度 上 的 权 重 不 同 。• 333 •


Reduced rank: 和 广 义 欧 氏 模 型 类 似 , 但 个 体 空 间 的 秩 次 等 于 n , n 总 是 小 于 最 大 维 度 数 ,但 大 于 等 于 104. 更 丰 富 的 图 形 和 结 果 输 出图 16.15图 形 和 结 果 输 出 子 对 话 框PROXSCAL 过 程 在 可 供 输 出 的 图 形 和 分 析 结 果 上 提 供 了 更 多 的 选 择 , 在 Plots子 对 话 杠 ( 如图 16. 15 Ca) 所 示 ) 中 不 仅 可 以 输 出 总 的 模 型 空 间 定 位 图 , 还 可 以 输 出 每 个 个 体 的 空 间 定 位 图 。更 进 一 步 , 还 提 供 了 碎 石 图 、 最 优 尺 度 变 换 图 等 用 来 辅 助 判 断 究 竟 多 少 维 空 间 比 较 合 适 , 最 优 尺度 变 换 是 否 妥 当 等 。 Output 子 对 话 杠 ( 如 图 16. 15 Cb) 所 示 ) 不 仅 提 供 了 空 间 维 度 指 标 、 权 重 指标 、 距 离 指 标 、 迭 代 记 录 、 压 力 值 改 变 记 录 等 详 细 的 统 计 量 输 出 , 还 可 以 选 择 将 一 些 指 标 存 储 为SPSS 数 据 文 件 供 进 一 步 分 析 。5. 其 他 改 进 和 增 强除 上 述 各 方 面 外 , 为 了 保 证 模 型 能 够 拟 合 , PROXSCAL 过 程 还 提 供 了 许 多 拟 合 时 的 控 制 选项 , 如 在 Restrictions 子 对 话 杠 中 就 可 以 对 解 的 搜 索 空 间 加 以 限 定 , 而 Options 子 对 话 杠 则 可 以 选择 模 型 的 初 始 状 态 , 以 及 拟 合 标 准 。16.4.2 分 析 实 例由 于 PROXSCAL 过 程 的 功 能 极 为 强 大 和 全 面 , 对 其 进 行 详 细 讲 解 己 经 超 出 了 本 书 读 者 能 够承 受 的 范 围 , 因 此 这 里 仍 以 前 述 学 校 定 位 的 数 据 为 例 , 来 看 一 下 PROXSCAL 过 程 相 应 的 结 果 输出 , 不 再 深 入 展 开 讨 论 。 对 该 过 程 更 为 详 细 和 实 际 的 分 析 案 例 读 者 可 参 考 本 系 列 丛 书 的


iAna1yze• Scale• Multidimensional Scaling (PROXSCAL)i N umber of So 旧 ces: 磁 Multiple matrix sources;; f峭 时 - -τ--冬L e ne非; .. D h ..份一 一 一 一 一:Variables 杠 : 选 入 代 表 学 校 的 9 个 变 量:Sources 杠 : id画 画 :Scaling面Model: 磁 Weighted EuclideanProximity Transformations: 磁 Ordinal: 还 Untie tied observations囚2. 结 果 解 释许 多 分 析 结 果 和 前 面 类 似 , 不 再 一 一 列 举 , 这 里 仅 给 出 较 重 要 的 结 果 如 下 :表 16.1Stress and Fit MeasuresNormalized Raw Stress .04037Stress-IStress-IIS-Stress.20091 a.53257 a09675 bDispersion Accounted For (DAF.) .95963Tucker's Coefficient of Congruence .97961PRQXSCAL minimizes Normalized Raw Stressa Optimal scallng factDr = 丁 042b. Optimal s 口 aling factDr = .975表 16. 1 Stress and Fit Measures 表 给 出 的 是 模 型 拟 合 优 度 的 基 本 情 况 , 该 表 中 指 标 stress 的 值为 0.040 37 , 另 一 指 标 Dispersion Accounted For (D. A. F) ( 类 似 于 经 典 部 分 的 RSQ) 的 值 为0.95963 , 因 此 模 型 的 拟 合 效 果 比 较 好 。图 16. 16 (a) 为 九 所 学 校 的 公 共 空 间 定 位 图 ( 经 过 编 辑 ) , 可 见 基 本 的 形 状 和 前 面 是 相 同 的 ,但 在 细 节 上 也 有 一 些 改 变 , 例 如 现 在 中 科 大 离 得 更 远 了 , 而 清 华 和 交 大 、 北 大 和 复 旦 的 距 离 变 得更 近 。 右 侧 的 个 体 差 异 定 位 图 显 示 的 情 况 和 上 一 节 的 分 析 结 果 相 似 , 但 不 再 出 现 右 下 方 的 几 个极 端 的 个 体 。如 果 要 输 出 每 个 个 体 的 空 间 匹 配 图 , 则 可 以 在 Plots 子 对 话 杠 中 选 中 Individual spaces 复 选框 , 结 果 中 就 会 增 加 输 出 40个 个 体 的 空 间 匹 配 图 。 从 这 些 个 体 的 匹 配 图 中 , 可 以 进 一 步 考 察 不同 的 受 访 者 在 相 似 性 评 分 中 的 异 同 情 况 。3. 更 多 维 度 的 考 虑同 上 一 节 一 样 , 本 节 上 面 的 匹 配 图 是 在 默 认 的 二 维 的 情 况 下 产 生 的 , 从 指 标 stress 和 指 标 D.A.F 的 值 来 看 , 模 型 的 拟 合 效 果 也 还 算 满 意 。 那 么 在 这 个 有 40 个 被 调 查 者 的 矩 阵 数 据 中 , 默 认• 335 •


N口。吕A。 中 国 科 大 0.6。上 海 交 大洁 华 。 学0.5大~ 0.4U 川.5 " I 。 复 旦 大 学ci。 北 京 大 学。东 北 师 大口O~ 0.3也 JEÕ 0.2。 北 京 师 大 0.1o 南 京 大 学ODimension 1(a)图 16.1620.00.0 0.1 0.2 0.3 0.4 0.5 0.6公 共 空 间 定 位 图 和 个 体 差 异 定 位 图Dimension 1Jda‘-、-ku,,、、•••图 16.17前 八 个 维 度 的 碎 石 图的 三 维 空 间 是 否 足 以 反 映 各 大 学 之 间 的 相 似 性 的 基 本 结 构 关 系 呢 ? 要 回 答 这 个 问 题 , 只 要 看 看其 他 维 度 的 情 况 就 会 清 楚 了 。 我 们 在 Model 子 对 话 杠 中 , 将 维 度 的 最 小 值 和 最 大 值 设 置 为 1和8 , 在 Plots 子 对 话 杠 中 选 中 Stress 复 选 框 , 在 输 出 的 结 果 中 , 就 会 出 现 如 图 16.17 所 示 的 碎 石 图 ,该 图 形 的 解 释 和 因 子 分 析 中 的 碎 石 图 极 为 相 似 , 同 样 反 映 了 各 维 度 的 重 要 性 。 从 图 中 可 以 看 出一 维 和 二 维 己 经 解 释 了 研 究 主 体 结 构 的 主 要 信 息 。 所 以 使 用 三 维 空 间 来 描 述 和 体 现 9 所 大 学 的相 似 性 的 结 构 关 系 是 比 较 满 意 的 。 有 兴 趣 的 读 者 也 可 以 使 用 这 个 案 例 数 据 进 行 三 维 空 间 的 拟合 , 看 看 三 个 维 度 的 个 体 权 重 值 的 大 小 情 况 。• 336 •


16.5 本 章 方 法 小 结和 任 何 其 他 方 法 一 样 , 多 维 尺 度 分 析 技 术 也 不 是 万 能 的 , 了 解 它 的 优 缺 点 将 有 助 于 正 确 地 使用 这 一 方 法 。1. 多 维 尺 度 分 析 的 优 点MDS 也 有 人 称 为 Perceptual Mapping , 意 味 着 降 维 后 的 图 示 。 研 究 者 可 以 利 用 得 到 的 图 , 描述 性 地 将 变 量 或 样 本 进 行 分 类 , 更 可 以 对 隐 藏 在 原 始 数 据 背 后 的 维 度 做 出 相 应 的 判 断 。 从 这 个意 义 上 说 , MDS 也 可 以 与 因 子 分 析 有 相 类 似 的 作 用 , 因 为 MDS 也 可 以 找 出 隐 藏 在 数 据 背 后 的 维度 结 构 。 但 是 , 因 MDS 对 数 据 的 要 求 比 因 子 分 析 更 低 , 所 以 MDS 的 应 用 范 围 更 广 。MDS 是 通 过 把 所 研 究 现 象 的 数 量 结 构 关 系 转 化 为 直 观 图 形 , 未 达 到 表 现 统 计 资 料 的 目 的的 。 它 的 特 点 是 简 明 具 体 、 生 动 直 观 、 易 于 理 解 , 能 够 给 人 们 以 明 确 而 深 刻 的 印 象 。 在 眼 球 经 济的 今 天 , MDS 在 欧 美 等 国 日 益 得 到 广 泛 的 应 用 。2. 多 维 尺 度 分 析 的 缺 点由 于 MDS 的 解 不 是 唯 一 的 , 在 正 交 ( 旋 转 、 平 移 ) 变 换 下 有 不 变 性 , 所 以 即 使 距 离 模 型 拟 合的 非 常 好 , SPSS 输 出 的 匹 配 图 也 可 能 与 通 常 感 受 的 不 完 全 一 致 , 有 时 会 有 很 大 的 差 别 。 这 样 就增 加 了 从 匹 配 图 中 寻 找 指 标 间 结 构 的 难 度 , 同 时 , 由 于 它 不 能 像 因 子 分 析 那 样 能 够 提 供 因 子 的 比重 , 因 此 不 同 指 标 的 影 响 程 度 也 很 难 看 出 来 。在 SPSS 提 供 的 常 用 距 离 模 型 中 , 还 有 一 些 共 同 的 缺 点 : 一 方 面 它 们 受 各 指 标 的 量 纲 的 影 响 ;另 一 方 面 它 们 没 有 考 虑 指 标 之 间 的 相 关 性 。 因 此 , 在 进 行 多 维 尺 度 分 析 时 , 要 尽 量 解 决 和 避 开 这些 缺 点 , 特 别 是 指 标 之 间 的 相 关 性 问 题 这 一 点 。思 考 与 练 习1. 请 读 者 对 本 章 中 使 用 的 文 件 mds2. sav 进 行 相 似 性 变 换 ( 用 10 减 去 相 应 的 数 据 ) , 再 进 行 多 维 尺 度 分 析 ,比 较 两 者 的 结 果 。2. 如 果 对 本 章 中 使 用 的 文 件 mds3. sav 进 行 变 换 , 即 直 接 将 原 始 数 据 进 行 平 均 , 把 资 料 重 新 浓 缩 为 一 个 矩阵 , 再 进 行 多 维 尺 度 分 析 。 与 个 体 差 异 的 多 维 尺 度 分 析 相 比 , 它 们 之 间 的 碎 石 图 有 何 不 同 , 为 什 么 ?3. 在 多 维 尺 度 分 析 中 , PROXSCAL 过 程 与 原 ALSCLA 过 程 相 比 , 主 要 扩 展 了 哪 些 功 能 ?4. 在 多 维 尺 度 分 析 中 , 维 度 的 次 序 是 由 什 么 决 定 的 ?5. 多 维 尺 度 分 析 与 对 应 分 析 的 区 别 与 联 系 是 什 么 ?参 考 文 献1 Richard Johnson 著 . 实 用 多 元 统 计 分 析 ( 第 四 版 ) . 陆 璇 译 . 北 京 : 清 华 大 学 出 版 社 , 20012 胡 固 定 , 张 润 楚 . 多 元 数 据 分 析 方 法 纯 代 数 处 理 . 天 津 : 南 开 大 学 出 版 社 , 19903


5 张 文 月 三 主 编 . SPSS 11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 北 京 希 望 电 子 出 版 社 , 20026 李 伟 明 . 多 元 描 述 统 计 方 法 . 上 海 : 华 东 师 范 大 学 出 版 社 , 2001• 338 •


第四部分其 他 统 计 分 析 方 法


第 17 章 对 数 线 性 模 型 与 Poisson 回 归17.1 对 数 线 性 模 型 简 介17.1.1 问 题 的 提 出计 分 析 。为 便 于 大 家 理 解 对 数 线 性 模 型 的 基 本 特 点 , 先 来 看 一 个 例 子 。例 17.1 为 研 究 性 别 与 血 型 是 否 有 关 , 随 机 抽 取 300 人 , 观 察 的 结 果 如 表 17.1 所 示 , 试 作 统表 17.1血 型 和 性 别 的 数 据性 别血 型A B 。 AB男 51 38 49 16女 49 40 42 15这 是 大 家 都 非 常 熟 悉 的 行 × 列 表 的 表 格 形 式 , 所 研 究 的 问 题 是 两 个 分 类 变 量 ( 性 别 和 血 型 )之 间 是 否 有 关 , 但 并 不 考 虑 二 者 之 间 是 否 有 因 果 关 系 。 几 乎 所 有 了 解 一 点 统 计 学 知 识 的 人 都 能运 用 正 确 的 统 计 方 法 一 一 γ 检 验 对 此 进 行 统 计 分 析 。上 例 只 考 虑 了 一 个 行 变 量 和 一 个 列 变 量 , 称 为 二 维 列 联 表 。 但 是 当 列 联 表 维 度 更 高 , 比 如 说要 同 时 研 究 4 , 5 个 分 类 变 量 间 的 关 系 时 , 扩 检 验 就 显 得 不 够 用 了 , 它 不 可 能 对 多 个 分 类 变 量 间 的关 系 给 出 一 个 系 统 而 综 合 的 评 价 , 也 不 可 能 在 控 制 其 他 因 素 作 用 的 同 时 对 变 量 的 效 应 做 出 估 计 ,此 时 可 以 采 用 对 数 线 性 模 型 这 一 多 元 统 计 分 析 方 法 来 研 究 多 个 分 类 变 量 之 间 的 关 系 。17.1.2 模 型 入 门对 数 线 性 模 型 的 构 造 类 似 于 方 差 分 析 模 型 , 其 作 用 也 与 方 差 分 析 类 似 。 一 般 的 对 数 线 性 模型 的 特 色 是 对 所 有 的 变 量 不 分 因 变 量 和 自 变 量 , 一 视 同 仁 的 分 析 。 首 先 来 回 顾 一 下 两 因 素 方 差分 析 模 型 :Yijk = μ+α+β:j + αzβ:j + B 价其 中 , Yijk 是 4 因 素 的 i 水 平 和 B 因 素 的 j 水 平 构 成 的 处 理 的 第 k 个 观 察 , 矶 、βj 分 别 表 示 4 因素 和 B 因 素 的 主 效 应 , αA 则 为 4 与 B 的 交 互 效 应 , 句 是 随 机 误 差 , 服 从 正 态 分 布 N(O , 扩 )。• 341 •


在 方 差 分 析 模 型 中 , 将 每 个 观 察 值 y 的 变 异 看 成 是 4 因 素 的 作 用 ( 主 效 应 )、 B 因 素 的 作 用 、4 与 B 的 交 互 作 用 及 随 机 误 差 之 和 。 类 似 地 , 对 二 维 列 联 表 , 也 可 以 将 每 个 单 元 格 中 频 数 的 变 异分 解 为 各 因 素 的 作 用 。例 17.1 中 涉 及 两 个 因 素 , 性 别 因 素 ( 用 4 表 示 ) 有 两 个 水 平 ( 分 别 用 O 和 1 表 示 男 女 两 个 水平 ) ; 血 型 因 素 ( 用 B 表 示 ) 有 4 个 水 平 ( 分 别 用 。、 1 、 2 、 3 表 示 4 、 B 、 0 和 AB 等 4 个 水 平 )。 将 4因 素 的 i 水 平 和 B 因 素 的 j 水 平 对 应 的 格 子 的 频 数 记 为 儿 , 显 然 儿 是 一 个 随 机 变 量 , 它 是 随 样 本的 变 化 而 变 化 的 , 且 在 抽 样 前 无 法 确 切 地 预 测 它 将 取 什 么 值 。 可 以 想 象 , 儿 的 变 异 是 由 4 、 B 两 个因 素 的 作 用 及 随 机 误 差 造 成 的 。 一 般 情 况 下 , 假 设 每 个 格 子 的 观 察 频 数 服 从 多 项 C MultinomiaD分 布 。 如 果 将 单 元 格 频 数 取 自 然 对 数 , 则 { 固 定 各 因 素 对 单 元 格 频 数 的 影 响 服 从 下 面 的 公 式 :ln Cp, ab) = ln C 常 数 ) +lnCA 的 主 效 应 ) + ln CB 的 主 效 应 ) +lnCA 与 B 的 交 互 作 用 )记 ln C 常 数 ) 为 μ , ln CA 的 主 效 应 ) 为 αα , ln CB 的 主 效 应 ) 为 鼠 , ln CA 与 B 的 交 互 作 用 ) 为(αβ)α b ' 则 上 式 变 为 :ln μαμ+αα+β b + Cαβ) ab这 就 是 二 维 列 联 表 的 对 数 线 性 模 型 。 读 者 一 定 要 注 意 , 虽 然 这 个 模 型 看 上 去 和 以 前 的 方 差分 析 模 型 很 像 , 但 由 于 对 于 应 变 量 分 布 的 假 设 不 同 , 因 此 是 完 全 不 同 的 两 个 模 型 , 不 能 简 单 地 用方 差 分 析 模 型 的 计 算 方 法 来 拟 合 。 该 模 型 中 包 含 了 所 有 主 效 应 和 交 互 作 用 项 , 因 此 被 称 为 饱 和模 型 CSaturated ModeD , 若 将 某 些 无 统 计 意 义 的 交 互 作 用 项 从 饱 和 模 型 中 去 除 , 就 称 为 不 饱 和 模型 或 简 约 模 型 CReduced ModeD 。 根 据 前 面 学 习 过 的 知 识 , 对 于 线 性 模 型 而 言 , 饱 和 模 型 的 拟 和结 果 必 定 最 优 的 。 拟 和 饱 和 模 型 必 走 得 到 实 际 频 数 完 全 等 于 理 论 频 数 , 拟 和 优 度 扩 值 等 于 O 的结 果 。 这 是 因 为 饱 和 模 型 中 独 立 参 数 的 个 数 等 于 列 联 表 的 单 元 格 数 , 各 单 元 格 的 频 数 无 变 化 的自 由 度 。 关 于 如 何 寻 找 一 个 适 当 的 模 型 , 后 文 将 有 详 细 介 绍 。例 17.1 的 研 究 目 的 是 分 析 性 别 与 血 型 是 否 有 关 , 即 男 女 两 类 人 群 的 血 型 构 成 是 否 相 同 , 也就 是 研 究 在 4 的 不 同 水 平 下 , B 的 作 用 是 否 相 同 。 在 对 数 线 性 模 型 中 这 就 是 研 究 4 与 B 的 交 互作 用 的 对 数 [ep C 咐 )αb J 是 否 为 零 。 由 对 数 线 性 模 型 的 结 构 可 以 发 现 , 该 模 型 不 仅 可 解 决 两 个 因素 是 否 相 关 的 问 题 ( 即 是 否 存 在 交 互 作 用 ) , 还 可 以 用 来 分 析 各 因 素 主 效 应 是 否 起 作 用 , 并 可 以估 计 主 效 应 和 交 互 作 用 对 频 数 ι 的 作 用 大 小 。17.1.3 SPSS 的 相 应 功 能SPSS 中 一 共 提 供 了 对 数 线 性 模 型 的 三 个 过 程 : General 过 程 、 Logit 过 程 和 Model Selection 过程 , 三 者 都 应 用 对 数 线 性 模 型 的 基 本 原 理 , 但 在 具 体 的 拟 和 方 法 和 结 果 输 出 上 有 些 不 同 , 分 别 用于 不 同 的 研 究 情 况 。 General 过 程 适 用 于 研 究 人 员 只 对 某 些 特 定 效 应 项 感 兴 趣 的 情 况 , 属 于 证 实性 研 究 。 General 过 程 的 另 外 一 个 特 点 是 , 分 析 中 只 考 虑 因 素 之 间 是 否 相 关 , 不 考 虑 谁 是 原 因 谁是 结 果 , 最 后 在 结 果 解 释 时 才 由 研 究 人 员 来 做 出 判 断 。但 有 的 时 候 , 研 究 人 员 己 经 有 了 一 些 线 索 , 谁 因 谁 果 己 有 定 论 , 此 时 用 一 般 模 型 就 无 法 利 用该 信 息 , 里 面 仍 然 需 要 分 析 相 当 多 的 各 自 变 量 间 的 作 用 , 显 得 有 些 浪 费 。 在 这 种 情 况 下 , 如 果 因变 量 为 两 分 类 , 就 可 以 用 Logit 过 程 提 供 的 Logit 模 型 来 分 析 。 相 比 之 下 , 他 比 另 两 个 模 型 更 像 方差 分 析 , 明 确 分 出 了 应 变 量 和 自 变 量 , 直 接 服 务 于 分 类 变 量 之 间 的 因 果 关 系 。 除 了 人 为 指 定 引 入模 型 的 各 项 和 该 过 程 自 动 引 入 的 这 些 项 与 应 变 量 的 交 互 项 外 , 不 再 考 虑 其 他 因 素 。• 342 •


Model Selection 过 程 拟 合 的 是 分 层 对 数 线 性 模 型 (Hierarchical ModeD 。 前 面 的 一 般 对 数 线性 模 型 可 以 对 每 个 系 数 及 总 模 型 给 出 非 常 丰 富 和 详 细 的 信 息 , 但 是 它 要 求 研 究 者 心 中 己 经 有 了一 定 的 思 路 或 线 索 , 或 只 对 某 些 特 定 效 应 项 感 兴 趣 , 即 己 经 有 关 于 简 约 模 型 的 假 设 。 如 果 在 探 索性 分 析 中 研 究 人 员 只 是 设 想 若 干 分 类 变 量 之 间 可 能 有 关 系 , 但 是 并 无 明 确 假 设 , 也 没 有 具 体 分 出哪 个 是 因 变 量 、 哪 个 是 自 变 量 , 此 时 比 较 适 宜 采 用 分 层 对 数 线 性 模 型 分 析 。17.2 一 般 对 数 线 性 模 型 分 析 实 例一 般 对 数 线 性 模 型 是 对 数 线 性 模 型 中 最 简 单 的 一 种 , 为 了 使 读 者 能 够 尽 快 对 其 有 一 个 基 本的 了 解 , 下 面 用 一 个 最 简 单 的 四 格 表 实 例 来 拟 和 一 般 对 数 线 性 模 型 。例 17.2 某 医 科 大 学 附 属 医 院 用 内 科 疗 法 治 疗 一 般 类 型 胃 溃 病 患 者 80 例 , 治 愈 63 例 , 治疗 特 殊 类 型 胃 溃 病 患 者 99 例 , 治 愈 31 例 , 如 表 17.2 所 示 。 数 据 见 文 件 loglinear2. sav , 试 通 过 此资 料 比 较 用 内 科 疗 法 治 疗 两 种 胃 溃 病 病 人 所 得 的 治 愈 率 是 否 相 同 。表 17.2治 疗 方 法 与 效 果 的 关 系组 别一 般 类 型特 殊 类 型治 愈6331未 治 愈1768影 响 格 子 中 频 数 大 小 的 因 素 有 两 个 : 组 别 和 治 疗 结 果 , 根 据 前 面 的 分 析 可 知 , 要 比 较 两 种 类型 胃 溃 病 病 的 治 愈 率 是 否 相 同 , 就 是 分 析 组 别 和 治 疗 结 果 两 个 因 素 对 单 元 格 频 数 的 作 用 是 否 存在 交 互 作 用 。17.2.1 对 数 据 的 初 步 分 析根 据 以 前 学 过 的 统 计 方 法 , 表 17.2 的 资 料 可 以 用 四 格 表 矿 检 验 进 行 统 计 分 析 。 在 SPSS 中使 用 crosstab 过 程 实 现 , 结 果 如 下 :表 17.3Chi-Square TestsAsymp.8igValue df (2-sided)Pearson Chi-8quare 39.927 b 000Conlinuily Correclion a 38.047 000Li kelihood Ratio 4 才 860 000Fisher's Exact TestLi near-by-Li near Associa!ion 39.704 000N of Valid Cases 179a. Com 口 uted 0 叫 Iy for a 2x2 tableb. 0 cells (.0%) have ex 口 ected 口 ount less than 5. The minimum expecled counl is 37.99Exact 8ig(2-sided).000Exact 8ig.(1-sided).000由 表 17.3 可 见 x2 值 为 39.927 , p { 直 远 小 于 0.05 , 因 此 可 以 认 为 用 内 科 疗 法 治 疗 两 种 胃 溃 荡• 343 •


病 人 所 得 的 治 愈 率 是 不 同 的 。 从 具 体 数 据 可 以 看 出 , 一 般 类 型 病 人 的 治 愈 率 高 于 特 殊 类 型 , 或 者可 以 说 , 治 愈 率 和 组 别 与 治 疗 结 果 两 个 因 素 有 关 , 对 单 元 格 频 数 的 作 用 存 在 交 互 作 用 。17.2.2 正 式 分 析1. 操 作 说 明以 下 应 用 对 数 线 性 模 型 对 例 17.2 的 资 料 进 行 分 析 。 为 此 , 首 先 使 用 Weight Cases 过 程 将 变量 count 指 定 为 频 数 变 量 , 随 后 的 操 作 如 下 :Analyze 一 今 Loglinear 一 今 GeneralFactors 杠 : type 、 resultDistribution of Counts:Multinomial匾 豆 ~: 即 Estimates I Delta 杠 :0: 巨 亟 画囚图 17. 1 一 般 对 数 线 性 模 型 的 主 对 话 框 和 Options 子 对 话 框参 见 图 17.1可 知 , 对 数 线 性 模 型 在 对 话 杠 的 操 作 土 和 方 差 分 析 非 常 近 似 , 许 多 东 西 大 家 可以 互 相 参 照 。 不 过 在 上 面 的 对 话 杠 中 不 存 在 选 择 因 变 量 的 问 题 , 因 为 在 模 型 中 的 因 变 量 就 是 单元 格 的 频 数 。在 主 对 话 杠 中 , Factors 杠 用 于 选 入 需 要 分 析 的 各 个 因 素 ; Cell Covariate 杠 用 于 选 入 模 型 中 需要 引 入 ( 控 制 ) 的 连 续 性 变 量 , 此 时 模 型 在 拟 合 时 会 对 每 一 单 元 格 按 照 该 变 量 的 平 均 水 平 进 行 估计 ; 最 下 方 的 Distribution of Cell Counts 单 选 杠 组 用 于 选 择 单 元 格 频 数 的 分 布 , 默 认 为 Poisson , 此处 需 要 加 以 更 改 。 主 界 面 上 的 另 外 几 个 杠 组 都 是 拟 和 Poisson节 , 此 处 忽 略 即 可 O回 归 模 型 时 使 用 的 , 详 见 相 应 章Options子 对 话 杠 用 于 选 择 输 出 相 应 的 结 果 、 统 计 图 、 设 置 可 信 区 间 的 可 信 度 、 迭 代 时 的 参 数等 。 注 意 在 本 例 中 进 行 了 一 个 非 常 关 键 的 更 改 , 将 8{ 直 由 默 认 的 0.5改 为 0 。 模 型 在 计 算 时 会 首先 将 所 有 单 元 格 频 数 均 加 上 相 应 该 数 , 以 避 免 当 某 些 单 元 格 频 数 为 O 时 可 能 引 起 的 计 算 问 题 。• 344 •


这 样 做 不 会 影 响 统 计 检 验 的 结 果 , 但 是 当 数 据 量 较 少 时 , 会 略 为 影 响 参 数 的 估 计 值 。 因 此 , 如 果非 常 肯 定 在 数 据 中 不 存 在 空 单 元 格 , 则 在 数 据 较 简 单 时 建 议 将 Delta及 的 几 个 过 程 中 全 部 适 用 , 因 为 它 们 默 认 的 8 值 均 为 0.5 而 不 是 002. 输 出 结 果 解 释设 定 为 0 。 该 操 作 在 本 章 涉General 过 程 的 输 出 结 果 包 含 很 多 内 容 。 以 下 依 次 介 绍 。 首 先 给 出 的 标 题 是 "General Loglinear", 表 明 拟 合 的 是 一 般 对 数 线 性 模 型 。表 17.4WarningsThe DESIGN subcommand is empty. A saturated design will be gene 旧 tedAII residuals are zero under the model. Therefore the requested charts will not be created首 先 系 统 会 弹 出 警 告 , 说 明 由 于 分 析 操 作 中 没 有 对 Model 子 对 话 杠 进 行 走 义 , 因 此 SPSS 拟和 了 饱 和 模 型 。 而 这 种 模 型 拟 合 时 不 存 在 残 差 , 因 此 将 不 再 输 出 相 关 的 统 计 图 。随 后 的 表 格 会 给 出 数 据 的 基 本 信 息 、 变 量 名 称 、 含 义 及 赋 值 情 况 等 , 此 处 略 。表 17.5Convergence Information a,bMaximum Number of Iterations 20Converge Tolerence .00100Final Maximum Absolute Difference.00027 cFinal Maximum Relative Difference .00019Number of Iterations 4a. Model: Multin 口 mialb. Design: Constant + gr 口 U 口 + result + group * resultC. The iteration converged because the maximum absolute changes ofparameter estimates is less than the s 口 ecified convergence criterion表 17.5 给 出 了 模 型 迭 代 的 基 本 情 况 : 允 许 最 大 迭 代 次 数 为 20 次 , 用 于 判 断 收 敛 的 相 对 容 忍度 为 0.00 1, 本 模 型 迭 代 5 次 后 即 成 功 收 敛 。 表 格 下 方 的 脚 注 给 出 了 具 体 模 型 的 信 息 : 单 元 格 内频 数 服 从 多 项 分 布 , 具 体 的 模 型 为 ln μω=μ+αα+β b + Cαβ)α b ' 即 含 交 互 作 用 项 的 饱 和 模 型 。表 17. 6Goodness-of-Fit Tests a,bLikelihood RatioValue000dfOSigPearson Chi-Square.000Oa Model Multinomialb. Design: Gonsta 同 t + grou 口 + result + gr 口 up , result表 17.6为 模 型 的 拟 合 优 度 检 验 , 其 本 意 是 考 察 当 前 模 型 和 饱 和 模 型 对 数 据 解 释 程 度 有 无 差异 , 但 由 于 现 在 拟 合 的 就 是 饱 和 模 型 , 如 上 所 述 , 拟 和 饱 和 模 型 必 走 得 到 实 际 频 数 完 全 等 于 理 论频 数 , 拟 和 优 度 扩 值 等 于 O 的 结 果 , 各 单 元 格 的 频 数 无 变 化 的 自 由 度 Cdf= 0) 。 因 此 检 验 结 果 此处 无 实 际 意 义 。• 345 •


表 17.7Cell Counts and Residuals a,bObservedExpected组 别 治 疗 效 果 Cou 门 t % Count % Residual一 般 类 型 治 愈 63 35.2% 63.000 35.2% .000未 泊 愈 17 9.5% 17.000 9.5% .000特 殊 类 型 治 愈 31 17.3% 31.000 17.3% 000: 未 治 愈 68 38.0% 68.000 38.0% 000a. Model: Multinomialb. Design: C 口 nsta 门 t + grou 口 + result + gr 口 U 口 朵 result表 17.7 为 四 格 表 中 各 单 元 格 的 实 际 频 数 、 理 论 频 数 及 其 占 总 样 本 例 数 的 比 例 ( 最 右 侧 有 删节 )。 由 于 拟 合 的 是 饱 和 模 型 , 因 此 各 单 元 格 的 实 际 频 数 和 理 论 频 数 是 完 全 一 样 的 , 各 单 元 格 拟合 的 残 差 、 校 正 残 差 与 Deviance 残 差 均 为 0 。表 17.8Parameter Estimates c,d95% Confide 门 ce IntervalParameter Estimate Std. Error Z Sig Lower Bou 门 d Upper BoundConstant4.220 a[group = 1.00] -1.386 271 -5.113 000 -1.918 -.855[graup = 2.00]Ob[result = 1.00] -.786 217 -3.625 000 -1 .210 -.361[result = 2.00]Ob[graup = 1.00] 安 [result = 1.00] 2.095 349 6.008 000 1.412 2.779[group = 1.00] * [result = 2.00][group = 2.00] * [result = 1.00][group = 2.00] * [result = 2.00]ObObOba. Constar>ts are not parameters under the multinomial assumption. Therefore , their standard errors are not calculatedb. This parameter is set to zero because it is redundantc Model: Multin 口 miald. Design: Constant + 自 ro 吐 p + result + 臼 roup 士 result表 17.8的 输 出 内 容 为 对 数 线 性 模 型 的 关 键 结 果 , 即 模 型 中 各 参 数 的 估 计 值 、 标 准 误 、 服 从 标准 正 态 分 布 的 Z 值 及 回 归 系 数 95% 的 可 信 区 间 。 模 型 共 有 9个 参 数 , 但 真 正 进 入 模 型 的 参 数 只有 4 个 。 由 表 17.8 中 的 结 果 可 见 , 参 数 1 为 常 数 项 , 参 数 2 为 变 量 type 的 主 效 应 项 , 参 数 4 为 变量 result 的 主 效 应 项 , 参 数 6 为 type 和 result 的 交 互 作 用 项 。 SPSS 11 及 以 前 版 本 中 对 于 General对 数 线 性 回 归 模 型 没 有 输 出 回 归 系 数 的 检 验 结 果 , 但 是 根 据 Z 值 或 回 归 系 数 95% 可 信 区 间 同 样可 以 很 容 易 地 做 出 判 断 。 若 Z 值 大 于 1.96 , 或 者 回 归 系 数 的 可 信 区 间 不 包 含 0 , 说 明 回 归 系 数 所对 应 的 效 应 项 有 统 计 意 义 , 反 之 则 没 有 统 计 意 义 。根 据 研 究 目 的 , 这 里 关 心 的 是 参 数 6 的 估 计 值 及 假 设 检 验 结 果 , 即 两 个 因 素 的 交 互 作 用 是 否有 意 义 。 其 参 数 估 计 值 为 2. 095 ,p


作 用 , 即 不 同 胃 溃 荡 类 型 有 不 同 的 治 疗 率 , 结 合 具 体 资 料 可 以 看 出 , 一 般 类 型 胃 溃 病 治 愈 率 高 于特 殊 类 型 。那 么 , 以 上 参 数 估 计 值 究 竟 都 是 什 么 意 思 呢 ? 常 数 项 实 际 上 就 是 group 、 result 取 值 均 为 2 时的 单 元 格 频 数 自 然 对 数 值 , 即 ln 68 = 4. 14; 而 交 互 项 的 参 数 估 计 值 实 际 上 就 是 疗 法 变 量 。R 的 自然 对 数 值 , 即 OR group = exp (2. 095) = 8. 1250 感 兴 趣 的 朋 友 可 以 对 照 模 型 结 构 进 行 推 导 , 会 发 现的 确 应 当 如 此 。表 17.9Correlations of Parameter Estimates a,b,c[group = 1.00][result = 1.00][group = 1.00] * [resul! = 1.00][group == 1.00] [result == 1.00] [group = 才 00] 叮 result = 1.00]mb7町 门4 u7'『f250 -.777-.621-.621a. Model: Multinomialb. Design: C 口 nstant + grou 口 + result + group 去 resullc. Constants and redundant paramelers are not displayed表 17.10Covariances of Parameter Estimates a,b,c[group == 1.00] [result == 1.00] [group = 1.00] 寸 result = 1.00][group = 1.00] 074 .015 -.074[result = 1.00] 015 .047 -.047[group = 1.00] * [resul! = 1.00] -.074 -047 122a. Model: Multinomialb Design: Constant + grou 口 + result + group 去 resullc. Constants and redundant paramelers are not displayed表 17.9 和 表 17.10 输 出 的 分 别 是 4 个 系 数 的 协 方 差 矩 阵 和 相 关 系 数 矩 阵 。 作 为 参 照 水 平的 参 数 ( 都 赋 值 为 0) 没 有 列 出 。再 次 提 醒 : 由 于 拟 合 的 是 饱 和 模 型 , 故 所 有 的 残 差 均 为 0 , 因 此 没 有 输 出 与 残 差 有 关 的 图 形 。17.2.3 对 引 例 的 进 一 步 分 析以 上 利 用 Options 子 对 话 杠 的 Estimates 选 项 给 出 了 每 项 的 估 计 值 和 可 信 区 间 , 从 而 对 变 量type 和 result 的 交 互 作 用 进 行 检 验 。 但 对 于 这 个 问 题 可 以 采 用 一 种 更 简 单 的 做 法 : 二 维 列 联 表的 饱 和 模 型 中 包 含 了 该 交 互 项 , 在 饱 和 模 型 中 将 该 项 去 掉 , 检 验 此 简 约 模 型 与 饱 和 模 型 的 拟 合 优度 有 无 统 计 学 差 异 , 如 果 无 差 异 , 则 说 明 该 交 互 作 用 实 际 上 不 存 在 。 为 此 , 只 需 在 Model子 对 话杠 中 选 择 type 和 result 两 个 因 素 的 主 效 应 (Main Effect) , 而 不 包 含 任 何 交 互 作 用 。 则 系 统 给 出 的相 应 结 果 参 见 表 17.11表 17.11 下 方 的 脚 注 指 出 当 前 模 型 为 不 含 交 互 作 用 项 的 不 饱 和 模 型 。 从 模 型 的 拟 和 优 度 检验 可 见 , 无 论 是 似 然 比 x2 还 是 普 通 的 Pearson X 2 , p { 直 都 是 小 于 0.05 的 , 从 饱 和 模 型 中 去 除 交 互项 后 所 用 的 这 个 模 型 在 拟 合 优 度 上 和 原 饱 和 模 型 有 统 计 学 差 异 , 即 被 去 除 的 交 互 项 实 际 上 是 存• 347 •


表 17.11Goodness-of-Fit Tests a,bLi kelihood RatioPearson Chi-SquareValue41.86039.927dfa. Model. Multinomialb. Design: Constant + grou 口 + result在 的 。 也 就 是 两 变 量 间 有 关 系 , 即 不 同 类 型 胃 溃 病 病 人 的 治 愈 率 不 同 。 这 与 饱 和 模 型 的 分 析 结果 是 完 全 一 致 的 。细 心 的 朋 友 可 能 己 经 发 现 了 , 上 面 两 个 拟 和 优 度 扩 值和 用 Crosstabs 过 程 的 分 析 结 果 完 全 一 样 , 可 见 两 种 分 析 方法 在 低 维 列 联 表 中 完 全 等 价 。图 17.2 为 4 个 单 元 格 的 观 察 频 数 、 期 望 频 数 和 校 正 残差 的 散 点 图 矩 阵 。 上 排 中 间 的 格 子 是 指 以 期 望 频 数 横 坐标 、 实 际 频 数 为 纵 坐 标 的 散 点 图 ; 第 二 排 左 边 的 散 点 图 是以 期 望 频 数 为 横 坐 标 、 期 望 频 数 为 纵 坐 标 。 如 果 把 这 两 个图 作 一 定 的 旋 转 , 就 会 发 现 它 们 是 完 全 一 样 的 。 从 观 察 频数 和 校 正 残 差 的 散 点 图 可 看 出 , 4 个 散 点 明 显 存 在 着 一 定的 趋 势 , 这 说 明 残 差 不 服 从 正 态 分 布 , 所 拟 合 的 模 型 尚 不能 完 全 解 释 4 个 格 子 频 数 的 分 布 规 律 , 可 能 还 有 有 意 义 的变 量 未 被 纳 入 ( 实 际 上 就 是 交 互 项 未 被 纳 入 )。图 17.3 是 校 正 残 差 的 正 态 Q-Q 图 和 去 势 正 态 Q-Q图 , 可 见 虽 然 只 有 4 个 格 子 的 残 差 , 但 明 显 存 在 着 一 定 趋势 , 结 论 和 前 面 相 同 。图 17.2散 点 图 矩 阵Normal Q-Q Plot of Adjusted ResidualsDetr 巳 nded Normal Q-Q Plot of Adjusted Residualsv 1.0=自主 0.5自E去 。。气 王UE-050..刊同 1. 0oO一 7.5 -5.0 -2.5 0.0 2.5 5.0Adjust 巳 d ResidualsAnalysis weighted by counto 0.6z E C 040.2在 日 0.0口号 0.2A-040.6oo-7.5 -5.0 -2.5 0.0 2.5 5.0Adjusted ResidualsAnalysis weighted by countoO图 17.3校 正 残 差 的 正 态 。 -Q 图 和 去 势 正 态 。 -Q 图• 348 •


17.3 因 果 关 系 明 确 时 的 对 数 线 性 模 型如 前 所 述 , 一 般 线 性 模 型 己 经 可 以 完 成 许 多 分 析 了 , 它 的 特 色 是 对 所 有 的 变 量 不 分 因 变 量 和自 变 量 , 一 视 同 仁 的 分 析 。 但 有 的 时 候 , 研 究 人 员 对 研 究 变 量 间 的 因 果 关 系 己 经 了 解 , 研 究 目 的是 分 析 自 变 量 与 因 变 量 之 间 的 关 系 , 此 时 用 一 般 对 数 线 性 模 型 就 无 法 利 用 该 信 息 。在 这 种 情 况 下 , 可 以 用 Logit 过 程 提 供 的 Logit 模 型 来 分 析 。 该 模 型 明 确 分 出 因 变 量 和 自 变量 , 分 析 因 变 量 和 自 变 量 之 间 的 因 果 关 系 。 模 型 中 将 自 动 引 入 自 变 量 与 因 变 量 的 交 互 项 。 在 拟合 结 果 上 , Logit 模 型 实 际 上 和 我 们 熟 悉 的 Logistic 模 型 等 价 。例 17.3 要 研 究 两 种 手 术 后 并 发 症 的 严 重 程 度 与 手 术 类 型 是 否 有 关 , 在 甲 乙 两 个 医 院 各 观察 70 、 54 例 子 术 病 人 , 结 果 参 见 表 17.12表 17.12手 术 后 井 发 症 与 手 术 类 型 的 关 系术 后 并 发 症无有甲 医 院手 术 l手 术 22320918乙 医 院手 术 l手 术 21813815本 研 究 分 析 不 同 手 术 类 型 和 不 同 医 院 对 书 后 并 发 症 的 影 响 , 显 然 是 否 出 现 术 后 并 发 症 是 因变 量 , 手 术 类 型 和 医 院 是 自 变 量 。 这 一 问 题 可 以 用 Logistic回 归 来 解 决 , 也 可 以 用 对 数 线 性 模 型来 解 决 , 二 者 是 等 价 的 。1. 操 作 说 明数 据 见 loglinear3. sav , 首 先 应 当 使 用 Weight Cases 过 程 将 count 指 定 为 频 数 变 量 , 随 后 的 操作 如 下 :Analyze-• Loglinear-• LogitDependent 杠 : effectFactors 杠 : hospital 、 trt画 dell: Model 杠 :h 叫 M 、 trt: ~ 画 画匾 画 画 : 即 Estimates:囚~ 亟 画Logit 过 程 的 主 对 话 杠 如 图 17.4 所 示 , 该 对 话 杠 和 General 过 程 没 有 太 大 区 别 , 只 是 最 土 方多 出 来 了 Dependent 框 , 用 于 选 入 因 变 量 。 其 余 的 子 对 话 框 , 这 里 不 再 重 复 。2. 结 果 解 释由 于 模 型 的 输 出 结 果 非 常 多 , 这 里 截 录 主 要 部 分 解 释 如 下 :• 349 •


图 17.4 Logit 过 程 的 主 对 话 框表 17.13Convergence Information a,bMaximum Number of IterationsConverge TolerenceFinal Maximum Absolute Differe 门 ceFinal Maximum Relalive DifferenceNumber of Iterations2000100.00062 c000993a. Model: Mullinomlal Logilb. Design: C 口 nslanl + effecl + effect 去 h 口 s 口 ital + effecl 女 trtc. The iteration c 口 nverged because the maximum absolute changes of阳 rameter eslimates is less than the s 口 ecified convergence criterion表 17.13 为 模 型 拟 合 的 基 本 信 息 , 同 时 给 出 了 所 用 模 型 的 基 本 概 况 , 与 General 过 程 有 所 不同 的 是 , 该 过 程 采 用 的 是 Logit 连 接 函 数 , 假 设 单 元 格 内 频 数 服 从 多 项 式 分 布 。 模 型 中 包 含 了 常数 项 ( 注 : 自 变 量 的 任 意 组 合 都 有 一 个 独 立 的 常 数 项 ) , 因 变 量 effect 的 主 效 应 , effect 与 hospital ,effect 与 trt 的 交 互 作 用 项 , 模 型 会 自 动 纳 入 这 些 交 互 项 , 即 因 变 量 与 所 有 Model 子 对 话 杠 中 设 置的 因 子 的 交 互 项 都 会 被 纳 入 分 析 。表 17. 14Analysis of Dispersion a,bEnlropy Concentration dfModel 2.916 2.769 2 表 17.15 Measure of Association a,bResidual 80.697 56.909 121Tolal 83.6 才 3 59.677 123a. Model: Mullinomial L 口 gllb. Design: Conslanl + effe c1 + effe c1 告 hospilal + effecl * lrlEnlropy .035Concentration .046a Model: Multi 内 omial Logitb. Design: Conslant + effecl + effecl 去 hospital + effecl 去 lrt• 350 •


表 17.14 和 表 17.15 两 个 表 格 是 SPSS 12 中 新 增 的 输 出 , 用 于 给 出 反 应 模 型 的 解 释 度 , 它 类似 于 回 归 模 型 中 的 决 定 系 数 , 具 体 以 俯 CEntropy) 或 集 中 度 化 。 时 时 ltration) 来 计 算 。 以 ; 恼 为 例 , 可见 数 据 的 总 恼 为 83.613 , 其 中 被 模 型 解 释 掉 了 2.916 , 因 此 通 过 恼 测 得 的 模 型 解 释 度 为 2. 916/83.613 =0.0 元 。 但 是 , 由 于 这 里 拟 合 的 是 分 类 数 据 的 模 型 , 因 此 解 释 度 指 标 只 是 近 似 的 反 映 了模 型 的 效 果 , 就 如 同 Logistic 模 型 中 的 伪 决 定 系 数 一 样 。表 17.16Goodness-of-Fit Tests a,bLikelihood RatioPearson Chi-SquareValue025.025dfa. M 口 del: Multinomial L 口 gitb. Design: C 口 nstant + effect + e 忏 'e ct * h 口 spital + effect * trt表 17.16为 模 型 的 拟 合 优 度 检 验 , 可 见 该 不 饱 和 模 型 的 拟 合 优 度 与 含 所 有 交 互 项 的 饱 和 模型 相 比 并 无 统 计 学 差 异 , 也 就 是 说 , 用 此 模 型 己 经 可 以 充 分 反 映 三 个 变 量 间 的 关 系 了 。表 17.17Parameter Estimates c,d- ConstantParameter[hospital = 1] * [trt = 1]Estimate2174 aSld. ErrorZSig[hospital = 1] * [trl = 2]2.902 a[hospital = 2] * [lrI = 1] 2.105 8[hospital = 2] * [trt = 2] 2.694 8[effect = 0]-.113.329 -.345.730[effect = 才 ]Ob[effect = 0] * [hospilal = 1]197378 .521.602[effect = 0] 去 [hospilal = 2]Ob[effect = 才 ] * [hospilal = 1]Ob[effect = 才 ] * [hospilal = 2]Ob[effect = 0] * [1 叶 = 1]887380 2.335.020[effecl = 0] 去 [1 内 = 2]Ob[effect = 才 ] * [t 内 = 1]Ob[effect = 才 ] * [t 内 = 2]Oba Constants are not paramelers under the multinomial assumplion. Therefore. lheir slandard errors are nol calculaledb. Thls 口 arameter is set to zero because it IS redundantc. Model: Multinomial Logitd Desig 叫 Consta 叫 1 + effect + effecl 安 hospilal + effecl 告 lrt表 17.17 为 模 型 中 所 有 参 数 的 估 计 值 , 对 于 自 变 量 的 任 意 组 合 分 别 估 计 了 常 数 项 。 其 余 的11 个 系 数 中 三 个 有 效 参 数 均 给 出 了 标 准 误 、 Z{ 直 以 及 参 数 95% 可 信 区 间 , 从 可 信 区 间 可 见 第 11个 参 数 有 统 计 学 意 义 的 , 可 以 这 样 理 解 , 在 控 制 了 hospital 这 一 变 量 的 混 杂 作 用 后 , 因 变 量 effect与 自 变 量 trt 之 间 存 在 交 互 作 用 , 结 合 具 体 数 据 可 知 , 手 术 1 的 术 后 并 发 症 发 生 率 低 于 手 术 2 。 两• 351 •


所 不 同 医 院 之 间 , 术 后 并 发 症 发 生 情 况 无 明 显 差 别 。感 兴 趣 的 读 者 可 以 用 Logistic 回 归 对 该 资 料 进 行 分 析 , 结 果 应 当 完 全 相 同 。17.4 对 数 线 性 模 型 的 选 择以 上 己 经 提 到 , 对 数 线 性 模 型 有 饱 和 模 型 和 不 饱 和 模 型 之 分 。 饱 和 模 型 的 拟 和 结 果 必 定 是好 的 。 拟 和 饱 和 模 型 必 走 得 到 实 际 频 数 完 全 等 于 理 论 频 数 , 拟 和 优 度 扩 值 等 于 O 的 结 果 。 与 二维 列 联 表 资 料 相 应 的 主 要 的 不 饱 和 对 数 线 性 模 型 只 有 4 个 , 与 三 维 列 联 表 资 料 相 对 应 的 主 要 的不 饱 和 对 数 线 性 模 型 有 18 个 , 与 四 维 列 联 表 资 料 相 对 应 的 主 要 的 不 饱 和 对 数 线 性 模 型 将 有 100多 个 。 随 着 列 联 表 维 数 的 增 加 , 相 应 的 不 饱 和 模 型 个 数 急 剧 增 加 , 故 如 何 选 择 适 当 的 模 型 是 使 用该 法 的 关 键 问 题 。17.4.1 模 型 的 选 择 策 略对 数 线 性 模 型 分 析 过 程 主 要 是 寻 找 符 合 实 测 样 本 资 料 的 适 当 的 模 型 的 过 程 。 所 谓 " 适 当 "不 仅 是 指 模 型 成 立 , 且 要 求 模 型 尽 量 简 单 , 不 含 无 意 义 的 高 阶 交 互 作 用 。 具 体 来 说 可 用 的 选 择 策略 有 :(1) 建 立 饱 和 模 型 , 然 后 检 查 每 个 系 数 的 统 计 量 或 可 信 区 间 , 消 去 无 意 义 的 效 应 。(2) 自 后 淘 汰 法 : 一 开 始 就 把 所 有 效 应 一 起 包 含 到 模 型 中 , 逐 步 从 检 验 概 率 大 于 标 准 值 的 效应 中 , 淘 汰 拟 合 优 度 变 化 最 小 的 效 应 。(3) 逐 一 加 入 法 : 有 系 统 地 检 查 每 次 项 的 效 应 对 模 型 的 " 贡 献 "。 比 如 , 先 建 立 二 次 项 交 互效 应 模 型 , 然 后 建 立 只 有 主 效 应 的 模 型 , 这 两 种 模 型 似 然 值 之 差 , 就 是 交 互 效 应 对 模 型 的 贡 献 , 通过 检 验 拟 合 优 度 有 无 差 异 , 就 可 以 得 知 交 互 效 应 能 否 去 除 。无 论 采 用 以 上 哪 种 策 略 , 对 数 线 性 模 型 的 约 束 条 件 都 是 相 同 的 : 对 任 何 一 个 脚 标 求 和 , 其 值为 0; 一 且 一 个 低 阶 的 交 互 效 应 为 0 , 则 相 应 的 其 他 高 阶 交 互 效 应 全 部 为 0 , 换 言 之 , 当 模 型 中 高阶 交 互 作 用 有 统 计 学 意 义 时 , 即 使 低 阶 的 各 项 无 统 计 学 作 用 , 也 应 将 其 保 留 在 模 型 中 。SPSS 中 的 Loglinear→ Model Selection 过 程 可 以 进 行 对 数 线 性 模 型 的 选 择 。 该 过 程 从 饱 和 模型 入 手 , 从 高 阶 交 互 项 开 始 逐 步 排 除 无 意 义 的 参 数 , 直 到 最 终 形 成 一 个 最 佳 的 简 约 模 型 。 但 是 分层 模 型 只 提 供 饱 和 模 型 的 参 数 估 计 、 不 能 输 出 简 略 模 型 的 参 数 估 计 , 在 用 它 得 到 最 佳 简 约 模 型后 , 还 应 当 采 用 一 般 模 型 来 得 到 具 体 的 参 数 估 计 和 检 验 结 果 。 对 广 大 用 户 来 说 , 该 过 程 的 应 用 价值 是 最 高 的 , 因 为 它 可 以 进 行 自 动 筛 选 , 类 似 于 多 元 回 归 中 的 逐 步 回 归 , 这 在 三 维 以 上 列 联 表 进行 联 合 分 析 时 可 以 大 大 降 低 我 们 的 工 作 量 。17.4.2 分 析 实 例例 17.4 某 医 师 研 究 工 作 姿 势 (B) 与 子 宫 后 倾 (C) 有 无 关 系 , 随 机 抽 查 370 名 劳 动 强 度 及年 龄 相 仿 的 女 职 工 的 工 作 姿 势 与 子 宫 后 倾 情 况 , 结 果 见 下 表 , 数 据 见 loglinear4.析 ({ 固 定 在 可 比 性 方 面 无 问 题 )。sav , 请 作 统 计 分• 352 •


表 17.18抽 查 人 员 的 工 作 姿 势 与 子 宫 后 倾 情 况子 宫 后 倾 否 有 生 育 史 A) 无 生 育 史 A 2C 立 姿 B) 坐 姿 B 2 合 计 立 姿 B) 坐 姿 B 2 合 计后 倾 C) 64 36 100 18 4 22不 后 倾 C 2 88 130 109 10 20 30合 计 152 166 318 28 24 52本 例 是 由 三 个 分 类 变 量 (A 、 B 、 C) 构 成 的 三 维 列 联 表 。 研 究 者 主 要 关 心 B 与 C 是 否 有 关 , A是 混 杂 因 素 , 可 考 虑 用 Logistic 回 归 , 也 可 用 对 数 线 性 模 型 , 现 借 助 对 数 线 性 模 型 作 分 析 。1. 操 作 说 明首 先 使 用 Weight Cases 过 程 将 变 量 count 指 定 为 频 数 变 量 , 随 后 的 操 作 如 下 :Analyze• Loglinear• Model SelectionFactors杠 : a 、 b 、 c同 时 选 中 川 、 c: 1Define Range1: Minimu 日 1 杠 : 1: Maximum 杠 :2: [Ç2 画 画 :囚将 三 个 变 量 α 、 b 、 c 选 入 Factor 框 , 定 义 取 值 范 围 。 Model Building 杠 可 用 于 设 置 模 型 拟 合 的一 些 参 数 , 默 认 为 向 后 剔 除 法 , 如 图 17.5所 示 , 可 更 改 为 进 入 法 。 注 意 此 处 的 剔 除 规 则 和 多 元 回归 不 同 , 是 当 所 有 的 K + 1阶 交 互 项 均 无 统 计 意 义 , 全 部 己 被 剔 除 出 模 型 后 才 考 虑 是 否 剔 除 K 阶交 互 项 。 Model 子 对 话 杠 和 前 面 一 模 一 样 , 使 用 默 认 值 即 可 。图 17.5分 层 对 数 线 性 模 型 主 对 话 框2. 输 出 结 果 解 释输 出 标 题 为 "HiLog" , 实 际 上 就 是 分 层 对 数 线 性 模 型 的 缩 写 。 由 于 模 型 筛 选 的 输 出 较 多 , 因此 SPSS 在 这 里 使 用 文 本 方 式 给 出 结 果 , 这 里 只 列 出 较 重 要 的 输 出 部 分 。下 面 方 杠 中 的 文 本 列 出 了 初 始 模 型 的 一 些 信 息 , 由 于 采 用 的 是 饱 和 模 型 , 一 开 始 模 型 中 最 高• 353 •


阶 交 互 项 为 AxBxC , 下 方 的 提 示 说 明 在 饱 和 模 型 中 采 用 的 8 校 正 值 为 0.5 , 该 数 值 可 在 对 话 杠中 更 改 。* * * * * * * * HIERARCHICAL LOG LINEAR * * * * * * * *DESIGN 1 has generating classa*b*cN ote: F or saturated models. 500 has been added to all observed cells.This value may be changed by using the CRITERIA = DELTA subcommand.下 面 方 杠 中 的 文 本 是 初 始 模 型 的 拟 合 优 度 检 验 , 由 于 是 饱 和 模 型 , 所 以 扩 值 和 自 由 度 均 为 0 。Goodness - of 一 自 ttest statisticsLikelihood ratio chi square =Pearson chi square.00000.00000DF = 0 P =DF = 0 P =以 下 方 杠 中 的 文 本 是 检 验 模 型 中 K 维 交 互 作 用 及 K 维 以 上 交 互 作 用 是 否 有 统 计 学 意 义 , 方法 为 似 然 比 矿 和 Pearson x2 , 可 见 无 论 哪 种 检 验 均 显 示 三 维 交 互 作 用 无 统 计 学 意 义 , 二 维 交 互 和一 维 交 互 以 上 ( 即 主 效 应 ) 均 有 统 计 学 意 义 。* * * * * * * * HIERARCHICAL LOG LINEAR * * * * * * * *Tests that K - way and higher order effects are zero.K DF L. R. Chisq Prob Pearson Chisq Prob Iteration3 3.200 .0737 3.020 .0823 32 4 31. 160 .0000 32.360 .0000 27 287.740 .0000 297.589 .0000 O• 354 •


以 下 方 杠 中 的 文 本 是 检 验 模 型 中 K 维 交 互 作 用 自 身 是 否 有 统 计 学 意 义 , 方 法 为 似 然 比 矿 和pearsont , 可 见 结 论 和 上 面 相 同 。Tests that K - way effects are zero.K DF L. R. Chisq Prob Pearson Chisq Prob Iteration1 3 256.580.0000 265.229.0000 02 3 27.961.0000 29.340.0000 03 1 3.200.0737 3.020.0823 0以 下 方 杠 中 的 文 本 正 式 开 始 了 分 析 ( 第 O是 显 示 最 高 阶 交 互 作 用 ) , 和 上 面 的 分 析 结 果 一 样 , 扩 值 为 0 。步 ) , 首 先 是 初 始 模 型 的 拟 合 优 度 检 验 ( 表 示 方 法* * * * * * * * HIERARCHICAL LOG LINEAR * * * * * * * *Backward Elimination (p = .050) for DESIGN 1 with generating classa*b*cLikelihood ratio chi square =AV AV AV AV nυDF = 0 P =以 下 方 杠 中 的 文 本 为 如 果 删 除 模 型 中 最 高 阶 交 互 作 用 后 拟 合 优 度 的 改 变 有 无 统 计 学 意 义 ,可 见 P 值 为 0.0737 , 显 然 删 除 三 阶 交 互 作 用 对 模 型 无 影 响 。If Deleted Simple Effect is DF L. R. Chisq Change Prob Itera*b*c 3.200 .0737 3下 面 方 杠 中 的 文 本 开 始 拟 合 第 一 步 , 显 示 出 当 前 模 型 中 的 最 高 阶 交 互 项 , 为 三 个 二 阶 交 互项 。 下 方 的 检 验 为 当 前 模 型 拟 合 优 度 与 饱 和 模 型 相 比 的 检 验 , 可 见 无 统 计 学 差 异 。• 355 •


Step 1The best model has generating classa*ba*cb*cLikelihood ratio chi square = 3. 19956 DF = 1 P = .074下 面 方 杠 中 的 文 本 显 示 如 果 将 这 几 个 最 高 阶 交 互 项 从 模 型 中 删 除 , 则 拟 合 优 度 的 改 变 有 无统 计 学 意 义 , 可 见 αxb 、 αXc 所 对 应 的 p{ 直 均 大 于 0.05 , 而 bxc 所 对 应 的 p{ 直 小 于 0.05 , 可 见前 两 个 二 阶 交 互 作 用 可 以 删 除 , 而 b 与 c 的 交 互 作 用 不 能 删 除 。If Deleted Simple Effect is DF L. R. Chisq Change Prob Itera*ba*cEb*C咽EAtEAtEA.1791.83324.999.6718.1757.0000?-7-q』第 二 步 , 下 面 方 杠 中 的 文 本 显 示 出 当 前 模 型 中 的 最 高 阶 交 互 项 , 为 两 个 二 阶 交 互 项 。 下 方 的检 验 为 当 前 模 型 拟 合 优 度 与 饱 和 模 型 相 比 的 检 验 , 可 见 无 统 计 学 差 异 。Step 2The best model has generating classa*cEbρluLikelihood ratio chi square = 3.37903 DF = 2 P = .185如 果 删 除 当 前 模 型 中 最 高 阶 交 互 作 用 后 拟 合 优 度 的 改 变 有 无 统 计 学 意 义 , 可 见 α 与 c 的 交互 作 用 项 对 应 的 p{ 直 为 0.1287 , 如 下 面 方 杠 的 文 本 所 示 , 删 除 该 交 互 作 用 对 模 型 无 影 响 。 而 b与 c 的 交 互 作 用 项 对 应 的 P 值 为 0.000 , 删 除 该 交 互 作 用 对 模 型 有 影 响 。• 356 •


If Deleted Simple Effect is DF L. R. Chisq Change Prob Itera*c 1Eb *C812.308 .1287 225.473 .0000 2第 二 步 , 下 面 方 杠 中 的 文 本 显 示 出 当 前 模 型 中 的 最 高 阶 交 互 项 , 为 一 个 二 阶 交 互 项 和 一 个 主效 应 项 。 下 方 的 检 验 为 当 前 模 型 拟 合 优 度 与 饱 和 模 型 相 比 的 检 验 , 可 见 无 统 计 学 差 异 。* * * * * * * * HIERARCHICAL LOG LINEAR * * * * * * * *Step 3The best model has generating classaEbρluLikelihood ratio chi square = 5.68704 DF = 3 P = .128如 果 删 除 当 前 模 型 中 最 高 阶 交 互 作 用 后 拟 合 优 度 的 改 变 有 无 统 计 学 意 义 , 可 见 b 与 c 的 交互 作 用 项 以 及 α 的 主 效 应 所 对 应 的 p{ 直 均 小 于 0.05 , 都 不 能 删 除 , 参 见 下 列 方 杠 。If Deleted Simple Effect is DF L. R. Chisq Change Prob IterEb *aC1 25.473 .0000 21 212. 531 . 0000 2下 列 方 杠 中 的 文 本 为 根 据 第 二 步 分 析 结 果 继 续 进 行 的 第 4步 分 析 , 由 于 上 一 步 没 有 删 除 任何 交 互 项 , 所 以 输 出 内 容 和 第 二 步 相 同 , 模 型 筛 选 在 这 里 就 结 束 了 。• 357 •


Step 4The best model has generating classaEbρluLikelihood ratio chi square = 5.68704 DF = 3 P = .128下 列 方 杠 中 的 文 本 给 出 了 最 终 模 型 的 信 息 , 同 样 是 用 列 出 模 型 中 具 体 系 数 的 方 式 来 表 示 的 。* * * * * * * * HIERARCHICAL LOG LINEAR * * * * * * * *The final model has generating classEb *aρluThe Iterative Proportional Fit algorithm converged at iteration O.The maximum difference between observed and fitted marginal totals is . 000and the convergence criterion is . 250下 列 方 杠 中 的 文 本 是 最 终 模 型 的 拟 合 优 度 检 验 , 可 见 模 型 拟 合 良 好 。 现 在 己 经 得 到 了 最 佳简 略 模 型 , 但 上 面 的 分 析 中 并 未 给 出 各 项 的 系 数 , 以 及 各 项 的 详 细 检 验 结 果 , 可 以 继 续 用 General过 程 或 Logit 过 程 未 完 成 这 些 工 作 。 显 然 , 在 高 维 列 联 表 的 分 析 中 , 先 采 用 Model Selection 过 程进 行 自 动 筛 选 的 确 可 以 大 大 减 少 我 们 的 工 作 量 。Goodness-of-fit test statisticsLikelihood ratio chi square =Pearson chi square5.687046.04514DF = 3 P = .128DF = 3 P = .109• 358 •


17.5 对 数 线 性 模 型 与 其 他 模 型 的 关 系17.5.1 对 数 线 性 模 型 与 方 差 分 析 模 型 的 关 系对 数 线 性 模 型 的 构 造 类 似 于 方 差 分 析 模 型 , 其 作 用 也 与 方 差 分 析 类 似 , 它 能 分 析 各 变 量 的 主效 应 及 变 量 间 的 交 互 效 应 。但 是 , 对 数 线 性 模 型 与 方 差 分 析 也 有 着 明 显 的 差 别 : 首 先 , 方 差 分 析 的 因 变 量 是 连 续 性 变 量 ,对 其 分 布 有 特 定 的 要 求 ( 正 态 性 、 方 差 齐 性 等 ) , 研 究 分 析 不 同 因 素 对 该 连 续 性 变 量 的 影 响 , 而 对数 线 性 模 型 主 要 研 究 多 个 分 类 变 量 间 的 统 计 独 立 与 依 赖 性 , 一 般 的 对 数 线 性 模 型 的 特 色 是 对 所有 的 变 量 不 分 因 变 量 和 自 变 量 , 一 视 同 仁 的 分 析 , 模 型 中 分 析 的 各 因 素 对 单 元 格 频 数 的 影 响 , 通常 假 设 单 元 格 频 数 服 从 多 项 式 分 布 。 其 次 , 方 差 分 析 中 , 各 因 素 对 因 变 量 的 作 用 是 相 加 的 作 用 ,而 对 数 线 性 模 型 中 各 因 素 对 单 元 格 频 数 的 作 用 则 是 相 乘 的 作 用 。17.5.2 对 数 线 性 模 型 与 Logistic 回 归 的 关 系本 章 所 引 用 的 例 子 除 了 用 对 数 线 性 模 型 进 行 分 析 外 , 大 多 数 都 可 以 用 Logistic 回 归 进 行 统 计分 析 。 由 于 对 数 线 性 模 型 主 要 研 究 多 个 分 类 变 量 间 的 统 计 独 立 与 依 赖 性 , 而 Logistic 回 归 的 因 变量 也 是 分 类 变 量 , 研 究 多 个 自 变 量 与 分 类 因 变 量 之 间 的 关 系 。 因 此 对 数 线 性 模 型 与 Logistic 回 归两 种 方 法 之 间 存 在 着 非 常 密 切 的 联 系 , 只 需 要 在 对 数 线 性 模 型 中 将 单 元 格 频 数 的 理 论 分 布 改 为Logit , 则 对 数 线 性 模 型 的 Logit 过 程 和 Logistic 回 归 的 结 果 就 是 完 全 等 价 的 , 事 实 上 因 果 关 系 明 确的 Logit 对 数 线 性 模 型 就 是 这 样 。当 多 个 分 类 变 量 之 间 分 不 出 哪 个 是 原 因 那 个 是 结 果 , 或 者 说 , 研 究 者 对 变 量 之 间 的 因 果 关 系 并 不感 兴 趣 , 仅 仅 要 分 析 变 量 之 间 的 相 互 关 系 , 此 时 就 只 能 用 对 数 线 性 模 型 , 而 较 少 用 Lo gistic 回 归 了 。但 是 , 读 者 或 许 也 有 这 种 感 觉 , 对 数 线 性 模 型 的 应 用 远 远 不 如 Logistic 回 归 那 样 普 遍 。 其 主要 原 因 在 于 , 当 考 虑 的 变 量 太 多 的 时 候 , 对 数 线 性 模 型 过 于 复 杂 。 本 章 举 的 例 子 最 多 只 有 三 个 因素 ( 三 维 列 联 表 ) , 此 时 需 考 虑 的 不 饱 和 模 型 就 有 18 个 , 若 考 虑 的 因 素 更 多 , 模 型 也 将 更 加 复 杂 。尽 管 SPSS 软 件 提 供 了 Model Selection 过 程 有 助 于 进 行 模 型 的 选 择 , 但 是 模 型 的 复 杂 性 大 大 限 制了 对 数 线 性 模 型 的 应 用 和 推 广 。17. 6 Poisson 同 归 模 型读 者 或 许 还 没 有 忘 记 , SPss 中 一 般 对 数 线 性 模 型 主 对 话 杠 右 下 侧 的 Distribution of CellCounts 单 选 杠 组 默 认 为 Poisson , 即 各 单 元 格 中 频 数 服 从 Poisson 分 布 。 在 土 文 所 讨 论 的 模 型 中 ,单 元 格 内 频 数 都 被 { 固 定 成 服 从 多 项 分 布 , 此 时 拟 合 的 是 标 准 的 对 数 线 性 模 型 。 但 是 如 果 将 频 数分 布 设 定 为 Poisson 分 布 , 此 时 拟 合 的 又 是 什 么 模 型 呢 ?17.6.1 模 型 简 介在 现 实 生 活 中 , 有 许 多 事 件 的 发 生 计 数 服 从 Poisson分 布 , 如 单 位 容 积 水 中 的 细 菌 数 , 野 外 单• 359 •


位 面 积 内 的 某 种 昆 虫 数 , 放 射 性 物 质 在 单 位 时 间 内 的 放 射 次 数 , 单 位 面 积 上 降 落 的 灰 尘 颗 粒 数 等均 可 被 认 为 服 从 该 分 布 。 具 体 而 言 , 可 以 认 为 满 足 以 下 三 个 条 件 的 随 机 变 量 服 从 Poisson 分 布 : 平 稳 性 :X 的 取 值 与 观 察 单 位 的 位 置 无 关 , 只 与 观 察 单 位 的 大 小 有 关 。 独 立 性 : 在 某 个 观 察 单 位 上 X 的 取 值 与 前 面 各 观 察 单 位 上 X 的 取 值 独 立 ( 无 关 )。 普 通 性 : 在 充 分 小 的 观 察 单 位 上 X 的 取 值 最 多 为 10此 时 相 应 的 事 件 发 生 数 的 概 率 分 布 即 为 Poisson 分 布 :P(X=k) = 且 e 飞 它 常 用 于 描 述 单 位k!时 间 、 单 位 面 积 、 单 位 空 间 内 某 事 件 发 生 数 的 规 律 。 在 拟 合 对 数 线 性 模 型 时 , 如 果 假 设 单 元 格 频数 服 从 该 分 布 , 则 相 应 的 模 型 就 被 称 为 Poisson 对 数 线 性 模 型 。下 面 来 对 Poisson 对 数 线 性 模 型 的 本 质 作 进 一 步 的 深 入 分 析 , 以 有 两 个 自 变 量 的 情 况 为 例 ,设 每 个 单 元 格 ( 观 察 单 位 ) 内 事 件 的 发 生 数 为 λV , 则 此 时 建 立 的 模 型 为 :ln μ ij = ln λ ij α+β ]X] + β 2 X 2当 各 单 元 格 发 生 事 件 的 观 察 基 数 不 同 时 , 则 需 要 将 发 生 数 化 为 相 同 基 数 下 进 行 分 析 :ln (PJ=ln bdnq)=α+β ]X] + β2 引 07. 1)其 中 n ij 表 示 相 应 单 元 格 的 观 察 单 位 数 。 对 式 07. 1) 稍 加 变 形 , 则 有 :lnμ ij = ln n ij + α+β ]X] + β 2 X 2其 中 ln n ij 一 般 被 称 为 偏 移 量 (Offset) , 用 于 去 除 观 察 单 位 数 不 相 等 的 影 响 。 显 然 , 该 模 型 用于 描 述 服 从 Poisson分 布 的 事 件 发 生 数 与 各 影 响 因 素 间 的 关 系 , 由 于 其 结 构 和 回 归 模 型 非 常 相似 , 因 此 实 际 上 就 是 平 常 所 称 的 Poisson 回 归 模 型 。 也 就 是 说 , Poisson 对 数 线 性 模 型 和 Poisson 回归 模 型 是 完 全 等 价 的 。在 一 般 对 数 线 性 模 型 的 主 对 话 杠 中 , Cell Structure 杠 就 是 用 于 选 入 表 示 单 元 格 观 察 单 位 数 的 权 重变 量 的 , 从 而 可 以 对 模 型 中 的 偏 移 量 加 以 计 算 。 如 果 各 单 元 格 观 察 单 位 数 相 同 , 则 不 用 加 以 设 置 。17.6.2 分 析 实 例例 17.5 现 收 集 了 某 一 年 代 英 国 男 性 医 生 冠 心 病 死 亡 与 抽 烟 关 系 的 年 龄 分 组 数 据 。 请 推断 英 国 男 医 生 冠 心 病 死 亡 与 抽 烟 、 年 龄 是 否 有 关 ? 注 意 由 于 死 亡 与 追 踪 人 数 和 追 踪 时 间 均 有 关 ,故 对 人 数 进 行 了 校 正 , 实 际 上 是 用 经 过 校 正 的 观 察 人 数 作 为 观 察 单 位 。 数 据 见 p Ol sson. sav 。由 于 冠 心 病 并 非 传 染 病 , 且 在 人 群 中 的 病 死 率 较 低 , 因 此 可 以 认 为 死 亡 人 数 服 从 Poisson 分布 。 在 清 楚 了 模 型 的 基 本 结 构 后 , 本 例 的 操 作 就 不 再 困 难 了 , 唯 一 比 较 特 殊 的 是 由 于 各 年 龄 组 的观 察 人 数 不 同 , 需 要 在 Cell Structure 杠 中 加 以 设 定 。 在 将 死 亡 数 (died) 指 定 为 权 重 变 量 后 , 本 例的 操 作 如 下 :Analyze 一 今 Loglinear 一 今 GeneralFactors 杠 : 旧 noke 、 ageclsCell Str 时 ture 杠 : obsnum匹 ~: 必 Custom: 只 选 入 两 个 主 效 应 :~ntinuel匾 画 画 : 府 Estirr 耐 s I Delta 杠 :0: IContinuel囚• 360 •


本 例 的 主 要 分 析 结 果 参 见 表 17. 190表 17.19Goodness-of-Fit Tests a,bValuedfSig.Likelihood Ratio6.2743.099Pearson Chi-Square5.3363才 49a. Model Poissonb. Design: Constant + agecls + smoke由 模 型 的 拟 合 优 度 可 见 , 当 前 模 型 和 饱 和 模 型 相 比 没 有 统 计 学 差 异 , 说 明 不 需 要 再 纳 入 两 个变 量 的 交 互 项 了 。表 17.20Parameter Estimates b,c95% Confidence IntervalParameter Estimate Std. Error Z Sig Lower Bound Upper BoundConstant -4.197 .070 -60.145 .000 -4.334 -4.060[agecls = 1] -3.338 .185 -18.065 .000 -3.701 -2.976[agecls = 2] -1.863 .115 -16.158 000 -2.089 -1.637[agecls = 3] -.723 .095 -7.647 000 -.909 -.538[agecls = 4]oa[smoke = 0] -.500 .127 -3.929 000 -.750 -.251[smoke = 1]oaa. This parameter is set to zer 口 because it is redundantb. Model Poissonc Design: C 口 nstant + agecls + sm 口 ke表 17.20 给 出 了 模 型 的 参 数 估 计 值 , 由 于 Poisson 回 归 模 型 都 是 对 前 瞻 性 研 究 数 据 进 行 拟 合 ,因 此 可 以 通 过 对 事 件 发 生 率 ( 此 处 为 死 亡 率 ) 的 比 较 计 算 出 相 对 危 险 度 。 本 例 的 结 果 为 和 抽 烟 者 相比 , 不 抽 烟 者 的 死 亡 风 险 较 低 , 其 RR 为 exp (-0.5) =0.6060 而 随 着 年 龄 的 增 加 , 死 亡 的 风 险 也 在逐 渐 上 升 , 和 35 岁 组 ( 编 码 为 1) 相 比 , 65 岁 组 ( 编 码 为 4) 的 RR 值 为 exp (4. 197) = 66.490思 考 与 练 习1. 用 某 中 药 治 疗 慢 性 气 管 炎 , 治 疗 效 果 (X) , 是 否 吸 烟 (y) 、 病 程 长 短 (z) 三 个 分 类 变 量 对 应 的 频 数 资 料 见题 l 表 。 试 对 资 料 进 行 对 数 线 性 模 型 分 析 。题 1表治 疗 效 果是 否 吸 烟病 程 长 短 (z)(X)(y)三 三 5年6 -10 年 11 -20 年;::21 年显 效吸 烟不 吸 烟202916 1423 1656• 361 •


续 表治 疗 效 果(X)是 否 吸 烟(y)三 三 5年病 程 长 短 (z)6 -10 年 11 -20 年;::21 年无 效吸 烟不 吸 烟161014 2012 1412112. 为 研 究 家 族 糖 尿 病 史 与 孕 妇 娃 振 期 糖 尿 病 的 关 系 , 试 用 对 数 线 性 模 型 分 析 题 2 表 资 料 。题 2表孕 妇 娃 振 期 糖 尿 病孕 妇 的 母 亲 无 糖 尿 病孕 妇 的 父 亲孕 妇 的 母 亲 有 糖 尿 病孕 妇 的 父 亲无 糖 尿 病 有 糖 尿 病 无 糖 尿 病无 242 10 12有 142 16 24合 计 384 26 36有 糖 尿 病101525参 考 文 献l 曹 素 华 主 编 . 实 用 医 学 多 因 素 统 计 方 法 . 上 海 医 科 大 学 出 版 社 , 19982 方 积 乾 主 编 . 医 学 统 计 学 与 电 脑 试 验 . 第 二 版 . 上 海 : 上 海 科 学 技 术 出 版 社 , 20013 余 松 林 主 编 . 医 学 统 计 学 . 北 京 : 人 民 卫 生 出 版 社 , 20024 张 文 膨 主 编 . SPSS11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 北 京 希 望 电 子 出 版 社 , 2002• 362 •


第 18章 信 度 分 析在 各 种 调 查 研 究 中 , 对 调 查 问 卷 的 结 果 进 行 统 计 分 析 之 前 必 须 先 对 其 信 度 和 效 度 进 行 分 析 。只 有 信 度 和 效 度 在 研 究 范 围 内 可 以 接 受 时 , 问 卷 统 计 分 析 结 果 才 是 可 靠 和 准 确 的 。 所 以 进 行 信度 和 效 度 的 分 析 是 非 常 重 要 的 。 但 由 于 不 同 学 科 的 研 究 要 求 和 背 景 各 不 相 同 , 心 理 学 中 对 信 度 、效 度 的 要 求 是 最 突 出 的 , 而 在 心 理 学 的 需 求 背 景 下 发 展 出 来 的 一 系 列 测 量 理 论 也 最 为 完 整 。 本章 就 将 在 这 一 背 景 下 介 绍 SPSS 的 信 度 分 析 过 程 。18.1 信 度 理 论 入 门18.1.1 真 分 数 测 量 理 论测 量 环 境 误 差系 统 误 差访 问 员 和 数 据 录 入 误 差测 量 工 具 误 差选 项 5G 回 答受 测 者 误 差理 解 有 误随 机 误 差胡 乱 填 答图 18. 1 测 量 误 差 的 分 解 图信 度 最 早 是 由 斯 皮 尔 曼 CSpearman) 于 1904年 将 其 引 入 心 理 测 量 , 指 的 是 测 验 结 果 的 一 致 性程 度 或 者 可 靠 性 程 度 。 按 照 时 间 顺 序 计 算 , 信 度 的 概 念 首 先 出 现 于 20世 纪 前 半 叶 发 展 起 来 的 以信 度 分 析 为 基 础 的 真 分 数 测 量 理 论 CClassical Test Theory , 简 写 为 CTT) , 该 理 论 是 20 世 纪 前 期 与中 期 的 心 理 量 测 量 理 论 的 主 导 部 分 , 所 以 也 叫 它 经 典 测 量 理 论 。 其 理 论 框 架 就 是 围 绕 " 四 度 "信 度 CReliability) , 效 度 CValidity) , 项 目 分 析 CItem Analysis) 中 的 难 度 CItem Difficulty) , 区 分 度CDiscrimination Index) 来 展 开 的 。 对 于 真 分 数 测 量 理 论 , 其 假 设 是 :(1) 实 际 得 分 与 真 分 数 存 在 线 性 关 系 ( 记 住 通 常 用 的 相 关 系 数 是 测 量 线 性 相 关 的 ) :• 363 •


X = T + E (X: 实 际 分 数 ;T: 真 分 数 ;E: 误 差 分 数 )。(2) 测 量 误 差 的 期 望 为 零 : E (E) =0 。(3) 误 差 与 真 分 数 彼 此 独 立 : r TE= 0 。(4) 实 际 分 数 的 方 差 = 真 分 数 的 方 差 + 随 机 误 差 的 方 差 : 乓 =si+ 吨 。如 果 用 图 形 来 表 示 , 则 可 以 给 出 测 量 误 差 的 分 解 图 如 图 18. 1 所 示 。 在 真 分 数 测 量 理 论 里 信度 的 定 义 为 : 真 分 数 的 方 差 与 实 际 分 数 的 方 差 的 比 值 :rn=SVs; 或 rxx=1-5;/ 乓显 然 , 如 果 用 直 观 的 方 式 来 表 达 , 信 度 指 的 就 是 测 量 结 果 的 稳 定 性 , 如 果 多 次 重 复 测 量 的 结果 都 很 接 近 , 则 可 以 认 为 测 量 的 信 度 是 很 高 的 。18.1.2 信 度 与 效 度和 信 度 有 密 切 关 系 , 也 常 被 用 到 的 还 有 效 度 这 一 概 念 , 效 度 指 的 是 测 量 值 和 真 实 值 的 接 近 程度 。 它 假 设 在 真 分 数 中 稳 定 的 存 在 系 统 误 差 , 于 是 重 新 分 解 实 际 分 数 为 X = V + 1 + E (X: 实 际 分数 ;V: 有 效 分 数 ; 1: 系 统 误 差 分 数 ;E: 随 机 误 差 分 数 ) , 而 效 度 的 数 学 运 义 为 有 效 分 数 的 方 差 与 实际 分 数 的 方 差 的 比 值 :rxy=5:/5;进 一 步 我 们 可 以 得 到 数 学 表 达 式 上 信 度 和 效 度 的 关 系 :rXX/r XY = 5~/ 5~通 过 这 个 公 式 可 以 得 出 非 常 重 要 的 两 个 结 论 :(1) 效 度 高 , 信 度 一 定 高 ; 但 是 信 度 高 , 效 度 不 一 定 高 。 也 就 是 说 信 度 是 效 度 的 必 要 条 件 , 但不 是 充 分 条 件 。 用 一 个 通 俗 的 例 子 来 讲 , 就 是 大 家 到 菜 市 场 买 一 斤 肉 , 小 贩 的 秤 实 际 上 做 了 手脚 , 无 论 怎 样 反 复 称 , 他 拿 给 你 的 肉 都 显 示 为 一 斤 , 但 实 际 重 量 只 有 8度 非 常 好 , 但 效 度 很 差 。(2) 在 数 量 上 效 度 不 会 大 于 信 度 的 平 方 根 。两 。 显 然 , 这 里 小 贩 的 秤 信18.1.3 内 在 信 度 与 外 在 信 度根 据 所 关 心 的 重 点 不 同 , 信 度 可 分 为 内 在 和 外 在 信 度 两 类 。 内 在 信 度 : 内 在 信 度 指 的 是 调 查 表 中 的 一 组 问 题 ( 或 整 个 调 查 表 ) 是 否 测 量 的 是 同 一 个概 念 , 也 就 是 这 些 问 题 之 间 的 内 在 一 致 性 如 何 。 如 果 内 在 信 度 系 数 在 o. 8 以 上 , 则 可 以 认 为 调 查表 有 较 高 的 内 在 一 致 性 。 最 常 用 的 内 在 信 度 系 数 为 克 朗 巳 哈 α 系 数 和 折 半 信 度 。 外 在 信 度 : 指 在 不 同 时 间 进 行 测 量 时 调 查 表 结 果 的 一 致 性 程 度 。 最 常 用 的 外 在 信 度 指标 是 重 测 信 度 , 即 用 同 一 问 卷 在 不 同 时 间 对 同 一 对 象 进 行 重 复 测 量 , 然 后 计 算 一 致 程 度 。18.1 .4 信 度 的 判 断 标 准以 上 各 种 系 数 应 当 到 多 大 才 能 认 为 该 问 卷 信 度 较 高 ? 这 方 面 没 有 统 一 的 标 准 , 但 根 据 多 数学 者 的 观 点 , 任 何 测 验 或 量 表 的 信 度 系 数 如 果 在 O. 9 以 上 , 则 该 测 验 或 量 表 的 信 度 甚 佳 ; 信 度 系数 在 O. 8 以 上 都 是 可 接 受 的 ; 如 果 在 O. 7 以 上 , 则 该 量 表 应 进 行 较 大 修 订 , 但 仍 不 失 其 价 值 ; 如 果• 364 •


低 于 0.7 , 则 应 该 弃 之 。有 一 点 值 得 指 出 的 是 : 在 大 型 量 表 中 , 往 往 一 组 问 题 用 来 集 中 测 量 某 一 方 面 的 信 息 。 此 时 信度 分 析 应 当 按 问 题 组 来 进 行 , 即 测 量 同 一 信 息 的 一 组 问 题 问 信 度 如 何 , 而 不 是 直 接 测 量 整 个 量 表的 信 度 。18.2 简 单 分 析 实 例在 SPSS 的 信 度 分 析 过 程 基 本 还 是 立 足 于 真 分 数 测 量 理 论 , 它 所 提 供 计 算 信 度 的 模 型 比 较 全面 , 共 有 5 个 , 分 别 是 : Alpha (Cronbach) 模 型 、 Split - half 模 型 、 Guttman 模 型 、 Parallel 模 型 、 Strictparallel 模 型 。 至 于 重 测 信 度 则 直 接 使 用 相 关 分 析 进 行 , 并 未 在 信 度 分 析 过 程 中 出 现 。 本 书 在 这一 节 中 只 讲 目 前 最 常 见 的 Alpha 系 数 , 以 及 一 些 基 础 的 描 述 统 计 。 其 他 放 在 下 一 节 中 深 入 介 绍 。例 18. 1 数 据 item. sav 记 录 了 某 问 卷 测 量 的 数 据 , 该 问 卷 共 有 10 道 题 目 , 均 为 9 分 量 表 , 高分 数 代 表 同 意 此 观 点 , 共 测 量 了 100 人 。 现 希 望 考 察 该 问 卷 的 信 度 究 竟 如 何 。18.2.1 Alpha 信 度 系 数选 择 Analyze→ Scale→ Reliability Analysis , 弹 出 的 就 是 信 度 分 析 的 主 对 话 框 , 如 果 一 切 按 照默 认 的 设 置 , 只 是 将 10 道 题 目 所 对 应 的 变 量 选 入 , 然 后 进 行 计 算 , 则 操 作 中 所 对 应 的 主 对 话 杠 如图 18.2 所 示 。图 18.2信 度 分 析 的 主 对 话 框结 果 也 将 异 常 简 单 , 实 际 上 只 会 给 出 信 度 系 数 , 参 见 表 18. 10表 18. 1 Reliability StatisticsCronbach's Alpha N of Items.794 10这 里 SPSS 在 计 算 的 是 内 部 信 度 CInternalConsistency) , 也 有 的 书 上 叫 它 同 质 信 度 或 者 内 部• 365 •


t 性 信 度 。 这 里 的 克 龙 巳 赫 α 系 数 CCron 川 s Alpha) 其 计 算 公 式 为 日 ( 1 一 兰 州 ) , 其中 K 为 项 目 个 数 , 5; 为 每 个 项 目 得 分 的 方 差 , 42 为 总 分 的 方 差 。 实 际 上 这 个 Alpha 系 数 也 就 是 库德 一 理 查 逊 20 系 数 1 CKuder - Richardson , 简 写 为 KR20) , 只 不 过 前 者 用 于 计 算 多 分 变 量 的 量表 , 而 后 者 专 门 用 于 计 算 二 分 变 量 的 量 表 , 是 α 系 数 的 一 种 特 例 而 己 , 在 具 体 的 数 值 上 用 克 龙 巳赫 α 系 数 计 算 二 分 变 量 的 量 表 与 用 KR20 公 式 计 算 结 果 完 全 一 样 。本 例 的 信 度 系 数 非 常 接 近 0.8 , 因 此 可 以 认 为 本 问 卷 的 内 部 信 度 是 比 较 好 的 。 但 是 , 显 然 在信 度 分 析 中 只 得 到 这 样 一 个 系 数 并 不 够 用 , 不 能 为 该 问 卷 的 改 进 提 供 任 何 有 用 的 信 息 。 下 面 就使 用 对 话 杠 中 的 相 关 选 项 未 得 到 更 为 详 细 的 分 析 结 果 。kk18.2.2 对 各 题 目 的 深 入 分 析Statistic 子 对 话 杠 中 提 供 了 大 量 的 选 项 , 可 以 对 问 卷 的 信 度 进 行 深 入 分 析 , 如 图 18. 3 所 示 ,其 中 Descriptives for 复 选 杠 组 用 于 选 择 一 些 可 供 输 出 的 统 计 量 。 It em: 给 出 各 变 量 的 均 数 和 标 准 差 。 Scale: 给 出 各 变 量 值 之 和 ( 即 总 分 ) 的 均 数 、 方 差 和 标 准 差 。 Scale if item deleted: 给 出 当 在 问 卷 中 删 除 当 前 变 量 ( 问 题 ) 后 , 问 卷 相 应 指 标 的 改 变 情况 。 这 一 选 项 非 常 重 要 , 可 以 用 来 对 问 卷 中 的 各 项 进 行 逐 一 分 析 , 以 达 到 改 良 问 卷 的 目 的 。这 里 重 点 对 第 三 项 Scale if Item Deleted 的 输 出 进 行 讲 解 , 表 格 参 见 表 18.20表 18.2Item-Total StatisticsCorrecled Cronbach'sScale Mean if Scale Variance if Item-Total Alpha if ItemItem Deleted Item Deleted Correlation Deleteditem1 41.61 52.463 656 752item2 41.37 54.336 666 755item3 41 .41 55.416 549 767item4 41.63 57.145 47 才 776item5 41.52 64.818 .055 .825item6 41.56 63.320 .119 .818item7 41 .46 54.574 588 762item8 41.33 53.860 609 759item9 41 .44 55.623 503 772item10 41.66 54.328 .573 .763表 18.2给 出 的 是 如 果 将 相 应 的 变 量 ( 题 目 ) 删 除 , 则 试 卷 总 的 信 度 会 如 何 改 变 。 依 次 为 总分 的 均 数 改 变 、 方 差 改 变 、 该 题 与 总 分 的 相 关 系 数 和 α系 数 的 改 变 情 况 。 其 中 最 重 要 的 是 后 两项 , 如 果 相 关 系 数 太 低 , 可 考 虑 将 该 题 删 除 。 在 表 18.2 中 item5 , item6 和 总 分 的 相 关 系 数 就 非 常1 要 是 两 部 分 项 目 的 难 易 度 或 者 叫 区 分 度 大 致 相 同 , 就 可 以 简 化 计 算 公 式 变 成 KR2 1 , 具 体 的 公 式 在 这 里 就 不 多 介 绍 了 。• 366 •


低 , 提 示 这 两 道 题 的 应 答 分 值 高 低 和 总 分 高 低 相 关 性 不 大 , 说 明 它 们 可 能 和 问 卷 的 测 量 目 的 关 联不 大 。 而 表 格 的 最 后 一 项 反 映 的 是 如 果 删 除 该 题 后 α 系 数 的 变 动 , 如 果 删 除 后 系 数 上 升 , 则 说明 该 题 区 分 性 不 好 , 将 该 题 删 除 可 提 高 试 卷 的 信 度 。 显 然 , 从 输 出 结 果 中 可 见 还 是 item5 , item6这 两 道 题 的 该 项 指 标 较 高 。 因 此 如 果 要 改 进 本 问 卷 , 可 以 首 选 考 虑 对 5 , 6 两 道 题 目 加 以 更 换 或删 除 。如 果 希 望 从 整 体 上 了 解 问 卷 中 各 题 目 的 评 分 情 况 , 也 可 以 使 用 下 方 的 Summaries 杠 组 , 它 可以 集 中 给 出 问 卷 中 各 题 目 均 数 、 方 差 、 协 方 差 等 的 变 异 情 况 , 分 析 结 果 如 表 18. 3 所 示 , 可 见 本 问卷 各 道 题 目 的 差 异 不 大 , 例 如 均 数 都 在 4. 5 分 左 右 , 方 差 也 都 在 1. 5 ~ 2 之 间 , 并 未 发 现 较 极 端 的题 目 。表 18.3Summary Item StatisticsMaximum IN ofMean Minimum Maximum Range Minimum Variance ItemsItem Means 4.6 才 1 4.450 4.780 330 1.074 013 10Item Variances 1.947 1.588 2.189 601 1.378 037 10Inler-Item Covariances 543 -.085 1.066 1 才 51 -12.560 132 10Inter-Item Correlations .286 -.043 .576 .620 -13.287 .038 10The covariance matrix is calculated and used in the analysis.图 18. 3 Statistics 子 对 话 框当 使 用 了 S 缸 出 ur 口 mr标 化 后 的 Alpha 系 数 值 , 参 见 表 18.40表 18.4 中 " Standardiz 叫 Item Alpha" 其 实 计 算 的 是 斯 皮 尔 曼 一 布 朗 校 正 通 式 CSpearman -Brown) 其 值 为 : k Corr/ c1 + 仙 一 1) Corr) , 其 中 Corr 就 是 Summaries 复 选 杠 中 选 择 Correlations 杠• 367 •


所 得 Inter-item Correlations 中 Mean 对 应 的 值 。 本 例 中 具 体 就 是 : Standardized item alpha = 10 x0.2863/ [1 + 00 -1) ] xO. 2863 =0.8005 。 它 的 意 义 在 于 计 算 由 K 个 平 行 项 目 组 成 的 全 测 量信 度 系 数 。 由 于 本 例 中 本 来 十 个 题 目 的 量 表 范 围 就 相 同 , 实 际 打 分 情 况 相 差 也 不 大 , 因 此 标 化 后的 系 数 值 和 标 化 前 非 常 接 近 。除 输 出 标 化 系 数 外 , 前 述 Scale if item deleted 的 输 出 表 格 中 也 会 增 加 一 项 "Squared MultipleCorrelation" , 其 含 义 是 该 题 目 的 得 分 与 其 余 题 目 分 数 之 间 的 复 相 关 系 数 , 也 就 是 以 该 题 目 为 因 变量 , 其 他 题 目 为 自 变 量 进 行 线 性 回 归 所 得 出 的 复 相 关 系 数 。除 以 上 两 个 杠 组 外 , Inter-item杠 组 也 可 以 用 于 问 卷 的 深 入 分 析 , 它 可 以 求 出 各 题 目 间 的Pearson's 相 关 系 数 阵 和 协 方 差 阵 , 这 对 了 解 问 卷 中 各 题 目 的 关 系 是 很 有 帮 助 的 。18.2.3 对 真 分 数 理 论 假 设 的 考 察针 对 真 分 数 测 量 理 论 的 假 设 , SPSS 信 度 分 析 还 给 出 不 少 统 计 方 法 进 行 检 验 。 除 了 前 面 己 经介 绍 过 的 描 述 统 计 量 , 如 各 题 目 的 均 值 、 方 差 、 项 目 之 间 的 Pearso 山 相 关 系 数 , 协 方 差 矩 阵 等 。还 有 将 会 在 这 里 介 绍 的 Hotelli 吨 ' 自 r 2 统 计 量 、 T 此 ey's 不 可 加 性 检 验 CTuk 町 ' 自 test of additivi 咐 , 这些 方 法 都 是 针 对 检 验 真 分 数 测 量 理 论 的 假 设 被 满 足 的 情 况 而 设 的 。 Hotelli 吨 's T 2 统 计 量 在 多 元统 计 中 的 地 位 类 似 于 t 检 验 在 一 元 统 计 中 的 地 位 , 该 检 验 的 原 假 设 H。 为 : 两 组 多 元 正 态 分 布 的多 重 均 值 相 等 。 Tuk 町 's 不 可 加 性 检 验 目 的 是 为 检 查 方 差 分 析 中 的 交 互 作 用 。 在 SPSS 中 它 其 实是 检 验 双 因 素 固 定 效 应 模 型 的 交 互 效 应 。 它 把 实 际 的 得 分 分 解 为 :x= μ+α+β+λx Cαβ) , X为 实 际 分 数 , μ 为 真 分 数 , α 、β 为 行 列 之 间 的 效 应 , αβ 为 行 列 之 间 相 互 作 用 。 T 此 町 's不 可 加 性 检验 的 原 假 设 H。 为 :λ=0 。这 里 还 是 用 数 据 item. sav 来 加 以 演 示 , 来 考 察 该 数 据 是 否 符 合 真 分 数 理 论 的 前 提 假 设 , 在Statistic 子 对 话 杠 中 选 中 Hotelli 吨 ' 自 r 2 和 T 此 町 ' 自 test of additivity 复 选 框 , 相 应 的 分 析 结 果 参 见 表18.50表 格 中 "Nonadditivity" 对 应 的 就 是 T 此 町 's不 可 加 性 检 验 。 其 p 值 为 0.266 , 因 此 应 该 接 受 原假 设 , 即 不 存 在 交 互 效 应 。 这 里 其 实 采 用 的 是 最 简 单 的 单 侧 面 随 机 设 计 : 有 100 名 测 试 者 在 10个 项 目 上 做 选 择 题 , 每 个 项 目 就 是 测 量 侧 面 的 水 平 。表 18.6 给 出 的 就 是 Hotelli 吨 ' 自 r 2 检 验 的 结 果 了 , 这 对 于 熟 悉 多 元 统 计 的 人 应 该 是 很 清 楚的 。 结 果 p{ 直 为 0.433 1, 拒 绝 均 值 向 量 是 相 等 的 原 假 设 。 其 实 如 果 知 道 SPSS 中 Hotelling's r检 验 是 分 前 后 两 组 进 行 检 验 , 那 么 变 换 下 数 据 格 式 它 还 可 以 进 行 轮 廓 分 析 CProfileAnalysis) , 因为 就 是 变 化 一 下 数 据 格 式 , 比 较 简 单 , 读 者 可 自 己 完 成 , 这 里 就 不 再 详 述 了 。• 368 •


表 18.5 ANOVA with Friedman's Test and Tukey's Test for Nonadditivity bSum ofMeanSquares df SquareBetween People 676 , 179 99 6.830Within Between Items 才 1.769 9 1.308PeopleResidual Nonadd itivity 1740 a 1.740Balance 1249.991 890 1.404Total 1251 ,731 891 1.405Total 1263,500 900 1.404Total 1939,679 999 1.942Friedman'sChi-Square9311.239Sig497266Grand Mean '" 4 , 6 才a, Tukey's eslimale of 口 ower 10 which observallons musl be raised 10 achieve addilivlly = -1 , 156b The covariance malrix IS calculated and used in the analysis表 18.6Hotelling's T-Squared TestHotelli 同 9's T -SquaredFdf1df2Sig9.9511 , 016991.433The covariance matrix is calculated and used in the analysis.18.3 其 余 常 用 的 信 度 系 数除 了 Alpha 信 度 系 数 外 , 常 用 的 信 度 系 数 还 有 好 几 种 , 它 们 中 的 绝 大 多 数 都 可 以 在 主 对 话 杠的 Model 下 拉 列 表 中 被 找 到 , 只 需 要 将 相 应 的 名 称 选 中 , 运 行 后 就 可 以 得 到 相 应 的 结 果 。 这 里 将对 其 他 信 度 系 数 进 行 介 绍 。18.3.1 重 测 信 度如 前 所 述 , 重 测 信 度 是 直 接 使 用 相 关 分 析 , 并 未 在 信 度 分 析 过 程 中 出 现 。 它 指 的 是 用 同 样 的量 表 , 对 同 一 组 被 调 查 者 重 复 进 行 测 验 。{ 固 定 在 这 段 时 间 内 被 调 查 者 的 情 况 没 有 发 生 变 化 则 用两 次 测 验 各 项 得 分 间 的 相 关 分 析 或 差 异 的 统 计 学 检 验 的 结 果 则 可 以 说 明 该 量 表 调 查 信 度 的 高低 。 如 果 相 关 分 析 的 结 果 是 有 统 计 学 意 义 的 或 者 统 计 学 检 验 发 现 两 次 测 量 结 果 的 差 异 无 统 计 学意 义 , 则 具 有 一 定 的 信 度 。 这 种 方 法 特 别 适 用 于 事 实 性 的 量 表 。 相 关 分 析 得 到 的 相 关 系 数 也 就是 重 测 信 度 系 数 , 一 般 要 求 达 到 O. 7 以 上 。重 测 信 度 虽 然 非 常 简 单 , 易 于 理 解 , 但 它 要 求 对 同 一 样 本 进 行 重 复 测 定 , 在 实 施 中 有 一 定 的困 难 ; 其 次 , 被 调 查 者 的 情 况 可 能 随 时 间 发 生 变 化 , 那 么 两 次 测 量 的 差 异 就 不 再 是 单 纯 反 映 信 度高 低 了 ; 最 后 , 重 复 测 定 会 受 前 一 次 测 定 的 影 响 , 即 被 调 查 者 在 接 受 第 二 次 调 查 时 可 能 会 记 忆 并重 复 前 一 次 调 查 时 填 写 的 答 案 , 因 而 第 二 次 测 定 结 果 不 一 定 能 反 映 被 调 查 者 的 真 实 情 况 。 因 此 ,重 复 测 定 的 问 阳 时 间 不 宜 太 长 , 也 不 宜 太 短 , 视 具 体 研 究 情 况 而 走 。 多 数 学 者 认 为 一 般 以 2 ~4• 369 •


用 为 宜 。18.3.2 折 半 信 度所 谓 折 半 信 度 , 就 是 在 不 可 能 进 行 重 复 调 查 的 情 况 下 , 将 题 目 分 为 两 半 , 然 后 计 算 两 部 分 各自 的 信 度 , 以 及 之 间 的 相 关 性 , 以 此 为 标 准 来 衡 量 整 个 量 表 的 信 度 , 相 关 性 高 则 意 味 着 信 度 好 , 而相 应 的 信 度 指 标 就 是 折 半 信 度 。题 目 的 分 半 方 法 有 很 多 种 , SPSS 在 这 里 对 题 目 采 取 的 是 前 后 分 半 的 方 式 , 如 果 项 目 个 数 为奇 数 的 , 则 把 前 仙 一 1) /2 并 入 第 一 部 分 。 比 如 有 21 个 项 目 , 那 么 前 11 个 就 是 第 一 部 分 , 后 10个 就 是 第 二 部 分 。 如 果 量 表 是 按 照 奇 偶 分 半 设 计 的 , 就 需 要 重 新 整 理 一 下 再 计 算 。 计 算 采 用 的是 斯 皮 尔 曼 一 布 朗 公 式 , 要 注 意 的 是 这 和 前 面 的 斯 皮 尔 曼 一 布 朗 校 正 公 式 计 算 有 些 不 一 样 , 具 体计 算 公 式 如 下 。Correlation Between F orms: R = __(5: - 5: - 5:) /21' 1' 1 l' 其 中 5: , 5: 分 别 是 前 后 两 部 分 的 总 方 差 。一 ;lsL Pl 、 P22(5: - 5: - 5:)Guttman Split-Half: G = μ :l 凹 , 它 其 实 就 是 有 些 心 理 测 量 书 上 给 出 的 弗 朗 那 根SJ(Flanagan, 194 1) 公 式 。 由 于 在 实 际 研 究 中 真 分 数 测 量 理 论 的 平 行 要 求 中 方 差 相 等 这 条 假 设 被违 反 , 就 会 高 估 信 度 系 数 。 针 对 这 种 情 况 可 以 计 算 弗 朗 那 根 信 度 系 数 进 行 修 正 。Equal Length Spearman - Brown Coefficient: Y = 2R/ (R + 1) , 这 是 一 般 书 上 都 给 出 的 皮 尔 曼 一布 朗 公 式 。- R 2 + νR 4 + 4R 2 c1 - R2) k] k 2 /k 2 、、 曰U nequal Length Spearman -Brown: v ~?", , " ? ' j 豆 正 当 两 部 分 项 目 个 数2 c1 -R 2 )k]k 2 /k2并 不 相 等 情 况 下 的 计 算 公 式 , 因 为 一 般 研 究 者 都 是 把 量 表 项 目 个 数 设 计 为 偶 数 , 所 以 这 个 公 式 一般 书 籍 上 比 较 少 提 及 , 但 是 它 其 实 是 存 在 的 。折 半 信 度 对 应 了 Model 下 拉 列 表 中 的 Split-Half 选 项 , 相 应 的 输 出 参 见 表 18.70表 18.7Cronbach's Alpha Part 1Reliability StatisticsValueN of Items.65758Correlation Between FormsSpearman-Brown CoefficientGuUman Split-Half CoefficientPart 2Total N of lIemsEqual LengthUnequalLe 门 gthValueN of Items665b510652789.7897898. The items are: item1 , item2 , item3 , item4 , item5b The items are item6 , item7 , item8 , item9 , item10• 370 •


在 表 格 的 最 上 面 , SPSS 还 给 出 了 两 部 分 单 独 的 克 龙 巳 赫 α 系 数 , 分 别 为 : part 1 = . 657 4 ,part 2 =. 665 0 , 其 计 算 公 式 同 前 。18.3.3 GuUman 系 数对 应 了 Model 下 拉 列 表 中 的 Guttman 选 项 , 相 应 的 输 出 参 见 表 18.80表 18.8Reliability StatisticsLambda 7152 .8103 7944 7895 7886 810N of lIems 10The covariance matrix is calculated and used in the analysis该 模 型 计 算 真 实 信 度 系 数 可 信 区 间 的 Gl 巾 nar 白 下 界 , 输 出 结 果 中 的 Lambda 3 实 际 上 就 是克 龙 巳 赫 α 系 数 , Lambda 4 就 是 弗 朗 那 根 公 式 。18.3.4 平 行 模 型 的 信 度 系 数对 应 了 Model 下 拉 列 表 中 的 Parallel 选 项 , 相 应 的 输 出 参 见 表 18.9 和 表 18. 10:表 18.9Test for Model Goodness of FitChi-SquareLog of DeterminantofValuedfSigUnconstrained MatrixConstrained Matrix128.2530003.6374.981Under the parallel model assumption• 371 •


这 是 平 行 模 型 的 信 度 系 数 , 它 采 用 最 大 似 然 法 估 计 信 度 系 数 , 平 行 模 型 中 两 个 部 分 的 内 容 要求 基 本 相 似 , 测 量 长 度 、 实 际 得 分 的 标 准 差 、 难 易 度 都 相 等 。 用 统 计 专 业 术 语 来 讲 就 是 要 求 : 变 量方 差 要 求 齐 次 性 , 组 间 变 异 相 等 。SPSS 的 结 果 输 出 中 给 出 了 实 际 得 分 的 估 计 方 差 CEstimated Common Variance) , 误 差 的 方 差CError Variance) , 真 分 数 的 估 计 方 差 CTrueVariance) , 三 者 的 关 系 是 : 实 际 得 分 的 估 计 方 差 = 真分 数 的 估 计 方 差 + 误 差 的 估 计 方 差 。 这 是 真 分 数 测 量 理 论 的 基 本 假 设 之 一 。 那 么 按 照 真 分 数 测量 理 论 中 信 度 的 定 义 : 真 分 数 的 方 差 与 实 际 分 数 的 方 差 的 比 值 。 所 以 理 论 信 度 为 O. 542 5/1. 9474 =0.278570 而 估 计 的 信 度 , 也 就 是 克 龙 巳 赫 α 系 数 为 0.7943 , 最 后 SPSS 计 算 的 无 偏 的信 度 估 计 量 为 :2+ Cn-3) xα2 + 000 -3) xO. 7943R ,,~. ,~ , ~ = O. 798 45n -1 100 -118.3.5 严 格 平 行 模 型 的 信 度 系 数对 应 了 Model 下 拉 列 表 中 的 Strict Parallel 选 项 , 相 应 的 输 出 参 见 表 18. 11 和 表 18. 120表 18.11Test for Model Goodness of FitChi-SquareLog of DeterminantofValuedfSigUnconstrained Ma!rixConstrained Matrix136.94562.0003.6375.064Under the s!rictly parallel model assumption表 18.12Reliability StatisticsCommon Mean 4.611Common Varia 门 ce 1.959True Varia 门 ce 555Error Variance 1.404Common In!er-I!em Correla!ion 276Reliabili!y of Scale 792Reliability of Scale (Unbiased) 799The covariance malrix is calculated and used in the a这 才 是 严 格 意 义 上 的 真 分 数 测 量 理 论 得 到 的 信 度 计 算 公 式 ! 一 般 的 SPSS教 材 对 它 和 平 行模 型 都 有 些 误 解 。 其 实 也 正 验 证 那 句 话 " 隔 行 如 阳 山 " 没 有 心 理 测 量 的 这 些 背 景 知 识 , 有 谁 会知 道 到 它 才 是 SPSS 信 度 分 析 中 真 正 的 " 主 角 " 呢 。该 模 型 也 是 采 用 最 大 似 然 估 计 方 法 计 算 信 度 系 数 , 其 所 有 结 果 解 释 同 上 面 的 平 行 模 型 是 一样 的 , 不 过 在 严 格 平 行 模 型 中 由 于 进 一 步 要 求 增 加 了 要 求 均 值 也 相 同 ( 其 实 就 是 要 求 分 布 也 相• 372 •


同 ) , 因 此 计 算 公 式 有 些 不 同 。 其 中 "Estimated Common Mean" 是 所 有 每 个 项 目 均 值 求 和 的 均 值 ,其 对 应 的 是 项 目 综 述 表 中 的 "Item Means" 二 项 的 Mean 值 。Corr… Vari 盯 an 町 川 V= …+; 二 ( T 豆 同 t一 U 白 ι)2 仇 2 气 ν, 讪 川 va α 叫其 T 是 每 个 项 目 得 分 的 均 值 , ι 是 总 的 所 有 项 目 得 分 的 均 值 。Error Variance: EV = MSwithin 阳 ple' 定 义 个 案 组 内 均 方 和 为 误 差 的 方 差 。True V ariance: TV = CV - EV , 这 是 真 分 数 测 量 理 论 的 假 设 的 实 际 应 用 。Common Inter - Item Correlation: R =u 一 1 手 (T. - G)2k Ck - 1) 8A K l , 这 和 前 面 的 理 论 信 度 工 Emr+; 二 ( 豆 一 。 2义 在 计 算 公 式 上 有 所 变 化 , 结 果 为 0.276 20Reliability of the Scale: Rel = kR/ c1 + 仙 一 1) 昂 , 这 是 估 计 的 信 度 公 式 , 其 结 果 为 0.79240Unbiased Estimate of the Reliability: R = C Cn - 3) Rel + 3) /n , 这 是 无 偏 估 计 的 信 度 公 式 , 其 结果 为 0.798 60以 上 前 两 个 都 是 介 绍 内 部 一 致 性 信 度 的 计 算 方 法 ( 分 半 信 度 也 是 一 种 内 部 一 致 性 信 度 )。第 二 种 模 型 并 无 实 际 价 值 可 以 不 管 。 第 四 、 五 种 模 型 是 真 正 意 义 上 的 真 分 数 测 量 理 论 模 型 。 可以 这 么 说 : 第 一 、 二 种 模 型 是 真 分 数 测 量 理 论 的 实 际 应 用 。18.3.6 评 分 者 信 度除 了 内 部 一 致 性 信 度 、 分 半 信 度 等 以 外 , 信 度 分 析 中 还 有 稳 定 性 信 度 系 数 C Coefficient of Stability)或 者 叫 重 测 信 度 CTest-Retest Reliability) 、 复 本 信 度 CAlternate Form Reliability) 或 者 叫 等 值性 系 数 CCoefficient of Equivalence) 以 及 评 分 者 信 度 CScorer of Reliability) 等 。 SPSS 的 信 度 分 析 过程 可 以 直 接 计 算 评 分 者 信 度 。 由 于 评 分 者 信 度 是 考 察 不 同 评 分 人 之 间 对 实 际 得 分 的 影 响 。 所 以在 数 据 格 式 上 我 们 分 析 的 就 是 每 一 行 , 即 每 一 位 评 分 者 对 得 分 的 影 响 , 而 不 是 每 一 列 的 影 响 。在 SPSS 中 , 评 分 者 信 度 是 用 Statistic 子 对 话 杠 中 的 ANOAV Table 单 选 杠 组 实 现 的 , 该 杠 组共 提 供 了 三 种 分 析 方 法 , 它 们 都 是 用 来 分 析 不 同 评 分 者 对 问 卷 评 分 的 影 响 状 况 的 , 各 自 适 用 于 不同 的 分 数 测 量 尺 度 。 None: 不 进 行 分 析 。 F test: 对 各 变 量 进 行 重 复 测 量 的 方 差 分 析 , 该 方 法 适 用 于 题 目 分 值 为 连 续 性 测 量 尺 度的 情 形 , 其 实 等 价 于 调 用 GLM 中 的 重 复 测 量 方 差 分 析 过 程 。 Friedman chi- 叫 uare: 对 各 变 量 进 行 配 伍 设 计 的 非 参 数 分 析 , 该 方 法 适 用 于 分 值 不 里 正态 或 为 有 序 分 类 时 , 等 价 于 调 用 非 参 数 分 析 中 的 K Related Samples 过 程 。 Cochran chi -square : 对 各 变 量 进 行 Cochran's X 2 检 验 , 该 方 法 适 用 于 题 目 分 值 为 二 分 类 /无 序 分 类 时 。这 里 虚 拟 了 5 个 评 分 者 在 10 个 项 目 上 的 评 价 打 分 情 况 , 见 数 据 item1. SAV , 假 设 其 分 值 均为 运 序 变 量 , 则 对 应 的 统 计 量 应 当 为 Friedman X2 值 , 在 ANOVA Table 单 选 杠 中 选 择 Friedmanchi -square , 相 应 的 结 果 输 出 参 见 表 18.13 和 表 18. 140• 373 •


表 18.13Reliability StatisticsCronbach'sAlpha817Cronbach's Alpha Basedon Standardized Items855N of Items10表 18.14ANOVAwith Friedman's Test bSum of Squares df Mean SquareBelween People 26.600 4 6.650Friedman'sChi-SquareSigWithin People Between Items 7.600 a 9 .8446.654 .673Residual 43.800 36 1.217Total 51 .400 45 1.142Total 78.000 49 1.592Grand Mean '" 4.80a. Kenda 11'5 coefficienl of c 口 nc 口 rdanceW= 口 97b. The covariance malrix is calculaled and used in the analysis在 表 18. 14 的 最 右 侧 可 见 给 出 了 Fri 叫 man's x2 值 及 其 P 值 , 由 结 果 可 见 尚 不 能 认 为 这 5 名评 分 者 之 间 存 在 差 异 , 即 评 分 者 信 度 尚 未 发 现 问 题 。其 实 所 有 评 分 者 信 度 都 可 以 从 表 18. 14 中 得 出 , 具 体 计 算 公 式 如 下 :F Test 为 :F = MSbetweenmeasure/MSresidual =0.844411. 2167 =0. 694 ,df= {k -1, (n- 1) 仙 一 1 汁 。Friedman Test 和 Cochran Test 为 : 矿 = SSbetween m 川 m/llfSWIthIn 阳 ple =7.611. 1422 =6. 653 8 , df=k-1 。对 于 有 序 测 量 尺 度 , 除 了 Friedman 检 验 外 , 还 可 使 用 Kendall's系 数 进 行 分 析 , 它 和 多 组 配 对样 本 的 Friedman 检 验 在 具 体 计 算 方 法 上 不 同 , 但 两 者 之 间 是 等 价 的 。 Kendall's 系 数 的 具 体 计 算方 式 为 : W=SSbetweenmeasurelMStotal =7.6/78 =0.0974018.3.7 信 度 系 数 总 结最 后 , 总 结 一 下 信 度 的 类 型 的 划 分 。 根 据 影 响 测 量 的 误 差 源 的 不 同 得 出 的 。 现 在 比 较 几 种类 型 的 信 度 的 差 异 如 下 :表 18. 15 不 同 信 度 指 标 间 的 比 较类 型假 设 测 量 的 误 差 源测 量 目 的测 量 次 数公 式稳 定 性被 测 者 的 不 稳 定 性 , 比 如 情 绪 和人 格 发 展 , 记 忆 等考 察 在 不 同 时 间 点上 的 可 靠 性2 次Pearson¥ 相 关 系 数等 值 性两 种 测 量 方 式 的 等 价 性利 用 复 本 之 间 的 相1 次Pearson¥ 相 关 系 数关 系 数 估 计 信 度• 374 •


续 表类 型 假 设 测 量 的 误 差 源 测 量 目 的 测 量 次 数 公 式内 部 一 选 用 特 定 问 卷 测 量 同 一 能 力 而 考 察 某 种 特 质 的 一 1 次 KR20 丰 口 Cronbach's Al-致 性 产 生 的 差 异 致 性 反 应 pha评 分 者 评 分 人 或 者 编 码 人 不 同 引 起 的 评 价 者 和 编 码 者 之 1 次 Kendall's 、 Friedman 丰 口差 异 间 的 差 异 Cochran 系 数 、 F 检 验18.4 信 度 理 论 进 阶18.4.1 真 分 数 测 量 理 论 的 缺 限真 分 数 理 论 在 提 出 来 以 后 得 到 了 广 泛 的 应 用 , 但 在 实 践 中 人 们 发 现 , 它 也 存 在 着 以 下 几 点 比较 突 出 的 局 限 和 操 作 不 便 :(1) 在 对 于 误 差 的 控 制 上 , 因 为 实 际 上 误 差 是 没 有 办 法 直 接 测 量 的 , 所 以 通 常 是 研 究 者 根 据经 验 判 定 误 差 来 源 。 于 是 根 据 不 同 误 差 来 源 就 有 不 同 计 算 信 度 的 方 法 。 这 在 前 面 讲 解 不 同 的 信度 系 数 时 大 家 己 经 看 到 了 , 这 造 成 信 度 计 算 的 混 乱 和 计 算 结 果 的 差 异 很 大 , 其 精 确 性 可 疑 。 而 且真 分 数 测 量 理 论 不 能 全 面 、 具 体 的 解 释 不 同 测 量 中 发 生 的 特 殊 因 素 对 分 数 的 影 响 。 这 主 要 是 因为 在 真 分 数 测 量 理 论 中 只 是 笼 统 的 把 实 际 得 分 分 解 为 真 分 数 和 误 差 , 而 且 假 设 两 部 分 是 相 互 独立 的 。 这 样 的 测 量 只 能 得 到 一 个 信 度 估 计 , 而 实 际 中 不 仅 不 同 测 量 之 间 存 在 差 异 , 同 一 个 测 量 在不 同 情 况 下 也 是 存 在 差 异 的 。(2) 理 论 操 作 上 也 是 由 于 误 差 是 没 有 办 法 直 接 测 量 , 对 给 出 的 信 度 定 义 没 有 办 法 进 行 实 际的 计 算 。 于 是 真 分 数 测 量 理 论 又 加 上 了 严 格 平 行 检 验 { 固 定 (StrictParallel Test Assumptions) : 两个 测 量 的 内 容 要 求 基 本 相 似 , 测 量 长 度 、 实 际 得 分 的 均 值 、 标 准 差 、 难 易 度 都 相 等 。 这 在 实 际 中 很难 做 到 。(3) 在 使 用 真 分 数 测 量 理 论 得 到 的 量 表 在 实 施 测 量 的 情 况 中 , 要 求 所 有 测 量 条 件 完 全 标 准化 : 从 施 测 时 的 指 导 语 到 测 验 计 分 都 有 严 格 而 明 确 的 规 定 ( 大 部 分 的 心 理 测 量 量 表 都 有 自 己 的操 作 指 导 手 册 )。 这 对 实 际 工 作 要 求 比 较 高 。18.4.2 概 化 理 论 入 门针 对 以 上 真 分 数 理 论 的 缺 陷 , 概 化 理 论 (Generalizability Theory , 简 写 为 GT) 孕 育 而 生 。 1963年 克 龙 巳 赫 (Cronbach) 等 人 在 英 国 统 计 心 理 学 杂 志 上 发 表 第 一 篇 关 于 概 化 理 论 的 论 文 以 后 , 它就 很 快 的 发 展 起 来 , 也 得 到 了 广 泛 应 用 。 概 化 理 论 其 实 是 方 差 分 析 在 真 分 数 测 量 理 论 中 一 个 应用 。 它 用 " 随 机 平 行 测 验 " (Random Parallel Test Assumptions)的 弱 假 设 取 代 真 分 数 测 量 理 论 中的 " 严 格 平 行 测 验 " 假 设 。 在 真 分 数 测 量 理 论 中 假 设 测 量 的 误 差 来 于 没 有 差 异 的 单 变 量 分 布 , 而概 化 理 论 使 用 方 差 分 析 技 术 , 允 许 存 在 不 同 类 型 误 差 的 来 源 。 因 此 , 概 化 理 论 使 得 测 量 理 论 和 实际 更 加 接 近 了 一 步 。• 375 •


概 化 理 论 从 测 量 情 境 出 发 , 应 用 方 差 分 析 技 术 分 解 来 自 不 同 测 量 条 件 的 误 差 。 其 中 测 量 的情 境 由 测 量 目 标 CObjects) 和 测 量 侧 面 CFacets) 组 成 。 其 中 测 量 目 标 就 是 : 需 要 研 究 的 那 个 心 理特 质 , 比 如 人 格 的 某 个 成 分 , 其 回 答 的 是 " 测 什 么 " 的 问 题 。 而 测 量 侧 面 是 和 测 量 目 标 一 起 影 响并 制 约 测 量 的 条 件 和 因 素 。 它 是 一 组 条 件 , 随 测 量 情 境 发 生 变 化 , 比 如 某 个 测 量 中 的 题 目 个 数 ,测 量 所 采 用 的 方 式 , 它 们 具 有 不 同 的 维 度 ( 侧 面 的 水 平 ) , 其 回 答 的 是 " 怎 么 测 " 的 问 题 。 理 想 情况 下 , 测 量 目 标 引 起 的 总 变 异 很 大 , 而 测 量 侧 面 引 起 的 总 变 异 很 小 。对 于 测 量 侧 面 不 仅 有 水 平 上 的 不 同 而 且 有 随 机 CRandom) 和 固 定 CFixed) 之 分 。 随 机 测 量 是指 每 次 测 量 中 侧 面 的 水 平 都 是 随 机 选 择 的 , 比 如 在 评 价 者 这 个 侧 面 上 , 每 位 评 价 者 每 次 都 是 随 机选 择 的 , 通 常 就 叫 它 随 机 侧 面 。 所 以 每 次 测 量 都 是 不 同 , 这 样 做 是 因 为 在 概 化 理 论 中 研 究 的 目 的并 不 是 为 了 获 得 特 定 条 件 下 的 测 量 结 果 , 而 是 要 以 此 来 推 断 更 广 泛 的 条 件 下 可 能 得 到 的 测 量 结果 。 而 这 种 推 断 的 准 确 性 正 是 测 量 者 应 该 关 心 的 问 题 。 这 种 信 度 观 和 真 分 数 测 量 理 论 中 的 信 度观 是 绝 对 不 一 样 的 。 考 虑 测 量 侧 面 是 否 为 随 机 的 办 法 有 : 第 一 , 样 本 的 容 量 与 全 域 CUniverse , 即每 个 测 量 侧 面 的 水 平 所 对 应 的 总 体 ) 个 体 总 数 相 比 而 言 十 分 小 ; 第 二 , 该 样 本 是 从 全 域 中 随 机 抽取 的 , 或 者 该 样 本 与 全 域 中 抽 取 的 其 他 等 容 量 的 样 本 之 间 是 可 以 交 换 的 。与 随 机 相 对 应 的 是 固 定 测 量 , 它 是 指 如 果 在 将 来 所 有 的 测 量 过 程 中 都 将 采 用 同 样 的 分 析 水平 , 那 么 这 个 侧 面 就 成 为 固 定 的 。 比 如 在 评 价 者 测 量 侧 面 , 自 始 至 终 都 是 有 一 个 人 来 评 价 打 分 ,通 常 就 叫 它 固 定 侧 面 。 应 该 注 意 的 是 : 一 个 侧 面 一 旦 固 定 了 , 那 么 它 就 成 为 测 量 目 标 的 一 部 分 固定 的 侧 面 , 不 再 属 于 误 差 来 源 。 因 此 , 随 着 固 定 侧 面 的 增 多 , 测 量 误 差 来 源 变 少 , 测 量 的 信 度 就 越高 , 目 标 测 量 就 越 可 信 , 但 它 是 以 缩 小 测 量 目 标 的 范 围 为 代 价 的 。 当 所 有 的 侧 面 都 被 固 定 的 时候 , 测 量 误 差 最 小 , 但 这 时 测 量 结 果 便 不 具 有 任 何 推 广 意 义 了 。 此 时 的 测 量 结 果 只 能 体 现 在 特 定的 测 量 条 件 下 被 试 的 反 应 , 而 不 能 推 广 到 更 普 遍 的 其 他 条 件 上 。 正 因 为 如 此 , 概 化 理 论 要 求 有 至少 一 个 测 量 的 侧 面 必 须 是 随 机 的 。 随 机 侧 面 越 多 , 从 条 件 样 本 上 得 到 的 一 些 测 量 结 论 就 越 能 够推 广 到 很 普 遍 的 条 件 总 体 上 去 。 在 本 书 第 1 章 大 家 己 经 学 习 过 了 随 机 因 素 和 固 定 因 素 , 联 系 这些 相 应 的 知 识 , 以 上 内 容 应 当 不 难 理 解 。用 概 化 理 论 来 研 究 测 量 问 题 时 其 分 两 步 进 行 : 即 G 研 究 C Generalizability Study , 拓 广 研 究 ) 和D 研 究 CDecision Study , 决 策 研 究 )。 其 中 拓 广 研 究 的 目 的 是 要 估 计 与 每 个 随 机 侧 面 相 联 系 的 误差 的 大 小 , 具 体 地 讲 拓 广 研 究 是 考 察 由 不 同 测 量 目 标 和 测 量 侧 面 所 确 定 的 测 量 设 计 , 以 及 在 这 些条 件 下 得 到 的 数 据 的 方 差 成 分 的 性 质 和 大 小 , 它 要 回 答 的 是 " 发 生 了 什 么 " 的 问 题 ; 决 策 研 究 是在 拓 广 研 究 的 基 础 上 做 出 某 种 决 策 , 具 体 地 讲 就 是 考 察 在 测 量 情 境 变 化 的 情 形 下 , 知 道 各 种 测 量误 差 和 测 验 可 靠 性 的 变 化 , 从 而 为 改 进 测 量 设 计 、 控 制 测 量 误 差 、 提 高 测 验 信 度 、 优 化 测 验 结 构 提供 依 据 。 它 要 回 答 的 是 " 进 一 步 可 以 推 广 到 什 么 程 度 " 的 问 题 。在 决 策 研 究 中 , 首 先 研 究 者 必 须 对 推 广 域 进 行 明 确 的 界 定 :4 研 究 者 必 须 指 明 哪 些 为 研 究结 果 推 广 的 侧 面 ;2 各 侧 面 上 的 推 广 范 围 有 多 大 。 而 推 广 域 必 须 依 据 研 究 目 的 来 确 定 。 接 着 研究 者 要 做 的 下 一 步 工 作 是 : 根 据 应 用 的 需 要 来 确 定 测 量 设 计 和 样 本 容 量 的 大 小 。 最 后 , 研 究 者 可以 根 据 拓 广 研 究 估 计 出 来 的 方 差 成 分 , 计 算 出 样 本 均 值 意 义 上 的 决 策 研 究 各 变 异 分 量 , 求 得 拓 广系 数 。 至 此 , 研 究 者 可 以 考 虑 各 种 变 化 着 的 情 境 及 其 所 带 来 的 拓 广 系 数 的 变 化 结 果 、 进 而 寻 求 改进 技 术 、 控 制 测 量 误 差 、 提 出 求 取 与 改 进 拓 广 系 数 的 途 径 和 措 施 。• 376 •


18.4.3 SPSS 中 相 应 的 分 析 功 能土 文 中 之 所 以 如 此 详 细 地 介 绍 概 化 理 论 , 是 因 为 作 为 心 理 测 量 理 论 中 三 大 体 系 ( 除 了 上 面介 绍 的 真 分 数 测 量 理 论 和 概 化 理 论 以 外 , 还 有 在 概 化 理 论 之 后 发 展 起 来 的 项 目 反 应 理 论 CItemResponse Theo 叮 , 简 写 为 IRT) ) 之 一 的 概 化 理 论 在 国 内 这 方 面 还 出 于 起 步 研 究 阶 段 , 存 在 很 多 误解 和 错 误 。SPSS 提 供 的 信 度 分 析 过 程 中 有 一 个 毫 不 起 眼 的 组 内 相 关 系 数 CIntraclass correlation coefficient, 简 写 为 ICC) , 其 实 它 就 是 概 化 理 论 中 的 拓 广 研 究 , 只 不 过 功 能 比 较 简 单 , 更 复 杂 的 分 析 则要 采 用 方 差 分 量 (Variance Components) 过 程 , SAS 和 SPSS 都 提 供 了 这 个 过 程 。 专 门 的 概 化 理 论也 和 结 构 方 程 模 型 一 样 有 自 己 的 专 门 统 计 软 件 GENOVA (Crick & Brennen, 1983) , 这 里 不 再 详述 。具 体 的 讲 , 组 内 相 关 系 数 的 原 理 就 是 应 用 方 差 分 析 的 三 种 模 型 : 固 定 效 应 模 型 、 随 机 效 应 模型 、 混 合 模 型 。 SPSS 针 对 这 三 种 模 型 给 出 几 种 简 单 的 G 系 数 估 计 方 式 : 单 侧 面 随 机 设 计 (One­Way Random Effects ModeD ; 双 侧 面 完 全 随 机 交 叉 设 计 (Two-W ay Random Effects ModeD ; 双 侧 面混 合 设 计 (Two-Way Mixed Effects ModeD 。 下 面 将 简 单 介 绍 如 何 通 过 SPSS 进 行 组 内 相 关 系 数 分析 。 还 是 打 开 数 据 item. sav , 在 Statistic 子 对 话 杠 中 选 择 Intraclass correlation coefficient 复 选 框 ,下 方 的 Model 下 拉 菜 单 中 则 选 择 One-way random , 要 求 计 算 单 因 素 随 机 模 型 。 相 应 的 分 析 结 果参 见 表 18. 16表 18. 16 给 出 的 就 是 组 内 相 关 系 数 , 或 者 叫 它 概 化 理 论 G 系 数 , 其 中 包 含 了 单 一 评 价 和 多 个评 价 ( 类 似 为 评 价 者 信 度 ) 两 种 估 计 。 这 里 采 用 的 是 单 一 评 价 , 也 就 前 面 在 T 此 句 句 不 可 加 性 检验 说 的 单 侧 面 随 机 设 计 : 有 100 名 测 试 者 在 10 个 项 目 上 做 选 择 题 , 每 个 项 目 就 是 测 量 侧 面 的 水平 , 所 以 测 试 者 的 选 择 题 答 案 对 应 的 内 容 就 是 测 量 目 标 , 而 所 有 项 目 就 是 测 量 单 侧 面 , 因 此 看"Single Rater" 一 栏 , 这 里 ICC 值 为 0.278 80 应 该 指 出 的 是 它 的 取 值 区 间 在 : 一 11 仙 一 1) < ICC(1) ~ 1 (k 为 每 组 的 观 测 个 数 , 而 这 里 就 有 一 组 , 观 测 个 数 为 10) , 分 别 令 ICC (1) = (MS BP-MS wp ) / (MS BP+ 仙 一 1) MS wp ) 公 式 中 的 MS BP 、 MS wp 为 0 , 就 可 以 知 道 ICC 的 区 间 。进 一 步 需 要 进 行 概 化 理 论 的 决 策 研 究 , 比 较 不 同 项 目 组 合 的 ICC 值 差 异 , 但 由 于 这 里 没 有 实际 研 究 背 景 , 所 以 就 没 有 准 备 其 他 的 比 较 方 案 。 根 据 实 际 理 论 背 景 应 该 合 理 选 择 ICC 值 较 大 的方 案 , 这 就 是 决 策 研 究 的 主 要 内 容 了 , 即 在 知 道 差 异 以 后 考 虑 如 何 选 择 的 问 题 。• 377 •


思 考 与 练 习1. 试 比 较 信 度 分 析 中 Corrected Item -Total Correlation 和 Alpha if Item Deleted 两 者 之 间 的 变 化 规 律 。2. 试 比 较 不 同 信 度 的 使 用 范 围 和 前 提 假 设 。3. 用 因 子 得 分 计 算 变 量 之 间 的 相 关 系 数 , 观 察 存 在 什 么 和 因 子 负 荷 矩 阵 一 致 的 规 律 。4. 数 据 文 件 tes t. sav 是 某 班 级 某 次 考 试 的 成 绩 , 现 希 望 对 所 使 用 的 考 卷 进 行 改 进 , 试 据 此 对 该 考 试 试 卷 进行 信 度 分 析 , 并 提 出 相 应 的 改 进 意 见 。参 考 文 献l 郭 庆 科 . 心 理 测 量 的 原 理 与 应 用 . 北 京 : 人 民 军 医 出 版 社 , 20022 金 瑜 . 心 理 测 量 . 上 海 : 华 东 师 范 大 学 出 版 社 , 20013 柯 惠 新 、 祝 建 华 、 孙 江 华 . 传 播 统 计 学 . 北 京 : 北 京 广 播 学 院 出 版 社 , 20034 张 文 月 三 主 编 . SPSS 11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 北 京 希 望 电 子 出 版 社 , 20025 吴 明 隆 . SPSS 统 计 应 用 实 务 . 北 京 : 中 国 铁 道 出 版 社 , 2000• 378 •


第 19章 生 存 分 析19. 1 生 存 分 析 简 介生 存 分 析 是 对 生 存 时 间 进 行 分 析 的 统 计 技 术 的 总 称 。 生 存 时 间 CSurvival Time) , 也 称 为 寿命 时 间 CLife Time) 、 失 败 时 间 CFailure Time) 或 生 存 数 据 CSurvival Data) , 定 义 为 从 某 一 起 点 开 始到 所 关 心 事 件 发 生 的 时 间 。 之 所 以 采 用 生 存 分 析 这 个 术 语 , 可 能 是 由 于 这 种 统 计 技 术 常 用 于 医学 研 究 中 病 人 在 接 受 某 种 治 疗 后 其 存 活 时 间 的 分 析 的 缘 故 。 除 了 医 学 生 物 领 域 , 其 他 领 域 生 存时 间 的 例 子 还 可 以 有 : 一 个 工 人 从 下 岗 后 到 实 现 再 就 业 的 时 间 ; 一 台 机 器 从 开 始 使 用 后 到 发 生 第一 次 故 障 的 时 间 , 等 等 。 生 存 分 析 的 目 的 就 是 刻 画 生 存 时 间 的 分 布 。 通 常 , 生 存 时 间 被 看 作 连 续性 数 据 。 但 是 , 在 实 际 应 用 中 , 也 存 在 着 生 存 时 间 是 离 散 性 数 据 的 情 况 。生 存 分 析 的 一 个 主 要 特 点 是 可 以 处 理 删 失 CCensor)。 删 夫 是 指 准 确 生 存 时 间 未 被 观 察 到 的 情况 。 例 如 , 在 医 学 研 究 中 , 一 个 病 人 的 生 存 时 间 往 往 由 于 夫 访 、 研 究 结 束 而 无 法 被 准 确 地 记 录 下 来 ,只 知 道 该 病 人 的 生 存 时 间 大 于 某 一 时 间 点 ( 上 一 次 随 访 时 点 、 研 究 结 束 时 点 )。 这 种 删 失 称 为 右 删失 CRight Censoring) , 在 生 存 分 析 中 是 最 多 见 的 。 此 外 还 有 左 删 失 CLeft Censori 吨 , 生 存 时 间 小 于 某一 时 点 ) , 区 间 删 失 CInterval Censori 吨 , 生 存 时 间 在 某 一 段 时 间 之 内 )。 本 章 所 涉 及 的 生 存 分 析 方 法主 要 是 针 对 右 删 失 。 生 存 分 析 当 然 也 可 以 对 没 有 删 夫 的 生 存 时 间 ( 完 全 生 存 时 间 ) 进 行 分 析 , 这 时的 生 存 分 析 与 一 般 统 计 方 法 没 有 太 大 差 别 。 但 是 , 一 旦 有 删 失 存 在 , 则 必 须 考 虑 删 夫 , 无 视 删 夫 的分 析 将 导 致 偏 { 奇 的 结 果 。 因 为 从 某 种 意 义 上 讲 , 生 存 时 间 越 长 越 容 易 导 致 删 失 。生 存 分 析 的 另 外 一 个 主 要 特 点 是 作 为 分 析 对 象 的 生 存 时 间 非 负 而 且 其 分 布 常 常 在 右 边 带 有较 长 的 尾 巳 ( 右 偏 )。 这 使 得 通 常 基 于 正 态 分 布 理 论 的 统 计 方 法 不 一 定 适 用 。 所 以 , 进 行 适 当 的变 量 变 换 , 或 者 应 用 不 依 赖 于 具 体 分 布 的 统 计 方 法 是 必 要 的 。19. 1. 1 生 存 分 析 简 史生 存 分 析 的 历 史 最 早 可 以 追 溯 到 天 文 学 家 Halley 0656-1742) 提 出 的 寿 命 表 CLife Table) 。寿 命 表 曾 是 Grant 0620-1674) , Farr 0807-1883) 进 行 人 口 统 计 分 析 的 基 本 工 具 , 其 使 用 的 历史 久 远 。 截 止 至 1960 年 前 后 , 关 于 寿 命 表 计 算 的 数 理 方 面 的 研 究 己 经 非 常 成 熟 。 比 如 , 己 经 有Greenwood 提 出 的 生 存 函 数 的 误 差 的 评 价 方 法 0926 年 ) 和 Kaplan 和 Meier 提 出 的 刻 画 生 存 时 间分 布 的 乘 积 极 限 法 Cproduct 一 limit method , 也 称 Kaplan - Meier method , 1958 年 )。现 代 的 生 存 分 析 开 始 于 20 世 纪 30 年 代 工 业 科 学 中 的 相 关 应 用 , 特 别 是 在 第 二 次 世 界 大 战 中 ,对 武 器 装 备 的 可 靠 性 研 究 时 的 生 存 分 析 方 法 出 现 了 一 个 高 潮 , 这 一 研 究 兴 趣 延 续 到 战 后 。 但 此 时• 379 •


生 存 分 析 方 法 都 集 中 在 参 数 模 型 。 在 二 十 世 纪 六 七 十 年 代 , 医 学 研 究 中 大 量 临 床 试 验 的 出 现 , 要 求方 法 学 有 新 的 突 破 , 导 致 了 生 存 分 析 的 研 究 开 始 转 向 非 参 数 方 法 。 20 世 纪 60 年 代 中 期 , 可 以 对 生存 时 间 进 行 组 间 比 较 的 统 计 方 法 被 开 发 出 来 。 这 些 方 法 实 际 上 是 将 一 种 利 用 观 察 值 大 小 顺 序 进 行检 验 的 非 参 数 方 法 扩 展 为 可 以 处 理 有 删 夫 的 数 据 的 方 法 。 在 这 些 方 法 中 , 1965 年 由 Gehan 提 出 的广 义 Wilcoxon 法 和 1966 年 由 Mantel 提 出 的 log - rank 检 验 法 可 以 称 得 上 是 代 表 作 。从 20 世 纪 60 年 代 后 期 到 20 世 纪 70 年 代 , 随 着 生 存 分 析 在 临 床 研 究 中 的 广 泛 应 用 , 如 何 将协 变 量 的 影 响 模 型 化 成 为 了 重 要 问 题 。 在 考 虑 观 察 对 象 的 各 自 不 同 的 特 征 , 比 如 病 人 的 年 龄 、 性别 、 检 查 结 果 等 多 个 协 变 量 的 情 况 下 如 何 进 行 生 存 分 析 的 要 求 日 渐 显 现 。 将 协 变 量 的 影 响 模 型化 其 主 要 目 的 有 三 : 首 先 是 可 以 调 整 随 机 化 分 组 后 仍 可 能 存 在 的 不 均 衡 ; 其 次 是 可 以 提 高 组 间 比较 的 效 率 ; 第 二 是 可 以 探 索 具 有 哪 些 协 变 量 水 平 或 协 变 量 水 平 组 合 的 人 群 为 高 危 人 群 。 基 于 模型 的 方 法 中 首 先 要 提 到 的 是 参 数 模 型 方 法 。 这 类 方 法 { 假 曰 设 生 存 时 间 服 从 威 布 尔 分 布 CW 怆 eibuDis 叫 t 甘 tribl 由 川 10ω 佣 n) 或 服 从 对 数 正 态 分 布 , 将 生 存 时 间 分 布 与 协 变 量 建 立 线 性 关 联 , 考 察 生 存 时 间 分 布随 协 变 量 水 平 变 化 而 变 化 的 方 式 。 这 类 方 法 实 际 上 是 线 性 回 归 分 析 的 一 种 扩 展 。 其 次 必 须 要 提到 的 是 由 英 国 伦 敦 大 学 的 Cox 于 1972 年 提 出 的 比 例 风 险 模 型 CProportional Hazard ModeD 为 此做 出 了 划 时 代 的 贡 献 。 比 例 风 险 模 型 亦 称 Cox回 归 , 是 一 种 半 参 数 的 统 计 方 法 。 与 参 数 方 法 不同 , 半 参 数 方 法 不 对 生 存 时 间 的 分 布 进 行 假 设 也 可 以 评 价 协 变 量 的 影 响 。 比 例 风 险 模 型 的 提 出具 有 重 大 意 义 , 可 以 说 是 促 进 了 对 生 存 分 析 的 研 究 。 目 前 , 比 例 风 险 模 型 己 经 成 为 生 存 分 析 的 标准 统 计 方 法 。关 于 连 续 性 生 存 时 间 的 统 计 分 析 , 有 许 多 英 文 论 文 和 著 作 可 以 参 阅 。 Cox以 被 誉 为 生 存 分 析 方 法 的 里 程 碑 的 论 文 , 在 应 用 Cox(972) 是 一 篇 可回 归 进 行 生 存 分 析 的 论 文 中 这 篇 文 章 是 被引 用 的 最 多 的 。 这 篇 论 文 提 出 比 例 风 险 模 型 并 阐 述 了 它 的 计 算 原 理 。 除 此 以 外 还 明 确 了 log -rank 检 验 与 Cox 回 归 之 间 的 关 系 。 Kalbfleisch and Prentice (980) 是 一 本 面 向 统 计 学 家 的 教 科书 。 这 本 书 可 以 称 得 上 是 经 典 , 著 名 统 计 软 件 包 SAS是 , 这 本 书 较 为 难 懂 , 内 容 也 稍 嫌 陈 旧 。 而 Lee的 用 户 手 册 基 本 上 是 参 照 它 来 编 写 的 。 但(992) 相 对 来 讲 较 容 易 理 解 , 可 以 作 为 标 准 教 科书 推 荐 给 读 者 。 中 国 卫 生 统 计 出 版 社 于 1998 年 出 版 了 Lee (992) 的 中 文 译 本 ( 陈 家 鼎 , 等 译 ,1998) 。 虽 然 书 中 某 些 术 语 的 翻 译 有 些 不 合 常 规 , 比 如 将 比 例 风 险 模 型 译 为 比 例 风 险 率 模 型 , 但对 于 英 文 基 础 较 差 的 读 者 仍 不 失 为 一 本 学 习 生 存 分 析 的 好 的 参 考 书 。19. 1. 2 生 存 分 析 中 的 基 本 概 念1. 事 件 (E vent)事 件 指 由 研 究 者 所 规 定 的 生 存 时 间 的 终 点 。 在 生 存 分 析 中 , 事 件 是 一 个 非 常 重 要 的 概 念 , 它的 定 义 应 尽 可 能 地 清 楚 明 了 。 例 如 , 在 医 学 研 究 中 , 事 件 可 以 指 死 亡 、 疾 病 的 复 发 ; 在 工 业 上 , 事件 可 以 指 机 器 发 生 故 障 。 必 须 指 出 的 是 , 在 生 存 分 析 中 , 事 件 的 定 义 虽 然 多 为 消 极 的 、 负 面 的 , 但是 在 有 些 场 合 也 可 以 是 积 极 的 、 正 面 的 。 例 如 , 在 社 会 学 研 究 中 , 一 个 工 人 在 经 历 了 下 岗 之 后 的再 上 岗 。 由 于 历 史 的 原 因 , 许 多 关 于 生 存 分 析 的 教 科 书 和 文 献 将 事 件 称 为 失 败 事 件 CFailureEvent) , 这 对 初 学 者 来 说 容 易 引 起 迷 惑 , 似 乎 事 件 一 定 是 消 极 的 、 负 面 的 , 但 事 实 上 并 不 仅 限 于此 。 本 文 为 避 免 引 起 这 种 迷 惑 , 更 倾 向 于 用 具 有 广 义 含 义 的 " 所 关 心 事 件 " 或 " 所 关 心 结 局 " 这 种说 法 。 需 要 注 意 的 是 , 所 关 心 事 件 根 据 研 究 目 的 的 不 同 而 不 同 , 其 定 义 应 该 在 研 究 计 划 阶 段 确 定• 380 •


下 来 , 而 不 是 等 数 据 收 集 上 来 以 后 , 在 分 析 阶 段 确 定 。 另 外 , 所 关 心 事 件 只 是 一 个 学 术 上 的 概 念 ,应 与 人 们 在 日 常 生 活 中 的 " 所 期 待 的 事 情 "、" 所 期 盼 的 事 情 " 有 所 区 别 。2. 生 存 时 间 CSurvival Time)生 存 时 间 是 指 从 某 一 起 点 开 始 到 所 关 心 事 件 发 生 的 时 间 。 由 于 生 存 时 间 是 生 存 分 析 的 对象 , 所 以 对 其 理 解 至 关 重 要 。 首 先 , 生 存 时 间 中 的 " 生 存 " 是 一 个 广 义 的 概 念 , 它 不 仅 仅 是 指 医 学研 究 中 所 关 心 事 件 为 " 病 人 死 亡 " 时 的 " 存 活 " 也 可 以 是 指 工 业 上 所 关 心 事 件 为 " 机 器 发 生 故障 " 时 的 " 正 常 运 转 " 社 会 学 研 究 中 所 关 心 事 件 为 " 再 上 岗 " 时 的 " 待 业 "。 其 次 , 在 实 际 应 用 上 ,生 存 时 间 的 起 点 从 何 处 开 始 计 算 也 往 往 是 令 人 头 疼 的 问 题 。 对 于 随 机 化 临 床 试 验 来 说 , 原 则 上是 以 随 机 化 时 点 作 为 起 点 , 但 是 , 如 果 随 机 化 时 点 与 治 疗 开 始 时 点 相 隔 很 近 时 , 将 治 疗 开 始 时 点作 为 起 点 也 未 尝 不 可 。 但 是 对 于 不 进 行 随 机 化 的 观 察 性 研 究 , 特 别 是 像 关 于 糖 尿 病 这 种 发 病 时间 无 法 准 确 确 定 的 慢 性 病 研 究 来 说 , 生 存 时 间 的 起 点 也 往 往 无 法 准 确 确 定 , 这 时 , 研 究 结 论 中 也多 少 会 存 在 偏 倚 。 最 后 , 生 存 时 间 中 的 " 时 间 " 也 未 必 是 日 常 生 活 中 的 日 历 时 间 , 从 生 命 质 量 的观 点 来 看 , 卧 病 在 床 一 年 与 像 健 康 人 一 样 自 在 生 活 二 年 是 完 全 不 同 的 , 这 时 , 往 往 将 结 合 生 命 质量 的 时 间 作 为 生 存 时 间 。 另 外 , 关 于 工 业 中 产 品 质 量 的 研 究 中 , 生 存 时 间 可 能 根 本 不 是 通 用 意 义上 的 时 间 , 比 如 拿 轿 车 的 故 障 来 说 , 仅 将 轿 车 买 来 后 到 发 生 故 障 的 正 常 使 用 时 间 作 为 生 存 时 间 是欠 妥 当 的 , 更 为 妥 当 的 是 将 轿 车 的 行 驶 公 里 数 作 为 生 存 时 间 。 所 以 , 根 据 研 究 目 的 , 生 存 时 间 可以 是 多 样 化 的 。3. 删 失 CCensoring)删 夫 也 被 称 为 夫 访 , 删 夫 是 指 由 于 所 关 心 事 件 的 发 生 未 被 观 测 到 或 无 法 被 观 测 到 以 至 生 存时 间 无 法 被 准 确 记 录 下 来 的 情 况 。 如 前 所 述 , 删 夫 有 右 删 夫 、 左 删 夫 和 期 间 删 失 。 由 于 右 删 夫 最为 常 见 , 本 文 只 考 虑 右 删 失 。 参 见 图 19. 1 , 从 删 夫 的 发 生 机 制 上 来 讲 , 可 以 归 结 为 以 下 两 大 类 。一 类 是 在 研 究 截 止 时 , 所 关 心 事 件 仍 未 发 生 。 关 于 癌 症 患 者 生 存 时 间 的 研 究 中 , 研 究 期 间 往 往 是固 定 的 , 患 者 在 进 入 研 究 后 , 由 于 有 些 患 者 的 生 存 时 间 特 别 长 , 以 致 在 研 究 截 止 时 所 关 心 事 件( 死 亡 或 复 发 ) 仍 未 发 生 而 形 成 删 失 。 这 种 删 夫 的 形 成 还 与 患 者 进 入 研 究 期 间 的 设 定 有 关 , 相 对于 整 个 研 究 期 间 , 如 果 患 者 进 入 研 究 期 间 被 设 定 的 过 长 , 那 么 过 晚 进 入 研 究 的 患 者 容 易 发 生 删失 。 另 一 类 是 在 研 究 期 间 内 , 由 于 患 者 迁 出 或 死 于 其 他 疾 病 而 使 随 访 无 法 继 续 进 行 ( 夫 访 ) 而 形333随 i 方 开 始3?如生E 中q失 访失 访/\\/研 究 截 止 时 仍 存 活患 者 进 入 期研 究 截 止 时 间图 19. 1 删 夫 的 模 式 图• 381 •


成 删 失 。 虽 然 删 失 致 使 生 存 时 间 无 法 被 准 确 计 算 , 但 它 毕 竟 拥 有 一 定 的 信 息 , 在 分 析 时 也 应 将 其考 虑 在 内 。 从 某 种 意 义 上 来 讲 , 生 存 时 间 特 别 长 的 病 人 容 易 形 成 删 夫 , 忽 略 删 夫 的 分 析 将 导 致 研究 结 果 存 在 偏 倚 。 相 对 于 其 他 统 计 方 法 , 生 存 分 析 的 一 个 主 要 特 点 在 于 可 以 处 理 删 失 。必 须 指 出 的 是 , 在 实 际 研 究 中 有 时 存 在 着 事 件 与 删 失 无 法 简 单 区 分 的 情 况 。 比 如 , 在 关 于 癌症 患 者 术 后 化 疗 效 果 的 研 究 中 , 如 果 患 者 在 接 受 化 疗 的 过 程 中 发 生 交 通 事 故 死 亡 时 , 一 般 作 为 删失 处 理 。 但 是 也 有 可 能 是 由 于 化 疗 的 副 作 用 导 致 患 者 抑 郁 走 上 自 杀 之 路 。 这 时 , 死 亡 应 作 为 事件 还 是 删 夫 就 变 得 难 以 判 断 。 在 这 种 场 合 , 可 以 尝 试 做 两 套 分 析 , 一 套 将 其 作 为 删 夫 , 一 套 将 其作 为 事 件 , 看 研 究 结 论 是 否 有 改 变 。4. 生 存 函 数 (Survival Distribution Function) 与 风 险 函 数 (Hazard Function)生 存 函 数 和 风 险 函 数 是 用 来 描 述 生 存 时 间 的 分 布 的 两 个 主 要 工 具 。 用 一 个 非 负 随 机 变 量 T来 表 示 生 存 时 间 , 生 存 函 数 (SurvivalDistribution Function , 简 称 四 川 的 定 义 为 随 机 变 量 T 越 过 时点 t 的 概 率 。 当 t=O 时 , 生 存 函 数 的 取 值 为 1, 随 着 时 间 的 推 移 (t 逐 渐 增 大 ) , 生 存 函 数 的 取 值 逐渐 减 小 。 因 此 , 生 存 函 数 是 时 间 t的 单 调 递 减 函 数 ( 严 格 地 说 应 为 单 调 不 增 加 函 数 )。 生 存 函 数的 中 文 翻 译 还 可 见 累 积 生 存 概 率 或 生 存 率 ( 方 积 乾 等 , 200 1)。 笔 者 以 为 这 两 种 译 法 不 易 与 英 原文 联 系 起 来 , 故 在 此 仍 然 采 用 了 原 文 的 直 译 。 生 存 函 数 的 数 学 表 达 式 为 :5 (t) = Pr (T > t)其 中 , 5 (t) 表 示 生 存 函 数 , T 为 随 机 抽 取 的 研 究 对 象 的 生 存 时 间 。 生 存 函 数 的 估 计 方 法 为 非参 数 方 法 , 常 用 的 方 法 有 Kaplan - Meier 法 ( 也 称 乘 积 极 限 法 Product - Limit Method) 和 寿 命 表 法(Life - Table Method) 。与 生 存 函 数 紧 密 相 关 的 还 有 累 积 分 布 函 数 (CumulativeDistribution Function , 简 称 CDF) 、 概率 密 度 函 数 (Probability Density Function , 简 称 PDF) 和 风 险 函 数 (Hazard Function) 。 累 积 分 布 函数 记 为 F (t) , 定 义 为 1 - 5 (t) , 表 示 随 机 变 量 T 未 超 过 时 点 t 的 概 率 。 概 率 密 度 函 数 记 为 !(t) ,定 义 为 F (t) 的 导 数 。 风 险 函 数 , 记 为 h (t) , 定 义 为 !(t) /5 (t) , 表 示 随 机 变 量 T 己 至 时 点 t 的 条件 下 , 在 接 下 来 一 瞬 间 所 关 心 事 件 发 生 的 概 率 。 根 据 风 险 函 数 的 定 义 , 有 :h (t) = lim~r( t < T < t + ßt I T 注 。 =MIns (t) - 5 (t + ßt)=-d Clog5 (t) )部 → o ßt !1 t→ 口 ßt • 5 (t) dt据 此 可 求 出 累 积 风 险 函 数 :H ω= {h (u) du = - log 5 ( 仇 显 然 ,5 (t) = 叫 {-H(t)} 。 所以 , 生 存 时 间 的 分 布 既 可 以 生 存 函 数 来 表 现 , 也 可 以 用 风 险 函 数 或 者 是 累 积 风 险 函 数 来 表 现 。 但是 , 就 像 测 量 瞬 间 速 度 比 测 量 距 离 要 困 难 一 样 , 对 风 险 函 数 的 估 计 较 容 易 受 到 随 机 误 差 的 影 响 ,而 对 生 存 函 数 的 估 计 则 相 对 稳 定 。 所 以 在 实 际 应 用 中 , 描 述 生 存 时 间 分 布 更 常 用 生 存 函 数 。生 存 函 数 、 风 险 函 数 和 累 积 风 险 函 数 三 者 的 特 征 可 以 用 图 19.2 来 表 示 。 风 险 函 数 由 于 是 瞬 间死 亡 率 所 以 非 负 。 累 积 风 险 函 数 由 于 是 风 险 函 数 在 时 间 上 的 积 分 , 当 然 表 现 为 单 调 递 增 ( 严 格 地 说应 为 单 调 不 递 减 )。 而 生 存 函 数 正 好 与 累 积 风 险 函 数 相 反 , 表 现 为 单 调 递 减 ( 单 调 不 递 增 )。 风 险函 数 的 值 越 大 表 示 风 险 越 高 , 生 存 函 数 的 值 就 越 快 向 O 逼 近 。 假 如 实 施 一 种 处 理 后 , 任 意 时 点 t 的风 险 函 数 都 变 为 处 理 前 的 α 倍 , 即 : 川 = 川 (t) 。 则 由 于 川 = 仅 咔 ih( 训 仆 有 :• 382 •川 = 叫 ( - {a • h (u) 忡


风 险 函 数 非 负 生 存 函 数 1--0 单 调图 19.2生 存 函 数 、 风 险 函 数 与 累 积 风 险 函 数 的 特 征这 说 明 α 倍 的 风 险 将 导 致 生 存 函 数 以 α 次 方 的 形 式 变 化 。 这 种 风 险 函 数 与 生 存 函 数 之 间 的关 系 可 以 用 图 19. 3 表 示 。风 险 函 数 h 生 存 函 数th (t) 大~ h (t) 小h(t) 小h(t) 大图 19. 3 风 险 函 数 与 生 存 函 数 的 关 系事 实 上 , 两 个 风 险 函 数 的 比 值 就 是 相 对 危 险 度 , 这 在 将 Cox 回 归 中 进 一 步 加 以 讲 解 。19. 1. 3 生 存 分 析 的 基 本 步 骤(1) 刻 画 生 存 时 间 的 分 布 : 刻 画 生 存 时 间 分 布 的 常 用 工 具 为 生 存 函 数 。 估 计 生 存 函 数 的 两个 常 用 方 法 为 Kaplan - Meier 法 和 寿 命 表 法 。 两 种 方 法 适 用 于 不 同 的 生 存 时 间 数 据 。(2) 生 存 时 间 分 布 的 组 间 比 较 : 在 不 考 虑 其 他 混 杂 因 子 的 情 况 下 , 利 用 Kaplan - Meier 法 或寿 命 表 法 可 以 实 现 生 存 时 间 的 组 间 比 较 。 两 种 方 法 各 自 的 组 间 比 较 方 法 也 稍 有 不 同 。(3) 评 价 生 存 时 间 分 布 影 响 因 子 的 效 果 : 利 用 数 学 模 型 拟 合 生 存 时 间 分 布 与 多 个 影 响 因 子 之间 的 关 系 , 评 价 影 响 因 子 对 生 存 时 间 分 布 的 影 响 效 果 。 如 果 影 响 因 子 的 取 值 不 随 时 间 的 变 化 而 变化 ( 横 断 面 研 究 ) , 则 拟 合 Cox 回 归 模 型 ( 亦 称 比 例 风 险 模 型 ) , 如 果 影 响 因 子 的 取 值 随 着 时 间 的 变化 而 变 化 ( 时 间 依 存 性 协 变 量 , 纵 向 研 究 ) , 则 拟 合 包 含 时 间 依 存 性 协 变 量 的 Cox 回 归 模 型 。19. 1. 4 SPSS 与 生 存 分 析如 前 所 述 , 生 存 分 析 方 法 可 被 分 为 参 数 法 、 半 参 数 法 和 非 参 数 法 三 种 , 在 SPSS 中 , 参 数 生 存分 析 模 型 可 以 使 用 Regression 模 块 中 的 Nonlinear 过 程 加 以 拟 合 。 半 参 和 非 参 模 型 则 被 集 中 在 Analyze菜 单 中 的 Sl 盯 ival 条 目 里 , 该 条 目 共 包 含 4 个 对 话 框 , 从 上 至 下 分 别 是 Life Tables 、 Kaplan 一• 383 •


Meier 、 Cox Regression 和 Cox w/ Time Dep Cov 对 话 杠 。 Life Tables 和 Kaplan - Meier 对 话 杠 分 别对 应 寿 命 表 法 和 Kaplan - Meier 法 。 利 用 这 两 个 对 话 杠 还 可 以 实 现 生 存 时 间 分 布 的 组 间 比 较 oKaplan - Meier 法 的 组 间 比 较 方 法 有 logrank 检 验 ( 也 称 为 时 序 检 验 )、 Breslow 检 验 和 Tarone -Ware 检 验 。 寿 命 表 法 的 组 间 比 较 方 法 有 Wilcoxon 检 验 , 这 些 方 法 都 属 于 非 参 数 方 法 。 Cox RegresslO n 对 话 杠 用 来 拟 合 Cox 回 归 模 型 。 Cox w/ Time Dep Cov 对 话 杠 用 来 拟 合 包 含 时 间 依 存 性协 变 量 的 Cox 回 归 模 型 。接 下 来 , 本 章 将 基 于 前 述 生 存 分 析 的 基 本 步 骤 对 上 述 内 容 进 行 展 开 。 首 先 介 绍 Kaplan -Meier 法 和 寿 命 表 法 。 这 部 分 的 内 容 包 含 两 个 方 面 , 一 是 利 用 Kaplan - Meier 法 和 寿 命 表 法 对 不同 资 料 的 生 存 函 数 进 行 估 计 , 二 是 利 用 Kaplan - Meier 法 和 寿 命 表 法 中 的 组 间 比 较 方 法 对 组 间 生存 时 间 分 布 的 差 异 进 行 检 验 ; 其 次 介 绍 如 何 拟 合 Cox回 归 模 型 和 包 含 时 间 依 存 性 协 变 量 的 Cox回 归 模 型 ; 最 后 介 绍 一 下 利 用 Cox 回 归 模 型 进 行 其 他 统 计 分 析 的 内 容 。19.2 生 存 函 数 的 估 计 和 检 验利 用 生 存 函 数 ( 生 存 率 ) 对 生 存 时 间 分 布 进 行 描 述 是 生 存 分 析 的 第 一 步 。 实 现 这 一 目 的 有两 种 方 法 : Kaplan - Meier 法 和 寿 命 表 法 。Kaplan - Meier 法 适 用 于 样 本 量 较 小 , 每 个 观 察 个 体 的事 件 发 生 时 点 或 删 夫 发 生 时 点 能 够 被 准 确 记 录 下 来 的 生 存 时 间 数 据 。 寿 命 表 法 适 用 于 样 本 量 较大 , 生 存 时 间 分 段 记 录 的 数 据 。 由 于 在 实 际 研 究 中 Kaplan - Meier 法 较 为 常 用 , 本 节 先 介 绍 Kaplan- Meier 法 , 稍 后 再 介 绍 寿 命 表 法 。19.2.1 生 存 函 数 的 基 本 估 计 方 法为 简 明 起 见 , 这 里 先 用 一 个 假 想 的 例 子 介 绍 生 存 函 数 的 基 本 估 计 方 法 , 对 具 体 计 算 过 程 不 感兴 趣 的 读 者 可 以 跳 过 此 节 , 这 将 不 会 影 响 对 整 章 的 理 解 。如 图 19.4 所 示 , 该 例 假 想 在 研 究 开 始 时 共 有 7 个 个 体 , 随 着 研 究 的 进 行 开 始 出 现 死 亡 事 件和 删 夫 , 在 研 究 结 束 时 , 共 有 4 个 个 体 发 生 死 亡 , 有 3 个 个 体 删 失 。 死 亡 事 件 发 生 在 t] , t 2 、 乌 、 t4日 才 点 。 的 、 的 、 矶 、 d4为 对 应 时 点 发 生 死 亡 的 个 体 数 , 由 于 本 例 假 设 在 每 个 时 点 只 有 一 个 个 体 发 生死 亡 , 所 以 d] = 乓 = d 3 = ι=1 。 发 生 死 亡 事 件 的 每 个 时 点 之 前 的 尚 存 个 体 数 记 为 叫 、 川 、 川 、 n 4 ,图 19.4中 相 应 时 点 的 尚 存 个 体 数 记 录 在 括 号 中 。 可 以 根 据 这 些 数 值 对 生 存 函 数 进 行 估 计 并 绘制 出 生 存 曲 线 图 。 图 19.4的 下 半 部 分 给 出 了 用 Kaplan - Meier 法 对 本 例 的 每 一 个 时 点 的 生 存 函数 进 行 估 计 的 算 式 和 实 际 数 值 的 计 算 过 程 , 并 根 据 计 算 结 果 绘 制 了 生 存 曲 线 图 。 由 图 19.4可知 , 生 存 函 数 为 一 阶 梯 状 函 数 , 在 研 究 开 始 时 ( 时 点 。) 其 值 为 1, 随 着 研 究 的 进 行 里 阶 梯 状 下 降 。每 一 阶 梯 的 下 降 表 示 有 死 亡 事 件 发 生 , 如 果 最 后 一 个 个 体 发 生 死 亡 , 则 生 存 函 数 变 为 o( 如 本例 )。 阶 梯 的 高 度 即 为 相 应 时 点 的 生 存 函 数 的 估 计 ( 累 积 生 存 概 率 ) , 它 实 际 上 是 相 应 时 点 的 生存 概 率 与 此 前 的 所 有 时 点 的 生 存 概 率 的 连 乘 积 。 具 体 地 , 令 下 标 i表 示 死 亡 事 件 发 生 的 时 点 顺位 ( 由 小 到 大 ) , 则 t 表 示 事 件 发 生 的 时 点 , d 表 示 在 时 点 t 发 生 死 亡 事 件 的 个 体 数 , n 表 示 时 点t 之 前 的 尚 存 人 数 。 生 存 函 数 的 估 计 量 可 以 表 示 为 :S(t) = C1 -d]/n]) x C1 -d 2/n 2) x … x C1 -d/n)• 384 •


= 川 c1 - d/n)ti


有 夫 访 。 在 研 究 结 束 时 , Prednisolone 新 药 组 有 10 名 患 者 仍 然 存 活 , 对 照 组 有 6 名 ( 在 数 字 的 右肩 做 一 些 标 记 标 明 删 夫 、 是 何 种 删 夫 是 通 常 的 做 法 )。1. 数 据 格 式 与 基 本 操 作含 有 删 夫 的 生 存 时 间 数 据 最 少 需 要 两 个 变 量 , 一 个 就 是 分 析 的 主 要 对 象 一 一 时 间 , 另 一 个 就是 指 明 时 间 是 事 件 发 生 时 间 还 是 删 夫 发 生 时 间 的 指 示 变 量 。 如 果 要 比 较 不 同 组 或 层 的 生 存 函数 , 则 还 需 要 构 建 分 组 变 量 。 本 例 数 据 共 需 要 建 立 三 个 变 量 months , status 和 group , 分 别 表 示 患者 的 生 存 时 间 ( 月 )、 是 否 删 失 ( 没 有 删 失 0 , 夫 访 1, 研 究 结 束 时 仍 存 活 2) 和 组 别 CPrednisolone 新药 组 1, 对 照 组 2) , 见 文 件 k - m. savo显 然 , 本 例 为 生 存 分 析 数 据 , 且 记 录 了 每 位 受 访 者 的 详 细 随 访 时 间 和 结 局 , 因 此 可 以 使 用Kaplan - Meier 法 进 行 生 存 函 数 的 估 计 。 具 体 操 作 如 下 :: Analyze• Survival• Kaplan - Meier:Time 杠 : months!Status杠 : status 11Define Eve 叫 : Single value: 0: 1Continuel!Factor 杠 : groupi 困在 以 上 操 作 中 , Time 杠 和 Factor 杠 分 别 用 于 选 入 时 间 变 量 和 分 组 变 量 , 比 较 复 杂 的 是 用 于设 定 结 局 变 量 , 或 者 删 失 变 量 的 status 杠 。 将 变 量 status 移 入 后 , 需 要 进 一 步 对 事 件 发 生 指 示 值( 对 于 本 例 , 应 为 死 亡 发 生 , 即 未 发 生 删 夫 , 所 以 status = 0) 进 行 走 义 。 点 击 status C?) 后 , 杠 下 的[Define Event. . . ] 按 钮 便 被 激 活 。 如 图 19.5 所 示 。 点 击 [Define Event. . . ] 按 钮 会 出 现 一 个 子对 话 框 , 可 以 定 义 单 一 指 示 值 CSingle高 血 压 治 疗 中 舒 张 压 大 于 等 于 110value) , 也 可 以 定 义 一 个 指 示 值 的 范 围 C Range of values , 如表 示 所 关 心 事 件 发 生 ) , 还 可 以 定 义 一 个 指 示 值 的 清 单 CListof values , 如 在 肝 癌 生 存 研 究 中 , 死 于 肝 破 裂 、 肝 衰 竭 都 认 为 所 关 心 事 件 发 生 )。 对 于 本 例 , 指 示事 件 发 生 ( 未 删 失 ) 的 值 只 有 一 个 0 , 所 以 点 击 Single value 右 面 的 小 框 , 输 入 "0" 即 可 。图 19.5 Kaplan - Meier 主 对 话 框 和 Define Event 子 对 话 框• 386 •


除 以 上 用 到 的 杠 组 外 , 主 对 话 杠 中 还 有 一 个 很 重 要 的 Strata 框 , 它 用 于 选 入 生 存 分 析 中 的 分层 变 量 , 这 一 概 念 将 在 本 章 最 后 加 以 讲 解 , 此 处 从 略 。2. 分 组 生 存 函 数 的 估 计 结 果本 例 的 结 果 输 出 标 题 为 "kaplan-Meier" , 表 明 使 用 的 是 K-M 估 计 , 具 体 内 容 如 下 :Survival Analysis for months 生 存 时 间 ( 月 )Factor group = prednisolone组Time Status Cumulative Standard Cumulative NumberSurvival Error Events Remaining2 出 现 结 局 .9545 .0444 216 出 现 结 局 .9091 .0613 2 2012 出 现 结 局 .8636 .0732 3 1954 出 现 结 局 .8182 .0822 4 1856 删 失 4 1768 出 现 结 局 .7701 .0904 5 1689 出 现 结 局 .7219 .0967 6 1596 出 现 结 局 7 1496 出 现 结 局 .6257 . 1051 8 13125 试 验 结 束 时 仍 存 活 8 12128 试 验 结 束 时 仍 存 活 8 11131 试 验 结 束 时 仍 存 活 8 10140 试 验 结 束 时 仍 存 活 8 9141 试 验 结 束 时 仍 存 活 8 8143 出 现 结 局 .5475 .1175 9 7145 试 验 结 束 时 仍 存 活 9 6146 出 现 结 局 .4562 . 1285 10 5148 试 验 结 束 时 仍 存 活 10 4162 试 验 结 束 时 仍 存 活 10 3168 出 现 结 局 .3041 . 1509 11 2173 试 验 结 束 时 仍 存 活 11181 试 验 结 束 时 仍 存 活 11 ONumber of Cases: 22 Censored: 11 ( 50.00%) Events: 11• 387 •


分 析 结 果 中 第 一 个 方 杠 中 的 第 一 行 指 明 是 用 Kaplan - Meier 方 法 , 第 二 行 指 明 用 于 生 存函 数 估 计 的 变 量 为 "MONTHS" , 第 二 行 开 始 是 分 组 生 存 函 数 的 估 计 结 果 ( 寿 命 表 ) , 首 先 是"GROUP = 1" 的 结 果 。 结 果 共 有 6 列 , 它 们 分 别 是 Time 、 Status 、 Cum1 山 tive Survival 、 StandardError 、Cumulative Events 和 Number Rem 口 mal 盯 叩 ln 川 lI0 , 失 访 1, 研 究 结 束 时 仍 存 i 活 舌 2 幻 ) ; 川 C 旧 n1 山 tiv 刊 e Survival 就 是 生 存 函 数 的 估 计 值 ( 相 应 时 点 的 累 积生 存 概 率 ) ; Standard Error 为 生 存 函 数 估 计 的 标 准 误 差 ; Cumulative Events 为 累 积 死 亡 患 者 数 ;N umber Remaining 为 剩 余 人 数 ( 总 人 数 一 己 死 亡 人 数 一 己 删 夫 人 数 )。 第 一 个 方 杠 的 最 后 一行 输 出 了 该 组 的 总 人 数 、 删 夫 人 数 ( 占 总 人 数 的 百 分 比 ) 和 事 件 发 生 人 数 ( 本 例 为 死 亡 数 )。接 下 来 的 方 杠 中 输 出 了 该 组 生 存 时 间 的 均 数 和 中 位 数 及 相 应 的 标 准 误 和 95% 可 信 区 间 。 随后 输 出 的 是 关 于 试 验 组 中 事 件 发 生 数 、 删 失 数 等 的 总 结 , Mean是 平 均 生 存 时 间 ( 注 意 算 法 和普 通 的 均 数 不 同 ) , Median 是 中 位 生 存 时 间 。 以 下 应 当 继 续 输 出 对 照 组 的 寿 命 表 , 为 节 省 篇幅 , 此 处 略 去 。Mean:(Limited toMedian:Survival Time Standard Error 95 % Confidence Interval1251399 , 152 )181 )1462990 , 202 )结 果 中 最 后 给 出 的 是 两 组 生 存 情 况 的 总 结 , 内 容 比 较 简 单 , 不 再 解 释 。Survival Analysis for months 生 存 时 间 ( 月 )Total Number NumberEvents Censoredgroup prednisolone 组 22 11 11group 对 照 组 22 16 6PercentCensored50.0027.27Overall 44 27 1738.643. 分 组 绘 制 生 存 曲 线 图生 存 曲 线 图 是 生 存 分 析 中 非 常 重 要 的 图 形 工 具 。 以 时 间 MONTHS 为 横 轴 , 生 存 函 数 的 估 计值 为 纵 轴 , 就 可 以 绘 制 出 生 存 曲 线 图 , 这 在 SPSS 里 是 通 过 对 Options 子 对 话 杠 中 的 选 项 加 以 更 改实 现 的 。 Options 对 话 杠 分 为 两 个 部 分 , 从 上 至 下 分 别 是 Statistics 和 Plots 部 分 。 在 Statistics 部分 , Survival table (s) 和 Mean and median Sl 盯 ival 为 默 认 选 项 , 用 于 输 出 上 述 的 结 果 , 也 可 以 选 择Quartiles 输 出 生 存 时 间 的 分 位 数 及 它 们 的 标 准 误 差 ( 包 括 25% 、 50% 和 75% 分 位 数 ) 0 Plots 部 分包 括 S 旧 vival 、 One minus s 盯 vival 、 Hazard 、 Log survival 4 项 , 选 择 它 们 将 分 别 输 出 生 存 曲 线 、 累 积• 388 •


分 布 曲 线 、 风 险 函 数 曲 线 和 取 对 数 后 的 生 存 函 数 曲 线 。 在 此 , 只 要 求 绘 制 生 存 曲 线 , 所 以 在 选 择Survival 后 得 到 图 形 如 图 19.6 所 示 。图 19. 6 不 同 组 的 慢 性 活 动 性 肝 炎 患 者 的 生 存 曲 线4. 生 存 函 数 的 组 间 比 较在 生 存 分 析 中 " 不 同 组 之 间 的 生 存 函 数 是 否 一 致 ?" 是 研 究 者 经 常 关 心 的 问 题 。 还 是 拿慢 性 活 动 性 肝 炎 的 例 子 来 说 , 如 果 将 两 组 的 生 存 曲 线 放 在 一 张 图 上 , 会 发 现 两 条 曲 线 的 走 向非 常 不 同 , 对 照 组 曲 线 的 下 降 速 度 明 显 比 Prednisolone 治 疗 组 要 快 , 反 映 出 两 组 之 间 生 存 函 数的 差 异 。 要 判 断 这 种 差 异 是 仅 仅 由 于 抽 样 误 差 造 成 的 还 是 由 于 不 同 治 疗 造 成 的 就 要 依 靠 统计 检 验 的 力 量 了 。图 19. 7 Kaplan - Meier 过 程 主 对 话 框 和 Compare 子 对 话 框• 389 •


如 图 19. 7 所 示 , SPSS 在 Compare Factor 子 对 话 杠 中 提 供 了 三 种 对 组 间 生 存 函 数 的 差 异 进 行检 验 的 方 法 , 它 们 分 别 是 Log Rank 法 、 Breslow 法 ( 即 广 义 Wilcoxon 法 ) 和 Tarone - Ware 法 , 其 中Log Rank 法 和 Breslow 法 是 较 为 常 用 的 方 法 。 选 择 对 话 杠 Test Statistcs ( 检 验 统 计 量 ) 部 分 中 的三 种 方 法 后 , SPSS 会 在 生 存 分 析 表 的 最 后 面 给 出 检 验 结 果 如 下 :Test Statistics for Equality of Survival Distributions for groupStatistic df Significanceor RhFhUALILRHmw··kQU4. 666. 54咽EAtEAtEA.0309.0105Tarone - Ware6.07.0138对 应 于 Log Rank 、 Breslow 和 Tarone - Ware 三 种 检 验 方 法 的 检 验 统 计 量 分 别 为 4. 66 、 6. 54和 6.070 这 三 个 检 验 统 计 量 均 服 从 自 由 度 为 1 的 正 分 布 , 它 们 的 P 值 分 别 为 0.030 9 、0.010 5 和 0.01380 这 说 明 在 两 组 之 间 总 体 生 存 函 数 没 有 差 异 的 前 提 假 设 下 , 获 得 现 有 样 本结 果 的 可 能 性 非 常 小 , 从 而 推 断 两 组 之 间 ( 总 体 ) 生 存 函 数 的 差 异 具 有 显 著 性 , 认 为 不 同 治 疗对 慢 性 活 动 性 肝 炎 患 者 的 生 存 时 间 是 有 影 响 的 , 从 样 本 生 存 函 数 看 , 应 当 是 试 验 药 物 组 的 生存 状 况 要 好 一 些 。5. 检 验 方 法 的 选 择由 前 面 的 介 绍 可 知 , SPSS中 用 于 检 验 组 间 生 存 函 数 差 异 的 方 法 有 三 种 , 同 一 资 料 由 三 种 方法 所 得 到 的 结 果 是 不 同 的 。 这 是 由 于 在 统 计 计 算 过 程 中 , 三 种 方 法 在 各 时 点 所 取 的 权 重 不 同 造成 的 。 Log Rank 法 在 各 时 点 的 权 重 均 为 1 , Breslow 法 在 各 时 点 的 权 重 等 于 各 时 点 前 的 尚 存 人数 , Tarone - Ware 法 在 各 时 点 的 权 重 界 于 上 述 两 种 方 法 之 间 , 等 于 各 时 点 前 的 尚 存 人 数 的 平 方根 。 因 此 , 对 于 一 开 始 粘 在 一 起 , 随 着 时 间 的 推 移 越 拉 越 开 的 生 存 曲 线 , Log Rank 法 较 Breslow法 容 易 得 到 差 异 有 显 著 性 的 结 果 。 反 之 , 对 于 一 开 始 相 差 很 大 , 随 着 时 间 的 推 移 反 而 越 来 越 接 近的 生 存 曲 线 , 要 得 到 差 异 有 显 著 性 的 结 果 , Breslow 法 会 较 有 优 势 。 而 Tarone - Ware 法 的 权 重 定义 因 界 于 上 述 两 种 方 法 之 间 , 其 结 果 也 偏 于 中 庸 。6. 对 话 杠 中 的 其 他 选 项在 本 例 中 有 少 数 对 话 杠 选 项 未 被 用 到 , 这 里 简 单 解 释 一 下 , Compare Factor 子 对 话 杠 中 部 的Linear trend for factor levels 复 选 杠 要 求 对 比 较 因 素 的 水 平 间 是 否 存 在 线 性 趋 势 进 行 检 验 。 这 个选 择 项 只 有 当 Factor 杠 中 选 入 因 素 的 水 平 间 是 有 序 时 才 有 实 际 意 义 。 比 如 疾 病 严 重 程 度 : 轻 、中 、 重 。 而 它 下 方 的 单 选 杠 组 用 于 确 定 在 比 较 时 是 进 行 总 体 比 较 还 是 两 两 比 较 , 以 及 对 分 层 变 量的 处 理 方 式 。 共 有 以 下 4 种 。• 390 •


(1) Pooled over strata: 系 统 默 认 。 水 平 间 的 整 体 比 较 。 控 制 混 杂 因 素 ( 分 层 因 素 ) 后 对 Factor杠 中 所 选 的 研 究 因 素 进 行 比 较 , 结 果 只 有 一 个 统 计 量 。(2) For each stratum: 按 分 层 变 量 的 不 同 水 平 , 对 每 一 层 进 行 分 组 因 素 各 水 平 间 的 整 体 比较 。 结 果 有 N 个 统 计 量 , N 等 于 分 层 变 量 的 水 平 数 。(3) Pairwise over strata: 控 制 混 杂 因 素 后 对 研 究 因 素 各 水 平 间 进 行 两 两 比 较 , 相 当 于 流 行 病学 中 控 制 某 个 混 杂 因 素 后 进 行 两 两 比 较 。 对 线 性 趋 势 检 验 则 无 两 两 比 较 。(4) Pairwise for each stratum: 按 混 杂 因 素 变 量 的 不 同 水 平 , 分 层 对 研 究 因 素 各 水 平 间 进 行 两两 比 较 。 同 样 , 对 于 线 性 趋 势 检 验 也 无 两 两 比 较 。Save子 对 话 杠 在 本 例 中 没 有 用 到 , 该 对 话 杠 非 常 简 单 , 用 于 将 计 算 结 果 保 存 为 新 变 量 , 可 供保 存 的 变 量 有 :(1) Survival: 生 存 函 数 估 计 值 。(2) Standard error of Sl 盯 ival: 生 存 函 数 估 计 的 标 准 误 。(3) Hazard: 累 积 风 险 函 数 估 计 值 。(4) Cum1 山 tive events: 所 关 心 事 件 的 累 积 频 数 。 SPSS 在 输 出 结 果 时 将 在 研 究 因 素 与 混 杂 因素 各 种 取 值 水 平 组 合 内 , 即 每 一 亚 群 内 , 把 病 例 按 生 存 时 间 的 长 短 和 生 存 状 态 排 序 。19.2.3 寿 命 表 法虽 然 Kaplan - Meier 法 是 估 计 生 存 函 数 的 常 用 方 法 , 但 此 法 仅 适 用 于 能 够 准 确 记 录 事 件和 删 夫 发 生 时 点 的 数 据 。 对 于 像 癌 症 复 发 这 样 的 事 件 , 复 发 发 生 的 时 点 往 往 无 法 准 确 记 录 ,要 靠 定 期 检 查 来 追 踪 。 这 时 , 由 于 生 存 函 数 的 估 计 是 在 一 定 的 时 段 内 进 行 的 , 采 用 寿 命 表 法更 为 适 宜 。这 里 来 看 一 个 例 子 , 某 医 院 对 114 名 男 性 胃 癌 患 者 接 受 手 术 后 的 生 存 情 况 进 行 了 11 年 的 随访 , 得 到 数 据 如 表 19.2 所 不 。表 19. 2 114 19 1J 男 性 胃 癌 患 者 术 后 生 存 情 况术 后 年 数 0- 1 - 2- 3 - 4- 5- 6- 7 - 8 - 9- 10-11期 间 夫 访 人 数 5 4 l O 2 2 2 O l l期 间 死 亡 人 数 3 9 10 22 2 8 12 10 5 3 11显 然 , 该 数 据 的 记 载 形 式 与 前 述 慢 性 活 动 性 肝 炎 的 数 据 稍 有 不 同 。 慢 性 活 动 性 肝 炎 数 据 记载 的 是 每 个 患 者 的 准 确 死 亡 时 间 或 删 失 时 间 , 而 该 数 据 记 载 的 是 在 某 一 时 间 段 内 死 亡 和 删 夫 发生 的 人 数 。 这 种 数 据 记 载 形 式 是 典 型 的 寿 命 表 数 据 记 载 形 式 。 虽 然 慢 性 活 动 性 肝 炎 数 据 也 可 以通 过 划 分 时 段 、 统 计 时 段 内 的 死 亡 人 数 和 删 夫 人 数 转 化 为 寿 命 表 式 的 记 载 形 式 , 但 这 样 做 毕 竟 损失 了 信 息 。 在 实 际 研 究 中 , 当 观 察 对 象 数 量 较 少 、 数 据 收 集 过 程 较 容 易 受 到 控 制 时 , 应 尽 可 能 准确 地 记 载 每 个 观 察 对 象 的 死 亡 或 删 夫 发 生 时 间 , 以 减 少 信 息 的 损 失 以 及 分 析 的 偏 性 , 但 当 观 察 对• 391 •


象 数 量 巨 大 时 , 准 确 记 载 每 个 观 察 对 象 的 死 亡 或 删 夫 发 生 时 间 变 得 不 太 可 能 , 这 时 一 般 采 用 寿 命表 对 数 据 进 行 归 纳 整 理 。 寿 命 表 的 数 据 形 式 类 似 于 对 计 量 资 料 划 分 组 段 后 , 对 每 一 组 段 的 观 察对 象 数 进 行 计 数 后 形 成 的 频 数 表 。对 寿 命 表 数 据 进 行 生 存 函 数 估 计 的 方 法 称 为 寿 命 表 法 。 在 SPSS 中 可 以 通 过 调 用 Life Tables过 程 实 现 。 本 例 的 数 据 见 lifetb l. sav , 其 中 years 变 量 表 示 时 段 开 始 的 时 点 , 如 O 表 示 o ~ 1年 , 1 表 示 1 ~ 2 年 : died 表 示 死 亡 还 是 删 夫 , 定 义 status = 1 表 示 死 亡 , 0 表 示 删 失 :num 变 量 表 示人 数 。 显 然 , 该 数 据 为 频 数 格 式 录 入 , 需 要 首 先 使 用 Weight Cases 过 程 将 num 指 定 为 频 数 变 量 ,随 后 的 操 作 如 下 :: Analyze• Survival• Life Tables:Time杠 : timeiDisplay Time Intervals: 囚 by [IJ:Status杠 : died 11Define Eve 叫 : Single value: 1 : 1Continuel; 因以 上 操 作 基 本 上 和 前 面 的 Kaplan - Meier 过 程 相 同 , 比 较 特 殊 的 是 Display Time Intervals 杠组 , 它 用 来 定 义 寿 命 表 数 据 的 时 段 。 由 于 本 研 究 是 从 第 O 年 开 始 到 第 10 年 结 束 每 年 定 期 观 测 一次 , 所 以 相 应 填 入 10 和 1 即 可 , 如 图 19. 8 所 示 。图 19. 8 Life Tables 主 对 话 框本 例 的 分 析 结 果 如 下 :• 392 •


This subfile contains:20 observationsLife TableSurvival Variable time 术 后 年 数Number Number Number Number Cu 日 mlIntrvl Entrng Wdrawn Exposd of Propn Propn Propn Proba 一Start this During to Termnl Termi 一 Sur 一 Surv bility HazardTime Intrvl Intrvl Risk Events natmg vlvmg at End Densty Rate.0 114.0 5.0 11 1. 5 3.0 .0269 .9731 .9731 .0269 .02731. 0 106.0 4.0 104.0 9.0 .0865 .9135 .8889 .0842 .09052.0 93.0 1. 0 92.5 10.0 . 1081 .8919 .7928 .0961 .11433.0 82.0 .0 82.0 22.0 .2683 .7317 .5801 .2127 .30994.0 60.0 2.0 59.0 2.0 .0339 .9661 .5604 .0197 .03455.0 56.0 2.0 55.0 8.0 . 1455 .8545 .4789 .0815 . 15696.0 46.0 2.0 45.0 12.0 .2667 .7333 .3512 .1277 .30777.0 32.0 1. 0 3 1. 5 10.0 .3175 .6825 .2397 .1115 .37748.0 21. 0 .0 2 1. 0 5.0 .2381 .7619 . 1826 .0571 .27039.0 16.0 1. 0 15. 5 3.0 .1935 .8065 . 1473 .0353 .214310.0+ 12.0 1. 0 11. 5 11. 0 .9565 .0435 .0064* * * ** * These calculations for the last interval are meaningless.The median survival time for these data is 5. 74上 面 方 杠 中 给 出 的 就 是 胃 癌 病 人 的 寿 命 表 。 来 看 一 下 它 的 计 算 方 法 和 K-M 法 有 什 么 不同 , 以 o ~ 1 年 组 为 例 , 系 统 计 算 出 O 年 时 进 行 研 究 的 共 114 例 , 但 是 其 中 有 5 例 在 o ~ 1 年 中 删失 了 , 由 于 不 知 道 具 体 的 删 失 时 间 , 只 能 假 设 它 们 均 只 被 观 察 了 半 年 , 因 此 暴 露 在 死 亡 风 险 中 的总 人 数 为 114 - 5/2 = 11 1. 5 。 同 时 , 该 区 段 有 三 人 出 现 了 失 效 事 件 , 因 此 死 亡 率 的 估 计 值 为 3/11 1. 5 = O. 026 9 。 其 后 的 计 算 一 律 和 K-M 法 相 同 。 也 就 是 说 , 寿 命 表 法 只 是 将 期 间 删 夫 的 个体 算 作 只 观 察 到 了 一 半 , 或 者 说 一 律 算 作 在 期 中 发 生 失 效 事 件 。 从 而 对 观 察 例 数 进 行 了 校 正 而己 , 其 余 并 无 特 殊 。结 果 输 出 的 倒 数 第 二 句 显 示 最 后 一 个 组 段 某 些 指 标 的 计 算 是 无 实 际 意 义 的 , 这 是 由 于 最 后• 393 •


一 个 组 段 仍 有 人 夫 访 。 最 后 一 句 显 示 中 位 生 存 时 间 为 5. 74 年 , 即 术 后 胃 癌 病 人 死 亡 人 数 达 到 一半 的 时 间 为 5. 74 年 。上 面 给 出 的 实 际 上 是 寿 命 表 的 一 部 分 , 由 于 寿 命 表 太 宽 , 在 一 起 排 不 下 , 所 以 后 面 还 会 单 独输 出 几 列 , 此 处 略 。 整 个 寿 命 表 中 给 出 的 指 标 含 义 如 下 : Intrvl Start Time: 生 存 时 间 的 组 段 下 限 。 Number Entrng this Intr 飞 V 山 7〈 令 > Number Wdrawn During Intrval: 该 组 段 的 删 失 例 数 。 Number Exposed to Risk: 暴 露 于 危 险 因 素 的 例 数 , 即 有 效 观 察 例 数 , 有 的 参 考 书 上 称 之为 校 正 人 数 , 等 于 进 入 该 组 段 的 观 察 例 数 减 去 1/2 删 夫 人 数 ( 夫 访 者 打 5 折 )。 与 流 行 病 学 中 计算 观 察 人 年 数 有 点 类 似 。 Number of Termnl Events: 出 现 所 关 心 事 件 的 例 数 , 即 死 亡 ( 复 发 、 恶 化 ) 例 数 。 Propn Terminating: 出 现 所 关 心 事 件 的 观 察 单 位 数 的 比 例 , 即 各 组 的 死 亡 概 率 。 Propn Surviving: 各 组 的 生 存 概 率 , 等 于 1 一 死 亡 概 率 。 Cumul Propn Sl 盯 at End: 至 本 组 段 上 限 的 生 存 函 数 估 计 值 , 由 各 组 的 生 存 概 率 累 积 相乘 所 得 。 Probability Densty: 概 率 密 度 。 所 有 个 体 在 时 点 t 后 单 位 时 间 内 死 亡 概 率 的 估 计 值 。 Hazard Rate: 风 险 率 。 活 过 时 点 t 个 体 在 时 点 t 后 单 位 时 间 内 死 亡 概 率 的 估 计 值 。 SE of Cumul Surviving: 生 存 函 数 估 计 的 标 准 误 。 SE of Probability Densty: 概 率 密 度 的 标 准 误 。 SE of Hazard Rate: 风 险 率 的 标 准 误 。19. 2. 4 Kaplan - Meier 法 和 寿 命 表 法 比 较考 虑 到 Life Tables 过 程 与 Kaplan - Meier 过 程 有 很 多 相 似 之 处 。 下 面 将 它 们 放 在 一 起 进 行比 较 , 以 利 读 者 更 好 地 掌 握 应 用 ( 各 自 适 用 场 合 前 文 己 述 及 , 此 处 不 再 赘 述 )。(1) 基 本 思 想 不 同 : Life Tables 过 程 是 将 生 存 时 间 分 成 许 多 小 的 时 间 段 , 计 算 该 段 内 生 存 率的 变 化 情 况 , 分 析 的 重 点 是 研 究 总 体 的 生 存 规 律 ; 而 Kaplan - Meier 过 程 则 是 计 算 每 一 " 结 果 " 事件 发 生 时 点 的 生 存 率 , 分 析 的 重 点 除 了 研 究 总 体 生 存 规 律 外 , 往 往 更 加 热 心 于 寻 找 相 关 影 响 因素 。(2) 对 于 分 层 变 量 的 处 理 不 同 : Life Tables 过 程 仅 按 该 分 层 变 量 进 行 分 层 , 没 有 考 虑 其 对 生存 时 间 的 影 响 , 即 没 有 提 供 控 制 该 分 层 变 量 的 情 况 下 对 研 究 因 素 对 生 存 时 间 的 影 响 进 行 统 计 分析 的 能 力 , 类 似 于 流 行 病 学 中 仅 计 算 了 分 层 后 每 一 层 的 OR 值 ; Kaplan - Meier过 程 则 是 在 控 制该 分 层 变 量 的 情 况 下 对 研 究 因 素 对 生 存 时 间 的 影 响 进 行 统 计 分 析 , 类 似 于 流 行 病 学 中 分 层 后 计算 出 的 校 正 OR 值 。(3) 做 出 的 生 存 曲 线 不 同 : 这 一 点 可 通 过 其 各 自 的 基 本 思 想 看 出 来 。 相 比 之 下 , Life Tables过 程 做 出 的 曲 线 可 以 回 答 肿 瘤 病 人 的 5 年 生 存 率 如 何 , 而 Kaplan - Meier 过 程 则 可 以 回 答 给 予 某种 治 疗 措 施 后 , 病 人 的 生 存 时 间 变 化 情 况 。(4) 统 计 学 检 验 方 法 不 同 : Life Tables 过 程 采 用 Wilcoxon ( 也 叫 Gehan) 法 ; Kaplan - Meier 过程 用 Log rank 法 、 Breslow 法 、 Tarone - W are ~ 去 。• 394 •


19.3 Cox 同 归 模 型前 面 介 绍 的 一 致 性 检 验 方 法 虽 然 能 够 对 组 间 生 存 时 间 的 分 布 是 否 存 在 差 异 做 出 判 断 , 但 只适 用 于 只 有 少 数 因 子 存 在 并 且 因 子 的 水 平 数 很 少 的 情 况 ( 连 续 型 变 量 还 需 要 将 其 转 换 成 分 类 变量 )。 另 外 , 对 于 因 子 的 具 体 作 用 效 果 , 虽 然 可 以 通 过 计 算 过 程 中 的 中 间 结 果 进 行 估 计 ( 汪 涛 ,2004) , 但 终 是 不 得 己 而 为 之 的 事 情 。 而 Cox 回 归 模 型 只 要 满 足 比 例 风 险 的 前 提 条 件 , 就 可 以 轻易 地 考 察 多 个 因 子 的 效 果 , 解 决 了 前 述 方 法 的 难 题 。19.3.1 Cox 模 型 入 门Cox 回 归 模 型 是 由 英 国 伦 敦 大 学 的 Cox 于 1972 年 提 出 的 , 它 是 一 种 半 参 数 模 型 , 与 基 于 参数 模 型 的 方 法 不 同 , 该 方 法 可 以 在 不 对 生 存 时 间 的 具 体 分 布 进 行 假 设 的 情 况 下 评 价 因 子 的 效 果 ,大 大 降 低 了 生 存 分 析 的 繁 琐 性 , 促 进 了 对 生 存 分 析 的 研 究 。 鉴 于 此 , Cox回 归 模 型 的 提 出 被 誉 为生 存 分 析 研 究 历 史 的 里 程 碑 。1. 模 型 表 达 式Cox 回 归 模 型 的 基 本 思 想 是 在 风 险 函 数 与 研 究 因 子 之 间 建 立 类 似 于 广 义 线 性 模 型 的 关 联 ,这 样 就 可 以 直 接 考 察 研 究 因 子 对 风 险 函 数 的 影 响 效 果 。 Cox 回 归 模 型 的 基 本 形 式 如 下 :h (X, t) =ho (t) exp ( 卢 TX ) = ho (t) exp ( 卢 ]X] + … +βpX p ) 09. 1)式 09. 1) 中 , h 钮 , t) 是 具 有 因 子 向 量 X 的 风 险 函 数 , 可 以 理 解 为 某 个 癌 症 患 者 其 预 后 因 子的 取 值 为 X 时 , 在 时 点 t 突 然 死 亡 的 风 险 。 显 然 , 如 果 X 为 O 向 量 , 09. 1) 式 即 是 ho (t) , 可 以 理解 为 基 准 人 的 风 险 函 数 。 β= [βl β2 … βpr 是 需 要 进 行 估 计 的 因 子 向 量 X 的 系 数 向 量 。在 其 他 因 子 固 定 的 情 况 下 , 因 子 xz(i=1 , 2 ,… , p) 的 取 值 增 加 一 个 单 位 , 则 h (X , t) 变 为 原 来 的 e ß ;倍 , 这 就 是 通 常 所 说 的 相 对 风 险 比 , 它 反 映 了 因 子 X i 对 风 险 函 数 的 效 果 。 如 果 βz 为 正 , 则 X i 具有 增 加 风 险 的 效 果 , 即 叭 的 值 越 大 , 风 险 也 越 大 ; 相 反 的 , 如 果 βz 为 负 , 则 X i 具 有 降 低 风 险 的 效果 , 即 x 的 值 越 大 , 风 险 反 而 越 小 。 Cox 回 归 模 型 通 过 将 部 分 似 然 度 (Partial Likelihood) 最 大 化来 实 现 对 β= [13] β2 … βPT 的 估 计 。 关 于 部 分 似 然 度 及 基 于 部 分 似 然 度 的 参 数 估 计 方 法可 参 阅 Kalbfleisch and Prentice (980) 。2. Cox 回 归 模 型 的 比 例 风 险 性由 模 型 表 达 式 , 有 :h (X, t) /h o (t) = exp (βT X) = exp (,β ]X] + β2 引 +… +βpX p )另 外 , 如 果 考 察 患 者 4 相 对 于 患 者 B 的 死 亡 风 险 , 将 患 者 4的 因 子 向 量 记 为 孔 , 患 者 B 的 因子 向 量 记 为 XB ' 则 在 时 点 t , 患 者 4 相 对 于 患 者 B 的 死 亡 风 险 为 :h (XA' t) ho (t) exp \β 'XA) exp (β'XJh (XB , t) ho (t) exp (β 'XB ) exp \β 'X B )上 述 两 个 性 质 表 明 风 险 之 比 不 随 时 间 的 变 化 而 变 化 , 这 称 为 Cox 回 归 模 型 的 比 例 风 险 性 。正 是 因 为 这 个 性 质 , Cox 回 归 模 型 也 被 称 为 比 例 风 险 模 型 (Proportional Hazard ModeD 。 事 实 上 ,Cox回 归 模 型 只 有 在 满 足 这 个 性 质 的 前 提 下 进 行 拟 合 才 是 有 效 的 。 关 于 比 例 风 险 性 的 验 证 , 将• 395 •


在 稍 后 部 分 介 绍 。19.3.2 分 析 实 例为 了 阐 述 如 何 利 用 SPSS 拟 合 Cox回 归 模 型 , 常 选 用 一 项 关 于 1 夷 脏 癌 手 术 中 接 受 放 射 治 疗 是否 会 延 长 病 人 生 存 时 间 的 研 究 的 数 据 。 该 研 究 的 终 点 为 死 亡 , 接 受 手 术 被 定 义 为 计 算 生 存 时 间的 起 点 。 由 于 该 研 究 是 一 项 未 经 随 机 化 的 观 察 性 研 究 , 要 正 确 估 计 术 中 接 受 放 射 治 疗 提 高 患 者生 存 时 间 的 效 果 , 还 需 要 考 虑 对 其 他 因 子 的 效 果 进 行 调 整 。 数 据 的 详 细 说 明 见 表 19.30表 19. 3 ~. 莫 脏 癌 术 中 放 疗 效 果 研 究 数 据 的 说 明变 量 名变 量 说 明变 量 类 型分 类 变 量 的 编 码caseno患 者 编 号hme生 存 时 间 ( 月 )连 续censor删 失2 分 类。: 死 亡 、 1 : 删 失age手 术 时 的 年 龄连 续trt处 理 组 别 ( 有 无 术 中 放 疗 )2 分 类。: 无 术 中 放 疗 、 1 : 有 术 中 放 疗sex性 别2 分 类。: 男 、 1 : 女bui占 位 处2 分 类。 d 夷 脏 头 部 、 1 : 头 部 以 外ch膜 胆 管 浸 润 程 度有 序 多 分 类1: chO 、 2:chl 、 3:ch2 、 4:ch3p有 无 腹 膜 转 移2 分 类。: 无 、 1 : 有stageTNM 分 类2 分 类3: III 期 、 4:IV 期数 据 见 文 件 pance r. sav 0 本 例 显 然 属 于 多 变 量 生 存 分 析 , 使 用 Cox 模 型 加 以 分 析 是 最 合 适的 选 择 。 在 将 要 使 用 的 Cox Regression 对 话 杠 中 , 如 图 19. 9 所 示 , 其 Time 杠 、 Status 杠 和 Strata• 396 •图 19.9 Cox Regression 主 对 话 框


杠 的 含 义 与 操 作 和 前 面 完 全 一 样 , 而 中 部 block 杠 组 的 含 义 与 操 作 和 Logistic 模 型 对 话 杠 中 同 名杠 组 完 全 相 同 , 因 此 这 里 不 再 重 复 解 释 。 在 本 例 中 , 需 要 分 析 的 自 变 量 中 ch为 有 序 多 分 类 , 为 保证 结 果 的 准 确 性 , 应 将 其 指 定 为 哑 变 量 进 行 分 析 ( 严 格 的 讲 , 两 分 类 变 量 也 应 进 行 指 定 , 但 不 指定 时 的 分 析 结 果 是 等 价 的 )。 这 一 部 分 的 详 细 解 释 可 参 见 Logistic例 的 具 体 操 作 如 下 :!Analyze• Survival• Cox Regression:Time 杠 : timei Status tl!: censor I IDefine Event1: Single value: 1 : IContinue I!Covariates 杠 : age 、 trt 、 sex 、 bui 、 ch 、 p 、 stage!ICat 吨 orical1: Catego 时 al Covariates 杠 : ch: 1Continuel! 因本 例 的 分 析 结 果 标 题 为 "Cox Regression,,, 具 体 内 容 如 下 :回 归 一 章 , 这 里 不 再 重 复 。 本首 先 输 出 一 张 包 含 总 例 数 、 事 件 发 生 例 数 、 删 夫 发 生 例 数 等 的 汇 总 表 , 此 处 略 。表 19.4 为 所 有 分 类 变 量 生 成 哑 变 量 时 的 各 分 类 水 平 频 数 和 编 码 的 对 照 表 , 可 见 ch 使 用 最后 一 个 分 类 作 为 参 照 水 平 。 这 一 部 分 可 参 考 Logistic 回 归 一 章 , 此 处 不 再 详 述 。此 处 会 给 出 标 题 "Block 0: Beginning Block" , 表 示 开 始 给 出 无 效 模 型 的 结 果 。Block 0 拟 合 的 是 未 引 入 任 何 自 变 量 时 的 无 效 模 型 , 即 h 饵 , t) / ho C t ) = e 0 = 1 , 或 者ln[RhCt) ] =ln[hCt, X)/h o Ct) ] =0 , 上 表 输 出 的 就 是 这 一 无 效 模 型 的 一 2 倍 的 对 数 似 然 值 , 如 果后 面 加 入 自 变 量 的 模 型 效 果 要 优 于 无 效 模 型 , 则 其 一 2 倍 对 数 似 然 值 应 当 小 于 现 在 的 570.43 。此 处 会 给 出 标 题 "Block 1: Method = Enter" , 正 式 开 始 纳 入 变 量 。表 19. 6 中 输 出 表 格 的 第 一 列 为 模 型 中 引 入 变 量 后 的 一 2 倍 的 对 数 似 然 值 , 该 对 数 似 然 值 与未 引 入 任 何 变 量 时 的 对 数 似 然 度 的 差 ( 即 似 然 度 之 比 ) , 在 ββ2 … =βp=O 的 无 效 假 设 的 前提 下 服 从 自 由 度 为 " 引 入 变 量 数 " 的 x2 分 布 。 故 可 根 据 x2 分 布 对 无 效 假 设 进 行 检 验 ( 即 似 然 比• 397 •


检 验 )。 对 于 本 例 , 两 者 相 差 18.28 , 该 差 值 服 从 自 由 度 为 9 的 x2 分 布 。 在 无 效 假 设 的 前 提 下 , 得到 这 样 大 或 更 大 的 差 值 的 概 率 为 0.032 , 按 照 0.05 的 检 验 水 平 认 为 有 足 够 证 据 推 翻 无 效 假 设 ,即 加 入 这 些 自 变 量 后 的 模 型 效 果 要 优 于 无 效 模 型 。接 下 来 表 19. 7 输 出 的 是 各 因 子 或 哑 变 量 的 回 归 系 数 的 估 计 值 CB) 、 估 计 值 的 标 准 误 CSE) 、估 计 值 的 Wald 检 验 统 计 量 值 CWald) 、 自 由 度 Cdf)、 显 著 性 水 平 即 p{ 直 CSig. ) 和 各 因 子 或 哑 变 量的 效 果 的 估 计 值 CExp CB)) 。 注 意 到 本 研 究 主 要 关 心 的 变 量 trt 的 回 归 系 数 估 计 为 一 0.818 , 显 著性 水 平 为 0.012 , 按 照 0.05 的 检 验 标 准 认 为 术 中 接 受 放 射 治 疗 可 以 降 低 膜 脏 癌 患 者 死 亡 的 风险 , 其 平 均 效 果 为 e-0 川 =0.44 1, 即 在 其 他 因 子 水 平 固 定 的 情 况 下 , 平 均 来 说 , 在 任 何 一 个 时 间点 上 , 接 受 术 中 放 射 治 疗 患 者 的 死 亡 风 险 都 是 未 接 受 患 者 的 0.441 倍 。SPSS 在 最 后 输 出 的 是 各 因 子 或 哑 变 量 的 平 均 值 ( 结 果 输 出 略 ) , 对 于 分 类 变 量 , 该 { 直 实 际 上就 是 百 分 构 成 。另 外 需 要 注 意 的 是 , 在 本 例 中 , age 因 子 为 连 续 性 变 量 , 它 的 效 果 的 估 计 值 所 衡 量 的 是 大 一岁 的 人 相 对 于 小 一 岁 的 人 的 死 亡 风 险 比 , 如 41 岁 的 人 相 对 于 40 岁 的 人 的 死 亡 风 险 比 。 如 要 计算 相 差 十 岁 的 人 之 间 的 风 险 比 , 则 需 要 将 它 的 回 归 系 数 乘 以 10 。 如 对 于 本 例 , 5040 岁 的 人 的 死 亡 风 险 比 的 估 计 值 为 elO × om=1.20岁 的 人 相 对 于在 上 面 的 分 析 中 , 可 以 看 到 有 许 多 自 变 量 并 无 统 计 学 意 义 , 为 此 可 以 考 虑 使 用 变 量 筛 选 的 方法 对 模 型 加 以 简 化 , 也 可 以 考 虑 对 分 类 变 量 拟 合 更 为 复 杂 的 哑 变 量 模 型 , 由 于 这 些 内 容 和 logistic• 398 •


模 型 拟 合 时 完 全 相 同 , 除 此 以 外 , Options 子 对 话 杠 中 的 大 部 分 选 项 , 和 主 对 话 杠 中 交 互 作 用 项 的构 建 方 法 等 也 基 本 相 同 , 因 此 这 里 不 再 重 复 。 仅 就 Options 子 对 话 杠 中 的 Display baseline function复 选 杠 加 以 解 释 : 它 要 求 输 出 数 据 集 中 每 一 时 点 的 基 底 累 积 风 险 函 数 和 基 于 各 因 子 均 值 的生 存 函 数 及 其 标 准 误 、 累 积 风 险 函 数 , 相 应 的 表 格 会 在 结 果 窗 口 中 加 以 输 出 。19.3.3 比 例 风 险 性 的 图 形 验 证通 过 对 Plots 子 对 话 杠 中 的 内 容 进 行 选 择 , 可 以 要 求 SPSS 输 出 4 种 图 形 , 它 们 分 别 是 : Survival( 累 积 生 存 率 曲 线 )、 Hazard ( 累 积 风 险 率 曲 线 )、 Log minus log ( 生 存 函 数 的 2 重 对 数 曲 线 , 即对 数 累 积 生 存 函 数 乘 以 一 1 后 再 取 对 数 ) 和 One minus survival c1 一 累 积 生 存 率 后 的 曲 线 )。 因19.10 即 为 相 应 的 对 话 杠 界 面 和 输 出 的 累 计 生 存 率 曲 线 , 注 意 其 标 题 为 基 于 各 协 变 量 均 值 水 平时 的 累 积 生 存 函 数 曲 线 , 其 实 际 意 义 反 映 的 是 为 研 究 样 本 所 在 总 体 人 群 总 的 生 存 率 变 化 情 况 。可 见 研 究 人 群 只 有 大 约 10% 的 个 体 存 活 时 间 在 一 年 以 上 。图 19. 10 Plots 子 对 话 框 与 绘 制 的 生 存 函 数 曲 线在 本 节 开 始 己 经 提 到 过 , Cox回 归 模 型 只 有 在 满 足 比 例 风 险 性 的 前 提 下 进 行 拟 合 , 其 参 数 估计 值 才 是 有 效 的 。 对 于 这 一 点 , 可 以 通 过 作 图 的 方 式 来 做 一 个 粗 略 的 判 断 。 对 于 本 例 , 通 过 观 察术 中 无 放 疗 组 与 术 中 放 疗 组 的 生 存 函 数 的 2 重 对 数 曲 线 是 否 平 行 可 以 实 现 这 一 判 断 ( 但 是 要 注意 , 横 轴 上 的 时 间 变 量 为 对 数 尺 度 )。 具 体 方 法 是 : 首 先 将 trt 指 定 为 分 类 变 量 ( 从 而 可 以 分 不 同组 别 绘 制 曲 线 ) , 然 后 打 开 Plots 子 对 话 框 , 在 Plot Type 杠 组 中 选 择 Log minus log , 在 下 部 的 CovariateValues Plotted at 杠 组 中 选 中 trt 变 量 , 并 将 其 移 入 Separate Lines for: 杠 。 这 样 , SPSS 将 输 出两 种 疗 法 组 的 生 存 函 数 的 二 重 对 数 曲 线 , 如 图 19. 11 所 示当 比 例 风 险 性 成 立 时 , 两 条 曲 线 应 大 致 平 行 。 从 图 19. 11 中 可 见 , 本 例 基 本 上 符 合 这 一 要求 。 当 然 , 图 形 直 接 观 察 的 结 果 是 比 较 粗 糙 的 , 我 们 还 可 以 使 用 更 为 准 确 的 手 段 对 这 一 假 定 进 行考 察 , 详 细 介 绍 参 见 后 面 有 关 章 节 。• 399 •


图 19.11分 组 累 计 生 存 率 曲 线 和 重 对 数 曲 线19.4 含 时 问 依 存 性 变 莹 的 Cox 模 型前 面 提 到 过 Cox 回 归 模 型 的 比 例 风 险 性 假 设 , 当 这 一 { 固 定 被 违 反 时 , 就 需 要 将 时 间 的 影 响 ,或 者 说 比 例 风 险 随 时 间 的 变 化 规 律 纳 入 模 型 加 以 分 析 , 此 即 含 时 间 依 存 变 量 的 Cox 模 型 。19.4.1 时 侬 协 变 量 的 种 类在 建 立 Cox回 归 方 程 时 , 有 些 协 变 量 对 风 险 率 作 用 的 强 度 可 能 会 随 时 间 变 化 而 变 化 , 例 如 在研 究 1945 年 广 岛 、 长 崎 核 爆 后 日 本 妇 女 的 乳 腺 癌 发 生 率 时 发 现 : 1945 年 后 暴 露 于 原 子 弹 辐 射 的日 本 妇 女 患 乳 腺 癌 的 危 险 性 逐 年 下 降 。 这 样 的 资 料 是 不 满 足 前 面 所 述 的 Cox 回 归 模 型 的 假 设的 , 此 时 就 应 用 为 时 间 依 存 协 变 量 模 型 , 也 称 为 非 比 例 风 险 模 型 (Non - Proportional Hazard ModeD, 把 所 怀 疑 的 那 个 协 变 量 定 义 成 时 间 依 存 协 变 量 。 常 用 的 方 法 是 把 它 们 简 单 地 进 行 相 乘 , 然后 通 过 对 时 间 依 存 协 变 量 系 数 的 显 著 性 检 验 来 判 断 假 设 是 否 合 理 。 此 时 相 应 模 型 为 :h (t , X) = ho (t) e ßXE + rXEt这 种 时 间 依 存 变 量 的 取 值 不 随 时 间 改 变 , 但 效 应 (RR)随 时 间 改 变 , 因 此 被 称 为 外 在 时 间 依存 变 量 。时 依 模 型 的 另 一 种 情 况 是 : 有 些 变 量 虽 然 其 效 应 (RR) 在 不 同 的 时 间 点 并 无 变 化 , 但 它 的 具体 取 值 会 随 着 时 间 而 改 变 。 也 就 是 说 , 但 在 实 际 研 究 工 作 中 , 对 因 子 的 测 量 可 能 不 止 一 次 , 不 同时 点 的 因 子 的 测 量 值 可 能 不 同 。 这 种 时 间 依 存 变 量 被 称 为 内 在 时 间 依 存 变 量 。 相 应 的 模 型 公 式如 下 :h (t , X) = ho (t) e ßXE (t)XE表 示 变 量 取 值 在 随 时 间 变 化 。 如 对 某 化 学 毒 物 的 职 业 接 触 累 积 量 、 吸 烟 累 积 量 、 不 同 时• 400 •


间 的 抗 体 水 平 、 不 同 时 期 教 育 程 度 或 婚 姻 状 态 的 改 变 等 。 在 这 种 情 况 下 , 需 用 逻 辑 表 达 式 定 义 一个 分 段 时 间 依 存 协 变 量 , 逻 辑 表 达 式 为 真 时 取 值 "1" , 为 假 时 取 "0" 。 通 过 一 系 列 的 逻 辑 表 达 式 ,就 可 以 建 立 起 自 己 的 时 间 依 存 变 量 。 例 如 , 对 病 人 血 压 每 周 观 察 一 次 , 共 观 察 4BP1 ~ BP4) 。 时 间 依 存 协 变 量 可 以 这 样 定 义 :Vα r = (T < 1) x BP1 + (T 王 三 l&T


龟咆专 3号h" (t)对 照 组h. (t) = Jlho (t) x exp \β1) • weekβ2 6 -MP 组6 -MP 组 与 对 照 组 的 风 险 比 为 : exp (β1) • weekβ 当 β2 为 正 时 , 两 组 之 间 的 风 险 比 将 随 时间 的 推 移 逐 渐 增 大 , 反 之 , 当 β2风 险 性 成 立 , 则 β2 应 为 O( 即 无 效 假 设 )。为 负 时 , 两 组 之 间 的 风 险 比 将 随 时 间 的 推 移 逐 渐 减 小 。 如 果 比 例图 19. 12 Time - Dep Cov. . . 时 依 协 变 量 定 义 对 话 框在 SPSS 中 选 择 Analyze→ Survival→ Cox w/Time - Dep Cov. . . , 相 应 的 对 话 杠 如 图 19. 12 所示 。 注 意 到 在 对 话 杠 左 边 的 变 量 杠 内 , 除 己 去 口 的 变 量 grp , week , status 以 外 , 还 有 一 个 变 量 T 0SPSS 规 定 用 变 量 T 代 替 时 间 变 量 ( 本 例 为 week) 来 构 建 时 间 依 存 性 协 变 量 , 构 建 好 的 时 间 依 存性 协 变 量 名 称 为 T COV在 图 19. 12 中 的 Expression for T _ COV _: 杠 要 求 写 出 时 间 依 存 性 协 变 量 为 T COV 的 表 达式 。 所 以 当 然 可 以 利 用 SPSS 提 供 的 键 盘 和 函 数 写 出 这 个 表 达 式 , 但 是 , 更 为 简 便 的 方 法 是 直 接输 入 。 根 据 前 面 的 讨 论 , 输 入 "LN CT _) * grp" (LN ( ) 表 示 取 自 然 对 数 )。 随 后 单 击 Model 按钮 即 可 进 入 "Cox Regression-··" 对 话 杠 。 以 下 的 操 作 与 Cox 回 归 模 型 部 分 的 操 作 完 全 一 样 , 不再 赘 述 。 待 操 作 完 毕 提 交 系 统 执 行 后 , 输 出 结 果 参 见 表 19. 8 ( 为 节 省 篇 幅 , 只 显 示 相 关 结 果 )。夺穹 @ 3舍 夺 2专?在箩 警 在专3@a翁 省根 据 结 果 可 知 , 时 间 依 存 性 协 变 量 的 回 归 系 数 的 估 计 值 约 为 0.333 , P { 直 为 0.558 , 尚 无 足 够证 据 拒 绝 β2=0 的 无 效 假 设 , 也 就 是 说 , 尚 未 发 现 g 叩 的 作 用 不 符 合 等 比 例 风 险 的 假 设 。19.4.3 用 时 侬 模 型 评 价 处 理 因 素 的 影 晌在 实 际 研 究 中 , 观 察 个 体 的 状 态 可 能 会 随 着 时 间 的 推 移 发 生 改 变 。 当 研 究 者 怀 疑 这 种 改 变• 402 •


会 对 研 究 结 果 造 成 影 响 时 , 就 需 要 在 统 计 分 析 时 对 这 一 改 变 的 效 果 进 行 评 价 。 下 面 再 来 看 一 个有 名 的 例 子 。美 国 斯 坦 福 大 学 曾 经 进 行 了 一 项 评 价 心 脏 移 植 对 延 长 生 存 时 间 效 果 的 研 究 , 数 据 见 hearttransplant. sav 。 众 所 周 知 , 需 要 心 脏 移 植 的 病 人 必 须 等 到 合 适 的 心 脏 提 供 者 出 现 才 能 真 正 论 及移 植 问 题 , 如 果 没 有 合 适 的 心 脏 提 供 者 出 现 , 即 使 登 记 了 , 也 只 能 无 限 期 地 等 待 下 去 。 合 适 的 心脏 提 供 者 出 现 之 前 和 出 现 之 后 病 人 的 状 态 被 认 为 是 不 一 样 的 。 研 究 者 关 心 的 是 : 这 种 状 态 的 改变 是 否 会 对 病 人 的 生 存 时 间 造 成 影 响 。 对 于 该 研 究 数 据 , 用 time表 示 病 人 的 生 存 时 间 , 用 status表 示 删 失 指 示 变 量 , 用 waittime 表 示 合 适 的 心 脏 提 供 者 出 现 前 的 病 人 等 待 时 间 。 如 果 对 于 某 个需 要 心 脏 移 植 的 病 人 一 直 未 出 现 合 适 的 心 脏 提 供 者 , 则 其 waittime 的 值 为 9 9990 构 建 一 个 时 间依 存 性 协 变 量 z (t) , 使 得 :「。 在 时 点 t 尚 未 接 受 心 脏 移 植z (t) = ~11 在 时 点 t 己 经 接 受 心 脏 移 植据 上 述 , 如 果 只 考 察 时 间 依 存 性 协 变 量 的 效 果 , Cox 回 归 模 型 可 表 示 为 :h (t) = ho (t) x exp (,β • z)时 间 依 存 性 协 变 量 的 表 达 式 为 (T < waittime 1 waittime = 9 999) x 0 + (T > = waittime)x1 。 其 中 的 符 号 "1" 表 示 或 者 的 意 思 。将 其 他 操 作 完 成 后 , 提 交 系 统 执 行 , 相 关 结 果 参 见 表 19.90根 据 结 果 可 知 , 时 间 依 存 性 协 变 量 的 回 归 系 数 的 估 计 值 约 为 一 0.022 , P 值 为 O. 94 1, 尚 无 足够 证 据 拒 绝 β=0 的 无 效 假 设 , 提 示 状 态 的 改 变 对 病 人 的 生 存 时 间 没 有 影 响 。 为 了 简 洁 起 见 , 对该 研 究 数 据 只 采 用 了 单 变 量 分 析 , 实 际 的 分 析 还 包 含 许 多 其 他 因 子 , 实 际 上 在 原 来 的 研 究 中 , 最后 的 结 果 显 示 心 脏 移 植 可 以 减 少 病 人 的 死 亡 风 险 (Crowly and Hu , 1977) 。19.4.4 用 时 侬 模 型 评 价 重 复 测 量 因 子 的 影 晌在 实 际 研 究 过 程 中 , 有 时 需 要 对 观 察 个 体 的 某 些 因 子 进 行 定 期 地 、 反 复 测 量 。 比 如 , 为 了 早日 发 现 癌 症 的 复 发 , 对 癌 症 术 后 患 者 的 肿 瘤 标 记 物 所 进 行 的 定 期 观 测 。 由 于 某 些 因 子 对 病 人 的预 后 具 有 重 要 影 响 作 用 , 早 日 发 现 这 些 因 子 的 变 化 并 及 时 调 整 治 疗 方 案 可 能 改 善 病 人 的 预 后 。因 此 , 有 必 要 评 价 重 复 测 量 因 子 对 生 存 时 间 的 影 响 。由 于 数 据 来 源 的 问 题 , 在 这 里 仅 通 过 一 个 假 想 的 例 子 将 时 间 依 存 性 协 变 量 的 构 建 方 法 介 绍给 大 家 : 在 某 一 研 究 中 , 研 究 者 每 月 定 期 地 对 患 者 的 某 一 因 子 P 进 行 观 测 , 试 图 评 价 这 一 随 时 间变 化 而 变 化 的 因 子 对 患 者 生 存 时 间 的 影 响 。 数 据 结 构 如 图 19.13 所 示 。• 403 •


患 者 编 号 生 存 时 间 死 亡 / 删 失 因 子 P 的 因 子 P 的 因 子 P 的 因 子 P 的 因 子 P 的ID TIME STATUS 第 一 个 月 第 二 个 月 第 一 个 月 第 四 个 月 第 五 个 月的 观 测 Pl 的 观 测 P2 的 观 测 P3 的 观 测 P4 的 观 测 P5001 3 8 9 9002 5 O 4 4 4 4 4... ... ... ... ... ... ... ...020 4 5 6 6 6图 19.13某 例 生 存 时 间 的 数 据 结 构 图对 于 该 数 据 , 时 间 依 存 性 协 变 量 P 的 表 达 式 为 :(T = 1) xP1 + (T =2) xP2 + (T =3) xP3 + (T =4) xP4 + (T =5) xP5随 后 的 分 析 原 理 和 前 面 并 无 不 同 , 这 里 不 再 详 述 。19.5 关 于 Cox 模 型 的 一 些 高 级 话 题Cox 模 型 近 年 来 发 展 得 非 常 快 , 这 里 向 大 家 补 充 一 些 在 应 用 中 比 较 重 要 的 内 容 , 以 使 大 家 能对 该 模 型 有 一 个 较 为 深 入 的 了 解 。19.5. 1 生 存 分 析 中 的 分 层 变 量大 家 在 Cox Regression 过 程 主 对 话 杠 的 下 方 可 以 看 到 有 一 个 Strata 框 , 它 用 于 在 Cox 模 型 中选 入 分 层 因 素 。 事 实 上 , 分 层 因 素 在 生 存 分 析 中 非 常 重 要 , 具 体 来 说 , 在 生 存 分 析 方 法 中 可 以 采用 以 下 两 种 方 式 来 控 制 分 类 变 量 混 杂 因 素 的 影 响 :(1) 哑 变 量 分 层 控 制 : 比 如 在 前 面 膜 腺 癌 手 术 的 例 子 中 , 如 果 我 们 直 接 将 性 别 变 量 看 成 是 需要 控 制 的 混 杂 因 素 , 将 其 以 分 类 变 量 ( 哑 变 量 ) 的 形 式 纳 入 方 程 , 则 实 际 上 拟 合 的 是 如 下 模 型 :h (t , χ) = ho (t) e (('J X sex 二 。 +αh 兀 二 1+βX E )按 照 模 型 中 哑 变 量 的 设 置 , 各 性 别 的 基 线 风 险 函 数 如 下 :女 性 组 : ho (t) e"IX sex 二 。男 性 组 :ho(t)e α 2 X sex = I即 基 线 风 险 率 在 不 同 性 别 间 成 比 例 的 变 化 , 但 函 数 的 曲 线 形 状 相 似 , 并 且 其 他 危 险 因 素 的 相对 危 险 度 在 各 层 中 保 持 一 致 。(2) 分 层 变 量 控 制 : 即 将 变 量 引 入 Strata 框 , 亦 被 称 为 True stratification 0 这 种 分 层 方 法 允 许基 线 风 险 率 在 各 个 混 杂 因 素 层 中 完 全 不 同 , 即 函 数 曲 线 在 不 同 层 中 可 以 有 不 同 的 形 状 。 但 是 其他 危 险 因 素 的 相 对 危 险 度 RR 在 各 个 时 点 及 层 内 保 持 不 变 。仍 以 对 性 别 影 响 的 控 制 为 例 , 如 果 采 用 分 层 变 量 控 制 的 方 法 来 分 析 , 则 实 际 上 拟 合 的 模 型 通式 为 :h (t , χ) = h Oi(t) eβX E不 同 层 间 的 基 线 风 险 函 数 可 以 完 全 无 关 , 如 果 用 图 形 表 示 , 则 可 以 为 如 图 19.14所 示 的• 404 •


情 况 :图 19.14真 分 层 时 不 同 层 间 的 基 线 风 险 函 数 示 意在 这 4 幅 图 中 , 下 方 为 各 自 的 基 线 风 险 函 数 , 它 们 的 形 状 ( 分 布 ) 完 全 不 同 。 上 方 为 某 危 险因 素 作 用 下 的 风 险 函 数 , 它 和 基 线 风 险 函 数 的 倍 数 即 为 RR , 且 该 RR { 直 在 各 层 中 均 相 同 。可 见 , 分 层 变 量 控 制 法 的 适 用 范 围 要 比 哑 变 量 控 制 广 泛 得 多 , 它 的 原 理 也 经 常 被 加 以 利 用 ,比 如 下 面 即 将 讲 到 的 如 何 利 用 Cox 模 型 来 拟 合 配 对 Logistic 模 型 。 但 是 , 由 于 基 线 风 险 函 数 不 能被 估 计 , 采 用 True stratification 后 就 无 法 分 析 分 层 变 量 对 生 存 的 影 响 强 度 ( 但 仍 可 分 析 交 互 作用 )。19.5.2 用 Cox 回 归 过 程 拟 合 配 伍 Logistic 回 归在 Logistic 回 归 的 相 关 章 节 中 , 我 们 曾 经 提 到 过 可 以 使 用 Cox 过 程 来 拟 合 配 伍 的 Logistic 模型 。 首 先 来 复 习 一 下 Cox 模 型 的 公 式 :将 两 侧 同 时 取 对 数 , 得 到 :h Ct , X) = ho Ct) exp CX 1β 1 +X 2 β 2 +… + X pβp)ln Ch Ct , X)) = ln Ch o Ct)) + X 1 β 1 + X 2β 2 +… + X pβp如 果 是 含 有 分 层 变 量 的 Cox 模 型 , 则 公 式 如 下 :ln Ch Ct ,X)) = ln Ch OiCt)) +X 1 β 1 + X 2β 2 +… + X pβp通 过 上 面 的 学 习 得 知 : 各 层 的 基 线 风 险 函 数 h Oi Ct) 可 以 完 全 无 关 , 协 变 量 的 系 数 β 则 在 所 有层 中 保 持 不 变 。 而 作 为 半 参 数 方 法 , COX 模 型 在 拟 合 时 并 不 估 计 基 线 风 险 函 数 h ωCt ), 只 估 计 各协 变 量 的 系 数 值 β 。 这 和 配 伍 Logistic 模 型 中 不 关 心 矶 的 大 小 , 只 求 出 系 数 值 β 的 思 路 恰 巧 二致 , 同 时 两 者 都 是 采 用 的 最 大 似 然 法 进 行 拟 合 。 因 此 可 以 利 用 它 来 拟 合 配 伍 Logistic模 型 : 给 每一 条 记 录 一 个 虚 拟 的 生 存 时 间 , 一 般 默 认 病 例 比 对 照 的 生 存 时 间 短 ( 两 时 间 差 距 大 小 随 便 )。 拟合 时 病 例 算 失 效 事 件 发 生 , 对 照 则 算 删 失 。 把 配 对 因 素 作 为 分 层 因 素 , 这 样 就 可 以 消 除 配 对 因 素的 作 用 , 从 而 实 现 配 对 Logistic 回 归 。下 面 将 给 出 一 个 实 例 , 数 据 引 自 Maura某 地 在 冬 季 两 个 月 期 间 65E. Stokes , 1996 , 见 文 件 m _ nlogit. sav 。 研 究 者 调 查 了岁 居 民 患 严 重 感 冒 的 情 况 ( 指 需 要 住 院 治 疗 )。 根 据 性 别 、 年 龄 每 个病 例 配 两 个 对 照 。 研 究 目 的 是 想 了 解 接 种 一 种 疫 苗 及 患 有 肺 部 疾 病 与 患 严 重 感 冒 之 间 的 关 系 。数 据 库 有 关 变 量 说 明 : id: 配 对 的 对 于 号 。 1 指 第 1 个 对 于 。 outcome: 虚 拟 的 生 存 时 间 。 与 平 常 不 同 的 是 , 此 处 不 能 用 1, 0 来 分 别 代 表 病 例 、 对 照 ,而 是 病 例 取 值 全 为 1, 对 照 取 值 全 为 2 。 实 际 分 别 取 1 和 100 之 类 的 数 值 也 不 会 影 响 结 果 , 只 要• 405 •


对 照 的 生 存 时 间 长 于 病 例 即 可 。 因 为 SPSS 会 把 在 最 短 的 完 全 数 据 的 生 存 时 间 之 前 的 所 有 删 失值 全 部 去 掉 , 这 些 数 据 将 不 参 加 分 析 。 lung: 是 否 患 有 肺 部 疾 病 。1, 患 有 肺 部 疾 病 :0 , 无 。 vaccine: 是 否 接 受 疫 苗 注 射 。1, 接 受 疫 苗 注 射 :0 , 无 。 status: 虚 拟 生 存 状 态 变 量 。 病 例 取 值 全 为 1, 为 完 全 数 据 ; 对 照 取 值 全 为 0 , 为 删 失 数据 。 实 际 上 这 个 变 量 也 是 病 例 、 对 照 的 指 示 变 量 。本 例 的 操 作 和 普 通 的 Cox 模 型 没 有 什 么 区 别 , 只 是 要 将 ID 指 定 为 分 层 变 量 , 具 体 操 作 如 下 ::Ar 叫 yze→ Survival→ Cox:Time 杠 : outcome:Status 杠 : statusRegression!IDefi 时 Event1: Single value: 1 : IContinuel!Covariate 杠 : lung 、 vacclne:Strata 杠 : id; 因附 吨议 J?支表 19.10就 是 对 回 归 方 程 各 参 数 的 估 计 , 可 见 患 有 肺 部 疾 病 的 人 患 感 冒 的 风 险 是 无 肺 部 疾病 者 的 3. 69 倍 , 而 注 射 了 疫 苗 的 人 发 病 风 险 则 为 未 注 射 疫 苗 者 的 o. 67 倍 (p { 直 略 大 于 0.05) 。这 里 给 出 的 是 一 个 1 :2 的 例 子 , 在 实 际 工 作 中 大 家 所 遇 到 的 多 是 1: 1 或 1: n 的 病 例 对 照 研 究 的Logistic 回 归 , 这 完 全 可 以 参 照 本 例 予 以 解 决 。 但 值 得 指 出 的 是 , 虽 然 理 论 上 m:n 的 Logistic 回 归也 可 以 使 用 此 方 法 解 决 , 但 是 由 于 此 时 在 同 一 时 间 点 上 发 生 多 起 结 局 事 件 , 这 被 称 为 结 , 需 要 采用 一 定 的 方 法 才 能 加 以 正 确 处 理 , 而 SPSS 并 未 提 供 相 应 的 算 法 , 因 此 计 算 结 果 会 有 误 差 , 此 时 建议 使 用 Stata 等 能 够 直 接 拟 合 配 伍 模 型 的 统 计 软 件 加 以 解 决 。19.5.3 竞 争 风 险 的 Cox 模 型在 实 际 情 况 中 , 失 效 事 件 的 发 生 通 常 有 多 种 原 因 , 如 果 只 对 其 中 某 一 种 原 因 的 事 件 发 生 感 兴趣 , 则 可 用 竞 争 风 险 (Competing Risks) 模 型 来 实 现 。竞 争 风 险 模 型 似 然 函 数 的 估 计 基 本 同 前 所 述 , 唯 一 的 区 别 是 失 效 事 件 8 , 例 如 在 研 究 矿 山 粉尘 对 矿 工 肺 癌 发 生 的 作 用 时 , 一 般 关 心 的 是 粉 尘 浓 度 对 发 生 各 型 肺 癌 有 无 影 响 。 如 果 但 现 在 只希 望 研 究 粉 尘 浓 度 对 鳞 癌 的 发 生 有 无 影 响 , 则 8 原 先 和 现 在 的 定 义 分 别 为 :8={一 {~ 患 肺 癌 1 患 鳞 癌 型 肺 癌O 未 患 肺 癌 或 夫 访 O 未 患 肺 癌 、 患 非 鳞 癌 型 肺 癌 或 夫 访此 时 模 型 中 的 J 为 暴 露 与 不 暴 露 相 比 , 患 鳞 癌 型 肺 癌 和 未 患 鳞 癌 型 肺 癌 ( 即 未 患 肺 癌 、 患 非• 406 •


鳞 癌 型 肺 癌 或 夫 访 ) 相 比 的 相 对 危 险 度 RR 。 由 于 夫 访 者 与 同 一 时 点 存 活 者 具 有 相 等 的 死 亡 或存 活 概 率 的 假 设 不 再 成 立 , 因 此 无 法 估 计 各 别 死 亡 原 因 的 生 存 函 数 。思 考 与 练 习1. 从 一 项 临 床 研 究 得 到 以 下 6 名 男 性 患 者 和 6 名 女 性 患 者 的 生 存 时 间 数 据 。 数 据 右 肩 上 的 "+" 号 表 示 删失 时 间 。男 性 患 者 : 1, 3 , 4 +, 10 , 12 , 18女 性 患 者 : 1, 3 + , 6 , 10 , 11, 12 +试 用 该 数 据 回 答 以 下 问 题 。1 分 性 别 计 算 生 存 函 数 的 Kaplan - Meier 估 计 值 :2 分 性 别 绘 制 生 存 曲 线 :3 检 验 男 性 患 者 和 女 性 患 者 之 间 生 存 函 数 的 一 致 性 :2. 一 项 随 机 对 照 试 验 欲 观 察 某 药 对 小 臼 鼠 皮 肤 癌 的 致 癌 作 用 , 得 到 如 题 2 表 所 示 的 数 据 。 数 据 右 肩 上 的"+" 号 表 示 删 失 时 间 。 试 用 Cox 回 归 模 型 对 不 同 药 物 剂 量 的 致 癌 效 应 进 行 分 析 。题 2表用 药 浓 度 发 癌 时 间 C + : 删 失 )低 剂 量 40 76 + 76 + 76 + 64 + 66 76 + 76 + 76 + 76 + 32 40 60 72 + 76 + 44 62lOnmol 60 + 76 + 76 + 40 42 60 76 + 76 + 48 76 + 76 + 76 + 76 +中 剂 量 26+ 46 32 49+ 44 44+ 43+ 40 44 45 22 43+ 48 44 44 36 44 42 4530nmol 49 + 33 + 38 48 + 48 + 47 + 41 46 46 38 35 +高 剂 量 36 40 44 44 49 + 29 28 34 + 48 49 + 40 42 40 38 38 32 38 32 49 +90nmol 22 32 38 48 + 23 + 32 49 + 44 + 45 49 + 1 +参 考 文 献1 Kalbfleisch JD and Prentice RL. The Statistical Analysis of Failure Time Data. John Wil 叮 and Sons , 19802 Lee ET. Statistical Methods for Survival Data Analysis. John Wil 叮 and Sons , 19923 Cox DR. Regression models and life - tables. Joumal of the Royal Statistical Society, B, 1972 , 34 , 187 -2204 Altman DG and Bland JM. Time to event CsurvivaD data. British Medical Joum 址 , 1998 , 317 , 468 -4695 Crowly J and Hu M. Covariance Analysis of Heart Transplant Survival Data. Joumal of the American StatisticalAssociation, 1977 , 72 , 27 - 366 Lee ET 著 . 生 存 数 据 分 析 的 统 计 方 法 . 陈 家 鼎 等 译 . 北 京 : 中 国 卫 生 统 计 出 版 社 , 19987 方 积 乾 主 编 . 医 学 统 计 学 与 电 脑 实 验 . 第 二 版 . 上 海 : 上 海 科 学 技 术 出 版 社 , 20018 张 文 膨 主 编 . SPSSll 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 希 望 电 子 出 版 社 , 20029 汪 涛 . 非 随 机 化 医 学 研 究 中 结 合 倾 向 指 数 进 行 风 险 比 估 计 的 方 法 . 中 国 卫 生 统 计 ( 待 发 表 ) , 2004• 407 •


第 20章 缺 失 值 分 析 入 门缺 失 { 直 是 许 多 研 究 在 数 据 采 集 中 经 常 会 出 现 的 现 象 , 也 是 统 计 分 析 人 员 和 数 据 采 集 人 员 最不 愿 意 见 到 , 却 又 无 法 完 全 避 免 的 东 西 。 例 如 在 大 型 随 访 队 列 中 , 即 使 有 着 非 常 严 格 的 质 量 控制 , 含 有 缺 项 、 漏 项 的 记 录 也 可 以 非 常 容 易 的 达 到 10% ; 而 在 进 行 敏 感 问 题 调 查 时 , 缺 失 值 问 题就 更 加 突 出 。 如 问 卷 中 涉 及 家 庭 收 入 、 婚 外 性 伴 侣 等 问 题 时 , 许 多 受 访 者 都 会 以 漏 填 来 避 免 尴尬 。 绝 大 部 分 统 计 模 型 都 不 能 对 含 有 缺 失 值 的 数 据 进 行 直 接 分 析 , 当 记 录 中 存 在 缺 失 值 时 , 一 般都 是 将 其 直 接 删 除 以 保 证 统 计 模 型 能 够 正 常 拟 合 。 当 缺 失 { 直 较 少 时 , 这 样 做 没 有 太 大 问 题 ; 但 当缺 失 值 数 量 较 多 时 , 这 样 会 极 为 奢 侈 的 丢 弃 该 记 录 中 的 其 余 大 量 信 息 , 可 能 会 严 重 影 响 分 析 结 果的 准 确 性 。 另 一 方 面 , 这 种 直 接 删 除 的 做 法 还 完 全 忽 略 了 完 全 观 测 和 不 完 全 观 测 间 可 能 存 在 的系 统 差 异 , 从 而 只 使 用 完 全 数 据 进 行 的 分 析 就 不 能 代 表 原 来 的 整 体 人 群 , 有 可 能 会 得 到 错 误 的 结论 。 本 章 的 目 的 就 是 较 为 系 统 的 向 读 者 介 绍 缺 失 值 分 析 的 一 些 基 础 理 论 , 以 及 常 用 的 缺 失 值 填充 算 法 , 从 而 能 对 实 际 的 工 作 有 所 帮 助 。20.1 缺 失 值 理 论 简 介20. 1. 1 数 据 的 缺 失 机 制数 据 的 缺 失 往 往 都 有 一 定 的 规 律 , 这 种 规 律 也 被 称 为 缺 失 机 制 。 总 的 来 说 , 常 见 的 缺 失 机 制有 以 下 三 种 : 完 全 随 机 缺 失 CMissing Completely At Random, MCAR) 、 随 机 缺 失 CMissing At Random, MAR) 、 非 随 机 缺 失 CMissing At Non - Random, MANR) 。1. 完 全 随 机 缺 失指 缺 失 现 象 完 全 是 随 机 发 生 , 和 自 身 或 其 他 变 量 的 取 值 无 关 。 这 是 缺 失 值 问 题 中 处 理 起 来最 简 单 的 一 种 , 如 果 MCAR 假 设 为 真 , 则 可 以 直 接 将 缺 失 值 删 除 , 无 需 担 心 估 计 偏 差 , 这 样 做 唯一 的 缺 点 是 会 丧 失 一 些 信 息 。 也 可 以 采 用 均 值 替 换 等 方 法 对 缺 失 值 进 行 填 充 , 以 充 分 利 用 样 本信 息 。 要 评 估 MCAR 假 设 是 否 成 立 , 可 以 用 比 较 回 答 者 和 未 回 答 者 分 布 的 方 法 来 评 估 观 察 数据 , 也 可 以 使 用 单 变 量 t 检 验 或 Little' s MCAR 检 验 来 进 行 更 精 确 的 评 价 , 详 细 介 绍 参 见 后 面 有关 章 节 。 但 是 , 数 据 缺 失 完 全 符 合 MCAR 的 情 况 非 常 少 见 , 而 且 上 述 的 检 验 方 法 都 只 能 证 明MCAR 假 设 不 成 立 , 而 不 是 证 明 其 成 立 。 因 此 在 对 缺 失 情 况 作 评 价 时 一 定 要 相 当 谨 慎 , 切 不 可 妄下 结 论 。2. 随 机 缺 失这 种 情 况 要 严 重 些 , 但 也 更 加 常 见 。 它 的 含 义 是 有 缺 失 值 的 变 量 其 缺 失 情 况 的 发 生 与 数 据• 408 •


集 中 其 他 无 缺 失 变 量 的 取 值 有 关 。 这 种 情 况 下 缺 失 值 就 不 仅 会 导 致 损 失 信 息 , 更 可 能 导 致 分 析结 论 发 生 偏 差 。 比 如 说 调 查 人 群 的 血 压 , 最 终 收 集 上 来 的 数 据 有 缺 失 , 但 发 现 缺 失 情 况 是 以 高 龄组 为 主 , 即 缺 失 的 出 现 是 因 为 在 调 查 时 高 龄 组 受 访 者 由 于 行 动 不 便 , 未 能 到 场 接 受 深 度 访 谈 和 检查 。 当 缺 失 机 制 为 随 机 缺 失 时 , 直 接 将 缺 失 值 删 除 或 者 采 用 简 单 的 均 数 填 充 方 式 均 不 合 适 , 而 应当 采 用 更 为 复 杂 的 算 法 对 缺 失 值 进 行 估 计 , 或 者 就 缺 失 值 对 分 析 结 果 的 影 响 程 度 进 行 评 价 , 以 期能 得 到 更 为 可 观 、 准 确 的 分 析 结 果 。3. 非 随 机 缺 失这 是 最 糟 糕 的 一 种 情 形 , 指 数 据 的 缺 失 不 仅 和 其 他 变 量 的 取 值 有 关 , 也 和 自 身 取 值 有 关 。 比如 在 调 查 收 入 时 , 收 入 高 的 人 出 于 各 种 原 因 不 愿 意 提 供 家 庭 年 收 入 值 。 这 种 情 形 缺 失 值 分 析 模型 基 本 上 是 无 能 为 力 的 , 只 能 做 非 常 概 略 的 估 计 。 因 此 在 有 的 文 献 中 , 非 随 机 缺 失 也 被 称 为 不 可忽 略 的 缺 失 (Nonignorable , N I)。20. 1. 2 SPSS 中 对 缺 失 值 的 处 理 方 法针 对 不 同 的 数 据 缺 失 情 况 , SPSS 提 供 了 多 种 处 理 方 法 供 用 户 选 择 , 大 致 可 被 分 为 以 下 三 类 :1. 删 除 / 报 告 缺 失 值当 缺 失 { 直 非 常 少 时 一 般 都 可 以 采 用 该 方 法 , 这 一 类 处 理 不 需 要 专 门 的 过 程 , 大 多 被 放 在 相 应方 法 的 Options 子 对 话 杠 中 。 具 体 又 可 分 为 以 下 几 种 :(1) Excludes cases analysis by analysis: 当 一 次 选 择 多 个 变 量 进 行 同 类 分 析 时 , 分 析 中 具 体 用到 的 变 量 有 缺 失 值 , 则 将 相 应 的 记 录 去 除 。 这 是 多 数 情 况 下 的 默 认 处 理 方 式 。(2) Excludes cases listwise: 当 一 次 选 择 多 个 变 量 进 行 同 类 分 析 时 , 只 要 记 录 中 将 会 被 分 析的 变 量 有 缺 失 值 , 则 在 所 有 分 析 中 均 将 该 记 录 去 除 。(3) Report values: 只 在 描 述 过 程 中 出 现 , 将 缺 失 值 作 为 一 个 特 殊 的 分 类 进 行 描 述 。2. Replace Missing Values 过 程Transform 菜 单 中 的 Replace Missing Values 过 程 将 所 有 的 记 录 看 成 一 个 序 列 , 然 后 采 用 某 种指 标 对 缺 失 值 进 行 填 充 , 它 实 际 上 专 门 用 于 解 决 时 间 序 列 模 型 中 的 缺 失 值 问 题 。 虽 然 其 中 的 一些 填 充 方 法 也 可 以 用 于 普 通 数 据 , 但 相 比 之 下 , 如 果 在 非 序 列 数 据 中 使 用 该 过 程 可 能 得 不 偿 失 ,应 当 谨 慎 使 用 。3. Missing Value Analysis 过 程Missing Value Analysis 过 程 是 SPSS 专 门 针 对 缺 失 值 分 析 而 提 供 的 模 块 , 它 提 供 了 对 缺 失 值问 题 全 面 而 强 大 的 分 析 能 力 , 其 主 要 功 能 有 :(1) 缺 失 值 的 描 述 和 快 速 诊 断 : 用 6 种 灵 活 的 诊 断 报 告 来 评 估 缺 失 值 问 题 的 严 重 性 , 用 户 可以 观 察 到 它 们 在 哪 些 变 量 中 出 现 , 比 例 为 多 少 , 是 否 与 其 他 变 量 取 值 有 关 , 从 而 得 知 这 些 缺 失 值的 出 现 是 否 会 影 响 分 析 结 论 。(2) 得 到 更 精 确 的 摘 要 统 计 量 : 提 供 了 4 种 方 法 用 于 估 计 含 缺 失 值 数 据 的 均 值 、 相 关 矩 阵 或协 方 差 矩 阵 : 列 表 状 态 删 除 (Listwise Deletion) , 配 对 状 态 删 除 (Pairwise Deletion) , EM CExpectation -maximization , 期 望 最 大 化 ) 和 回 归 。 通 过 这 些 方 法 计 算 出 的 统 计 量 将 更 加 可 靠 。(3) 用 估 计 值 替 换 缺 失 值 : 使 用 EM 或 回 归 算 法 , 用 户 可 以 从 未 缺 失 数 据 的 分 布 情 况 中 推 算出 缺 失 数 据 的 估 计 值 , 从 而 能 有 效 地 使 用 所 有 数 据 进 行 分 析 , 未 提 高 统 计 结 果 的 可 信 度 。 不 仅 如• 409 •


此 , 用 估 计 值 替 换 缺 失 值 可 以 移 除 数 据 中 隐 藏 的 偏 向 , 所 有 的 组 类 , 甚 至 是 回 答 情 况 极 差 的 组 类都 可 以 在 分 析 结 果 中 表 现 出 来 , 从 而 得 出 更 精 确 的 结 论 。在 前 述 三 种 缺 失 机 制 中 , 非 随 机 缺 失 基 本 上 没 有 什 么 统 计 方 法 可 以 处 理 , SPSS 的 缺 失 值 分析 模 块 主 要 是 对 MCAR 和 MAR 的 情 形 进 行 分 析 , 尤 其 是 后 者 。 将 它 们 区 分 开 来 的 意 义 在 于 : 由于 MCAR 通 常 实 际 上 很 难 遇 到 , 应 该 在 进 行 调 查 之 前 就 考 虑 哪 些 重 要 变 量 可 能 会 有 缺 失 值 出现 , 以 及 该 问 题 的 严 重 程 度 。 从 而 在 设 计 时 就 尽 量 在 调 查 中 包 括 相 关 变 量 , 以 使 用 这 些 变 量 来 估算 缺 失 值 。20.2 对 缺 失 情 况 的 基 本 分 析当 进 行 缺 失 值 分 析 时 , 首 先 要 完 成 的 任 务 就 是 详 细 考 察 数 据 的 缺 失 情 况 , 并 具 此 评 估 可 能 的缺 失 机 制 , 以 及 缺 失 值 可 能 对 分 析 结 果 所 带 来 的 影 响 。 本 节 将 介 绍 MVA 过 程 中 提 供 的 各 种 缺失 值 基 本 分 析 方 法 。20.2.1 缺 失 值 数 据 的 生 成由 于 缺 失 值 分 析 的 实 质 是 对 因 缺 失 而 导 致 偏 差 的 分 析 结 果 进 行 修 正 , 使 得 它 尽 量 接 近 " 真实 " 的 结 果 。 为 使 得 分 析 效 果 能 有 一 个 对 照 标 准 , 这 里 将 人 为 生 成 一 个 含 缺 失 值 的 数 据 , 然 后 用Missing Value Analysis过 程 对 其 进 行 分 析 , 从 而 可 以 将 结 果 和 原 数 据 的 分 析 结 果 加 以 对 照 , 以 评估 填 充 效 果 。 数 据 coanova. sav 记 录 了 一 批 受 访 者 的 体 重 组 别 ( 正 常 / 超 重 组 ) 年 龄 和 胆 固 醇 值 ,现 希 望 考 察 体 重 组 别 和 年 龄 对 后 者 是 否 有 影 响 。 这 个 例 子 如 果 使 用 全 部 数 据 进 行 回 归 来 分 析 ,则 结 果 参 见 表 20. 10这 就 是 用 于 对 照 的 最 佳 分 析 结 果 。 现 在 来 人 为 生 成 缺 失 值 , 在 数 据 中 , 年 龄 大 于 50 岁 的 共有 11 条 记 录 , 在 其 中 使 用 随 机 函 数 任 意 删 除 了 其 中 7 条 记 录 的 CHOL 值 , 具 体 见 数 据 mlssmg.sav 。 此 时 再 进 行 回 归 分 析 , 结 果 参 见 表 20.20统 计 结 果 己 经 发 生 了 相 当 大 的 变 化 。 这 是 因 为 缺 失 值 并 非 完 全 随 机 生 成 , 而 是 以 50 岁 以 上的 记 录 为 主 。 从 上 面 的 分 析 中 可 知 年 龄 和 胆 固 醇 值 有 关 , 这 样 高 龄 组 胆 固 醇 数 据 缺 失 , 自 然 会 严重 影 响 到 结 果 。 考 虑 到 一 共 只 有 26 条 记 录 , 却 有 7 条 记 录 缺 失 , 占 了 26.9% , 结 果 发 生 如 此 之大 的 偏 差 也 就 不 奇 怪 了 。从 现 在 开 始 , 假 设 大 家 拿 到 子 的 就 只 有 这 个 mlsslng.sav , 那 么 对 其 缺 失 的 情 况 一 无 所 知 , 而本 章 余 下 来 的 内 容 其 任 务 就 是 对 缺 失 值 的 影 响 进 行 评 估 , 并 尽 量 得 到 更 准 确 的 分 析 结 果 。• 410 •


20.2.2 对 缺 失 模 式 的 分 析在 MVA 过 程 中 , 对 缺 失 值 的 描 述 分 为 两 个 部 分 , 首 先 是 较 为 简 单 的 缺 失 模 式 列 表 , 主 要 是针 对 每 一 个 案 例 给 出 缺 失 信 息 ; 随 后 是 比 较 详 细 的 缺 失 值 统 计 描 述 , 是 对 整 个 样 本 进 行 缺 失 情 况的 分 析 。 这 里 首 先 来 看 前 者 , 如 果 要 对 mlssmg. sav 给 出 全 部 变 量 的 缺 失 值 模 式 列 表 , 则 操 作 如下 :iAnalyze• Missing Value Analysisi Quantitati 刊 Variables 杠 : Chol 、 agei Categorical Variables 杠 : group: Estimation: 即 EMEtternsl: 选 中 所 有 复 选 杠 : IContinue I|Descriptive1: 清 除 所 有 复 选 杠 :~ 豆 豆 ­困操 作 中 清 除 对 Descriptive 复 选 杠 的 选 择 主 要 是 为 了 使 结 果 更 为 整 齐 。 分 析 中 用 到 的 主 对 话杠 如 图 20.1 所 示 。 可 见 该 对 话 杠 界 面 非 常 的 简 单 , 用 户 只 需 要 将 数 据 集 中 的 数 值 型 变 量 和 分 类图 20. 1 主 对 话 框• 411 •


变 量 分 别 选 入 Quantitative Variables 杠 和 Categorical Variables 杠 即 可 。 对 话 杠 的 右 上 角 提 供 了 两个 按 钮 , 分 别 对 应 了 两 种 缺 失 值 描 述 功 能 , 上 面 操 作 中 用 到 的 是 patterns 。 右 下 方 的 Estimation组 则 提 供 了 几 种 缺 失 值 填 补 方 法 , 详 见 下 节 。现 在 让 我 们 结 合 分 析 结 果 对 Patterns 子 对 话 杠 的 功 能 力 日 以 了 解 , 如 图 20. 2 所 示 。杠图 20. 2 Pattems 子 对 话 框首 先 给 出 的 表 格 表 20.3 就 是 所 有 记 录 的 缺 失 值 样 式 表 , 为 节 省 篇 幅 , 这 里 删 除 了 11 ~ 25 号• 412 •


记 录 的 输 出 。 如 果 指 定 了 记 录 标 签 , 则 第 一 列 会 按 照 标 签 值 进 行 输 出 。 从 第 二 列 开 始 输 出 的 分别 是 该 记 录 中 的 缺 失 变 量 数 、 缺 失 比 例 和 各 变 量 的 具 体 缺 失 情 况 。 注 意 在 具 体 缺 失 情 况 中 , 系 统缺 失 值 、 自 定 义 缺 失 值 类 型 1 、 自 定 义 缺 失 值 类 型 2 、 自 定 义 缺 失 值 类 型 3 将 分 别 在 表 中 用 "S" 、"A" 、 "B" 、 "C" 表 示 。 在 下 方 可 以 选 择 排 序 方 式 。除 此 以 外 , 系 统 还 会 按 照 CQl - 1. 5 x 四 分 位 间 距 , Q3 + 1. 5 x 四 分 位 间 距 ) 来 估 计 正 常 值 范围 , 超 出 此 范 围 的 被 认 为 是 极 大 值 和 极 小 值 ( 注 意 算 法 和 箱 式 图 相 同 ) , 在 列 表 中 则 分 别 用 +、 一号 表 示 。 例 如 在 表 20.3 中 第 26 条 记 录 的 chol 就 被 系 统 认 为 是 较 大 一 侧 的 离 群 值 。表 20.4 的 输 出 实 际 上 和 前 一 个 表 格 完 全 相 同 , 只 是 只 截 取 了 含 有 缺 失 值 的 记 录 而 己 。最 后 输 出 的 表 格 表 20.5 是 为 全 部 进 入 缺 失 值 分 析 的 变 量 给 出 缺 失 值 样 式 表 , 可 见 在 总 共26 条 案 例 中 , 共 有 7 条 案 例 的 chol 存 在 缺 失 。 而 另 两 个 变 量 则 均 无 缺 失 情 况 出 现 。• 413 •


20.2.3 缺 失 情 况 的 统 计 描 述下 面 来 看 对 缺 失 情 况 进 行 统 计 描 述 的 功 能 , 相 应 的 选 项 均 放 置 在 Descriptive子 对 话 杠 中 , 如图 20.3 所 示 , 可 见 内 容 也 比 较 简 单 。 默 认 情 况 下 只 有 最 左 上 角 的 Univariate statistics 单 选 杠 被选 中 , 如 果 选 择 全 部 功 能 , 接 下 来 将 详 细 介 绍 。图 20.3 Desc 呻 tives 子 对 话 框表 2 却 0.6 即 为 默 认 选 中 的 Un 山 1的 数 量 、 均 数 、 标 准 差 , 同 时 会 显 示 缺 失 { 值 直 、 极 大 { 值 直 、 极 小 { 值 直 的 例 数 和 百 分 比 。 从 中 可 见 在 三 个 变量 中 只 有 chol 有 7 个 缺 失 值 。 变 量 group 由 于 被 指 定 为 分 类 变 量 , 因 此 不 会 输 出 均 数 和 标 准 差 。表 20. 7 对 应 于 t tests with groups formed by indicator variables 单 选 框 , SPSS 首 先 查 找 存 在 缺• 414 •


失 值 的 变 量 , 然 后 为 每 一 个 缺 失 变 量 都 生 成 一 个 指 示 变 量 , 它 会 按 照 相 应 变 量 是 否 缺 失 将 全 部 记录 分 为 两 组 。 随 后 按 照 这 种 分 组 情 况 , 为 所 有 连 续 性 变 量 进 行 t 检 验 。 例 如 本 例 中 是 按 照 、 chol是 否 缺 失 被 分 成 了 两 组 , 然 后 对 age 、 chol 进 行 两 组 均 数 的 t 检 验 。 从 中 可 见 年 龄 均 数 在 缺 失 、 未缺 失 组 间 存 在 差 异 , 缺 失 组 的 年 龄 明 显 要 大 一 些 。表 20. 8 对 应 了 Crosstabulations of categorical and indicator variables 单 选 杠 的 输 出 , 实 际 上 是为 每 一 个 分 类 变 量 都 和 缺 失 指 示 变 量 生 成 交 叉 表 。 由 此 可 以 看 出 分 类 变 量 和 缺 失 情 况 间 的 联 系趋 势 。表 20. 9 对 应 于 Percent mismatch 选 项 框 , 为 所 有 存 在 缺 失 的 变 量 显 示 其 中 一 个 变 量 缺 失 , 而另 一 个 未 缺 失 的 记 录 所 占 的 比 例 。 本 例 因 只 有 一 个 变 量 有 缺 失 值 , 故 结 果 无 实 际 意 义 。根 据 以 上 分 析 , 可 以 发 现 变 量 chol 的 缺 失 情 况 似 乎 和 变 量 age 的 取 值 有 关 , 年 龄 越 大 , chol缺 失 的 就 越 多 。 如 果 结 合 专 业 知 识 , 这 一 关 联 也 可 以 成 立 的 话 , 则 可 以 认 为 该 缺 失 属 于 随 机 缺 失(MAR) 。20.3 缺 失 值 填 充 技 术前 面 的 描 述 表 明 该 缺 失 属 于 随 机 缺 失 , 由 于 本 研 究 的 目 的 是 分 析 年 龄 、 体 重 组 对 胆 固 醇 的 影响 情 况 , 因 此 这 里 的 数 据 缺 失 可 能 对 分 析 结 果 有 较 大 的 影 响 , 下 面 就 使 用 相 应 方 法 对 原 模 型 进 行估 计 。• 415 •


20.3.1 要 IJ 表 输 出前 面 提 到 主 对 话 杠 右 下 方 的 Estimation 杠 组 中 提 供 了 几 种 缺 失 值 填 补 方 法 , 其 中 回 归 和 EM是 真 正 的 填 充 算 法 , 而 前 两 个 复 选 杠 List 和 Pairwise 实 际 上 仍 然 是 基 本 的 统 计 描 述 功 能 , 如 果 选择 这 两 项 , 则 相 应 的 输 出 将 详 细 介 绍 。表 20. 10 、 表 20.11 和 表 20. 12 三 个 表 格 就 是 List 复 选 杠 所 对 应 的 输 出 , 分 别 是 全 体 无 缺 失数 据 的 均 数 、 协 方 差 和 标 准 差 。表 20.13 、 表 20. 14 和 表 20.15 三 个 表 格 为 Pairwise 复 选 杠 所 对 应 的 输 出 , 分 别 给 出 变 量 两两 匹 配 下 无 缺 失 数 据 的 频 数 、 均 数 和 标 准 差 。 从 中 可 以 看 到 , 主 要 是 chol存 在 缺 失 , 而 这 种 缺 失对 age 的 影 响 较 大 , 比 如 age 的 均 数 、 标 准 差 都 发 生 了 较 大 的 变 化 , 参 见 表 20. 16 和 表 20. 17 0• 416 •


20.3.2 使 用 回 归 算 法 进 行 填 充通 过 前 面 的 分 析 , 己 经 得 知 chol 的 缺 失 应 当 和 age 的 取 值 有 关 , 下 面 可 以 考 虑 使 用 适 当 的 算法 对 chol 的 缺 失 进 行 填 充 。 SPSS 中 一 共 提 供 了 回 归 和 EM 两 种 算 法 , 首 先 来 看 较 为 简 单 的 回 归算 法 , 该 方 法 实 际 上 就 是 使 用 所 有 被 选 入 的 连 续 变 量 为 自 变 量 , 存 在 缺 失 值 的 变 量 为 应 变 量 建 立回 归 方 程 , 在 得 到 回 归 方 程 后 , 利 用 该 方 程 对 因 变 量 相 应 的 缺 失 值 进 行 填 充 , 具 体 的 填 充 数 值 为回 归 预 测 值 加 上 任 意 一 个 回 归 残 差 , 使 得 它 更 接 近 实 际 情 况 。 而 如 果 存 在 多 个 缺 失 变 量 的 话 , 则为 它 们 依 次 建 立 多 个 回 归 方 程 , 并 依 次 进 行 预 测 和 填 充 。图 20. 4 Variables 子 对 话 框图 20.4 为 Variables 子 对 话 框 , 用 于 选 择 进 入 缺 失 值 填 充 算 法 的 变 量 。 默 认 情 况 下 为 使 用所 有 连 续 性 变 量 进 行 缺 失 值 估 计 , 如 果 不 希 望 这 样 做 , 可 更 改为 选 择 某 些 变 量 进 行 估 计 CSelectvariables) , 然 后 在 下 方 进 行具 体 的 选 择 。 其 中 Predicted Variables 杠 用 于 选 入 需 要 估 计 缺失 值 的 变 量 ( 因 变 量 ) , 而 Predictor Variables 杠 则 选 入 用 于 在EM 算 法 或 回 归 算 法 中 估 计 其 他 变 量 缺 失 值 的 变 量 ( 自 变 量 )。特 别 的 , 同 一 个 变 量 可 以 同 时 成 为 Predicted Variable 和 PredictorVariable , 此 时 可 使 用 Both 钮 将 其 一 次 选 入 两 个 杠 中 。图 20.5 为 Regression 子 对 话 框 , 用 于 对 回 归 算 法 所 进 一 步的 设 置 。 Estimation Adjustment 单 选 杠 组 用 于 设 定 为 原 始 估 计 图 20. 5 Regression 子 对 话 框• 417 •


值 加 上 的 随 机 误 差 项 的 分 布 方 式 。 有 回 归 方 程 残 差 、 正 态 分 布 、 t 分 布 残 差 三 种 。 如 果 不 希 望 添加 随 机 误 差 项 , 直 接 用 方 程 估 计 值 替 换 缺 失 值 。 则 选 择 最 后 的 None 0Maximum number of predictors复 选 杠 用 于 限 制 方 程 中 自 变 量 的 数 目 , 如 果 设 为 0 , 即 相 当 于 用 变 量 均 数 ( 加 上 残 差 ) 替 换 缺失 值 。 最 下 方 的 Save completed data 复 选 杠 则 要 求 将 数 据 中 的 缺 失 值 用 回 归 算 法 估 计 出 的 数 值替 换 , 然 后 存 入 一 个 新 的 SPSS 数 据 文 件 中 , 具 体 文 件 名 用 右 侧 的 File 按 钮 指 定 。下 面 开 始 填 充 , 操 作 如 下 :Regression|Regression1:Save completed data:曰 : 川 mlss _ reg. sav|Continuel相 应 的 结 果 输 出 如 下 :表 20. 18 、 表 20. 19 和 表 20. 20 三 个 表 格 下 方 均 提 示 : 所 有 估 计 中 均 随 机 加 入 了 某 一 个 案 例的 残 差 。 也 就 是 说 , 现 在 给 出 的 均 数 、 协 方 差 、 相 关 系 数 都 是 这 样 随 机 添 加 了 一 个 残 差 后 重 新 进行 分 析 的 结 果 。 由 于 具 体 添 加 哪 一 个 残 差 是 完 全 随 机 确 定 的 , 因 此 大 家 自 行 操 作 的 结 果 不 会 和上 面 完 全 相 同 , 但 应 当 相 差 不 大 。 同 时 , 相 应 的 填 充 后 数 据 也 己 被 存 为 所 指 定 的 数 据 集 。 如 果 对此 数 据 进 行 分 析 , 则 结 果 参 见 表 20.210可 见 和 未 填 充 数 据 的 分 析 结 果 相 比 , 体 重 的 系 数 估 计 值 要 更 为 接 近 真 实 情 况 一 些 , 但 对 年 龄的 系 数 估 计 值 反 而 偏 离 更 远 , 在 本 例 中 , 这 可 以 归 结 为 填 充 时 所 加 的 残 差 项 的 影 响 。为 了 能 够 对 填 充 的 情 况 有 更 清 晰 的 了 解 , 特 绘 制 出 预 测 值 与 实 测 值 的 散 点 图 如 图 20. 6 所• 418 •


示 。 因 20.6 Ca) 为 回 归 算 法 估 计 出 的 缺 失 值 和 原 真 实 值 间 的 散 点 图 , 可 见 回 归 算 法 的 估 计 值 明显 偏 低 。 图 20.6 Cb) 为 估 计 值 、 其 余 实 测 值 和 胆 固 醇 间 的 散 点 图 , 可 见 本 例 由 于 样 本 量 很 小 , 填充 后 的 线 性 趋 势 受 到 了 左 下 方 少 数 几 个 离 群 值 的 明 显 影 响 , 导 致 效 果 不 是 太 好 。图 20.6回 归 算 法 的 散 点 图20.3.3 使 用 EM 算 法 进 行 填 充前 面 演 示 了 如 何 使 用 回 归 算 法 进 行 填 充 , 当 数 据 缺 失 比 较 少 , 缺 失 机 制 也 比 较 明 确 时 , 回 归算 法 的 效 果 尚 可 , 但 是 如 果 变 量 间 的 联 系 较 为 复 杂 , 可 能 呈 现 曲 线 联 系 时 , 显 然 使 用 线 性 关 联 的回 归 算 法 将 不 再 合 适 。 除 此 以 外 , 当 数 据 缺 失 较 多 时 , 回 归 算 法 的 效 果 一 般 也 不 佳 。 在 这 些 更 为复 杂 的 情 况 下 , EM 算 法 将 是 更 合 适 的 选 择 。EM 算 法 是 一 种 迭 代 算 法 , 最 初 由 Dempster 等 提 出 , 主 要 用 来 求 后 验 分 布 的 最 大 似 然 估 计值 , 该 算 法 在 缺 失 值 的 估 计 上 非 常 有 效 。 它 的 每 一 次 迭 代 由 两 步 组 成 :E 步 求 出 期 望 CExpectation), M 步 则 将 随 机 参 数 进 行 极 大 化 CMaximization) 。 简 单 地 说 , 未 知 某 个 随 机 变 量 的 值 , 需 要 在Y 和 当 前 模 型 参 数 条 件 下 求 出 其 期 望 值 。 在 运 算 时 就 首 先 给 该 变 量 一 个 初 始 值 , 然 后 求 出 模 型中 的 各 个 参 数 估 计 值 CM 步 )。 随 后 利 用 新 估 计 出 的 模 型 对该 随 机 变 量 值 进 行 估 计 CE 步 ) , 如 此 反 复 迭 代 , 直 至 收 敛 为止 。 根 据 大 量 的 实 践 , 人 们 发 现 EM 算 法 可 以 很 好 地 处 理 大多 数 缺 失 值 问 题 , 是 一 个 非 常 稳 健 的 缺 失 值 填 充 算 法 。图 20. 7 就 是 EM 子 对 话 框 , 用 于 对 EM 算 法 做 进 一 步的 设 置 。 主 要 可 供 选 择 的 是 Distribution 单 选 杠 组 , 用 于 设置 变 量 的 分 布 形 式 , 默 认 为 正 态 分 布 , 可 更 改 为 混 合 正 态分 布 , 或 者 t 分 布 , 后 两 种 情 况 需 要 进 一 步 设 定 相 应 参 数 ,如 混 合 正 态 分 布 中 的 混 合 比 例 、 标 准 差 比 , 以 及 t分 布 中 的自 由 度 。 图 20.7 EM 子 对 话 框• 419 •


下 面 采 用 EM 算 法 进 行 缺 失 值 的 填 充 , 操 作 如 下 :EME 二 J:Save 叫 leted data: 曰 : 川 mlSS em. sav|Continuel表 20.22 和 表 20. 23 分 别 给 出 了 各 变 量 原 始 均 数 、 标 准 差 和 使 用 EM 算 法 填 充 后 得 到 的 均数 、 标 准 差 , 可 见 chol的 均 数 和 标 准 差 都 有 了 明 显 的 改 变 , EM 算 法 得 到 的 均 数 、 标 准 差 估 计 值 要比 缺 失 数 据 集 的 计 算 结 果 更 加 接 近 原 始 结 果 。表 20.24 给 出 的 是 EM 估 计 的 各 变 量 均 值 , 下 方 进 行 的 是 Little'无 效 假 设 , 认 为 数 据 缺 失 不 是 完 全 随 机 缺 失 , 这 正 是 本 例 的 实 际 情 况 。S MCAR 检 验 , 结 果 为 拒 绝表 20.25 和 表 20. 26 分 别 给 出 了 EM 算 法 估 计 后 三 个 变 量 间 的 协 方 差 阵 和 相 关 系 数 阵 。 下方 Little' S MCAR 检 验 的 输 出 结 果 和 前 面 完 全 相 同 。最 后 , 使 用 EM 算 法 填 充 好 的 数 据 己 经 被 存 为 文 件 mlSS em. sav , 下 面 对 其 进 行 回 归 分 析 ,结 果 参 见 表 20. 27 所 示 。将 其 和 原 数 据 的 分 析 结 果 加 以 比 较 , 可 以 看 到 在 所 有 分 析 结 果 中 , 这 是 最 为 接 近 真 实 值 的一 个• 420 •


图 20.8EM 算 法 的 散 点 图这 里 仍 然 绘 制 出 预 测 值 和 实 测 值 间 关 系 的 散 点 图 , 如 图 20. 8 所 示 , 图 20.8 (a) 中 可 见 EM算 法 的 预 测 值 与 实 测 值 间 的 差 值 呈 现 出 随 机 波 动 的 趋 势 , 总 的 预 测 趋 势 是 正 确 的 。 图 20.8 (b)中 则 可 见 估 计 值 的 线 性 趋 势 和 其 余 实 测 值 散 点 的 趋 势 吻 合 得 非 常 好 , 完 全 和 实 际 的 回 归 趋 势 相一 致 。20.3.4 多 重 填 充 技 术 简 介近 几 十 年 来 , 针 对 缺 失 数 据 的 统 计 分 析 方 法 一 直 是 统 计 学 研 究 中 的 活 跃 领 域 , 前 述 的 回 归 算法 、 EM 算 法 等 就 是 相 应 的 研 究 成 果 。 但 是 , 上 述 这 些 填 充 算 法 为 每 一 个 缺 失 值 都 只 给 出 一 个 填充 值 的 估 计 , 难 免 让 对 人 对 其 准 确 性 产 生 怀 疑 。 Rubin 提 出 来 的 多 重 填 充 (Multiple Imputation,MI) 则 避 免 了 这 种 担 心 , ~ 衷 方 法 大 致 被 分 为 三 个 步 骤 :(1) 为 每 个 缺 失 值 产 生 一 系 列 可 能 的 填 充 值 , 这 些 数 值 反 映 了 缺 失 数 据 位 置 真 实 值 的 不 确定 性 , 而 每 一 个 值 都 会 被 用 于 填 充 , 从 而 产 生 若 干 个 完 整 的 数 据 集 。(2) 为 每 个 填 充 好 的 数 据 集 都 使 用 原 先 希 望 应 用 的 统 计 分 析 方 法 进 行 分 析 , 从 而 产 生 一 系列 结 果 。(3) 对 上 述 一 系 列 分 析 结 果 进 行 综 合 , 产 生 最 终 的 统 计 推 断 。 显 然 , 相 应 的 推 断 结 果 考 虑 到• 421 •


了 缺 失 数 据 的 不 确 定 性 , 从 而 结 果 更 为 可 靠 。MI 方 法 在 理 论 上 比 较 完 善 , 但 是 在 应 用 中 也 存 在 诸 多 问 题 , 首 先 MI 方 法 仍 然 假 设 数 据 的 缺失 机 制 为 随 机 缺 失 , 对 于 非 随 机 缺 失 的 情 况 仍 然 无 法 处 理 ; 其 次 在 大 多 数 MI 方 法 中 , 都 必 须 先根 据 某 种 概 率 分 布 假 设 产 生 相 应 的 填 充 数 据 , 这 显 然 使 得 该 方 法 的 应 用 受 到 限 制 , 且 使 得 运 算 过程 趋 于 复 杂 , 甚 至 于 对 复 杂 的 缺 失 问 题 需 要 使 用 MCMC 方 法 进 行 拟 合 。 最 后 , 在 多 数 实 际 问 题中 , 研 究 者 发 现 MI 方 法 和 EM 算 法 相 比 , 其 填 充 效 果 实 际 上 并 无 区 别 , 而 运 算 过 程 和 资 源 消 耗 又远 大 于 EM 算 法 。 原 因 在 于 EM 算 法 可 以 直 接 从 不 完 全 数 据 中 计 算 出 参 数 的 极 大 似 然 估 计 , 而不 需 要 像 MI 算 法 那 样 进 行 反 复 的 模 拟 , 来 寻 找 最 佳 的 参 数 分 布 假 设 。 基 于 以 上 这 些 原 因 , 目 前效 果 最 为 公 认 , 最 为 常 用 的 仍 为 EM 算 法 。 SPSS 的 缺 失 值 分 析 模 块 目 前 也 只 纳 入 了 EM 算 法 , 而未 纳 入 MI 方 法 。缺 失 值 理 论 非 常 的 复 杂 , 本 章 内 容 只 是 一 个 非 常 概 略 的 介 绍 , 大 家 在 分 析 时 切 记 要 慎 之 又慎 , 一 定 要 细 心 分 析 , 并 且 紧 密 结 合 专 业 知 识 , 万 万 不 可 脱 离 专 业 背 景 妄 下 结 论 。思 考 与 练 习打 开 SPSS 白 带 数 据 集 cars. sav , 有 选 择 的 删 除 变 量 accel 中 较 大 或 较 小 的 一 部 分 数 据 , 然 后 利 用 其 余 变 量 对这 些 缺 失 值 进 行 填 充 , 以 比 较 几 种 缺 失 值 算 法 的 特 点 , 并 思 考 它 们 各 自 适 用 于 什 么 样 的 情 形 。参 考 文 献1 SPSS Missing Value Analysis 7.5 User Manual. SPSS Inc. Chicago , <strong>Il</strong>linois, 19972 张 文 膨 主 编 . SPSS 11 统 计 分 析 教 程 ( 高 级 篇 ) . 北 京 : 北 京 希 望 电 子 出 版 社 , 20023 贺 佳 , 陆 健 主 编 . 医 学 统 计 学 中 的 SAS 统 计 分 析 . 上 海 : 第 二 军 医 大 学 出 版 社 , 2002• 422 •


SPSS 产 品 简 介SPSS 系 列 统 计 分 析 产 品 是 完 全 适 应 数 据 分 析 流 程 的 一 系 列 软 件 产 品 的 统 称 , 包 括 SPSS 统计 分 析 软 件 包 和 AMOS 、 AnswerTree 、 SPSS Data Entry 、 SamplePower 、 SmartViewer Web Server 等 独立 的 软 件 产 品 。SPSS 统 计 分 析 软 件 包 运 用 统 计 学 原 理 进 行 数 据 分 析 , 采 用 模 块 化 设 计 技 术 ( 包 括 一 个 基 本模 块 和 十 个 辅 助 模 块 ) 增 强 产 品 的 灵 活 性 ; 基 本 模 块 与 辅 助 模 块 、 独 立 软 件 产 品 的 不 同 整 合 方 式可 以 满 足 不 同 的 数 据 分 析 需 要 , 优 化 从 方 案 规 划 到 最 终 提 交 分 析 结 果 的 全 部 流 程 。作 为 SPSS 的 最 新 版 本 , SPSS 12.0 for Windows 在 数 据 准 备 、 结 果 管 理 、 图 形 演 示 以 及 其 他 许多 方 面 都 做 了 重 要 改 进 , 功 能 更 强 大 , 显 示 更 直 观 , 操 作 更 便 捷 。博 塔 ( 中 国 ) 有 限 公 司http://www.spssbj.com.cn北 京 100086海 淀 区 中 关 村 南 大 街 2 号 数 码 大 厦 A 座 1203 室电 话 : + 86 (1 0) 8251 - 513115132/5133/5135/5139/5215传 真 : + 86 (1 0) 8251 - 5137上 海 200050上 海 市 长 宁 区 延 安 西 路 889 号 太 平 洋 中 心 907 室电 话 : + 86 (2 1) 5240 - 2011传 真 : + 86 (2 1) 5240 - 2107• 423 •


附 录常 见 多 变 量 / 多 元 统 计 分 析 方 法 分 类 图 4不 能 区 分能 略 区 分一 个 因 变 量多 个 因 变 量数 值生 存 结 局 分 类 比 较 简 单 比 较 复 杂方 差 分 析 模 型多 重 回 归 分 析判 别 分 析L. 耶 吕 tlC 模 型 族树 结 构 模 型多 元 方 差 分 析 1 I 路 径 分 析多 元 回 归 分 析 I l 结 构 方 程 模 型数 据 的 分 类信 息 破 缩分 析 变 量 闯 关 系分 析 各 一兀素 可 关 系预 测 数 据随 时 间 的变 动 趋 势回量f阳LH 时间 口一 关于 一一 分­四系飞圳J研 究 变 量 组间 的 关 系各 种 概 念间 的 距 离各 类 别的 关 联4 该 分 类 图 仅 为 方 便 初 学 者 学 习 而 提 供 , 并 未 完 整 的 包 括 全 部 多 元 统 计 方 法 , 也 并 不 代 表 严 格 的 方 法 学 分 类 体 系 , 事 实上 , 许 多 方 法 可 以 被 归 入 多 个 分 支 中 , 很 难 被 严 格 归 类 。• 424 •

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!