12.07.2015 Views

信息过滤中基于二元近似关系分布的噪声屏蔽算法 - 哈尔滨工业大学 ...

信息过滤中基于二元近似关系分布的噪声屏蔽算法 - 哈尔滨工业大学 ...

信息过滤中基于二元近似关系分布的噪声屏蔽算法 - 哈尔滨工业大学 ...

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

∗信 息 过 滤 中 基 于 二 元 近 似 关 系 分 布 的 噪 声 屏 蔽 算 法洪 宇 + , 张 宇 , 郑 伟 , 刘 挺 , 李 生( 哈 尔 滨 工 业 大 学 计 算 机 科 学 与 技 术 学 院 信 息 检 索 研 究 室 , 哈 尔 滨 150001)Algorithm of Shielding Information Filtering from Noises Based on Distribution ofTwo-Dimension Similarity *HONG Yu, ZHANG Yu, ZHENG Wei, LIU Ting, LI Sheng(Information Retrieval Lab, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)+ Corresponding author: Corresponding author: Phn: +86-451-86413683 ext 811, E-mail: hy@ir.hit.edu.cnAbstract: This paper investigates the reason for creature of noises in the feedback of filtering system by analyzingthe knowledge expressions and text structures, and builds a two-dimension similarity model of information basingon the opposed relation between the noises and user profile. At the same time, by using the algorithm of AdaBoostbased on the LMS classifier, this paper builds classification curve between the noises and related informationaccording to their distribution in two-dimension similarity space, which helps information filtering system detectand filter the noises in feedback. Experiments validated this algorithm substantially improved the capability offiltering system to rule out the noises.Key words:Information filtering; Noise; Profile; Two-dimension similar relation摘 要 : 本 文 通 过 分 析 知 识 的 表 示 方 式 和 文 本 的 组 织 结 构 , 探 寻 过 滤 系 统 反 馈 中 噪 声 产 生 的 原 因 , 并 根 据 噪 声和 用 户 模 型 的 相 悖 关 系 , 为 信 息 流 建 立 基 于 二 元 近 似 关 系 的 相 关 度 模 型 。 同 时 , 本 文 根 据 信 息 在 二 维 近 似 关 系 空间 中 的 分 布 , 采 用 基 于 LMS 分 类 器 的 AdaBoost 算 法 建 立 噪 声 和 相 关 信 息 的 分 类 曲 线 , 从 而 辅 助 信 息 过 滤 系 统 识别 和 屏 蔽 反 馈 中 的 噪 声 。 通 过 实 验 验 证 , 该 算 法 显 著 改 进 了 过 滤 系 统 屏 蔽 噪 声 的 能 力 。关 键 词 : 信 息 过 滤 ; 噪 声 ; 用 户 模 型 ; 二 元 近 似 关 系中 图 法 分 类 号 : TP3911 引 言[1]信 息 过 滤 是 一 项 从 动 态 信 息 流 中 自 动 获 取 相 关 信 息 的 技 术 [2] , 其 在 知 识 获 取 领 域 具 有 重 要 的 应 用 意义 , 如 垃 圾 邮 件 过 滤 和 个 性 化 信 息 推 荐 系 统 等 。 信 息 过 滤 往 往 需 要 为 用 户 预 先 建 立 相 对 固 定 的 需 求 模 型∗ Supported by the National Natural Science Foundation of China under Grant Nos. 60435020, 60503072 ( 国 家 自 然 科 学 基 金 )作 者 简 介 : 洪 宇 (1978-), 男 , 黑 龙 江 哈 尔 滨 市 , 博 士 研 究 生 , 主 要 研 究 领 域 为 话 题 检 测 与 跟 踪 , 信 息 过 滤 , 个 性 化 信 息 检 索 ; 张 宇(1972-), 男 , 博 士 , 副 教 授 , 主 要 研 究 领 域 为 信 息 过 滤 , 自 动 问 答 , 自 然 语 言 处 理 ; 郑 伟 (1984-), 男 , 硕 士 研 究 生 , 主 要 研 究 领 域 为 话 题 跟踪 , 社 会 关 系 网 络 及 应 用 ; 刘 挺 (1972-), 男 , 博 士 , 教 授 , 博 士 生 导 师 , 主 要 研 究 领 域 为 自 然 语 言 处 理 , 信 息 检 索 , 认 知 心 理 学 ; 李 生 (1943-), 男 , 博 士 , 教 授 , 博 士 生 导 师 , 主 要 研 究 领 域 为 自 然 语 言 处 理 , 信 息 检 索 , 机 器 翻 译 .


洪 宇 等 : 基 于 二 元 近 似 关 系 屏 蔽 噪 声 的 信 息 过 滤 算 法(Profile), 并 针 对 信 息 流 中 的 每 项 信 息 进 行 实 时 的 相 关 性 判 断 , 在 此 基 础 上 向 用 户 反 馈 相 关 信 息 和 屏 蔽 不 相关 信 息 。 与 此 不 同 的 是 , 信 息 检 索 针 对 用 户 动 态 变 化 的 信 息 需 求 (Query), 从 静 态 知 识 库 中 查 询 所 有 相 关 信息 , 并 基 于 相 关 度 排 序 的 方 式 全 部 反 馈 于 用 户 。 因 此 , 信 息 过 滤 与 信 息 检 索 如 同 “ 硬 币 的 两 面 ” [3] , 采 用 不 同的 信 息 服 务 方 式 实 现 相 同 的 服 务 目 的 , 两 者 获 取 知 识 的 方 法 往 往 不 能 通 用 。 也 由 此 , 信 息 过 滤 在 知 识 获 取 领域 成 为 相 对 独 立 并 富 于 活 力 的 研 究 方 向 。文 本 检 索 会 议 (TREC) 将 信 息 过 滤 方 向 的 研 究 划 分 为 三 个 子 任 务 : 分 流 (Routing)、 批 过 滤 (batch filtering) 和自 适 应 过 滤 (Adaptive filtering) [4][5] 。 综 合 上 述 任 务 的 特 点 , 信 息 过 滤 系 统 可 划 分 为 如 下 四 个 组 成 部 分 : 用 户模 型 , 过 滤 模 型 , 相 关 性 阈 值 和 自 适 应 学 习 。 其 中 , 用 户 模 型 用 于 描 述 用 户 的 信 息 需 求 ; 过 滤 模 型 用 于 估 计信 息 与 用 户 模 型 的 相 关 度 ; 阈 值 用 于 设 置 相 关 性 的 标 准 并 裁 决 信 息 的 反 馈 ( 相 关 度 高 于 阈 值 的 信 息 作 为 相 关信 息 反 馈 于 用 户 ); 自 适 应 学 习 则 兼 顾 用 户 模 型 的 更 新 和 过 滤 模 型 的 优 化 。针 对 文 本 信 息 的 过 滤 系 统 主 要 采 用 向 量 空 间 模 型 (VSM) 对 用 户 需 求 进 行 建 模 , 即 由 词 或 短 语 组 成 高 维特 征 向 量 , 其 中 特 征 的 权 重 通 过 布 尔 值[6] 、TFIDF [7] 或 BM25 [8] 等 方 法 进 行 估 计 。 在 此 基 础 上 , 早 期 的 过 滤 模型 通 过 向 量 的 余 弦 夹 角 计 算 相 关 度 ; 近 期 的 相 关 研 究 则 将 信 息 过 滤 解 释 为 二 元 分 类 问 题 [7] , 采 用 贝 叶 斯 模 型[8][9]和 支 持 向 量 机 等 机 器 学 习 方 法 进 行 相 关 性 的 判 别 。 与 此 对 应 地 , 阈 值 的 设 置 方 法 也 由 经 验 性 的 估 计 [1] ( 训练 语 料 中 最 优 过 滤 性 能 对 应 的 阈 值 ) 逐 步 深 化 为 相 关 度 分 布 的 概 率 模 型 , 如 基 于 相 关 和 不 相 关 信 息 分 布 的 联[10]合 概 率 模 型 和 MLR [11] 算 法 等 。 自 适 应 学 习 在 用 户 模 型 更 新 中 , 基 于 相 关 或 伪 相 关 反 馈 重 估 和 扩 展 特 征 向量 , 如 Rocchio [12] 算 法 ; 而 在 过 滤 模 型 优 化 中 , 则 基 于 反 馈 不 断 迭 代 地 优 化 过 滤 模 型 的 参 数 , 如 Okapi [8] 系 统 。目 前 , 影 响 信 息 过 滤 性 能 的 主 要 因 素 是 反 馈 中 充 斥 着 大 量 噪 声 , 噪 声 是 被 过 滤 系 统 误 判 为 相 关 的 不 相 关信 息 。 噪 声 对 分 流 和 批 过 滤 任 务 的 直 观 影 响 是 降 低 精 确 率 ; 而 自 适 应 过 滤 任 务 中 , 自 学 习 机 制 需 要 根 据 反 馈更 新 用 户 模 型 和 优 化 过 滤 模 型 , 反 馈 中 的 噪 声 将 误 导 自 学 习 过 程 并 使 后 续 过 滤 产 生 偏 差 。 噪 声 的 产 生 原 因 可以 归 结 为 如 下 两 点 因 素 :⑴ 用 户 模 型 与 不 相 关 信 息 存 在 共 有 的 特 征 , 这 些 特 征 在 不 同 上 下 文 中 描 述 不 同 的 语 义 ;⑵ 过 滤 模 型 基 于 共 有 特 征 计 算 得 到 的 相 关 度 高 于 特 定 阈 值 ;现 有 方 法 对 于 噪 声 的 屏 蔽 效 果 并 不 理 想 , 如 估 计 特 征 权 重 的 方 法 BM25 将 高 频 出 现 于 初 始 用 户 模 型 、 相关 信 息 和 待 测 信 息 , 并 且 低 频 出 现 于 不 相 关 信 息 的 特 征 赋 予 更 高 权 重 [8] , 从 而 定 量 地 保 证 了 用 户 模 型 中 的 重要 特 征 , 但 由 于 自 然 语 言 的 歧 义 性 ∗∗ , 无 法 定 性 地 保 证 上 述 特 征 正 确 描 述 用 户 需 求 的 语 义 [7] 。 这 一 现 象 在 欠 缺训 练 的 自 适 应 过 滤 任 务 中 尤 为 明 显 , 其 原 因 在 于 用 户 模 型 中 容 易 造 成 歧 义 的 特 征 无 法 通 过 训 练 语 料 中 的 不 相关 信 息 进 行 削 弱 或 屏 蔽 。 不 同 的 是 , 基 于 支 持 向 量 机 建 立 过 滤 模 型 有 助 于 屏 蔽 噪 声 , 该 方 法 在 用 户 模 型 中 融[13][14]合 多 种 特 征 , 如 文 本 特 征 、 用 户 点 击 特 征 以 及 浏 览 时 间 特 征 等 , 通 过 将 用 户 模 型 映 射 到 高 维 空 间 , 并 基于 训 练 语 料 估 计 分 类 超 平 面 实 施 过 滤 , 其 优 点 在 于 用 户 点 击 等 特 征 更 直 观 地 描 述 了 用 户 的 需 求 偏 好 , 不 仅 益于 相 关 信 息 与 不 相 关 信 息 的 区 分 , 同 时 也 利 于 削 弱 文 本 信 息 歧 义 性 在 相 关 性 估 价 中 的 负 面 作 用 。 但 由 于 支 持向 量 机 需 要 大 量 的 训 练 , 同 时 对 大 规 模 信 息 的 运 算 复 杂 度 过 高 , 使 其 无 法 有 效 应 用 于 自 适 应 过 滤 任 务 。噪 声 在 阈 值 估 计 和 自 适 应 学 习 中 往 往 产 生 链 式 的 负 面 效 应 。 如 MLR [11] 分 别 估 计 相 关 信 息 和 不 相 关 信 息的 分 布 边 界 , 并 基 于 两 者 边 界 内 的 带 状 区 域 建 立 阈 值 的 概 率 模 型 , 在 此 基 础 上 随 系 统 反 馈 不 断 调 整 边 界 和 阈值 。 由 于 MLR 忽 视 反 馈 中 的 噪 声 屏 蔽 , 造 成 两 者 的 边 界 趋 向 于 一 致 , 从 而 逐 渐 削 弱 阈 值 的 判 别 能 力 , 由 此产 生 的 更 多 噪 声 将 进 一 步 影 响 后 续 的 阈 值 估 计 , 最 终 相 关 信 息 和 不 相 关 信 息 的 分 布 边 界 不 可 分 , 并 使 系 统 持续 采 用 低 辨 别 能 力 的 阈 值 进 行 后 续 过 滤 。 同 理 , 无 指 导 的 自 适 应 过 滤 方 法 Rocchio [12] 也 由 于 没 有 屏 蔽 伪 相 关反 馈 中 的 噪 声 , 造 成 用 户 模 型 的 更 新 不 断 被 误 导 。 与 此 相 比 , 有 指 导 的 自 适 应 过 滤 系 统 ( 如 Okapi [8] 系 统 ) 可∗∗ 歧 义 性 : 自 然 语 言 处 理 领 域 中 的 “ 歧 义 ” 往 往 指 单 一 文 法 的 多 种 语 义 理 解 , 如 “ 吃 了 战 士 的 狗 ” 既 可 理 解 为 “ 狗 吃 了 战士 ”, 也 可 理 解 为 “ 战 士 的 狗 被 吃 了 ”。 本 文 所 指 的 “ 歧 义 ” 略 有 区 别 , 指 的 是 基 于 独 立 假 设 的 特 征 向 量 包 含 的 多 种 语 义 组 合 , 如向 量 { 金 大 中 , 陈 水 扁 , 获 得 , 诺 贝 尔 , 奖 } 既 可 以 组 合 为 “ 金 大 中 获 得 诺 贝 尔 奖 ”, 也 可 组 合 为 “ 陈 水 扁 获 得 诺 贝 奖 ”, 这 种 语 义组 合 本 身 并 不 存 在 , 但 往 往 出 现 于 向 量 间 的 相 关 性 匹 配 , 并 误 导 向 量 间 的 真 实 关 系 。 具 体 分 析 可 参 考 2.1 节 。


以 获 得 较 好 的 性 能 , 并 始 终 保 持 自 学 习 机 制 的 可 信 性 , 但 同 时 增 加 了 实 际 应 用 中 用 户 的 负 担 。针 对 上 述 缺 陷 , 本 文 提 出 一 种 基 于 二 元 近 似 关 系 分 布 (Distribution of two-dimension similarity, 简 写 为DTS) 屏 蔽 噪 声 的 过 滤 算 法 。DTS 将 信 息 的 相 关 度 映 射 至 二 维 空 间 , 并 借 助 相 关 信 息 与 噪 声 固 有 的 相 悖 关 系推 动 两 者 的 概 率 分 布 趋 向 可 分 , 从 而 辅 助 过 滤 系 统 屏 蔽 反 馈 中 的 噪 声 信 息 。 本 文 组 织 如 下 , 第 二 节 首 先 分 析噪 声 的 成 因 , 其 次 提 出 二 元 近 似 关 系 并 根 据 其 分 布 探 讨 噪 声 屏 蔽 的 可 行 性 ; 第 三 节 论 述 基 于 二 元 近 似 关 系 的噪 声 识 别 及 屏 蔽 算 法 ; 第 四 节 分 别 介 绍 二 元 近 似 关 系 在 批 过 滤 和 自 适 应 过 滤 任 务 中 的 应 用 ; 第 五 节 介 绍 实 验的 语 料 、 评 测 及 流 程 ; 第 六 节 分 析 实 验 结 果 ; 第 七 节 总 结 并 展 望 后 续 工 作 。2 二 元 近 似 关 系 及 分 布2.1 噪 声 成 因 分 析如 前 文 所 述 , 噪 声 是 被 系 统 误 判 为 相 关 的 不 相 关 信 息 ,Nallapati 将 噪 声 的 成 因 归 结 为 “ 自 然 语 言 固 有 的 歧义 性 和 复 杂 性 , 以 及 不 相 关 信 息 总 会 包 含 相 关 信 息 的 特 征 ” [7] 。 图 1 演 示 了 噪 声 的 产 生 过 程 , 其 中 特 征 基 于BM25 计 算 权 重 , 用 户 模 型 包 含 初 始 用 户 需 求 的 特 征 , 以 及 采 用 RSV [15] 算 法 从 前 30 篇 最 相 关 信 息 中 扩 展 得到 的 特 征 。Fig.1An example about the creature of noise图 1 噪 声 的 生 成 样 例图 1 中 的 用 户 模 型 可 划 分 为 两 个 结 构 , 一 个 是 主 题 “ 金 大 中 因 推 动 南 北 韩 和 解 而 荣 获 诺 贝 尔 和 平 奖 ”; 另一 个 是 围 绕 主 题 进 行 论 述 的 某 一 外 延 “ 陈 水 扁 向 金 大 中 致 贺 电 并 借 此 展 望 两 岸 关 系 ”。 现 有 基 于 词 间 独 立 假 设的 “ 词 包 ” 无 法 体 现 这 一 结 构 化 关 系 , 从 而 导 致 用 户 模 型 承 载 多 种 歧 义 与 信 息 流 进 行 匹 配 , 如 图 1 中 主 题 的 特征 “ 和 解 ” 和 “ 推 动 ”, 与 外 延 中 的 特 征 “ 陈 水 扁 ” 和 “ 两 岸 ” 形 成 歧 义 “ 陈 水 扁 推 动 两 岸 和 解 ”, 该 歧 义 与 题 为 “ 陈 水扁 侈 谈 推 动 两 岸 和 解 ” 的 不 相 关 信 息 具 备 强 相 关 性 , 从 而 增 大 了 过 滤 系 统 误 判 的 概 率 。2.2 二 元 近 似 关 系如 2.1 节 所 述 , 用 户 模 型 中 的 某 些 特 征 可 以 形 成 歧 义 并 误 导 后 续 过 滤 , 但 武 断 地 削 弱 甚 至 屏 蔽 这 些 特 征将 影 响 系 统 的 召 回 率 , 原 因 在 于 这 些 特 征 也 是 充 分 描 述 用 户 需 求 的 重 要 元 素 。 此 外 , 噪 声 成 因 的 分 析 过 程 也显 示 , 不 相 关 信 息 的 特 征 并 没 有 全 部 参 与 匹 配 , 而 被 遗 漏 的 特 征 对 削 弱 歧 义 和 区 别 于 用 户 模 型 都 有 重 要 意 义 ,如 图 1 中 的 特 征 “ 公 投 ” 和 “ 民 意 ” 等 。事 实 上 , 仅 仅 观 察 信 息 相 关 于 用 户 模 型 的 绝 对 指 标 不 足 以 评 价 其 相 关 性 [8] 。 假 设 将 用 户 模 型 类 比 为 “ 正 ”极 , 同 时 存 在 相 悖 于 用 户 模 型 的 “ 负 ” 极 , 那 么 信 息 与 两 极 的 相 对 指 标 更 为 真 实 地 反 映 信 息 与 用 户 模 型 的 关 系 ,即 愈 趋 近 于 “ 正 ” 极 并 背 离 “ 负 ” 极 则 愈 相 关 , 否 则 愈 不 相 关 。 这 一 过 程 无 需 人 为 地 削 弱 或 屏 蔽 造 成 歧 义 的 特 征 ,


洪 宇 等 : 基 于 二 元 近 似 关 系 屏 蔽 噪 声 的 信 息 过 滤 算 法而 是 根 据 信 息 与 两 极 的 相 关 性 趋 势 自 发 地 削 弱 歧 义 , 同 时 该 过 程 可 以 利 用 上 述 遗 漏 的 特 征 降 低 匹 配 过 程 中 的偏 见 性 。 基 于 这 一 假 设 , 本 文 提 出 一 种 二 元 近 似 关 系 , 表 示 形 式 如 下 :R p ( d)= { r(d,p), r(d,p)}( 公 式 1)其 中 , p 表 示 用 户 模 型 ;d 表 示 某 一 文 本 信 息 ;R p (d) 表 示 d 与 p 的 二 元 近 似 关 系 ;r 表 示 相 关 度 计 算 的 函 数 ;p 作 为 相 悖 于 p 的 概 率 模 型 , 概 括 了 所 有 与 当 前 用 户 模 型 不 相 关 的 信 息 。 二 元 近 似 关 系 将 用 户 模 型 和 信 息 之间 的 相 关 度 映 射 至 二 维 空 间 , 如 图 2 所 示 , 其 中 实 心 圆 代 表 相 关 信 息 , 空 心 圆 代 表 不 相 关 信 息 。ppθθ′pFig.2An example of the one-dimension and two-dimension relevance图 2 相 关 度 一 维 空 间 和 二 维 空 间 样 例对 一 维 相 关 度 而 言 , 大 部 分 不 相 关 信 息 与 用 户 模 型 的 相 关 度 很 低 , 可 以 通 过 优 化 阈 值 进 行 屏 蔽 , 而 噪 声往 往 与 用 户 模 型 的 相 关 度 很 高 , 甚 至 超 过 某 些 相 关 信 息 , 如 图 2 中 的 信 息 k 与 用 户 模 型 p 的 相 关 度 高 于 信 息j, 这 一 现 象 造 成 一 维 相 关 度 难 于 恰 当 地 设 置 阈 值 : 若 为 屏 蔽 噪 声 而 提 高 阈 值 , 则 使 部 分 相 关 信 息 遗 失 , 如 图2 中 的 阈 值 θ 遗 失 相 关 信 息 j; 反 之 , 若 为 获 取 更 多 相 关 信 息 而 降 低 阈 值 , 则 反 馈 中 的 噪 声 也 随 之 增 加 , 如 图2 中 的 阈 值 θ ′ 引 入 噪 声 k 和 l。二 维 相 关 度 可 描 述 信 息 与 正 反 两 极 ( p 和 p ) 的 相 关 性 分 布 趋 势 , 从 而 为 估 计 噪 声 和 相 关 信 息 的 分 类 曲线 提 供 了 条 件 , 如 图 2。 此 时 , 信 息 与 p 具 有 高 相 关 度 并 不 等 价 于 两 者 一 定 相 关 , 如 果 该 信 息 与 p 具 有 更 高的 相 关 度 , 则 被 划 分 为 噪 声 的 概 率 将 增 大 , 如 图 2 中 的 信 息 l。 此 外 , 相 关 度 的 计 算 往 往 受 篇 幅 影 响 , 篇 幅很 短 的 相 关 信 息 往 往 与 用 户 模 型 共 有 的 重 要 特 征 偏 少 , 导 致 相 关 度 r 随 之 偏 低 , 甚 至 低 于 某 些 噪 声 的 相 关 度 ,如 图 2 中 信 息 j, 但 如 果 该 信 息 在 二 维 空 间 中 与 p 的 相 关 度 更 低 , 则 仍 然 可 以 利 用 预 先 训 练 的 分 类 曲 线 正 确划 分 。2.3 二 元 近 似 关 系 分 布 (DTS)利 用 二 元 近 似 关 系 进 行 噪 声 屏 蔽 的 重 要 步 骤 是 合 理 选 择 p ,2.2 节 将 p 定 义 为 相 悖 于 用 户 模 型 的 所 有 信息 的 概 率 模 型 。 然 而 , 海 量 的 信 息 流 中 与 用 户 模 型 不 相 关 的 信 息 包 罗 万 象 , p 难 以 利 用 有 限 的 特 征 对 其 进 行统 一 描 述 。 但 如 前 文 所 述 , 大 量 不 相 关 信 息 与 用 户 模 型 的 相 关 度 很 低 , 往 往 通 过 优 化 阈 值 即 可 屏 蔽 , 而 影 响过 滤 性 能 的 主 要 因 素 来 自 少 量 相 关 度 很 高 的 噪 声 。 因 此 , 构 造 p 的 信 息 源 可 以 选 择 特 定 阈 值 之 上 的 噪 声 。 相应 地 , 二 元 近 似 关 系 则 描 述 信 息 在 用 户 模 型 和 噪 声 形 成 的 p 之 间 的 相 关 度 分 布 。本 节 介 绍 六 种 p 的 构 造 方 法 , 并 针 对 每 种 p 分 析 信 息 在 二 维 相 关 度 空 间 的 分 布 情 况 , 如 图 3, 其 中 实 心圆 为 相 关 信 息 , 空 心 圆 为 噪 声 。 其 中 , 用 户 模 型 p 描 述 了 2005 年 863 评 测 中 的 主 题 “ 姚 明 在 NBA 的 表 现 ”,每 个 信 息 在 二 维 空 间 的 横 纵 坐 标 分 别 是 该 信 息 与 p 和 p 的 相 关 度 。 p 和 p 采 用 VSM 进 行 构 造 , 特 征 基 于BM25 计 算 权 重 , 相 关 度 采 用 向 量 余 弦 进 行 计 算 , p 和 p 的 特 征 数 量 分 别 为 100 和 30。 此 外 , 图 3 中 所 有 信息 与 用 户 模 型 p 的 相 关 度 均 高 于 阈 值 θ =0.15。


图 3 中 的 子 图 (1) 在 所 有 语 料 中 随 机 选 择 某 一 信 息 构 造 p ; 子 图 (2) 则 随 机 选 择 相 关 度 高 于 阈 值 θ 的某 一 信 息 构 造 p 。 信 息 在 两 图 中 的 分 布 情 况 都 难 以 辅 助 过 滤 系 统 建 立 分 类 曲 线 , 尤 其 子 图 (1) 中 的 信 息 几乎 不 受 p 影 响 , 其 说 明 虽 然 语 料 中 大 部 分 信 息 满 足 p 的 构 造 条 件 , 即 相 悖 于 用 户 模 型 , 但 它 们 与 相 关 信 息 和噪 声 的 相 关 性 基 本 等 价 且 近 似 为 0, 无 法 描 述 两 者 的 二 元 近 似 关 系 ; 子 图 (2) 虽 然 形 成 信 息 针 对 p 的 分 布 趋势 , 但 由 于 p 采 用 单 一 信 息 进 行 构 造 , 无 法 涵 盖 所 有 噪 声 的 特 征 , 从 而 使 二 元 近 似 关 系 的 可 区 分 性 不 强 。图 3 中 的 子 图 (3) 选 择 相 关 度 高 于 阈 值 θ 的 后 10 项 信 息 构 造 p , p 为 上 述 信 息 的 特 征 向 量 质 心 。 如 图所 示 , 部 分 噪 声 挣 脱 了 相 关 信 息 的 分 布 区 域 , 更 加 趋 近 于 p 。 但 由 于 上 述 构 造 p 的 信 息 中 存 在 相 关 信 息 ( 高于 阈 值 θ 的 后 10 项 信 息 既 有 噪 声 也 有 相 关 信 息 ), 使 p 与 用 户 模 型 p 存 在 大 量 共 有 特 征 , 从 而 导 致 相 关 信 息也 趋 向 于 p , 并 使 两 种 分 布 仍 不 可 分 。 因 此 , 子 图 (4) 延 用 子 图 (3) 构 造 p 的 方 法 , 并 在 此 基 础 上 滤 除 其中 出 现 于 p 的 特 征 , 从 而 使 相 关 信 息 与 噪 声 的 分 布 区 域 趋 向 可 分 。 但 子 图 (4) 中 部 分 噪 声 存 在 与 p 相 关 度极 低 , 甚 至 为 0 的 情 况 , 其 增 加 了 估 计 分 类 曲 线 的 复 杂 度 。 造 成 这 一 现 象 的 原 因 是 p 并 没 有 涵 盖 所 有 噪 声 的特 征 , 子 图 (3) 中 所 有 噪 声 与 p 的 相 关 度 都 大 于 0, 是 由 于 p 包 含 了 部 分 用 户 模 型 p 的 特 征 , 这 些 特 征 也 是噪 声 和 p 的 相 关 度 高 于 阈 值 θ 的 成 因 , 当 子 图 (4) 滤 除 上 述 特 征 后 , 部 分 噪 声 因 与 p 不 存 在 共 有 特 征 而 使相 关 度 为 0。Fig.3Examples about the distribution of two-dimension similarity图 3 二 元 近 似 关 系 分 布 样 例


洪 宇 等 : 基 于 二 元 近 似 关 系 屏 蔽 噪 声 的 信 息 过 滤 算 法针 对 子 图 (4) 的 不 足 , 子 图 (5) 采 用 所 有 噪 声 的 质 心 构 造 p , 使 相 关 信 息 和 噪 声 分 布 于 邻 接 的 两 个 带状 区 域 内 ; 在 此 基 础 上 子 图 (6) 滤 除 p 内 出 现 于 p 的 特 征 , 使 两 种 分 布 近 似 可 分 。 但 是 , 子 图 (5) 和 子 图(6) 要 求 过 滤 系 统 必 须 预 先 知 道 哪 些 信 息 是 噪 声 , 不 适 用 于 无 指 导 的 自 适 应 过 滤 任 务 。 因 此 , 基 于 所 有 噪 声作 为 先 验 知 识 训 练 分 类 曲 线 的 方 法 只 适 用 于 信 息 路 由 、 批 过 滤 和 有 指 导 的 自 适 应 过 滤 任 务 。3 基 于 二 元 近 似 关 系 的 噪 声 识 别 及 屏 蔽 算 法基 于 二 元 近 似 关 系 及 其 分 布 (DTS), 过 滤 系 统 需 要 选 择 一 种 划 分 相 关 信 息 与 噪 声 的 方 法 , 即 如 何 估 计两 者 在 二 维 空 间 的 分 类 曲 线 , 从 而 实 现 噪 声 的 识 别 与 屏 蔽 。 本 文 采 用 线 性 分 类 器 实 现 这 一 划 分 , 线 性 分 类 器的 核 心 思 想 是 为 不 同 类 别 寻 找 线 性 判 别 函 数 [16] , 其 几 何 解 释 为 界 于 不 同 类 别 之 间 的 判 定 面 , 线 性 判 别 函 数 定义 如 下 :tG( x)= W X + w( 公 式 2)其 中 , W = [ w 1 , L,w n ] 表 示 权 向 量 ; X = [ x 1 , L,x n ] 表 示 类 别 属 性 ; w 0 代 表 偏 置 。 对 于 DTS, 线 性 判 别函 数 退 化 为 二 维 空 间 的 判 定 线 , 定 义 如 公 式 3:0⎡w0⎤⎢ ⎥g( x)=⎢w1⎥⋅ [ 1, x1,x2]( 公 式 3)⎢⎣w⎥2 ⎦估 计 线 性 判 别 函 数 需 要 定 义 准 则 函 数 J (w), J (w)实 际 上 是 当 前 权 向 量 W 与 最 优 权 向 量 W ′ 的 距 离 , 当 W达 到 最 优 解 时 , J (w)为 最 小 。 因 此 , 线 性 判 别 函 数 的 估 计 转 化 为 求 解 J (w)极 小 值 的 问 题 , 通 常 可 以 采 用 梯度 下 降 法 对 其 进 行 求 解 。 假 设 ∇ J s 是 J (w)收 敛 的 梯 度 , 则 梯 度 下 降 法 通 过 在 训 练 样 本 集 上 的 反 复 迭 代 , 使 权向 量 总 是 沿 着 梯 度 ∇ J s 最 陡 的 方 向 移 动 , 从 而 使 J (w)逐 渐 收 敛 为 极 小 化 的 解 。 因 此 , 相 关 信 息 和 噪 声 分 类 曲线 的 建 立 流 程 如 下 :⑴ 建 立 由 相 关 信 息 和 噪 声 组 成 的 训 练 样 本 , 样 本 属 性 为 二 元 近 似 关 系 , 如 2.2 节 ;⑵ 选择 线 性 分 类 器 及 其 准 则 函 数 的 收 敛 梯 度 ∇ J s ;⑶ 基 于 训 练 样 本 反 复 迭 代 地 求 解 准 则 函 数 J (w)的 极 小 化 解 , 将极 小 化 解 对 应 的 W 作 为 分 类 曲 线 的 向 量 , 即 分 类 器 的 权 向 量 。 在 此 基 础 上 , 后 续 过 滤 过 程 将 信 息 的 二 元 近 似关 系 作 为 分 类 器 的 输 入 , 基 于 分 类 器 输 出 的 判 定 值 裁 决 信 息 是 否 为 噪 声 并 进 行 屏 蔽 。3.1 基 于 LMS 分 类 器 的 分 类 曲 线 求 解本 文 选 择 LMS [17] 分 类 器 描 述 分 类 曲 线 ,LMS 分 类 器 是 基 于 最 小 均 方 算 法 ( 简 写 为 LMS) 构 造 的 , 同 时也 是 梯 度 下 降 法 的 一 种 改 进 。 其 准 则 函 数 的 下 降 梯 度 ∇ 定 义 如 下 :1 Lm tJ st∇J= η X ( Xa − b)( 公 式 4)s其 中 , a = [ w , , w ] ; X = x , L,x ] ; m 为 迭 代 的 次 数 ; w = [ w , w1, wn] 为 第 i 次 迭 代 时 判 定 面 的权 向 量 , 针 对 DTS , w ii i i i t描 述 当 前 相 关 信 息 与 噪 声 分 类 线 的 权 向 量 , 可 表 示 为 w = w , w , w ] ; 而iii[ 1 mii i0 Lit[ 0 1 2x = [ 1, x1, L,xn] 代 表 参 与 第 i 次 迭 代 的 样 本 分 布 属 性 , 基 于 二 元 近 似 关 系 的 定 义 , 如 果 训 练 样 本 相 关 于 用 户 模型 , 则 该 样 本 的 分 布 属 性 x i = [ 1, r(d,p),r(d,p)] , 否 则 x i = [ −1,− r(d,p),− r(d,p)] , 其 中 r ( d,p)为 样 本 d 与 p的 相 关 度 , r ( d,p)为 d 与 p 的 相 关 度 , 如 2.2 节 。 此 外 , [ 1 , ,m i 1η = η L η ] , η = η / i , η 1 和 b 为 任 意 正 常 数 。iLMS 算 法 的 优 点 在 于 η 随 着 i 的 增 大 而 减 小 , 从 而 保 证 了 准 则 函 数 的 收 敛 。 因 此 ,LMS 算 法 总 能 根 据 训练 样 本 将 J (w)收 敛 到 一 个 极 小 值 , 即 确 定 一 个 分 类 曲 线 。 但 是 ,LMS 算 法 的 收 敛 解 并 不 总 是 最 优 分 类 线 ,因 此 LMS 分 类 器 是 一 个 弱 分 类 器 。3.2 DTS 的 非 线 性 可 分 问 题 求 解DTS 往 往 非 线 性 可 分 , 如 图 3, 此 外 LMS 分 类 器 并 不 总 能 获 得 最 优 解 。 因 此 本 文 采 用 LMS 线 性 分 类 器


[18][19]作 为 分 量 分 类 器 , 并 结 合 AdaBoost 算 法 促 进 分 类 曲 线 对 信 息 分 布 的 拟 合 。Boosting 算 法 的 目 标 是 提 高分 类 器 的 准 确 率 。 该 算 法 的 核 心 思 想 是 根 据 训 练 样 本 依 次 设 计 一 组 分 量 分 类 器 g (x), 要 求 分 量 分 类 器 的 精 确率 比 随 机 猜 测 好 , 同 时 每 个 分 量 分 类 器 的 样 本 集 都 选 择 前 期 各 分 类 器 没 有 正 确 分 类 的 样 本 进 行 构 造 , 并 基 于该 样 本 集 对 自 身 进 行 训 练 , 最 终 的 分 类 结 果 则 根 据 所 有 分 量 分 类 器 共 同 决 定 。自 适 应 Boosting 算 法 [20][21] ( 简 称 AdaBoost) 是 基 于 Boosting 方 法 的 一 种 变 形 。 该 算 法 不 断 训 练 并 嵌 入新 的 分 量 分 类 器 , 直 到 使 分 类 效 果 达 到 某 个 预 设 的 误 差 率 为 止 。 在 AdaBoost 方 法 中 , 每 个 样 本 都 被 赋 予 一 个权 重 V , 表 示 该 样 本 被 后 续 分 量 分 类 器 选 入 训 练 样 本 集 的 概 率 , 其 公 式 如 下 :VV ⎪⎧k ( i)e( i)= × ⎨Zk⎪⎩ e−α( k)k+1 α ( k )kki, g ( x ) = yi, g ( x ) ≠ yii( 公 式 5)其 中 , g ( x)= y 代 表 样 本 x 被 正 确 分 类 , g( x)≠ y 代 表 样 本 x 被 错 分 ; y 为 判 定 系 数 , 二 元 分 类 器 将g ( x)> 0 的 情 况 统 一 判 定 为 g ( x)= y = 1 , 否 则 g ( x)= 0 ; Z k 为 归 一 化 系 数 ; α (k)为 误 差 系 数 , 其 公 式 如 下 :1α ( k)= ln[(1 − E k ) / Ek]( 公 式 6)2其 中 , E 是 按 照 权 重 V k (i)采 样 的 前 一 分 量 分 类 器 的 误 差 。 根 据 上 述 定 义 , 如 果 某 个 样 本 点 已 经 被 准 确 分 类 ,k那 么 构 造 下 一 个 分 量 分 类 器 的 时 候 , 该 样 本 被 选 入 训 练 集 的 概 率 将 被 降 低 ; 相 反 , 如 果 某 个 样 本 点 没 有 被 正确 分 类 , 那 么 该 样 本 被 选 择 的 概 率 将 被 提 高 。 通 过 这 种 方 式 ,AdaBoost 算 法 能 够 始 终 关 注 那 些 很 难 分 类 的 样本 点 , 并 采 用 它 们 不 断 训 练 后 续 分 量 分 类 器 。 因 此 , 只 要 迭 代 的 次 数 足 够 大 , 总 体 分 类 器 的 训 练 误 差 可 以 达到 任 意 小 。 最 终 总 体 分 类 器 的 判 断 可 以 使 用 各 个 分 量 分 类 器 的 加 权 平 均 来 获 得 , 其 公 式 如 下 :⎡kmax⎤h(x)= ⎢⎥⎢⎣∑ α k gk( x)( 公 式 7)k=1⎥⎦本 文 采 用 LMS 算 法 作 为 分 量 分 类 器 的 构 造 方 法 , 同 时 基 于 二 元 近 似 关 系 建 立 样 本 属 性 , 即x = [ 1, r(d,p),r(d,p)] , 并 将 该 属 性 作 为 LMS 分 类 器 的 输 入 , 在 此 基 础 上 采 用 AdaBoost 算 法 构 造 总 体 分 类 器 ,以 此 区 分 信 息 的 在 DTS 中 的 分 布 , 从 而 尝 试 更 有 效 地 屏 蔽 噪 声 。4 嵌 入 DTS 的 过 滤 系 统 设 计本 文 将 利 用 DTS 屏 蔽 噪 声 的 方 法 归 类 于 过 滤 系 统 后 处 理 , 其 原 因 如 前 文 所 述 , 一 方 面 信 息 流 中 的 大 部 分不 相 关 信 息 与 用 户 模 型 的 相 关 度 很 低 , 现 有 过 滤 系 统 可 通 过 优 化 阈 值 有 效 屏 蔽 , 唯 有 少 量 相 关 度 较 高 的 噪 声难 以 滤 除 ; 另 一 方 面 , 相 悖 于 用 户 模 型 的 p 难 以 针 对 所 有 语 料 进 行 构 建 , 而 利 用 相 关 度 高 于 阈 值 的 信 息 建 立p 便 可 有 效 筛 选 噪 声 。 因 此 , 基 于 DTS 的 噪 声 屏 蔽 算 法 作 为 后 处 理 , 将 现 有 过 滤 系 统 输 出 的 判 定 结 果 作 为输 入 , 在 此 基 础 上 , 通 过 p 建 模 、 建 立 信 息 的 DTS 以 及 训 练 分 类 曲 线 等 步 骤 , 实 现 噪 声 的 检 测 与 屏 蔽 , 具体 系 统 框 架 如 图 4。图 4 中 的 “ 原 型 系 统 ” 表 示 尚 未 嵌 入 DTS 屏 蔽 噪 声 的 现 有 过 滤 系 统 ;“ 非 自 适 应 ” 和 “ 自 适 应 ” 标 明 两种 不 同 的 DTS 训 练 流 程 。“ 非 自 适 应 ” 流 程 基 于 大 量 训 练 语 料 统 计 相 关 信 息 和 噪 声 的 分 布 趋 势 , 并 采 用 LMS及 AdaBoost 算 法 估 计 分 类 曲 线 , 其 测 试 阶 段 利 用 该 分 类 曲 线 检 测 “ 原 型 系 统 ” 输 出 的 判 定 结 果 , 识 别 并 屏 蔽其 中 的 噪 声 。“ 自 适 应 ” 流 程 稍 有 不 同 , 其 不 经 过 训 练 语 料 估 计 分 类 曲 线 , 而 是 基 于 “ 原 型 系 统 ” 的 输 出 , 实时 地 构 建 p 、 二 元 近 似 关 系 及 分 类 曲 线 。


洪 宇 等 : 基 于 二 元 近 似 关 系 屏 蔽 噪 声 的 信 息 过 滤 算 法pFig.4Structure of filtering system shielded from noises by embedding with DTS图 4 嵌 入 DTS 屏 蔽 噪 声 的 过 滤 系 统 框 架4.1 基 于 二 元 近 似 关 系 的 批 过 滤 系 统批 过 滤 系 统 是 一 种 “ 非 自 适 应 ” 性 过 滤 系 统 , 它 往 往 基 于 相 对 较 多 的 相 关 信 息 建 立 初 始 用 户 模 型 , 并 可 以利 用 全 部 训 练 语 料 及 其 人 工 评 价 优 化 用 户 模 型 , 但 在 测 试 阶 段 用 户 模 型 必 须 保 持 固 定 不 变 [1] 。 因 此 批 过 滤 系统 嵌 入 DTS 的 方 式 遵 循 图 4 中 的 “ 非 自 适 应 ” 流 程 。面 向 批 过 滤 的 DTS 训 练 过 程 如 下 : 首 先 , 计 算 所 有 训 练 样 本 与 用 户 模 型 的 相 关 度 , 并 在 此 基 础 上 估 计 “ 原型 系 统 ” 的 阈 值 ; 其 次 , 选 择 高 于 阈 值 的 所 有 不 相 关 样 本 , 即 噪 声 , 构 建 相 悖 于 用 户 模 型 的 p , 并 滤 除 p 中与 用 户 模 型 共 有 的 特 征 , 如 图 3 中 子 图 (6); 最 后 , 建 立 所 有 训 练 样 本 的 二 元 近 似 关 系 , 并 结 合 先 验 的 相 关性 评 价 ( 人 工 判 定 结 果 : 相 关 或 噪 声 ) 建 立 DTS, 其 中 相 关 样 本 的 分 布 属 性 表 示 为 x = [ 1, r(d,p),r(d,p)] , 噪声 的 分 布 属 性 表 示 为 x = [ −1,− r(d,p),− r(d,p)] , 如 公 式 4 对 样 本 的 定 义 。 批 过 滤 系 统 基 于 DTS, 采 用 LMS及 AdaBoost 算 法 估 计 相 关 信 息 与 噪 声 的 分 类 曲 线 。在 测 试 阶 段 , 系 统 首 先 判 断 信 息 与 用 户 模 型 p 的 相 关 度 是 否 高 于 阈 值 , 如 果 低 于 阈 值 则 直 接 屏 蔽 , 否 则建 立 该 信 息 的 二 元 近 似 关 系 并 代 入 分 类 曲 线 的 判 别 式 , 判 断 它 是 否 为 噪 声 , 如 不 是 则 作 为 相 关 信 息 输 出 。4.2 基 于 二 元 近 似 关 系 的 自 适 应 过 滤 系 统自 适 应 过 滤 区 别 于 批 过 滤 , 初 始 用 户 模 型 的 训 练 数 据 较 少 ∗∗∗ , 对 用 户 模 型 的 更 新 与 修 正 完 全 通 过 后 期 的自 学 习 [1] 。 因 此 自 适 应 过 滤 系 统 嵌 入 DTS 的 方 式 遵 循 图 4 中 的 “ 自 适 应 ” 流 程 。 此 外 , 自 适 应 过 滤 包 括 有 指 导和 无 指 导 两 种 自 学 习 方 式 , 前 者 假 设 用 户 实 时 地 对 过 滤 结 果 进 行 评 价 , 并 根 据 用 户 的 相 关 反 馈 更 新 用 户 模 型和 优 化 过 滤 模 型 ; 后 者 则 假 设 用 户 较 长 时 期 内 甚 至 从 不 评 判 过 滤 结 果 , 仅 依 靠 系 统 自 身 的 伪 相 关 反 馈 进 行 后续 自 学 习 。有 指 导 自 适 应 过 滤 的 DTS 训 练 过 程 与 批 过 滤 基 本 类 似 , 区 别 在 于 DTS 不 是 基 于 大 规 模 先 验 语 料 一 次 训∗∗∗∗练 完 成 , 而 是 根 据 用 户 周 期 性 的 反 馈 逐 步 训 练 。 针 对 某 一 周 期 内 过 滤 系 统 输 出 的 相 关 信 息 , 自 学 习 机 制 检测 其 中 是 否 存 在 用 户 认 为 不 相 关 的 信 息 , 如 存 在 则 触 发 DTS 训 练 , 其 使 用 的 语 料 仅 包 括 当 前 周 期 内 过 滤 系 统输 出 的 噪 声 , 以 及 所 有 已 知 的 相 关 信 息 。 如 前 文 所 述 , 利 用 DTS 屏 蔽 噪 声 的 方 法 是 一 种 后 处 理 , 不 直 接 影 响“ 原 型 系 统 ” 内 部 的 操 作 。 因 此 , 嵌 入 自 适 应 过 滤 系 统 的 DTS 必 须 在 周 期 性 的 训 练 中 , 兼 顾 “ 原 型 系 统 ” 自 身 进行 的 自 学 习 。 假 设 当 前 “ 原 型 系 统 ” 已 借 助 自 学 习 更 新 了 用 户 模 型 、 阈 值 及 过 滤 模 型 参 数 , 则 DTS 训 练 中 的 相∗∗∗ TREC 为 自 适 应 信 息 过 滤 提 供 的 训 练 样 本 为 2-4 篇 。∗∗∗∗ 某 些 过 滤 系 统 并 不 基 于 固 定 时 长 的 周 期 进 行 自 学 习 , 而 是 每 识 别 出 一 个 相 关 信 息 则 立 刻 进 行 自 学 习 , 如 参 加 TREC-7 的Okapi 系 统 。


关 度 r ( d,p), 如 公 式 1, 将 采 用 更 新 后 的 用 户 模 型 和 过 滤 模 型 进 行 计 算 ; p 也 将 利 用 当 前 训 练 语 料 中 高 于 新阈 值 的 噪 声 进 行 建 模 。无 指 导 自 适 应 过 滤 系 统 不 依 赖 用 户 的 相 关 反 馈 , 自 学 习 使 用 的 训 练 语 料 是 未 经 人 工 评 价 的 伪 相 关 反 馈 ,其 中 哪 些 信 息 真 正 相 关 于 用 户 模 型 , 哪 些 信 息 为 噪 声 , 对 自 学 习 机 制 并 不 透 明 。 因 此 ,DTS 既 无 法 抽 取 训 练语 料 中 的 噪 声 构 造 p , 也 无 法 利 用 已 知 的 样 本 类 别 ( 相 关 信 息 或 噪 声 ) 估 计 分 类 曲 线 。 针 对 这 一 现 象 ,DTS选 择 训 练 语 料 中 与 Profile 相 关 度 最 低 的 10 个 样 本 构 造 p , 并 滤 除 p 中 与 用 户 模 型 共 有 的 特 征 , 如 图 3 中 子图 (4); 样 本 类 别 则 采 用 如 下 方 法 进 行 估 计 : 首 先 对 训 练 语 料 进 行 层 次 聚 类 并 建 立 每 个 聚 类 的 质 心 ; 然 后 分别 计 算 聚 类 与 用 户 模 型 p 和 p 的 相 关 度 , 如 果 前 者 高 于 后 者 , 则 该 聚 类 包 含 的 所 有 样 本 作 为 相 关 信 息 参 与DTS 训 练 , 否 则 作 为 噪 声 [22] 。 其 它 DTS 训 练 流 程 与 有 指 导 自 适 应 过 滤 相 同 。5 语 料 、 评 测 及 实 验 设 计5.1 语 料实 验 选 择 100G 的 天 网 语 料 作 为 训 练 和 测 试 语 料 , 同 时 使 用 2005 年 参 加 863 评 测 的 检 索 系 统 ( 以 下 简 称IR863-System) 针 对 30 个 主 题 分 别 进 行 检 索 。 检 索 结 果 由 10 名 学 生 进 行 评 测 , 其 中 每 两 名 学 生 为 一 组 同 时对 6 个 主 题 进 行 人 工 评 测 。 此 后 , 实 验 投 入 6 名 学 生 对 评 测 结 果 进 行 校 验 , 得 到 关 于 29 个 主 题 的 3937 篇 相关 文 本 , 其 中 一 主 题 没 有 发 现 相 关 文 本 。由 于 本 文 更 关 心 如 何 屏 蔽 最 有 可 能 成 为 噪 声 的 不 相 关 信 息 , 因 此 , 在 构 造 语 料 的 过 程 中 忽 略 了 与 用 户 模型 相 关 度 很 低 的 文 本 。 基 于 这 种 需 要 , 实 验 构 造 了 一 个 规 模 略 小 的 语 料 。 首 先 使 用 IR863-System 从 原 始 语 料中 对 每 个 主 题 进 行 检 索 , 其 反 馈 的 结 果 按 照 相 关 度 进 行 排 序 ; 然 后 选 择 每 个 主 题 相 关 度 靠 前 的 1000 篇 文 档 ,与 人 工 评 测 结 果 取 并 集 构 成 规 模 为 29897 篇 文 档 的 语 料 库 ; 最 后 选 择 50% 作 为 训 练 ,50% 作 为 测 试 语 料 , 每个 主 题 对 应 的 相 关 文 本 均 分 到 训 练 和 测 试 语 料 集 中 。 该 语 料 的 特 点 是 包 含 了 大 量 相 关 度 非 常 接 近 甚 至 超 过 相关 文 本 的 噪 声 , 因 此 非 常 适 合 检 测 过 滤 系 统 屏 蔽 噪 声 的 性 能 。5.2 评 测 体 系实 验 主 要 采 用 的 评 测 方 法 是 T11SU, 该 方 法 在 TREC 评 测 以 及 TDT 的 研 究 与 实 验 中 被 广 泛 采 纳 。 信 息过 滤 的 结 果 可 以 分 为 四 种 情 况 , 如 表 1。 其 中 R + 代 表 系 统 从 信 息 流 中 筛 选 出 相 关 文 本 的 数 量 ;N + 代 表 系 统筛 选 出 不 相 关 文 本 的 数 量 , 即 误 检 指 标 ;R - 代 表 被 系 统 过 滤 掉 但 相 关 的 文 本 数 量 , 即 漏 检 指 标 ;N - 代 表 被系 统 过 滤 掉 且 不 相 关 的 文 本 数 量 ;A、B、C、D 分 别 控 制 四 种 指 标 对 性 能 的 影 响 强 度 。Table1 Sorts of results in information filtering表 1 信 息 过 滤 结 果 类 别实 际 相 关 实 际 不 相 关系 统 认 为 相 关 R + / A N + / B系 统 认 为 不 相 关 R - / C N - / DTREC 为 过 滤 任 务 定 义 的 评 测 规 范 如 公 式 8。 其 中 ,TREC-10 和 TREC-11 使 用 的 评 测 方 法 如 公 式 9。++−Utility = A⋅R + B ⋅ N + C ⋅ R + D ⋅ N( 公 式 8)−++R − β × Nmax(, η ) −η+ −T 11 SU+β η =R R( 公 式 9),1 −η其 中 : 参 数 β 控 制 评 测 系 统 对 误 检 指 标 影 响 过 滤 性 能 的 重 视 程 度 , 参 数 η 用 以 平 滑 评 测 指 标 。TREC-10 和


洪 宇 等 : 基 于 二 元 近 似 关 系 屏 蔽 噪 声 的 信 息 过 滤 算 法TREC-11 将 β 和 η 分 别 设 置 为 0.5 和 -0.5。 此 外 , 该 实 验 还 采 用 精 确 率 和 召 回 率 辅 助 T11SU 对 过 滤 效 果 进 行评 测 。 精 确 率 与 召 回 率 的 评 测 公 式 如 下 :+RPrecision =( 公 式 10)+ +R + NRecall=+RR+-+ R( 公 式 11)5.3 实 验 流 程实 验 旨 在 检 验 DTS 屏 蔽 噪 声 作 为 后 处 理 是 否 能 够 改 进 现 有 过 滤 系 统 的 性 能 。 在 对 语 料 进 行 分 词 和 去 停 用词 等 预 处 理 的 基 础 上 , 实 验 建 立 如 下 6 个 过 滤 系 统 , 并 进 行 3 组 对 比 测 试 :System1: 基 于 VSM 建 立 每 个 主 题 的 用 户 模 型 和 信 息 流 的 概 率 模 型 , 并 采 用 BM25 计 算 特 征 权 重 , 用 户模 型 与 信 息 的 相 关 度 采 用 余 弦 夹 角 进 行 计 算 ; 初 始 用 户 模 型 利 用 主 题 提 供 的 描 述 信 息 进 行 构 造 , 然 后 从 训 练语 料 中 选 择 最 相 关 的 前 30 篇 相 关 信 息 扩 展 用 户 模 型 , 其 中 特 征 选 择 采 用 RSV [15] 算 法 , 用 户 模 型 的 特 征 数 量为 30; 此 外 , 基 于 T11SU 训 练 最 优 阈 值 θ 。 测 试 阶 段 , 每 个 测 试 信 息 与 用 户 模 型 计 算 相 关 度 , 如 高 于 θ 则作 为 相 关 信 息 输 出 。 该 系 统 为 参 加 TREC-3 的 Okapi 系 统 [15] 。System2: 以 System1 为 “ 原 型 系 统 ”, 基 于 DTS 的 “ 非 自 适 应 ” 训 练 流 程 估 计 相 关 信 息 和 噪 声 的 分 类 曲 线 ,如 图 4, 训 练 中 p 包 含 的 特 征 数 为 100。 测 试 阶 段 , 信 息 首 先 经 “ 原 型 系 统 ” 判 别 相 关 性 , 如 作 为 相 关 信 息 输 出 ,则 再 经 分 类 曲 线 判 别 是 否 为 噪 声 , 如 判 定 为 真 ( 即 噪 声 ) 则 屏 蔽 , 否 则 输 出 为 相 关 信 息 。System3: 训 练 阶 段 与 System1 类 似 , 不 同 点 是 相 关 度 计 算 采 用 罗 杰 斯 特 回 归 (Logistic Regression, 简 称LR) 模 型 修 正 刻 度 ; 用 户 模 型 扩 展 中 的 特 征 选 择 使 用 TSV [8] 算 法 , 并 且 参 与 扩 展 的 相 关 信 息 只 有 2 篇 ; 此 外 ,经 验 性 地 降 低 初 始 阈 值 θ 。 该 系 统 在 测 试 阶 段 采 用 有 指 导 的 自 学 习 机 制 , 系 统 每 识 别 出 一 个 相 关 信 息 则 触 发自 学 习 , 并 将 已 检 测 过 的 所 有 信 息 作 为 训 练 语 料 。 自 学 习 利 用 牛 顿 下 降 法 修 正 LR 模 型 的 参 数 , 并 基 于 一 定梯 度 提 高 θ 。 该 系 统 为 参 加 TREC-7 的 Okapi 系 统 [8] 。System4: 以 System3 为 “ 原 型 系 统 ”, 基 于 DTS 有 指 导 的 “ 自 适 应 ” 训 练 流 程 实 时 估 计 分 类 曲 线 , 如 图 4,p包 含 的 特 征 数 为 100。 测 试 过 程 与 system2 基 本 相 同 , 不 同 点 是 “ 原 型 系 统 ” 每 识 别 出 一 个 相 关 信 息 , 则 “ 原 型系 统 ” 和 DTS 立 刻 先 后 进 行 自 学 习 , 如 4.2 节 。System5: 训 练 阶 段 与 System3 相 同 , 测 试 阶 段 则 采 用 无 指 导 的 自 学 习 机 制 , 每 识 别 出 一 个 相 关 信 息 则 利用 Rocchio[12] 算 法 对 用 户 模 型 进 行 更 新 。System6: 以 System5 为 “ 原 型 系 统 ”, 基 于 DTS 无 指 导 的 “ 自 适 应 ” 训 练 流 程 实 时 估 计 分 类 曲 线 , 如 图 4,p包 含 的 特 征 数 为 100。 测 试 过 程 与 System4 相 同 。实 验 中 的 3 组 对 比 测 试 分 别 是 :⑴System1 vs System2;⑵System3 vs System4;⑶System5 vs System6, 分别 检 验 嵌 入 DTS 屏 蔽 噪 声 是 否 改 进 了 “ 原 型 系 统 ” 的 性 能 。 此 外 , 实 验 还 在 对 比 测 试 (1) 中 检 验 阈 值 对 DTS屏 蔽 噪 声 的 影 响 。6 实 验 结 果 与 分 析6.1 批 过 滤 系 统 :System1 vs System2该 对 比 测 试 中 BM25 [15] 的 参 数 设 置 为 k 1 =2、k 2 =0、k 3 =1000、b=0.75, 训 练 中 System1 的 T11SU 指 标 最 优时 对 应 的 阈 值 θ 为 0.14。 采 用 这 一 阈 值 ,System1 和 System2 基 于 测 试 语 料 获 得 的 评 测 结 果 如 表 2。 该 结 果 显示 System2 的 性 能 显 著 优 于 System1, 其 平 均 精 确 率 提 高 约 13 个 百 分 点 。 如 5.3 节 所 述 ,System2 以 System1为 “ 原 型 系 统 ”, 利 用 预 先 训 练 的 分 类 曲 线 识 别 并 屏 蔽 System1 输 出 中 的 噪 声 。 因 此 , 该 测 试 验 证 了 基 于 DTS


洪 宇 等 : 基 于 二 元 近 似 关 系 屏 蔽 噪 声 的 信 息 过 滤 算 法6.2 有 指 导 的 自 适 应 过 滤 系 统 :System3 vs System4尽 管 System2 依 靠 优 化 阈 值 θ 进 一 步 改 进 批 过 滤 的 性 能 , 但 平 均 精 确 率 最 优 时 为 0.5816, 说 明 部 分 噪 声仍 然 无 法 有 效 屏 蔽 , 其 原 因 包 含 如 下 两 方 面 :⑴ 基 于 LMS 的 AdaBoost 算 法 没 有 训 练 出 分 类 曲 线 的 最 优 解 ;⑵分 类 曲 线 训 练 阶 段 最 优 , 但 测 试 阶 段 存 在 误 判 。 通 过 人 工 观 察 , 参 与 测 试 的 29 个 主 题 中 , 因 训 练 阶 段 的 分 类曲 线 不 是 最 优 解 而 影 响 System2 性 能 的 情 况 有 4 个 , 其 中 1 个 分 类 曲 线 为 奇 异 解 ; 其 它 24 个 主 题 则 都 属 于 误判 的 情 况 , 原 因 在 于 训 练 中 构 造 的 p 不 能 涵 盖 所 有 测 试 语 料 中 的 噪 声 , 导 致 这 些 噪 声 基 于 p 建 立 的 二 元 近 似关 系 位 于 相 关 信 息 的 分 布 区 域 , 从 而 训 练 获 得 的 分 类 曲 线 无 法 对 其 进 行 有 效 检 测 并 屏 蔽 。针 对 批 过 滤 系 统 的 局 限 性 , 实 验 建 立 了 有 指 导 的 自 适 应 过 滤 系 统 System3 及 System4, 其 中 System4 以System3 为 “ 原 型 系 统 ” 并 嵌 入 DTS, 如 5.3 节 。 作 为 有 指 导 的 自 适 应 过 滤 系 统 ,System4 可 根 据 “ 原 型 系 统 ”的 输 出 动 态 更 新 DTS 及 分 类 曲 线 , 借 以 解 决 训 练 出 的 恒 定 分 类 曲 线 无 法 有 效 屏 蔽 新 噪 声 的 现 象 。System3 与System4 的 测 试 结 果 如 表 3。Table3 Testing results of System3 and System4表 3 System3 和 System4 测 试 结 果T11SU Precision RecallSystem3 0.4073 0.3904 0.5063System4 0.4750 0.4669 0.4951如 表 3 所 示 ,System4 的 性 能 优 于 System3, 前 者 的 精 确 率 高 于 后 者 约 7.7 个 百 分 点 , 说 明 DTS 在 有 指 导的 自 适 应 过 滤 系 统 中 也 可 以 发 挥 屏 蔽 噪 声 的 作 用 。 但 是 , 结 果 显 示 System3 与 System4 的 性 能 都 低 于 批 过 滤系 统 , 如 6.1 节 。 原 因 在 于 初 始 用 户 模 型 只 基 于 2 篇 相 关 文 本 进 行 训 练 , 同 时 阈 值 θ 经 验 性 地 设 置 为 较 低 指标 , 如 5.3 节 , 从 而 导 致 过 滤 初 始 阶 段 的 精 确 率 很 低 。 为 此 , 实 验 将 测 试 语 料 按 时 序 划 分 为 10 个 时 段 , 并 检验 System3 与 System4 在 不 同 时 段 的 平 均 精 确 率 , 如 图 7。Fig.7Alteration trend of precision with time in System3 and System4图 7 System3 和 System4 精 确 率 随 时 间 的 变 化 趋 势如 图 7 所 示 ,System3 与 System4 最 初 的 平 均 精 确 率 都 很 低 , 尤 其 System4 更 低 于 System3。 原 因 是 初 始阈 值 θ 偏 低 ,System4 的 “ 原 型 系 统 ”( 即 System3) 输 出 过 多 噪 声 , 导 致 每 次 自 学 习 构 造 的 p 存 在 质 心 偏 移和 泛 化 现 象 , 从 而 使 DTS 中 相 关 信 息 和 噪 声 的 可 区 分 性 不 强 。 由 此 训 练 出 的 分 类 曲 线 往 往 不 是 最 优 解 , 甚 至为 奇 异 解 , 增 强 了 当 前 时 段 中 后 续 过 滤 的 误 判 概 率 。 但 是 , 随 着 “ 原 型 系 统 ” 性 能 的 提 高 , 输 出 的 相 关 信 息也 逐 渐 增 多 , 同 时 前 期 过 滤 中 已 积 累 了 一 定 数 量 的 相 关 信 息 。 因 此 , 后 续 时 段 的 DTS 训 练 中 , 相 关 信 息 与 噪声 的 比 例 逐 渐 趋 向 均 匀 , 既 削 弱 了 p 的 质 心 偏 移 和 泛 化 现 象 , 也 逐 渐 完 善 相 关 信 息 的 二 元 近 似 关 系 分 布 , 从而 使 System4 的 平 均 精 确 率 取 得 显 著 改 进 , 并 大 幅 优 于 System3。System3 与 System4 后 期 的 精 确 率 都 高 于 批过 滤 系 统 , 最 优 时 System3 与 System4 在 时 段 内 可 达 到 的 平 均 精 确 率 分 别 为 0.5218 和 0.5869。


6.3 无 指 导 的 自 适 应 过 滤 系 统 :System5 vs System6实 验 为 检 验 DTS 在 无 指 导 情 况 下 对 自 适 应 过 滤 系 统 的 影 响 , 建 立 系 统 System5 和 System6, 如 5.3 节 。 其中 ,System5 的 自 学 习 采 用 Rocchio 算 法 实 时 更 新 用 户 模 型 , 每 次 更 新 使 用 的 训 练 语 料 是 系 统 输 出 的 伪 相 关 反馈 ,System6 以 System5 为 “ 原 型 系 统 ”, 嵌 入 基 于 DTS 屏 蔽 噪 声 的 后 处 理 。System5 和 System6 的 测 试 结 果如 表 4。Table5 Testing results of System5 and System6表 4 System5 和 System6 测 试 结 果T11SU Precision RecallSystem5 0.3624 0.3562 0.4529System6 0.3769 0.3703 0.4365如 表 4 所 示 ,System5 和 System6 的 性 能 明 显 低 于 批 过 滤 系 统 , 原 因 在 于 用 户 模 型 的 初 始 训 练 语 料 较 少 (2篇 相 关 信 息 ), 以 及 初 始 阈 值 设 置 偏 低 , 导 致 过 滤 初 期 误 判 率 较 高 , 如 6.2 节 。 此 外 ,System5 和 System6 的性 能 也 低 于 有 指 导 的 自 适 应 过 滤 系 统 。 其 中 ,System5 的 精 确 率 低 于 System3 约 3.4 个 百 分 点 , 原 因 是 System5使 用 伪 相 关 反 馈 更 新 用 户 模 型 , 但 伪 相 关 反 馈 因 无 人 指 导 而 包 含 大 量 噪 声 , 从 而 使 用 户 模 型 逐 渐 产 生 偏 差 。System6 改 进 了 “ 原 型 系 统 ”( 即 System5) 的 性 能 , 准 确 率 提 高 约 1.4 个 百 分 点 。 但 是 ,DTS 中 相 关 信 息与 噪 声 都 基 于 聚 类 和 用 户 模 型 的 相 关 性 进 行 估 计 , 换 言 之 , 它 们 是 非 人 工 判 断 的 伪 相 关 信 息 和 伪 噪 声 , 如 5.3节 , 因 此 DTS 内 的 分 布 关 系 先 天 地 存 在 误 差 。 此 外 ,System6 无 法 借 助 人 工 判 断 , 选 择 所 有 噪 声 构 造 p , 而是 经 验 性 地 选 择 相 关 性 最 低 的 10 篇 伪 相 关 反 馈 构 造 p , 造 成 DTS 中 某 些 噪 声 与 p 的 相 关 度 极 低 , 甚 至 为 0,如 图 3 中 子 图 (4), 从 而 增 大 训 练 分 类 曲 线 的 复 杂 度 。 基 于 LMS 的 AdaBoost 算 法 在 有 限 迭 代 次 数 内 , 无 法有 效 训 练 分 类 曲 线 的 最 优 解 , 奇 异 解 的 比 例 也 几 乎 为 有 指 导 自 适 应 过 滤 系 统 的 2 倍 。 因 此 ,System6 对 “ 原型 系 统 ” 的 改 进 幅 度 远 低 于 有 指 导 的 自 适 应 过 滤 系 统 System4。通 过 上 述 三 组 对 比 测 试 观 察 , 基 于 DTS 屏 蔽 噪 声 的 方 法 对 “ 原 型 系 统 ” 有 很 高 的 依 赖 性 。 当 “ 原 型 系 统 ”过 滤 性 能 较 低 时 ,DTS 屏 蔽 噪 声 的 效 果 十 分 有 限 , 甚 至 由 于 分 类 曲 线 存 在 奇 异 解 而 降 低 “ 原 型 系 统 ” 的 性 能 ,如 System4 在 过 滤 初 期 的 性 能 。 与 此 对 照 ,DTS 在 “ 原 型 系 统 ” 性 能 较 优 时 可 有 效 屏 蔽 噪 声 , 并 借 此 显 著 改进 过 滤 性 能 , 如 System2 最 优 时 的 精 确 率 涨 幅 约 为 16 个 百 分 点 。 此 外 , 虽 然 DTS 显 著 提 高 了 有 指 导 自 适 应过 滤 系 统 的 性 能 , 但 在 无 指 导 自 适 应 过 滤 中 取 得 的 改 进 并 不 明 显 , 而 实 际 应 用 中 , 用 户 提 供 的 相 关 反 馈 往 往有 限 且 可 信 性 低 。 因 此 , 如 何 进 一 步 屏 蔽 无 指 导 自 适 应 过 滤 中 的 噪 声 , 将 是 该 领 域 未 来 研 究 的 一 项 重 点 。7 结 论本 文 通 过 建 立 信 息 的 二 元 近 似 关 系 , 使 一 维 相 关 度 空 间 中 不 可 分 的 相 关 信 息 和 噪 声 映 射 为 二 维 空 间 中 近似 可 分 的 不 同 分 布 , 并 采 用 基 于 LMS 分 类 器 的 AdaBoost 算 法 估 计 相 关 信 息 和 噪 声 的 分 类 曲 线 , 从 而 实 现 过滤 系 统 对 噪 声 的 识 别 和 屏 蔽 。 实 验 将 该 算 法 嵌 入 批 过 滤 、 有 指 导 和 无 指 导 的 自 适 应 过 滤 系 统 , 并 分 别 对 比 系统 嵌 入 该 算 法 前 后 的 性 能 , 实 验 结 果 验 证 该 方 法 有 效 提 高 了 过 滤 系 统 屏 蔽 噪 声 的 能 力 。 尽 管 如 此 , 实 验 同 时发 现 该 算 法 对 过 滤 系 统 本 身 的 性 能 存 在 依 赖 性 , 尤 其 在 自 适 应 过 滤 系 统 的 初 期 , 往 往 由 于 反 馈 中 相 关 信 息 稀疏 而 噪 声 过 饱 和 , 使 得 分 类 曲 线 的 估 算 失 真 , 从 而 负 面 影 响 过 滤 性 能 。 针 对 这 一 现 象 , 未 来 的 工 作 将 尝 试 采用 错 误 驱 动 的 方 式 触 发 噪 声 屏 蔽 算 法 , 使 其 总 是 在 过 滤 性 能 出 现 衰 减 趋 势 时 进 行 噪 声 的 检 测 和 屏 蔽 , 并 辅 助系 统 持 续 筛 选 相 关 信 息 进 行 自 学 习 , 从 而 避 免 后 续 过 滤 的 偏 差 。References:[1]Hang XJ, Xia YJ, Wu LD. A Text Filtering System Based on Vector Space Model. Journal of Software, 2003, 14(3): 435-442.[2] Hanani U, Shapira B, Shoval P. Information filtering: overview of issues, research and systems. User Modeling and User-AdaptedInteraction, 2001, (11): 203 - 259.[3]Belkin NJ, Croft WB. Information filtering and information retrieval: two sides of the same coin. Communications of


洪 宇 等 : 基 于 二 元 近 似 关 系 屏 蔽 噪 声 的 信 息 过 滤 算 法ACM,1994,35(12):29-38.[4]Voorhees EM, Harman DK. Overview of the 9th text retrieval conference (TREC-9). In: Voorhees EM, Harman DK, eds. Proceedingsof the 9th Text Retrieval Conference (TREC-9). Gaithersburg: NIST Special Publication, 2000. 1-14.[5]Robertson S, Hull DA. The TREC-9 filtering track final report. In: Voorhees EM, Harman DK, eds. Proceedings of the 9th TextRetrieval Conference (TREC-9). Gaithersburg: NIST Special Publication, 2001. 25-40.[6]Robertson SE, Jones KS. Relevance weighting of search terms. Journal of American Society for Information Sciences. 1976,27(3):129-146.[7]Nallapati R. Discriminative models for information retrieval. Proc. of the 27th Annual International ACM SIGIR Conf. on Researchand Development in Information Retrieval. 2004, 64−71.[8]Robertson SE, Walker S, Beaulieu M. Okapi at Trec-7: automatic ad hoc, filtering, VLC and interactive track. Proceedings of theseventh Text Retrieval Conference (TREC7). 1998, 253-264.[9]Burges C. A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery. 1998,2(2):121-167.[10]Zhang Y, Callan J. Maximum likelihood estimation for filtering thresholds. In The Twenty Fourth Annual International ACM SIGIRConference on Research and Development in Information Retrieval (SIGIR’02), pages 294–302,New York, 2002. The Association foromputing Machinery.[11]Yang YM, Bryan K. Margin-based Local Regression for Adaptive Filtering. CIKM, New Orleans, Louisiana, USA ,2003.[12]Allan J. Incremental relevance feedback for information filtering. Proceedings of the 19th annual international ACM SIGIR. 1996,270~277.[13]Joachims T. Optimizing Search Engines using Clickthrough Data. Proceedings of the ACM Conference on Knowledge Discovery andData Mining(KDD). Edmonton, Alberta, Canada: ACM Press , 2002, 133-142.[14]Zeng C, Xing CX, Zhou LZ. A Survey of Personalization Technology. Journal of Software. 2002, 13(10):1952-1961.[15]Robertson SE, Walker S, Jones S. Okapi at TREC-3. Proceedings of 3rd Text Retrieval Conference (TREC-3). Gaithersburg, USA,1995,109-126.[16]Adam JG, Nicholas L, Dale S. General convergence results for linear discriminant updates. In Proceedings of the COLT 97, pages 171-183.ACM Press, 1997.[17]Xie CF, Li X. A Text Filtering System Based on Vector Space Model. Journal of Software, 2003, 14(3): 435-442.[18]Robert ES, Yoram S. BoosTexter: A Boosting-based System for Text Categorization. Machine Learning. May 2000. Vol 39, 135-168.[19]Robert ES. The Boosting Approach to Machine Learning: An Overview. MSRI Workshop on Nonlinear Estimation and Classification,2002.[20]Solomatine DP, Shrestha DL. AdaBoost.RT: a boosting algorithm for regression problems. Proceedings of 2004 IEEE International JointConference. July 2004.Vol2, 1163-1168.[21]Michael C, Robert ES, Yoram S. Logistic Regression, AdaBoost and Bregman Distance. Machine Learning. July, 2002. Vol48, 253-285.[22]Hong Y, Zhang Y, Liu T, Zheng W, Gong C, Li S. Learning Algorithm of Adaptive Information Filtering Based on HierarchyClustering. Journal of Chinese information processing. 2007, 3(21): 47-53.附 中 文 参 考 文 献 :[1] 黄 萱 菁 , 夏 迎 炬 , 吴 立 德 . 基 于 向 量 空 间 模 型 的 文 本 过 滤 系 统 . 软 件 学 报 , 2003, 14(3): 435-442.[14] 曾 春 , 邢 春 晓 , 周 立 柱 . 个 性 化 服 务 技 术 综 述 . 软 件 学 报 . 2002, 13(10):1952-1961.[17] 解 冲 锋 , 李 星 . 基 于 序 列 的 文 本 自 动 分 类 算 法 . 软 件 学 报 . 2002, 13(4):783-789.[22] 洪 宇 , 张 宇 , 刘 挺 , 郑 伟 , 龚 诚 , 李 生 . 基 于 层 次 聚 类 的 自 适 应 信 息 过 滤 学 习 算 法 . 中 文 信 息 学 报 , 2007, 3(21): 47-53.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!