12.07.2015 Views

信息过滤中基于二元近似关系分布的噪声屏蔽算法 - 哈尔滨工业大学 ...

信息过滤中基于二元近似关系分布的噪声屏蔽算法 - 哈尔滨工业大学 ...

信息过滤中基于二元近似关系分布的噪声屏蔽算法 - 哈尔滨工业大学 ...

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

6.3 无 指 导 的 自 适 应 过 滤 系 统 :System5 vs System6实 验 为 检 验 DTS 在 无 指 导 情 况 下 对 自 适 应 过 滤 系 统 的 影 响 , 建 立 系 统 System5 和 System6, 如 5.3 节 。 其中 ,System5 的 自 学 习 采 用 Rocchio 算 法 实 时 更 新 用 户 模 型 , 每 次 更 新 使 用 的 训 练 语 料 是 系 统 输 出 的 伪 相 关 反馈 ,System6 以 System5 为 “ 原 型 系 统 ”, 嵌 入 基 于 DTS 屏 蔽 噪 声 的 后 处 理 。System5 和 System6 的 测 试 结 果如 表 4。Table5 Testing results of System5 and System6表 4 System5 和 System6 测 试 结 果T11SU Precision RecallSystem5 0.3624 0.3562 0.4529System6 0.3769 0.3703 0.4365如 表 4 所 示 ,System5 和 System6 的 性 能 明 显 低 于 批 过 滤 系 统 , 原 因 在 于 用 户 模 型 的 初 始 训 练 语 料 较 少 (2篇 相 关 信 息 ), 以 及 初 始 阈 值 设 置 偏 低 , 导 致 过 滤 初 期 误 判 率 较 高 , 如 6.2 节 。 此 外 ,System5 和 System6 的性 能 也 低 于 有 指 导 的 自 适 应 过 滤 系 统 。 其 中 ,System5 的 精 确 率 低 于 System3 约 3.4 个 百 分 点 , 原 因 是 System5使 用 伪 相 关 反 馈 更 新 用 户 模 型 , 但 伪 相 关 反 馈 因 无 人 指 导 而 包 含 大 量 噪 声 , 从 而 使 用 户 模 型 逐 渐 产 生 偏 差 。System6 改 进 了 “ 原 型 系 统 ”( 即 System5) 的 性 能 , 准 确 率 提 高 约 1.4 个 百 分 点 。 但 是 ,DTS 中 相 关 信 息与 噪 声 都 基 于 聚 类 和 用 户 模 型 的 相 关 性 进 行 估 计 , 换 言 之 , 它 们 是 非 人 工 判 断 的 伪 相 关 信 息 和 伪 噪 声 , 如 5.3节 , 因 此 DTS 内 的 分 布 关 系 先 天 地 存 在 误 差 。 此 外 ,System6 无 法 借 助 人 工 判 断 , 选 择 所 有 噪 声 构 造 p , 而是 经 验 性 地 选 择 相 关 性 最 低 的 10 篇 伪 相 关 反 馈 构 造 p , 造 成 DTS 中 某 些 噪 声 与 p 的 相 关 度 极 低 , 甚 至 为 0,如 图 3 中 子 图 (4), 从 而 增 大 训 练 分 类 曲 线 的 复 杂 度 。 基 于 LMS 的 AdaBoost 算 法 在 有 限 迭 代 次 数 内 , 无 法有 效 训 练 分 类 曲 线 的 最 优 解 , 奇 异 解 的 比 例 也 几 乎 为 有 指 导 自 适 应 过 滤 系 统 的 2 倍 。 因 此 ,System6 对 “ 原型 系 统 ” 的 改 进 幅 度 远 低 于 有 指 导 的 自 适 应 过 滤 系 统 System4。通 过 上 述 三 组 对 比 测 试 观 察 , 基 于 DTS 屏 蔽 噪 声 的 方 法 对 “ 原 型 系 统 ” 有 很 高 的 依 赖 性 。 当 “ 原 型 系 统 ”过 滤 性 能 较 低 时 ,DTS 屏 蔽 噪 声 的 效 果 十 分 有 限 , 甚 至 由 于 分 类 曲 线 存 在 奇 异 解 而 降 低 “ 原 型 系 统 ” 的 性 能 ,如 System4 在 过 滤 初 期 的 性 能 。 与 此 对 照 ,DTS 在 “ 原 型 系 统 ” 性 能 较 优 时 可 有 效 屏 蔽 噪 声 , 并 借 此 显 著 改进 过 滤 性 能 , 如 System2 最 优 时 的 精 确 率 涨 幅 约 为 16 个 百 分 点 。 此 外 , 虽 然 DTS 显 著 提 高 了 有 指 导 自 适 应过 滤 系 统 的 性 能 , 但 在 无 指 导 自 适 应 过 滤 中 取 得 的 改 进 并 不 明 显 , 而 实 际 应 用 中 , 用 户 提 供 的 相 关 反 馈 往 往有 限 且 可 信 性 低 。 因 此 , 如 何 进 一 步 屏 蔽 无 指 导 自 适 应 过 滤 中 的 噪 声 , 将 是 该 领 域 未 来 研 究 的 一 项 重 点 。7 结 论本 文 通 过 建 立 信 息 的 二 元 近 似 关 系 , 使 一 维 相 关 度 空 间 中 不 可 分 的 相 关 信 息 和 噪 声 映 射 为 二 维 空 间 中 近似 可 分 的 不 同 分 布 , 并 采 用 基 于 LMS 分 类 器 的 AdaBoost 算 法 估 计 相 关 信 息 和 噪 声 的 分 类 曲 线 , 从 而 实 现 过滤 系 统 对 噪 声 的 识 别 和 屏 蔽 。 实 验 将 该 算 法 嵌 入 批 过 滤 、 有 指 导 和 无 指 导 的 自 适 应 过 滤 系 统 , 并 分 别 对 比 系统 嵌 入 该 算 法 前 后 的 性 能 , 实 验 结 果 验 证 该 方 法 有 效 提 高 了 过 滤 系 统 屏 蔽 噪 声 的 能 力 。 尽 管 如 此 , 实 验 同 时发 现 该 算 法 对 过 滤 系 统 本 身 的 性 能 存 在 依 赖 性 , 尤 其 在 自 适 应 过 滤 系 统 的 初 期 , 往 往 由 于 反 馈 中 相 关 信 息 稀疏 而 噪 声 过 饱 和 , 使 得 分 类 曲 线 的 估 算 失 真 , 从 而 负 面 影 响 过 滤 性 能 。 针 对 这 一 现 象 , 未 来 的 工 作 将 尝 试 采用 错 误 驱 动 的 方 式 触 发 噪 声 屏 蔽 算 法 , 使 其 总 是 在 过 滤 性 能 出 现 衰 减 趋 势 时 进 行 噪 声 的 检 测 和 屏 蔽 , 并 辅 助系 统 持 续 筛 选 相 关 信 息 进 行 自 学 习 , 从 而 避 免 后 续 过 滤 的 偏 差 。References:[1]Hang XJ, Xia YJ, Wu LD. A Text Filtering System Based on Vector Space Model. Journal of Software, 2003, 14(3): 435-442.[2] Hanani U, Shapira B, Shoval P. Information filtering: overview of issues, research and systems. User Modeling and User-AdaptedInteraction, 2001, (11): 203 - 259.[3]Belkin NJ, Croft WB. Information filtering and information retrieval: two sides of the same coin. Communications of

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!