12.07.2015 Views

信息过滤中基于二元近似关系分布的噪声屏蔽算法 - 哈尔滨工业大学 ...

信息过滤中基于二元近似关系分布的噪声屏蔽算法 - 哈尔滨工业大学 ...

信息过滤中基于二元近似关系分布的噪声屏蔽算法 - 哈尔滨工业大学 ...

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

洪 宇 等 : 基 于 二 元 近 似 关 系 屏 蔽 噪 声 的 信 息 过 滤 算 法pFig.4Structure of filtering system shielded from noises by embedding with DTS图 4 嵌 入 DTS 屏 蔽 噪 声 的 过 滤 系 统 框 架4.1 基 于 二 元 近 似 关 系 的 批 过 滤 系 统批 过 滤 系 统 是 一 种 “ 非 自 适 应 ” 性 过 滤 系 统 , 它 往 往 基 于 相 对 较 多 的 相 关 信 息 建 立 初 始 用 户 模 型 , 并 可 以利 用 全 部 训 练 语 料 及 其 人 工 评 价 优 化 用 户 模 型 , 但 在 测 试 阶 段 用 户 模 型 必 须 保 持 固 定 不 变 [1] 。 因 此 批 过 滤 系统 嵌 入 DTS 的 方 式 遵 循 图 4 中 的 “ 非 自 适 应 ” 流 程 。面 向 批 过 滤 的 DTS 训 练 过 程 如 下 : 首 先 , 计 算 所 有 训 练 样 本 与 用 户 模 型 的 相 关 度 , 并 在 此 基 础 上 估 计 “ 原型 系 统 ” 的 阈 值 ; 其 次 , 选 择 高 于 阈 值 的 所 有 不 相 关 样 本 , 即 噪 声 , 构 建 相 悖 于 用 户 模 型 的 p , 并 滤 除 p 中与 用 户 模 型 共 有 的 特 征 , 如 图 3 中 子 图 (6); 最 后 , 建 立 所 有 训 练 样 本 的 二 元 近 似 关 系 , 并 结 合 先 验 的 相 关性 评 价 ( 人 工 判 定 结 果 : 相 关 或 噪 声 ) 建 立 DTS, 其 中 相 关 样 本 的 分 布 属 性 表 示 为 x = [ 1, r(d,p),r(d,p)] , 噪声 的 分 布 属 性 表 示 为 x = [ −1,− r(d,p),− r(d,p)] , 如 公 式 4 对 样 本 的 定 义 。 批 过 滤 系 统 基 于 DTS, 采 用 LMS及 AdaBoost 算 法 估 计 相 关 信 息 与 噪 声 的 分 类 曲 线 。在 测 试 阶 段 , 系 统 首 先 判 断 信 息 与 用 户 模 型 p 的 相 关 度 是 否 高 于 阈 值 , 如 果 低 于 阈 值 则 直 接 屏 蔽 , 否 则建 立 该 信 息 的 二 元 近 似 关 系 并 代 入 分 类 曲 线 的 判 别 式 , 判 断 它 是 否 为 噪 声 , 如 不 是 则 作 为 相 关 信 息 输 出 。4.2 基 于 二 元 近 似 关 系 的 自 适 应 过 滤 系 统自 适 应 过 滤 区 别 于 批 过 滤 , 初 始 用 户 模 型 的 训 练 数 据 较 少 ∗∗∗ , 对 用 户 模 型 的 更 新 与 修 正 完 全 通 过 后 期 的自 学 习 [1] 。 因 此 自 适 应 过 滤 系 统 嵌 入 DTS 的 方 式 遵 循 图 4 中 的 “ 自 适 应 ” 流 程 。 此 外 , 自 适 应 过 滤 包 括 有 指 导和 无 指 导 两 种 自 学 习 方 式 , 前 者 假 设 用 户 实 时 地 对 过 滤 结 果 进 行 评 价 , 并 根 据 用 户 的 相 关 反 馈 更 新 用 户 模 型和 优 化 过 滤 模 型 ; 后 者 则 假 设 用 户 较 长 时 期 内 甚 至 从 不 评 判 过 滤 结 果 , 仅 依 靠 系 统 自 身 的 伪 相 关 反 馈 进 行 后续 自 学 习 。有 指 导 自 适 应 过 滤 的 DTS 训 练 过 程 与 批 过 滤 基 本 类 似 , 区 别 在 于 DTS 不 是 基 于 大 规 模 先 验 语 料 一 次 训∗∗∗∗练 完 成 , 而 是 根 据 用 户 周 期 性 的 反 馈 逐 步 训 练 。 针 对 某 一 周 期 内 过 滤 系 统 输 出 的 相 关 信 息 , 自 学 习 机 制 检测 其 中 是 否 存 在 用 户 认 为 不 相 关 的 信 息 , 如 存 在 则 触 发 DTS 训 练 , 其 使 用 的 语 料 仅 包 括 当 前 周 期 内 过 滤 系 统输 出 的 噪 声 , 以 及 所 有 已 知 的 相 关 信 息 。 如 前 文 所 述 , 利 用 DTS 屏 蔽 噪 声 的 方 法 是 一 种 后 处 理 , 不 直 接 影 响“ 原 型 系 统 ” 内 部 的 操 作 。 因 此 , 嵌 入 自 适 应 过 滤 系 统 的 DTS 必 须 在 周 期 性 的 训 练 中 , 兼 顾 “ 原 型 系 统 ” 自 身 进行 的 自 学 习 。 假 设 当 前 “ 原 型 系 统 ” 已 借 助 自 学 习 更 新 了 用 户 模 型 、 阈 值 及 过 滤 模 型 参 数 , 则 DTS 训 练 中 的 相∗∗∗ TREC 为 自 适 应 信 息 过 滤 提 供 的 训 练 样 本 为 2-4 篇 。∗∗∗∗ 某 些 过 滤 系 统 并 不 基 于 固 定 时 长 的 周 期 进 行 自 学 习 , 而 是 每 识 别 出 一 个 相 关 信 息 则 立 刻 进 行 自 学 习 , 如 参 加 TREC-7 的Okapi 系 统 。

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!