12.07.2015 Views

信息过滤中基于二元近似关系分布的噪声屏蔽算法 - 哈尔滨工业大学 ...

信息过滤中基于二元近似关系分布的噪声屏蔽算法 - 哈尔滨工业大学 ...

信息过滤中基于二元近似关系分布的噪声屏蔽算法 - 哈尔滨工业大学 ...

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

洪 宇 等 : 基 于 二 元 近 似 关 系 屏 蔽 噪 声 的 信 息 过 滤 算 法TREC-11 将 β 和 η 分 别 设 置 为 0.5 和 -0.5。 此 外 , 该 实 验 还 采 用 精 确 率 和 召 回 率 辅 助 T11SU 对 过 滤 效 果 进 行评 测 。 精 确 率 与 召 回 率 的 评 测 公 式 如 下 :+RPrecision =( 公 式 10)+ +R + NRecall=+RR+-+ R( 公 式 11)5.3 实 验 流 程实 验 旨 在 检 验 DTS 屏 蔽 噪 声 作 为 后 处 理 是 否 能 够 改 进 现 有 过 滤 系 统 的 性 能 。 在 对 语 料 进 行 分 词 和 去 停 用词 等 预 处 理 的 基 础 上 , 实 验 建 立 如 下 6 个 过 滤 系 统 , 并 进 行 3 组 对 比 测 试 :System1: 基 于 VSM 建 立 每 个 主 题 的 用 户 模 型 和 信 息 流 的 概 率 模 型 , 并 采 用 BM25 计 算 特 征 权 重 , 用 户模 型 与 信 息 的 相 关 度 采 用 余 弦 夹 角 进 行 计 算 ; 初 始 用 户 模 型 利 用 主 题 提 供 的 描 述 信 息 进 行 构 造 , 然 后 从 训 练语 料 中 选 择 最 相 关 的 前 30 篇 相 关 信 息 扩 展 用 户 模 型 , 其 中 特 征 选 择 采 用 RSV [15] 算 法 , 用 户 模 型 的 特 征 数 量为 30; 此 外 , 基 于 T11SU 训 练 最 优 阈 值 θ 。 测 试 阶 段 , 每 个 测 试 信 息 与 用 户 模 型 计 算 相 关 度 , 如 高 于 θ 则作 为 相 关 信 息 输 出 。 该 系 统 为 参 加 TREC-3 的 Okapi 系 统 [15] 。System2: 以 System1 为 “ 原 型 系 统 ”, 基 于 DTS 的 “ 非 自 适 应 ” 训 练 流 程 估 计 相 关 信 息 和 噪 声 的 分 类 曲 线 ,如 图 4, 训 练 中 p 包 含 的 特 征 数 为 100。 测 试 阶 段 , 信 息 首 先 经 “ 原 型 系 统 ” 判 别 相 关 性 , 如 作 为 相 关 信 息 输 出 ,则 再 经 分 类 曲 线 判 别 是 否 为 噪 声 , 如 判 定 为 真 ( 即 噪 声 ) 则 屏 蔽 , 否 则 输 出 为 相 关 信 息 。System3: 训 练 阶 段 与 System1 类 似 , 不 同 点 是 相 关 度 计 算 采 用 罗 杰 斯 特 回 归 (Logistic Regression, 简 称LR) 模 型 修 正 刻 度 ; 用 户 模 型 扩 展 中 的 特 征 选 择 使 用 TSV [8] 算 法 , 并 且 参 与 扩 展 的 相 关 信 息 只 有 2 篇 ; 此 外 ,经 验 性 地 降 低 初 始 阈 值 θ 。 该 系 统 在 测 试 阶 段 采 用 有 指 导 的 自 学 习 机 制 , 系 统 每 识 别 出 一 个 相 关 信 息 则 触 发自 学 习 , 并 将 已 检 测 过 的 所 有 信 息 作 为 训 练 语 料 。 自 学 习 利 用 牛 顿 下 降 法 修 正 LR 模 型 的 参 数 , 并 基 于 一 定梯 度 提 高 θ 。 该 系 统 为 参 加 TREC-7 的 Okapi 系 统 [8] 。System4: 以 System3 为 “ 原 型 系 统 ”, 基 于 DTS 有 指 导 的 “ 自 适 应 ” 训 练 流 程 实 时 估 计 分 类 曲 线 , 如 图 4,p包 含 的 特 征 数 为 100。 测 试 过 程 与 system2 基 本 相 同 , 不 同 点 是 “ 原 型 系 统 ” 每 识 别 出 一 个 相 关 信 息 , 则 “ 原 型系 统 ” 和 DTS 立 刻 先 后 进 行 自 学 习 , 如 4.2 节 。System5: 训 练 阶 段 与 System3 相 同 , 测 试 阶 段 则 采 用 无 指 导 的 自 学 习 机 制 , 每 识 别 出 一 个 相 关 信 息 则 利用 Rocchio[12] 算 法 对 用 户 模 型 进 行 更 新 。System6: 以 System5 为 “ 原 型 系 统 ”, 基 于 DTS 无 指 导 的 “ 自 适 应 ” 训 练 流 程 实 时 估 计 分 类 曲 线 , 如 图 4,p包 含 的 特 征 数 为 100。 测 试 过 程 与 System4 相 同 。实 验 中 的 3 组 对 比 测 试 分 别 是 :⑴System1 vs System2;⑵System3 vs System4;⑶System5 vs System6, 分别 检 验 嵌 入 DTS 屏 蔽 噪 声 是 否 改 进 了 “ 原 型 系 统 ” 的 性 能 。 此 外 , 实 验 还 在 对 比 测 试 (1) 中 检 验 阈 值 对 DTS屏 蔽 噪 声 的 影 响 。6 实 验 结 果 与 分 析6.1 批 过 滤 系 统 :System1 vs System2该 对 比 测 试 中 BM25 [15] 的 参 数 设 置 为 k 1 =2、k 2 =0、k 3 =1000、b=0.75, 训 练 中 System1 的 T11SU 指 标 最 优时 对 应 的 阈 值 θ 为 0.14。 采 用 这 一 阈 值 ,System1 和 System2 基 于 测 试 语 料 获 得 的 评 测 结 果 如 表 2。 该 结 果 显示 System2 的 性 能 显 著 优 于 System1, 其 平 均 精 确 率 提 高 约 13 个 百 分 点 。 如 5.3 节 所 述 ,System2 以 System1为 “ 原 型 系 统 ”, 利 用 预 先 训 练 的 分 类 曲 线 识 别 并 屏 蔽 System1 输 出 中 的 噪 声 。 因 此 , 该 测 试 验 证 了 基 于 DTS

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!