13.07.2015 Views

一种基于LDA的CRF自动文摘方法 - 模式识别国家重点实验室- 中国 ...

一种基于LDA的CRF自动文摘方法 - 模式识别国家重点实验室- 中国 ...

一种基于LDA的CRF自动文摘方法 - 模式识别国家重点实验室- 中国 ...

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

可 是 上 式 分 母 在 求 解 时 , 因 其 θ 与 β 的 耦 合 (coupling) 关 系 ,导 致 无 法 精 确 计 算 。 不 过 , 很 多 近 似 计 算 方 法 在 近 几 年 得 到 了 广 泛 的研 究 , 如 马 尔 可 夫 蒙 特 卡 罗 马 尔 可 夫 方 法 (MCMC)、 拉 普 拉 斯 近 似 、以 及 本 文 要 用 到 的 变 分 近 似 (variational approximation)。变 分 推 断 的 基 本 思 想 是 使 用 Jesen 不 等 式 来 得 到 对 数 似 然 的 一 个可 变 下 界 。 本 质 上 说 , 就 是 用 带 索 引 的 变 分 参 数 来 得 到 一 个 下 界 函 数族 , 然 后 通 过 最 优 化 过 程 来 确 定 最 终 的 变 分 参 数 , 最 后 得 到 一 个 最 紧的 下 界 。 通 常 逼 近 两 个 函 数 的 方 法 是 使 两 者 的 KL 距 离 最 小 :∗ ∗( γ , φ ) = argminD(q( θ,z| γ, φ)||p( θ,z|w, α, β )) (11)( γφ , )可 以 通 过 类 似 EM 的 迭 代 方 法 来 搜 索 参 数 , 所 以 总 的 运 算 约 在N 2 K 的 量 级 。3.4 LCAS 系 统 设 计本 文 根 据 LDA 模 型 的 特 点 , 提 出 了 基 于 LDA 的 CRF 自 动 摘 要(LCAS) 方 法 。 我 们 在 原 有 的 CRF 摘 要 抽 取 方 法 的 框 架 下 , 引 入 LDA特 征 ,LDA 特 征 描 述 的 是 文 本 通 过 LDA 训 练 而 得 到 的 topic 分 布 , 这种 topic 的 分 布 和 词 频 特 征 一 样 可 以 作 为 CRF 分 类 器 的 特 征 。 系 统 框图 见 图 2。图 2 基 于 LDA 的 CRF 摘 要 系 统图 2 中 从 语 料 出 发 向 下 的 箭 头 为 传 统 CRF 摘 要 系 统 , 通 过 预 处 理 ,提 取 基 本 特 征 送 入 CRF 训 练 器 训 练 , 从 而 生 成 摘 要 ; 而 从 语 料 出 发 向上 的 箭 头 所 指 , 则 为 本 文 系 统 特 有 的 , 依 据 LDA 预 处 理 而 得 到 特 征 ,将 这 些 特 征 和 基 本 特 征 合 并 , 用 CRF 进 行 训 练 来 提 取 摘 要 。图 中 所 用 到 的 LDA 特 征 定 义 如 下 :LDA 特 征相 邻 句 子 的 topic 相 似 度 特 征 (FA): 我 们 用 余 弦 相 似 度 来 度 量 两 个句 子 topic 的 相 似 度 。 这 个 特 征 用 来 记 录 一 句 话 与 其 前 3 个 和 后 3 个 句子 的 topic 相 似 度 。 其 计 算 方 法 和 句 子 相 似 度 的 计 算 方 法 相 同 。句 子 和 所 处 文 本 的 topic 相 似 度 (FB): 用 余 弦 相 似 度 度 量 每 个 句 子 和其 所 处 文 本 的 LDA topic 相 似 度 。4 实 验 及 结 果 分 析这 部 分 首 先 介 绍 本 文 实 验 所 采 用 的 语 料 和 评 估 标 准 。 我 们 以 文 献[14] 为 baseline, 为 了 验 证 LDA 模 型 的 有 效 性 , 实 验 设 计 和 评 估 方 法与 文 献 [14] 所 采 用 的 严 格 一 致 。 第 二 部 分 的 实 验 中 , 我 们 对 语 料 进 行LDA 分 析 , 从 实 验 结 果 中 可 以 较 清 楚 的 看 到 topic 的 含 义 和 作 用 。 第三 部 分 的 实 验 是 本 文 的 核 心 , 在 这 里 系 统 的 介 绍 了 我 们 的 LCAS 系 统的 实 验 情 况 。 我 们 给 出 了 详 细 的 实 验 结 果 , 并 和 baseline 进 行 比 较 。最 终 ,4% 的 提 高 充 分 显 示 出 了 我 们 方 法 的 优 越 性 。 我 们 同 时 还 分 析 了LDA 不 同 topic 的 数 量 对 于 我 们 实 验 结 果 的 影 响 。4.1 语 料 和 评 估 标 准我 们 的 实 验 采 用 的 语 料 是 较 为 广 泛 使 用 的 DUC2001 年 的 摘 要 语料 。DUC 是 由 ARDA 赞 助 ,NIST(http://www.nist.gov) 举 办 的 。DUC2001 的 基 本 目 标 是 引 导 研 究 人 员 在 大 规 模 的 实 验 上 推 动 摘 要 的发 展 。 这 批 语 料 包 括 147 篇 新 闻 文 本 , 文 中 每 个 句 子 是 否 是 摘 要 句 都被 做 了 人 工 标 注 。 这 批 语 料 本 身 就 是 为 评 测 单 文 档 抽 取 式 摘 要 而 设 计的 , 并 且 做 了 很 好 的 预 处 理 。 采 用 这 个 语 料 的 另 一 个 原 因 是 , 文 献 [14]中 的 实 验 都 是 在 这 份 语 料 上 进 行 的 , 这 样 可 以 方 便 地 将 两 个 系 统 的 性能 进 行 比 对 。摘 要 的 评 测 共 分 为 两 种 : 一 种 是 人 工 评 测 , 也 就 是 通 过 专 家 来 对 生 成摘 要 的 各 个 方 面 打 分 分 出 优 劣 ; 另 一 种 是 机 器 评 测 , 现 在 使 用 的 方 主要 有 ROUGE 打 分 和 通 过 F1 值 ; 文 献 [14] 采 用 了 上 述 两 种 机 器 评 测 方法 , 从 效 果 上 说 , 这 两 种 方 法 的 评 测 结 果 基 本 一 致 。 为 了 方 便 比 对 ,我 们 采 用 F1 值 来 作 为 评 估 标 准 。为 了 减 小 模 型 的 不 确 定 性 , 我 们 将 语 料 分 为 10 份 并 作 交 叉 验 证 ,最 终 的 F1 值 是 在 这 10 个 实 验 上 的 平 均 值 。 实 验 的 设 计 和 评 测 都 是 严格 按 照 [14] 中 所 叙 述 的 步 骤 进 行 , 以 保 证 比 对 的 公 正 性 。4.2 实 验 1: LDA 获 取我 们 在 DUC2001 年 的 语 料 上 用 算 法 2 求 得 其 topic 分 布 , 也 就 是多 项 式 概 率 分 布 p(w|z), 所 得 的 结 果 部 分 展 示 在 表 1。 该 表 按 概 率 从高 到 低 的 顺 序 给 出 了 一 些 topic 的 分 布 情 况 。 如 topic1 从 高 到 低 依 次为 eruption,ash, vocanic,vocanologist,bloom,information,activity,life-threatenning 等 等 , 可 以 认 为 这 个 topic 应 该 主 要 是 和 火 山 活 动 的 新闻 有 关 的 ;topic2 为 kong,hong,patten,Chinese,people,politic,system,council,public,concession 可 以 认 为 这 是 一 个 反 映 香 港 与 大陆 政 治 关 系 的 一 个 主 题 ; 依 次 topic3 和 topic4 分 别 为 海 上 石 油 和 北 极问 题 。Topic1 Topic2 Topic3 Topic4eruption kong oil iceash hong million fishvocanic patten valdez antifreezevocanologist chinese ship antarcticabloom people tanker sheetinformation politic vessel streamacitivity system captain scientistlife-threatenning council alaska earthscientist public mile coldwarning concession set waterdollar government crew sealtorist legislative official university表 1 部 分 topic这 个 实 验 中 我 们 采 用 的 是 基 于 变 分 近 似 的 算 法 , 采 用 EM 迭 代 ,因 为 语 料 规 模 较 小 , 算 法 收 敛 的 很 快 , 一 般 在 十 几 秒 钟 到 一 分 钟 以 内就 可 以 给 出 结 果 。4.3 实 验 2: LCAS 系 统 实 验我 们 对 LCAS 系 统 进 行 了 实 验 , 实 验 结 果 见 表 2。 表 2 给 出 的 数据 是 分 别 采 用 新 特 征 FA 和 FB 以 及 一 起 采 用 这 两 个 特 征 FA+FB, 并结 合 基 本 特 征 得 到 的 F1 结 果 。 纵 坐 标 为 采 用 不 同 的 topic 数 量 , 我 们


取 从 20 个 topic 开 始 , 每 10 个 topic 为 单 位 逐 渐 递 增 , 一 直 到 100 个topic。 图 3 中 给 出 了 线 条 图 形 表 示 。4.4 实 验 结 果 及 分 析表 2 中 的 黑 体 数 字 , 当 topic 取 40, 取 特 征 FB, 以 及 当 topic取 70, 取 FA 特 征 和 FB 特 征 时 , 我 们 的 系 统 达 到 最 优 值 ,0.405。 它比 [12] 中 的 结 果 0.389 提 高 了 约 4.1%。 另 外 , 从 实 验 结 果 上 看 ,FB特 征 比 FA 效 果 要 好 , 它 的 曲 线 比 较 接 近 于 FA+FB 的 曲 线 。 本 实 验 除 了研 究 这 两 个 特 征 的 有 效 性 , 还 对 topic 的 数 量 对 实 验 结 果 的 影 响 作 了测 试 。 从 结 果 上 看 topic 取 30 到 70 之 间 的 时 候 FB 以 及 FA+FB 的 效 果大 都 好 于 baseline, 而 且 FA+FB 对 系 统 的 提 升 对 于 topic 的 变 化 更 不明 显 。 所 以 应 该 说 FA+FB 的 效 果 更 具 有 鲁 棒 性 。而 从 图 3 中 我 们 可 以 清 楚 地 看 到 , 当 topic 数 量 由 少 到 多 增 加 时 ,实 验 结 果 无 论 是 FA、FB 还 是 FB+FA, 都 有 明 显 的 改 善 。 而 当 topic数 量 过 60-70 时 , 结 果 又 开 始 变 差 。分 析 其 原 因 , 我 们 认 为 这 是 由 于 语 料 规 模 偏 小 , 而 topic 数 目 设 置过 多 从 而 导 致 了 数 据 稀 疏 , 使 特 征 的 作 用 下 降 。 因 此 , 在 下 一 步 研 究中 , 我 们 将 考 虑 语 料 的 规 模 和 topic 的 数 量 之 间 的 关 系 。另 外 , 从 表 1 中 我 们 还 可 以 看 到 , 虽 然 LDA 展 现 了 一 定 的 获 得潜 在 topic 的 能 力 , 但 因 词 集 (bag-of-words) 的 前 提 理 论 假 设 , 使 得同 一 个 词 可 以 被 不 同 的 topic 产 生 出 来 , 如 表 中 的 ‘people’,‘scientist’等 词 在 不 同 的 topic 中 都 占 有 了 很 高 的 频 率 。[18] 中 也 提 到 了 这 种 情 况 ,并 提 出 了 通 过 采 用 部 分 可 交 换 性 , 或 用 马 尔 可 夫 性 来 描 述 词 序 列 的 方法 来 放 松 词 集 约 束 的 理 论 假 设 。Topic FA FB FA+FB20 0.372 0.38 0.38630 0.386 0.392 0.39140 0.361 0.405 0.40450 0.379 0.402 0.40160 0.376 0.393 0.40670 0.387 0.399 0.40580 0.36 0.371 0.3790 0.376 0.372 0.381100 0.377 0.38 0.379表 2 LCAS 系 统 实 验 结 果0.410.40.390.380.370.360.350.340.33FAFBFA+FBCRF20 30 40 50 60 70 80 90 100图 3 LCAS 系 统 实 验 结 果5 结 束 语本 文 提 出 了 一 种 新 的 基 于 LDA 的 CRF 自 动 摘 要 方 法 (LCAS),该 方 法 在 传 统 的 有 监 督 的 抽 取 型 摘 要 的 基 础 上 , 采 用 效 果 较 好 的 CRF序 列 标 注 分 类 器 , 并 结 合 LDA 模 型 特 点 将 新 的 特 征 加 入 到 CRF 分 类器 。 实 验 证 明 本 系 统 的 性 能 比 单 纯 采 用 传 统 的 特 征 有 较 大 的 提 高 。 并且 本 文 还 进 一 步 分 析 了 不 同 的 topic 对 系 统 性 能 的 影 响 并 初 步 指 出 了原 因 。我 们 的 下 一 步 工 作 是 继 续 考 察 LDA 模 型 对 文 本 切 割 的 作 用 , 以及 在 文 本 初 步 切 割 的 基 础 上 进 一 步 取 摘 要 的 效 果 。 我 们 还 希 望 研 究 在不 同 的 语 料 规 模 下 topic 的 数 量 对 系 统 的 影 响 。参 考 文 献[1] HP Luhn, The Automatic Creation of Literature Abstracts[J], IBMJournal of Research and Development, 1958, 2(2): pp159 – 165,.[2] 宗 成 庆 , 统 计 自 然 语 言 处 理 [M], 清 华 大 学 出 版 社 ,2008。[3] D.R. Radev, E. Hovy and K. McKeown. Introduction to the SpecialIssue on Summarization[J]. Computational Linguistics, 2002, 28(4):pp399-408[4] Xiaofeng Wu, Chengqing Zong, A New Approach to AutomaticDocument Summarization[C]. in International Joint Conference ofNatural Language Processing, 2008, pp126-132[5] J.Y. Yeh, H.R. Ke, W.P. Yang, and I.H. Meng, Text summarizationusing trainable summarizer and latent semantic analysis[J]. IPM,2005, 41(1):pp75–95[6] Hal Daum´e III , and D. Marcu, Bayesian Query- FocusedSummarization[C], In ACL, 2006[7] P.B. Baxendale, Man-made Index for Technical Literature -AnExperiment[J]. IBM Journal of Research and Development, 1958,2(4), pp354-361[8] Y. H. Gong and X. Liu. Generic text summarization usingrelevance measure and latent semantic analysis[C]. In SIGIR, 2001,pp19-25,[9] J. Kupiec, J. Pedersen, and F. Chen, A Trainable DocumentSummarizer. Research and Development[C]. in InformationRetrieval, 1995, pp68-73[10] C. Aone, N. Charocopos, J. Gorlinsky, An Intelligent MultilingualInformation Browsing and Retrieval System Using InformationExtraction[C]. ANLP, 1997, pp332-339[11] H. P. Edmundson. New Methods in Automatic Extracting[J].Journal of the Association for Computing Machinery, 1969, 16(2),pp264-285[12] J. M. Conroy and D. P. O’leary, Text Summarization via HiddenMarkov Models[C]. In SIGIR, 2001,pp406–407[13] J. D. Lafferty, A. McCallum, and F. C. N. Pereira. Conditionalrandom fields: probabilistic models for segmenting and labelingsequence data[C]. ICML, 2001, pp282–289[14] D. Shen, J.T. Sun, H. Li, Q. Yang, Z. Chen , DocumentSummarization using Conditional Random Fields[C],In IJCAI,2007, pp1805-1813[15] W. B. Frakes, R. Baeza-Yates. Information Retrieval Data

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!