基于文档主题结构的关键è¯Â抽å–方法研究
基于文档主题结构的关键è¯Â抽å–方法研究
基于文档主题结构的关键è¯Â抽å–方法研究
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
基 于 文 档 主 题 结 构 的 关 键 词 抽 取<br />
方 法 研 究<br />
答 辩 人 : 刘 知 远<br />
导<br />
师 : 孙 茂 松 教 授<br />
2011 年 6 月 12 日
报 告 摘 要<br />
• 选 题 背 景 和 意 义<br />
• 文 献 综 述<br />
• 研 究 内 容<br />
• 研 究 总 结<br />
• 未 来 工 作 与 展 望
问 题 描 述 - 关 键 词 自 动 标 注<br />
• 定 义 : 选 取 若 干 关 键 词 概 括 文 档 主 题 内 容<br />
新 闻 、 学 术 论 文<br />
社 会 化 标 注
文 献 综 述 - 关 键 词 标 注 方 式<br />
关 键 词 抽 取<br />
关 键 词 标 注<br />
关 键 词 分 配<br />
社 会 化 标 注
文 献 综 述 - 关 键 词 抽 取 方 法<br />
关 键 词 抽 取<br />
有 监 督<br />
无 监 督<br />
二 分 类<br />
多 分 类<br />
词 频<br />
图 方 法
文 献 综 述 - 有 监 督 方 法<br />
• 转 化 为 二 分 类 问 题<br />
▫ 判 断 某 个 候 选 关 键 词 是 否 为 关 键 词<br />
▫ Frank 1999 采 用 朴 素 贝 叶 斯 分 类 器<br />
▫ Turney 2000 采 用 C4.5 决 策 树 分 类 器<br />
• 转 化 为 多 分 类 问 题<br />
▫ 文 本 分 类 问 题<br />
▫ 受 控 词 表 作 为 候 选 关 键 词 集 合 ( 分 类 标 签 )<br />
人 工 标 注 训 练 数 据 费 时 费 力 不 适 用 于 网 络 时 代
文 献 综 述 - 无 监 督 方 法<br />
• 词 频<br />
▫ 基 于 TFIDF 及 其 变 形 对 候 选 关 键 词 进 行 排 序<br />
D<br />
TFIDF w = tf w ∙ log 2<br />
*df w +<br />
• 图 方 法<br />
▫ Rada 2004: PageRank TextRank<br />
▫ Litvak and Last 2007: HITS<br />
TFIDF:<br />
仅 考 虑 词 自 身 频 度<br />
TextRank:<br />
考 虑 文 档 内 词 间 语 义 关 系
文 献 综 述 - TextRank<br />
构 建 词 网<br />
PageRank<br />
选 取 排 序 最 高<br />
的 词 为 关 键 词<br />
• R(w): w 的 PageRank 值<br />
• O(w): w 的 出 度<br />
• e(w j , w i ): w j → w i 边 上 的 权 重<br />
• V: 节 点 集 合<br />
• λ: 平 滑 因 子
研 究 问 题<br />
• 关 键 词 应 具 备 特 点<br />
▫ 相 关 性 , 可 读 性 , 覆 盖 性<br />
▫ 关 键 词 与 文 档 主 题 保 持 一 致 性<br />
• 在 关 键 词 抽 取 中 考 虑 对 文 档 主 题 的 覆 盖 性<br />
▫ 一 个 文 档 往 往 有 多 个 主 题<br />
▫ 现 有 方 法 没 有 提 供 机 制 对 主 题 进 行 较 好 覆 盖<br />
• 解 决 文 档 与 关 键 词 间 的 词 汇 差 异 问 题<br />
▫ 许 多 关 键 词 在 文 档 中 频 度 较 低 、 甚 至 没 有 出 现<br />
• “machine transliteration” vs “machine translation”<br />
• “iPad” vs “Apple”
研 究 思 路<br />
• 对 文 档 主 题 结 构 进 行 建 模 , 幵 用 于 提 高 关 键 词 抽<br />
取 的 覆 盖 性<br />
▫ 利 用 文 档 内 部 信 息 构 造 文 档 主 题<br />
▫ 利 用 文 档 外 部 信 息 构 造 文 档 主 题<br />
▫ 结 合 文 档 内 部 、 外 部 信 息<br />
• 利 用 无 标 注 文 档 集 中 的 文 档 与 关 键 词 的 主 题 一 致<br />
性 , 解 决 文 档 与 关 键 词 的 词 汇 差 异
研 究 内 容<br />
1. 通 过 文 档 词 聚 类 构 建 主 题 进 行 关 键 词 抽 取<br />
2. 利 用 隐 含 主 题 构 建 主 题 进 行 关 键 词 抽 取<br />
3. 综 合 利 用 隐 含 主 题 和 文 档 结 构 进 行 关 键 词 抽 取<br />
4. 利 用 机 器 翻 译 弥 合 词 汇 差 异 进 行 关 键 词 抽 取<br />
5. 关 键 词 抽 取 的 典 型 应 用
研 究 动 机 与 方 法<br />
• 动 机 : 利 用 文 档 内 部 信<br />
息 对 文 档 主 题 进 行 建 模<br />
• 方 法<br />
▫ 在 文 档 中 选 取 候 选 关 键<br />
词<br />
▫ 计 算 候 选 关 键 词 乊 间 的<br />
语 义 相 似 度<br />
▫ 对 文 档 中 的 词 进 行 聚 类<br />
▫ 在 每 个 聚 类 中 选 取 聚 类<br />
中 心 (exemplar) 扩 展<br />
出 关 键 词
算 法 细 节<br />
• 候 选 关 键 词 相 似 度 度 量<br />
▫ 基 于 同 现 关 系 的 相 似 度<br />
▫ 基 于 维 基 百 科 的 相 似 度<br />
• Cosine,Euclid,PMI,NGD<br />
• 聚 类 方 法 选 取<br />
▫ 层 次 聚 类 (hierarchical clustering)<br />
▫ 谱 聚 类 (spectral clustering)<br />
▫ 消 息 传 递 聚 类 (Affinity Propagation)
实 验 结 果<br />
• 数 据 集 合 :Hulth 论 文 摘 要<br />
• 参 数 影 响
实 验 结 果<br />
• 与 其 他 算 法 的 比 较<br />
• 举 例
小 结<br />
• 提 出 了 利 用 聚 类 对 文 档 内 部 主 题 结 构 建 模 的 关 键<br />
词 抽 取 算 法<br />
• 对 比 了 不 同 的 相 似 度 度 量 算 法 、 聚 类 算 法<br />
• 较 好 地 实 现 推 荐 关 键 词 的 覆 盖 性<br />
• 问 题<br />
▫ 不 同 聚 类 个 数 较 大 地 影 响 关 键 词 抽 取 效 果<br />
▫ 仅 利 用 文 档 内 部 信 息 受 到 较 大 局 限<br />
Zhiyuan Liu, Peng Li, Yabin Zheng, Maosong Sun. Clustering to Find Exemplar Terms for<br />
Keyphrase Extraction. The Conference on Empirical Methods in Natural Language<br />
Processing (EMNLP), 2009.
隐 含 主 题 模 型<br />
• 对 文 档 主 题 进 行 建 模 的 无 监 督 学 习 模 型<br />
▫ 由 用 户 指 定 隐 含 主 题 个 数<br />
▫ 根 据 大 规 模 文 档 集 合 中 学 习<br />
▫ 每 个 主 题 是 在 词 上 的 分 布<br />
▫ 每 个 词 和 文 档 都 可 以 表 示 为 主 题 上 的 分 布<br />
• 常 见 隐 含 主 题 模 型<br />
▫ Latent Semantic Analysis (LSA/LSI)<br />
▫ Probabilistic LSA (pLSA)<br />
▫ Latent Dirichlet allocation (LDA)
隐 含 主 题 模 型 示 例
利 用 隐 含 主 题 模 型 进 行 关 键 词 抽 取<br />
• 文 档 的 主 题 分 布 :P(z|d)<br />
• 词 的 主 题 分 布 :P(z|w)<br />
• 通 过 多 种 方 式 度 量 其 语 义 关 系<br />
▫ Cosine similarity<br />
▫ KL-divergence<br />
▫ P w d = z P w z P(z|d)<br />
• 存 在 问 题<br />
▫ LDA 运 算 复 杂 度 较 高 , 在 大 规 模 数 据 集 合 上 运 行 速<br />
度 较 慢<br />
▫ 解 决 方 案 : 幵 行 化
隐 含 主 题 模 型 的 幵 行 研 究<br />
• LDA 的 已 有 幵 行 算 法<br />
▫ Approximate Distributed LDA (AD-LDA)<br />
▫ Asynchronous LDA(AS-LDA)<br />
• 主 要 问 题<br />
▫ 内 存 瓶 颈 : 要 求 主 题 模 型 (W × K) 保 存 于 每 台 机<br />
器 内 存<br />
▫ 通 信 瓶 颈 : 要 求 每 次 迭 代 机 器 间 都 要 交 互 整 个 主 题<br />
模 型
PLDA+ 算 法<br />
• 机 器 分 为 两 种 功 能 :<br />
▫ 一 部 分 机 器 用 于 维 护 训 练 文 档<br />
▫ 一 部 分 机 器 用 于 维 护 主 题 模 型
PLDA+ 算 法<br />
当 网 络 不 稳 定 时 , 可 能 会 有 部 分 请 求 不 会 被 响<br />
应 , 超 过 一 定 时 间 后 会 被 丢 弃 。 我 们 称 平 均 被<br />
丢 弃 的 请 求 比 例 为 missing ratio δ。
实 验 效 果 - 维 基 百 科 (2 万 词 汇 )
实 验 效 果 - 维 基 百 科 (20 万 词 汇 )
小 结<br />
• 通 过 PLDA+ 有 效 解 决 了 通 信 瓶 颈 和 内 存 瓶 颈 , 使<br />
得 LDA 得 到 2000+ 以 上 的 加 速<br />
• 下 面 展 示 利 用 隐 含 主 题 模 型 进 行 关 键 词 抽 取 的 效<br />
果<br />
Zhiyuan Liu, Yuzhou Zhang, Edward Y. Chang, Maosong Sun. PLDA+: Parallel Latent<br />
Dirichlet Allocation with Data Placement and Pipeline Processing. ACM Transactions on<br />
Intelligent Systems and Technology (ACM TIST), 2010.
LDA 进 行 关 键 词 抽 取 效 果<br />
• 在 NEWS 数 据 集 合 上 推 荐 10 个 关 键 词 的 效 果<br />
• 在 RESEARCH 数 据 集 合 上 推 荐 5 个 关 键 词 的 效 果
研 究 思 路<br />
• 前 述 工 作<br />
▫ LDA: 利 用 隐 含 主 题 模 型 发 现 文 档 主 题<br />
▫ TextRank: 利 用 文 档 内 部 结 构 信 息<br />
• 综 合 考 虑 文 档 主 题 和 内 部 结 构 进 行 关 键 词 抽 取<br />
▫ Topical-PageRank(TPR)
研 究 方 法
研 究 方 法<br />
e(w j , w i<br />
R z (w i ) = λ<br />
R z (w j ) + (1 − λ)p z w i<br />
O(w j<br />
j:w j →w i<br />
• p z w i = P(w|z) , probability of word w given topic z.<br />
• p z w i = P(z|w) , probability of word z given topic w.<br />
• p z w i = P(w|z) × P(z|w) , product of hub and authority.
研 究 方 法<br />
Candidate Phrases noun phrases (Hulth, 2003)<br />
(adjective)*(noun)+<br />
Doc topic distribution P(z|d) for each topic z<br />
K<br />
Phrase Score R p = R z (p) ×<br />
z=1<br />
P z d
示 例<br />
(a) Topic on “Terrorism”<br />
(b) Topic on “Israel”<br />
(c) Topic on “U.S.”<br />
(d) TPR Result
实 验<br />
• 实 验 数 据<br />
• 新 闻 数 据 : 308 篇 , 来 自 DUC2001<br />
• 论 文 摘 要 : 2,000 篇 , 来 自 (Hulth, 2003)<br />
• 评 价 指 标<br />
• precision, recall, F-measure<br />
p = C correct<br />
, r = C correct<br />
, f = 2pr<br />
C extract C standard p + r<br />
• binary preference measure (Bpref)<br />
Bpref = 1 n ranked higher than r<br />
1 −<br />
R<br />
M<br />
r∈R<br />
• mean reciprocal rank (MRR)<br />
MRR =<br />
1 D<br />
d∈D<br />
1<br />
rank d
参 数 影 响<br />
新 闻 数 据 上 LDA 主 题 个 数 K 影 响 ( 推 荐 M = 10 个 关 键 词 )
参 数 影 响<br />
新 闻 数 据 上 λ = 0.1, 0.3, 0.5, 0.7 and 0.9 的 影 响
不 同 偏 好 参 数 设 置 的 影 响<br />
新 闻 数 据 上 不 同 偏 好 设 置 的 影 响 ( 推 荐 M = 10 个 关 键 词 )
与 其 他 方 法 比 较<br />
在 论 文 摘 要 数 据 上 的 比 较 (M = 10)
与 其 他 方 法 比 较<br />
在 论 文 摘 要 数 据 上 的 比 较 (M = 5)
与 其 他 方 法 比 较<br />
在 新 闻 数 据 上 ,M 从 1 到 20 变 化<br />
在 论 文 摘 要 数 据 上 ,M 从 1 到 10 变 化
小 结<br />
• LDA 通 过 文 档 主 题 进 行 关 键 词 抽 取 , 因 此 取 得 较<br />
TFIDF、TextRank 较 优 的 结 果<br />
• TPR 综 合 了 TextRank 和 LDA 的 优 点 , 在 两 个 数 据 集<br />
合 上 都 表 现 出 了 它 的 优 势<br />
• 由 于 TPR 可 以 按 照 主 题 推 荐 关 键 词 , 因 此 可 以 用<br />
于 文 档 可 视 化 , 也 可 以 用 来 进 行 查 询 导 向 (query<br />
focused) 的 关 键 词 抽 取<br />
Zhiyuan Liu, Wenyi Huang, Yabin Zheng, Maosong Sun. Automatic Keyphrase Extraction<br />
via Topic Decomposition. The Conference on Empirical Methods in Natural Language<br />
Processing (EMNLP), 2010.
研 究 问 题<br />
• 文 档 和 关 键 词 都 是 对 同 一 事 物 的 描 述<br />
▫ 主 题 一 致 , 词 汇 差 异<br />
• 词 汇 差 异 的 表 现<br />
▫ 很 多 关 键 词 在 文 档 中 出 现 次 数 不 高<br />
▫ 有 的 关 键 词 在 文 档 中 根 本 没 有 出 现 ( 尤 其 是 短 文 本 )<br />
• 问 题<br />
▫ TFIDF、TextRank 及 其 扩 展 、LDA 等 方 法 均 没 有 很 好<br />
解 决 词 汇 差 异 问 题
相 关 工 作<br />
• TextRank 的 扩 展 ExpandRank<br />
▫ 在 构 建 词 网 时 , 同 时 考 虑 文 档 的 近 邻 文 档<br />
▫ 从 “ 文 档 层 次 (document level)” 利 用 外 部 信 息<br />
▫ 容 易 引 入 噪 音<br />
• LDA<br />
▫ 通 过 主 题 分 布 的 相 似 度 来 对 候 选 关 键 词 排 序<br />
▫ 从 “ 主 题 层 次 (topic level)” 利 用 外 部 信 息<br />
▫ 由 于 主 题 一 般 是 粗 粒 度 的<br />
• 倾 向 于 推 荐 普 通 词<br />
• 容 易 发 生 主 题 漂 移
研 究 思 路<br />
• 在 “ 词 汇 层 次 (word level)” 利 用 外 部 信 息<br />
• 文 档 和 关 键 词 是 对 同 一 事 物 的 描 述<br />
• 关 键 词 抽 取 问 题 翻 译 问 题<br />
事 物<br />
文 档<br />
翻 译<br />
关 键 词
研 究 方 法<br />
• 构 建 翻 译 对 (translation pairs)<br />
• 学 习 两 种 语 言 间 词 汇 的 翻 译 概 率 (translation<br />
probabilities)P(w k |w d )<br />
▫ 利 用 SMT 中 的 词 对 齐 (word alignment) 算 法<br />
• 给 一 个 新 的 文 档 d<br />
▫ 计 算 每 个 候 选 关 键 词 p 的 似 然 概 率<br />
P p d = P w i |w j P(w j |d)<br />
i∈p<br />
j∈d<br />
▫ 按 照 候 选 关 键 词 的 值 进 行 排 序
研 究 方 法 - 构 建 翻 译 对 集 合<br />
• 将 文 档 标 题 或 摘 要 看 作 近 似 用 关 键 词 语 言 写 成<br />
▫ 大 部 分 文 档 有 标 题 或 摘 要 信 息<br />
▫ 将 标 题 / 摘 要 与 文 档 正 文 形 成 翻 译 对<br />
• 问 题<br />
▫ 摘 要 、 文 档 往 往 较 长<br />
• 直 接 使 用 词 对 齐 算 法 效 率 较 低 、 效 果 较 差<br />
▫ 没 有 标 题 / 摘 要 的 时 候 怎 么 办
研 究 方 法 - 构 建 翻 译 对 集 合<br />
• 给 定 标 题 和 文 档 , 提 出 两 种 构 建 翻 译 对 的 办 法<br />
▫ 采 样 法 (sampling): 将 较 长 的 文 档 进 行 抽 样 , 直<br />
到 与 标 题 长 度 一 致<br />
• 基 于 词 在 文 档 中 的 重 要 性 (TFIDF) 进 行 采 样<br />
▫ 分 割 法 (split): 将 较 长 文 档 划 分 为 句 子 , 用 每 句<br />
话 与 标 题 构 成 一 个 翻 译 对<br />
• 只 有 句 子 与 标 题 乊 间 相 似 度 大 于 某 个 阈 值 δ 才 放 入 训<br />
练 集
研 究 方 法 - 构 建 翻 译 对 集 合<br />
• 当 没 有 标 题 或 摘 要 , 从 文 档 正 文 中 选 择 重 要 的 句<br />
子 来 与 正 文 构 成 翻 译 对<br />
▫ 选 择 文 档 第 一 句 话<br />
▫ 选 择 与 文 档 最 相 关 的 一 句 话
实 验 设 置<br />
• 词 对 齐 算 法 采 用 IBM Model-1 的 工 具 GIZA++<br />
• 在 13,702 篇 中 文 新 闻 上 进 行 试 验
实 验 结 果
实 验 结 果
实 验 结 果 - 阈 值 δ 的 影 响
实 验 结 果 - 抽 取 重 要 句 子 构 建 翻 译 对
实 验 结 果 - 关 键 词 生 成 (keyword Generation)<br />
• 在 测 试 时 , 只 能 够 根 据 新 闻 标 题 产 生 关 键 词
方 法<br />
实 验 结 果 - 关 键 词 生 成 举 例<br />
• 文 档 题 目 :“ 以 军 方 称 伊 朗 能 造 核 弹 可 能 据 此 对<br />
伊 朗 动 武 ”<br />
推 荐 关 键 词<br />
标 准 答 案 " 核 武 器 "," 以 色 列 "," 伊 朗 "<br />
SMT " 伊 朗 "," 动 武 "," 以 军 "," 以 色 列 "," 军 事 "," 核 武 器 "<br />
TFIDF " 伊 朗 "," 动 武 "," 核 弹 "," 以 军 "," 据 此 “<br />
TextRank " 伊 朗 "," 可 能 "," 据 此 "," 核 弹 "," 动 武 "<br />
LDA " 伊 朗 "," 美 国 "," 谈 判 "," 以 色 列 "," 制 裁 "<br />
ExpandRank " 伊 朗 "," 以 色 列 "," 黎 巴 嫩 "," 美 国 "," 以 军 "
小 结<br />
• 机 器 翻 译 技 术 可 以 有 效 解 决 词 汇 差 异 问 题<br />
▫ 推 荐 更 符 合 文 档 主 题 的 关 键 词<br />
▫ 甚 至 能 够 胜 任 关 键 词 生 成 任 务<br />
• 标 题 / 摘 要 与 文 档 能 够 构 建 高 质 量 的 翻 译 对<br />
▫ 对 于 新 闻 文 档 而 言 , 正 文 第 一 句 也 可 以 用 来 构 建 高<br />
质 量 翻 译 对<br />
Zhiyuan Liu, Xinxiong Chen, Yabin Zheng, Maosong Sun. Automatic Keyphrase Extraction<br />
by Bridging Vocabulary Gap. The 15th Conference on Computational Natural Language<br />
Learning (CoNLL'11).
应 用 简 介<br />
• 以 新 浪 微 博 为 平 台<br />
• 利 用 关 键 词 抽 取 技 术 获 取 用 户 发 表 微 博 的 关 键 词<br />
• 应 用 前 景<br />
▫ 发 现 和 建 模 用 户 兴 趣<br />
▫ 为 用 户 乊 间 链 接 赋 予 更 丰 富 信 息<br />
▫ 推 荐 用 户 感 兴 趣 的 产 品 、 信 息 和 好 友 等<br />
▫ 具 有 广 阔 的 商 业 前 景
应 用 界 面
关 键 词 抽 取 举 例 - 我 的 微 博 关 键 词
关 键 词 抽 取 举 例 - 马 少 平 老 师 的 微 博 关 键 词
关 键 词 抽 取 举 例 -MSRA 的 微 博 关 键 词
应 用 使 用 情 况 - 接 口 调 用 数<br />
350000<br />
300000<br />
250000<br />
200000<br />
150000<br />
100000<br />
50000<br />
0<br />
5 月 25 日 5 月 26 日 5 月 27 日 5 月 28 日 5 月 29 日<br />
5 月 25 日 5 月 26 日 5 月 27 日 5 月 28 日 5 月 29 日<br />
接 口 调 用 数 15201 274089 260023 237878 303315
应 用 使 用 情 况 - 使 用 用 户 量<br />
30000<br />
25000<br />
20000<br />
15000<br />
10000<br />
5000<br />
0<br />
5 月 25 日 5 月 26 日 5 月 27 日 5 月 28 日 5 月 29 日<br />
5 月 25 日 5 月 26 日 5 月 27 日 5 月 28 日 5 月 29 日<br />
使 用 用 户 量 526 24047 22826 19599 24273
应 用 使 用 情 况 - 新 增 用 户 数<br />
30000<br />
25000<br />
20000<br />
15000<br />
10000<br />
5000<br />
0<br />
5 月 25 日 5 月 26 日 5 月 27 日 5 月 28 日 5 月 29 日<br />
5 月 25 日 5 月 26 日 5 月 27 日 5 月 28 日 5 月 29 日<br />
新 增 用 户 数 501 23964 21043 17448 21381
应 用 使 用 情 况 - 统 计 概 览 (5.25-5.29)<br />
接 口 调 用 总 次 数 最 近 一 周 总 用 户 量 最 近 一 个 月 总 用 户 量 累 计 总 用 户 量<br />
1099,979 84,427 84,626 84,626<br />
小 结<br />
• 系 统 受 到 了 微 博 用 户 的 普 遍 认 可<br />
• 微 博 关 键 词 抽 取 系 统 验 证 了 本 文 对 于 基 于 文 档 主<br />
题 结 构 关 键 词 抽 取 研 究 的 有 效 性<br />
• 不 足 : 交 互 机 制
研 究 总 结<br />
• 利 用 文 档 主 题 结 构 对 关 键 词 抽 取 覆 盖 度 的 作 用 进 行 了<br />
深 入 研 究<br />
▫ 通 过 文 档 内 词 聚 类 构 建 文 档 主 题<br />
▫ 通 过 隐 含 主 题 模 型 构 建 文 档 主 题<br />
• 提 出 隐 含 主 题 模 型 的 高 效 幵 行 算 法<br />
▫ 综 合 考 虑 隐 含 主 题 和 文 档 结 构<br />
• 以 文 档 - 关 键 词 主 题 一 致 性 为 基 础 , 提 出 基 于 机 器 翻<br />
译 模 型 的 算 法 , 解 决 关 键 词 抽 取 的 词 汇 差 异 问 题<br />
• 以 该 研 究 为 基 础 的 微 博 关 键 词 抽 取 系 统 在 新 浪 微 博 上<br />
取 得 成 功
未 来 工 作 与 展 望<br />
• 实 现 一 个 高 效 实 用 的 ( 中 文 ) 关 键 词 抽 取 系 统<br />
• 关 键 词 抽 取 在 社 会 标 签 自 动 推 荐 中 的 应 用<br />
▫ 解 决 冷 启 动 问 题 : 新 标 签 、 新 对 象 、 新 用 户<br />
• 关 键 词 抽 取 在 Web 数 据 中 的 应 用<br />
▫ 用 户 兴 趣 建 模 和 基 于 内 容 的 推 荐 系 统<br />
▫ 趋 势 检 测 和 分 析
主 要 发 表 论 文<br />
1. Zhiyuan Liu, Xinxiong Chen, Maosong Sun. A Simple Word Trigger Method<br />
for Social Tag Suggestion. The Conference on Empirical Methods in Natural<br />
Language Processing (EMNLP), 2011.<br />
2. Zhiyuan Liu, Xinxiong Chen, Yabin Zheng, Maosong Sun. Automatic<br />
Keyphrase Extraction by Bridging Vocabulary Gap. The 15th Conference on<br />
Computational Natural Language Learning (CoNLL), 2011.<br />
3. Zhiyuan Liu, Yabin Zheng, Lixing Xie, Maosong Sun, Liyun Ru. User<br />
Behaviors in Related Word Retrieval and New Word Detection: A Collaborative<br />
Perspective. ACM Transactions on Asian Language Information Processing<br />
(ACM TALIP) (Special Issue on Chinese Language Processing), 2011.<br />
4. Zhiyuan Liu, Yuzhou Zhang, Edward Y. Chang, Maosong Sun. PLDA+: Parallel<br />
Latent Dirichlet Allocation with Data Placement and Pipeline Processing. ACM<br />
Transactions on Intelligent Systems and Technology (ACM TIST), 2010.<br />
5. Zhiyuan Liu, Wenyi Huang, Yabin Zheng, Maosong Sun. Automatic Keyphrase<br />
Extraction via Topic Decomposition. The Conference on Empirical Methods in<br />
Natural Language Processing (EMNLP), 2010.<br />
6. Zhiyuan Liu, Peng Li, Yabin Zheng, Maosong Sun. Clustering to Find<br />
Exemplar Terms for Keyphrase Extraction. The Conference on Empirical<br />
Methods in Natural Language Processing (EMNLP), 2009.
主 要 发 表 论 文<br />
7. Zhiyuan Liu, Maosong Sun. Domain-Specific Term Rankings Using Topic Models.<br />
The Sixth Asia Information Retrieval Society Conference (AIRS), 2010.<br />
8. Zhiyuan Liu, Chuan Shi, Maosong Sun. FolkDiffusion: A Graph-based Tag<br />
Suggestion Method for Folksonomies. The Sixth Asia Information Retrieval<br />
Society Conference (AIRS), 2010.<br />
8. Zhiyuan Liu, Yabin Zheng, Maosong Sun. Quantifying Asymmetric Semantic<br />
Relations from Query Logs by Resource Allocation. The 13th Pacific-Asia<br />
Conference on Knowledge Discovery and Data Mining (PAKDD), 2009.<br />
9. Zhiyuan Liu, Maosong Sun. Asymmetrical Query Recommendation Method Based<br />
on Network-resource-allocation Dynamics. The 17th International World Wide<br />
Web Conference (WWW), 2008. 刘 知 远 , 郑 亚 斌 , 孙 茂 松 . 汉 语 依 存 句 法 网 络 的<br />
复 杂 网 络 性 质 . 复 杂 系 统 与 复 杂 性 科 学 , Vol. 5, No. 2, pp. 37-45, 2008.<br />
10. 刘 知 远 , 孙 茂 松 . 汉 语 词 同 现 网 络 的 小 世 界 效 应 和 无 标 度 特 性 . 中 文 信 息 学<br />
报 , Vol. 21, No. 6, pp. 52-57, 2007.<br />
11. 刘 知 远 , 司 宪 策 , 郑 亚 斌 , 孙 茂 松 . 中 文 博 客 标 签 的 若 干 统 计 性 质 . 第 七 届 中<br />
文 处 理 国 际 会 议 (ICCC), 2007.<br />
12. 刘 知 远 , 孙 茂 松 . 基 于 WEB 的 计 算 机 领 域 新 术 语 的 自 动 检 测 . 第 九 届 全 国 计 算<br />
语 言 学 学 术 会 议 (CNCCL), 2007.
申 请 专 利<br />
1. 国 内 专 利 . 第 二 发 明 人 . 获 取 新 词 的 方 法 和 装 置 .<br />
申 请 号 : 200910083143.2. 公 开 号 : CN101539940.<br />
2. 国 际 专 利 . 第 二 发 明 人 . Category-Sensitive<br />
Ranking for Text. 申 请 号 : PCT/CN2009/001584.<br />
3. 国 际 专 利 . 第 一 发 明 人 . Parallel Generation of<br />
Topics from Documents. 申 请 中 .
谢 谢 各 位 老 师 ! 请 提 出 宝 贵 意 见 !
LDA 学 习 算 法<br />
• Gibbs Sampling<br />
其 他 位 置 上 的<br />
词 w 的 主 题 分 布<br />
该 文 档 其 他 位 置 上 词<br />
的 主 题 分 布
PLDA+ 算 法<br />
• 基 于 新 结 构 的 Pipeline-based Gibbs Sampling
复 杂 度 分 析
实 验 设 置<br />
• 数 据 集 合
实 验 效 果 -Missing ratio<br />
• Missing ratio 与 迭 代 次 数 和 主 题 个 数 乊 间 的 关 系
NEWS 数 据<br />
• LDA 分 别 在 NEWS 训 练 和 在 Wikipedia 上 训 练
RESEARCH 数 据<br />
• LDA 分 别 在 RESEARCH 训 练 和 在 Wikipedia 上 训 练