16.01.2015 Views

基于文档主题结构的关键词抽取方法研究

基于文档主题结构的关键词抽取方法研究

基于文档主题结构的关键词抽取方法研究

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

基 于 文 档 主 题 结 构 的 关 键 词 抽 取<br />

方 法 研 究<br />

答 辩 人 : 刘 知 远<br />

导<br />

师 : 孙 茂 松 教 授<br />

2011 年 6 月 12 日


报 告 摘 要<br />

• 选 题 背 景 和 意 义<br />

• 文 献 综 述<br />

• 研 究 内 容<br />

• 研 究 总 结<br />

• 未 来 工 作 与 展 望


问 题 描 述 - 关 键 词 自 动 标 注<br />

• 定 义 : 选 取 若 干 关 键 词 概 括 文 档 主 题 内 容<br />

新 闻 、 学 术 论 文<br />

社 会 化 标 注


文 献 综 述 - 关 键 词 标 注 方 式<br />

关 键 词 抽 取<br />

关 键 词 标 注<br />

关 键 词 分 配<br />

社 会 化 标 注


文 献 综 述 - 关 键 词 抽 取 方 法<br />

关 键 词 抽 取<br />

有 监 督<br />

无 监 督<br />

二 分 类<br />

多 分 类<br />

词 频<br />

图 方 法


文 献 综 述 - 有 监 督 方 法<br />

• 转 化 为 二 分 类 问 题<br />

▫ 判 断 某 个 候 选 关 键 词 是 否 为 关 键 词<br />

▫ Frank 1999 采 用 朴 素 贝 叶 斯 分 类 器<br />

▫ Turney 2000 采 用 C4.5 决 策 树 分 类 器<br />

• 转 化 为 多 分 类 问 题<br />

▫ 文 本 分 类 问 题<br />

▫ 受 控 词 表 作 为 候 选 关 键 词 集 合 ( 分 类 标 签 )<br />

人 工 标 注 训 练 数 据 费 时 费 力 不 适 用 于 网 络 时 代


文 献 综 述 - 无 监 督 方 法<br />

• 词 频<br />

▫ 基 于 TFIDF 及 其 变 形 对 候 选 关 键 词 进 行 排 序<br />

D<br />

TFIDF w = tf w ∙ log 2<br />

*df w +<br />

• 图 方 法<br />

▫ Rada 2004: PageRank TextRank<br />

▫ Litvak and Last 2007: HITS<br />

TFIDF:<br />

仅 考 虑 词 自 身 频 度<br />

TextRank:<br />

考 虑 文 档 内 词 间 语 义 关 系


文 献 综 述 - TextRank<br />

构 建 词 网<br />

PageRank<br />

选 取 排 序 最 高<br />

的 词 为 关 键 词<br />

• R(w): w 的 PageRank 值<br />

• O(w): w 的 出 度<br />

• e(w j , w i ): w j → w i 边 上 的 权 重<br />

• V: 节 点 集 合<br />

• λ: 平 滑 因 子


研 究 问 题<br />

• 关 键 词 应 具 备 特 点<br />

▫ 相 关 性 , 可 读 性 , 覆 盖 性<br />

▫ 关 键 词 与 文 档 主 题 保 持 一 致 性<br />

• 在 关 键 词 抽 取 中 考 虑 对 文 档 主 题 的 覆 盖 性<br />

▫ 一 个 文 档 往 往 有 多 个 主 题<br />

▫ 现 有 方 法 没 有 提 供 机 制 对 主 题 进 行 较 好 覆 盖<br />

• 解 决 文 档 与 关 键 词 间 的 词 汇 差 异 问 题<br />

▫ 许 多 关 键 词 在 文 档 中 频 度 较 低 、 甚 至 没 有 出 现<br />

• “machine transliteration” vs “machine translation”<br />

• “iPad” vs “Apple”


研 究 思 路<br />

• 对 文 档 主 题 结 构 进 行 建 模 , 幵 用 于 提 高 关 键 词 抽<br />

取 的 覆 盖 性<br />

▫ 利 用 文 档 内 部 信 息 构 造 文 档 主 题<br />

▫ 利 用 文 档 外 部 信 息 构 造 文 档 主 题<br />

▫ 结 合 文 档 内 部 、 外 部 信 息<br />

• 利 用 无 标 注 文 档 集 中 的 文 档 与 关 键 词 的 主 题 一 致<br />

性 , 解 决 文 档 与 关 键 词 的 词 汇 差 异


研 究 内 容<br />

1. 通 过 文 档 词 聚 类 构 建 主 题 进 行 关 键 词 抽 取<br />

2. 利 用 隐 含 主 题 构 建 主 题 进 行 关 键 词 抽 取<br />

3. 综 合 利 用 隐 含 主 题 和 文 档 结 构 进 行 关 键 词 抽 取<br />

4. 利 用 机 器 翻 译 弥 合 词 汇 差 异 进 行 关 键 词 抽 取<br />

5. 关 键 词 抽 取 的 典 型 应 用


研 究 动 机 与 方 法<br />

• 动 机 : 利 用 文 档 内 部 信<br />

息 对 文 档 主 题 进 行 建 模<br />

• 方 法<br />

▫ 在 文 档 中 选 取 候 选 关 键<br />

词<br />

▫ 计 算 候 选 关 键 词 乊 间 的<br />

语 义 相 似 度<br />

▫ 对 文 档 中 的 词 进 行 聚 类<br />

▫ 在 每 个 聚 类 中 选 取 聚 类<br />

中 心 (exemplar) 扩 展<br />

出 关 键 词


算 法 细 节<br />

• 候 选 关 键 词 相 似 度 度 量<br />

▫ 基 于 同 现 关 系 的 相 似 度<br />

▫ 基 于 维 基 百 科 的 相 似 度<br />

• Cosine,Euclid,PMI,NGD<br />

• 聚 类 方 法 选 取<br />

▫ 层 次 聚 类 (hierarchical clustering)<br />

▫ 谱 聚 类 (spectral clustering)<br />

▫ 消 息 传 递 聚 类 (Affinity Propagation)


实 验 结 果<br />

• 数 据 集 合 :Hulth 论 文 摘 要<br />

• 参 数 影 响


实 验 结 果<br />

• 与 其 他 算 法 的 比 较<br />

• 举 例


小 结<br />

• 提 出 了 利 用 聚 类 对 文 档 内 部 主 题 结 构 建 模 的 关 键<br />

词 抽 取 算 法<br />

• 对 比 了 不 同 的 相 似 度 度 量 算 法 、 聚 类 算 法<br />

• 较 好 地 实 现 推 荐 关 键 词 的 覆 盖 性<br />

• 问 题<br />

▫ 不 同 聚 类 个 数 较 大 地 影 响 关 键 词 抽 取 效 果<br />

▫ 仅 利 用 文 档 内 部 信 息 受 到 较 大 局 限<br />

Zhiyuan Liu, Peng Li, Yabin Zheng, Maosong Sun. Clustering to Find Exemplar Terms for<br />

Keyphrase Extraction. The Conference on Empirical Methods in Natural Language<br />

Processing (EMNLP), 2009.


隐 含 主 题 模 型<br />

• 对 文 档 主 题 进 行 建 模 的 无 监 督 学 习 模 型<br />

▫ 由 用 户 指 定 隐 含 主 题 个 数<br />

▫ 根 据 大 规 模 文 档 集 合 中 学 习<br />

▫ 每 个 主 题 是 在 词 上 的 分 布<br />

▫ 每 个 词 和 文 档 都 可 以 表 示 为 主 题 上 的 分 布<br />

• 常 见 隐 含 主 题 模 型<br />

▫ Latent Semantic Analysis (LSA/LSI)<br />

▫ Probabilistic LSA (pLSA)<br />

▫ Latent Dirichlet allocation (LDA)


隐 含 主 题 模 型 示 例


利 用 隐 含 主 题 模 型 进 行 关 键 词 抽 取<br />

• 文 档 的 主 题 分 布 :P(z|d)<br />

• 词 的 主 题 分 布 :P(z|w)<br />

• 通 过 多 种 方 式 度 量 其 语 义 关 系<br />

▫ Cosine similarity<br />

▫ KL-divergence<br />

▫ P w d = z P w z P(z|d)<br />

• 存 在 问 题<br />

▫ LDA 运 算 复 杂 度 较 高 , 在 大 规 模 数 据 集 合 上 运 行 速<br />

度 较 慢<br />

▫ 解 决 方 案 : 幵 行 化


隐 含 主 题 模 型 的 幵 行 研 究<br />

• LDA 的 已 有 幵 行 算 法<br />

▫ Approximate Distributed LDA (AD-LDA)<br />

▫ Asynchronous LDA(AS-LDA)<br />

• 主 要 问 题<br />

▫ 内 存 瓶 颈 : 要 求 主 题 模 型 (W × K) 保 存 于 每 台 机<br />

器 内 存<br />

▫ 通 信 瓶 颈 : 要 求 每 次 迭 代 机 器 间 都 要 交 互 整 个 主 题<br />

模 型


PLDA+ 算 法<br />

• 机 器 分 为 两 种 功 能 :<br />

▫ 一 部 分 机 器 用 于 维 护 训 练 文 档<br />

▫ 一 部 分 机 器 用 于 维 护 主 题 模 型


PLDA+ 算 法<br />

当 网 络 不 稳 定 时 , 可 能 会 有 部 分 请 求 不 会 被 响<br />

应 , 超 过 一 定 时 间 后 会 被 丢 弃 。 我 们 称 平 均 被<br />

丢 弃 的 请 求 比 例 为 missing ratio δ。


实 验 效 果 - 维 基 百 科 (2 万 词 汇 )


实 验 效 果 - 维 基 百 科 (20 万 词 汇 )


小 结<br />

• 通 过 PLDA+ 有 效 解 决 了 通 信 瓶 颈 和 内 存 瓶 颈 , 使<br />

得 LDA 得 到 2000+ 以 上 的 加 速<br />

• 下 面 展 示 利 用 隐 含 主 题 模 型 进 行 关 键 词 抽 取 的 效<br />

果<br />

Zhiyuan Liu, Yuzhou Zhang, Edward Y. Chang, Maosong Sun. PLDA+: Parallel Latent<br />

Dirichlet Allocation with Data Placement and Pipeline Processing. ACM Transactions on<br />

Intelligent Systems and Technology (ACM TIST), 2010.


LDA 进 行 关 键 词 抽 取 效 果<br />

• 在 NEWS 数 据 集 合 上 推 荐 10 个 关 键 词 的 效 果<br />

• 在 RESEARCH 数 据 集 合 上 推 荐 5 个 关 键 词 的 效 果


研 究 思 路<br />

• 前 述 工 作<br />

▫ LDA: 利 用 隐 含 主 题 模 型 发 现 文 档 主 题<br />

▫ TextRank: 利 用 文 档 内 部 结 构 信 息<br />

• 综 合 考 虑 文 档 主 题 和 内 部 结 构 进 行 关 键 词 抽 取<br />

▫ Topical-PageRank(TPR)


研 究 方 法


研 究 方 法<br />

e(w j , w i<br />

R z (w i ) = λ<br />

R z (w j ) + (1 − λ)p z w i<br />

O(w j<br />

j:w j →w i<br />

• p z w i = P(w|z) , probability of word w given topic z.<br />

• p z w i = P(z|w) , probability of word z given topic w.<br />

• p z w i = P(w|z) × P(z|w) , product of hub and authority.


研 究 方 法<br />

Candidate Phrases noun phrases (Hulth, 2003)<br />

(adjective)*(noun)+<br />

Doc topic distribution P(z|d) for each topic z<br />

K<br />

Phrase Score R p = R z (p) ×<br />

z=1<br />

P z d


示 例<br />

(a) Topic on “Terrorism”<br />

(b) Topic on “Israel”<br />

(c) Topic on “U.S.”<br />

(d) TPR Result


实 验<br />

• 实 验 数 据<br />

• 新 闻 数 据 : 308 篇 , 来 自 DUC2001<br />

• 论 文 摘 要 : 2,000 篇 , 来 自 (Hulth, 2003)<br />

• 评 价 指 标<br />

• precision, recall, F-measure<br />

p = C correct<br />

, r = C correct<br />

, f = 2pr<br />

C extract C standard p + r<br />

• binary preference measure (Bpref)<br />

Bpref = 1 n ranked higher than r<br />

1 −<br />

R<br />

M<br />

r∈R<br />

• mean reciprocal rank (MRR)<br />

MRR =<br />

1 D<br />

d∈D<br />

1<br />

rank d


参 数 影 响<br />

新 闻 数 据 上 LDA 主 题 个 数 K 影 响 ( 推 荐 M = 10 个 关 键 词 )


参 数 影 响<br />

新 闻 数 据 上 λ = 0.1, 0.3, 0.5, 0.7 and 0.9 的 影 响


不 同 偏 好 参 数 设 置 的 影 响<br />

新 闻 数 据 上 不 同 偏 好 设 置 的 影 响 ( 推 荐 M = 10 个 关 键 词 )


与 其 他 方 法 比 较<br />

在 论 文 摘 要 数 据 上 的 比 较 (M = 10)


与 其 他 方 法 比 较<br />

在 论 文 摘 要 数 据 上 的 比 较 (M = 5)


与 其 他 方 法 比 较<br />

在 新 闻 数 据 上 ,M 从 1 到 20 变 化<br />

在 论 文 摘 要 数 据 上 ,M 从 1 到 10 变 化


小 结<br />

• LDA 通 过 文 档 主 题 进 行 关 键 词 抽 取 , 因 此 取 得 较<br />

TFIDF、TextRank 较 优 的 结 果<br />

• TPR 综 合 了 TextRank 和 LDA 的 优 点 , 在 两 个 数 据 集<br />

合 上 都 表 现 出 了 它 的 优 势<br />

• 由 于 TPR 可 以 按 照 主 题 推 荐 关 键 词 , 因 此 可 以 用<br />

于 文 档 可 视 化 , 也 可 以 用 来 进 行 查 询 导 向 (query<br />

focused) 的 关 键 词 抽 取<br />

Zhiyuan Liu, Wenyi Huang, Yabin Zheng, Maosong Sun. Automatic Keyphrase Extraction<br />

via Topic Decomposition. The Conference on Empirical Methods in Natural Language<br />

Processing (EMNLP), 2010.


研 究 问 题<br />

• 文 档 和 关 键 词 都 是 对 同 一 事 物 的 描 述<br />

▫ 主 题 一 致 , 词 汇 差 异<br />

• 词 汇 差 异 的 表 现<br />

▫ 很 多 关 键 词 在 文 档 中 出 现 次 数 不 高<br />

▫ 有 的 关 键 词 在 文 档 中 根 本 没 有 出 现 ( 尤 其 是 短 文 本 )<br />

• 问 题<br />

▫ TFIDF、TextRank 及 其 扩 展 、LDA 等 方 法 均 没 有 很 好<br />

解 决 词 汇 差 异 问 题


相 关 工 作<br />

• TextRank 的 扩 展 ExpandRank<br />

▫ 在 构 建 词 网 时 , 同 时 考 虑 文 档 的 近 邻 文 档<br />

▫ 从 “ 文 档 层 次 (document level)” 利 用 外 部 信 息<br />

▫ 容 易 引 入 噪 音<br />

• LDA<br />

▫ 通 过 主 题 分 布 的 相 似 度 来 对 候 选 关 键 词 排 序<br />

▫ 从 “ 主 题 层 次 (topic level)” 利 用 外 部 信 息<br />

▫ 由 于 主 题 一 般 是 粗 粒 度 的<br />

• 倾 向 于 推 荐 普 通 词<br />

• 容 易 发 生 主 题 漂 移


研 究 思 路<br />

• 在 “ 词 汇 层 次 (word level)” 利 用 外 部 信 息<br />

• 文 档 和 关 键 词 是 对 同 一 事 物 的 描 述<br />

• 关 键 词 抽 取 问 题 翻 译 问 题<br />

事 物<br />

文 档<br />

翻 译<br />

关 键 词


研 究 方 法<br />

• 构 建 翻 译 对 (translation pairs)<br />

• 学 习 两 种 语 言 间 词 汇 的 翻 译 概 率 (translation<br />

probabilities)P(w k |w d )<br />

▫ 利 用 SMT 中 的 词 对 齐 (word alignment) 算 法<br />

• 给 一 个 新 的 文 档 d<br />

▫ 计 算 每 个 候 选 关 键 词 p 的 似 然 概 率<br />

P p d = P w i |w j P(w j |d)<br />

i∈p<br />

j∈d<br />

▫ 按 照 候 选 关 键 词 的 值 进 行 排 序


研 究 方 法 - 构 建 翻 译 对 集 合<br />

• 将 文 档 标 题 或 摘 要 看 作 近 似 用 关 键 词 语 言 写 成<br />

▫ 大 部 分 文 档 有 标 题 或 摘 要 信 息<br />

▫ 将 标 题 / 摘 要 与 文 档 正 文 形 成 翻 译 对<br />

• 问 题<br />

▫ 摘 要 、 文 档 往 往 较 长<br />

• 直 接 使 用 词 对 齐 算 法 效 率 较 低 、 效 果 较 差<br />

▫ 没 有 标 题 / 摘 要 的 时 候 怎 么 办


研 究 方 法 - 构 建 翻 译 对 集 合<br />

• 给 定 标 题 和 文 档 , 提 出 两 种 构 建 翻 译 对 的 办 法<br />

▫ 采 样 法 (sampling): 将 较 长 的 文 档 进 行 抽 样 , 直<br />

到 与 标 题 长 度 一 致<br />

• 基 于 词 在 文 档 中 的 重 要 性 (TFIDF) 进 行 采 样<br />

▫ 分 割 法 (split): 将 较 长 文 档 划 分 为 句 子 , 用 每 句<br />

话 与 标 题 构 成 一 个 翻 译 对<br />

• 只 有 句 子 与 标 题 乊 间 相 似 度 大 于 某 个 阈 值 δ 才 放 入 训<br />

练 集


研 究 方 法 - 构 建 翻 译 对 集 合<br />

• 当 没 有 标 题 或 摘 要 , 从 文 档 正 文 中 选 择 重 要 的 句<br />

子 来 与 正 文 构 成 翻 译 对<br />

▫ 选 择 文 档 第 一 句 话<br />

▫ 选 择 与 文 档 最 相 关 的 一 句 话


实 验 设 置<br />

• 词 对 齐 算 法 采 用 IBM Model-1 的 工 具 GIZA++<br />

• 在 13,702 篇 中 文 新 闻 上 进 行 试 验


实 验 结 果


实 验 结 果


实 验 结 果 - 阈 值 δ 的 影 响


实 验 结 果 - 抽 取 重 要 句 子 构 建 翻 译 对


实 验 结 果 - 关 键 词 生 成 (keyword Generation)<br />

• 在 测 试 时 , 只 能 够 根 据 新 闻 标 题 产 生 关 键 词


方 法<br />

实 验 结 果 - 关 键 词 生 成 举 例<br />

• 文 档 题 目 :“ 以 军 方 称 伊 朗 能 造 核 弹 可 能 据 此 对<br />

伊 朗 动 武 ”<br />

推 荐 关 键 词<br />

标 准 答 案 " 核 武 器 "," 以 色 列 "," 伊 朗 "<br />

SMT " 伊 朗 "," 动 武 "," 以 军 "," 以 色 列 "," 军 事 "," 核 武 器 "<br />

TFIDF " 伊 朗 "," 动 武 "," 核 弹 "," 以 军 "," 据 此 “<br />

TextRank " 伊 朗 "," 可 能 "," 据 此 "," 核 弹 "," 动 武 "<br />

LDA " 伊 朗 "," 美 国 "," 谈 判 "," 以 色 列 "," 制 裁 "<br />

ExpandRank " 伊 朗 "," 以 色 列 "," 黎 巴 嫩 "," 美 国 "," 以 军 "


小 结<br />

• 机 器 翻 译 技 术 可 以 有 效 解 决 词 汇 差 异 问 题<br />

▫ 推 荐 更 符 合 文 档 主 题 的 关 键 词<br />

▫ 甚 至 能 够 胜 任 关 键 词 生 成 任 务<br />

• 标 题 / 摘 要 与 文 档 能 够 构 建 高 质 量 的 翻 译 对<br />

▫ 对 于 新 闻 文 档 而 言 , 正 文 第 一 句 也 可 以 用 来 构 建 高<br />

质 量 翻 译 对<br />

Zhiyuan Liu, Xinxiong Chen, Yabin Zheng, Maosong Sun. Automatic Keyphrase Extraction<br />

by Bridging Vocabulary Gap. The 15th Conference on Computational Natural Language<br />

Learning (CoNLL'11).


应 用 简 介<br />

• 以 新 浪 微 博 为 平 台<br />

• 利 用 关 键 词 抽 取 技 术 获 取 用 户 发 表 微 博 的 关 键 词<br />

• 应 用 前 景<br />

▫ 发 现 和 建 模 用 户 兴 趣<br />

▫ 为 用 户 乊 间 链 接 赋 予 更 丰 富 信 息<br />

▫ 推 荐 用 户 感 兴 趣 的 产 品 、 信 息 和 好 友 等<br />

▫ 具 有 广 阔 的 商 业 前 景


应 用 界 面


关 键 词 抽 取 举 例 - 我 的 微 博 关 键 词


关 键 词 抽 取 举 例 - 马 少 平 老 师 的 微 博 关 键 词


关 键 词 抽 取 举 例 -MSRA 的 微 博 关 键 词


应 用 使 用 情 况 - 接 口 调 用 数<br />

350000<br />

300000<br />

250000<br />

200000<br />

150000<br />

100000<br />

50000<br />

0<br />

5 月 25 日 5 月 26 日 5 月 27 日 5 月 28 日 5 月 29 日<br />

5 月 25 日 5 月 26 日 5 月 27 日 5 月 28 日 5 月 29 日<br />

接 口 调 用 数 15201 274089 260023 237878 303315


应 用 使 用 情 况 - 使 用 用 户 量<br />

30000<br />

25000<br />

20000<br />

15000<br />

10000<br />

5000<br />

0<br />

5 月 25 日 5 月 26 日 5 月 27 日 5 月 28 日 5 月 29 日<br />

5 月 25 日 5 月 26 日 5 月 27 日 5 月 28 日 5 月 29 日<br />

使 用 用 户 量 526 24047 22826 19599 24273


应 用 使 用 情 况 - 新 增 用 户 数<br />

30000<br />

25000<br />

20000<br />

15000<br />

10000<br />

5000<br />

0<br />

5 月 25 日 5 月 26 日 5 月 27 日 5 月 28 日 5 月 29 日<br />

5 月 25 日 5 月 26 日 5 月 27 日 5 月 28 日 5 月 29 日<br />

新 增 用 户 数 501 23964 21043 17448 21381


应 用 使 用 情 况 - 统 计 概 览 (5.25-5.29)<br />

接 口 调 用 总 次 数 最 近 一 周 总 用 户 量 最 近 一 个 月 总 用 户 量 累 计 总 用 户 量<br />

1099,979 84,427 84,626 84,626<br />

小 结<br />

• 系 统 受 到 了 微 博 用 户 的 普 遍 认 可<br />

• 微 博 关 键 词 抽 取 系 统 验 证 了 本 文 对 于 基 于 文 档 主<br />

题 结 构 关 键 词 抽 取 研 究 的 有 效 性<br />

• 不 足 : 交 互 机 制


研 究 总 结<br />

• 利 用 文 档 主 题 结 构 对 关 键 词 抽 取 覆 盖 度 的 作 用 进 行 了<br />

深 入 研 究<br />

▫ 通 过 文 档 内 词 聚 类 构 建 文 档 主 题<br />

▫ 通 过 隐 含 主 题 模 型 构 建 文 档 主 题<br />

• 提 出 隐 含 主 题 模 型 的 高 效 幵 行 算 法<br />

▫ 综 合 考 虑 隐 含 主 题 和 文 档 结 构<br />

• 以 文 档 - 关 键 词 主 题 一 致 性 为 基 础 , 提 出 基 于 机 器 翻<br />

译 模 型 的 算 法 , 解 决 关 键 词 抽 取 的 词 汇 差 异 问 题<br />

• 以 该 研 究 为 基 础 的 微 博 关 键 词 抽 取 系 统 在 新 浪 微 博 上<br />

取 得 成 功


未 来 工 作 与 展 望<br />

• 实 现 一 个 高 效 实 用 的 ( 中 文 ) 关 键 词 抽 取 系 统<br />

• 关 键 词 抽 取 在 社 会 标 签 自 动 推 荐 中 的 应 用<br />

▫ 解 决 冷 启 动 问 题 : 新 标 签 、 新 对 象 、 新 用 户<br />

• 关 键 词 抽 取 在 Web 数 据 中 的 应 用<br />

▫ 用 户 兴 趣 建 模 和 基 于 内 容 的 推 荐 系 统<br />

▫ 趋 势 检 测 和 分 析


主 要 发 表 论 文<br />

1. Zhiyuan Liu, Xinxiong Chen, Maosong Sun. A Simple Word Trigger Method<br />

for Social Tag Suggestion. The Conference on Empirical Methods in Natural<br />

Language Processing (EMNLP), 2011.<br />

2. Zhiyuan Liu, Xinxiong Chen, Yabin Zheng, Maosong Sun. Automatic<br />

Keyphrase Extraction by Bridging Vocabulary Gap. The 15th Conference on<br />

Computational Natural Language Learning (CoNLL), 2011.<br />

3. Zhiyuan Liu, Yabin Zheng, Lixing Xie, Maosong Sun, Liyun Ru. User<br />

Behaviors in Related Word Retrieval and New Word Detection: A Collaborative<br />

Perspective. ACM Transactions on Asian Language Information Processing<br />

(ACM TALIP) (Special Issue on Chinese Language Processing), 2011.<br />

4. Zhiyuan Liu, Yuzhou Zhang, Edward Y. Chang, Maosong Sun. PLDA+: Parallel<br />

Latent Dirichlet Allocation with Data Placement and Pipeline Processing. ACM<br />

Transactions on Intelligent Systems and Technology (ACM TIST), 2010.<br />

5. Zhiyuan Liu, Wenyi Huang, Yabin Zheng, Maosong Sun. Automatic Keyphrase<br />

Extraction via Topic Decomposition. The Conference on Empirical Methods in<br />

Natural Language Processing (EMNLP), 2010.<br />

6. Zhiyuan Liu, Peng Li, Yabin Zheng, Maosong Sun. Clustering to Find<br />

Exemplar Terms for Keyphrase Extraction. The Conference on Empirical<br />

Methods in Natural Language Processing (EMNLP), 2009.


主 要 发 表 论 文<br />

7. Zhiyuan Liu, Maosong Sun. Domain-Specific Term Rankings Using Topic Models.<br />

The Sixth Asia Information Retrieval Society Conference (AIRS), 2010.<br />

8. Zhiyuan Liu, Chuan Shi, Maosong Sun. FolkDiffusion: A Graph-based Tag<br />

Suggestion Method for Folksonomies. The Sixth Asia Information Retrieval<br />

Society Conference (AIRS), 2010.<br />

8. Zhiyuan Liu, Yabin Zheng, Maosong Sun. Quantifying Asymmetric Semantic<br />

Relations from Query Logs by Resource Allocation. The 13th Pacific-Asia<br />

Conference on Knowledge Discovery and Data Mining (PAKDD), 2009.<br />

9. Zhiyuan Liu, Maosong Sun. Asymmetrical Query Recommendation Method Based<br />

on Network-resource-allocation Dynamics. The 17th International World Wide<br />

Web Conference (WWW), 2008. 刘 知 远 , 郑 亚 斌 , 孙 茂 松 . 汉 语 依 存 句 法 网 络 的<br />

复 杂 网 络 性 质 . 复 杂 系 统 与 复 杂 性 科 学 , Vol. 5, No. 2, pp. 37-45, 2008.<br />

10. 刘 知 远 , 孙 茂 松 . 汉 语 词 同 现 网 络 的 小 世 界 效 应 和 无 标 度 特 性 . 中 文 信 息 学<br />

报 , Vol. 21, No. 6, pp. 52-57, 2007.<br />

11. 刘 知 远 , 司 宪 策 , 郑 亚 斌 , 孙 茂 松 . 中 文 博 客 标 签 的 若 干 统 计 性 质 . 第 七 届 中<br />

文 处 理 国 际 会 议 (ICCC), 2007.<br />

12. 刘 知 远 , 孙 茂 松 . 基 于 WEB 的 计 算 机 领 域 新 术 语 的 自 动 检 测 . 第 九 届 全 国 计 算<br />

语 言 学 学 术 会 议 (CNCCL), 2007.


申 请 专 利<br />

1. 国 内 专 利 . 第 二 发 明 人 . 获 取 新 词 的 方 法 和 装 置 .<br />

申 请 号 : 200910083143.2. 公 开 号 : CN101539940.<br />

2. 国 际 专 利 . 第 二 发 明 人 . Category-Sensitive<br />

Ranking for Text. 申 请 号 : PCT/CN2009/001584.<br />

3. 国 际 专 利 . 第 一 发 明 人 . Parallel Generation of<br />

Topics from Documents. 申 请 中 .


谢 谢 各 位 老 师 ! 请 提 出 宝 贵 意 见 !


LDA 学 习 算 法<br />

• Gibbs Sampling<br />

其 他 位 置 上 的<br />

词 w 的 主 题 分 布<br />

该 文 档 其 他 位 置 上 词<br />

的 主 题 分 布


PLDA+ 算 法<br />

• 基 于 新 结 构 的 Pipeline-based Gibbs Sampling


复 杂 度 分 析


实 验 设 置<br />

• 数 据 集 合


实 验 效 果 -Missing ratio<br />

• Missing ratio 与 迭 代 次 数 和 主 题 个 数 乊 间 的 关 系


NEWS 数 据<br />

• LDA 分 别 在 NEWS 训 练 和 在 Wikipedia 上 训 练


RESEARCH 数 据<br />

• LDA 分 别 在 RESEARCH 训 练 和 在 Wikipedia 上 训 练

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!