29.10.2014 Views

机器翻译原理与方法 - 中科院计算所自然语言处理研究组- 中国科学院 ...

机器翻译原理与方法 - 中科院计算所自然语言处理研究组- 中国科学院 ...

机器翻译原理与方法 - 中科院计算所自然语言处理研究组- 中国科学院 ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

机 器 翻 译 原 理 与 方 法<br />

第 五 讲 基 于 句 法 的 统 计 机 器 翻 译 方 法<br />

刘 群<br />

中 国 科 学 院 计 算 技 术 研 究 所<br />

liuqun@ict.ac.cn<br />

中 国 科 学 院 计 算 技 术 研 究 所 2009 年 秋 季 课 程


内 容 提 要<br />

•<br />

概 述<br />

•<br />

同 步 语 法 概 念<br />

•<br />

反 向 转 录 语 法 和 括 号 转 录 语 法<br />

•<br />

基 于 最 大 熵 括 号 转 录 语 法 的 翻 译 模 型<br />

•<br />

同 步 上 下 文 无 关 语 法 和 同 步 树 替 换 语 法<br />

•<br />

层 次 短 语 模 型<br />

•<br />

树 到 串 翻 译 模 型<br />

•<br />

串 到 树 翻 译 模 型<br />

•<br />

总 结<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

2


概 述<br />

•<br />

基 于 短 语 的 统 计 翻 译 方 法 的 问 题<br />

•<br />

基 于 句 法 的 统 计 翻 译 方 法 的 分 类<br />

•<br />

目 前 的 进 展<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

3


基 于 短 语 的 统 计 翻 译 方 法 的 问 题<br />

•<br />

泛 化 能 力 差<br />

–<br />

中 国 大 使 馆 、 美 国 大 使 馆 → 月 球 大 使 馆 ?<br />

•<br />

产 生 的 句 子 不 符 合 语 法<br />

–<br />

短 语 的 简 单 组 合 , 没 有 句 法 结 构<br />

•<br />

无 法 表 示 不 连 续 的 短 语 搭 配 的 翻 译<br />

–<br />

召 开 了 一 次 关 于 … 的 会 议 hold a meeting on …<br />

•<br />

无 法 进 行 长 距 离 的 语 序 调 整<br />

•<br />

解 决 办 法 : 引 入 句 法 结 构 !<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

4


统 计 机 器 翻 译 方 法 的 金 字 塔<br />

Interlingua<br />

Semantic-based<br />

Syntax-based<br />

Phrase-based<br />

Source Language<br />

Word-based<br />

Target Language<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

5


基 于 句 法 的 统 计 机 器 翻 译 模 型 (1)<br />

syntax level<br />

phrase level<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

6


基 于 句 法 的 统 计 机 器 翻 译 模 型 (1)<br />

linguistic syntax level<br />

formal syntax level<br />

phrase level<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

7


基 于 句 法 的 统 计 机 器 翻 译 模 型 (1)<br />

linguistically<br />

syntax-based model<br />

tree-to-tree<br />

model<br />

string-to-tree<br />

model<br />

tree-to-string<br />

model<br />

formally syntax-based model<br />

phrase-based model<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

8


基 于 句 法 的 统 计 机 器 翻 译 模 型 (2)<br />

•<br />

形 式 上 基 于 句 法 的 模 型<br />

–<br />

不 使 用 任 何 语 言 学 知 识<br />

–<br />

所 有 句 法 结 构 直 接 从 未 标 注 的 语 料 库 中 自 动 学 习 得 到<br />

•<br />

语 言 学 上 基 于 句 法 的 模 型<br />

–<br />

使 用 语 言 学 知 识<br />

–<br />

语 言 通 常 要 从 句 法 树 库 训 练 得 到<br />

• 树 到 串 模 型 : 只 在 源 语 言 端 使 用 语 言 知 识<br />

• 串 到 树 模 型 : 只 在 目 标 语 言 端 使 用 语 言 知 识<br />

• 树 到 树 模 型 : 在 源 语 言 端 和 目 标 语 言 端 都 使 用 语 言 知 识<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

9


形 式 上 基 于 句 法 的 模 型<br />

•<br />

反 向 转 录 语 法 ( ITG ) 和 括 号 转 录 语 法 ( BTG )<br />

Inversion (Bracketing) Transduction Grammar<br />

(ITG,BTG), Wu 1997<br />

•<br />

有 限 状 态 中 心 词 转 录 机<br />

Finite-State Head Transducer, Alshawi 2000<br />

•<br />

基 于 层 次 短 语 的 翻 译 模 型<br />

Hierarchical Phrase-based Model, Chiang 2005<br />

•<br />

最 大 熵 括 号 转 录 语 法 的 翻 译 模 型<br />

Maximal Entropy Bracket Transduction Grammar<br />

(ME-BTG), Xiong 2006<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

10


语 言 学 上 基 于 句 法 的 模 型<br />

•<br />

串 到 树 模 型 String-to-Tree Model<br />

–<br />

美 国 南 加 州 大 学 信 息 科 学 研 究 所 ( ISI/CSU ) 的 工 作<br />

Yamada 2001, Galley 2006, Marcu 2006<br />

•<br />

树 到 串 模 型 Tree-to-String Model<br />

–<br />

中 科 院 计 算 所 的 工 作<br />

Tree-to-string Alignment Template Model (TAT),<br />

Yang Liu ACL2006<br />

–<br />

微 软 研 究 院 的 工 作 ( 依 存 模 型 )<br />

Dependency Treelet Translation, Quirk 2005<br />

•<br />

树 到 树 的 模 型 Tree-to-Tree Model<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

11


内 容 提 要<br />

•<br />

概 述<br />

•<br />

同 步 语 法 概 念<br />

•<br />

反 向 转 录 语 法 和 括 号 转 录 语 法<br />

•<br />

基 于 最 大 熵 括 号 转 录 语 法 的 翻 译 模 型<br />

•<br />

同 步 上 下 文 无 关 语 法 和 同 步 树 替 换 语 法<br />

•<br />

层 次 短 语 模 型<br />

•<br />

树 到 串 翻 译 模 型<br />

•<br />

串 到 树 翻 译 模 型<br />

•<br />

总 结<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

12


同 步 语 法 (1)<br />

•<br />

定 义 : 同 步 语 法 是 一 种 形 式 语 法 , 这 种 语<br />

法 的 每 一 次 推 导 , 都 在 两 种 或 者 两 种 以 上<br />

语 言 中 同 步 生 成 一 个 句 子 。<br />

同 步 语 法<br />

我<br />

我 们<br />

我 们 是 中 国 人<br />

中 国 是 世 界 上 人 口<br />

最 多 的 国 家<br />

……<br />

I<br />

We<br />

We are Chinese<br />

China is the country with the<br />

largest population in the world<br />

……<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

13


同 步 语 法 (2)<br />

•<br />

同 步 语 法 的 具 体 形 式 :<br />

–<br />

同 步 上 下 文 无 关 语 法 ( SCFG )<br />

• 反 向 转 录 语 法 (ITG) 和 括 号 转 录 语 法 (BTG)<br />

–<br />

同 步 树 替 换 语 法 (STSG)<br />

–<br />

同 步 树 粘 接 语 法 (STAG)<br />

–<br />

多 文 本 语 法 (MTG)<br />

•<br />

同 步 语 法 的 应 用 :<br />

–<br />

编 译 中 的 代 码 生 成<br />

–<br />

自 然 语 言 的 语 义 解 释<br />

–<br />

自 然 语 言 的 机 器 翻 译<br />

–<br />

双 语 语 料 库 的 对 齐<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

14


同 步 语 法 (3)<br />

•<br />

同 步 语 法 与 统 计 机 器 翻 译<br />

–<br />

同 步 语 法 是 很 多 基 于 句 法 的 统 计 机 器 翻 译 模 型<br />

的 理 论 基 础<br />

–<br />

理 论 上 说 , 如 果 采 用 同 步 语 法 , 在 完 成 源 语 言<br />

句 法 分 析 的 同 时 , 目 标 语 言 就 生 成 了 , 因 此 可<br />

以 利 用 各 种 成 熟 的 句 法 分 析 算 法 进 行 机 器 翻<br />

译 , 而 无 需 另 外 设 计 专 门 的 翻 译 算 法<br />

–<br />

另 一 方 面 , 采 用 同 步 语 法 对 源 语 言 进 行 句 法 分<br />

析 时 , 要 把 目 标 语 言 的 因 素 考 虑 进 来 , 这 不 同<br />

于 通 常 的 句 法 分 析<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

15


内 容 提 要<br />

•<br />

概 述<br />

•<br />

同 步 语 法 概 念<br />

•<br />

反 向 转 录 语 法 和 括 号 转 录 语 法<br />

•<br />

基 于 最 大 熵 括 号 转 录 语 法 的 翻 译 模 型<br />

•<br />

同 步 上 下 文 无 关 语 法 和 同 步 树 替 换 语 法<br />

•<br />

层 次 短 语 模 型<br />

•<br />

树 到 串 翻 译 模 型<br />

•<br />

串 到 树 翻 译 模 型<br />

•<br />

总 结<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

16


反 向 转 录 语 法<br />

•<br />

Inversion Transduction Grammar (ITG)<br />

吴 德 凯 (1997 onwards)<br />

•<br />

ITG 是 一 种 形 式 最 简 单 的 同 步 语 法 , 可 以 并 行 地<br />

生 成 两 颗 对 齐 的 句 法 树<br />

–<br />

ITG 的 规 则 都 是 乔 姆 斯 基 范 式 形 式 的<br />

• 规 则 的 右 部 或 者 全 部 是 终 结 符 , 或 者 全 部 是 终 结 符<br />

• 非 终 结 符 规 则 都 是 二 分 的<br />

–<br />

ITG 的 规 则 可 以 指 定 语 序 的 变 化 : 保 序 或 逆 序<br />

–<br />

ITG 中 两 种 语 言 的 规 则 使 用 同 一 套 非 终 结 符<br />

•<br />

ITG 中 对 规 则 的 二 分 限 制 降 低 了 搜 索 的 复 杂 度<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

17


反 向 转 录 语 法<br />

ITG rules Source Target<br />

非 终 结 符 规 则<br />

A → [ B C ] A→BC A→BC<br />

A → < B C > A→BC A→ CB<br />

终 结<br />

符 规 则<br />

A → x/y A→x A→y<br />

.<br />

BNP<br />

S<br />

S<br />

VP<br />

./。<br />

target<br />

straight<br />

inverted<br />

The/e<br />

game/ 比 赛<br />

BVP<br />

PP<br />

source<br />

will/e start/ on/e Wednesday / 星 期 三<br />

开 始<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

18


反 向 转 录 语 法<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

19


基 于 反 向 转 录 语 法 的 统 计 机 器 翻 译 (1)<br />

•<br />

训 练 : 从 词 语 对 齐 的 语 料 库 中 自 动 抽 取 规 则<br />

•<br />

解 码 : 类 似 于 一 个 概 率 化 句 法 分 析 的 过 程<br />

–<br />

利 用 规 则 的 源 语 言 部 分 进 行 句 法 分 析<br />

• 存 在 源 语 言 部 分 相 同 而 目 标 语 言 部 分 不 同 的 规 则 ( 保<br />

序 或 逆 序 ), 这 是 不 同 于 传 统 句 法 分 析 的 地 方<br />

• 句 法 分 析 时 , 对 于 源 语 言 部 分 相 同 而 目 标 语 言 部 分 不<br />

同 的 规 则 , 需 要 通 过 概 率 计 算 进 行 评 分 , 这 相 当 于 对<br />

译 文 语 序 进 行 选 择<br />

–<br />

句 法 分 析 完 成 的 同 时 也 就 生 成 了 译 文 句 法 结 构 和<br />

译 文 句 子<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

20


基 于 反 向 转 录 语 法 的 统 计 机 器 翻 译 (2)<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

21


基 于 反 向 转 录 语 法 的 统 计 机 器 翻 译 (3)<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

22


括 号 转 录 语 法<br />

•<br />

Bracketing Transduction Grammar : BTG<br />

•<br />

BTG 是 ITG 的 一 个 特 例 , 其 中 只 有 唯 一 的 一 个 非<br />

终 结 符 X<br />

•<br />

可 以 这 么 理 解 : BTG 仅 仅 给 出 了 两 种 语 言 的 句 子<br />

结 构 结 构 之 间 的 对 应 关 系 , 没 有 任 何 句 法 标 记 信<br />

息 ( 如 NP 、 VP 等 等 )<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

23


统 计 机 器 翻 译 中 语 序 调 整 的 方 式<br />

•<br />

无 约 束 ( 所 有 匹 配 都 运 行 )<br />

–<br />

所 有 语 序 调 整 都 是 允 许 的<br />

–<br />

对 于 N 个 词 ( 或 短 语 ), 在 IBM 约 束 下 , 语 序 调 整 有 N! 种 可 能<br />

性 , 搜 索 空 间 随 着 句 子 长 度 呈 指 数 级 增 长 , 因 此 其 搜 索 问 题 是 NP<br />

问 题<br />

•<br />

IBM 约 束 ( IBM Constrains )<br />

–<br />

为 了 减 少 搜 索 空 间 , 通 常 在 从 左 到 右 的 解 码 过 程 中 都 会 采 用 IBM<br />

约 束 来 限 制 语 序 调 整 的 搜 索 空 间 , 也 就 是 说 , 每 次 只 选 择 最 左 边<br />

若 干 个 未 被 翻 译 的 词 语 进 行 翻 译 ( 对 Hypothesis 进 行 扩 展 )<br />

–<br />

IBM 约 束 可 以 大 大 减 少 搜 索 空 间 , 但 依 然 存 在 大 量 非 法 语 序 调 整<br />

•<br />

BTG 约 束 ( BTG Constrains )<br />

–<br />

只 有 能 够 满 足 某 种 BTG 映 射 的 语 序 调 整 才 是 允 许 的<br />

–<br />

BTG 约 束 大 大 降 低 了 搜 索 空 间 大 小 , 确 保 搜 索 范 围 内 的 语 序 调 整<br />

都 满 足 语 法 约 束 , 同 时 不 在 搜 索 范 围 内 的 约 束 都 不 满 足 语 法 约 束<br />

–<br />

BTG 约 束 搜 索 使 得 长 距 离 语 序 调 整 成 为 可 能<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

24


这 里 给 出 了 四 个 词 的 所 有 可 能 的 调 序 方 案 以 及 对 应 的 BTG 转 换 模 式 。<br />

其 中 有 两 种 方 案 在 BTG 约 束 下 是 不 允 许 的 ( 找 不 到 对 应 的 BTG 转 换 模 式 )<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

25


BTG 约 束 导 致 搜 索 空 间 大 大 压 缩<br />

word reordering<br />

which are not<br />

permitted in BTG<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

26


真 实 自 然 语 言 的 翻 译 满 足 BTG 约 束 吗 ?<br />

对 于 汉 语 和 英 语 之 间 的 翻 译 , 几 乎 满 足<br />

一 个 例 外 ( 出 处 ?) :<br />

对 于 一 些 自 由 语 序 的 语 言 , 不 一 定 满 足<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

27


内 容 提 要<br />

•<br />

概 述<br />

•<br />

同 步 语 法 概 念<br />

•<br />

反 向 转 录 语 法 和 括 号 转 录 语 法<br />

•<br />

基 于 最 大 熵 括 号 转 录 语 法 的 翻 译 模 型<br />

•<br />

同 步 上 下 文 无 关 语 法 和 同 步 树 替 换 语 法<br />

•<br />

层 次 短 语 模 型<br />

•<br />

树 到 串 翻 译 模 型<br />

•<br />

串 到 树 翻 译 模 型<br />

•<br />

总 结<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

28


基 于 最 大 熵 括 号 转 录 语 法 的 翻 译 模 型<br />

•<br />

基 于 最 大 熵 括 号 转 录 语 法 的 翻 译 模 型<br />

A Translation Model Based on Maximum Entropy<br />

Bracketing Transuction Grammar (ME-BTG)<br />

•<br />

Deyi Xiong, Qun Liu, and Shouxun Lin. Maximum<br />

Entropy Based Phrase Reordering Model for Statistical<br />

Machine Translation. COLING-ACL 2006, Sydney,<br />

Australia, July 17-21.<br />

•<br />

Deyi Xiong, Min Zhang, Ai Ti Aw, Haitao Mi, Qun Liu and<br />

Shouxun Lin, Refinements in BTG-based Statistical<br />

Machine Translation, IJCNLP 2008, Hyderabad, India,<br />

January 7-12<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

29


BTG 的 主 要 问 题<br />

•<br />

两 条 主 要 合 并 规 则<br />

A → [ A A ] 0.8<br />

A → 〈 A A 〉 0.2<br />

•<br />

如 何 使 用 这 两 条 规 则 , stochastic BTG 给<br />

每 条 规 则 赋 以 先 验 概 率<br />

•<br />

先 验 概 率 是 一 种 非 常 粗 糙 、 简 单 的 处 理 方<br />

法 , 不 能 有 效 地 处 理 重 排 序 问 题<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

30


ME-BTG : 基 本 思 想<br />

•<br />

在 BTG 框 架 下 , 将 重 排 序 问 题 看 作 是 一 个 2 类 分<br />

类 问 题 :<br />

–<br />

条 件 : 各 种 与 重 排 序 短 语 相 关 的 特 征<br />

–<br />

类 别 : 相 邻 语 块 的 顺 序 {straight, inverted}<br />

•<br />

引 入 最 大 熵 模 型 作 为 分 类 模 型 , 根 据 实 际 上 下 文<br />

计 算 合 并 规 则 的 概 率<br />

straight 0.05<br />

inverted 0.95<br />

with them<br />

keep contact<br />

keep contact<br />

with them<br />

与 他 们<br />

保 持 联 系<br />

与 他 们<br />

保 持 联 系<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

31


ME-BTG 模 型<br />

•<br />

模 型<br />

•<br />

特 征<br />

= p o∣A 1, A 2 =<br />

∑<br />

o'<br />

∑<br />

i<br />

exp∑<br />

i<br />

i<br />

h i<br />

o , A 1, A 2 <br />

i h i o' , A 1, A 2 <br />

h i<br />

o , A 1, A ={ 2 1 if f A1, A 2 =T ,o=O<br />

0 otherwise<br />

O∈{straight ,inverted }<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

32


ME-BTG 训 练<br />

单 词 对 齐 的 双 语 语 料<br />

抽 取 重 排 序 实 例<br />

提 取 重 排 序 特 征<br />

训 练 最 大 熵 分 类 器<br />

最 大 熵 重 排 序 模 型<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

33


抽 取 重 排 序 实 例<br />

S1<br />

S2<br />

在 双 语 语 料 库 中 抽 取 所 有 如 下 两 类<br />

双 语 短 语 块 :<br />

T1<br />

b1<br />

→ STRAIGHT<br />

T2<br />

b2<br />

E.g. < 今 天 有 棒 球 比 赛 |Are there any baseball<br />

games today; 吗 ? |?> → STRAIGHT<br />

S3<br />

S4<br />

T3<br />

b4<br />

→ INVERTED<br />

T4<br />

b3<br />

E.g. < 澳 门 政 府 |the Macao government; 有 关 部<br />

门 |related departments of> → INVERTED<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

34


重 排 序 特 征<br />

•<br />

单 目 特 征 : 单 个 源 / 目 标 语 言 边 界 单 词<br />

•<br />

双 目 特 征 : 两 个 源 / 目 标 语 言 边 界 单 词 的 组 合<br />

< 与 他 们 |with them; 保 持 联 系 |keep contact> → INVERTED<br />

特 征 选 择<br />

h mono<br />

o , A 1, A ={ 2 1 if A2 .t 1 =keep , o=inverted<br />

0 otherwise<br />

h bino o , A 1, A ={ 2 1 if A1 .t 1 =with , A 2 .t 1 =keep ,o=inverted<br />

0 otherwise<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

35


为 什 么 使 用 边 界 单 词 作 为 特 征 ?<br />

C1<br />

E1<br />

Source boundary words<br />

C2<br />

E2<br />

Target boundary words<br />

feature IGR<br />

Phrases .02655<br />

C1C2E1E2 .0263687<br />

E1E2 .0239286<br />

C1C2 .023363<br />

C2E2 .0192932<br />

C1E1 .0153117<br />

C2 .011371<br />

E2 .00994372<br />

E1 .00899752<br />

C1 .00758598<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

36


基 于 ME-BTG 的 统 计 机 器 翻 译 系 统<br />

•<br />

Bruin : 基 于 ME-BTG 的 统 计 机 器 翻 译 系 统<br />

•<br />

解 码 算 法<br />

–<br />

基 于 CKY 算 法<br />

• 自 底 向 上 , 考 虑 每 一 个 区 间 (i,j) , 每 个 区 间 保 留 一 个 堆 栈<br />

• 对 于 每 个 区 间 (i,j) , 考 虑 其 每 一 个 分 割 (i,k)*(k+1,j)<br />

• 对 于 每 一 个 分 割 , 考 虑 其 所 有 子 节 点 的 候 选 译 文 , 以 及 “ 保 序 ”<br />

和 “ 逆 序 ” 两 种 情 况 , 计 算 所 有 可 能 的 候 选 译 文<br />

–<br />

采 用 柱 搜 索 ( Beam Search ) 策 略 , 对 堆 栈 中 的 候 选 译<br />

文 结 点 进 行 剪 枝<br />

–<br />

对 于 堆 栈 中 的 候 选 译 文 结 点 进 行 归 并 (recombination):<br />

如 果 结 点 的 左 右 n-1 个 单 词 都 相 同 , 在 归 并 为 一 个 结 点<br />

( 假 设 这 里 采 用 n 元 语 法 模 型 )<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

37


CKY 解 码 算 法<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

38


基 于 ME-BTG 模 型 的 翻 译 过 程<br />

查 短 语 表<br />

原 文 f<br />

他 将 于 4 月 10 日 访 问 美 国 。<br />

译 文 e<br />

he will on April 10 visit America .<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

39


基 于 ME-BTG 模 型 的 翻 译 过 程<br />

利 用 边 界 词 特 征 计 算 是 否 调 序<br />

原 文 边 界 词 :“ 于 ” + “ 访 问 ”<br />

译 文 边 界 词 :“ on” + “visit”<br />

保 序 概 率 : 0.05<br />

原 文 f<br />

他 将 于 4 月 10 日 访 问 美 国 。<br />

译 文 e<br />

he will on April 10 visit America .<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

40


基 于 ME-BTG 模 型 的 翻 译 过 程<br />

利 用 边 界 词 特 征 计 算 是 否 调 序<br />

原 文 边 界 词 :“ 于 ” + “ 访 问 ”<br />

译 文 边 界 词 :“ on” + “visit”<br />

逆 序 概 率 : 0.95<br />

原 文 f<br />

他 将 于 4 月 10 日 访 问 美 国 。<br />

译 文 e<br />

he will on April 10 visit America .<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

41


基 于 ME-BTG 模 型 的 翻 译 过<br />

搜 索<br />

在<br />

所<br />

有<br />

可<br />

能<br />

的<br />

结<br />

构<br />

变<br />

换<br />

中<br />

搜<br />

索<br />

概<br />

率<br />

最<br />

大<br />

的<br />

形<br />

式<br />

程<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

42


基 于 ME-BTG 模 型 的 翻 译 过 程<br />

得 到 结 果<br />

原 文 f<br />

他 将 于 4 月 10 日 访 问 美 国 。<br />

译 文 e<br />

he will visit America on April 10 .<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

43


ME-BTG : 实 验<br />

Systems NIST MT 05 IWSLT 04<br />

Bruin with monotone search 20.1 37.8<br />

Bruin with distance-based reordering 20.9 38.8<br />

Bruin with flat reordering 20.5 38.7<br />

Pharaoh 20.8 38.9<br />

Bruin with MEBTG ( 单 目 ) 22.0 42.4<br />

Bruin with MEBTG ( 单 目 + 双 目 ) 22.2 42.8<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

44


内 容 提 要<br />

•<br />

概 述<br />

•<br />

同 步 语 法 概 念<br />

•<br />

反 向 转 录 语 法 和 括 号 转 录 语 法<br />

•<br />

基 于 最 大 熵 括 号 转 录 语 法 的 翻 译 模 型<br />

•<br />

同 步 上 下 文 无 关 语 法 和 同 步 树 替 换 语 法<br />

•<br />

层 次 短 语 模 型<br />

•<br />

树 到 串 翻 译 模 型<br />

•<br />

串 到 树 翻 译 模 型<br />

•<br />

总 结<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

45


同 步 上 下 文 无 关 语 法<br />

•<br />

David Chiang. An introduction to<br />

synchronous grammars. In Proc.<br />

of ACL Tutorial, 2006.<br />

本 部 分 讲 义 引 自 David Chiang 的 上 述<br />

Tutorial 中 的 内 容 , 特 此 说 明 , 并 向 原 作 者<br />

表 示 感 谢 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

46


同 步 上 下 文 无 关 语 法 (1)<br />

•<br />

英 语 的 语 法 :<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

47


同 步 上 下 文 无 关 语 法 (2)<br />

•<br />

日 语 的 语 法<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

48


同 步 上 下 文 无 关 语 法 (3)<br />

•<br />

两 种 语 法 的 一 一 对 应 关 系 :<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

49


同 步 上 下 文 无 关 语 法 (4)<br />

•<br />

同 步 上 下 文 无 关 语 法 :<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

50


同 步 上 下 文 无 关 语 法 (5)<br />

•<br />

同 步 句 法 树 :<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

51


同 步 上 下 文 无 关 语 法 (6)<br />

•<br />

带 概 率 的 同 步 语 法 :<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

52


同 步 上 下 文 无 关 语 法 (7)<br />

•<br />

同 步 句 法 树 的 概 率 :<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

53


类 似 的 表 示 形 式<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

54


同 步 上 下 文 关 语 法 的 层 次 (1)<br />

•<br />

乔 姆 斯 基 范 式 :<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

55


同 步 上 下 文 关 语 法 的 层 次 (2)<br />

•<br />

5 阶 → 2 阶<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

56


同 步 上 下 文 关 语 法 的 层 次 (3)<br />

•<br />

3 阶 → 2 阶 :<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

57


同 步 上 下 文 关 语 法 的 层 次 (4)<br />

•<br />

4 阶 → 2 阶 ?<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

58


同 步 上 下 文 关 语 法 的 层 次 (5)<br />

•<br />

4 阶 → 2 阶 ?<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

59


同 步 上 下 文 关 语 法 的 层 次 (5)<br />

•<br />

表 达 能 力 :<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

60


算 法 复 杂 度<br />

•<br />

机 器 翻 译 复 杂 度 :<br />

–<br />

分 析 : O(n 3 )<br />

–<br />

转 换 : O(n)<br />

–<br />

生 成 : O(n)<br />

•<br />

同 步 句 法 分 析 复 杂 度 :<br />

–<br />

O(n 10 )<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

61


内 容 提 要<br />

•<br />

概 述<br />

•<br />

同 步 语 法 概 念<br />

•<br />

反 向 转 录 语 法 和 括 号 转 录 语 法<br />

•<br />

基 于 最 大 熵 括 号 转 录 语 法 的 翻 译 模 型<br />

•<br />

同 步 上 下 文 无 关 语 法 和 同 步 树 替 换 语 法<br />

•<br />

层 次 短 语 模 型<br />

•<br />

树 到 串 翻 译 模 型<br />

•<br />

串 到 树 翻 译 模 型<br />

•<br />

总 结<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

62


层 次 短 语 模 型 (1)<br />

•<br />

层 次 化 基 于 短 语 的 翻 译 模 型 ( 蒋 伟 , UMD )<br />

Hierarchical Phrase-Based Translation Model<br />

•<br />

David Chiang. A Hierarchical Phrase-Based<br />

Model for Statistical Machine Translation.<br />

ACL2005. (Best Paper Award)<br />

•<br />

本 讲 义 这 一 部 分 内 容 直 接 引 用 了 以 下 讲 义 的 部 分 内<br />

容 , 特 此 说 明 并 向 原 作 者 表 示 感 谢 :<br />

–<br />

David Chiang, Hiero: Finding Structure in Statistical<br />

Machine Translation, in National University of Singapore<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

63


层 次 短 语 模 型 (2)<br />

•<br />

传 统 的 基 于 短 语 的 翻 译 模 型 中 , 短 语 是 平 面<br />

的 , 不 能 嵌 套<br />

•<br />

在 层 次 短 语 模 型 中 , 引 入 了 嵌 套 的 层 次 短 语<br />

•<br />

采 用 平 行 上 下 文 无 关 语 法 作 为 理 论 基 础 , 但<br />

只 使 用 唯 一 的 非 终 结 符 标 记<br />

•<br />

效 果 比 传 统 的 短 语 模 型 有 很 大 提 高<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

64


观 察 : 短 语 的 层 次 性<br />

可 以 观 察 到 短 语 是 有 层 次 的 , 短 语 之 间 可 以 嵌 套 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

65


用 层 次 短 语 进 行 翻 译 (1)<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

66


用 层 次 短 语 进 行 翻 译 (2)<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

67


用 层 次 短 语 进 行 翻 译 (3)<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

68


用 同 步 语 法 表 示 层 次 短 语 (1)<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

69


用 同 步 语 法 表 示 层 次 短 语 (2)<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

70


层 次 短 语 的 抽 取<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

71


约 束 : 降 低 复 杂 度<br />

•<br />

用 于 抽 取 规 则 的 短 语 长 度 (≤7–20)<br />

•<br />

规 则 长 度 (≤5–6)<br />

•<br />

规 则 中 至 少 要 有 一 个 终 结 符<br />

•<br />

最 多 有 两 个 不 相 邻 的 非 终 结 符<br />

•<br />

句 法 约 束 ?<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

72


非 终 结 符 标 记<br />

•<br />

到 目 前 未 知 只 采 用 一 个 非 终 结 符 X<br />

•<br />

可 能 的 扩 展 :<br />

–<br />

句 法 类 型<br />

–<br />

其 他 信 息 , 如 命 名 实 体 标 记 ( 人 名 、 地 名 等 )<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

73


规 则 举 例<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

74


粘 合 规 则 ( Glue Rules )<br />

•<br />

找 不 到 可 用 的 规 则 时 , 引 入 粘 合 规 则<br />

•<br />

粘 合 规 则 的 作 用 在 于 将 短 语 的 译 文 从 左 到 右 依 次<br />

顺 序 “ 粘 合 ” 成 完 整 的 译 文 :<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

75


特 殊 规 则<br />

•<br />

实 际 的 翻 译 系 统 中 , 通 常 需 要 一 些 特 殊 的<br />

翻 译 模 块 :<br />

–<br />

数 词<br />

–<br />

时 间 词<br />

–<br />

人 名 、 地 名 、 机 构 名<br />

–<br />

新 闻 byline<br />

•<br />

将 以 上 模 块 翻 译 的 结 果 处 理 成 一 条 规 则 :<br />

( X→ 一 百 二 十 三 , X→123 )<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

76


模 型<br />

•<br />

直 接 利 用 同 步 上 下 文 无 关 语 法 的 概 率 模 型<br />

•<br />

通 过 对 数 线 性 模 型 融 合 其 他 特 征 , 如 传 统<br />

短 语 模 型 的 各 种 特 征<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

77


模 型 特 征<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

78


模 型 特 征<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

79


解 码<br />

•<br />

类 似 于 句 法 分 析 , 在 对 源 语 言 分 析 的 同<br />

时 , 产 生 目 标 语 言 的 结 构 。<br />

•<br />

算 法 复 杂 度 O(n 3 )<br />

•<br />

为 了 减 少 搜 索 时 间 , 只 将 抽 取 出 来 的 规 则<br />

用 于 比 较 短 的 串 ( 如 少 于 10-15 个 词 ),<br />

对 于 更 长 的 串 只 使 用 粘 合 规 则 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

80


小 结<br />

•<br />

形 式 上 基 于 句 法 的 模 型<br />

•<br />

性 能 明 显 超 过 基 于 短 语 的 模 型<br />

•<br />

完 全 兼 容 基 于 短 语 的 模 型<br />

•<br />

所 有 规 则 可 以 自 动 抽 取<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

81


内 容 提 要<br />

•<br />

概 述<br />

•<br />

同 步 语 法 概 念<br />

•<br />

反 向 转 录 语 法 和 括 号 转 录 语 法<br />

•<br />

基 于 最 大 熵 括 号 转 录 语 法 的 翻 译 模 型<br />

•<br />

同 步 上 下 文 无 关 语 法 和 同 步 树 替 换 语 法<br />

•<br />

层 次 短 语 模 型<br />

•<br />

树 到 串 翻 译 模 型<br />

•<br />

串 到 树 翻 译 模 型<br />

•<br />

总 结<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

82


树 到 串 翻 译 模 型<br />

•<br />

树 到 串 翻 译 模 型 指 这 样 一 类 翻 译 模 型 :<br />

–<br />

在 源 语 言 端 进 行 句 法 分 析<br />

–<br />

在 目 标 语 言 端 不 进 行 句 法 分 析<br />

–<br />

从 源 语 言 端 句 法 分 析 和 词 语 对 齐 的 语 料 库 中 抽 取 翻 译 规<br />

则 并 构 造 翻 译 模 型<br />

•<br />

树 到 串 翻 译 模 型 的 发 展 经 历 了 三 个 阶 段 :<br />

–<br />

基 于 树 的 方 法 ( Tree-based Approach )<br />

–<br />

基 于 森 林 的 方 法 ( Forest-base Approach )<br />

–<br />

基 于 串 的 方 法 , 句 法 分 析 和 解 码 联 合 方 法<br />

( String-based Approach, Joing Parsing and Translation )<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

83


基 于 树 的 方 法<br />

Tree-to-String Model<br />

● Yang Liu, Qun Liu, and Shouxun Lin. 2006.<br />

Tree-to-String Alignment Template for<br />

Statistical Machine Translation. In<br />

Proceedings of COLING/ACL 2006, pages<br />

609-616, Sydney, Australia, July.<br />

Meritorious Asian NLP Paper Award


基 于 树 到 串 对 齐 模 板 的 翻 译 模 型<br />

•<br />

基 于 树 到 串 对 齐 模 板 的 翻 译 模 型 ( 刘 洋 , ICT )<br />

A Translation Model Based on Tree-to-String<br />

Alignment Template<br />

•<br />

Yang Liu, Qun Liu, and Shouxun Lin. 2006.<br />

Tree-to-String Alignment Template for Statistical<br />

Machine Translation. COLING-ACL 2006,<br />

Sydney, Australia, July 17-21.<br />

•<br />

Yang Liu, Yun Huang, Qun Liu and Shouxun Lin,<br />

Forest-to-String Statistical Translation Rules,<br />

ACL2007, Prague, Czech , June 2007<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

85


基 于 树 到 串 对 齐 模 板 的 翻 译 模 型<br />

•<br />

基 于 树 到 串 对 齐 模 板 ( 简 称 TAT ) 的 统 计<br />

翻 译 模 型 是 一 种 在 源 语 言 进 行 句 法 分 析 的<br />

基 于 语 言 学 句 法 结 构 的 统 计 翻 译 模 型<br />

•<br />

树 到 串 对 齐 模 板 既 可 以 生 成 终 结 符 也 可 以<br />

生 成 非 终 结 符 , 既 可 以 执 行 局 部 重 排 序 也<br />

可 以 执 行 全 局 重 排 序<br />

•<br />

从 经 过 词 语 对 齐 和 源 语 言 句 法 分 析 的 双 语<br />

语 料 库 上 自 底 向 上 自 动 抽 取 TAT<br />

•<br />

自 底 向 上 的 柱 搜 索 算 法<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

86


树 到 串 对 齐 模 板<br />

NP<br />

LCP<br />

NP<br />

NR<br />

NN<br />

NP<br />

LC<br />

DNP<br />

NP<br />

布 什<br />

总 统<br />

NR CC NR 间<br />

NP<br />

DEG<br />

美 国 和<br />

President<br />

Bush<br />

between United States and<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

87


Tree-based Translation<br />

●<br />

Recursive rewrite by pattern-matching<br />

IP<br />

X1:NPB<br />

IP<br />

X2:VP<br />

VP<br />

X1<br />

X2<br />

PP<br />

VPB<br />

NPB P NPB VS AS NPB<br />

bushi yu shalong juxing le huitan


Tree-based Translation<br />

●<br />

Recursive rewrite by pattern-matching<br />

NPB<br />

bushi<br />

VP<br />

Bush<br />

PP<br />

VPB<br />

NPB P NPB VS AS NPB<br />

bushi yu shalong juxing le huitan


Tree-based Translation<br />

●<br />

Recursive rewrite by pattern-matching<br />

VP<br />

X1:PP<br />

X2:VPB<br />

VP<br />

X2<br />

X1<br />

PP<br />

VPB<br />

P NPB VS AS NPB<br />

Bush yu shalong juxing le huitan


Tree-based Translation<br />

●<br />

Recursive rewrite by pattern-matching<br />

VPB<br />

VS AS X1:NPB<br />

juxing<br />

le<br />

held a X1<br />

VPB<br />

VS AS NPB<br />

P<br />

PP<br />

NPB<br />

Bush juxing le huitan yu shalong


Tree-based Translation<br />

●<br />

Recursive rewrite by pattern-matching<br />

NPB<br />

huitan<br />

talk<br />

NPB<br />

P<br />

PP<br />

NPB<br />

Bush held a huitan yu shalong


Tree-based Translation<br />

●<br />

Recursive rewrite by pattern-matching<br />

PP<br />

P<br />

yu<br />

X1:NPB<br />

PP<br />

with X1<br />

P<br />

NPB<br />

Bush held a talk yu shalong


Tree-based Translation<br />

●<br />

Recursive rewrite by pattern-matching<br />

NPB<br />

shalong<br />

Sharon<br />

Bush<br />

held a talk<br />

NPB<br />

with shalong


Tree-based Translation<br />

●<br />

Recursive rewrite by pattern-matching<br />

Bush<br />

held a talk<br />

with Sharon


模 型<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

96


模 型 特 征<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

97


训 练<br />

•<br />

数 据 : 源 语 言 句 法 分 析 和 词 语 对 齐 的 双 语 语<br />

料 库<br />

•<br />

自 底 向 上 抽 取<br />

•<br />

为 避 免 抽 取 的 TAT 数 量 过 大 , 需 要 对 抽 取 过<br />

程 施 加 一 些 约 束 :<br />

–<br />

树 高 度 约 束 height(T)


Tree-to-String Rule Extraction<br />

●<br />

Compute target spans


Tree-to-String Rule Extraction<br />

●<br />

Find admissible<br />

nodes


Tree-to-String Rule Extraction<br />

●<br />

Extract minial rules


Tree-to-String Rule Extraction<br />

●<br />

Extract minial rules


Tree-to-String Rule Extraction<br />

●<br />

Extract minial rules


Tree-to-String Rule Extraction<br />

●<br />

Get composed rules


解 码<br />

•<br />

自 底 向 上<br />

•<br />

柱 搜 索 ( Beam Search )<br />

•<br />

对 于 每 一 棵 子 树 , 找 到 所 有 与 其 根 节 点 匹 配<br />

的 TAT , 计 算 其 候 选 译 文 ( Candidate )<br />

•<br />

候 选 译 文 ( Candidate ) 的 数 据 结 构 :<br />

–<br />

TAT 序 列<br />

–<br />

部 分 翻 译 结 果<br />

–<br />

累 积 的 特 征 值<br />

–<br />

累 积 的 概 率 值<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

105


Tree-based Button-up Decoding


Tree-based Button-up Decoding


Tree-based Button-up Decoding


Tree-based Button-up Decoding


Tree-based Button-up Decoding


Tree-based Button-up Decoding


Tree-based Button-up Decoding


Tree-based Button-up Decoding<br />

●<br />

Beam Search


解 码 : 构 造 缺 省 TAT<br />

如 果 匹 配 不 到 合 适 的 TAT , 就 构 造 一 个 缺 省 的 TAT :<br />

NR<br />

NR<br />

中 国<br />

NP<br />

construct default TATs<br />

中 国<br />

中 国<br />

NP<br />

DNP<br />

NP<br />

construct default TATs<br />

DNP<br />

NP<br />

NP DEG NN NN<br />

NR<br />

的 经 济 发 展<br />

中 国<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

114


剪 枝 策 略<br />

•<br />

模 板 表 剪 枝<br />

–<br />

tatTable_limit<br />

–<br />

tatTable_threshold<br />

•<br />

堆 栈 剪 枝<br />

–<br />

stack_limit<br />

–<br />

stack_thrshold<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

115


候 选 译 文 归 并 ( Recombination )<br />

The economic development of China is very rapid .<br />

The economic develop of China is quite rapid .<br />

The economic developing of Chinese is rapid .<br />

The economic development of Chinese are quite rapid .<br />

考 虑 采 用 英 文 的 三 元 语 法 模 型 , 为 了 保 证 动 态 规 划 算 法 所<br />

要 求 的 单 调 性 , 对 同 一 个 堆 栈 中 , 首 尾 Bigram 完 全 相 同 的<br />

候 选 译 文 ( Candidate ), 可 以 合 并 成 一 个 结 点 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

116


实 验<br />

•<br />

Baseline : Pharaoh (Koehn et al., 2004)<br />

•<br />

实 验 系 统 : Lynx<br />

•<br />

训 练 语 料 : 31,149 句 子 对<br />

含 843K 汉 语 词 和 949K 英 语 词<br />

•<br />

开 发 集 : 2002 NIST 汉 英 测 试 数 据 的 一 部 分<br />

(571 of 878 sentences)<br />

•<br />

测 试 集 : 2005 NIST 汉 英 测 试 数 据<br />

(1,082 sentences)<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

117


训 练 过 程<br />

句 子 对 齐 的 双 语 语 料 库<br />

双 向 GIZA++ 及 合 并<br />

词 语 对 齐 的 双 语 语 料 库<br />

Pharaoh 训 练 工 具<br />

汉 语 句 法 分 析<br />

带 汉 语 句 法 树 及 词 语 对 齐 的 双 语 语 料 库<br />

Lynx 训 练 工 具<br />

双 语 短 语 表<br />

TAT 表<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

118


实 验 环 境<br />

•<br />

评 测 工 具 : mteval-v11b.pl<br />

•<br />

语 言 模 型 工 具 : SRI Language Modeling To<br />

olkits (Stolcke, 2002)<br />

•<br />

显 著 性 测 试 工 具 : Zhang et al., 2004<br />

•<br />

汉 语 句 法 分 析 : Xiong et al., 2005<br />

•<br />

最 小 错 误 率 训 练 工 具 : optimizeV5IBMBLE<br />

U.m (Venugopal and Vogel, 2005)<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

119


实 验 结 果<br />

Comparison of Pharaoh and Lynx with different feature settings<br />

Lynx achieves an absolute improvement of 0.9% (4.3%<br />

relative) over Pharaoh in terms of BLEU score. This<br />

difference is statistically significant (p < 0.01).<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

120


与 短 语 的 兼 容 性<br />

•<br />

TAT 模 型 与 短 语 模 型 是 不 兼 容 的<br />

–<br />

句 法 短 语 可 以 表 示 为 TAT<br />

–<br />

非 句 法 短 语 无 法 表 示 为 TAT<br />

•<br />

实 验 表 明 , 非 句 法 短 语 对 于 提 高 系 统 性 能 有 重 要<br />

作 用<br />

•<br />

即 使 对 于 句 法 短 语 , 由 于 句 法 分 析 不 可 靠 ( 对 于<br />

同 一 个 短 语 的 分 析 有 时 正 确 有 时 错 误 ), 也 会 造<br />

成 TAT 概 率 估 计 上 的 不 准 确<br />

•<br />

设 想 : 利 用 双 语 短 语 ( BP ) 可 以 改 进 TAT 模 型<br />

的 性 能<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

121


利 用 句 法 短 语 修 正 TAT 的 概 率<br />

•<br />

理 由 :<br />

–<br />

句 法 分 析 是 不 可 靠 的 , 对 于 同 一 个 短 语 , 可 能<br />

有 时 分 析 正 确 , 有 时 分 析 错 误 , 这 样 会 导 致 TA<br />

T 概 率 估 计 上 的 不 准 确<br />

•<br />

做 法 :<br />

–<br />

把 句 法 短 语 ( SBP ) 的 四 个 概 率 与 相 应 的 TAT<br />

的 四 个 概 率 进 行 比 较 , 用 其 中 较 大 者 取 代 TAT<br />

原 来 的 概 率<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

122


例 子<br />

TAT table<br />

NP<br />

NR<br />

NN<br />

NP<br />

布 什<br />

总 统<br />

0.4 0.2 0.3 0.5<br />

NR<br />

NN<br />

President Bush<br />

布 什<br />

总 统<br />

BP table<br />

布 什<br />

总 统<br />

0.3 0.6 0.2 0.4<br />

President Bush<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

123


例 子<br />

TAT table<br />

NP<br />

NR<br />

NN<br />

NP<br />

布 什<br />

总 统<br />

0.4 0.2 0.3 0.5<br />

NR<br />

布 什<br />

NN<br />

总 统<br />

BP table<br />

President Bush<br />

NP<br />

NR<br />

布 什<br />

NN<br />

总 统<br />

0.3 0.6 0.2 0.4<br />

President Bush<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

124


例 子<br />

NP<br />

NR NN<br />

布 什 总 统<br />

NP<br />

NR NN<br />

布 什 总 统<br />

President Bush<br />

0.4 0.6 0.3 0.5<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

125


采 用 句 法 短 语 修 正 TAT 概 率 的 效 果<br />

Effect of Using Bilingual Phrases for Lynx<br />

Using bilingual phrases brings an absolute<br />

improvement of 0.6% in terms of BLEU score<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

126


利 用 非 句 法 双 语 短 语 改 进 译 文 流 利 度<br />

Problem with Lynx:<br />

国 际 足 联 将 严 惩 足 球 场 上 的 欺 骗 行 为<br />

FIFA will severely punish cheat behaviour on the football field<br />

国 际 足 联 执 委 会 还 宣 布 了 一 些 改 革 措 施 。<br />

international 足 联 Executive Committee also announces that some reform measures.<br />

How could this happen?<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

127


两 棵 句 法 树<br />

NP-B<br />

NP-B<br />

NN<br />

NN<br />

NN<br />

NN<br />

NN<br />

国 际<br />

足 联<br />

国 际<br />

足 联<br />

执 委 会<br />

国 际<br />

足 联<br />

FIFA<br />

the strength of BPs is restricted!<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

128


解 决 方 法<br />

•<br />

搜 索 结 束 后 , 在 翻 译 结 果 上 , 根 据 词 语 对 齐 ,<br />

将 译 文 中 的 短 语 替 换 成 流 利 度 更 高 的 短 语 ( 根<br />

据 语 言 模 型 分 值 )<br />

•<br />

如 果 有 多 个 候 选 译 文 , 每 个 译 文 都 可 以 进 行 上<br />

述 替 换 , 这 时 可 以 通 过 计 算 调 整 后 的 总 的 翻 译<br />

概 率 ( 同 时 考 虑 语 言 模 型 、 翻 译 模 型 和 其 他 特<br />

征 ), 选 择 分 数 最 高 的 候 选 译 文<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

129


例 子<br />

IP<br />

NP-B VP PU<br />

NN NN NN ADVP VP-B<br />

。<br />

国 际<br />

足 联 执 委 会<br />

AD VV AS NP<br />

还 宣 布 了<br />

QP<br />

NP-B<br />

CD NN NN<br />

一 些 改 革 措 施<br />

international 足 联 Executive Committee also announces that some reform measures .<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

130


例 子<br />

IP<br />

NP-B VP PU<br />

NN NN NN ADVP VP-B<br />

。<br />

国 际<br />

足 联 执 委 会<br />

AD VV AS NP<br />

还 宣 布 了<br />

QP<br />

NP-B<br />

CD NN NN<br />

一 些 改 革 措 施<br />

FIFA Executive Committee also announces that some reform measures .<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

131


例 子<br />

IP<br />

NP-B VP PU<br />

NN NN NN ADVP VP-B<br />

。<br />

国 际<br />

足 联 执 委 会<br />

AD VV AS NP<br />

还 宣 布 了<br />

QP<br />

NP-B<br />

CD NN NN<br />

一 些 改 革 措 施<br />

FIFA Executive Committee also announced some reform measures .<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

132


加 大 数 据 规 模<br />

•<br />

Bilingual corpus (train BPs and TATs)<br />

–<br />

2.6M sentence pairs (68.1M Chinese words an<br />

d 73.8M English words)<br />

–<br />

Use all the data to obtain BPs and a portion of<br />

800K pairs to obtain TATs<br />

•<br />

Monolingual corpora (train LM)<br />

–<br />

English side of the bilingual corpus (73.8M wo<br />

rds)<br />

–<br />

Xinhua portion of Gigaword corpus (181M wo<br />

rds)<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

133


Training Data<br />

(pairs)<br />

TAT<br />

加 大 数 据 规 模 后 的 实 验 结 果<br />

Results of Lynx on test set with various settings.<br />

BP<br />

Language Model<br />

Data<br />

(words)<br />

Order<br />

Improve<br />

Fluency<br />

BLEU4<br />

31K - 949K one 3-gram No 0.2178<br />

31K 31K 949K one 3-gram No 0.2240<br />

31K 800K 73M one 3-gram No 0.2431<br />

800K 2.6M 73M one 3-gram No 0.2692<br />

800K 2.6M 73M | 181M two 3-gram No 0.2934<br />

800K 2.6M 73M | 181M two 4-gram No 0.3047<br />

800K 2.6M 73M | 181M two 4-gram Yes 0.3184<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

134


小 结<br />

•<br />

基 于 树 到 串 对 齐 模 板 的 翻 译 模 型<br />

–<br />

一 种 树 到 串 的 模 型<br />

–<br />

在 源 语 言 句 法 分 析 和 词 语 对 齐 的 双 语 语 料 库 上 抽 取<br />

双 语 对 齐 模 板 ( TAT ), 构 建 翻 译 模 型<br />

–<br />

解 码 时 先 进 行 源 语 言 句 法 分 析 , 然 后 自 底 向 上 依 次<br />

对 树 的 每 个 结 点 构 造 候 选 译 文<br />

•<br />

模 型 简 洁 直 观 , 可 以 较 好 地 利 用 句 法 信 息 进 行 重<br />

排 序<br />

•<br />

在 给 定 句 法 分 析 结 果 的 情 况 下 , 解 码 极 快<br />

•<br />

非 句 法 短 语 兼 容 性 不 好<br />

•<br />

受 句 法 分 析 性 能 影 响 , 性 能 不 高<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

135


基 于 森 林 的 方 法<br />

Forest-based Translation<br />

●<br />

●<br />

Haitao Mi, Liang Huang and Qun Liu.<br />

Forest-Based Translation. In Proceedings<br />

of ACL 2008 Columbus, OH<br />

Haitao Mi and Liang Huang. Forest-based<br />

Translation Rule Extraction. In Proceedings<br />

of EMNLP 2008 ,Honolulu, Hawaii.<br />

Nominated for the best-paper award


Parsing Mistake Propagation


Syntatic Ambiguity


1-best ➜ n-best trees?


Packed Forest


Patten Matching on Forest


Translation Forest


Translation Forest


Translation Forest


Translation Forest


Translation Forest


N-best Trees vs. Forest


Forest as Virtual ∞-best List


Forest-based Rule Extraction<br />

●<br />

Compute target spans


Forest-based Rule Extraction<br />

●<br />

Compute admissible<br />

nodes


Forest-based Rule Extraction<br />

●<br />

Extract Minimal Rules


Forest-based Rule Extraction<br />

●<br />

Extract Minimal Rules


Forest-based Rule Extraction<br />

●<br />

Extract Minimal Rules


Forest-based Rule Extraction<br />

●<br />

Extract Minimal Rules


Forest-based Rule Extraction<br />

●<br />

Extract Minimal Rules


Rule Probabilities and Rule<br />

counts


Fractional Count


Fractional Count


Results on forest training and<br />

decoding


小 结


基 于 串 的 方 法<br />

Joint Parsing and Translation<br />

●<br />

Yang Liu and Qun Liu. 2010. Joint Parsing<br />

and Translation. In Proceedings of<br />

COLING 2010, pages 707-715, Beijing,<br />

China, August.


Seperate Parsing and<br />

Translation


Joint Parsing and Translation


Joint Parsing and Translation


Joint Parsing and Translation


Joint Parsing and Translation


Joint Parsing and Translation


Joint Parsing and Translation


Joint Parsing and Translation


Joint Parsing and Translation


Joint Parsing and Translation


Joint Parsing and Translation


Joint Parsing and Translation


Joint Parsing and Translation


Joint Parsing and Translation


Evaluation<br />

String-based Translation = Joint Parsing and<br />

Translation


Search Space Comparison<br />

String-based Translation = Joint Parsing and<br />

Translation


小 结


内 容 提 要<br />

•<br />

概 述<br />

•<br />

同 步 语 法 概 念<br />

•<br />

反 向 转 录 语 法 和 括 号 转 录 语 法<br />

•<br />

基 于 最 大 熵 括 号 转 录 语 法 的 翻 译 模 型<br />

•<br />

同 步 上 下 文 无 关 语 法 和 同 步 树 替 换 语 法<br />

•<br />

层 次 短 语 模 型<br />

•<br />

树 到 串 翻 译 模 型<br />

•<br />

串 到 树 翻 译 模 型<br />

•<br />

总 结<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

179


串 到 树 翻 译 模 型<br />

•<br />

串 到 树 翻 译 模 型 指 这 样 一 类 翻 译 模 型 :<br />

–<br />

在 源 语 言 端 进 行 不 句 法 分 析<br />

–<br />

在 目 标 语 言 端 进 行 句 法 分 析<br />

–<br />

从 目 标 语 言 端 句 法 分 析 和 词 语 对 齐 的 语 料 库 中<br />

抽 取 翻 译 规 则 并 构 造 翻 译 模 型<br />

•<br />

目 前 , 串 到 树 翻 译 模 型 的 典 型 工 作 是 美 国<br />

南 加 州 大 学 信 息 科 学 研 究 所 ( USC/ISI )<br />

从 2001 年 到 2005 年 的 系 列 工 作<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

180


ISI 的 工 作<br />

•<br />

Ulrich Germann, ACL2001 (Best Paper Award)<br />

•<br />

Kenji Yamada, ACL2001, ACL2002<br />

•<br />

Yaser Al-Onaizan, ACL2002<br />

•<br />

Michel Galley, NAACL-HLT 2004<br />

•<br />

Jonathan Graehl, NAACL-HLT 2004<br />

•<br />

Kevin Knight, CICLing 2005<br />

•<br />

Michel Galley, COLING/ACL 2006<br />

•<br />

Daniel Marcu, COLING/ACL 2006<br />

•<br />

Hao Zhang, NAACL-HLT 2006<br />

•<br />

Liang Huang, AMTA 2006<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

181


ISI 的 工 作<br />

•<br />

Scalable Inference and Training of Context-Rich Syntac<br />

tic Models<br />

–<br />

Michel Galley<br />

–<br />

COLING/ACL 2006<br />

•<br />

SPMT: Statistical Machine Translation with Syntactified<br />

Target Language Phrases<br />

–<br />

Daniel Marcu<br />

–<br />

EMNLP 2006<br />

•<br />

Synchronous Binarization for Machine Translation<br />

–<br />

Hao Zhang<br />

–<br />

NAACL-HLT 2006<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

182


同 步 生 成 树 、 串 和 对 齐<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

183


同 步 生 成 树 、 串 和 对 齐<br />

NP<br />

NP<br />

VP<br />

的<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

184


同 步 生 成 树 、 串 和 对 齐<br />

NP<br />

NP<br />

VP<br />

NNS<br />

astronauts<br />

的<br />

宇 航<br />

员<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

185


同 步 生 成 树 、 串 和 对 齐<br />

NP<br />

NP<br />

VP<br />

NNS<br />

VBG<br />

PP<br />

astronauts<br />

coming<br />

IN<br />

NP<br />

from<br />

来 自<br />

的<br />

宇 航<br />

员<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

186


同 步 生 成 树 、 串 和 对 齐<br />

NP<br />

NP<br />

VP<br />

NNS<br />

VBG<br />

PP<br />

astronauts<br />

coming<br />

IN<br />

NP<br />

from<br />

NNP<br />

China<br />

来 自<br />

中 国 的 宇 航 员<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

187


规 则 与 推 导<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

188


规 则 与 推 导<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

189


最 小 规 则 与 组 合 规 则<br />

•<br />

最 小 规 则<br />

–<br />

定 义 :<br />

• 不 能 再 分 解 成 更 小 规 则 的 规 则<br />

–<br />

例 子 :<br />

• NP(x0:DT,CD(7),NNS(people)) -> x0, 7 人<br />

• DT(these) -> 这<br />

•<br />

组 合 规 则<br />

–<br />

定 义 :<br />

• 由 两 个 或 者 多 个 最 小 规 则 组 合 成 的 规 则<br />

–<br />

例 子 :<br />

• NP(DT(these),CD(7),NNS(people)) -> 这 , 7 人<br />

• NP(x0:DT,CD(7),NNS(people)) -> x0, 7, 人<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

190


句 法 翻 译 概 率 表<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

191


•<br />

Galley<br />

翻 译 模 型 定 义<br />

–<br />

条 件 概 率 模 型 : 将 给 定 的 目 标 语 言 树 转 换 成 源 语 言 词 串<br />

的 概 率 ( F 是 源 语 言 句 子 , π 是 目 标 语 言 句 法 树 , Θ 是<br />

从 π 生 成 F 的 所 有 推 导 的 集 合 , θ 是 一 个 具 体 的 推 导 )<br />

•<br />

Marcu<br />

●<br />

Pr F∣= 1<br />

∣∣ ∑ i<br />

∈<br />

∏<br />

r j<br />

∈ i<br />

联 合 概 率 模 型 : 同 步 生 成 源 语 言 词 串 、 目 标 语 言 树 和<br />

对 齐 的 概 率 ( F 是 源 语 言 句 子 , π 是 目 标 语 言 句 法<br />

树 , A 是 F 和 A 的 对 齐 , Θ 是 同 时 生 成 π, F, A 的 所<br />

有 推 导 的 集 合 , θ 是 一 个 具 体 的 推 导 )<br />

Pr , F , A=<br />

∑<br />

i<br />

∈ , c=, F , A<br />

prhsr j<br />

∣lhsr j<br />

<br />

∏<br />

r j<br />

∈ i<br />

pr j <br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

192


与 短 语 模 型 的 兼 容 性 : 非 句 法 短 语<br />

NPB<br />

DT JJ NN<br />

the mutual understanding<br />

这 相 互 理 解<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

193


非 句 法 短 语 的 处 理 办 法<br />

•<br />

Marcu 的 办 法<br />

–<br />

忽 略 非 句 法 短 语<br />

• 损 失 : 在 汉 语 - 英 语 双 语 语 料 库 中 提 取 的 短<br />

语 中 , 28% 都 是 非 句 法 短 语<br />

–<br />

沿 目 标 语 言 句 法 树 向 上 找 一 个 可 以 覆 盖 该 短 语<br />

并 满 足 对 齐 约 束 的 结 点<br />

• 问 题 : 可 能 需 要 引 入 很 大 范 围 的 上 下 文<br />

–<br />

为 非 句 法 短 语 构 造 新 的 规 则 :<br />

Compatible Rules 兼 容 规 则<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

194


构 造 兼 容 规 则 (1)<br />

*NPB*_NN<br />

DT<br />

JJ<br />

the<br />

mutual<br />

这<br />

相 互<br />

•<br />

构 造 一 条 规 则 :<br />

–<br />

根 结 点 是 一 个 “ 伪 ” 非 终 结 符 结 点<br />

–<br />

覆 盖 若 干 棵 目 标 语 言 句 法 子 树 及 其 对 应 的 源 语 言 词 串<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

195


构 造 兼 容 规 则 (2)<br />

NPB<br />

*NPB*_NN<br />

NN<br />

•<br />

构 造 另 一 条 对 应 的 规 则 : 描 述 该 “ 伪 ” 结 点 如 何<br />

与 周 围 的 “ 真 ” 句 法 结 点 组 合 成 “ 真 ” 句 法 树 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

196


构 造 兼 容 规 则 (3)<br />

•<br />

兼 容 规 则 的 引 入 , 以 比 较 小 的 代 价 实 现 了<br />

与 短 语 模 型 的 兼 容 性 , 提 高 了 系 统 的 性 能<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

197


模 型 特 征<br />

•<br />

Galley (1)<br />

–<br />

EM-trained root-normalized SBTM<br />

•<br />

Marcu (11)<br />

–<br />

p_root(r) root normalized conditional probability of all rules<br />

–<br />

p_cfg(r) CFG-like probability of non-lexicalized rules<br />

–<br />

is_lexicalized(r) indicator 0/1<br />

–<br />

is_composed(r) indicator 0/1<br />

–<br />

is_lowcount(r) indicator count < 3 ? 1 : 0<br />

–<br />

lex_pef(r) direct phrase-based conditional probability<br />

–<br />

lex_pfe(r) inverse phrase-based conditional probability<br />

–<br />

m1(r) IBM model 1 probability<br />

–<br />

m1inv(r) IBM model 1 inverse probability<br />

–<br />

lm(e) language model<br />

–<br />

wp(e) word penalty<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

198


训 练<br />

•<br />

规 则 抽 取<br />

–<br />

Input: word-aligned, target side parsed bilingual<br />

corpus<br />

–<br />

Output: rules<br />

•<br />

概 率 估 计<br />

–<br />

How to estimate the probability distribution of<br />

rules?<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

199


Galley 的 规 则 抽 取 方 法<br />

•<br />

首 先 计 算 边 沿 结 点 集 合<br />

•<br />

自 顶 向 下 , 以 每 一 个 边 沿 结 点 为 根 结 点 :<br />

–<br />

抽 取 最 小 规 则 , 得 到 最 小 推 导<br />

或 者 :<br />

–<br />

对 于 该 结 点 覆 盖 的 未 对 齐 源 语 言 结 点 , 考 虑 其<br />

不 同 的 附 着 方 式 , 抽 取 所 有 组 合 规 则 , 得 到 推<br />

导 森 林<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

200


将 树 到 串 对 齐 表 示 为 图<br />

•<br />

为 了 对 规 则 抽 取 的 过 程 进 行 形 式 化 描 述 ,<br />

我 们 将 ( 树 , 串 , 对 齐 ) 三 元 组 表 示 为 一<br />

个 有 向 图 ( 边 都 是 向 下 的 ), 其 中 并 不 对<br />

树 中 的 边 和 表 示 对 齐 关 系 的 边 加 以 区 别 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

201


Some Notions<br />

•<br />

The span of a node n is defined by the indices of the fi<br />

rst and last word in the source string that are reachable<br />

from n<br />

•<br />

The complement span of a node n is the union of the<br />

spans of all nodes n’ in G that are neither descendants<br />

nor ancestors of n<br />

•<br />

Nodes of G whose spans and complement spans are n<br />

on-overlapping form the frontier set F∈G<br />

•<br />

A frontier graph fragment is a graph fragment that ro<br />

ot and all sinks are in the frontier set<br />

•<br />

A minimal frontier graph fragment is the one that is<br />

a subgraph of every other frontier graph fragment wit<br />

h the same root.<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

202


一 些 概 念 定 义<br />

•<br />

一 个 结 点 n 的 区 间 (span) 是 该 结 点 所 对 应 的 第 一 个 和 最 后 一 个<br />

源 语 言 单 词 所 指 定 的 范 围 。<br />

•<br />

一 个 结 点 n 的 补 区 间 (complement span) 是 图 G 中 所 有 既 非 n<br />

的 子 孙 结 点 也 非 n 的 祖 先 结 点 的 那 些 结 点 n’ 的 区 间 (span) 所 构<br />

成 的 并 集<br />

•<br />

图 G 的 边 沿 集 合 (frontier set) 是 由 图 G 中 那 些 其 区 间 与 补 区 间<br />

不 重 叠 的 结 点 所 构 成 的 集 合 F ( F⊆G )<br />

•<br />

图 G 的 一 个 边 沿 图 片 段 (frontier graph fragment) 是 图 G 的 一 个<br />

片 段 , 其 根 结 点 及 其 Sink 结 点 都 位 于 图 G 的 边 沿 集 合 中<br />

•<br />

图 G 的 一 个 最 小 边 沿 图 片 段 (minimal frontier graph fragment)<br />

是 图 G 的 一 个 边 沿 图 片 段 , 而 且 它 是 所 有 其 他 具 有 相 同 根 结 点<br />

的 边 沿 图 片 段 的 子 图<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

203


An Example<br />

灰 色 结 点 构 成 边 沿 集 合<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

204


抽 取 规 则 算 法<br />

•<br />

Step 1: 计 算 图 的 边 沿 集 合<br />

•<br />

Step 2: 对 边 沿 集 合 中 的 每 个 结 点 , 计 算 以<br />

其 为 根 结 点 的 最 小 边 沿 图 片 段<br />

•<br />

Step3: 从 该 最 小 边 沿 图 片 段 中 导 出 规 则<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

205


抽 取 规 则 1<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

206


抽 取 规 则 2<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

207


抽 取 规 则 3<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

208


抽 取 规 则 4<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

209


抽 取 规 则 5<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

210


抽 取 规 则 6<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

211


抽 取 规 则 7<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

212


抽 取 规 则 8<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

213


抽 取 规 则 9<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

214


抽 取 规 则 10<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

215


抽 取 规 则 11<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

216


抽 取 规 则 12<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

217


唯 一 最 小 推 导<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

218


未 对 齐 词 导 致 的 问 题<br />

•<br />

真 实 双 语 语 料 库 中 , 源<br />

语 言 和 目 标 语 言 中 都 有<br />

一 些 未 对 齐 的 词 , 这 些<br />

词 会 导 致 以 下 问 题 :<br />

–<br />

未 对 齐 的 目 标 语 言 词 使 得<br />

其 祖 先 结 点 区 间 无 法 确 定<br />

–<br />

未 对 齐 的 源 语 言 词 会 导 致<br />

抽 取 的 规 则 数 量 组 合 爆 炸<br />

n7<br />

n5 n6<br />

n1 n2 n3 n4<br />

w1 w2 w3 w4<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

219


未 对 齐 词 的 处 理 办 法<br />

•<br />

单 边 附 着<br />

–<br />

将 未 对 齐 单 词 附 着 到 覆 盖 它 的 区 间 最 小 的 结 点<br />

•<br />

多 边 附 着<br />

–<br />

不 做 任 何 将 未 对 齐 词 “ 正 确 ” 附 着 的 先 验 性 假<br />

设 , 而 是 返 回 所 有 与 图 G 相 容 的 推 导<br />

–<br />

利 用 语 料 库 的 统 计 信 息 来 优 先 选 取 与 整 个 语 料<br />

库 一 致 性 最 好 的 未 对 齐 附 着 方 式<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

220


源 语 言 未 对 齐 词 的 多 边 附 着<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

221


推 导 森 林<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

222


新 的 规 则 抽 取 算 法<br />

•<br />

与 老 算 法 类 似 , 新 算 法 也 是 自 顶 向 下 遍 历 图 G,<br />

区 别 在 于 , 对 于 每 个 结 点 n∈F 执 行 以 下 操 作 :<br />

搜 索 所 有 以 n 为 根 结 点 的 子 树 , 找 到 对 源 语 言 未 对 齐<br />

单 词 进 行 附 着 的 方 式 , 并 构 造 使 用 这 些 附 着 方 式 的 图 G<br />

的 有 效 推 导<br />

•<br />

比 较<br />

老 算 法<br />

新 算 法<br />

规 则 最 小 最 小 、 组 合<br />

附 着 方 式 单 边 多 边<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

223


Marcu 的 规 则 抽 取 算 法<br />

•<br />

对 于 每 一 个 源 语 言 短 语 :<br />

–<br />

首 先 抽 取 覆 盖 该 短 语 的 最 小 规 则 ;<br />

–<br />

从 最 小 规 则 的 根 结 点 , 往 上 找 到 第 一 个 带 有 多<br />

子 节 点 的 父 节 点 , 从 该 父 结 点 开 始 抽 取 一 个 包<br />

含 该 短 语 的 组 合 规 则<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

224


Marcu 的 规 则 抽 取 算 法<br />

最 小 规 则<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

225


Marcu 的 规 则 抽 取 算 法<br />

组 合 规 则<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

226


Marcu 的 规 则 抽 取 算 法<br />

最 小 规 则<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

227


Marcu 的 规 则 抽 取 算 法<br />

组 合 规 则<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

228


估 计 规 则 概 率<br />

按 规 则 左 部 完 整 树 进 行 归 一 化 :<br />

按 规 则 左 部 根 结 点 进 行 归 一 化 :<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

229


Example<br />

假 设 左 部 的 对 齐 出 现 了 99 次 , 右 边 的 对 齐 仅 出 现 了 1 次<br />

按 树 归 一 化 :<br />

p1 = 99/100 = 0.99<br />

p2 = 1/100 = 0.01<br />

p3 = 99/99 = 1.0<br />

p4 = 99/99 = 1.0<br />

preferred by Liu<br />

按 根 结 点 归 一 化 :<br />

p1 = 99/199 = 0.4975<br />

p2 = 1/199 = 0.0050<br />

p3 = 99/199 = 0.4976<br />

p4 = 99/99 = 1.0<br />

preferred by Galley<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

230


EM 训 练 算 法<br />

可 以 采 用 EM 算 法 来 训 练 上 述 模 型 , 各 规 则 的 初 始<br />

概 率 设 置 为 均 匀 分 布 :<br />

• 计 算 所 有 推 导 θ i<br />

的 概 率 , 为 推 导 过 程 所 采 用 的 所<br />

有 规 则 概 率 的 乘 积 ;<br />

• 对 同 一 个 句 子 的 所 有 推 导 θ i<br />

的 概 率 进 行 归 一 化 ,<br />

使 其 概 率 之 和 为 1 ;<br />

• 对 于 每 一 条 规 则 , 对 齐 出 现 在 的 所 有 推 导 θ i<br />

求<br />

和 , 作 为 该 规 则 的 新 的 概 率 p i<br />

• 对 p i<br />

进 行 归 一 化<br />

重 复 上 述 步 骤 , 语 料 库 的 似 然 率 将 逐 步 提 高 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

231


高 效 的 EM 训 练 算 法<br />

•<br />

由 于 不 可 能 对 大 量 的 推 导 进 行 穷 举 , 上 述<br />

算 法 实 际 上 是 不 可 行 的 。<br />

•<br />

Graehl and Knight (2004) 提 出 了 一 种 高 效 的<br />

训 练 算 法 :<br />

–<br />

对 于 每 个 训 练 实 例 构 造 一 个 推 导 森 林 ;<br />

–<br />

在 该 推 导 森 林 上 运 行 EM 算 法 , 其 复 杂 度 是 森<br />

林 规 模 的 多 项 式 函 数 ;<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

232


解 码<br />

•<br />

采 用 自 底 向 上 的 CKY 形 式 的 算 法 , 在 源 语<br />

言 句 子 的 基 础 上 , 构 造 目 标 语 言 的 短 语 结<br />

构 句 法 树<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

233


Example<br />

枪 手 被 警 方 击 毙 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

234


Example<br />

NNS<br />

gunmen<br />

枪 手 被 警 方 击 毙 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

235


Example<br />

NP<br />

DT<br />

The<br />

NNS<br />

gunmen<br />

枪 手 被 警 方 击 毙 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

236


Example<br />

NP<br />

DT<br />

The<br />

NNS<br />

gunmen<br />

by<br />

IN<br />

枪 手 被 警 方 击 毙 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

237


Example<br />

NP<br />

DT<br />

NNS<br />

IN<br />

NN<br />

The<br />

gunmen<br />

by<br />

police<br />

枪 手 被 警 方 击 毙 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

238


Example<br />

NP<br />

NP<br />

DT<br />

NNS<br />

IN<br />

DT<br />

NN<br />

the<br />

gunmen<br />

by<br />

the<br />

police<br />

枪 手 被 警 方 击 毙 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

239


Example<br />

NP<br />

NP<br />

DT<br />

NNS<br />

IN<br />

DT<br />

NN<br />

VBN<br />

the<br />

gunmen<br />

by<br />

the<br />

police<br />

killed<br />

枪 手 被 警 方 击 毙 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

240


Example<br />

NP<br />

NP<br />

DT<br />

NNS<br />

IN<br />

DT<br />

NN<br />

VBN<br />

.<br />

the<br />

gunmen<br />

by<br />

the<br />

police<br />

killed<br />

.<br />

枪 手 被 警 方 击 毙 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

241


Example<br />

PP<br />

NP<br />

NP<br />

DT<br />

NNS<br />

IN<br />

DT<br />

NN<br />

VBN<br />

.<br />

the<br />

gunmen<br />

by<br />

the<br />

police<br />

killed<br />

.<br />

枪 手 被 警 方 击 毙 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

242


Example<br />

VP-C<br />

PP<br />

NP<br />

NP<br />

DT<br />

NNS<br />

VBN<br />

IN<br />

DT<br />

NN<br />

.<br />

the<br />

gunmen<br />

killed<br />

by<br />

the<br />

police<br />

.<br />

枪 手 被 警 方 击 毙 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

243


Example<br />

VP<br />

VP-C<br />

PP<br />

NP<br />

NP<br />

DT<br />

NNS<br />

VBD<br />

VBN<br />

IN<br />

DT<br />

NN<br />

.<br />

the<br />

gunmen<br />

were<br />

killed<br />

by<br />

the<br />

police<br />

.<br />

枪 手 被 警 方 击 毙 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

244


Example<br />

S<br />

VP<br />

VP-C<br />

PP<br />

NP<br />

NP<br />

DT<br />

NNS<br />

VBD<br />

VBN<br />

IN<br />

DT<br />

NN<br />

.<br />

the<br />

gunmen<br />

were<br />

killed<br />

by<br />

the<br />

police<br />

.<br />

枪 手 被 警 方 击 毙 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

245


规 则 的 二 叉 化 ( Binarization )<br />

•<br />

现 有 规 则 不 是 二 叉 的 : 规 则 右 部 可 以 有 多<br />

个 结 点 ;<br />

•<br />

多 叉 的 规 则 导 致 解 码 器 编 程 比 较 复 杂 ;<br />

•<br />

解 决 办 法 : 对 规 则 进 行 二 叉 化 。 通 过 增 加<br />

非 终 结 符 将 所 有 规 则 变 成 二 叉 的 规 则 。<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

246


规 则 的 二 叉 化 ( Binarization )<br />

•<br />

不 是 所 有 规 则 都 可 以 二 叉 化<br />

•<br />

有 多 大 比 例 的 规 则 可 以 二 叉 化 ?<br />

–<br />

根 据 张 浩 的 论 文 , 在 一 个 汉 英 双 语 语 料 库 中 提<br />

取 的 50,879,242 条 规 则 中 , 99.7% 的 规 则 是 可<br />

以 二 叉 化 的 , 而 且 剩 下 的 0.3% 的 规 则 , 根 据 人<br />

类 专 家 的 判 断 , 绝 大 部 分 都 是 对 齐 错 误 导 致 的<br />

•<br />

规 则 二 叉 化 有 什 么 作 用 ?<br />

–<br />

对 翻 译 质 量 没 有 损 失<br />

–<br />

简 化 解 码 器 的 编 程 复 杂 度<br />

–<br />

允 许 更 有 效 的 剪 枝<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

247


线 性 的 二 叉 化 算 法<br />

•<br />

一 条 规 则 通 常 有 很 多 种 二 叉 化 的 方 法<br />

•<br />

张 浩 、 黄 亮 等 人 提 出 了 一 种 有 效 的 二 叉 化<br />

算 法<br />

–<br />

一 种 移 进 - 规 约 算 法<br />

–<br />

只 需 扫 描 一 遍 , 在 线 性 时 间 内 找 到 一 种 规 则 二<br />

叉 化 等 价 形 式<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

248


Galley 的 实 验 : 不 同 规 则 集<br />

Cm : 只 抽 取 最 小 规 则<br />

C3 : 抽 取 最 小 规 则 和 组 合 规 则 , 规 则 最 多 包 含 三 个 内 部 结 点<br />

C4 : 抽 取 最 小 规 则 和 组 合 规 则 , 规 则 最 多 包 含 四 个 内 部 结 点<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

249


Galley 所 采 用 的 特 征<br />

•<br />

实 验 系 统 的 解 码 器 搜 索 过 程 中 仅 采 用 了 一<br />

个 经 过 EM 训 练 的 、 Root 归 一 化 的 基 于 句<br />

法 的 翻 译 模 型 ( SBTM ) 特 征 , 甚 至 没 有<br />

采 用 语 言 模 型<br />

•<br />

Och 的 基 于 对 齐 模 板 的 系 统 AlTemp 作 为 对<br />

比 系 统 , 该 系 统 采 用 了 两 个 基 于 短 语 ( PB<br />

TM ) 的 翻 译 模 型 特 征 和 12 个 其 他 特 征<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

250


Marcu 的 实 验 : SPMT Models<br />

•<br />

SPMT Model 1 最 小 规 则<br />

•<br />

SPMT Model 1 Composed 组 合 规 则<br />

•<br />

SPMT Model 2 最 小 规 则 + 兼 容 规 则<br />

•<br />

SPMT Model 2 Composed 组 合 规 则 + 兼 容 规 则<br />

抽 取 的 时 候 , 限 制 源 语 言 端 短 语 的 长 度 不 超 过 四 个 词<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

251


组 合 多 个 SPMT 模 型 的 输 出 结 果<br />

●<br />

●<br />

●<br />

每 一 个 SPMT 模 型 对 于 开 发 集 中 的 所 有 句 子 都 生<br />

成 一 个 nbest 列 表 , 并 给 出 每 一 个 候 选 译 文 的 所 有<br />

特 征 值<br />

将 同 一 个 句 子 的 所 有 候 选 译 文 合 并 , 根 据 其 特 征<br />

值 重 新 进 行 最 小 错 误 率 训 练 , 得 到 一 组 新 的 特 征<br />

参 数<br />

用 这 组 特 征 参 数 , 对 于 测 试 集 上 生 成 的 nbest 输 出<br />

进 行 重 新 评 分 ( rerank )<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

252


Marcu 采 用 的 特 征<br />

• proot(r i<br />

) : 对 root 归 一 化 的 概 率<br />

• pcfg(r i<br />

) : 类 cfg 概 率<br />

• is_lexicalized(r i<br />

) : 是 否 词 汇 化 规 则<br />

• is_composed(r i<br />

) : 是 否 组 合 规 则<br />

• is_lowcount(r i<br />

) : 是 否 出 现 三 次 以 下<br />

• lex_pef(r i<br />

) : 短 语 翻 译 概 率<br />

• lex_pfe(r i<br />

) : 反 向 短 语 翻 译 概 率<br />

• m1(r i<br />

) : IBM model 1<br />

• m1inv(r i<br />

) : 反 向 IBM Model 1<br />

•<br />

lm(e) : 语 言 模 型<br />

•<br />

wp(e) : 单 词 数 惩 罚<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

253


实 验 结 果 : Galley Vs. Och<br />

Och 的 对 齐 模 板 模 型<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

254


实 验 结 果 : Marcu Vs. Och<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

255


实 验 结 果 : Marcu Vs. Och<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

256


Analysis<br />

•<br />

Galley<br />

–<br />

Good results with very poor feature functions<br />

–<br />

Very promising<br />

–<br />

It’s reasonable to find that C4 > C3 > Cm due to their difference<br />

in expressive power<br />

•<br />

Marcu<br />

–<br />

Outperform Och’s !<br />

–<br />

The results are really confusing. I suppose that:<br />

• m2c > m2 > m1c > m1<br />

–<br />

Marcu suspect the decoder still makes many search errors<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

257


内 容 提 要<br />

•<br />

概 述<br />

•<br />

同 步 语 法 概 念<br />

•<br />

反 向 转 录 语 法 和 括 号 转 录 语 法<br />

•<br />

基 于 最 大 熵 括 号 转 录 语 法 的 翻 译 模 型<br />

•<br />

同 步 上 下 文 无 关 语 法 和 同 步 树 替 换 语 法<br />

•<br />

层 次 短 语 模 型<br />

•<br />

树 到 串 翻 译 模 型<br />

•<br />

串 到 树 翻 译 模 型<br />

•<br />

总 结<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

258


总 结<br />

•<br />

同 步 语 法<br />

•<br />

形 式 化 基 于 句 法 的 翻 译 模 型<br />

–<br />

最 大 熵 括 号 转 录 语 法 模 型<br />

–<br />

层 次 化 短 语 模 型<br />

•<br />

语 言 学 基 于 句 法 的 翻 译 模 型<br />

–<br />

树 到 串 对 齐 模 板 模 型<br />

–<br />

ISI 的 串 到 树 模 型<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

259


Views on<br />

String-to-Tree Vs. Tree-to-String<br />

•<br />

Galley<br />

–<br />

The target language (i.e. English) has syntactic resources (parsers and<br />

treebanks) that are considerably more available than for the source language<br />

–<br />

There is less benefit in modeling the syntax of the source language, since the<br />

input sentence is fixed during decoding and is generally already grammatical<br />

•<br />

Liu<br />

–<br />

Source analysis may be important<br />

–<br />

Ill-formed source trees make the Tree-to-String decoder difficult to seek the<br />

“true” translation. We can never expect good syntactically-motivated reordering<br />

under ill-formed source tree structures. In contrast, the input of String-to-Tree<br />

decoding is source string. The decoder may build a reasonable target tree with the<br />

help of language model even though the rules are learned from ill-formed target<br />

trees in training data.<br />

–<br />

Tree-to-String decoding is useful for translating resource-rich languages (e.g.<br />

English) into resource-poor languages (e.g. Inuktitut)<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

260


ISI Vs. ICT<br />

ISI<br />

ICT<br />

model string-to-tree tree-to-string<br />

phrasal compatibility full partial<br />

features 11 7<br />

extraction algorithm top-down bottom-up<br />

unaligned words attachment multiple single<br />

decoding algorithm bottom-up CKY bottom-up beam search<br />

rule binarization yes no<br />

nbest derivation generation yes no<br />

nbest list generation yes no<br />

treat BPs as special rules no yes<br />

improve fluency using BPs no yes<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

261


Comparison<br />

Chiang Galley Marcu Liu<br />

model formal syntax string-to-tree string-to-tree tree-to-string<br />

tree<br />

annotations<br />

syntacticallymotivated<br />

phrasal<br />

compatibility<br />

enable<br />

discontinuous<br />

source<br />

phrases<br />

feature<br />

functions<br />

single-level multi-level multi-level multi-level<br />

no yes yes yes<br />

yes no yes no<br />

yes yes no yes<br />

8 1 11 7<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

262


讨 论<br />

机 器 翻 译 原 理 与 方 法 (05) 基 于 句 法 的 机 器 翻 译 方 法<br />

263

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!