21.11.2014 Views

越汉双语句子自动对齐研究初步 - 清华大学自然语言处理与社会人文 ...

越汉双语句子自动对齐研究初步 - 清华大学自然语言处理与社会人文 ...

越汉双语句子自动对齐研究初步 - 清华大学自然语言处理与社会人文 ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

越 汉 双 语 句 子 自 动 对 齐 研 究 初 步<br />

陈 坚 忠 , 李 鹏 , 孙 茂 松<br />

智 能 技 术 与 系 统 国 家 重 点 实 验 室<br />

清 华 信 息 科 学 与 技 术 国 家 实 验 室 ( 筹 )<br />

清 华 大 学 计 算 机 系 北 京 100084<br />

E-mail: tktrungna@gmail.com, pengli09@gmail.com, sms@mail.tsinghua.edu.cn<br />

摘 要 : 句 子 级 对 齐 双 语 语 料 是 自 然 语 言 处 理 的 重 要 资 源 之 一 , 对 于 机 器 翻 译 、 跨 语 言 检 索 、 双 语 词 典<br />

编 纂 等 研 究 有 很 大 应 用 价 值 。 关 于 自 动 句 子 对 齐 的 研 究 主 要 针 对 于 英 语 、 法 语 、 汉 语 等 语 言 , 据 我 们 所<br />

知 , 尚 未 见 到 针 对 越 南 语 - 汉 语 的 相 关 研 究 。 本 文 考 查 了 使 用 不 同 参 数 时 , 基 于 长 度 的 句 子 对 齐 算 法 、<br />

Champollion 算 法 在 越 南 语 - 汉 语 双 语 文 本 上 的 效 果 , 并 根 据 汉 字 与 越 南 语 音 节 间 的 独 特 对 应 关 系 对<br />

Champollion 算 法 进 行 了 改 进 , 获 得 了 更 好 的 对 齐 效 果 。<br />

关 键 词 : 越 汉 句 子 自 动 对 齐<br />

Preliminary Study on Vietnamese-Chinese Bilingual<br />

Sentence Alignment<br />

Kien Trung Tran, Peng Li, Maosong Sun<br />

State Key Laboratory of Intelligent Technology and Systems<br />

Tsinghua National Laboratory for Information Science and Technology<br />

Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China<br />

E-mail: tktrungna@gmail.com, pengli09@gmail.com, sms@mail.tsinghua.edu.cn<br />

Abstract: Sentence-level aligned parallel corpora are very important resources for a number of natural language processing<br />

tasks, including machine translation, cross language information retrieval and lexicography. In this paper, we investigate the<br />

performance of length-based sentence alignment algorithm and Champollion algorithm for Vietnamese-Chinese sentence<br />

alignment. And we propose a method to improving the Champollion algorithm by adopting the correspondence between<br />

Vietnamese syllables and Chinese characters. Preliminary experiments show the effectiveness of this method.<br />

Keywords: Vietnamese-Chinese bilingual sentence alignment.<br />

1 引 言<br />

随 着 经 济 的 发 展 , 中 越 两 国 之 间 的 交 流 、 合 作 越 来 越 多 , 越 南 语 - 汉 语 ( 简 称 越 汉 )<br />

双 语 相 关 信 息 处 理 需 求 也 越 来 越 强 , 如 越 汉 机 器 翻 译 技 术 、 跨 语 言 检 索 技 术 等 , 相 应 的 研<br />

究 工 作 也 蓬 勃 开 展 起 来 。 越 汉 双 语 语 料 库 , 特 别 是 句 子 级 对 齐 的 越 汉 双 语 语 料 , 是 这 些 研<br />

究 工 作 的 基 础 性 资 源 , 越 汉 双 语 语 料 库 的 构 建 技 术 具 有 重 要 的 学 术 和 商 业 价 值 。 互 联 网 上<br />

具 有 大 量 越 汉 双 语 网 页 , 是 越 汉 双 语 语 料 的 重 要 来 源 , 但 这 些 网 页 多 数 都 只 是 在 篇 章 级 对<br />

齐 , 手 工 找 出 这 些 篇 章 中 句 子 间 的 对 应 关 系 ( 即 “ 句 子 对 齐 ”) 费 时 费 力 , 无 法 实 用 。 因<br />

此 利 用 计 算 机 自 动 进 行 句 子 对 齐 对 构 建 越 汉 双 语 语 料 库 具 有 重 要 意 义 , 但 据 我 们 所 知 , 目<br />

前 尚 未 见 到 越 汉 双 语 句 子 对 齐 的 相 关 研 究 工 作 发 表 。 在 本 论 文 中 , 我 们 考 查 了 在 其 他 语 言<br />

对 上 常 用 的 基 于 长 度 的 句 子 对 齐 算 法 和 Champollion 算 法 在 越 汉 语 言 对 上 的 性 能 , 并 针 对<br />

汉 字 与 越 南 语 音 节 间 的 独 特 对 应 关 系 对 Champollion 算 法 进 行 了 改 进 , 以 解 决 汉 语 和 越 南<br />

语 分 词 标 准 不 一 致 带 来 的 问 题 。<br />

现 代 越 南 语 文 字 采 用 拉 丁 字 母 , 其 基 本 组 成 单 位 是 音 节 , 音 节 间 以 空 格 进 行 分 隔 。 在<br />

历 史 上 的 一 段 时 期 内 , 越 南 与 中 国 之 间 有 着 比 较 深 刻 的 接 触 , 并 以 汉 字 作 为 自 己 的 正 式 文<br />

字 , 因 此 汉 语 对 越 南 语 产 生 了 很 大 影 响 。 在 现 代 越 南 语 中 , 对 于 每 个 汉 字 , 都 有 一 个 或 多<br />

个 音 节 与 之 对 应 , 称 为 汉 越 音 (Sino-Vietnamese), 这 一 现 象 是 越 南 语 与 汉 语 间 所 特 有 的 。


例 子 1 展 示 了 一 个 越 南 语 句 子 及 其 对 应 的 汉 语 句 子 , 以 及 该 对 句 子 中 汉 字 与 越 南 语 音 节 之<br />

间 的 对 应 关 系 。<br />

例 子 1:Tôi làlưu học sinh Việt Nam, tôi yêu xử lýngôn ngữ tự nhiên.<br />

我 是 越 南 留 学 生 , 我 爱 自 然 语 言 处 理 。<br />

正 如 上 文 所 述 , 越 南 语 中 的 空 格 只 作 为 音 节 间 的 分 隔 符 , 而 不 是 词 的 分 隔 符 , 因 此 越<br />

南 语 像 汉 语 一 样 存 在 分 词 问 题 。 例 子 2 中 展 示 了 例 子 1 中 句 对 理 想 的 分 词 结 果 , 表 1 列 出<br />

了 例 子 2 中 越 南 语 词 和 汉 语 词 间 的 对 应 关 系 。 近 十 年 来 , 学 术 界 对 越 南 语 的 分 词 问 题 进 行<br />

了 大 量 研 究 , 目 前 已 有 一 定 的 成 果 [4,5,6,8] 。 现 代 越 南 语 词 汇 大 致 可 分 成 三 类 : 固 有 词 ( 本<br />

身 就 有 的 词 汇 )、 汉 越 词 ( 自 古 汉 语 派 生 出 的 词 汇 ) 以 及 外 来 词 ( 由 古 汉 语 以 外 的 语 言 如<br />

英 语 、 法 语 等 传 入 的 词 汇 )。 其 中 , 汉 越 词 的 意 义 和 用 法 跟 相 应 的 现 代 汉 语 词 并 不 完 全 一<br />

致 , 在 不 同 类 型 文 档 中 的 比 例 也 有 所 不 同 , 如 在 科 学 、 行 政 等 领 域 的 文 档 中 比 例 较 高 , 而<br />

在 小 说 、 新 闻 等 领 域 的 文 档 中 比 例 则 会 低 一 些 , 但 一 般 其 比 例 不 低 于 60% 1 。<br />

例 子 2:【 越 南 语 】Tôi/ là/ lưu học sinh/ Việt Nam/,/ tôi/ yêu/ xử lý/ ngôn ngữ/ tự nhiên/.<br />

【 汉 语 】 我 / 是 / 越 南 / 留 学 生 /,/ 我 / 爱 / 自 然 / 语 言 / 处 理 /。<br />

越 南 语 词 汉 语 词 越 南 语 词 汉 语 词<br />

lưu học sinh 留 学 生 ngôn ngữ 语 言<br />

Việt Nam 越 南 tự nhiên 自 然<br />

xử lý<br />

处 理<br />

表 1: 例 2 中 越 南 语 词 与 汉 语 词 间 的 对 应 关 系<br />

论 文 后 续 的 内 容 安 排 如 下 : 第 二 部 分 介 绍 了 句 子 对 齐 有 关 的 概 念 和 相 关 工 作 , 第 三 部<br />

分 介 绍 了 算 法 细 节 和 我 们 所 作 的 改 进 , 第 四 部 分 给 出 实 验 结 果 和 讨 论 , 第 五 部 分 进 行 总 结 。<br />

2 概 念 与 相 关 工 作<br />

2.1. 句 子 对 齐 相 关 概 念<br />

为 了 叙 述 方 便 , 我 们 首 先 定 义 “ 句 珠 ” 和 “ 互 译 单 元 ” 这 两 个 概 念 。<br />

句 珠 (bead): 一 个 句 珠 由 一 句 或 多 句 源 文 与 一 句 或 多 句 译 文 组 成 。 在 本 文 中 , 记 V、<br />

C 分 别 为 越 南 语 文 档 和 汉 语 文 档 , 我 们 用 如 下 符 号 表 示 一 个 句 珠 : ( )<br />

, 其 中 、 分 别 表 示 V、C 的 第 i 个 和 第 j<br />

个 句 子 。 后 文 中 我 们 用 m-n 表 示 一 个 句 珠 包 含 m 个 源 文 句 子 和 n 个 译 文 句 子 。<br />

互 译 单 元 : 我 们 称 一 对 互 为 翻 译 的 字 串 为 一 个 互 译 单 元 。 互 译 单 元 的 粒 度 比 较 灵 活 ,<br />

可 以 是 一 对 互 译 的 汉 字 与 越 南 语 音 节 , 如 “lưu” 与 “ 留 ”, 也 可 以 是 一 对 互 译 的 词 , 如 “lưu<br />

học sinh” 与 “ 留 学 生 ”, 甚 至 可 以 是 一 对 互 译 的 句 子 片 断 , 如 “Tôi là lưu học sinh Việt Nam”<br />

与 “ 我 是 越 南 留 学 生 ”。<br />

2.2. 基 于 长 度 方 法<br />

基 于 长 度 方 法 的 出 发 点 是 : 一 般 比 较 长 的 句 子 的 译 文 也 比 较 长 , 而 比 较 短 的 句 子 的 译<br />

文 也 比 较 短 , 从 而 可 以 利 用 源 文 与 译 文 句 子 长 度 间 的 对 应 关 系 作 为 对 齐 的 依 据 。<br />

在 已 有 文 献 中 , 对 于 句 子 长 度 有 两 种 度 量 方 式 :Brown 等 人 在 文 献 [1] 中 认 为 翻 译 的<br />

基 本 单 位 应 该 是 词 , 所 以 应 以 词 数 作 为 句 子 长 度 的 度 量 单 位 ; 而 Gale 和 Church 在 文 献 [2]<br />

中 认 为 某 些 句 子 中 所 含 的 词 的 数 目 比 较 少 , 以 词 数 作 为 句 子 长 度 的 度 量 单 位 会 使 度 量 准 确<br />

性 变 差 , 而 以 字 节 数 作 为 度 量 单 位 的 准 确 性 会 更 高 , 所 以 应 以 字 节 数 作 为 句 子 长 度 的 度 量<br />

1 http://zh.wikipedia.org/wiki/ 汉 越 词 ,( 访 问 时 间 :2011 年 4 月 19 日 )


单 位 。 本 文 在 实 验 部 分 对 这 两 种 度 量 方 式 都 进 行 了 考 查 。<br />

基 于 长 度 方 法 优 点 在 于 存 储 开 销 小 、 运 行 速 度 快 。 对 于 一 些 比 较 相 近 的 语 言 对 , 如 英<br />

语 和 法 语 等 , 采 用 这 种 方 法 可 得 到 比 较 好 的 结 果 [1,2] 。 但 是 , 它 只 用 了 简 单 的 长 度 信 息 而<br />

忽 略 了 句 子 中 的 丰 富 词 汇 信 息 , 所 以 对 于 语 系 上 差 别 较 大 的 语 言 对 ( 如 英 汉 ) 正 确 性 有 所<br />

下 降 [3] 。<br />

2.3. 基 于 词 汇 信 息 方 法<br />

该 类 方 法 考 虑 了 词 汇 信 息 在 句 子 对 齐 中 的 作 用 , 一 般 会 比 基 于 长 度 方 法 取 得 更 好 的 效<br />

果 。 基 于 词 汇 信 息 方 法 又 可 细 分 为 两 大 类 : 不 使 用 词 典 的 方 法 与 使 用 词 典 的 方 法 。 不 使 用<br />

词 典 的 方 法 适 用 于 使 用 相 似 文 字 的 语 言 对 ( 如 英 语 与 法 语 ), 这 些 语 言 对 中 存 在 一 定 的 同<br />

源 词 , 可 以 利 用 启 发 式 规 则 和 字 符 串 匹 配 来 对 这 些 同 源 词 进 行 匹 配 , 以 帮 助 进 行 句 子 对 齐 。<br />

使 用 词 典 的 方 法 借 助 双 语 词 典 实 现 语 言 间 词 汇 的 匹 配 , 以 帮 助 进 行 句 子 对 齐 , 适 用 范 围 更<br />

广 。 越 南 语 与 汉 语 文 字 存 在 较 大 差 别 , 无 法 通 过 简 单 的 规 则 在 词 语 间 或 音 节 与 汉 字 间 实 现<br />

匹 配 , 只 适 合 使 用 基 于 词 典 的 方 法 。<br />

[3]<br />

Champollion 算 法 是 Xiaoyi Ma 在 2006 年 提 出 的 一 种 使 用 词 典 的 句 子 对 齐 算 法 。 它<br />

认 为 在 确 定 句 子 是 否 互 译 的 过 程 中 , 仅 在 少 数 文 档 中 偶 尔 出 现 的 互 译 词 汇 要 比 常 常 在 很 多<br />

文 档 中 出 现 的 互 译 词 汇 具 有 更 高 的 置 信 度 。 基 于 这 一 观 察 , 它 参 考 信 息 检 索 中 常 用 的 tf–<br />

idf 模 型 对 互 译 词 汇 进 行 加 权 , 取 得 了 很 好 的 效 果 。 这 一 方 法 简 单 有 效 , 因 此 本 文 中 将 其<br />

作 为 典 型 的 基 于 词 汇 信 息 方 法 进 行 考 查 , 并 针 对 越 南 语 与 汉 语 的 特 点 对 其 进 行 了 改 进 。<br />

基 于 词 汇 信 息 方 法 较 基 于 长 度 方 法 存 储 开 销 要 大 , 速 度 要 慢 , 但 具 有 更 好 的 鲁 棒 性 。<br />

另 外 , 这 一 类 方 法 的 效 果 依 赖 于 词 典 规 模 。 采 用 的 词 典 规 模 越 大 、 质 量 越 高 , 效 果 越 好 。<br />

所 以 准 备 比 较 好 的 词 典 是 一 个 很 重 要 的 工 作 步 骤 。<br />

3 越 汉 句 子 对 齐 实 现<br />

3.1. 基 于 长 度 方 法<br />

基 于 长 度 方 法 为 每 一 种 可 能 的 对 齐 结 果 赋 予 不 同 的 概 率 , 将 概 率 最 大 的 对 齐 作 为 最 优<br />

对 齐 。 概 率 模 型 的 定 义 如 下 :<br />

假 设 互 为 翻 译 的 概 率 只 依 赖 于 它 们 的 长 度 属 性 , 且 句 珠 间 是 相 互 独 立 的 , 则 V、<br />

C 对 齐 的 概 率 可 表 示 为 : ∏ ( ), 根 据 条 件 概 率 公 式<br />

有 :<br />

( )<br />

( )<br />

( )<br />

( )<br />

( 这 里 对 于 任 意 的 ( ) 可 以 认 为 是 常 数 , 所 以 可 以 忽 略 )<br />

对 于 0-1 或 1-0 型 句 珠 , 可 以 利 用 V、C 中 句 子 长 度 的 分 布 来 估 计 (<br />

)。 而 对 于 其 他 类 型 的 句 珠 , 可 进 一 步 分 解 为 :<br />

( ) ( ) ( | )<br />

( ) ( ) 其 中 ( ), 为 归 一 化 因 子 , 与 可 从 标 注 语 料<br />

库 上 统 计 得 到 。<br />

本 文 中 我 们 考 虑 了 两 种 长 度 单 位 的 定 义 , 即 音 节 / 汉 字 和 字 节 。 计 算 方 法 为 : 对 于 越<br />

南 语 , 以 空 格 作 为 音 节 的 分 隔 符 , 被 空 格 分 开 的 每 一 组 越 南 语 字 母 计 一 个 音 节 , 每 个 越 南<br />

语 的 字 母 ( 如 a, b, ă, ắ, ...) 计 一 个 字 节 ; 对 于 汉 语 , 每 个 标 点 也 计 作 一 个 汉 字 , 每 个 汉 字<br />

计 两 个 字 节 。<br />

3.2. Champollion 算 法<br />

Champollion 算 法 定 义 了 句 珠 的 相 似 度 , 并 将 一 个 对 齐 中 各 句 珠 相 似 度 的 总 和 作 为 该


对 齐 的 评 分 , 取 评 分 最 高 的 对 齐 作 为 最 优 对 齐 。<br />

对 于 两 段 文 本 , 设 P={( , ), ( , ), ..., ( , )} 为 它 们 中 的 k- 互 译 单 元 集 。<br />

借 用 信 息 检 索 中 常 用 的 tf–idf 模 型 , 对 于 每 个 互 译 单 元 对 , 定 义 idtf (term<br />

frequency–inverse document frequency)、stf (segment–wide term frequency) 如 下 :<br />

在 整 个 文 档 中 出 现 的 频 率<br />

,<br />

在 中 出 现 的 频 率<br />

{ } ,<br />

其 中 分 别 为 在 V,C 中 出 现 的 频 率 。 , 的 相 似 度 评 价 函 数<br />

定 义 为 :<br />

∑ ( ) ,<br />

对 于 型 句 珠<br />

其 中 {<br />

大 于 小 于 的 值 对 于 其 他 类 型 句 珠 ,<br />

是 关 于 的 长 度 的 函 数 。<br />

对 于 英 语 、 法 语 等 , 句 子 中 的 最 小 单 元 是 词 , 且 可 以 简 单 的 按 空 格 来 分 词 , 然 而 对 于<br />

汉 语 、 越 南 语 , 最 小 单 元 分 别 是 汉 字 和 音 节 , 且 二 者 间 除 了 词 间 的 对 应 关 系 外 还 有 音 节 与<br />

汉 字 间 的 对 应 关 系 , 因 此 可 以 考 虑 将 词 或 音 节 作 为 互 译 单 元 。 相 应 的 对 每 一 种 互 译 单 元 的<br />

定 义 , 需 要 构 造 相 应 的 双 语 词 典 ( 基 于 词 的 词 典 、 基 于 音 节 / 汉 字 的 词 典 )。<br />

虽 然 越 南 语 、 汉 语 的 分 词 算 法 已 经 做 得 比 较 好 , 但 两 种 语 言 的 分 词 器 采 用 的 分 词 标 准<br />

不 同 , 分 词 结 果 也 不 同 , 这 样 当 以 词 为 互 译 单 元 时 会 出 现 找 不 到 互 译 单 元 对 的 情 况 。 例 如<br />

在 例 子 2 中 , 有 两 个 互 译 词 对 : ( ngôn ngữ , 语 言 ) 和 ( tự nhiên , 自 然 ) , 而<br />

vnTokenizer 2 会 把 “ngôn ngữ tự nhiên” 分 为 一 个 词 , 但 ICTCLAS 3 则 把 “ 自 然 语 言 ” 分 成<br />

“ 自 然 ”、“ 语 言 ” 两 个 词 。 这 样 通 过 词 典 就 无 法 找 出 这 两 个 词 组 的 互 译 关 系 , 导 致 例 子<br />

2 的 两 个 句 子 相 似 度 下 降 。 如 果 定 义 互 译 单 元 为 音 节 , 通 过 音 节 词 典 可 以 找 到 两 词 组 中 音<br />

节 互 译 关 系 为 :(ngôn, 言 )、(ngữ, 语 )、(tự, 自 )、(nhiên, 然 ), 因 此 会 把 例<br />

子 2 的 两 个 句 子 相 似 度 提 高 。 但 越 南 语 词 汇 中 除 了 汉 越 词 还 有 固 有 词 、 外 来 词 , 另 外 不 少<br />

汉 字 对 应 的 越 南 音 在 现 代 越 南 语 中 很 少 使 用 , 例 如 在 例 子 3 中 , 汉 字 “ 胶 ” 对 应 的 越 南 音 是<br />

“giao”, 而 句 子 中 使 用 的 是 “cao su” 这 个 词 , 需 要 使 用 基 于 词 汇 的 词 典 来 对 这 个 互 译 对 进 行<br />

验 证 。<br />

例 子 3: 【 越 南 语 】Ông ta/ đi/ dép/ cao su/ lên lớp/./<br />

【 汉 语 】 他 / 穿 / 了 / 胶 鞋 / 上 / 课 /。/<br />

为 了 解 决 这 一 问 题 , 我 们 提 出 一 个 改 进 方 法 。 借 用 前 向 最 大 匹 配 分 词 方 法 的 思 想 , 我<br />

们 利 用 词 典 来 “ 分 词 ”, 找 出 互 译 单 元 。 设 V = { , ,..., , }、C = { , ,..., , }<br />

分 别 为 越 南 语 文 本 与 汉 语 文 本 , , 为 相 应 文 本 中 的 音 节 或 汉 字 。 找 出 对 应 互 译 的 单 元<br />

(1) 考 虑 源 文 中 的 音 节<br />

(2) if 存 在 , 并 且 , 在 词 典 中 出 现<br />

then 当 为 一 个 互 译 对 , 且 接 着 考 虑 源 文 中 音 节 , 跳 到 (1)<br />

(3) else 考 虑 源 文 中 的 两 个 音 节<br />

(4) if 存 在 , 并 且 , 在 词 典 中 出 现<br />

then 当 为 一 个 互 译 对 , 且 接 着 考 虑 源 文 中 音 节 , 跳 到 (1)<br />

(5) else 继 续 考 虑 源 文 中 的 三 音 节<br />

一 直 考 虑 到 , 其 中 max 为 词 典 中 源 文 词 最 大 的 长 度 。<br />

( 实 验 中 使 用 的 词 典 中 词 的 长 度 一 般 小 于 等 于 2, 所 以 设 max=2)<br />

算 法 1: 基 于 词 汇 改 进 句 子 对 齐 方 法<br />

2 http://vlsp.vietlp.org:8080/demo/dl/VnTokenizer_VLSP_SP82_20100804.tgz 3 http://ictclas.org/index.html


算 法 如 算 法 1 所 示 。 后 文 中 , 我 们 将 使 用 “ 改 进 音 节 ” 指 代 用 此 算 法 找 出 的 互 译 对 。<br />

4 实 验 结 果 与 讨 论<br />

4.1. 测 试 语 料 与 评 价 方 法<br />

我 们 从 网 上 收 集 了 31 篇 越 汉 双 语 文 章 作 为 测 试 语 料 , 这 些 文 章 涵 盖 政 府 文 档 、 短 篇<br />

小 说 、 新 闻 、 专 业 文 献 等 多 种 体 裁 , 共 包 含 1540 个 越 南 语 句 子 ,1514 个 汉 语 句 子 。 我 们<br />

对 这 些 文 章 进 行 手 工 对 齐 , 得 到 1474 个 句 珠 , 作 为 标 准 答 案 。 标 准 答 案 中 各 种 类 型 句 珠<br />

的 比 例 见 表 2。<br />

类 型 数 量 比 例 (%)<br />

1-1 1349 91.52<br />

1-2 或 2-1 99 6.72<br />

0-1 或 1-0 15 1.02<br />

2-2 11 0.75<br />

总 计 1474 100.00<br />

表 2: 数 据 集 中 句 珠 类 型 的 统 计<br />

基 于 长 度 方 法<br />

字 节 为 长 度 单 位 0.5337 0.0509<br />

音 节 / 汉 字 为 长 度 单 位 -0.1031 0.0511<br />

表 3: 基 于 长 度 两 种 方 法 的 参 数<br />

基 于 词 汇 信 息 方 法 很 重 要 的 资 源 是 双 语 词 典 。 词 典 的 质 量 会 影 响 到 对 齐 结 果 。 在 下 文<br />

的 实 验 中 我 们 考 查 了 以 音 节 / 汉 字 和 词 分 别 作 为 互 译 单 元 时 Champollion 算 法 的 性 能 , 并 相<br />

应 构 造 了 两 部 词 典 : 第 一 部 是 基 于 音 节 / 汉 字 的 词 典<br />

4 , 包 括 15741 个 词 条 ; 第 二 部 是 基 于<br />

词 的 词 典<br />

5 , 包 括 92496 个 词 条 。<br />

我 们 使 用 、 、 - 和 运 行<br />

时 间 衡 量 句 子 对 齐 算 法 的 性 能 , 其 中 分 别 是 手 工 标 注 和 经 过 自 动 对 齐 过 程 得 到 的 句<br />

珠 集 。<br />

4.2. 实 验 参 数 和 条 件<br />

对 于 基 于 长 度 方 法 , 我 们 考 查 了 以 音 节 / 汉 字 、 字 节 分 别 作 为 句 子 长 度 单 位 情 况 下 算<br />

法 的 性 能 。 对 应 不 同 的 长 度 定 义 , 构 造 的 概 率 模 型 的 参 数 不 同 。 表 3 为 , 参 数 的 值 ,<br />

其 中 通 过 计 算 标 准 答 案 各 句 珠 中 越 汉 句 子 长 度 比 值 的 平 均 值 的 对 数 得 到 , 通 过 计 算 标<br />

准 答 案 各 句 珠 中 越 汉 句 子 长 度 比 值 的 平 均 值 的 对 数 的 方 差 得 到 。<br />

对 于 Champollion 算 法 , 我 们 分 别 考 查 了 以 词 、 音 节 、 改 进 音 节 作 为 互 译 单 元 时 算 法<br />

的 性 能 。 互 译 单 元 为 音 节 时 使 用 基 于 音 节 的 词 典 , 其 他 情 况 使 用 基 于 词 的 词 典 。 实 验 中 用<br />

6<br />

到 的<br />

借 用 Champollion 算 法 的 Perl 实 现 中 定 义 的 形<br />

式 。<br />

在 以 下 实 验 中 , 我 们 使 用 vnTokenizer4.1.1c 作 为 越 南 语 分 词 工 具 ,[6] 中 报 告 的 准 确<br />

率 达 到 96%; 使 用 ICTCLAS 作 为 汉 语 分 词 工 具 ,ICTCLAS 的 主 页 提 到 准 确 率 达 到<br />

98.45%。<br />

类 似 于 英 语 、 法 语 等 , 越 南 语 中 的 句 号 有 许 多 歧 义 , 需 要 对 句 子 边 界 进 行 辨 识 。 在 [5]<br />

中 , 作 者 提 出 了 基 于 最 大 熵 原 理 的 越 南 语 句 子 边 界 识 别 算 法 , 得 到 了 较 好 的 结 果 ( 论 文 中<br />

报 告 的 召 回 率 为 95%), 并 提 供 了 辨 识 工 具 vnSentDetector(vnTokenizer 包 的 插 件 )。 在<br />

以 下 实 验 中 , 我 们 直 接 使 用 这 一 工 具 划 分 越 南 语 句 子 , 而 使 用 句 号 划 分 汉 语 句 子 。<br />

4.3. 不 同 算 法 在 测 试 语 料 上 的 性 能<br />

各 算 法 在 测 试 语 料 上 的 结 果 如 表 4 所 示 。 从 实 验 结 果 中 可 以 看 到 , 基 于 长 度 方 法 在 速<br />

度 上 占 优 势 , 也 获 得 了 很 好 的 Precision、Recall 和 F-measure。 以 词 作 为 互 译 单 元 时 ,<br />

Champollion 算 法 的 运 行 时 间 比 较 长 , 对 齐 结 果 也 较 差 。 原 因 是 此 方 法 需 要 经 过 耗 时 的 越<br />

4 数 据 来 自 Hán Việt Tự Điển 电 子 版 www.hanviet.org 6 http://champollion.sourceforge.net/<br />

5 数 据 来 自 MTD Vietnamese – Chinese 词 典 www.lacviet.org


南 语 、 汉 语 分 词 过 程 , 使 得 运 行 时 间 变 长 。 另 一 方 面 两 种 语 言 的 分 词 工 具 的 分 词 标 准 不 同 ,<br />

与 词 典 中 的 词 条 的 划 分 标 准 也 并 不 完 全 一 致 , 导 致 部 分 出 现 在 双 语 句 子 中 的 互 译 词 因 切 分<br />

不 一 致 而 无 法 在 词 典 中 检 索 到 , 从 而 使 对 齐 结 果 变 差 。 以 音 节 作 为 互 译 单 元 时 , 不 需 要 经<br />

过 分 词 过 程 , 同 时 基 于 音 节 的 词 典 更 小 , 所 以 运 行 比 较 快 。 以 改 进 音 节 作 为 互 译 单 元 时 ,<br />

在 较 短 的 运 行 时 间 内 , 获 得 了 最 高 的 Precision、Recall 和 F-measure, 在 对 齐 效 果 与 运 行<br />

时 间 间 获 得 了 平 衡 。<br />

方 法 Precision Recall F-measure 运 行 时 间 (s)<br />

基 于 长 度 - 字 节 为 长 度 单 位 0.9546 0.9559 0.9552 2.329<br />

基 于 长 度 - 音 节 / 汉 字 为 长 度 单 位 0.9489 0.9444 0.9466 3.841<br />

Champollion- 互 译 单 元 为 词 0.8603 0.8901 0.8750 41.592<br />

Champollion- 互 译 单 元 为 音 节 0.9443 0.9552 0.9497 7.941<br />

Champollion- 互 译 单 元 为 改 进 音 节 0.9769 0.9749 0.9759 12.836<br />

表 4: 各 算 法 在 测 试 语 料 上 的 性 能<br />

4.4. 算 法 鲁 棒 性<br />

在 文 献 [2,3] 中 报 告 了 相 应 的 句 子 对 齐 算 法 在 0-1 或 1-0 类 型 ( 非 直 译 或 省 略 句 子 ) 的<br />

句 珠 上 的 性 能 较 其 他 类 型 句 珠 要 差 , 图 1 展 示 了 五 种 算 法 在 测 试 语 料 的 不 同 类 型 句 珠 上 的<br />

F-measure。 可 以 看 到 , 对 于 越 汉 语 言 对 , 同 样 的 问 题 依 然 存 在 。<br />

互 联 网 上 的 双 语 文 本 中 经 常 会 出 现 非 直 译 或 省 略 句 子 的 情 况 , 因 此 算 法 在 0-1 或 1-0<br />

类 型 句 珠 上 的 性 能 对 于 算 法 能 否 实 用 具 有 很 大 影 响 。 为 了 考 查 各 算 法 的 鲁 棒 性 , 我 们 设 计<br />

了 如 下 实 验 : 在 测 试 语 料 中 随 机 插 入 一 些 无 关 句 子 , 以 提 高 标 准 答 案 中 0-1 和 1-0 型 句 珠<br />

的 比 例 , 通 过 观 察 不 同 算 法 在 这 些 语 料 上 的 性 能 来 考 察 算 法 的 鲁 棒 性 。 图 2 展 示 了 当 0-1<br />

和 1-0 型 句 珠 的 比 例 分 别 为 1%、5%、10%、15%、20%、25%、30% 时 , 不 同 算 法 在 这 些<br />

语 料 上 得 到 的 F-measure。 可 以 看 到 , 当 此 比 例 升 高 时 , 各 算 法 的 性 能 都 有 下 降 , 而 基 于<br />

长 度 方 法 的 性 能 下 降 得 更 快 。 这 说 明 基 于 长 度 方 法 虽 然 简 单 、 速 度 快 , 但 不 适 用 于 噪 声 较<br />

多 的 双 语 语 料 。 以 词 、 音 节 或 改 进 音 节 作 为 互 译 单 元 的 Champollion 算 法 具 有 更 好 的 鲁 棒<br />

性 , 适 用 情 形 更 广 。<br />

4.5. 词 典 规 模 对 Champollion 算 法 的 影 响<br />

词 典 对 于 基 于 词 汇 方 法 有 很 大 的 作 用 。 当 观 察 两 句 子 时 , 如 果 从 词 典 中 找 到 更 多 互 译<br />

单 元 对 , 此 两 句 子 是 互 译 的 可 能 性 更 大 。 为 了 观 察 词 典 规 模 对 于 基 于 词 汇 方 法 的 影 响 , 我<br />

7<br />

们 仿 照 [3] 中 的 方 法 构 造 了 不 同 规 模 的 词 典 , 即 先 将 词 条 按 中 文 部 分 在 人 民 日 报 语 料 库 中<br />

出 现 的 频 率 从 高 到 低 排 序 , 再 取 前 K 个 词 条 , 构 成 词 典 。 图 3 是 实 验 结 果 , 可 见 词 典 的 规<br />

模 越 大 , 对 齐 结 果 越 好 。 通 过 统 计 发 现 , 对<br />

于 含 有 15741 个 词 条 的 词 典 , 只 有 20% 的 词<br />

条 出 现 在 标 注 语 料 库 的 句 对 中 , 其 他 的 词 条<br />

或 者 本 身 就 很 少 使 用 , 或 者 实 际 使 用 的 译 文<br />

与 词 典 给 出 的 译 文 不 一 致 。 所 以 为 了 提 高 对<br />

齐 效 果 , 构 造 一 部 高 质 量 词 典 是 很 重 要 的 。<br />

综 合 以 上 实 验 , 我 们 可 以 看 到 , 以 改 进<br />

音 节 作 为 互 译 单 元 的 Champollion 算 法 在 对<br />

齐 效 果 、 运 行 速 度 、 鲁 棒 性 三 者 间 取 得 了 较<br />

好 的 平 衡 , 是 本 文 所 考 查 的 五 种 算 法 中 最 适<br />

于 应 用 于 互 联 网 环 境 的 算 法 。<br />

7 http://www.icl.pku.edu.cn/icl_groups/corpus/dwldform1.asp<br />

图 1: 各 种 句 珠 对 应 的 F-measure 比 较


图 2: 各 种 方 法 的 鲁 棒 性<br />

图 3: 词 典 规 模 对 基 于 词 汇 三 种 方 法 的 影 响<br />

( 基 于 词 汇 方 法 定 义 互 译 单 元 为 音 节 的 词 典 规 模<br />

最 多 是 15741 词 条 )<br />

5 结 语<br />

本 文 介 绍 并 考 查 了 基 于 长 度 方 法 和 Champollion 算 法 在 不 同 条 件 下 , 在 越 南 语 - 汉 语 语<br />

言 对 上 的 效 果 , 并 针 对 越 南 语 与 汉 语 间 特 有 的 音 节 与 汉 字 对 应 关 系 , 提 出 了 以 改 进 音 节 作<br />

为 互 译 单 元 的 Champollion 算 法 , 获 得 了 更 好 的 效 果 。<br />

如 4.5 节 所 述 , 双 语 词 典 的 质 量 对 于 Champollion 算 法 的 性 能 具 有 很 大 影 响 , 如 何 自<br />

动 构 建 双 语 词 典 、 提 高 词 典 质 量 是 我 们 未 来 的 研 究 工 作 之 一 。 此 外 以 改 进 音 节 作 为 互 译 单<br />

元 的 Champollion 算 法 的 速 度 仍 然 较 慢 , 不 适 合 处 理 大 规 模 双 语 文 本 , 如 何 提 高 该 方 法 的<br />

运 行 速 度 也 是 我 们 未 来 的 研 究 工 作 之 一 。<br />

参 考 文 献<br />

[1] Brown, P. F. and Lai, J. C. and Mercer, R. L. 1991. Aligning Sentences in Parallel Corpora. Proceedings of<br />

the 29th Annual Meeting of the Association for Computational Linguistics, p169–176.<br />

[2] Gale, W. A. and Church, K. W. 1991. A Program for Aligning Sentences in Bilingual Corpora.<br />

Computational Linguistic, vol. 19, no. 1 March 1993, p75–102.<br />

[3] Ma, X. 2006. Champollion: A Robust Parallel Text Sentence Aligner. Proceedings of Fifth International<br />

Conference on Language Resources and Evaluation, p489–492.<br />

[4] Ha, L. A. 2003. A Method for Word Segmentation in Vietnamese. Proceedings of the International<br />

Conference on Corpus Linguistics, Lancaster, UK, p282–287.<br />

[5] Phuong, L. H. and Vinh, H. T. 2008. Maximum Entropy Approach to Sentence Boundary Detection of<br />

Vietnamese Texts. Proceedings of the IEEE International Conference on Research, Innovation and Vision<br />

for the Future, Vietnam.<br />

[6] Phuong, L. H. and Huyen, N. T. M. and Azim, R. and Vinh, H. T. 2008. A Hybrid Approach to Word<br />

Segmentation of Vietnamese Texts. Proceedings of the 2nd International Conference on Language and<br />

Automata Theory and Applications, Tarragona, Spain. Springer LNCS 5196, 2008, p240–249.<br />

[7] Dien, D. and Kiem, H. 2003. POS–Tagger for English – Vietnamese Bilingual Corpus. Proceedings of<br />

Human Language Technology - North American Chapter of the Association for Computational Linguistics,<br />

p88–95.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!