20.01.2015 Views

机器翻译原理与方法 - 中科院计算所自然语言处理研究组- 中国科学院 ...

机器翻译原理与方法 - 中科院计算所自然语言处理研究组- 中国科学院 ...

机器翻译原理与方法 - 中科院计算所自然语言处理研究组- 中国科学院 ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

加 大 数 据 规 模<br />

•<br />

Bilingual corpus (train BPs and TATs)<br />

–<br />

2.6M sentence pairs (68.1M Chinese words an<br />

d 73.8M English words)<br />

–<br />

Use all the data to obtain BPs and a portion of<br />

800K pairs to obtain TATs<br />

•<br />

Monolingual corpora (train LM)<br />

–<br />

English side of the bilingual corpus (73.8M wo<br />

rds)<br />

–<br />

Xinhua portion of Gigaword corpus (181M wo<br />

rds)<br />

机 器 翻 译 原 理 与 方 法 (07) 基 于 句 法 的 机 器 翻 译 方 法<br />

134

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!