æºå¨ç¿»è¯åçä¸æ¹æ³ - ä¸ç§é¢è®¡ç®æèªç¶è¯è¨å¤çç 究ç»- ä¸å½ç§å¦é¢ ...
æºå¨ç¿»è¯åçä¸æ¹æ³ - ä¸ç§é¢è®¡ç®æèªç¶è¯è¨å¤çç 究ç»- ä¸å½ç§å¦é¢ ...
æºå¨ç¿»è¯åçä¸æ¹æ³ - ä¸ç§é¢è®¡ç®æèªç¶è¯è¨å¤çç 究ç»- ä¸å½ç§å¦é¢ ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
加 大 数 据 规 模<br />
•<br />
Bilingual corpus (train BPs and TATs)<br />
–<br />
2.6M sentence pairs (68.1M Chinese words an<br />
d 73.8M English words)<br />
–<br />
Use all the data to obtain BPs and a portion of<br />
800K pairs to obtain TATs<br />
•<br />
Monolingual corpora (train LM)<br />
–<br />
English side of the bilingual corpus (73.8M wo<br />
rds)<br />
–<br />
Xinhua portion of Gigaword corpus (181M wo<br />
rds)<br />
机 器 翻 译 原 理 与 方 法 (07) 基 于 句 法 的 机 器 翻 译 方 法<br />
134