Introduction to SRILM Toolkit
Introduction to SRILM Toolkit
Introduction to SRILM Toolkit
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Format of the Training Corpus• Corpus: e.g., “CNA0001-2M.Train” (56.7MB)– Newswire Texts with Tokenized Chinese Words中 華 民 國 八 十 九 年 一 月 一 日萬黃 兆 平面 對 這 個 歷 史 性 的 時 刻由 中 國 電 視 公 司昨 晚 在 中 正 紀 念 堂 吸 引 了 超 過 十 萬 人 潮共 同 迎 接 千 禧 年勤 奮 努 力欣 欣 向 榮 外……11