新疆大学学报(自然科学版)

2010, v.27;No.119(03) 349-352

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Past Issue) | 高级检索(Advanced Search)

统计机器翻译中汉维短语对抽取的研究
Research on Chinese-Uyghur Phrase Pairs Extraction in Statistical Machine Translation

任高举;吐尔根·伊布拉音;艾山·吾买尔;

摘要(Abstract):

双语短语对抽取是基于短语的统计机器翻译中短语翻译模型训练的关键步骤,但由于汉维平行语料库规模有限,数据稀疏问题严重.本文提出了一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维吾尔语词的情况(包括不连续),然后利用Och方法抽取短语对,最后考虑维吾尔语SOV语序结构特点,抽取双语短语.实验表明,该算法能够较准确地且尽可能多地抽取汉维短语对,从而提高翻译模型的质量.

关键词(KeyWords): 统计机器翻译;短语抽取;汉维短语对

Abstract:

Keywords:

基金项目(Foundation): 国家自然科学基金项目(60663006,60763006)

作者(Author): 任高举;吐尔根·伊布拉音;艾山·吾买尔;

Email:

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享