汉维医疗平行语料库构建及特征分析The Construction and Analysis of Character of Chinese-Uyghur Medical Parallel Corpus
于清,孙浩男,陈永杰
摘要(Abstract):
面对稀缺、专业性强的汉维双语医疗平行语料库建设,本文探索数据采集、标准化、去噪、自动录入方法,进行语料库特征分析,并根据语料数据特性,设计语料库网页检索系统.目前已建成110多万字、2.6万句汉语医疗语料和3 000句对汉维双语对齐语料,不仅对构建中小型语料库有参考价值,而且奠定了医疗自然语言处理研究基础,尤其汉维双语对齐语料,将促进机器翻译技术在医疗领域突破,对新疆边远地区无汉语表达能力的少数民族群众获得医疗救助搭建桥梁.
关键词(KeyWords): 医疗;汉维平行语料库;特征分析
基金项目(Foundation): 国家自然科学基金(61562082)资助项目
作者(Author): 于清,孙浩男,陈永杰
DOI: 10.13568/j.cnki.651094.2017.02.013
参考文献(References):
- [1]谢家成.小型英汉平行语料库的建立与运用[J].解放军外国语学院学报,2004(3):45-48.
- [2]热依曼·吐尔逊,依皮提哈尔·买买提,吾守尔·斯拉木.维吾尔语电话语音语料库的研发[J].新疆大学学报,2013,30(2):199-203.
- [3]施伯乐,丁宝康,汪卫.数据库系统教程[M].北京:高等教育出版社,2008:12-35.
- [4]艾山·毛力尼亚孜.维汉双语平行语料库加工处理系统的设计与实现[D].乌鲁木齐:新疆大学,2014.
- [5]刘建明,吐尔根·依不拉音,艾山·吾买尔.基于统计机器翻译的汉维词对齐研究[J].计算机应用与软件,2011,28(4):57-59.
- [6]卡斯木江·卡迪尔.维吾尔语TTS语料库建设关键技术研究[D].乌鲁木齐:新疆大学,2012.
- [7]谭勋,吐尔根·依布拉音,艾山·吾买尔,等.维汉双语平行语料库加工处理系统的设计与实现[J].电脑知识与技术,2011(28):6895-6896.
- [8]如克燕木·吾斯曼江,买热哈巴·艾力,吐尔根·依布拉音.基于规则的维吾尔语、哈萨克语机器翻译[J].新疆大学学报,2016,33(3):338-342.
- [9]刘洪波.词频统计的发展[J].图书与情报,1991(2):13-19.
- [10]冯志伟.齐普夫定律的来龙去脉[J].情报科学,1983(2):37-42.