印刷体维吾尔文识别后处理Printed Uygur Character Recognition Post-processing
王健,哈力木拉提·买买提
摘要(Abstract):
本文主要讨论将N-gram模型与编辑距离算法运用于印刷体维吾尔文识别后处理.由于印刷体维吾尔文识别系统的识别错误有一定规律性,所以研究中对识别错误进行了比较、分析、分类、并在编辑距离算法中加入识别错误的权值,以提高识别的正确率.最后,通过实验证明本算法能有效提高识别的正确率.
关键词(KeyWords): 印刷体;维吾尔文;N-gram;编辑距离;权值
基金项目(Foundation): 国家自然科学基金(No.60473137No.60863009)
作者(Author): 王健,哈力木拉提·买买提
参考文献(References):
- [1]福克尔.米勒(Volker Muller).用于统计调查的文字识别后处理方法[J].模式识别与人工智能,1992,5(2):129-133.
- [2]邢永康,马少平.统计语言模型综述[J].计算机科学,2003,30(9):22-26.
- [3]LEVENSHTEIN V L.Binary codes capable of correcting deletions,insertions and reversals[J].Doklady Akademii NaukSSSR,1966,163(4):707-710.
- [4]LOWRANCE R,WAGNER R A.An extension of the string-to-string correction problem[J].Journal of the ACM,1975,22(2):177-183.
- [5]董广宇,吕学强,等.基于Ngram语言模型的汉字识别后处理研究[J].微计算机信息,2009,25(10):276-278.
- [6]赵作鹏,尹志民,等.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426.