维、哈、柯多文种搜索引擎中web文本分类的研究Study on Web Document Classification of Uyghur,Kazak,Kirgiz Multi-lingual Search Engine
海丽且木·艾沙,维尼拉·木沙江
摘要(Abstract):
研究维、哈、柯多文种搜索引擎中web文本分类问题.根据维、哈、柯Web文本具有结构信息的特点,提出分类系统框架,采用基于改进的KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了改进的KNN分类算法.实验表明,改进的KNN方法在维吾尔文Web文本分类中能够获得较好的分类效果.
关键词(KeyWords): Web文本分类;KNN算法;特征提取;维吾尔文
基金项目(Foundation): 国家自然科学基金项目(61063022);; 新疆维吾尔自治区高校科研计划重点资助项目(XJEDU2006113)
作者(Author): 海丽且木·艾沙,维尼拉·木沙江
参考文献(References):
- [1]牛强,王志晓,陈岱,等.基于KNN的Web文本分类方法的研究[J].计算机应用与软件,2007,24(10):210-211.
- [2]高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(9):28-34.
- [3]王煜,白石.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64.
- [4]Joachim.Text Categorization with Support Vector Machines:Learning with Many Relevant Features[C].In Proceedingsof ECML298,10th European Conference on Machine Learning,Berlin:Springer Verlag,1998:137-142.
- [5]古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65.
- [6]刘少辉,董明楷,张海俊,等.一种基于向量空间模型的多层次文本分类方法[J].中文信息学报,2001,16(3):8-26.
- [7]贝雨馨,崔荣一.文本分类特征项权重的计算方法[J].延边大学学报(自然科学版),2004,30(3):202-204.
- [8]Kwok Yin,Lai Lava.Automatic Textual Document Categorization Using Multiple Similarity Based Models[M].SDM’2001,Nov.2001.
- [9]宋玲,马军,连莉,等.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163.