新疆大学学报(自然科学版)

2017, v.34;No.147(03) 308-315

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Past Issue) | 高级检索(Advanced Search)

一种基于Hadoop的文本相似度仿真检测模型
A Text Similarity Simulation Detection Model Based on Hadoop

吴云;许抗震;黄瑞章;

摘要(Abstract):

随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和软件的优化;第二步,把文档转化为集合,使用改进的基于Map Reduce编程模型的Shingling算法;第三步,提出一种分布式的New Minhash算法求签名矩阵,然后利用Jaccard系数计算出相似度,选出相似的文档.实验证明:对于相同操作,优化后的性能耗时减少了近5.65%.该仿真模型不仅能够更加精确的求出文本相似度,而且能够更好的适应分布式平台处理大规模的文本数据,同时拥有良好的扩展性.

关键词(KeyWords): 文本相似;Minhash;Shingling;Hadoop

Abstract:

Keywords:

基金项目(Foundation): 国家自然科学基金项目(61462011)

作者(Author): 吴云;许抗震;黄瑞章;

Email:

参考文献(References):

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享