期刊文献+

基于Simhash算法的大规模文档去重技术研究 被引量:12

下载PDF
导出
摘要 随着互联网的发展,重复的网络信息越来越多,所以,大规模的文档去重技术研究逐渐成为热点。文中对基于Simhash算法的大规模文档去重技术进行了研究,并且以Simhash算法为文档去重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词词义和词长作为衡量单词权重的考量因素。通过理论分析以及相应的实验数据表明,文章提出的改进方法实现了在大规模文档数据基础上对相似文档的快速检测。
出处 《信息通信》 2015年第2期28-29,共2页 Information & Communications
  • 相关文献

参考文献3

二级参考文献22

  • 1中国互联网络信息中心.第十六次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/in-dex/OE/00/11/index.htm,2005,07-01
  • 2Andrei Z. Broder, Steven C. Glassman. Syntactic Clustering of the Web [DB/OL]. http://gatekeeper. research.compaq.com/pub/DEC/SRC/technical--notes/SRC--1997--015 html
  • 3吴军,数学之美系列十三信息指纹及其应用[DB/OL].http://www.googlechinablog.com/2006/08/blog-post.html
  • 4Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma. Detecting Near--Duplicates for Web Crawlng[C]. In ternational World Wide Web Conference, Banff, Alberta, Canada, New York, USA: ACM, 2007: 141-- 150
  • 5Moses S. Charikar, Similarity Estimation Tech niques from Rounding Algorithms[C]. Annual ACM Sym posium on Theory of Computing, Montreal, Quebec, Cana da, New York, USA:ACM, 2002 : 380-388
  • 6Ye Shi-ren,Chua Tat-seng,Kan Min-yen,et al.Document concept lattice for text understanding and summarization[J].Information Processing & Management,2007,43(2):1643-1662.
  • 7Luhn H P.The automatic creation of literature abstracts[J].IBM Journal of Research and Development,1958,2(2):159-165.
  • 8Edmundson H P.New methods in automatic extracting[J].Journal of the ACM (JACM),1969,16(2):264-285.
  • 9Nomoto T,Matsumoto Y.A new approach to unsupervised text summarization[C] ∥Proceedings of ACM SIGIR'01.New York:Idea Group Publishing,2001:26-34.
  • 10Furnas G W,Landauer T K,Gomez L M,et al.The vocabulary problem in human-system communication[J].Communications of the ACM,1987,30(11):964-971.

共引文献39

同被引文献64

引证文献12

二级引证文献40

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部