基于Simhash算法的大规模文档去重技术研究被引量：12

下载PDF

导出

摘要随着互联网的发展,重复的网络信息越来越多,所以,大规模的文档去重技术研究逐渐成为热点。文中对基于Simhash算法的大规模文档去重技术进行了研究,并且以Simhash算法为文档去重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词词义和词长作为衡量单词权重的考量因素。通过理论分析以及相应的实验数据表明,文章提出的改进方法实现了在大规模文档数据基础上对相似文档的快速检测。

作者余意张玉柱胡自健

机构地区重庆邮电大学通信与信息工程学院

出处《信息通信》 2015年第2期28-29,共2页 Information & Communications

关键词相似文本检测 Simhash 指纹计算

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1张祖平,徐昕,龙军,袁鑫攀.文本相似性度量中参数相关性与优化配置研究[J].小型微型计算机系统,2011,32(5):983-988. 被引量：11
2蒋昌金,彭宏,陈建超,马千里.基于主题词权重和句子特征的自动文摘[J].华南理工大学学报（自然科学版）,2010,38(7):50-55. 被引量：17
3马成前,毛许光.网页查重算法Shingling和Simhash研究[J].计算机与数字工程,2009,37(1):15-17. 被引量：17

二级参考文献22

1中国互联网络信息中心.第十六次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/in-dex/OE/00/11/index.htm,2005,07-01
2Andrei Z. Broder, Steven C. Glassman. Syntactic Clustering of the Web [DB/OL]. http://gatekeeper. research.compaq.com/pub/DEC/SRC/technical--notes/SRC--1997--015 html
3吴军,数学之美系列十三信息指纹及其应用[DB/OL].http://www.googlechinablog.com/2006/08/blog-post.html
4Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma. Detecting Near--Duplicates for Web Crawlng[C]. In ternational World Wide Web Conference, Banff, Alberta, Canada, New York, USA: ACM, 2007: 141-- 150
5Moses S. Charikar, Similarity Estimation Tech niques from Rounding Algorithms[C]. Annual ACM Sym posium on Theory of Computing, Montreal, Quebec, Cana da, New York, USA:ACM, 2002 : 380-388
6Ye Shi-ren,Chua Tat-seng,Kan Min-yen,et al.Document concept lattice for text understanding and summarization[J].Information Processing & Management,2007,43(2):1643-1662.
7Luhn H P.The automatic creation of literature abstracts[J].IBM Journal of Research and Development,1958,2(2):159-165.
8Edmundson H P.New methods in automatic extracting[J].Journal of the ACM (JACM),1969,16(2):264-285.
9Nomoto T,Matsumoto Y.A new approach to unsupervised text summarization[C] ∥Proceedings of ACM SIGIR'01.New York:Idea Group Publishing,2001:26-34.
10Furnas G W,Landauer T K,Gomez L M,et al.The vocabulary problem in human-system communication[J].Communications of the ACM,1987,30(11):964-971.

共引文献39

1张祖平,徐昕,龙军,袁鑫攀.文本相似性度量中参数相关性与优化配置研究[J].小型微型计算机系统,2011,32(5):983-988. 被引量：11
2王希杰.一种基于网页指纹的网页查重技术研究[J].计算机仿真,2011,28(9):154-157. 被引量：2
3叶庆卫,武冬星,周宇,王晓东.基于粒子群优化的文档子内容查重算法[J].计算机工程,2011,37(20):203-205.
4董博,郑庆华,宋凯磊,田锋,马瑞.基于多SimHash指纹的近似文本检测[J].小型微型计算机系统,2011,32(11):2152-2157. 被引量：21
5杨晓娟,廖晨辉.一种两阶段的多媒体教育资源网页消重方法[J].现代教育技术,2012,22(9):93-96.
6周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
7黄颖,何克清,冯在文,黄贻望.一种流程特征结构树的流程合并方法[J].小型微型计算机系统,2014,35(1):6-11. 被引量：2
8张军亮,朱鹏.基于语义摘要的农业方式型问句答案抽取[J].情报学报,2014,33(1):77-83. 被引量：1
9俞枫,王引娜.基于DRPKP算法的文本去重研究与应用[J].微型电脑应用,2014(1):58-60. 被引量：3
10张晓伟.网页指纹查重技术的研究[J].价值工程,2014,33(15):225-226.

同被引文献64

1王方伟,杨少杰,赵冬梅,王长广.基于改进TF-IDF的多态蠕虫特征自动提取算法[J].华中科技大学学报（自然科学版）,2020,48(2):79-84. 被引量：3
2白臻.工程项目招投标围标串标防范对策研究[J].中国科技投资,2020(5):179-180. 被引量：1
3王思力,张华平,王斌.双数组Trie树算法优化及其应用研究[J].中文信息学报,2006,20(5):24-30. 被引量：29
4陈传波,祝中涛.RSA算法应用及实现细节[J].计算机工程与科学,2006,28(9):13-14. 被引量：27
5王志强,邵良杉.基于AHP的标书模糊综合评价方法[J].科技情报开发与经济,2007,17(9):176-178. 被引量：1
6马成前,毛许光.网页查重算法Shingling和Simhash研究[J].计算机与数字工程,2009,37(1):15-17. 被引量：17
7张兰良,丁传生,李文学,邢庆学.改革数学作业批改方法的探索[J].山东教育,1997,0(19):28-29. 被引量：1
8朱洁,黄樟灿,彭晓琳.基于离散Fréchet距离的判别曲线相似性的算法[J].武汉大学学报（理学版）,2009,55(2):227-232. 被引量：24
9江浩,褚衍东,郭丽峰.曲线形态相似性的定义与度量[J].云南民族大学学报（自然科学版）,2009,18(4):316-318. 被引量：10
10敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119

引证文献12

1陈春玲,陈琳,熊晶,余瀚.基于Simhash算法的重复数据删除技术的研究与改进[J].南京邮电大学学报（自然科学版）,2016,36(3):85-91. 被引量：15
2江小平,张巍,李成华,周航,孙婧.面向云存储的基于全同态密码技术的文档相似度计算方法[J].计算机工程与科学,2017,39(10):1807-1811. 被引量：2
3冉崇善,邵春霞.Simhash算法在试题查重中的应用[J].软件导刊,2018,17(2):151-153. 被引量：1
4张朋,杨鹤标.基于Activiti的教学过程控制系统设计与实现[J].软件导刊,2018,17(10):102-105.
5高子翰,叶明.基于SimHash算法的Android恶意程序检测[J].中国新通信,2018,20(19):86-87. 被引量：1
6王诚,王宇成.基于Simhash的大规模文档去重改进算法研究[J].计算机技术与发展,2019,29(2):115-119. 被引量：9
7张景辉,王培进.课程设计自动评分系统设计与实现[J].电气电子教学学报,2019,41(4):149-152. 被引量：2
8张航,盛志伟,张仕斌,杨敏.Simhash算法在文本去重中的应用[J].计算机工程与应用,2020,56(11):246-251. 被引量：7
9徐小桐,王法胜.文档查重系统研究与实现[J].电脑知识与技术,2021,17(11):74-76. 被引量：3
10任杰.基于文本分析的标书综合评估模型[J].计算机系统应用,2022,31(6):149-157. 被引量：1

二级引证文献40

1石红姣.基于改进随机决策树算法的分布式数据挖掘[J].计算机与数字工程,2017,45(9):1802-1808. 被引量：5
2李阵,钮俊,王奎,辛园园.基于多特征权重分配的源代码搜索优化[J].计算机应用,2018,38(3):812-817. 被引量：6
3任民山,蔡红霞.基于Simhash算法的海量文本相似性检测方法研究[J].计量与测试技术,2018,45(4):78-80. 被引量：3
4高子翰,叶明.基于SimHash算法的Android恶意程序检测[J].中国新通信,2018,20(19):86-87. 被引量：1
5晋晓琳,张树武,刘杰.基于分布式架构的海量文本快速相似度检测研究[J].中国传媒大学学报（自然科学版）,2019,26(1):39-44.
6曹铁男,王英洁.推荐算法在电力设备缺陷修复场景中的应用[J].电力大数据,2019,22(9):8-13. 被引量：2
7胡红旗.基于排序优化算法的电子通信信息存储研究[J].电子设计工程,2019,27(19):80-84. 被引量：6
8王添男,冯锋.基于SimHash的文本相似检测算法研究[J].电子测试,2019,0(15):87-89. 被引量：1
9庞宇,张倩,韩凯,肖彬.改进的Simhash算法在文本查重中的研究及应用[J].数字通信世界,2020,0(1):203-204. 被引量：2
10张航,盛志伟,张仕斌,杨敏.Simhash算法在文本去重中的应用[J].计算机工程与应用,2020,56(11):246-251. 被引量：7

1池水明,阚歆炜,张旻.基于Simhash的SQL注入漏洞检测技术研究[J].计算机时代,2014(3):3-5. 被引量：3
2栗迎结,任洪敏.基于Selenium的SQL注入漏洞检测系统的研究[J].现代计算机,2016,22(14):20-24. 被引量：2
3周龙泉,卫文学.基于主成分分析与Simhash的入侵检测方法[J].计算机与数字工程,2015,43(7):1291-1294. 被引量：3
4徐济惠.基于Simhash算法的海量文档反作弊技术研究[J].计算机技术与发展,2014,24(9):103-107. 被引量：7
5实惠更实用信维力推华硕单路服务器主板P7F—X[J].计算机与网络,2010,36(20):16-16.
6信维力推华硕单路服务器主板P7F-X[J].个人电脑,2010(11):68-68.
7王炳晨.多媒体也轻盈 Acer Aspire 5500笔记本电脑[J].微电脑世界,2006(1):42-42.
8王锴.希捷第二代无线移动硬盘Wireless Plus最佳移动存储[J].微型计算机,2013(12):100-101.
9火凤凰菩提.OEM不失为IM的一种途径[J].现代计算机（中旬刊）,2008(6):127-127.
10曹海傧,朱明,冯伟国.一种快速有效的海量视频拷贝检测方法[J].小型微型计算机系统,2014,35(5):1160-1163. 被引量：1

信息通信

2015年第2期

浏览历史

内容加载中请稍等...

基于Simhash算法的大规模文档去重技术研究被引量：12

参考文献3

二级参考文献22

共引文献39

同被引文献64

引证文献12

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于Simhash算法的大规模文档去重技术研究 被引量：12

参考文献3

二级参考文献22

共引文献39

同被引文献64

引证文献12

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于Simhash算法的大规模文档去重技术研究被引量：12