基于网页正文结构和特征串的相似网页去重算法被引量：11

Detection and elimination of similar Web pages based on text structure and string of feature code

下载PDF

导出

摘要为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Filter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了O(n)。 In order to reduce the interference of the duplicated Web pages, and improve the efficiency of detection and elimination of similar Web pages, a new kind of large-scale Web page detection algorithm was proposed. Firstly, adopting the Web label values, the algorithm created the text structure trees to realize the fingerprint similarity calculation layer by layer. Secondly, the head and tail words of a certain sentence, in which high frequency punctuations occur, were extracted out as the feature code. Lastly, the fingerprint similarity of Web page features was discriminated with Bloom filter algorithm. The experimental results show that the algorithm can improve the recall rate up to more than 90%, and reduce the time complexity to O（n）.

作者熊忠阳牙漫张玉芳

机构地区重庆大学计算机学院

出处《计算机应用》 CSCD 北大核心 2013年第2期554-557,共4页 journal of Computer Applications

关键词网页去重网页标签值高频标点特征码网页指纹相似度 detection and elimination of similar Web pages Web label value high frequency punctuation feature code fingerprint similarity of Web page

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1毛晓燕.搜索引擎用户满意度研究的实证分析——以百度和Google中国为例[J].图书馆杂志,2008,27(3):40-47. 被引量：14
2CROFT W B;METZLER D;STROHMAN T;刘挺;秦兵;张宇.搜索引擎——信息检索实践[M]北京:机械工业出版社,2010.
3SHIVAKUMAR N,GAREIA-MONLINA H. SCAM:a copy detection mechanism for digital documents[A].Austin:Texas A & M University,1995.201-210.
4BRODER A Z,GLASSMAN S C,MANASSE M S. Syntactic clustering of the Web[A].Essex:Elsevier Science Publishers,1997.1157-1166.
5CONRAD J G,GUO X S,SCHRIBER C P. Online duplicate document detection:signature reliability in a dynamic retrieval environment[A].New York:ACM,2003.443-452.
6CHOWDHURY A,FRIEDER O,GROSSMAN F D. Collection statistics for fast duplicate document detection[J].ACM Transactions on Information Systems,2002,(02):171-191.doi:10.1145/506309.506311.
7KOLCZ A,CHOWDHURY A. Lexicon randomization for near-duplicate detection with I-Match[J].Journal of Supercomputing,2008,(03):255-276.
8王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
9LI W,LIU J Y,WANG C. Web document duplicate removal algorithm based on keyword sequences[A].Piscataway(NJ):IEEE,2005.511-516.
10吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41

二级参考文献19

1王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
2[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc.
3[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995.
4[3]T. Yan and H. Garcia- Molina. The sift information dissemination system. In ACM TODS,2000.
5[4]J.W. Kirriemuir & P. Willett Identification of duplicate and near - duplicate full - text records in database search outputs using hierarchic cluster analysis,in Program-automated library and information,(1995)29(3) :241-256.
6[5]Buckley C. ,Cardie C. ,Mardis S. ,Mitra M. ,Pierce D. ,Wagstaff K. ,Walz J. ,The Smart/Empire TIPSTER IR System, TIPSTER Phase Ⅲ Proceedings,Morgan Kaufmann,San Francisco,CA,2000.
7[1]Narayanan Shivakumar,et al.Finding near-replicas of documents on the web[DB/OL].http://dbpubs.stanford.edu/pub/1998-31.
8[2]J.Liu,M.Lei,J.Wang,and B.Chen.Digging for gold on the web:Experience with the WebGather[A].Proc.of the 4th Inter.Conf.on High Performance Computing in the Asia-Pacific Region[C],Beijing,P.R.China,May 2000:751-755.
9[3]U.Manber.Finding similar files in a large file system[R].Technical Report TR 93-33,University of Arizona,Tuscon,Arizona,October 1993.
10LI Wei,LIU Jian-yi,WANG Cong.Web document duplicate removal algorithm based on keyword sequences[C] //Proc of Natural Language Processing and Knowledge Engineering.Valencia:IEEE Press,2005:511-516.

共引文献69

1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
2姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
3曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
4谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
5张明辉,王成耀,宋威.一种基于段落的分段签名近似镜像新算法[J].情报杂志,2005,24(1):21-23. 被引量：2
6魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
7连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
8黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
9罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量：3
10魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13

同被引文献75

1王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
2徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
3梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
4韦永壮,袁春风,黄宜华.CCDet:一种高效的大规模中文重复网页检测方法[J].计算机研究与发展,2013,50(S2):140-152. 被引量：4
5周成虎.全空间地理信息系统展望[J].地理科学进展,2015,34(2):129-131. 被引量：166
6姚瑶,王战红,石磊.一种基于页面聚类的Web概念化建模新方法[J].微电子学与计算机,2015,32(1):156-160. 被引量：2
7谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
8陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
9黄意珊,王潜平.基于知识库的启发式智能搜索引擎的设计[J].计算机工程与设计,2007,28(9):2134-2137. 被引量：4
10刘伟,符红光,佘莉.基于语义的几何知识库搜索引擎的设计与实现[J].计算机应用,2007,27(B06):76-77. 被引量：4

引证文献11

1李书攀.基于HTML标签扩展的智能搜索引擎设计[J].南阳师范学院学报,2013,12(12):54-58.
2贲兴龙,贾大文,袁林.一种面向大规模网页去重的三层分布式架构[J].计算机与数字工程,2015,43(10):1751-1755. 被引量：2
3郭艳卿,赵锐,孔祥维,付海燕,蒋金平.基于事件要素加权的新闻摘要提取方法[J].计算机科学,2016,43(1):237-241. 被引量：9
4薛剑,吕立,孙咏,王丹妮.应用语义相似的海量网页文本去重策略研究[J].小型微型计算机系统,2016,37(6):1143-1147. 被引量：2
5符于江.网页去重中的关键词和特征串提取[J].电子技术与软件工程,2016(17):28-29. 被引量：1
6黄伟建,杨海龙.Hadoop下改进布隆过滤器算法的网页去重[J].计算机工程与科学,2017,39(2):285-290. 被引量：1
7张倩,林安成,廖秀秀.自动结构化数据的电商网站主题爬虫研究[J].计算机系统应用,2018,27(7):90-95.
8刘驰,闫宏飞.基于元信息的云盘资源检索结果去重[J].山东大学学报（理学版）,2016,51(7):11-17.
9李洪奇,冯海波,张伟,杨中国,宋伟城.基于字集特征向量的网页消重改进算法[J].计算机工程与应用,2017,53(2):53-57.
10陈敏颉,江南,陈达.多粒度时空事件建模与可视化方法初探[J].地理信息世界,2018,25(2):30-35. 被引量：3

二级引证文献19

1符于江.网页去重中的关键词和特征串提取[J].电子技术与软件工程,2016(17):28-29. 被引量：1
2高永兵,杨贵朋,张娣.官方微博关键词提取与摘要技术研究[J].内蒙古科技大学学报,2017,36(3):273-279. 被引量：1
3张仕学.大型文本数据库中分布式数据去重备份方法[J].科学技术与工程,2018,18(4):310-315. 被引量：5
4陆娜,周鹏程,武川.新闻文档实体重要性排序研究[J].图书情报工作,2018,62(11):97-102. 被引量：1
5万辉,李华光,朱晓华,徐明强.海洋空间情报大数据应用发展[J].中国航海,2019,42(3):76-81. 被引量：2
6廖涛,付维成,方贤进.基于正负加权的中文事件识别研究[J].计算机应用与软件,2019,36(11):175-181. 被引量：2
7赵洪.生成式自动文摘的深度学习方法综述[J].情报学报,2020,39(3):330-344. 被引量：13
8李克文,吕萌萌,邵明文.面向对象多粒度概念格的构造[J].工程数学学报,2020,37(5):591-605. 被引量：2
9翁海瑞,林穗,何立健.基于内容推荐与时间函数结合的新闻推荐算法[J].计算机与数字工程,2020,48(12):2973-2977. 被引量：2
10王先传,彭亮,郭伟,魏澳.基于语料库的事件知识图谱构建与应用[J].阜阳师范大学学报（自然科学版）,2020,37(4):56-60. 被引量：2

1坚如磐石.复活吧!死去的网页[J].计算机应用文摘,2007(11X):25-25.
2“甜似蜜”蜂房小技巧网络秘技篇[J].电脑应用文萃,2004(7):90-90.
3斌子.网页沙龙[J].网络与信息,2002,16(12):42-44.
4丁泽亚,张全.基于编辑距离的网页去重策略[J].网络新媒体技术,2013,2(6):1-7.
5王希杰.一种基于网页指纹的网页查重技术研究[J].计算机仿真,2011,28(9):154-157. 被引量：2
6孙少波.利用本体集成和特征聚类的网页分类研究[J].现代电子技术,2012,35(14):93-96.
7刘勇.黑板报[J].电脑迷,2008,0(19):78-78.
8陈孟奇,王珒,张祖平.一种基于Bloom Filter算法的广播认证方案[J].现代通信技术,2013(4):23-25.
9钱程,阳小兰.基于语义扩展的网页标签推荐系统[J].计算机工程与科学,2012,34(10):145-149.
10符于江.基于内容特征码的重复网页检测方法探析[J].科技信息,2012(26):162-163.

计算机应用

2013年第2期

浏览历史

内容加载中请稍等...

基于网页正文结构和特征串的相似网页去重算法被引量：11

参考文献13

二级参考文献19

共引文献69

同被引文献75

引证文献11

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于网页正文结构和特征串的相似网页去重算法 被引量：11

参考文献13

二级参考文献19

共引文献69

同被引文献75

引证文献11

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于网页正文结构和特征串的相似网页去重算法被引量：11