一种基于网页指纹的网页查重技术研究被引量：2

Research on NLP-basedpage fingerprint Seek Algorithm

下载PDF

导出

摘要研究网页查重问题。针对传统的SCAM网页查重算法根据比较几个关键词网页中出现次数来判断网页是否重复,当网站中存在相似网页时,由于其关键词非常相近,导致出现误判,造成查重准确率不高的问题。本文提出一种网页指纹查重算法,通过采用信息检索技术,提取出待检测网页的网页指纹,然后通过与网页库中的网页指纹比较判决,完成网页的查重,避免了传统方法只依靠几个关键词而造成的查重准确率不高的问题。实验证明,这种利用网页指纹查重的方法能准确判断网页是否重复,提高了网页信息的准确性,取得了满意的结果。 Study the problem of seeking duplicated web pages. The traditional re-SCAM algorithm determines if the web pages are repeated according to the repeating times of a few key words, When some users browse web pages, if the key words then used are very similar, the miscarriage of justice and re-checking will be resulted and the accu- racy is not high. This paper presents an repeat checking algorithm of web page fingerprint. Information retrieval tech- nology is used to extract fingerprint information of the page to be detected, then the fingerprint information is com- pared with the Web fingerprint of Web page library to complete the repeat checking. This method avoids the low accu- racy in traditional algorithm. Experimental results show that the method of repeat cheching of web fingerprint can ac- curately determine whether a page is repeated, improve the accuracy of the information page, and achieve satisfactory results.

作者王希杰

机构地区安阳师范学院

出处《计算机仿真》 CSCD 北大核心 2011年第9期154-157,共4页 Computer Simulation

关键词网页查重关键词网页指纹 Duplicated web page seek Keyword Page fingerprint

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1马成前,毛许光.网页查重算法Shingling和Simhash研究[J].计算机与数字工程,2009,37(1):15-17. 被引量：17
2连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
3白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
4Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma. Detecting Near-Duplicatesfor Web Crawling[ C]. International World Wick Wcb Confcrcncc, Banff, Albcrta, Canada, New York, USA: ACM, 2007. 141-150.
5王斌.结构化网页的管理方法[J].计算机仿真,2004,21(5):95-98. 被引量：1

二级参考文献31

1王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
2中国互联网络信息中心.第十六次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/in-dex/OE/00/11/index.htm,2005,07-01
3Andrei Z. Broder, Steven C. Glassman. Syntactic Clustering of the Web [DB/OL]. http://gatekeeper. research.compaq.com/pub/DEC/SRC/technical--notes/SRC--1997--015 html
4吴军,数学之美系列十三信息指纹及其应用[DB/OL].http://www.googlechinablog.com/2006/08/blog-post.html
5Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma. Detecting Near--Duplicates for Web Crawlng[C]. In ternational World Wide Web Conference, Banff, Alberta, Canada, New York, USA: ACM, 2007: 141-- 150
6Moses S. Charikar, Similarity Estimation Tech niques from Rounding Algorithms[C]. Annual ACM Sym posium on Theory of Computing, Montreal, Quebec, Cana da, New York, USA:ACM, 2002 : 380-388
7CHO J, SHIVAKUMAR N, GARCIA-MOLINA H. CA 94305,Finding replicated web collections[R]. Department of Computer Science Stanford, 1999.
8CHOWDHURY A, FR1EDER O, GROSSMAN D, et al. Collection Statistics for Fast Duplicate Document Detection[J]. ACM Transactions on Information System, 2002, 20(2): 171 - 191.
9LOPRESTI DP. Models and Algorithms for Duplicate Document Detection Bell Labs[A]. Proceedings of the Fifth International Conference on Document Analysis and Recognition[C], 1999.
10CAMPBELL DM, CHEN WR, SMITH DM. Copy Detection Systems for Digital Documents [A].Advances in Digital Libraries 2000( ADL 2000) [C], 2000.

共引文献21

1李伟伟,贾志洋,周粉.一种应用于搜索引擎URL检索的hash算法设计与实现[J].现代计算机,2009,15(4):113-115. 被引量：1
2张京阳,张华平,刘金刚.基于聚团词的大规模文本转载识别算法[J].计算机应用,2010,30(6):1661-1663. 被引量：2
3李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
4张祖平,徐昕,龙军,袁鑫攀.文本相似性度量中参数相关性与优化配置研究[J].小型微型计算机系统,2011,32(5):983-988. 被引量：11
5叶庆卫,武冬星,周宇,王晓东.基于粒子群优化的文档子内容查重算法[J].计算机工程,2011,37(20):203-205.
6杨晓娟,廖晨辉.一种两阶段的多媒体教育资源网页消重方法[J].现代教育技术,2012,22(9):93-96.
7黄炜,金雅博,胡昌龙.网络舆情主题信息采集研究[J].现代图书情报技术,2012(11):65-71. 被引量：10
8薛宾,王素格,张鹏,廖建.基于情感倾向特征的文本情感聚类[J].电脑开发与应用,2013,26(2):1-5. 被引量：1
9俞枫,王引娜.基于DRPKP算法的文本去重研究与应用[J].微型电脑应用,2014(1):58-60. 被引量：3
10张晓伟.网页指纹查重技术的研究[J].价值工程,2014,33(15):225-226.

同被引文献13

1白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
2田润涛,谢培山.色谱指纹图谱相似度评价方法的规范化研究(一)[J].中药新药与临床药理,2006,17(1):40-42. 被引量：47
3王庆生,张秀荣.基于状态协议分析的网络入侵检测技术[J].电脑开发与应用,2007,20(4):55-57. 被引量：3
4ORLOFF Jeff. OWASP-Top-10-2010[EB/OL]. (2010-04-19)[2010-10-12]. https: //www.owasp.org/index.php/ Category: OWASP-Top-Ten-Proj eet.
5WIKIPEDIA. SQL injeetion[EB/OL]. (2011-12-23)[2011- 12-24]. http: //en.wikipedia.org/wiki/SQL-injeetion.
6atrixunique.有限状态自动机[EB/OL].(2011-11-17)[2011-11-24].http://baike.baidu.com/view/157853.htm.
7曹玉娟,牛振东,彭学平,等.一个基于特征向量的近似网页去重算法[C]//中国索引学会第三次全国会员代表大会暨学术论坛论文集.北京:中国索引学会,2008:30-34.
8HALFOND William G J, ORSO Alessandro. AMNESIA : Analysis and Monitoring for SQL-Injection Attacks[C]// Proceedings of 20'h ACM International Conference on Automated Software Engineering (ASE'05). [s.1.]: ACM, 2005: 174-183.
9王丽丽,彭一楠,王轶骏.浅析SQL盲注攻击的实现[J].信息安全与通信保密,2008,30(5):71-73. 被引量：5
10马成前,毛许光.网页查重算法Shingling和Simhash研究[J].计算机与数字工程,2009,37(1):15-17. 被引量：17

引证文献2

1李常顺,胡勇.基于状态的SQL注入漏洞检测技术研究[J].信息安全与通信保密,2012,10(5):72-74.
2张晓伟.网页指纹查重技术的研究[J].价值工程,2014,33(15):225-226.

1张晓伟.网页指纹查重技术的研究[J].价值工程,2014,33(15):225-226.
2徐周昶,章美仁.垂直搜索引擎系统的架构研究[J].福建电脑,2011,27(11):4-5.
3连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
4马成前,毛许光.网页查重算法Shingling和Simhash研究[J].计算机与数字工程,2009,37(1):15-17. 被引量：17
5熊忠阳,牙漫,张玉芳.基于网页正文结构和特征串的相似网页去重算法[J].计算机应用,2013,33(2):554-557. 被引量：11
6熊志勇,梁颖红.基于sif和SCAM结合的复制检测算法[J].苏州市职业大学学报,2013,24(4):7-10.
7白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
8丁泽亚,张全.基于编辑距离的网页去重策略[J].网络新媒体技术,2013,2(6):1-7.
9叶庆卫,武冬星,周宇,王晓东.基于粒子群优化的文档子内容查重算法[J].计算机工程,2011,37(20):203-205.
10符于江.基于内容特征码的重复网页检测方法探析[J].科技信息,2012(26):162-163.

计算机仿真

2011年第9期

浏览历史

内容加载中请稍等...

一种基于网页指纹的网页查重技术研究被引量：2

参考文献5

二级参考文献31

共引文献21

同被引文献13

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于网页指纹的网页查重技术研究 被引量：2

参考文献5

二级参考文献31

共引文献21

同被引文献13

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于网页指纹的网页查重技术研究被引量：2