基于元搜索的网页消重方法研究
被引量:5
Study on the Duplicated Web Pages Detection Algorithm with Meta Search Engine
摘要
本文在对现有主流网页消重技术进行分析基础上,针对元搜索引擎技术,提出一种基于元搜索的网页消重算法。介绍了算法的具体实现步骤,并且通过实验验证了算法的有效性。
出处
《计算机系统应用》
2008年第8期94-96,共3页
Computer Systems & Applications
参考文献6
-
1陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量:11
-
2吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量:41
-
3[4]J.Zhou,P.Larson,J.C.Freytag,W.Lehner.Efficient Exploitation of Similar Subexpressions for Query Processing.ACM SIGMOD,2007:533-544.
-
4郑德权,胡熠,于浩,赵铁军,王青松.多载体数据流中的特定信息识别研究(英文)[J].软件学报,2003,14(9):1538-1543. 被引量:1
-
5[6]Junghoo Cho.N.Shivakumar et al.Finding replicated web collections.In Proceedings of 2000 ACM International Conference on Management of Data(SIGMOD),May 2000.
-
6[7]Shaozhi Ye,Ji-RongWen,Wei-Ying Ma.A systematic study on parameter correlations in large-scale duplicate document detection.Knowledge and Information Systems,2007,14:217-232.
二级参考文献9
-
1谢立,王永强,于德敏,许增朴.利用图像的灰度特征实现半透明产品的识别[J].微计算机信息,2005,21(07X):44-45. 被引量:10
-
2[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc.
-
3[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995.
-
4[3]T. Yan and H. Garcia- Molina. The sift information dissemination system. In ACM TODS,2000.
-
5[4]J.W. Kirriemuir & P. Willett Identification of duplicate and near - duplicate full - text records in database search outputs using hierarchic cluster analysis,in Program-automated library and information,(1995)29(3) :241-256.
-
6[5]Buckley C. ,Cardie C. ,Mardis S. ,Mitra M. ,Pierce D. ,Wagstaff K. ,Walz J. ,The Smart/Empire TIPSTER IR System, TIPSTER Phase Ⅲ Proceedings,Morgan Kaufmann,San Francisco,CA,2000.
-
7Finding near-replicas of documents on the web. Narayanan Shivakumar, et al. WebDB 1998
-
8Finding replicated web collections. Junghoo Cho, N. Shivakumar et al. In Proceedings of 2000 ACM International Conference on Management of Data (SIGMOD), May 2000.
-
9牛伟霞,张永奎.潜在语义索引方法在信息过滤中的应用[J].计算机工程与应用,2001,37(9):57-60. 被引量:16
共引文献47
-
1姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量:3
-
2曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量:1
-
3谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量:2
-
4魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
-
5连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量:7
-
6黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量:17
-
7罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量:3
-
8赵仁杰,李众立.网页清洗系统基于静态正则表达式的实现[J].微计算机信息,2007,23(36):226-227. 被引量:5
-
9钱爱兵,江岚.基于后缀树的中文新闻重复网页识别算法[J].现代图书情报技术,2008(3):55-61. 被引量:6
-
10陈锦言,孙济洲,张亚平.基于傅立叶变换的网页去重算法[J].计算机应用,2008,28(4):948-950. 被引量:2
同被引文献29
-
1韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化(综合版),2006,9(7):75-77. 被引量:1
-
2姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量:3
-
3曹林,韩立新,吴胜利.元搜索引擎排序技术综述[J].计算机应用研究,2009,26(2):411-414. 被引量:26
-
4谢树龙,张杰,刘洪,仪熊晓.元搜索引擎技术分析[J].天津通信技术,2004(2):49-51. 被引量:2
-
5白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量:3
-
6刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量:68
-
7陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量:11
-
8高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量:13
-
9郭晨娟,李战怀.基于概念的网页相似度处理算法研究[J].计算机应用,2006,26(12):3030-3032. 被引量:8
-
10连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量:7
引证文献5
-
1周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量:5
-
2李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量:9
-
3李欢,刘倩,张英.基于元搜索的信息检索模块的研究和实现[J].计算机系统应用,2011,20(5):167-169.
-
4张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量:2
-
5周杨.基于关键长句及正文长度预分类的网页去重算法研究[J].软件导刊,2012,11(10):48-50. 被引量:2
二级引证文献16
-
1李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量:9
-
2张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量:2
-
3程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
-
4杨春明,何天翔.元搜索引擎的结果去重及排序研究[J].软件,2012,33(6):51-53. 被引量:3
-
5赵靖,潘志舟,梅芳婷,程振,钱吕见.多中文搜索引擎的联合网络爬虫及LUCENCE实现[J].安阳师范学院学报,2012(5):51-55.
-
6杨长春,徐小松,叶施仁,周猛.基于文本相似度的微博网络水军发现算法[J].微电子学与计算机,2014,31(3):82-85. 被引量:11
-
7高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量:4
-
8王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量:4
-
9贲兴龙,贾大文,袁林.一种面向大规模网页去重的三层分布式架构[J].计算机与数字工程,2015,43(10):1751-1755. 被引量:2
-
10刘年国,王芬,吴家奇,李雪,陶涛.基于Counting Bloom Filter的海量网页快速去重研究[J].安徽电气工程职业技术学院学报,2016,21(3):92-97.
-
1杨俊峰.一种中文网页消重算法的设计与实现[J].电子技术(上海),2013(9):29-31.
-
2李洪奇,冯海波,张伟,杨中国,宋伟城.基于字集特征向量的网页消重改进算法[J].计算机工程与应用,2017,53(2):53-57.
-
3张元丰,董守斌,张凌,陈晓志.基于Map/Reduce的网页消重并行算法[J].广西师范大学学报(自然科学版),2007,25(2):153-156. 被引量:2
-
4鄢靖丰,程菊明,熊德兰,张泊平.基于小世界现象的网页消重和排序[J].计算机工程,2008,34(23):136-138. 被引量:1
-
5芮文艳.从搜索引擎的分析系统看网站优化[J].信息与电脑(理论版),2011(1):80-81.
-
6杨春明,何天翔.元搜索引擎的结果去重及排序研究[J].软件,2012,33(6):51-53. 被引量:3
-
7刘书一.基于文本相似度的网页消重策略[J].计算机应用与软件,2011,28(11):228-229. 被引量:6
-
8王祖析.基于网页内容的网页消重高效检测算法研究[J].佳木斯大学学报(自然科学版),2010,28(1):22-24. 被引量:1
-
9闫亮,李先国.基于网页特征关键词的近似检测算法[J].科学技术与工程,2009,9(4):919-923.
-
10潘昊,鄂海红,宋美娜.布隆过滤器在网页消重中的应用[J].软件,2015,36(12):166-170. 被引量:2