基于元搜索的网页消重方法研究被引量：5

Study on the Duplicated Web Pages Detection Algorithm with Meta Search Engine

下载PDF

导出

摘要本文在对现有主流网页消重技术进行分析基础上,针对元搜索引擎技术,提出一种基于元搜索的网页消重算法。介绍了算法的具体实现步骤,并且通过实验验证了算法的有效性。

作者谢蕙秦杰

机构地区河南工业大学信息科学与工程学院

出处《计算机系统应用》 2008年第8期94-96,共3页 Computer Systems & Applications

关键词消重特征码元搜索引擎网页元数据摘要相似度

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
2吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41
3[4]J.Zhou,P.Larson,J.C.Freytag,W.Lehner.Efficient Exploitation of Similar Subexpressions for Query Processing.ACM SIGMOD,2007:533-544.
4郑德权,胡熠,于浩,赵铁军,王青松.多载体数据流中的特定信息识别研究(英文)[J].软件学报,2003,14(9):1538-1543. 被引量：1
5[6]Junghoo Cho.N.Shivakumar et al.Finding replicated web collections.In Proceedings of 2000 ACM International Conference on Management of Data(SIGMOD),May 2000.
6[7]Shaozhi Ye,Ji-RongWen,Wei-Ying Ma.A systematic study on parameter correlations in large-scale duplicate document detection.Knowledge and Information Systems,2007,14:217-232.

二级参考文献9

1谢立,王永强,于德敏,许增朴.利用图像的灰度特征实现半透明产品的识别[J].微计算机信息,2005,21(07X):44-45. 被引量：10
2[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc.
3[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995.
4[3]T. Yan and H. Garcia- Molina. The sift information dissemination system. In ACM TODS,2000.
5[4]J.W. Kirriemuir & P. Willett Identification of duplicate and near - duplicate full - text records in database search outputs using hierarchic cluster analysis,in Program-automated library and information,(1995)29(3) :241-256.
6[5]Buckley C. ,Cardie C. ,Mardis S. ,Mitra M. ,Pierce D. ,Wagstaff K. ,Walz J. ,The Smart/Empire TIPSTER IR System, TIPSTER Phase Ⅲ Proceedings,Morgan Kaufmann,San Francisco,CA,2000.
7Finding near-replicas of documents on the web. Narayanan Shivakumar, et al. WebDB 1998
8Finding replicated web collections. Junghoo Cho, N. Shivakumar et al. In Proceedings of 2000 ACM International Conference on Management of Data (SIGMOD), May 2000.
9牛伟霞,张永奎.潜在语义索引方法在信息过滤中的应用[J].计算机工程与应用,2001,37(9):57-60. 被引量：16

共引文献47

1姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
2曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
3谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
4魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
5连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
6黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
7罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量：3
8赵仁杰,李众立.网页清洗系统基于静态正则表达式的实现[J].微计算机信息,2007,23(36):226-227. 被引量：5
9钱爱兵,江岚.基于后缀树的中文新闻重复网页识别算法[J].现代图书情报技术,2008(3):55-61. 被引量：6
10陈锦言,孙济洲,张亚平.基于傅立叶变换的网页去重算法[J].计算机应用,2008,28(4):948-950. 被引量：2

同被引文献29

1韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化（综合版）,2006,9(7):75-77. 被引量：1
2姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
3曹林,韩立新,吴胜利.元搜索引擎排序技术综述[J].计算机应用研究,2009,26(2):411-414. 被引量：26
4谢树龙,张杰,刘洪,仪熊晓.元搜索引擎技术分析[J].天津通信技术,2004(2):49-51. 被引量：2
5白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
6刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
7陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
8高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
9郭晨娟,李战怀.基于概念的网页相似度处理算法研究[J].计算机应用,2006,26(12):3030-3032. 被引量：8
10连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7

引证文献5

1周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
2李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
3李欢,刘倩,张英.基于元搜索的信息检索模块的研究和实现[J].计算机系统应用,2011,20(5):167-169.
4张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
5周杨.基于关键长句及正文长度预分类的网页去重算法研究[J].软件导刊,2012,11(10):48-50. 被引量：2

二级引证文献16

1李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
2张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
3程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
4杨春明,何天翔.元搜索引擎的结果去重及排序研究[J].软件,2012,33(6):51-53. 被引量：3
5赵靖,潘志舟,梅芳婷,程振,钱吕见.多中文搜索引擎的联合网络爬虫及LUCENCE实现[J].安阳师范学院学报,2012(5):51-55.
6杨长春,徐小松,叶施仁,周猛.基于文本相似度的微博网络水军发现算法[J].微电子学与计算机,2014,31(3):82-85. 被引量：11
7高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
8王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量：4
9贲兴龙,贾大文,袁林.一种面向大规模网页去重的三层分布式架构[J].计算机与数字工程,2015,43(10):1751-1755. 被引量：2
10刘年国,王芬,吴家奇,李雪,陶涛.基于Counting Bloom Filter的海量网页快速去重研究[J].安徽电气工程职业技术学院学报,2016,21(3):92-97.

1杨俊峰.一种中文网页消重算法的设计与实现[J].电子技术（上海）,2013(9):29-31.
2李洪奇,冯海波,张伟,杨中国,宋伟城.基于字集特征向量的网页消重改进算法[J].计算机工程与应用,2017,53(2):53-57.
3张元丰,董守斌,张凌,陈晓志.基于Map/Reduce的网页消重并行算法[J].广西师范大学学报（自然科学版）,2007,25(2):153-156. 被引量：2
4鄢靖丰,程菊明,熊德兰,张泊平.基于小世界现象的网页消重和排序[J].计算机工程,2008,34(23):136-138. 被引量：1
5芮文艳.从搜索引擎的分析系统看网站优化[J].信息与电脑（理论版）,2011(1):80-81.
6杨春明,何天翔.元搜索引擎的结果去重及排序研究[J].软件,2012,33(6):51-53. 被引量：3
7刘书一.基于文本相似度的网页消重策略[J].计算机应用与软件,2011,28(11):228-229. 被引量：6
8王祖析.基于网页内容的网页消重高效检测算法研究[J].佳木斯大学学报（自然科学版）,2010,28(1):22-24. 被引量：1
9闫亮,李先国.基于网页特征关键词的近似检测算法[J].科学技术与工程,2009,9(4):919-923.
10潘昊,鄂海红,宋美娜.布隆过滤器在网页消重中的应用[J].软件,2015,36(12):166-170. 被引量：2

计算机系统应用

2008年第8期

浏览历史

内容加载中请稍等...

基于元搜索的网页消重方法研究被引量：5

参考文献6

二级参考文献9

共引文献47

同被引文献29

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于元搜索的网页消重方法研究 被引量：5

参考文献6

二级参考文献9

共引文献47

同被引文献29

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于元搜索的网页消重方法研究被引量：5