期刊文献+

基于元搜索的网页去重算法 被引量:2

An algorithm of duplicated web pages detection based on meta-search engine
下载PDF
导出
摘要 针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重。该算法有效,并且比以往算法有明显的优势,更接近人工统计结果。 According to the duplicated web pages returning from meta-search engine,an algorithm of deletion of duplicated web pages based on meta-search engine is proposed.The effectiveness of the algorithm is verified through experiments.Firstly,the URL of resultweb pages is compared,which is return by single search engines.Secondly,the titles of resultweb pages are processed, and thematic information of pages is extracted.Finally,the word segmentation on the summary is carried out,and the similarity of the summary is calculated.By combining these,the algorithmis able to test the duplicatedweb pages,realize the goal of deletion of duplicated web pages.Compared with the previous algorithms,the algorithm has obvious advantages and is closer to artificial results.
出处 《燕山大学学报》 CAS 2011年第2期121-123,161,共4页 Journal of Yanshan University
关键词 元搜索 网页 去重 分词 meta-search engine web pages duplicate detection Chinese word segmentation
  • 相关文献

参考文献4

二级参考文献20

  • 1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量:5
  • 2刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量:68
  • 3陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量:11
  • 4[4]J.Zhou,P.Larson,J.C.Freytag,W.Lehner.Efficient Exploitation of Similar Subexpressions for Query Processing.ACM SIGMOD,2007:533-544.
  • 5[6]Junghoo Cho.N.Shivakumar et al.Finding replicated web collections.In Proceedings of 2000 ACM International Conference on Management of Data(SIGMOD),May 2000.
  • 6[7]Shaozhi Ye,Ji-RongWen,Wei-Ying Ma.A systematic study on parameter correlations in large-scale duplicate document detection.Knowledge and Information Systems,2007,14:217-232.
  • 7严蔚敏 吴伟民.数据结构[M].北京:清华大学出版社,1997..
  • 8张刚,刘挺,郑实福,等.大规模网页快速去重算法[C].中国中文信息学学会二十周年学术会议论文集(续集),2001.
  • 9李晓明,闫宏飞,王继民.搜索引擎--原理、技术与系统[M].北京:科学出版社,2004:112-119.
  • 10张刚.大规模快速网页去重算法[C].北京:第一届学生计算语言学研讨会论文集,2002.

共引文献13

同被引文献12

引证文献2

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部