基于网页正文主题和摘要的网页去重算法被引量：5

The Detection on Duplicated Web Pages from Meta Search

下载PDF

导出

摘要针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分词,再计算摘要的相似度,二者结合能更好地现出文章摘要的内容,实现网页去重。该算法有效,并且比基于传统特征码的算法有明显的优势,更接近人工统计结果。 According to the duplicated web pages returning from meta-search engine with same contents,but different name,an algorithm of duplicated webpages detection based on a combined duplication detection of the title and summary of web page is proposed.The effectiveness of the algorithm is verified through experiments.First,the algorithm analyze the page title which single search engines return;second,thematic information of page is extracted and word segmentation on the summary is carried out;finally,the similarity is calculated. By combining thematic information of web page title and the similarity of word segmentation on the summary, the algorithm can better to reflect the contents of the article summary, realize to detection and elimination of duplicated web pages. The algorithm has obvious advantages compared with the traditional signature-based algorithm,and is closer to artificial results.

作者周小平黄家裕刘连芳梁一平申文明

机构地区广西大学计算机与电子信息学院南宁平方软件新技术有限公司

出处《广西科学院学报》 2009年第4期251-253,共3页 Journal of Guangxi Academy of Sciences

基金国家中小企业创新基金项目(编号:08c26224501313)资助

关键词去重网页分词相似度元搜索 duplicate detection Web pages Chinese word segmentation repetition rate meta search engine

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1李晓明,闫宏飞,王继民.搜索引擎--原理、技术与系统[M].北京:科学出版社,2004:112-119.
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3谢蕙,秦杰,胡双双.基于用户查询关键词的网页去重方法研究[J].现代图书情报技术,2008(7):43-46. 被引量：6
4刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
5吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41

二级参考文献33

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
3黄昌宁.统计语言模型能做什么?[J].语言文字应用,2002(1):77-84. 被引量：31
4亢临生,张永奎.基于标记的分词算法[J].山西大学学报（自然科学版）,1994,17(3):283-286. 被引量：4
5刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
6陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
7沈达阳,孙茂松,黄昌宁.汉语自动分词和词性标注一体化系统[J].中文信息,1996,13(5):17-19. 被引量：5
8黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
9唐培丽,胡明,解飞.元搜索引擎研究[J].气象水文海洋仪器,2005,22(3):62-66. 被引量：3
10孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66

共引文献115

1马钰淇.论警务工作的当代内核——基于《人民警察法》(修订草案稿)词频统计与分析[J].河南警察学院学报,2021(1):119-128.
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
4曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
5谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
6魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
7向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006(8):46-50. 被引量：27
8连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
9黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
10罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量：3

同被引文献43

1韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化（综合版）,2006,9(7):75-77. 被引量：1
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
4王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
5谢树龙,张杰,刘洪,仪熊晓.元搜索引擎技术分析[J].天津通信技术,2004(2):49-51. 被引量：2
6白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
7陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
8高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
9郭晨娟,李战怀.基于概念的网页相似度处理算法研究[J].计算机应用,2006,26(12):3030-3032. 被引量：8
10连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7

引证文献5

1李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
2张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
3赵靖,潘志舟,梅芳婷,程振,钱吕见.多中文搜索引擎的联合网络爬虫及LUCENCE实现[J].安阳师范学院学报,2012(5):51-55.
4杨长春,徐小松,叶施仁,周猛.基于文本相似度的微博网络水军发现算法[J].微电子学与计算机,2014,31(3):82-85. 被引量：11
5李洪奇,冯海波,张伟,杨中国,宋伟城.基于字集特征向量的网页消重改进算法[J].计算机工程与应用,2017,53(2):53-57.

二级引证文献22

1程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
2杨春明,何天翔.元搜索引擎的结果去重及排序研究[J].软件,2012,33(6):51-53. 被引量：3
3高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
4王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量：4
5贲兴龙,贾大文,袁林.一种面向大规模网页去重的三层分布式架构[J].计算机与数字工程,2015,43(10):1751-1755. 被引量：2
6阳小兰,刘克刚,钱程,朱福喜.基于账户信用评价的恶意发帖检测系统研究[J].现代电子技术,2016,39(6):53-57.
7徐凯,陈平华,刘双印.基于AdaBoost-Bayes算法的中文文本分类系统[J].微电子学与计算机,2016,33(6):63-67. 被引量：7
8刘年国,王芬,吴家奇,李雪,陶涛.基于Counting Bloom Filter的海量网页快速去重研究[J].安徽电气工程职业技术学院学报,2016,21(3):92-97.
9林泽鸿,周雪妍,罗秋滨,于秀敏,高志英.一种利用引擎节点实现高效微博营销的方法[J].兰州理工大学学报,2016,42(6):104-108.
10张艳梅,黄莹莹,甘世杰,丁熠,马志龙.基于贝叶斯模型的微博网络水军识别算法研究[J].通信学报,2017,38(1):44-53. 被引量：38

1张艳.基于专业搜索引擎的网页去重技术研究[J].软件导刊,2012,11(4):138-141.
2徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
3张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
4行业篇[J].信息网络安全,2010(1):16-17.
5马辉.网页去重技术问题研究[J].移动信息,2015(8):67-67.
6闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1
7黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
8徐朝辉,赵淑梅,闫付亮,秦杰.一种基于特征向量的改进DSC网页去重算法[J].科学技术与工程,2013,21(8):2250-2253. 被引量：1
9王静,刘观宁,张钰辉.网页去重的改进算法[J].微型机与应用,2011,30(12):16-18.
10周杨.基于关键长句及正文长度预分类的网页去重算法研究[J].软件导刊,2012,11(10):48-50. 被引量：2

广西科学院学报

2009年第4期

浏览历史

内容加载中请稍等...

基于网页正文主题和摘要的网页去重算法被引量：5

参考文献5

二级参考文献33

共引文献115

同被引文献43

引证文献5

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于网页正文主题和摘要的网页去重算法 被引量：5

参考文献5

二级参考文献33

共引文献115

同被引文献43

引证文献5

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于网页正文主题和摘要的网页去重算法被引量：5