基于P2P的分布式主题爬虫系统的设计与实现被引量：6

Design and Implementation of Distributed Topic Crawler Based on P2P for Image Retrieval

下载PDF

导出

摘要本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程。系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求。实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息。 Topical crawlers or focused crawlers adapting to the specific theme and personalized search are required in order to meet the needs of the rapid growth of web information,which supplies more accurate and more comprehensive information and services in the shortest time.The design and implementation of a distributed web crawler is proposed in the paper,It is based on P2P-distributed architecture and makes full use of P2P-style dynamic characteristics of adding new nodes to increase the scale and improve the overall capacity.The experiments showed that this system could efficiently provide users with relevant files or web pages according to the topic（s） they defined.

作者朱学芳韩占校

机构地区南京大学信息管理系、多媒体信息处理研究所

出处《情报学报》 CSSCI 北大核心 2010年第3期402-407,共6页 Journal of the China Society for Scientific and Technical Information

关键词网络爬虫对等网络分布式计算信息检索主题爬虫 Web crawler peer to peer distributed computing information retrieval topical crawler

分类号 TP393.08 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1Takahashi T,Soonsang H,Taura K,et all.World Wide Web Crawler[OL].[2009-05-09].http://www.2002.org/ CDROM/poster/182/.
2Shkapenyuk V,Suel T.Design and implementation of a high-performance distributed Web crawler[C] ∥Proceedings of the 18th International Conference on Data Engineering,April,2002:357-368.
3Sing L.JXTA 2:A High-Performance,Massively Scalable P2P Network[OL].[2009-05-09].http:// www.ibm.com/developerworks/java/library/j-jxta2/.
4De Bra P,Houben G,Kornatzky Y,et al.Information retrieval in distributed hypertexts[C] ∥Proceedings of the 4th RIAO Conference.New York,1994:481-493.
5刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132
6Chakrabarti S,Punera K,Subramanyam M.Accelerated focused crawling through online relevance feed-back[C ] ∥Proceedings of the 11th International World Wide Web Conference.Hawaii,2002:148-159.
7李兆春,谢庆生,徐立章.机械主题爬虫的设计与实现[J].现代机械,2007(6):68-70. 被引量：1
8张校慧,徐彬,陈国强,陈珊.民航主题Hidden-Web爬虫的设计与实现[J].计算机应用与软件,2008,25(7):187-189. 被引量：1
9Jakarta Common HttpClient[OL].[2008-03-01].http://hc.apache.org/httpclient-3.x/.
10Najork M,Heydon A.High-Performance Web Crawling,COMPAQ System Research Center(SRC),Research Report[R].Kluwer Academic Publishers,September,2001.

二级参考文献35

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
3李卫,刘建毅,何华灿,王枞.基于主题的智能Web信息采集系统的研究与实现[J].计算机应用研究,2006,23(2):163-166. 被引量：15
4[1]De Bra P,Houben G,Kornatzky Y,et al.Information retrieval in distributed hypertexts[C]//Proc of the 4th RIAO Conference.New York,1994:481-491.
5[3]Chakrabarti S,Punera K,Subramanyam M.Accelerated focused crawling through online relevance feedback[C].Proc of the 11 th International World Wide Web Conference.Hawaii:[s.n.],2002.
6[5]Brin S,Page L.The anatomy of a large-scale hypertextual Web search Engine[C].Proc the 7th World Wide Web Conference,[s.n.],1998:146-164.
7[6]Lucene[EB/OL].http://lucene.apache.org/,2008.7.21.
8MURRAY B,MOORE A.Sizing the Internet[M].[S.l.]:Cyveillance Inc,2000.
9LAWRENCE S,GILES L.Accessibility and distribution of information on the Web[J].Nature,1999,400(8):107-109.
10CHO J,CARCIA M H.The evolution of the Web and implication for an incremental crawler[C]//Proc of the 26th International Conference on Very Large Databases (NVLDB-00).2000.

共引文献131

1赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
2尹江,尹治本,黄洪.网络爬虫效率瓶颈的分析与解决方案[J].计算机应用,2008,28(5):1114-1116. 被引量：18
3曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
4王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
5戚欣.基于本体的主题网络爬虫设计[J].武汉理工大学学报,2009,31(3):138-141. 被引量：14
6蒋元成,蔡皖东.基于主动探测的BT行为监测系统设计与实现[J].航空计算技术,2009,39(1):134-137. 被引量：1
7张博,蔡皖东.面向主题的网络蜘蛛技术研究及系统实现[J].微电子学与计算机,2009,26(5):52-55. 被引量：13
8曾云令,蔡皖东.eMule行为监测技术研究与系统实现[J].微电子学与计算机,2009,26(5):126-129.
9张春元,康耀红,伍小芹.Web新闻自动采集发布系统的设计与实现[J].计算机技术与发展,2009,19(9):250-252. 被引量：7
10王正,陆余良,刘金红,施凡.基于Lucene的互联网文献信息检索系统的研究[J].安徽大学学报（自然科学版）,2009,33(5):32-35. 被引量：2

同被引文献70

1胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
2任培花.J2EE架构与MVC模式下企业内部BBS系统的设计与实现[J].计算机与数字工程,2010,38(12):181-183. 被引量：2
3杨晓明.试论我国农业网站的发展现状与战略[J].农业技术与装备,2010(14):14-16. 被引量：6
4李纲,程明结,寇广增.基于情感倾向识别的汽车评论挖掘系统构建[J].情报学报,2011,30(2):204-211. 被引量：14
5周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
6龙文,李祥全,吴义生,任守纲,王宁生.基于OWL的制药企业本体的构建及应用[J].计算机与应用化学,2005,22(9):787-792. 被引量：3
7以科技手段辅助网络舆情突发事件的监测分析——方正智思舆情辅助决策支持系统[J].信息化建设,2005(10):50-52. 被引量：16
8武琳.Web2.0时代信息交流模式分析[J].情报杂志,2006,25(3):10-12. 被引量：46
9张雪英.基于机器学习的文本自动分类研究进展[J].情报学报,2006,25(6):730-739. 被引量：11
10吴金红,张玉峰,王翠波.面向主题的网络竞争情报采集系统[J].现代图书情报技术,2006(12):54-57. 被引量：18

引证文献6

1朱学芳,冯曦曦.面向农业主题搜索引擎设计与实现[J].安徽农业科学,2011,39(35):22183-22186. 被引量：1
2朱学芳,冯曦曦.基于文本内容的农业网页信息抽取和分类研究[J].情报科学,2012,30(7):1012-1015. 被引量：3
3胡新明,夏火松.在线评论中用户商品属性偏好识别方法研究[J].情报杂志,2012,31(9):197-201. 被引量：5
4林钦.一种基于网页剪辑的信息推荐系统[J].鲁东大学学报（自然科学版）,2012,28(4):319-321. 被引量：4
5黄炜,金雅博,胡昌龙.网络舆情主题信息采集研究[J].现代图书情报技术,2012(11):65-71. 被引量：10
6刘启华.基于LDA和领域本体的竞争情报采集研究[J].情报科学,2013,31(4):51-55. 被引量：4

二级引证文献27

1金碧漪,郭金龙,许鑫.利用领域本体优化文档检索的研究——基于KIM平台的设计与实现[J].现代图书情报技术,2013(12):27-33. 被引量：3
2连雁平.基于Web2.0用户个性化推荐系统分析[J].佛山科学技术学院学报（自然科学版）,2014,32(1):53-56.
3田磊.基于领域本体的企业竞争情报挖掘模型研究[J].情报科学,2014,32(6):43-46. 被引量：5
4付伟,丁疆辉.国内涉农网站的研究进展及其地理学视角[J].河北师范大学学报（自然科学版）,2015,39(1):85-92. 被引量：1
5黄炜,刘坤,杨青.面向复合维信息特征的微博舆情事件感知方法[J].情报杂志,2015,34(5):146-153. 被引量：1
6林钦.一种协同过滤的移动APP推荐算法的设计[J].鲁东大学学报（自然科学版）,2015,31(4):309-312. 被引量：3
7蔡佩儿,沙振权.特卖平台用户评论有效性研究——以唯品会为例[J].管理现代化,2015,35(6):67-69. 被引量：1
8宋鸿芳.基于文献信息资源的网络可视化机理分析[J].海峡科技与产业,2017,30(4):66-70.
9王树义,廖桦涛,吴查科.基于情感分类的竞争企业新闻文本主题挖掘[J].数据分析与知识发现,2018,2(3):70-78. 被引量：31
10李春生,刘小刚,焦海涛,张可佳.基于APP搜索系统的PageRank改进算法[J].计算机与现代化,2018(7):24-27. 被引量：1

1袁志祥,张飞,鲍威,孙国华,刘明.基于Nutch的节能减排垂直搜索引擎设计与实现[J].计算机工程与设计,2016,37(9):2565-2570. 被引量：1
2张兆中.基于HTML标记信息的主题相关性判定方法[J].淮阴师范学院学报（自然科学版）,2005,4(3):240-243. 被引量：1
3李小正,成功,赵全军.分布式爬虫系统的设计与实现[J].中国科技信息,2014(15):116-117. 被引量：1
4袁威,薛安荣,周小梅.基于Nutch的分布式爬虫的优化研究[J].无线通信技术,2014,23(3):44-47. 被引量：7
5张斌,周尔宁.基于Nutch的分布式纺织垂直搜索引擎研究[J].电脑知识与技术,2009,5(7X):5785-5787. 被引量：3
6杨济运,刘建勋,姜磊,彭桃,文一凭,卢厅.基于协程模型的分布式爬虫框架[J].计算技术与自动化,2014,33(3):126-133. 被引量：5
7王淑芬,高军礼,邹普,宋海涛.基于Hadoop的广域网分布式主题爬虫系统框架[J].计算机工程与科学,2015,37(4):670-675. 被引量：5
8雷滋和,陶宏才.基于ICE的分布式爬虫设计与实现[J].成都信息工程学院学报,2015,30(6):536-540.
9刘爽,姜春祥,张伟哲,李东,张鸿.基于GNP算法的分布式爬虫调度策略[J].计算机应用研究,2010,27(2):446-449. 被引量：6
10方宇浩,倪胜巧.网页监控分布式爬虫[J].现代计算机（中旬刊）,2015(4):62-64. 被引量：1

情报学报

2010年第3期

浏览历史

内容加载中请稍等...

基于P2P的分布式主题爬虫系统的设计与实现被引量：6

参考文献14

二级参考文献35

共引文献131

同被引文献70

引证文献6

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于P2P的分布式主题爬虫系统的设计与实现 被引量：6

参考文献14

二级参考文献35

共引文献131

同被引文献70

引证文献6

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于P2P的分布式主题爬虫系统的设计与实现被引量：6