分布式开放存取期刊爬虫的设计与实现被引量：1

Design and Implementation of Distributed Web Crawler for Open Access Journa

下载PDF

导出

摘要开放存取(open access,OA)期刊属于网络深层资源且分散在互联网中,传统的搜索引擎不能对其建立索引,不能满足用户获取OA期刊资源的需求,从而造成了开放资源的浪费。针对如何集中采集万维网上分散的开放存取期刊资源的问题,提出了一个面向OA期刊的分布式主题爬虫架构。该架构采用主从分布式设计,提出了基于用户预定义规则的OA期刊页面学术信息提取方法,由一个主控中心节点控制多个可动态增减的爬行节点,采用基于Chrome浏览器的插件机制来实现分布式爬行节点的可扩展性和部署的灵活性。 Open access journal is a kind of deep online resources and disperses on the Internet, and it is difficult for the traditional search engines to index these online resources, so the user can not access directly the open access journal via search engines, resulting in a waste of these open resources. This paper proposes a novel focused Web crawler with distributed architecture to collect the open access journal resources scattering throughout the Internet. This architecture adopts the distributed master-slave design, which consists of a master control center and multiple distributed crawler nodes, and proposes an academic information extraction method based on user predefined rules from the open access journals. These distributed crawling nodes can be adjusted dynamically and use Chrome browser based plug-in mechanism to achieve scalability and deployment flexibility.

作者杨镇雄蔡祖锐陈国华汤庸张龙

机构地区华南师范大学计算机学院

出处《计算机科学与探索》 CSCD 2014年第10期1187-1194,共8页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金 No.61272067 国家高技术研究发展计划(863计划) No.2013AA01A212 国家科技支撑计划项目 No.2012BAH27F05 广东省自然科学基金团队研究项目 No.S2012030006242 广东省重大科技专项计划项目 No.2012A080104019 广东省科技计划项目 No.2011B080100031~~

关键词分布式爬虫开放存取期刊插件机制 distributed Web crawler open access journal plug-in mechanism

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
2许笑,张伟哲,张宏莉,方滨兴.广域网分布式Web爬虫[J].软件学报,2010,21(5):1067-1082. 被引量：25
3程妮.科学搜索引擎Scirus的工作流程初探[J].情报科学,2006,24(2):287-291. 被引量：8
4程维红,任胜利.中国科技期刊开放存取出版现状[J].编辑学报,2007,19(3):196-198. 被引量：76
5周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
6李武,杨屹东.开放存取期刊出版的发展现状及其影响分析[J].图书情报工作,2006,50(2):25-30. 被引量：74
7周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：92

二级参考文献128

1余锦,史树明.分布式网页排序算法及其传输模式分析[J].计算机工程与应用,2004,40(29):182-187. 被引量：1
2任胜利.开放存取(Open Access):现状与展望[J].中国科技期刊研究,2005,16(2):151-154. 被引量：112
3刘金铭,中国科学院自然科学期刊编辑研究会科技期刊编辑学研究课题组.开放式访问期刊的创建及其对传统期刊的影响[J].中国科技期刊研究,2005,16(3):279-284. 被引量：52
4孔繁军,游苏宁.关于开放存取出版模式的问卷调查[J].中国科技期刊研究,2005,16(5):648-649. 被引量：32
5姜联合,马克平,崔金钟.创办OA期刊,实现《植物生态学报》的跨越发展——纪念《植物生态学报》创刊50周年[J].中国科技期刊研究,2006,17(1):90-94. 被引量：13
6沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量：17
7李麟,初景利.开放存取出版模式及发展策略[J].中国科技期刊研究,2006,17(3):341-347. 被引量：35
8王应宽,王锦贵.基于赢利模式的开放存取期刊出版:BioMed Central案例研究[J].中国科技期刊研究,2006,17(3):354-359. 被引量：34
9夏翠军.开放存取出版的产生探源[J].中国科技期刊研究,2006,17(4):546-548. 被引量：6
10秦珂.开放存取期刊版权保护初探[J].中国科技期刊研究,2006,17(4):601-604. 被引量：8

共引文献427

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
3冯晓红.国外解决机构知识库版权问题的实践与启示[J].图书馆建设,2009(12):4-7. 被引量：8
4王芳,陈海建.深入解析Web主题爬虫的关键性原理[J].微型电脑应用,2011(7):32-34. 被引量：8
5陈竹.我国科技期刊数字化出版的发展思路[J].编辑学报,2011,23(S1):7-8. 被引量：10
6孔琪颖,蔡斐,张利平,徐晓.学术期刊品牌网络营销---以《航空学报》中、英文版为例[J].编辑学报,2011,23(S1):125-127.
7张材鸿.国内公共图书馆利用开放存取资源的调查分析[J].图书馆学研究（应用版）,2010(8):85-91. 被引量：5
8张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
9宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
10常湘珍,庞水发,汪华侨,张方晨,朱佩玲,吴秋玲,邹凤琼.健康中国2020战略规划与OA医学科技期刊[J].韶关学院学报,2010,31(6):138-142.

同被引文献67

1秦珂.开放存取期刊的出版模式透视[J].编辑之友,2006(3):59-61. 被引量：21
2王应宽,王锦贵.基于赢利模式的开放存取期刊出版:BioMed Central案例研究[J].中国科技期刊研究,2006,17(3):354-359. 被引量：34
3王应宽.开放存取期刊出版:PLoS案例研究[J].出版发行研究,2006(5):59-64. 被引量：26
4秦珂.开放存取期刊版权保护初探[J].中国科技期刊研究,2006,17(4):601-604. 被引量：8
5方翠,李荣素.开放存取期刊版权问题分析[J].图书馆建设,2006(5):60-62. 被引量：16
6傅蓉.开放存取期刊的经济机制[J].中国图书馆学报,2006,32(5):32-35. 被引量：13
7张怀涛,秦珂.开放存取期刊和商品化电子期刊版权管理特点比较[J].图书情报工作,2006,50(12):95-97. 被引量：7
8刘辉.开放获取期刊数据库的评价[J].大学图书馆学报,2007,25(1):59-63. 被引量：23
9胡德华,尹加帮,陶雯.发展中国家的开放存取期刊研究[J].情报杂志,2007,26(2):140-142. 被引量：17
10傅蓉.开放存取期刊的版权[J].中国科技期刊研究,2007,18(3):445-448. 被引量：9

引证文献1

1曹娟.国内开放存取期刊研究述评[J].图书馆工作与研究,2017(2):29-38. 被引量：15

二级引证文献15

1滕达.国内高校图书馆开放存取资源整合模式比较研究[J].农业图书情报学刊,2017,29(9):29-32. 被引量：2
2张志刚,毛一雷,袁芳.国外学术论文开放存取平台建设分析[J].情报工程,2017,3(6):116-126. 被引量：6
3刘阜源.开放存取学术期刊的经济学研究综述[J].情报科学,2018,36(6):169-176. 被引量：1
4余倩.中国人文社会科学期刊开放存取现状研究[J].图书馆学研究,2018(14):71-76. 被引量：14
5雷兵,钟镇.社会福利视角下中文期刊数据库定价机制分析与策略建议[J].中国科技期刊研究,2018,29(10):963-970. 被引量：10
6张晋朝,梁伊琪.我国开放获取期刊现状及发展分析——以DOAJ为例[J].出版科学,2018,26(5):87-96. 被引量：35
7李清,张晓丹,吕霞,郭璇.开放获取期刊目录(DOAJ)中化学学科期刊的分析研究[J].高校图书情报论坛,2018,17(4):14-18.
8于新国.我国图书情报类开放获取期刊资源类型研究——以期刊级别、载体形态、语言文字类型为例[J].图书情报论坛,2018,0(6):30-34.
9王元杰,齐秀丽,王应宽.国内外期刊开放获取出版现状与启示[J].中国科技期刊研究,2020,31(7):828-835. 被引量：28
10夏劲钢.开放获取版权保护模式中国化探析[J].贵州师范大学学报（社会科学版）,2020(6):140-147. 被引量：2

1王丽萍,李立,杨俐敏,常湘珍.探讨开放存取期刊的版权问题[J].传播与版权,2015(2):170-171. 被引量：3
2李小正,成功,赵全军.分布式爬虫系统的设计与实现[J].中国科技信息,2014(15):116-117. 被引量：1
3袁威,薛安荣,周小梅.基于Nutch的分布式爬虫的优化研究[J].无线通信技术,2014,23(3):44-47. 被引量：7
4刘海霞,李后卿,胡德华,刘双阳.国内外开放存取研究[J].情报资料工作,2006,27(1):30-33. 被引量：17
5张斌,周尔宁.基于Nutch的分布式纺织垂直搜索引擎研究[J].电脑知识与技术,2009,5(7X):5785-5787. 被引量：3
6张玉芳,熊忠阳,孙桂华,赖苏,赵鹰.基于人工免疫的网络入侵检测模型的研究[J].计算机科学,2009,36(12):108-110. 被引量：5
7杨济运,刘建勋,姜磊,彭桃,文一凭,卢厅.基于协程模型的分布式爬虫框架[J].计算技术与自动化,2014,33(3):126-133. 被引量：5
8王淑芬,高军礼,邹普,宋海涛.基于Hadoop的广域网分布式主题爬虫系统框架[J].计算机工程与科学,2015,37(4):670-675. 被引量：5
9雷滋和,陶宏才.基于ICE的分布式爬虫设计与实现[J].成都信息工程学院学报,2015,30(6):536-540.
10RodneyMyrvaagnes,兆霁.象GNU一样可修改和分发的开放资源RTOS——在编译前可通过图形化配置撤除一些不必要的OS代码[J].今日电子,1999(2):5-5.

计算机科学与探索

2014年第10期

浏览历史

内容加载中请稍等...

分布式开放存取期刊爬虫的设计与实现被引量：1

参考文献7

二级参考文献128

共引文献427

同被引文献67

引证文献1

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

分布式开放存取期刊爬虫的设计与实现 被引量：1

参考文献7

二级参考文献128

共引文献427

同被引文献67

引证文献1

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

分布式开放存取期刊爬虫的设计与实现被引量：1