基于Python的可配置网络爬虫被引量：12

Configurable web crawler based on Python

下载PDF

导出

摘要网络数据形式的多样性与复杂程度都对数据获取造成了很大的影响,常用的网络爬虫已经无法适用于精准的数据查找、获取与分析,而Python语言简单并提供了多线程分布式爬虫框架,使网络爬虫的实现不再那么复杂.可配置网络爬虫通过Python 2.7和Mysql来实现一个多线程爬虫程序,可实现数据抓取并放入数据库功能,只要数量不多的代码就能实现所需要的网络爬虫,使用Python进行可配置爬虫设计成为快速有效的一种选择. Because the diversity and complexity of network data form have a great impact on data acquisition,the commonly used web crawler does not fit for accurate data search,acquisition and analysis.Python language is simple and provides a multi-threaded distributed crawler framework,Which makes the implementation of web crawler no longer complex.Configurable web crawler implements a multi-threaded crawler program through Python 2.7 and Mysql,which realizes crawling data and putting it into database.With just a small amount of code,Python can realize the required web crawler,making it a fast and effective choice for configurable crawler design.

作者苏国新苏聿 SU Guo-xin;SU Yu(Xiamen Ocean Vocational College,Xiamen,Fujian 361000,China;Tencent Technology (Shenzhen) Co.,Ltd. Shenzhen,Guangdong 400300,China)

机构地区厦门海洋职业技术学院腾讯科技(深圳)有限公司

出处《宁德师范学院学报（自然科学版）》 2018年第4期364-368,共5页 Journal of Ningde Normal University(Natural Science)

关键词网络爬虫数据抓取 PYTHON语言 MYSQL数据库 Web crawler data grabbing Python language Mysql data base

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1谢然.数据采集:为有源头活水来[J].互联网周刊,2014(12):32-33. 被引量：1
2郑昌璇,陈洋.大数据下可视化分析[J].技术与市场,2013,20(6):32-32. 被引量：8
3李琳.基于Python的网络爬虫系统的设计与实现[J].信息通信,2017,30(9):26-27. 被引量：31
4姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.基于Python的专业网络爬虫的设计与实现[J].企业科技与发展,2016(8):17-19. 被引量：31
5郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249. 被引量：59
6孙冰.基于Python的多线程网络爬虫的设计与实现[J].网络安全技术与应用,2018(4):38-39. 被引量：15

二级参考文献13

1胡志刚,侯海燕.科学技术学期刊群的可视化分析[J].大连理工大学学报（社会科学版）,2009,30(2):119-123. 被引量：9
2马萧萧,许力.海量探伤数据可视化分析与处理[J].工业控制计算机,2006,19(1):10-11. 被引量：1
3李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37
4洪文学,王金甲.可视化和可视化分析学[J].燕山大学学报,2010,34(2):95-99. 被引量：72
5阳国贵,姜波.线程切换开销分析工具的设计与实现[J].计算机应用,2010,30(8):2052-2055. 被引量：4
6于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
7黄荷.大数据时代降临[J].党政论坛,2012(22):52-53. 被引量：8
8于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：103
9陈琳,任芳.基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016,29(9):97-99. 被引量：24
10姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.基于Python的专业网络爬虫的设计与实现[J].企业科技与发展,2016(8):17-19. 被引量：31

共引文献129

1章蓬伟,贾钰峰,邵小青.基于案例的Python语言程序设计教学[J].学园,2020,13(7):44-45. 被引量：2
2沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：5
3谈帅,唐天琪,高雅.网络众源地理信息获取与整合方法研究[J].现代测绘,2021(2):53-58.
4梁晶,陈中元,张永宏,唐明灯.基于Python语言的“网络攻防技术”课程教学改革探索[J].中国多媒体与网络教学学报（电子版）,2020(14):48-50. 被引量：3
5项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
6杨剑.大数据开启情报服务机构科技创新知识服务的新时代[J].科技资讯,2014,12(14):6-6. 被引量：6
7刘慧,李凤银,禹继国,崔璨,葛睿.基于影评挖掘的电影推荐系统设计与实现[J].电子技术（上海）,2018,47(12):83-86. 被引量：1
8金宗泽,冯亚丽,文必龙,杨正男,张希.大数据分析流程框架的研究[J].计算机技术与发展,2014,24(8):117-120. 被引量：5
9韩丽萍.大数据与政府决策[J].学理论,2014(28):63-64. 被引量：3
10张领先,张标,李鑫星.大数据时代农业院校本科专业课程体系建设——以中国农业大学为例[J].北方农业学报,2016,44(2):115-119. 被引量：11

同被引文献65

1吴明礼,施水才.一种结合超链接分析的搜索引擎排序方法[J].计算机工程,2004,30(15):143-145. 被引量：10
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：155
3曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
4吴涛,张毛迪,陈传波.一种改进的统计与后串最大匹配的中文分词算法研究[J].计算机工程与科学,2008,30(8):79-82. 被引量：7
5崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302. 被引量：83
6李应.基于Hadoop的分布式主题网络爬虫研究[J].软件导刊,2016,15(3):24-26. 被引量：9
7姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.基于Python的专业网络爬虫的设计与实现[J].企业科技与发展,2016(8):17-19. 被引量：31
8黄菊.一种基于语义向量空间模型的作业查重算法[J].电子科学技术,2016,3(6):786-789. 被引量：2
9靳晓宏,王强,付宏,鲁啸.主题事件舆情指数的构建及实证研究——以食品安全主题为例[J].情报理论与实践,2016,39(12):103-108. 被引量：7
10薛丽敏,吴琦,李骏.面向专用信息获取的用户定制主题网络爬虫技术研究[J].信息网络安全,2017(2):12-21. 被引量：18

引证文献12

1杜晓旭,贾小云.基于Python的新浪微博爬虫分析[J].软件,2019,40(4):182-185. 被引量：14
2叶文全.基于C#+ScrapySharp+Selenium的数据采集技术研究[J].湖北第二师范学院学报,2019,36(8):44-48. 被引量：2
3徐勤亚,蔡继鹏,王星.基于Python的影片数据分析[J].信息技术与信息化,2019,0(8):113-115. 被引量：4
4郭锋锋.基于python的网络爬虫研究[J].佳木斯大学学报（自然科学版）,2020,38(2):62-65. 被引量：13
5钟机灵.基于Python网络爬虫技术的数据采集系统研究[J].信息通信,2020(4):96-98. 被引量：28
6吴道君.大数据背景python在网络爬虫框架中的应用[J].科学技术创新,2021(21):97-99. 被引量：5
7张钧鸣,牛雷,杨强.核电企业基于网页爬虫技术的运维自动化创新[J].产业与科技论坛,2021,20(11):43-45.
8杨泽明.Python在网络运维中的运用研究[J].无线互联科技,2022,19(1):86-87.
9孙自立.Python语言视域下网络爬虫系统开发研究[J].软件,2022,43(3):109-111.
10邓子云.通用的行业网站资讯集成平台的设计与实现[J].工业技术与职业教育,2022,20(2):10-14.

二级引证文献62

1邱明月,崔年冬.涉黑涉恶类警情的特征分析方法研究[J].法制与社会（旬刊）,2020(18):202-203.
2郭小磊.医药商品评论的情感分析[J].智能计算机与应用,2021,11(11):128-130. 被引量：1
3张宜志,蔡丽明.应用文本挖掘的网店营销策略分析[J].福建电脑,2019,35(11):72-73. 被引量：1
4刘艳玲,姚建盛.Python在数据可视化中的应用[J].福建电脑,2020,36(3):68-70. 被引量：19
5毕志杰,李静.基于Python的新浪微博爬虫程序设计与研究[J].信息与电脑,2020,32(4):150-152. 被引量：3
6方奇洲,程友清.基于Docker容器的分布式爬虫的设计与实现[J].电子设计工程,2020,28(8):61-65. 被引量：5
7刘明洁,李珅,梁毅.基于网络爬虫的法律文本纠错词库构建[J].软件,2020,41(5):57-60. 被引量：1
8张尚旻,阮湘辉.网络爬虫技术在基层平安建设中应用探索[J].数字技术与应用,2020,38(6):37-38. 被引量：2
9温佐承,侯帅.基于Python的网络爬虫设计与实现[J].电脑编程技巧与维护,2020(7):21-23. 被引量：2
10王煜炜.基于Python聚焦网络爬虫的用户在线评论内容分析[J].科学与信息化,2020(20):68-69. 被引量：1

1张喻平.MySQL数据库理实一体化教学研究[J].学周刊,2019(9):10-10. 被引量：6
2杨雄.深度学习在网络色情图像检测中的应用[J].安阳工学院学报,2018,17(6):39-42.
3栾磊磊.高校就业微信公众号发展现状研究[J].内蒙古师范大学学报（哲学社会科学版）,2018,47(6):105-108.
4贺翠翠,时华,赵明明,姚亚萍.基于微信小程序的“撩吃货”系统的研究与开发[J].价值工程,2019,38(5):161-164. 被引量：2
5黄友鹏.基于SSH框架的教学管理系统的设计与实现[J].科技风,2019(3):34-34. 被引量：1
6邵晓文.多线程并发网络爬虫的设计与实现[J].现代计算机,2019,25(1):97-100. 被引量：9
7温永凯,刘路杨,赵涛,尼曼.西力.研究生奖学金管理系统[J].信息与电脑,2019,31(1):157-158. 被引量：2
8杨兵,王方雄,康祥瑞.基于Cesium平台的GIS园区系统开发[J].软件,2018,39(12):99-102. 被引量：5
9屈敬华,王晓孟.在线考试系统的设计与实现[J].计算机时代,2019(1):43-45. 被引量：9
10邵永谦,毕波,王军.上海测震台网监控平台的设计及应用[J].电子设计工程,2019,27(3):11-15. 被引量：2

宁德师范学院学报（自然科学版）

2018年第4期

浏览历史

内容加载中请稍等...

基于Python的可配置网络爬虫被引量：12

参考文献6

二级参考文献13

共引文献129

同被引文献65

引证文献12

二级引证文献62

相关作者

相关机构

相关主题

浏览历史

基于Python的可配置网络爬虫 被引量：12

参考文献6

二级参考文献13

共引文献129

同被引文献65

引证文献12

二级引证文献62

相关作者

相关机构

相关主题

浏览历史

基于Python的可配置网络爬虫被引量：12