基于Python的网络爬虫程序设计被引量：59

下载PDF

导出

摘要网络信息量的迅猛增长,对如何从海量的信息中准确的搜索到用户需要的信息提出了极大的挑战。网络爬虫具有能够自动提取网页信息的能力。本文根据某信息网的特点,提出了一种基于Python的聚焦爬虫程序设计。实验结果表明:本程序具有针对性强,数据采集速度快、简单等优点,有利于对其它的数据进行后续的挖掘研究。

作者郭丽蓉

机构地区山西警察学院网络安全保卫系

出处《电子技术与软件工程》 2017年第23期248-249,共2页 ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING

关键词网络爬虫 PYTHON

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017,25(9):44-45. 被引量：50
2陈琳,任芳.基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016,29(9):97-99. 被引量：24
3韩菲,金磊,戴文浩,李艳飞,杨树.基于Python的实时数据库设计[J].仪器仪表用户,2017,24(6):28-30. 被引量：5
4于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23

二级参考文献27

1刘洪星,谢玉山.Eclipse开发平台及其应用[J].武汉理工大学学报（信息与管理工程版）,2005,27(2):89-92. 被引量：26
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：155
3王锋,韩璞,乔弘,刘磊.eXtremeDB数据库在DCS现场控制站中的设计与应用[J].华北电力大学学报（自然科学版）,2006,33(4):12-15. 被引量：5
4Hemovici M, Jacovi M, Maarek Y S, et al. The Shark-Search Algorithm: An Application:Tailored Web Site Mapping[ C ]//Proceedings of the7th international World Wide Web 7 conference. Brisbane, Australia, 1998.
5Joson Rennie, Andrew Kachites McCallum. Using reinforcement learning to spider the web efficiently[ C ]//Proceedings of the 16th International Conference on Machine Learning( ICML - 99 ). Bled, Slovenia, 1999:335 - 343.
6Diligenti M, Coetzee F, Lawrence S, et al. Focused crawling using context graphs. Proceedings of the 26th International Conference on Very Large Database ( VLDB2000), 2000:527 - 534.
7Aggaewal C, A1-Garawif Yup. Intelligent crawling on the World Wide Web with arbitrary predicates[ C ]//Proc of the 10th International WoAd Wide Web Conference. HongKong: [ S n] ,2001.
8Maenehea Ehrig. Ontology-focused crawling of Web documents[ C ]//Proc of ACM Symposium on Applied Computing ,2003.
9Chakrabarti S, Punera K, Subramanyam M. Accelerated Focused Crawling through Online Relevance Feedback [ C ]//Proceedings of the 11 th International Conference on World Wide Web, Hawaii, USA ,2002 : 148 - 159.
10Cai Rui, Yang Jiang-ming, Wei lai. iRobot: An Intelligent Crawler for Web Forums [ A ]//Proceedings of the 17th International world Wide Web Conference[ C ]. ACM Press ,2008:447 - 456.

共引文献97

1项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
2王娟,吴金鹏.网络爬虫的设计与实现[J].软件导刊,2012,11(4):136-137. 被引量：7
3焦改香.试谈社会信息意识的形成条件和影响因素[J].地震科技情报,2000(2):11-12.
4周峦,林芸,陈露诗.剖宫产术中出血相关因素的探讨[J].广东医学,2000,21(5):420-421. 被引量：1
5赵靖,潘志舟,梅芳婷,程振,钱吕见.多中文搜索引擎的联合网络爬虫及LUCENCE实现[J].安阳师范学院学报,2012(5):51-55.
6杨旭东.基于Python的《水浒传》中人物分析[J].网络安全技术与应用,2019(1):42-43. 被引量：3
7王春芳,高永兵.炼铁厂铁量网页数据获取系统的设计与实现[J].中国新通信,2016,18(21):121-121. 被引量：1
8郑豪,何彦雨.基于Java平台的分布式网络爬虫系统研究[J].科技创新与应用,2017,7(1):112-112. 被引量：5
9谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017,25(9):44-45. 被引量：50
10彭崧.基于异步JavaScript技术的水稻病虫害图像网络爬虫设计[J].科技视界,2017(7):166-166. 被引量：1

同被引文献276

1王璐,郑向敏.乡村民宿“温度”与乡村振兴[J].旅游学刊,2021(4):7-10. 被引量：47
2谢和平,彭瑞东,鞠杨.岩石变形破坏过程中的能量耗散分析[J].岩石力学与工程学报,2004,23(21):3565-3570. 被引量：326
3罗霄,任勇,山秀明.基于Python的混合语言编程及其实现[J].计算机应用与软件,2004,21(12):17-18. 被引量：63
4郭艳华,周昌乐.自然语言理解研究综述[J].杭州电子工业学院学报,2000,20(1):58-65. 被引量：31
5谢和平,鞠杨,黎立云.基于能量耗散与释放原理的岩石强度与整体破坏准则[J].岩石力学与工程学报,2005,24(17):3003-3010. 被引量：661
6周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：155
7王艳青.近年来中国水稻病虫害发生及趋势分析[J].中国农学通报,2006,22(2):343-347. 被引量：183
8徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现[J].微计算机信息,2007,23(21):119-121. 被引量：36
9陈智博,吴小根,汤澍,罗浩,贾真真.江苏旅游经济发展的空间差异[J].经济地理,2008,28(6):1064-1067. 被引量：100
10谢和平,鞠杨,黎立云,彭瑞东.岩体变形破坏过程的能量机制[J].岩石力学与工程学报,2008,27(9):1729-1740. 被引量：314

引证文献59

1沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：5
2谈帅,唐天琪,高雅.网络众源地理信息获取与整合方法研究[J].现代测绘,2021(2):53-58.
3梁晶,陈中元,张永宏,唐明灯.基于Python语言的“网络攻防技术”课程教学改革探索[J].中国多媒体与网络教学学报（电子版）,2020(14):48-50. 被引量：3
4项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
5白雪丽.浅析基于Python爬虫技术的特性及应用[J].山西科技,2018,33(2):53-55. 被引量：18
6王世纯,许新华,张洪春,黄嘉成.个体差异对Python爬虫获取教育大数据的影响研究[J].中国教育信息化,2018,24(9):79-81. 被引量：2
7夏天琦.Python爬虫获取网络图片[J].电子世界,2018,0(10):101-101. 被引量：1
8曾武序,钱文彬,王映龙,杨文姬,柳军.一种基于Python和BP神经网络的股票预测方法[J].计算机时代,2018(6):72-75. 被引量：6
9方星宇,张科伟.基于文本挖掘的共享单车发展现状分析[J].内蒙古科技与经济,2018(10):77-78.
10刘杰,葛晓玢,闻顺杰.基于Python的网络爬虫系统的设计与实现[J].信息与电脑,2018,30(12):92-93. 被引量：4

二级引证文献278

1张振,赵鑫东.网络语言对新时期大学生思政教育的影响及对策研究[J].中外企业文化,2020(8):113-114. 被引量：2
2李金春,周芳.皖南民宿室内设计中传统材料的应用研究[J].中国建筑装饰装修,2023(4):66-68.
3袁永旭,张淑婷,赵晓婷,金鹏琛.基于爬虫技术的病案管理人才需求现状分析[J].中国病案,2020(9):3-7. 被引量：7
4刘子谦,王志强.基于爬虫和文本处理的微博舆情分析系统[J].北京电子科技学院学报,2020(3):31-39. 被引量：5
5邱奕超,邹嘉程.浅析旅游大数据的多数据源采集方式[J].数字技术与应用,2024,42(3):161-164.
6陈静静,卿婷玉,周波.基于R语言ARIMA模型对我国医疗卫生资源预测研究[J].社区医学杂志,2022,20(2):108-115. 被引量：2
7朱正国.Python在校园大数据中的应用研究[J].商丘师范学院学报,2020(6):14-17. 被引量：2
8刘娟娟,杨根福.移动端儿童数字阅读行为采集与可视化研究[J].内江科技,2021,42(5):18-19.
9谈帅,唐天琪,高雅.网络众源地理信息获取与整合方法研究[J].现代测绘,2021(2):53-58.
10徐贵阳,邵恒,王楠溢.江苏省新冠肺炎疫情地图移动平台设计与实现[J].现代测绘,2020,43(3):30-33. 被引量：2

1张明杰,朱烨行.网络舆情监测系统的设计与实现[J].电脑编程技巧与维护,2017(22):18-19. 被引量：4
2黄伟松,曾玉珠,魏森林.文本挖掘在企业网络舆情分析中的应用研究[J].电脑编程技巧与维护,2017(22):5-8. 被引量：7
3孟庆岩.浅析网络数据抓取[J].烟台南山学院学报,2017,14(2):59-61.
4李蓉蓉.基于Hadoop的电商平台大数据挖掘研究[J].南方农机,2017,48(22):111-111. 被引量：4
5殷琛.高校立德树人根本任务的实现路径与工作机制研究[J].黑河学院学报,2017,8(8):48-49. 被引量：4
6王昕天,汪雷.基于文本挖掘的在线旅游热词情报分析——以携程网为例[J].情报理论与实践,2017,40(11):105-109. 被引量：14
7王文静.微博信息采集系统研究[J].电子制作,2017,25(22):44-46.
8《饲料工业》投稿须知[J].饲料工业,2017,38(22):64-64.
9白祎花.基于移动互联网的农业信息服务平台构建[J].农业工程,2017,7(5):54-56. 被引量：1
10郑岘,谢树明,蒋胜华,张晓章.土地面积量算中的弧线数据转换及其精度控制[J].地理空间信息,2017,15(11):74-76. 被引量：2

电子技术与软件工程

2017年第23期

浏览历史

内容加载中请稍等...

基于Python的网络爬虫程序设计被引量：59

参考文献4

二级参考文献27

共引文献97

同被引文献276

引证文献59

二级引证文献278

相关作者

相关机构

相关主题

浏览历史

基于Python的网络爬虫程序设计 被引量：59

参考文献4

二级参考文献27

共引文献97

同被引文献276

引证文献59

二级引证文献278

相关作者

相关机构

相关主题

浏览历史

基于Python的网络爬虫程序设计被引量：59