基于Scrapy的农业网络数据爬取被引量：12

Data Crawling from Agricultural Internet Based on Scrapy

下载PDF

导出

摘要准确、及时、高效地获取农业数据是全产业链农业信息分析预警工作的前提和基础,是提升农业信息分析预警专业化和规范化水平的关键。本研究针对互联网中存在的大量农业信息数据,以玉米价格数据为例,设计数据抓取和规范化存储策略,首先基于Scrapy框架建立对网页的请求响应,分析网页布局后对关键信息进行循环抓取,并利用正则表达式将抓取的信息提取为格式化数据,然后将数据本地化存储为Microsoft Excel表格或存储至数据库中,最后利用Echarts将数据以可视化的方式在Web端展示,从而实现对农业网络数据的挖掘和利用。 Accurate,timely and efficient access to agricultural data is the prerequisite and basis for analysis and early warning of agricultural informations in the whole industry chain. It is the key to enhancing the professionalization and standardization of agricultural information analysis and early warning. With the maize price as an example,the research focused on large amounts of agricultural informations on the Internet and developed data crawling and normalized storage strategies. Firstly,we created request & response to the web pages based on Scrapy framework,analyzed the web page layout and then crawled the key informations cyclically; the data were extracted into formatted data using regular expressions,and then were stored as the localized data in a Microsoft Excel spreadsheet or in a database. Finally,Echarts was used to visualize the data on the Web,and thus the mining and utilization of agricultural network data were realized.

作者李乔宇尚明华王富军刘淑云

机构地区山东省农业科学院科技信息研究所

出处《山东农业科学》 2018年第1期142-147,共6页 Shandong Agricultural Sciences

基金山东省农业科学院青年科研基金项目(2016YQN47) 山东省农业科学院农业科技创新工程项目(CXGC2016B15) 山东省重大应用技术创新项目"基于物联网的设施蔬菜大数据平台研究与应用"

关键词 Scrapy 爬虫网络数据数据挖掘玉米价格 Scrapy Crawler Network data Data mining Maize price

分类号 S126 [农业科学—农业基础科学]

引文网络
相关文献

参考文献10

1王文生,郭雷风.农业大数据及其应用展望[J].江苏农业科学,2015,43(9):1-5. 被引量：66
2张石锐,郑文刚,申长军,邢振.嵌入式手持无线农产品价格信息采集终端[J].计算机工程与设计,2012,33(2):514-518. 被引量：8
3尚明华,秦磊磊,王风云,刘淑云,张晓艳.基于Android智能手机的小麦生产风险信息采集系统[J].农业工程学报,2011,27(5):178-182. 被引量：82
4段青玲,魏芳芳,张磊,肖晓琰.基于Web数据的农业网络信息自动采集与分类系统[J].农业工程学报,2016,32(12):172-178. 被引量：34
5孟繁疆,姬祥,袁琦,刘东,侯哲鹏.农产品价格主题搜索引擎的研究与实现[J].东北农业大学学报,2016,47(9):64-71. 被引量：6
6李慧,何永贤,叶云.基于聚焦爬虫的农业信息服务平台设计与实现[J].天津农业科学,2016,22(10):60-63. 被引量：5
7时永坤.基于WebDriver的定向网络爬虫设计与实现[J].软件,2016,37(9):94-97. 被引量：9
8杜彬.基于Selenium的定向网络爬虫设计与实现[J].金融科技时代,2016,24(7):35-39. 被引量：6
9赵本本,殷旭东,王伟.基于Scrapy的GitHub数据爬虫[J].电子技术与软件工程,2016(6):199-202. 被引量：18
10夏火松,李保国.基于Python的动态网页评价爬虫算法[J].软件工程,2016,19(2):43-46. 被引量：20

二级参考文献94

1王贵荣,李道亮,吕钊钦,段青玲,温继文.鱼病诊断短信平台设计与实现[J].农业工程学报,2009,25(3):130-134. 被引量：6
2方美玉,郑小林,陈德人,华艺,施艳.商品评论聚焦爬虫算法设计与实现[J].吉林大学学报（工学版）,2012,42(S1):377-381. 被引量：10
3孟志军,赵春江,王秀,薛绪掌,叶涛.基于GPS的便携式农田信息采集系统[J].中国科技成果,2004(12):30-32. 被引量：3
4张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
5孟志军,王秀,赵春江,薛绪掌.基于嵌入式组件技术的精准农业农田信息采集系统的设计与实现[J].农业工程学报,2005,21(4):91-96. 被引量：52
6吴文波,张书慧,李雪飞,钱侠.基于PDA/GPS/GIS的精确农业空间信息采集方法及其数据应用[J].吉林大学学报（工学版）,2005,35(3):323-328. 被引量：16
7胡顺安,王书茂.智能化农业信息远程数据采集系统[J].机械,2005,32(6):25-26. 被引量：8
8李志伟,潘剑君,张佳宝.基于GPS的智能农机载高光谱采集系统的初步研究[J].光谱学与光谱分析,2005,25(6):979-983. 被引量：10
9周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
10孙忠富,曹洪太,李洪亮,杜克明,王迎春,苏晓峰,蔡田芳,刘爽,褚金翔.基于GPRS和WEB的温室环境信息采集系统的实现[J].农业工程学报,2006,22(6):131-134. 被引量：132

共引文献240

1梁高丽,雷浩,刘栩粼.基于Android的农贸数据分析系统的设计[J].内江科技,2022,43(8):61-62. 被引量：1
2雍龙泉,贾伟,张建科.基于爬虫技术与智能算法的网络舆情监测[J].智能计算机与应用,2021,11(4):35-38. 被引量：3
3戴雪儿,徐静.基于大数据的农产品营销路径研究[J].财经界,2022(29):11-13.
4周超,蔡忠亮,贾小涛,李伯钊.支持多应用场景的地理信息采集系统设计[J].测绘地理信息,2022,47(5):105-109.
5杨光,潘瑜春,赵春江.可定制农产品产地环境数据采集系统研究——基于M/S模式[J].农机化研究,2012,34(9):78-82. 被引量：1
6曹明贺,周东祥,龚树萍.叠层片式陶瓷元件发展概述[J].材料导报,2000,14(5):33-35. 被引量：7
7吕春.统计规律性的计算机模拟演示[J].工科物理,2000,10(4):46-51.
8杨林楠,郜鲁涛,林尔升,彭琳,李文峰.基于Android系统手机的甜玉米病虫害智能诊断系统[J].农业工程学报,2012,28(18):163-168. 被引量：85
9韩冰,闫红岩.基于Android的手持终端CoreProcess系统的设计[J].郑州轻工业学院学报（自然科学版）,2012,27(6):51-54.
10朱伟兴,沈芳霞,黄鹏.基于ARM+Linux的果品远程评价系统[J].现代科学仪器,2013,30(1):52-55.

同被引文献122

1刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132
2周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：92
3王江红,朱丽君,李彩虹.一种新型网络爬虫的设计与实现[J].微计算机信息,2010,26(3):136-137. 被引量：4
4董志勇,官皓,明艳.房地产价格影响因素分析:基于中国各省市的面板数据的实证研究[J].中国地质大学学报（社会科学版）,2010,10(2):98-103. 被引量：62
5骆永明.中国污染场地修复的研究进展、问题与展望[J].环境监测管理与技术,2011,23(3):1-6. 被引量：201
6安辉,王瑞东.我国房地产价格影响因素的实证分析——兼论当前房地产调控政策[J].财经科学,2013(3):115-124. 被引量：130
7朱银,荀广连,杨欣,许大光,颜伟.江苏省农作物品种系谱追溯系统的构建[J].江苏农业科学,2013,41(11):412-414. 被引量：3
8何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：328
9李枫林,柯佳.基于深度学习的文本表示方法[J].情报科学,2019,37(1):156-164. 被引量：19
10姜林,钟茂生,张丽娜,张俊丽,贾晓洋,韩丹,张丹,夏天翔,姚珏君.基于风险的中国污染场地管理体系研究[J].环境污染与防治,2014,36(8):1-10. 被引量：46

引证文献12

1武振国.小麦品种资源知识库系统构建[J].通讯世界,2018,25(6):237-238.
2徐郑琴.基于Scrapy的番茄病虫害数据收集[J].电脑知识与技术,2019,15(1X):24-25.
3姜东民,张永正,陈雅静.基于网络爬虫的房产价格信息获取及分析——以青岛地区为例[J].信息技术与信息化,2018(8):108-111. 被引量：3
4袁培森,杨承林,宋玉红,翟肇裕,徐焕良.基于Stacking集成学习的水稻表型组学实体分类研究[J].农业机械学报,2019,50(11):144-152. 被引量：22
5游攀利,杨琳,喻淼.基于Scrapy的水利数据爬虫设计与实现[J].水利水电快报,2020,41(5):71-77. 被引量：3
6王胜,谢元平.基于Scrapy和Kettle的对标城市政策文件库建设[J].电子技术与软件工程,2021(5):181-183. 被引量：2
7谢树仁,邓凯成,喻琨,陈政.基于Python框架的农业信息共享平台研究——以湖南省衡阳市为例[J].经济师,2021(5):37-39. 被引量：2
8陆晓松,王国庆,李勖之,杜俊洋,孙丽.场地环境大数据采集和机器学习方法在污染智能识别中的应用研究进展[J].生态与农村环境学报,2022,38(9):1101-1111. 被引量：11
9曾攀,袁黎辉.基于知识图谱的玉米病虫害智能问答系统设计[J].信息技术与标准化,2022(12):63-68. 被引量：2
10李成林,赵珍威,李国厚,侯志松.基于知识图谱的农作物良种问答系统的设计与实现[J].河南科技学院学报（自然科学版）,2024,52(1):48-59. 被引量：1

二级引证文献46

1冯建英,苏允汇,龚劭齐,王智,穆维松.基于集成学习的农业生产技术效率评价方法[J].农业机械学报,2021,52(S01):148-155. 被引量：6
2谈帅,唐天琪,高雅.网络众源地理信息获取与整合方法研究[J].现代测绘,2021(2):53-58.
3孙婷婷,丁硕权.房价数据抓取与分析系统设计与实现[J].电脑知识与技术,2020,16(15):24-27. 被引量：1
4黄岷昊,丁浪,张雪莲.基于Python的网络爬虫及文本可视化[J].电脑编程技巧与维护,2020(7):24-25. 被引量：7
5谢文涌,柴琴琴,甘勇辉,陈舒迪,张勋,王武.基于多特征提取和Stacking集成学习的金线莲品系分类[J].农业工程学报,2020,36(14):203-210. 被引量：14
6林汨圣,王扬.建筑类网站聚焦爬虫策略研究[J].科技创新与应用,2020(33):1-5. 被引量：3
7张继成,王洁瑜,杨文栋.基于3DGIS的水环境数据分析系统研究与应用[J].西北水电,2020(5):103-106. 被引量：1
8郑祉盈,曹亮,李湘丽,刘双印,徐龙琴,罗智杰,尹航.基于Neo4j图数据库的对虾养殖领域知识图谱研究[J].通讯世界,2020,27(11):146-147. 被引量：1
9刘鹏程,孙林夫,张常有.融合组合赋权与嵌套集成分类器的服务商评价[J].计算机集成制造系统,2020,26(12):3408-3426. 被引量：3
10范苑花.基于实体分类的数据库模式匹配方法探析[J].信息与电脑,2021,33(3):180-182. 被引量：1

1杨菲菲.玉米月报:12月偏强震荡年前保持强震格局[J].今日养猪业,2018,0(1):20-21.
2孟庆岩.浅析网络数据抓取[J].烟台南山学院学报,2017,14(2):59-61.
3全国豆粕、玉米、鱼粉、赖氨酸、蛋氨酸价格统计[J].养猪,2018(1):5-5.
4卫五波,青巧.浅析浮动在网页布局中的应用[J].福建电脑,2018,34(1):154-155. 被引量：1
5高波.军队院校伤病分析预警系统的设计与实现[J].科教导刊（电子版）,2017,0(34):24-24.
6陈文涛.山东省玉米高产栽培技术[J].农业工程技术,2017,37(35):52-52. 被引量：2
7谢晓光.浅析Excel在教学管理方面的应用[J].重庆工贸职业技术学院学报,2017(2):50-52.
8李斐斐,张建华,朱孟帅,韩书庆,吴建寨.农业数据质量及评估方法探讨[J].安徽农业科学,2017,45(36):221-223. 被引量：2
9吴蕾.HTML5的前端本地化存储技术研究[J].山西能源学院学报,2017,30(4):209-211.
10何静.Microsoft Excel在老年护理管理中的运用[J].世界最新医学信息文摘,2017,0(73):91-91.

山东农业科学

2018年第1期

浏览历史

内容加载中请稍等...

基于Scrapy的农业网络数据爬取被引量：12

参考文献10

二级参考文献94

共引文献240

同被引文献122

引证文献12

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的农业网络数据爬取 被引量：12

参考文献10

二级参考文献94

共引文献240

同被引文献122

引证文献12

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的农业网络数据爬取被引量：12