基于Python爬虫的旅游网站数据分析与可视化被引量：7

Data analysis and visualization of travel website based on Python crawler

下载PDF

导出

摘要爬虫是搜索引擎和网站的核心元素,专用的网络爬虫能够在短时间内从网络上抓取大量有用数据。为了爬取旅游网站的旅游数据,分析网站上的旅游热门地区和热门景点,研究了一种基于Scrapy框架的针对旅游网站的聚焦型网络爬虫,对爬取的数据进行分析,并通过第三方库Pandas和Matplotlib实现数据可视化。实验结果表明,提出的以旅游网站为主题的聚焦网络爬虫能够提高对旅游数据的检索效率,在旅游网站海量数据里快速找到所需信息,为旅游爱好者出行以及各地区、景点优化服务提供参考。 Crawler is the core element of search engines and websites. Dedicated web crawlers can grab a large amount of useful data from the web in a short time. In order to crawl the travel data of the travel website and analyze the popular places and attractions on the website,a focused web crawler based on Scrapy framework for tourism websites is studied. The crawled tourism data is analyzed and visualized through the third-party library Pandas and Matplotlib in Pycharm. The experimental results show that the focused web crawler proposed in this paper can improve the retrieval efficiency of tourism data,quickly find the required information from the massive data of tourism websites,and provide reference for tourism enthusiasts to travel and optimize services for various regions and scenic spots.

作者赵蔷 ZHAO Qiang(School of Computer Science,Xianyang Normal University,Xianyang 712000,China)

机构地区咸阳师范学院计算机学院

出处《电子设计工程》 2022年第16期152-155,共4页 Electronic Design Engineering

基金陕西省教育科学“十三五”规划2017年课题(SGH17H197)。

关键词 Python爬虫 Scrapy框架旅游网站可视化 Python crawler Scrapy framework travel website visualization

分类号 TP393.0 [自动化与计算机技术—计算机应用技术] TN91 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献10

1孙媛,张俊芳.基于网络爬虫的电商评价数据可视化[J].现代信息科技,2020,4(12):95-97. 被引量：2
2彭焕卜,谢志昆.基于Python的学习者基本数据分析与可视化研究[J].中国教育信息化,2021,27(15):60-64. 被引量：9
3项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
4李志义,沈之锐.基于重复模式识别的网页信息抽取研究[J].情报科学,2019,37(3):88-92. 被引量：6
5谭镇阳,王璐.基于网络爬虫的招聘信息可视化分析系统[J].信息通信,2018,31(9):140-142. 被引量：4
6姚超.基于网络爬虫的大数据岗位职业技能的分析[J].电脑知识与技术,2019,15(9X):1-2. 被引量：1
7闫志国,宛楠,严迪,许超,秦逸飞,齐前.基于Scrapy爬取电商药品数据及数据可视化分析处理[J].轻工科技,2021,37(3):98-100. 被引量：16
8朱琪.基于网络爬虫的舆情分析预警系统设计[J].电子设计工程,2020,28(22):56-60. 被引量：10
9陈海燕,朱庆华,常莹.基于Python的网页信息爬取技术研究[J].电脑知识与技术,2021,17(8):195-196. 被引量：4
10张军.乘风而行——经济回暖驱动旅游业新发展[J].中国会展,2021(8):42-43. 被引量：1

二级参考文献69

1朱正国.Python在校园大数据中的应用研究[J].商丘师范学院学报,2020(6):14-17. 被引量：2
2王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
3徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现[J].微计算机信息,2007,23(21):119-121. 被引量：36
4韩忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].计算机应用研究,2008,25(12):3568-3571. 被引量：15
5曹冬林,廖祥文,许洪波,白硕.基于网页格式信息量的博客文章和评论抽取模型[J].软件学报,2009,20(5):1282-1291. 被引量：15
6刘守群,朱明,谭晓彬.一种基于树匹配的网页语义块挖掘算法[J].小型微型计算机系统,2009,30(8):1541-1545. 被引量：7
7周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：92
8李亚子,方安,陈薇,朱峰.Web页面最大有意义节点发现算法研究[J].现代图书情报技术,2009(10):22-27. 被引量：3
9师雪霖,程文涛.Web信息抽取与语义检索框架[J].郑州大学学报（理学版）,2010,42(1):29-32. 被引量：4
10袁鸿雁.基于本体的Web表格信息抽取技术的研究[J].青岛大学学报（自然科学版）,2010,23(2):47-51. 被引量：3

共引文献47

1王浩.彩色图像视觉目标区域轨迹点跟踪方法[J].周口师范学院学报,2020(2):129-133.
2杨康.大数据时代的网络评论数据处理技术应用分析[J].大众标准化,2020(22):176-177. 被引量：1
3张浩鹏,范梅花,姜翠霞,杨欣宇,李诚,王红艳.基于Python的职位画像系统[J].高师理科学刊,2019,39(6):39-42.
4金昌锦.多数据源招聘信息采集的爬虫系统实现[J].福建电脑,2019,35(11):13-16. 被引量：1
5朱琪.基于网络爬虫的舆情分析预警系统设计[J].电子设计工程,2020,28(22):56-60. 被引量：10
6吴薛凯,刘天波,胡文馨.基于网络爬虫的Java行业的就业分析[J].科技资讯,2021,19(2):13-16. 被引量：1
7张驰庚,金智鹏.正则表达式finditer提取文本数据方法研究[J].信息技术与信息化,2021(5):151-153. 被引量：2
8张帆,杜迎晨.淘宝平台商家数据化运营与优化策略研究--以女装TD店铺为例[J].商场现代化,2021(10):23-25. 被引量：1
9李波,周荣福.煤矿井下孔内事故可视处理技术研究[J].化工管理,2021(17):91-92. 被引量：1
10唐绍华.新一代信息技术在规划辅助平台中的应用研究[J].现代信息科技,2021,5(3):110-113. 被引量：2

同被引文献47

1涂辉,王锋,商庆伟.Python3编程实现网络图片爬虫[J].电脑编程技巧与维护,2017(23):21-22. 被引量：10
2程琳.国之重器必须自主创新掌握[J].中国信息安全,2018,0(5):36-37. 被引量：2
3曾晓娟.基于Python爬虫技术的应用[J].办公自动化,2018,23(20):62-64. 被引量：5
4王金峰,李世良,王明,罗星宇,张雪玉.基于Python的关于Flickr图片网站的爬虫[J].中小企业管理与科技,2019,3(2):182-183. 被引量：4
5孔贵琴.基于网络安全的攻防演示系统[J].数码世界,2020,0(4):234-234. 被引量：1
6曾诚.基于Python的网络爬虫及数据可视化和预测分析[J].信息与电脑,2020,32(9):167-169. 被引量：6
7孟清,路贺俊,刘对,高雨.基于Python的自动代理Web漏洞扫描器的设计与实现[J].科技视界,2020(17):41-45. 被引量：2
8黄岷昊,丁浪,张雪莲.基于Python的网络爬虫及文本可视化[J].电脑编程技巧与维护,2020(7):24-25. 被引量：7
9邱俊杰.基于Python定向爬虫技术对微博数据可视化设计与实现[J].电脑知识与技术,2020,16(22):43-44. 被引量：5
10胡涛,兰全祥.基于Spring Cloud的西安旅游网站的设计与实现[J].信息技术与信息化,2020(9):65-67. 被引量：3

引证文献7

1宋云娟.基于Python的数据分析可视化探索与实践[J].信息与电脑,2022,34(17):46-48.
2苏明焱.基于Python的招聘网站信息的爬取与数据分析[J].信息与电脑,2022,34(24):193-195. 被引量：2
3王泽儒,冯军军.信息安全工具库的设计与实现[J].电脑与电信,2023(3):69-72.
4姜庆玲,张樊.基于Python与Requests模块的网络图片爬虫程序设计[J].电脑编程技巧与维护,2023(6):59-61.
5朱宇飞,王莉,周嘉磊.基于Python的居民用电特征搜索引擎设计[J].信息与电脑,2023,35(10):154-156.
6吕新超.Scrapy框架辅助下的Python爬虫系统研究[J].电脑知识与技术,2024,20(7):49-52.
7郭晨灏,柳箐,姜澳,赵美娇,徐子薇,王博.基于Python的全国旅游信息统计网站数据抓取研究[J].电脑与信息技术,2024,32(5):71-74.

二级引证文献2

1蔡文乐,秦立静.基于Python爬虫的招聘数据可视化分析[J].物联网技术,2024,14(1):102-105. 被引量：6
2郑志建,俞发仁,魏晓微,赵泳,胡长生.基于Python的职位网站爬取设计与实现[J].计算机与网络,2024,50(1):24-27.

1余佥.Python语言在数据分析处理中的应用[J].电脑编程技巧与维护,2022(6):18-20. 被引量：11
2赵圆圆.Python语言在学生成绩分析与评估中的应用[J].石家庄职业技术学院学报,2022,34(2):37-42.
3任帅,张永峰,张梦洁,张伟伟.Python语言在轮胎带束层后处理分析中的应用[J].轮胎工业,2022,42(7):394-398. 被引量：2
4阮芳庶.基于随机数的计算机模拟[J].电脑编程技巧与维护,2022(6):42-44.
5陈小尘,谢亚雄,张伟.Python在闪电监测资料分析中的应用[J].电子测试,2022,36(12):69-71. 被引量：1
6徐雨田.乡村旅游饮食文化的开发分析[J].中国食品,2022(16):122-124.
7赵德芳.基于网站文本分析的上海城市旅游投射形象研究[J].新媒体研究,2022,8(12):103-110.
8刁羽,薛红.高校图书馆典型用户群体电子资源行为数据分析实证研究——基于创文图书馆电子资源综合管理与利用系统[J].新世纪图书馆,2022(7):59-64. 被引量：4
9田歌,吴旷,田红蕊.基于matplotlib的K-means-ARIMA模型对零售商品在传统节假日的销量预测[J].电脑知识与技术,2022,18(18):59-60.
10王一楠,韦峻峰.基于Python的在线通信原理仿真实验平台[J].中国新通信,2022,24(6):15-17. 被引量：1

电子设计工程

2022年第16期

浏览历史

内容加载中请稍等...

基于Python爬虫的旅游网站数据分析与可视化被引量：7

参考文献10

二级参考文献69

共引文献47

同被引文献47

引证文献7

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Python爬虫的旅游网站数据分析与可视化 被引量：7

参考文献10

二级参考文献69

共引文献47

同被引文献47

引证文献7

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Python爬虫的旅游网站数据分析与可视化被引量：7