期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于Scrapy爬虫框架下电商数据分析 被引量:4
1
作者 黄雨辰 童彤 《安阳师范学院学报》 2021年第5期132-136,共5页
电子商务快速发展的过程中产生了海量数据,对海量数据的分析能够挖掘有用信息,提升电商企业核心竞争力。基于此,设计了一款基于Scrapy爬虫框架下的电商数据分析平台。采用分布式抓取海量电商数据,寻找电商消费者的消费特点。在此基础上... 电子商务快速发展的过程中产生了海量数据,对海量数据的分析能够挖掘有用信息,提升电商企业核心竞争力。基于此,设计了一款基于Scrapy爬虫框架下的电商数据分析平台。采用分布式抓取海量电商数据,寻找电商消费者的消费特点。在此基础上采集顾客、商品、品牌三方面数据进行整合处理,并将处理结果可视化,展现给电商企业,为电商企业快速了解消费者的消费特点,制定科学化的营销战略提供了数据参考。 展开更多
关键词 scrapy爬虫框架 电商数据 可视化
下载PDF
基于Scrapy爬虫框架的云南农村科技服务平台信息采集系统的研究与实现 被引量:2
2
作者 刘登英 龚力波 +1 位作者 李雯 黄晓辉 《安徽农业科学》 CAS 2018年第35期191-194,共4页
农村信息化是发展现代农业的重要条件,农业信息对农业生产生活具有重要的指导作用,为避免云南农村信息化多头建设、重复建设所引起的资源浪费,开展了云南农村科技服务平台建设,实现了云南农业科技信息的整体运作与资源整合,为相关涉农... 农村信息化是发展现代农业的重要条件,农业信息对农业生产生活具有重要的指导作用,为避免云南农村信息化多头建设、重复建设所引起的资源浪费,开展了云南农村科技服务平台建设,实现了云南农业科技信息的整体运作与资源整合,为相关涉农政府部门、科研院所、企业农户提供信息技术指导。 展开更多
关键词 scrapy爬虫框架 农村科技服务平台 信息采集
下载PDF
基于Scrapy爬虫技术和图神经网络的生态旅游推荐技术 被引量:2
3
作者 张一恒 王芹 +1 位作者 刁炜卿 王小静 《自动化与仪器仪表》 2024年第2期6-10,共5页
对基于Scrapy爬虫技术和图神经网络的生态旅游推荐技术进行研究,设计了一种融合图神经网络与注意力机制的生态旅游推荐系统,并采用Scrapy爬虫技术建立数据集对系统进行测试与验证。首先,对系统整体框架进行设计,其次对基本算法进行选择... 对基于Scrapy爬虫技术和图神经网络的生态旅游推荐技术进行研究,设计了一种融合图神经网络与注意力机制的生态旅游推荐系统,并采用Scrapy爬虫技术建立数据集对系统进行测试与验证。首先,对系统整体框架进行设计,其次对基本算法进行选择,并对用户偏好模型、生态旅游项目交互关系、属性关系模型以及评分预测模型进行搭建,最终获取综合推荐结果。最后对系统进行实验测试。实验结果表明:本研究的推荐系统的MAE与RMSE值最低,与基于Graphrec算法的推荐系统相比,MAE值提高了3.274%,RMSE值提高了3.124%,证明本研究的推荐系统适用于生态旅游项目推荐,且推荐效果良好。 展开更多
关键词 scrapy爬虫技术 生态旅游 图神经网络 注意力机制 推荐系统
原文传递
基于Scrapy分布式的暗网探测爬虫构建 被引量:8
4
作者 余志玮 何月顺 《计算机时代》 2020年第4期21-25,共5页
暗网中存在大量毒品、军火、货币等非法交易网站,对网络环境造成严重危害,为了对暗网进行探测和监控,提出一种基于Scrapy分布式的暗网探测爬虫方法。将暗网使用的socks5协议转化为爬虫支持的http协议,再利用Python的Scrapy爬虫框架对暗... 暗网中存在大量毒品、军火、货币等非法交易网站,对网络环境造成严重危害,为了对暗网进行探测和监控,提出一种基于Scrapy分布式的暗网探测爬虫方法。将暗网使用的socks5协议转化为爬虫支持的http协议,再利用Python的Scrapy爬虫框架对暗网站点进行探测和爬取。使用该方法已发现数以万计的暗网站点信息,包括网站标题、源代码、网站类型等。将暗网代理环境和Python爬虫相结合,能够让程序对暗网的站点进行探测和爬取,对暗网环境进行很好的探测和监控。 展开更多
关键词 暗网 代理环境 scrapy爬虫框架 站点
下载PDF
基于爬虫技术的Web应用程序漏洞检测方法 被引量:3
5
作者 王全民 雷佳伟 +1 位作者 张程 赵小桐 《计算机科学与应用》 2016年第6期340-346,共7页
随着Web应用不断的发展,随之而产生的包括XSS在内的各种安全漏洞也越来越多。今天,XSS传统防御技术的缺陷已经越来越多地显现,例如防御种类单一、防御强度低、防御手段落后等,这就迫切需要不断提高和完善防御的方法和手段。针对此问题,... 随着Web应用不断的发展,随之而产生的包括XSS在内的各种安全漏洞也越来越多。今天,XSS传统防御技术的缺陷已经越来越多地显现,例如防御种类单一、防御强度低、防御手段落后等,这就迫切需要不断提高和完善防御的方法和手段。针对此问题,提出了一种基于Scrapy的爬虫框架的Web应用程序漏洞检测方法。通过框架提供的便利条件对页面进行提取分析,根据不同的攻击方式生成特有的攻击向量,最后使页面注入点与攻击向量组合达到测试是否具有漏洞的目的。实验结果表明,这种漏洞检测方法在爬取页面以及漏洞检测的效率上都有了很大的提高。 展开更多
关键词 XSS WEB应用 scrapy爬虫 攻击向量
下载PDF
大数据客户热词分析系统的架构设计
6
作者 徐晓涛 《武夷学院学报》 2024年第9期26-31,共6页
为提高电商客户黏性与忠诚度,帮助企业更好地满足客户的需求,设计基于大数据的客户热词分析系统的架构。该系统架构主要包括四个模块。在数据采集模块内利用基于大数据分析的Scrapy爬虫框架从互联网中实时爬取电商客户相关数据,并基于... 为提高电商客户黏性与忠诚度,帮助企业更好地满足客户的需求,设计基于大数据的客户热词分析系统的架构。该系统架构主要包括四个模块。在数据采集模块内利用基于大数据分析的Scrapy爬虫框架从互联网中实时爬取电商客户相关数据,并基于爬取到的数据经过数据去重、中文分词以及去停用词处理,得到便于分析的词汇,通过热词提取、热词排序实现客户热词实时分析,在此基础上构建词云图,可视化展示热词分析结果,由此完成基于大数据的客户热词分析系统的架构设计。经实验验证:该系统可清晰显示不同词汇的热度情况,且热词分析准确率相对较高,同时在热词分析过程中具有较快的处理速度,实用性较强。 展开更多
关键词 热词分析 词云图 数据处理 scrapy爬虫 中文分词 大数据
下载PDF
基于Scrapy的网站增量式爬取功能的研制与应用
7
作者 邓子云 《湖南工业职业技术学院学报》 2022年第6期25-29,共5页
为解决基于Scrapy爬取网站的常规做法存在的总是全站爬取、数据库要多次访问的问题,研发网站增量式爬取功能。要实现网站增量式爬取,应在Scrapy框架中置入下载中间件,且应在爬虫启动时加载种子页列表、已访问过的网址及其Hash列表、控... 为解决基于Scrapy爬取网站的常规做法存在的总是全站爬取、数据库要多次访问的问题,研发网站增量式爬取功能。要实现网站增量式爬取,应在Scrapy框架中置入下载中间件,且应在爬虫启动时加载种子页列表、已访问过的网址及其Hash列表、控制网页列表。网站增量式爬取还应控制爬取的规模。简单的控制策略是根据种子页控制,但更新感知能力有限。因此,提出两级网页控制增量爬取的策略并对实现原理做了详细说明。 展开更多
关键词 scrapy爬虫 增量式爬取 下载中间件 爬取规模的控制
下载PDF
基于Scrapy框架的天气数据采集系统设计
8
作者 徐伟 许鹏 陈浩东 《湖北农机化》 2021年第13期109-111,共3页
互联网发展初期,用户通过访问门户站点的方式搜集自己感兴趣的数据信息。但是随着互联网的发展,汇聚的数据量正在以指数级爆炸式的增长,对用户精确搜集信息的需求造成了困扰。因此,通过网络爬虫(Spider)技术进行高效、快速地数据搜集,... 互联网发展初期,用户通过访问门户站点的方式搜集自己感兴趣的数据信息。但是随着互联网的发展,汇聚的数据量正在以指数级爆炸式的增长,对用户精确搜集信息的需求造成了困扰。因此,通过网络爬虫(Spider)技术进行高效、快速地数据搜集,可以给用户提供一个纯净、可靠地获取信息的方式。本文通过Python语言的Scrapy爬虫框架获取中国天气网的天气数据,让用户能够避开大量无效信息的干扰,高效、快速的完成天气信息的获取。 展开更多
关键词 网络爬虫 PYTHON SPIDER scrapy爬虫框架
下载PDF
基于网络爬虫和智能推荐的大学生精准就业服务系统研究 被引量:4
9
作者 陈荣征 陈景涛 林泽铭 《电脑与电信》 2019年第1期39-43,共5页
为适应新时代国家关于大学生就业服务的要求,在LeanCloud云服务平台下,基于Scrapy网络爬虫技术和智能推荐算法,研究并设计了一个大学生精准就业服务系统。该系统可根据毕业生的求职意向,实现职位的智能推荐。实验证明,该系统能有效满足... 为适应新时代国家关于大学生就业服务的要求,在LeanCloud云服务平台下,基于Scrapy网络爬虫技术和智能推荐算法,研究并设计了一个大学生精准就业服务系统。该系统可根据毕业生的求职意向,实现职位的智能推荐。实验证明,该系统能有效满足毕业生个性化就业需求,提高企业的招聘效率,提升学校精准就业服务的水平。 展开更多
关键词 scrapy网络爬虫 智能推荐 就业服务
下载PDF
python网络爬虫爬取策略对比分析 被引量:7
10
作者 翟普 《电脑知识与技术》 2020年第1期29-30,34,共3页
随着网络技术的迅猛发展,网络已经成为信息的载体,网络随处可见,打开网络,大量的信息充斥而来。如何有效提取并利用网络中有价值的信息将会成为未来一个很大的挑战。网络爬虫是一个可以自动提取网页的程序,从万维网上下载网页,提取信息... 随着网络技术的迅猛发展,网络已经成为信息的载体,网络随处可见,打开网络,大量的信息充斥而来。如何有效提取并利用网络中有价值的信息将会成为未来一个很大的挑战。网络爬虫是一个可以自动提取网页的程序,从万维网上下载网页,提取信息。通常爬取的页面比较多,如何快速有效地爬取页面是关键,该文通过当当网新书畅销排行榜实例来分析对比现有的四种方式,得出结果异步爬虫和scrapy框架爬虫速度最快。 展开更多
关键词 网络爬虫 异步爬虫 scrapy框架爬虫
下载PDF
基于Python技术的校园网搜索引擎设计 被引量:2
11
作者 闫丽丽 《信息与电脑》 2023年第17期183-185,共3页
传统搜索引擎模式存在新消息获取不及时、无法搜索通用引擎等问题,为此设计基于Python技术的校园网搜索引擎。首先分析搜索引擎的建立流程,其次分析Scrapy爬虫框架的工作原理,再次借助统一资源定位系统(Uniform Resource Locator,URL)... 传统搜索引擎模式存在新消息获取不及时、无法搜索通用引擎等问题,为此设计基于Python技术的校园网搜索引擎。首先分析搜索引擎的建立流程,其次分析Scrapy爬虫框架的工作原理,再次借助统一资源定位系统(Uniform Resource Locator,URL)去重策略优化校园信息查询流程,最后分析Scrapy爬虫框架爬虫防禁止策略。 展开更多
关键词 校园网搜索引擎 Python技术 scrapy爬虫框架
下载PDF
基于Hadoop平台的岗位需求分析——以计算机软件行业为例
12
作者 田圻 杨佳骏 覃天 《软件》 2023年第8期153-155,共3页
近年来,随着高校毕业生人数不断上升,毕业生就业竞争压力与日俱增。本文以计算机软件行业为例,设计并实现了一种基于大数据技术的行业招聘信息分析系统。利用Scrapy爬虫框架采集网络招聘数据,在Hadoop平台上,使用MapReduce对空值、重复... 近年来,随着高校毕业生人数不断上升,毕业生就业竞争压力与日俱增。本文以计算机软件行业为例,设计并实现了一种基于大数据技术的行业招聘信息分析系统。利用Scrapy爬虫框架采集网络招聘数据,在Hadoop平台上,使用MapReduce对空值、重复值、异常值等异常数据进行数据预处理后,储存于HDFS分布式文件系统。之后选取行业、职位、地域等多个维度对行业招聘需求进行分析,挖掘出针对高职院校人才招聘的精准需求,并使用Java Web进行数据可视化展示。实践表明,计算机软件行业在职位、地域上存在较大差别,该系统能够为大学生在职业生涯规划上提供更有效的决策。 展开更多
关键词 网络招聘 高职就业 scrapy爬虫 Hadoop分布式集群 数据分析 数据可视化
下载PDF
基于自然语言处理与智能语义识别的舆情监测预警模型研究 被引量:7
13
作者 张君第 《电子设计工程》 2022年第17期165-169,共5页
做好高校舆情分析与预警具有重要的社会意义,针对传统的网络舆情分析方法依靠人工筛选,费时费力、准确度低且无法进行海量数据分析的问题,基于自然语言处理算法,构建了一种舆情监测预警模型。该模型通过TF-IDF算法对文本特征进行提取,... 做好高校舆情分析与预警具有重要的社会意义,针对传统的网络舆情分析方法依靠人工筛选,费时费力、准确度低且无法进行海量数据分析的问题,基于自然语言处理算法,构建了一种舆情监测预警模型。该模型通过TF-IDF算法对文本特征进行提取,使用基于径向量函数的神经网络模型对数据进行训练,实现舆情分析与预警的功能。数值实验测试结果表明,文中所构建算法模型的精确度指标和效率相较其他对比算法均有明显提高,证明了该算法模型可以对网络舆论进行有效的监测和预警。 展开更多
关键词 舆情监测 TF-IDF算法 RFB神经网络 scrapy爬虫框架 自然语言处理 深度学习
下载PDF
面向政府采购数据的工程化采集方案设计 被引量:2
14
作者 王宏 夏禹 常静静 《智能计算机与应用》 2020年第7期170-175,共6页
政府采购过程中产生的大量招投标数据,基本都以Web文本的形式向公众呈现,难以获取结构化数据,严重制约着公众对政府采购过程的知情、分析和监督。本文提出一种基于Web挖掘的政府采购数据的工程化采集方案,构建了一套面向政府采购公开数... 政府采购过程中产生的大量招投标数据,基本都以Web文本的形式向公众呈现,难以获取结构化数据,严重制约着公众对政府采购过程的知情、分析和监督。本文提出一种基于Web挖掘的政府采购数据的工程化采集方案,构建了一套面向政府采购公开数据的结构化数据形成体系。首先,通过对招投标信息来源和结构的分析,设计基于Scrapy爬虫框架的工程化数据抓取平台;其次,结合基于规则和基于统计两种抽取方式,设计专用信息抽取器;最后,根据领域特点建立阶段性数据清洗中心,分层过滤数据,最终输出可用于分析和挖掘的结构化数据。系统实验结果证明了该方案的可行性和优越性,为政府采购信息公开发挥监督和引导职能提供了有力的技术支撑。 展开更多
关键词 政府采购 WEB挖掘 scrapy爬虫 信息抽取 数据清洗
下载PDF
通用的行业网站资讯集成平台的设计与实现
15
作者 邓子云 《工业技术与职业教育》 2022年第2期10-14,共5页
为集成行业网站资讯并作排名参考、舆情监控、热点提取等场景应用,组织研发了一种通用的行业网站资讯集成平台。该集成平台需要研发行业网站爬虫系统、行业网站数据处理系统、行业网站数据展示系统这3个软件系统。在分析清楚这种通用的... 为集成行业网站资讯并作排名参考、舆情监控、热点提取等场景应用,组织研发了一种通用的行业网站资讯集成平台。该集成平台需要研发行业网站爬虫系统、行业网站数据处理系统、行业网站数据展示系统这3个软件系统。在分析清楚这种通用的行业网站资讯集成平台的功能需求的基础上,给出了该平台的总体技术架构和3个软件系统的设计。给出了增量式爬取网页、二分法提取资讯类网页、预测网页标题等关键技术实现的原理。经研发实现,该集成平台已应用在全国物流行业与湖南统战系统形成行业网站资讯集成平台。全国物流行业网站资讯集成平台已集成10个网站,爬取到313199个网页;湖南统战系统网站资讯集成平台已集成26个网站,爬取到64216个网页。 展开更多
关键词 行业网站 scrapy爬虫 集成平台 网页分类 提取标题
下载PDF
重要Tor暗网站点的验证码快速识别和数据采集 被引量:4
16
作者 龙军 王轶骏 薛质 《计算机应用与软件》 北大核心 2022年第7期315-321,共7页
针对面向Tor暗网的数据采集和信息监控的任务,为了解决爬取重要Web站点中所遇到的验证码自动识别这个技术难点,设计一套结合CNN网络、GRU网络和ctc loss的快速识别模型,并将其应用到Tor暗网站点的数据采集系统中去。一段时间的实际运行... 针对面向Tor暗网的数据采集和信息监控的任务,为了解决爬取重要Web站点中所遇到的验证码自动识别这个技术难点,设计一套结合CNN网络、GRU网络和ctc loss的快速识别模型,并将其应用到Tor暗网站点的数据采集系统中去。一段时间的实际运行结果充分证明了该Tor暗网数据采集系统能够快速、准确地识别重要Tor暗网站点的验证码,自动绕过检验机制后爬取并存储站点的数据信息,从而有力支撑了暗网数据提炼、分析和挖掘的后续工作。 展开更多
关键词 Tor暗网 CNN网络 GRU网络 ctc loss算法 scrapy爬虫
下载PDF
基于认知计算的就业咨询智慧服务系统 被引量:2
17
作者 唐新晨 《计算机技术与发展》 2017年第11期166-170,共5页
随着智慧服务系统的发展和大数据时代的到来,如何实现类似人脑的认知与判决为应届生求职方向做出正确的决策,显得尤为重要。智慧服务系统由四部分组成,数据采集单元使用Scrapy爬虫框架获取信息,能够实时从各大招聘网站采集招聘信息;数... 随着智慧服务系统的发展和大数据时代的到来,如何实现类似人脑的认知与判决为应届生求职方向做出正确的决策,显得尤为重要。智慧服务系统由四部分组成,数据采集单元使用Scrapy爬虫框架获取信息,能够实时从各大招聘网站采集招聘信息;数据计算平台使用随机森林、SVM和朴素贝叶斯等基于认知计算的相关算法进行文本识别、特征提取以及文本分类等工作,能够正确实现特征采样和数据分类;数据存储单元搭建Mongo DB数据库集群完成数据存储工作,具备海量数据储量能力和高容错性;用户服务平台由Web应用框架构建,具备多用户业务服务能力。因此其能够有效采集和分类招聘信息,准确定位学生能力,从而高效地为院校学生的就业岗位选择提供咨询与帮助。 展开更多
关键词 认知计算 scrapy爬虫 机器学习 WEB应用 服务系统
下载PDF
基于大数据的突发事件网络舆情动态分类研究 被引量:2
18
作者 王一帆 邵开丽 +1 位作者 徐志文 叶鸿鑫 《物联网技术》 2022年第8期46-49,52,共5页
在目前的大数据环境中,研究突发事件的网络舆情已经是国家、政府、企业以及研究学者关注的热点问题。如果网络突发事件出现不可控制的现象,将会造成极其严重的影响。针对网络突发事件,我们提出了大数据环境下的突发事件网络舆情动态分... 在目前的大数据环境中,研究突发事件的网络舆情已经是国家、政府、企业以及研究学者关注的热点问题。如果网络突发事件出现不可控制的现象,将会造成极其严重的影响。针对网络突发事件,我们提出了大数据环境下的突发事件网络舆情动态分类研究,使用Python语言和Scrapy爬虫框架建立了网络舆情数据分析系统,运用K-means聚类算法对舆情分类。将舆情信息数据化,以此减少人力物力的消耗,防止事态的进一步扩大,采取对应的措施应对网络舆情。 展开更多
关键词 大数据分析 突发事件 网络舆情 scrapy爬虫提取 K-MEANS算法 动态分类
下载PDF
基于Python语言的数据分析处理研究 被引量:8
19
作者 程俊英 《电子技术与软件工程》 2022年第15期236-239,共4页
本文基于Python语言技术,围绕Python语言的数据处理过程,通过与scrapy爬虫框架整合,形成了一套新的Python语言数据分析处理技术体系,再对该技术方案的数据处理过程展开详细研究,并基于招聘信息的数据分析处理问题,对Python语言的数据分... 本文基于Python语言技术,围绕Python语言的数据处理过程,通过与scrapy爬虫框架整合,形成了一套新的Python语言数据分析处理技术体系,再对该技术方案的数据处理过程展开详细研究,并基于招聘信息的数据分析处理问题,对Python语言的数据分析过程进行验证,根据本文的最终实验验证结果可以发现,在Python语言的数据处理后出现误差率仅为2.15%,准确率超过97%,证明该方法在技术上具有可行性。 展开更多
关键词 PYTHON语言 scrapy爬虫 数据分析 数据清洗
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部