期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于Selenium框架的省内重要网站资产爬取研究
1
作者 张绳武 《长江信息通信》 2024年第7期113-115,共3页
文章主要介绍了利用Selenium框架对省内重要网站进行资产爬取的实验研究。首先介绍了实现自动化爬取的Selenium框架的基本原理以及国内外的研究现状,然后对研究目的、方法等进行了阐述。接着,详细介绍了爬取过程和结果,包括爬取的网站... 文章主要介绍了利用Selenium框架对省内重要网站进行资产爬取的实验研究。首先介绍了实现自动化爬取的Selenium框架的基本原理以及国内外的研究现状,然后对研究目的、方法等进行了阐述。接着,详细介绍了爬取过程和结果,包括爬取的网站数量、爬取的资产类型和数量、爬取的资产价值等。最后,对实验结果进行了分析和举例,并对如何进一步利用相关结果提出了建议。 展开更多
关键词 Selenium框架 网页爬虫 资产探测
下载PDF
基于SVM的动态网页爬取方法研究
2
作者 刘君良 栾永明 +1 位作者 赵建楠 任川 《信息与电脑》 2024年第4期185-187,共3页
文章提出一种基于支持向量机(Support Vector Machine,SVM)的动态网页识别方法,并结合Scrapy开源网络爬虫框架构建了动态网页的网络爬虫,实现了对动态网页的高效识别和内容抓取。以httpbin.org为测试网站,使用SVM模型对静态和动态网页... 文章提出一种基于支持向量机(Support Vector Machine,SVM)的动态网页识别方法,并结合Scrapy开源网络爬虫框架构建了动态网页的网络爬虫,实现了对动态网页的高效识别和内容抓取。以httpbin.org为测试网站,使用SVM模型对静态和动态网页进行分类,随后利用Scrapy框架动态调整抓取策略,验证了该方法的可行性和有效性。 展开更多
关键词 支持向量机(SVM) 动态网页识别 Scrapy框架 网络爬虫
下载PDF
面向城市大数据的分布式并行获取方法研究 被引量:1
3
作者 张震宇 王婷 +2 位作者 任腾云 赵琳 王纪军 《自动化技术与应用》 2023年第7期119-122,共4页
通过采取高效的分布式网络数据获取方法,结合大数据分析与人工智能技术,能够为传统行业建设与管理提供更加科学精准的分析与预测手段。以江苏省电力建设的投资成本预测为背景,基于主流python语言和分布式爬虫框架scrapy研究深层网络爬虫... 通过采取高效的分布式网络数据获取方法,结合大数据分析与人工智能技术,能够为传统行业建设与管理提供更加科学精准的分析与预测手段。以江苏省电力建设的投资成本预测为背景,基于主流python语言和分布式爬虫框架scrapy研究深层网络爬虫,根据深层网络结构设计爬虫策略并实现并行网络数据抓取系统,大规模获取江苏省各地市的GDP、人口数量、企业分类、社区建设、交通建设等宏观经济数据。通过自然语言处理和正则表达式等技术,对获取到的结构化和非结构化数据进行数据清洗和文本处理,最终实现数据的可视化展示。 展开更多
关键词 分布式计算 大数据 爬虫框架 投资成本
下载PDF
基于Python技术的校园网搜索引擎设计 被引量:2
4
作者 闫丽丽 《信息与电脑》 2023年第17期183-185,共3页
传统搜索引擎模式存在新消息获取不及时、无法搜索通用引擎等问题,为此设计基于Python技术的校园网搜索引擎。首先分析搜索引擎的建立流程,其次分析Scrapy爬虫框架的工作原理,再次借助统一资源定位系统(Uniform Resource Locator,URL)... 传统搜索引擎模式存在新消息获取不及时、无法搜索通用引擎等问题,为此设计基于Python技术的校园网搜索引擎。首先分析搜索引擎的建立流程,其次分析Scrapy爬虫框架的工作原理,再次借助统一资源定位系统(Uniform Resource Locator,URL)去重策略优化校园信息查询流程,最后分析Scrapy爬虫框架爬虫防禁止策略。 展开更多
关键词 校园网搜索引擎 Python技术 Scrapy爬虫框架
下载PDF
基于增量式爬虫技术的新闻分析系统设计
5
作者 王龙霄 李健 沈丽民 《现代计算机》 2023年第9期117-120,共4页
新闻网站是获取外界信息的重要渠道,为有效收集新闻网站信息、对信息进行分析,基于Python设计了对新闻网站的爬虫分析系统。该系统包括爬虫、自然语言处理、系统可视化交互三个模块。在爬虫方面系统采用threading第三方库提供的多线程爬... 新闻网站是获取外界信息的重要渠道,为有效收集新闻网站信息、对信息进行分析,基于Python设计了对新闻网站的爬虫分析系统。该系统包括爬虫、自然语言处理、系统可视化交互三个模块。在爬虫方面系统采用threading第三方库提供的多线程爬虫,并增加了增量式爬虫的设计;在自然语言处理方面,系统以TextRank算法为原理实现对文本信息对关键词句的抽取,使用TextRank4zh第三方库实现此功能。系统采取Tornado框架实现交互功能。系统以美国有限电视新闻网为例进行新闻信息爬取与分析,实验结果表明该系统的爬取效率高,健壮性好。 展开更多
关键词 Python爬虫 Tornado框架 TextRank算法 新闻关键词抽取
下载PDF
基于WebMagic爬虫框架的网页信息系统设计
6
作者 朱延刚 《无线互联科技》 2023年第11期73-76,98,共5页
随着互联网技术的迅速发展,人们获取信息的渠道和方式,都得到了极大的丰富和拓展。面对海量的网络信息,如何高效便捷地利用网络信息资源,提高对有效信息的获取能力,成了一个重要的课题。文章基于Java的WebMagic爬虫框架设计了一个具有... 随着互联网技术的迅速发展,人们获取信息的渠道和方式,都得到了极大的丰富和拓展。面对海量的网络信息,如何高效便捷地利用网络信息资源,提高对有效信息的获取能力,成了一个重要的课题。文章基于Java的WebMagic爬虫框架设计了一个具有高适用性和可扩展性的信息采集系统,以便于针对不同的业务场景和需求,快速搭建自己的爬虫数据采集系统。 展开更多
关键词 Java爬虫 WebMagic框架 数据持久化
下载PDF
基于Scrapy的网络爬虫系统框架设计与实现 被引量:10
7
作者 王磊 刘晓丹 《微型电脑应用》 2019年第4期48-50,共3页
研究了基于Scrapy的网络爬虫系统框架。以设计目标为依据对网络爬虫所需具备的功能特性进行了详细分析,完成了系统总体框架的设计。该框架采用主从结构,介绍了各层主要模块的功能,详细阐述了完整的抓取过程。为促进网络爬虫系统框架的实... 研究了基于Scrapy的网络爬虫系统框架。以设计目标为依据对网络爬虫所需具备的功能特性进行了详细分析,完成了系统总体框架的设计。该框架采用主从结构,介绍了各层主要模块的功能,详细阐述了完整的抓取过程。为促进网络爬虫系统框架的实现,综合MongoDB及Redis,完成了系统数据库方案的设计,从而提高用户获取信息的速度和质量。 展开更多
关键词 Scrapy 网络爬虫 系统框架设计 数据库设计
下载PDF
基于Scrapy爬虫框架下电商数据分析 被引量:4
8
作者 黄雨辰 童彤 《安阳师范学院学报》 2021年第5期132-136,共5页
电子商务快速发展的过程中产生了海量数据,对海量数据的分析能够挖掘有用信息,提升电商企业核心竞争力。基于此,设计了一款基于Scrapy爬虫框架下的电商数据分析平台。采用分布式抓取海量电商数据,寻找电商消费者的消费特点。在此基础上... 电子商务快速发展的过程中产生了海量数据,对海量数据的分析能够挖掘有用信息,提升电商企业核心竞争力。基于此,设计了一款基于Scrapy爬虫框架下的电商数据分析平台。采用分布式抓取海量电商数据,寻找电商消费者的消费特点。在此基础上采集顾客、商品、品牌三方面数据进行整合处理,并将处理结果可视化,展现给电商企业,为电商企业快速了解消费者的消费特点,制定科学化的营销战略提供了数据参考。 展开更多
关键词 Scrapy爬虫框架 电商数据 可视化
下载PDF
一种基于WebMagic和Mahout的信息搜集与推荐系统 被引量:7
9
作者 武婷婷 《软件导刊》 2016年第10期1-3,共3页
提出一种基于Java爬虫框架WebMagic和Mahout推荐引擎的信息搜集与推荐系统。首先利用WebMagic框架从多个信息源获取需要的数据,然后使用Jieba分词工具和余弦定理进行文本相似度判定,从而对数据进行处理,最后使用Mahout推荐引擎为用户推... 提出一种基于Java爬虫框架WebMagic和Mahout推荐引擎的信息搜集与推荐系统。首先利用WebMagic框架从多个信息源获取需要的数据,然后使用Jieba分词工具和余弦定理进行文本相似度判定,从而对数据进行处理,最后使用Mahout推荐引擎为用户推荐可能感兴趣的信息。 展开更多
关键词 爬虫框架 余弦定理 推荐引擎 WebMagic Mahout
下载PDF
基于大数据技术的房价数据采集及可视化分析应用 被引量:3
10
作者 石慧 陈培辉 《计算机时代》 2021年第8期71-75,共5页
在"房住不炒"定位下,住房选购成了广大市民比较关心的问题。把大数据分析技术引入到房价分析,利用Scrapy爬虫框架对广州房价线上数据的爬取,经清洗和可视化,把影响房价的要素以可视化的形式予以呈现。与传统方法相比,大数据... 在"房住不炒"定位下,住房选购成了广大市民比较关心的问题。把大数据分析技术引入到房价分析,利用Scrapy爬虫框架对广州房价线上数据的爬取,经清洗和可视化,把影响房价的要素以可视化的形式予以呈现。与传统方法相比,大数据分析技术在数据采集及可视化分析应用方面优势明显。 展开更多
关键词 大数据分析 可视化 爬虫框架 房价数据
下载PDF
基于Selenium框架的定向网络数据获取的设计与实现 被引量:3
11
作者 何苗 张蕴 《工业控制计算机》 2020年第6期45-47,共3页
随着大数据和人工智能时代的到来,数据已经成为每一个行业的重要生产因素以及企业命脉,而获得数据并对数据进行分析已成为大数据时代最重要的部分。提出了一种基于Selenium框架的定向网络爬虫设计方法。通过Python操作自动化测试框架模... 随着大数据和人工智能时代的到来,数据已经成为每一个行业的重要生产因素以及企业命脉,而获得数据并对数据进行分析已成为大数据时代最重要的部分。提出了一种基于Selenium框架的定向网络爬虫设计方法。通过Python操作自动化测试框架模拟人工浏览网页的方式,绕过一些动态网页中通过复杂JavaScript编辑的复杂反爬虫加密算法而获取指定页面信息,完成数据正常获取,提高爬行效率。利用该爬虫对豆瓣网页电影评论页面数据分类爬取,具有针对性强、操作简单且数据准确等优点。 展开更多
关键词 Selenium框架 网络爬虫 大数据 自动化测试 可视化
下载PDF
基于Python的城市天气数据爬虫程序分析 被引量:10
12
作者 于学斗 柏晓钰 《办公自动化》 2022年第7期10-13,9,共5页
目前,我国正在加大环境保护的力度。如何充分利用互联网上的已有的海量数据为低碳环保事业做出贡献,是我们不可推缺的责任。为快速爬取网络上的信息,网络爬虫应运而生。通过使用网络爬虫技术,能在短时内提取有价值的信息数据。得到有价... 目前,我国正在加大环境保护的力度。如何充分利用互联网上的已有的海量数据为低碳环保事业做出贡献,是我们不可推缺的责任。为快速爬取网络上的信息,网络爬虫应运而生。通过使用网络爬虫技术,能在短时内提取有价值的信息数据。得到有价值的数据后,根据数据的形式进行整理,运用HTML、CSS、JavaScript、Flask框架、Echarts、WordCloud等技术对数据进行可视化展现。将数据进行完整地分析,有利于更好地利用数据解决实际问题。本文将对基于Python的聚焦式网络爬虫设计与实现以及分析天气数据并可视化地展现作出简介。 展开更多
关键词 Python爬虫 网页设计 Flask框架 信息可视化
下载PDF
网络爬虫实时控制器的设计与实现 被引量:1
13
作者 李健 张克亮 《现代计算机》 2021年第5期91-96,共6页
针对个性化数据采集,提出一个轻量级网络爬虫框架,该框架包括控制器、下载器、解析器、线程池和代理池等组件。在此框架下,设计一个具有实时处理能力的爬虫控制器,能够自动保存和恢复任务场景。详细介绍爬虫控制器的工作原理和C#实现,... 针对个性化数据采集,提出一个轻量级网络爬虫框架,该框架包括控制器、下载器、解析器、线程池和代理池等组件。在此框架下,设计一个具有实时处理能力的爬虫控制器,能够自动保存和恢复任务场景。详细介绍爬虫控制器的工作原理和C#实现,并将其应用于站内文章采集。实验结果表明:所提出的爬虫框架是高效易用的,控制器的实时处理能力在实际爬虫开发中非常重要。 展开更多
关键词 网络爬虫 爬虫框架 实时控制器 C#
下载PDF
基于Struts和Hibernate框架的比价网设计与实现
14
作者 李向阳 李铮 《龙岩学院学报》 2007年第6期17-19,共3页
介绍了主要应用Struts和Hibernate两种框架技术实现的一个图书比价网系统。对实现比价功能的网络爬虫算法进行了详细阐述,并分析了两种框架技术在该B/S系统中组合应用的要点,为相关领域人员提供借鉴经验。
关键词 比价网 网络爬虫 STRUTS框架 HIBERNATE框架
下载PDF
主动获取式的分布式网络爬虫集群方法研究 被引量:14
15
作者 董禹龙 杨连贺 马欣 《计算机科学》 CSCD 北大核心 2018年第B06期428-432,共5页
针对当前分布式网络爬虫方法遇到的处理效率、扩展性、可靠性、任务分配和负载平衡等问题,提出了一种主动获取任务式的分布式网络爬虫方法。该方法在子机节点中加入分控模块,评估节点负载及运行状况,并主动向中控节点申请任务队列。在... 针对当前分布式网络爬虫方法遇到的处理效率、扩展性、可靠性、任务分配和负载平衡等问题,提出了一种主动获取任务式的分布式网络爬虫方法。该方法在子机节点中加入分控模块,评估节点负载及运行状况,并主动向中控节点申请任务队列。在此基础上,结合动态双向优先级任务分配算法,设计了一种具有负载平衡、任务分级分配、节点异常敏捷识别、节点安全退出等特性的分布式网络爬虫模型。实际测试表明,该主动获取式的分布式网络爬虫方法可有效地利用通用平台建立大型分布式爬虫集群。 展开更多
关键词 主动获取 分布式爬虫 负载平衡 爬虫框架 多进程 动态优先级
下载PDF
基于泛型思想的电力工业互联网爬虫框架研究 被引量:2
16
作者 毕玉冰 王文庆 +3 位作者 刘超飞 崔逸群 董夏昕 金晶 《热力发电》 CAS 北大核心 2020年第11期20-27,共8页
目前在互联网场景中使用爬虫框架已成为高效获取数据的一种重要方式,但由于现有爬虫框架针对互联网具体用户、具体场景和用途进行设计,直接用于电力工业互联网存在不适用、不安全等问题。为此,本文提出基于泛型思想的电力工业互联网爬... 目前在互联网场景中使用爬虫框架已成为高效获取数据的一种重要方式,但由于现有爬虫框架针对互联网具体用户、具体场景和用途进行设计,直接用于电力工业互联网存在不适用、不安全等问题。为此,本文提出基于泛型思想的电力工业互联网爬虫框架,结合电力工业互联网的实际需求,从用户、场景、模块设计、使用等各方面进行泛型设计,使该框架不仅具备现有爬虫框架的能力,还能满足电力工业互联网数据爬取的需求。在某集团电力工业互联网生产环境进行验证试验表明,该框架能满足电力工业互联网的不同用户、不同场景的使用和安全要求,也具备现有爬虫框架的特性,泛型设计达到预期效果。 展开更多
关键词 电力工业互联网 数据获取 爬虫框架 泛型思想 泛型设计 PYTHON 网络安全
下载PDF
基于Web框架的博客管理系统设计与实现 被引量:1
17
作者 刘磊 《计算机时代》 2017年第5期20-23,共4页
设计并实现了一个基于B/S架构的个人博客管理系统,包括游客浏览博客、用户发表博客及使用爬虫抓取网络新闻等功能。系统前端使用当前流行的响应式布局框架Bootstrap开发,页面能匹配不同分辨率;后端使用Hibernate、Spring、Struts三大经... 设计并实现了一个基于B/S架构的个人博客管理系统,包括游客浏览博客、用户发表博客及使用爬虫抓取网络新闻等功能。系统前端使用当前流行的响应式布局框架Bootstrap开发,页面能匹配不同分辨率;后端使用Hibernate、Spring、Struts三大经典组合框架开发,系统扩展性强。本文论述了本系统的功能设计、流程设计、数据模型设计、效果实现等软件开发关键阶段的开发过程。 展开更多
关键词 WEB框架 SSH框架 Bootstrap框架 个人博客 网络爬虫
下载PDF
基于Hadoop的广域网分布式主题爬虫系统框架 被引量:5
18
作者 王淑芬 高军礼 +1 位作者 邹普 宋海涛 《计算机工程与科学》 CSCD 北大核心 2015年第4期670-675,共6页
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息... 广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。 展开更多
关键词 分布式爬虫 HADOOP 爬虫框架 模板匹配 主题爬虫
下载PDF
基于WebMagic框架的面向招聘网站的爬虫技术研究 被引量:1
19
作者 朱二莉 《信息与电脑》 2019年第19期141-142,145,共3页
笔者首先分析了网络招聘的现状,介绍了爬虫技术的分类,进而提出了基于Java爬虫框架WebMagic的爬虫方案,然后分析了爬取流程,具体阐述了对大型招聘网站上发布的职位信息进行抓取及存储的过程,最后简单说明了对岗位信息数据进行清洗、分... 笔者首先分析了网络招聘的现状,介绍了爬虫技术的分类,进而提出了基于Java爬虫框架WebMagic的爬虫方案,然后分析了爬取流程,具体阐述了对大型招聘网站上发布的职位信息进行抓取及存储的过程,最后简单说明了对岗位信息数据进行清洗、分析、展现的过程。 展开更多
关键词 网络爬虫 前程无忧51Job WebMagic框架 爬取岗位信息
下载PDF
基于Scrapy框架的爬虫和反爬虫研究 被引量:26
20
作者 韩贝 马明栋 王得玉 《计算机技术与发展》 2019年第2期139-142,共4页
伴随着互联网的快速发展,获取信息已经成为人们日常生活中必不可少的一部分。在众多信息来源中,通过浏览器进入网站获取信息是绝大多数人的选择,但如果按照这种方式正常地进行信息获取,获取信息速度较慢,量较小,由此便产生了网络爬虫。... 伴随着互联网的快速发展,获取信息已经成为人们日常生活中必不可少的一部分。在众多信息来源中,通过浏览器进入网站获取信息是绝大多数人的选择,但如果按照这种方式正常地进行信息获取,获取信息速度较慢,量较小,由此便产生了网络爬虫。网络爬虫又称为网络蜘蛛或网络机器人,可以按照使用人定制的规则,短时间内在万维网上搜集大量特定信息。网络爬虫在爬取信息的同时,也带了一些问题,如大量信息被非正常获取,是一种损失,同时,大量爬虫对网站维护也是一个巨大的负担。如何在维护网民正常访问的前提下,有效阻止这些爬虫就显得十分重要。因此,文中主要研究Python语言开发的开源爬虫框架Scrapy所开发的爬虫,对目前网站常用的一些反爬虫手段进行分析,基于Scrapy框架以及具体网站,举例说明爬虫如何应对网站这些反爬措施。 展开更多
关键词 网站 网络爬虫 反爬虫 PYTHON Scrapy框架
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部