期刊导航
期刊开放获取
重庆大学
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
95
篇文章
<
1
2
…
5
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向用户偏好的动态网页数据交互式查询算法
1
作者
赵红梅
肖明
+1 位作者
白宇
王磊
《吉林大学学报(理学版)》
CAS
北大核心
2024年第2期417-422,共6页
为提高网页数据查询速度、精度及工作效率,提出一种面向用户偏好的动态网页数据交互式查询算法.首先,构建用户偏好模型,增加偏好组合的演化个体适应性,综合计算适配值;其次,为防止数据冗余和重复,基于兴趣相似性,分离相似度高的查询数...
为提高网页数据查询速度、精度及工作效率,提出一种面向用户偏好的动态网页数据交互式查询算法.首先,构建用户偏好模型,增加偏好组合的演化个体适应性,综合计算适配值;其次,为防止数据冗余和重复,基于兴趣相似性,分离相似度高的查询数据和重复数据,识别出网络数据的性质;最后,利用粒子群优化算法寻找最优的动态网页数据交互式查询方案.实验结果表明:在数据集基数影响下,该算法的查询结果集质量在0.95以上;在查询最大维数影响下,该算法的查询结果集质量在0.96以上,表明其查询使用时间短、结果集精度高、自适应能力强.
展开更多
关键词
用户偏好模型
动态
网页数据
数据
交互式查询
粒子群优化算法
空间维度
下载PDF
职称材料
气象网页数据反爬虫措施探讨
2
作者
乔显栋
任睿智
+1 位作者
史贺龙
费嘉琛
《数字技术与应用》
2024年第2期112-114,共3页
随着气象事业及互联网技术的发展,气象数据逐渐成为一项重要资源,并成为数据保护的重点对象,与此同时,获取数据资源的技术,尤其是网络爬虫技术也发展迅猛。各种科研、服务对气象数据的需求日益增长,而数据使用者可能利用爬虫程序使用反...
随着气象事业及互联网技术的发展,气象数据逐渐成为一项重要资源,并成为数据保护的重点对象,与此同时,获取数据资源的技术,尤其是网络爬虫技术也发展迅猛。各种科研、服务对气象数据的需求日益增长,而数据使用者可能利用爬虫程序使用反爬虫的对抗技术非法来获取自己所需的气象数据。本文旨在研究反爬虫措施,并结合实践,探讨如何采取相应的措施对抗数据爬虫,实现对网站气象数据资源的保护。
展开更多
关键词
数据
保护
网络爬虫技术
反爬虫
气象事业
气象
数据
数据
爬虫
网页数据
爬虫程序
下载PDF
职称材料
利用PHP和MYSQL访问网页数据库
被引量:
5
3
作者
魏应彬
杜育宽
孙盛杰
《信息技术》
2000年第11期1-2,11,共3页
介绍了PHP技术和MYSQL数据库 ,给出了用PHP和MYSQL实现网页数据库的具体方法并用实例说明。
关键词
PHP
MYSQL
网页数据
库
下载PDF
职称材料
网页数据抓取中的几个关键技术问题
被引量:
1
4
作者
竺洪平
《宁波教育学院学报》
2016年第2期66-69,共4页
以宁波市中小学校(园)长培训管理平台为例,讨论网页数据抓取中的几个关键技术问题:数字验证码的识别、模拟登陆、网页信息的析取、数据一致性,并给出了解决方案。
关键词
网页数据
数据
抓取
问题描述
解决方案
下载PDF
职称材料
基于Web页面结构的网页数据提取技术探究
被引量:
1
5
作者
郭晓宇
彭浩
《产业与科技论坛》
2020年第18期66-67,共2页
随着网络技术的迅速发展,各种各样的数据信息呈现出爆炸性的增长,而网络上的数据主要来自于Web数据。然而受到多种因素的影响,人们往往不能在众多的数据当中提取到需要的或者感兴趣的内容,所以如何在众多的数据当中提取到有用的内容并...
随着网络技术的迅速发展,各种各样的数据信息呈现出爆炸性的增长,而网络上的数据主要来自于Web数据。然而受到多种因素的影响,人们往往不能在众多的数据当中提取到需要的或者感兴趣的内容,所以如何在众多的数据当中提取到有用的内容并且存储起来十分的重要。现阶段,对此方面的研究大多是以HTML标签解析为依据基于网页DOM树结构,再利用包装器的设计方式进行相应的提取技术。本文以DOM树结构为基础,主要对Web页面抽取和相关技术进行概述,研究了Web页面数据的区域定位算法,从而进行网页数据记录抽取工作。
展开更多
关键词
Web页面结构
网页数据
提取技术
下载PDF
职称材料
网页数据库技术在企业中的应用
6
作者
冯奇峰
李言
《制造业自动化》
2003年第11期65-67,共3页
通过对网页数据库技术中的几个关键技术的简介,并结合笔者在设计本公司Internet/Intranet网页中的两个实例说明网页数据库的设计方法,以期对在此方面有所需求的同仁们起到抛砖引玉的作用。
关键词
企业
网页数据
库
INTERNET
INTRANET
ASP
AD0
VBSCRIPT
下载PDF
职称材料
网页数据抽取中Wrapper的维护
7
作者
邓莎莎
李嘉
《上海电力学院学报》
CAS
2011年第4期378-382,共5页
当网页结构发生动态变化时,所构建的网页数据抽取器Wrapper往往会失灵.为了解决这一问题,提出了Wrapper维护模型结构.实验证明,当网页数据结构发生变化时,该模型结构能更有效地支持网页数据的抽取.
关键词
Wrapper维护
网页数据
抽取
语义块
下载PDF
职称材料
基于网页数据提取的灌溉监控Android客户端系统
8
作者
周刚
《四川理工学院学报(自然科学版)》
CAS
2014年第2期51-55,共5页
为了解决移动灌溉监控中用户体验不佳,达不到良好移动监控效果的问题,提出并设计了基于Android平台的灌溉监控客户端系统。所设计系统规避了网站无数据接口的问题,采用数据间接访问方式实现数据获取。给出了数据获取原理,分析了Android...
为了解决移动灌溉监控中用户体验不佳,达不到良好移动监控效果的问题,提出并设计了基于Android平台的灌溉监控客户端系统。所设计系统规避了网站无数据接口的问题,采用数据间接访问方式实现数据获取。给出了数据获取原理,分析了Android灌溉监控客户端功能,并给出实现的具体方法。经过测试表明,系统具有良好的用户体验,满足了移动灌溉监控的需要,具有良好的实用价值和推广价值。
展开更多
关键词
网页数据
提取
ANDROID
灌溉监控
客户端
下载PDF
职称材料
网页数据智能抽取方法
9
作者
俞琰
《微处理机》
2006年第6期86-88,共3页
根据所要抽取网页的特点,提出了一种基于网页结构和ontology领域知识的自动网页数据抽取。并且使得ontology在数据抽取的过程中自动扩充。
关键词
网页数据
抽取
ONTOLOGY
智能抽取方法
自动扩充
下载PDF
职称材料
基于网页数据抽取技术的图书著录系统设计与实现
10
作者
屈武江
《辽宁师专学报(自然科学版)》
2012年第2期45-48,68,共5页
图书著录是图书管理工作基础,针对现有的图书管理系统中著录系统的不足和今后发展的需要,结合相关实际,论述基于网页数据抽取技术的图书著录系统的技术原理、功能设计和具体实现.
关键词
图书著录
网页数据
抽取
MARC
数据
C#
下载PDF
职称材料
使用XSL结合ADO转化网页数据
11
作者
黄鸿华
《福建电脑》
2010年第10期177-177,121,共2页
XSL可以将一种XML语言转换为另一中XML语言。全文首先介绍了XSL语言的作用、关键技术以及它的应用方面;用实例讲述使用XSL语言将XML文档转化成HTML文档的方法;以及从ADO记录集得到XML格式数据的办法。
关键词
XSL
网页数据
转换
下载PDF
职称材料
面向不规则列表的网页数据抽取技术的研究
被引量:
1
12
作者
常丽君
钱钢
《计算机应用研究》
CSCD
北大核心
2015年第9期2651-2654,2658,共5页
抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性...
抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性改进了数据记录识别算法,提高了识别数据记录的准确率。而对于数据记录之间的不规则性问题,在已有的标签树匹配算法的基础上加入了对节点内容的考虑,提高了两棵标签树匹配的准确率。根据构成数据记录的标签树之间的匹配结果,再采用部分树对齐算法生成一个数据记录的最大匹配结构,进而用于抽取出所有数据记录。实验结果表明,提出的改进算法有效提高了自动抽取列表页数据的准确率和适应性。
展开更多
关键词
列表页
网页数据
抽取
标签树匹配
部分树对齐
下载PDF
职称材料
网页数据采集算法及在住户调查中的应用
被引量:
5
13
作者
沈承放
莫达隆
黄文韬
《统计与决策》
CSSCI
北大核心
2021年第7期52-56,共5页
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行...
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。
展开更多
关键词
网页数据
采集算法
住户调查
网络爬虫
多线程
精准扶贫
PYTHON
SELENIUM
下载PDF
职称材料
基于Scrapy的新闻网页数据抓取设计
被引量:
3
14
作者
秦亚红
普措才仁
《电子技术与软件工程》
2020年第4期170-171,共2页
本文使用Python开发语言、Scrapy爬虫框架以及MySQL数据库设计抓取新闻网页中的新闻数据,并存储到数据库中。新闻语言文本自身的真实性和时代性,具有非常重要的研究意义和价值。网络爬虫技术使网上新闻数据得以获取、利用,为新闻信息研...
本文使用Python开发语言、Scrapy爬虫框架以及MySQL数据库设计抓取新闻网页中的新闻数据,并存储到数据库中。新闻语言文本自身的真实性和时代性,具有非常重要的研究意义和价值。网络爬虫技术使网上新闻数据得以获取、利用,为新闻信息研究提供了数据支持,保证了相关研究工作的顺利开展。
展开更多
关键词
网络爬虫
网页数据
抓取
Scrapy
下载PDF
职称材料
基于本体的网页数据抽取技术的研究
被引量:
1
15
作者
常丽君
《电脑知识与技术》
2014年第6期3726-3728,共3页
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上...
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。
展开更多
关键词
本体
网页数据
抽取
包装器
下载PDF
职称材料
一种基于聚类的全自动网页数据记录抽取方法
16
作者
朱佳
张忠能
《微型电脑应用》
2010年第12期5-7,12,共4页
当前的网页数据记录抽取方法,存在着需要大量人工标注或者通用性不足的缺陷。为了解决这些问题,利用网页数据记录的结构性特征和视觉特征,提出了一种基于聚类的全自动网页记录抽取方法。该方法可以将输入的数据记录页面以结构化的文本...
当前的网页数据记录抽取方法,存在着需要大量人工标注或者通用性不足的缺陷。为了解决这些问题,利用网页数据记录的结构性特征和视觉特征,提出了一种基于聚类的全自动网页记录抽取方法。该方法可以将输入的数据记录页面以结构化的文本记录输出。实验结果表明该方法具有良好的通用性和较高的精确性。
展开更多
关键词
网页数据
记录
结构特征
视觉特征
聚类
网页
记录抽取
下载PDF
职称材料
Python爬虫技术的网页数据抓取与分析
被引量:
11
17
作者
徐志
金伟
《数字技术与应用》
2020年第10期30-32,共3页
随着信息化时代的到来,互联网信息量呈现爆发式的增长,如何在诸多复杂的信息中简单快捷的寻找到有效信息,而网络爬虫的诞生能够有效的解决此类问题,改善了信息检索的现状,本文通过概述网络爬虫的原理,对Python爬虫技术进行分析。
关键词
网页数据
抓取
Python爬虫技术
分析
下载PDF
职称材料
网页数据库技术开发区县级环境管理信息系统
18
作者
张爱军
谢涤湘
温志良
《资源开发与市场》
CAS
2003年第1期17-18,22,共3页
广州市花都区环保局在建成局域网硬件基础上,根据实际环境管理需求,采用网络数据库技术,将现有上级环保部门要求统一使用的软件进行整合,开发出了统一的环境管理信息系统。文章主要阐明了其建设原则、总体框架、设计思想及设计方法,介...
广州市花都区环保局在建成局域网硬件基础上,根据实际环境管理需求,采用网络数据库技术,将现有上级环保部门要求统一使用的软件进行整合,开发出了统一的环境管理信息系统。文章主要阐明了其建设原则、总体框架、设计思想及设计方法,介绍了主要内容及其功能,分析了技术特点,指出了有待进一步完善之处。
展开更多
关键词
环境管理
信息系统
网页数据
库
局域网
下载PDF
职称材料
基于Python爬虫技术的网页数据抓取与分析研究
被引量:
8
19
作者
张俊威
肖潇
《信息系统工程》
2021年第2期155-156,共2页
随着社会经济的不断发展,现代科学技术水平的不断提升,互联网迅速普及,深刻的影响着人们日常生产生活,而随着互联网的不断发展,怎样快速有效地从互联网中获取生产生活中所需的数据信息成为互联网企业及广大网络用户热切关注的重点内容,...
随着社会经济的不断发展,现代科学技术水平的不断提升,互联网迅速普及,深刻的影响着人们日常生产生活,而随着互联网的不断发展,怎样快速有效地从互联网中获取生产生活中所需的数据信息成为互联网企业及广大网络用户热切关注的重点内容,网络爬虫又被称呼为网络蜘蛛或网络机器人,其实际上是一个程序,能够遵循特定的规范规则以及给定的URL自动收集的互联网信息及数据,供人们使用。论文结合广泛的社会实践调查研究,就基于Python爬虫技术的网页数据抓取展开了相关的探讨,望能提供借鉴。
展开更多
关键词
网络爬虫技术
PYTHON
网页数据
获取与分析
探讨
下载PDF
职称材料
基于Python爬虫技术的网页数据抓取方法
被引量:
5
20
作者
刘萍
《信息与电脑》
2022年第14期169-171,共3页
由于对网页数据的爬取存在一定的完整性问题,导致爬取质量和效率较低,为此提出基于Python爬虫技术的网页数据抓取方法。首先,以网页数据的非线性时间序列关键点为节点,构建Python爬虫网络相空间格局;其次,利用Python爬虫技术在划分的网...
由于对网页数据的爬取存在一定的完整性问题,导致爬取质量和效率较低,为此提出基于Python爬虫技术的网页数据抓取方法。首先,以网页数据的非线性时间序列关键点为节点,构建Python爬虫网络相空间格局;其次,利用Python爬虫技术在划分的网络相空间格局内抓取目标数据;最后,Python爬虫以爬取目标为数据特性,以空间划分结果为基础,对库中的页面进行个性化标记,抽取页面包含的所有统一资源定位系统(Uniform Resource Locator,URL)信息,将其与已抓取队列信息进行比较,确定爬取结果的完整性。测试结果表明,设计方法可以适应不同网络环境,实现对网页数据的快速、有效抓取。
展开更多
关键词
Python爬虫技术
网页数据
抓取
非线性时间序列
下载PDF
职称材料
题名
面向用户偏好的动态网页数据交互式查询算法
1
作者
赵红梅
肖明
白宇
王磊
机构
黑龙江八一农垦大学现代教育技术与信息中心
出处
《吉林大学学报(理学版)》
CAS
北大核心
2024年第2期417-422,共6页
基金
黑龙江省教育厅高等教育教学改革研究项目(批准号:SJGY20200508)
大庆市社会科学界联合会项目(批准号:DSGB2020084)。
文摘
为提高网页数据查询速度、精度及工作效率,提出一种面向用户偏好的动态网页数据交互式查询算法.首先,构建用户偏好模型,增加偏好组合的演化个体适应性,综合计算适配值;其次,为防止数据冗余和重复,基于兴趣相似性,分离相似度高的查询数据和重复数据,识别出网络数据的性质;最后,利用粒子群优化算法寻找最优的动态网页数据交互式查询方案.实验结果表明:在数据集基数影响下,该算法的查询结果集质量在0.95以上;在查询最大维数影响下,该算法的查询结果集质量在0.96以上,表明其查询使用时间短、结果集精度高、自适应能力强.
关键词
用户偏好模型
动态
网页数据
数据
交互式查询
粒子群优化算法
空间维度
Keywords
user preference model
dynamic web page data
interactive data query
particle swarm optimization algorithm
spatial dimension
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
气象网页数据反爬虫措施探讨
2
作者
乔显栋
任睿智
史贺龙
费嘉琛
机构
昔阳县气象局
山西省寿阳县气象局
出处
《数字技术与应用》
2024年第2期112-114,共3页
文摘
随着气象事业及互联网技术的发展,气象数据逐渐成为一项重要资源,并成为数据保护的重点对象,与此同时,获取数据资源的技术,尤其是网络爬虫技术也发展迅猛。各种科研、服务对气象数据的需求日益增长,而数据使用者可能利用爬虫程序使用反爬虫的对抗技术非法来获取自己所需的气象数据。本文旨在研究反爬虫措施,并结合实践,探讨如何采取相应的措施对抗数据爬虫,实现对网站气象数据资源的保护。
关键词
数据
保护
网络爬虫技术
反爬虫
气象事业
气象
数据
数据
爬虫
网页数据
爬虫程序
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
P409 [天文地球—大气科学及气象学]
下载PDF
职称材料
题名
利用PHP和MYSQL访问网页数据库
被引量:
5
3
作者
魏应彬
杜育宽
孙盛杰
机构
海南大学信息学院
出处
《信息技术》
2000年第11期1-2,11,共3页
文摘
介绍了PHP技术和MYSQL数据库 ,给出了用PHP和MYSQL实现网页数据库的具体方法并用实例说明。
关键词
PHP
MYSQL
网页数据
库
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页数据抓取中的几个关键技术问题
被引量:
1
4
作者
竺洪平
机构
宁波教育学院
出处
《宁波教育学院学报》
2016年第2期66-69,共4页
文摘
以宁波市中小学校(园)长培训管理平台为例,讨论网页数据抓取中的几个关键技术问题:数字验证码的识别、模拟登陆、网页信息的析取、数据一致性,并给出了解决方案。
关键词
网页数据
数据
抓取
问题描述
解决方案
Keywords
web page data
data capture
description
solution
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Web页面结构的网页数据提取技术探究
被引量:
1
5
作者
郭晓宇
彭浩
机构
湖南涉外经济学院
出处
《产业与科技论坛》
2020年第18期66-67,共2页
基金
湖南省自然科学基金资助项目(编号:2017JJ2135)
湖南省教育厅科学研究项目(编号:18A481,19C1070)研究成果
文摘
随着网络技术的迅速发展,各种各样的数据信息呈现出爆炸性的增长,而网络上的数据主要来自于Web数据。然而受到多种因素的影响,人们往往不能在众多的数据当中提取到需要的或者感兴趣的内容,所以如何在众多的数据当中提取到有用的内容并且存储起来十分的重要。现阶段,对此方面的研究大多是以HTML标签解析为依据基于网页DOM树结构,再利用包装器的设计方式进行相应的提取技术。本文以DOM树结构为基础,主要对Web页面抽取和相关技术进行概述,研究了Web页面数据的区域定位算法,从而进行网页数据记录抽取工作。
关键词
Web页面结构
网页数据
提取技术
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页数据库技术在企业中的应用
6
作者
冯奇峰
李言
机构
西安理工大学
出处
《制造业自动化》
2003年第11期65-67,共3页
文摘
通过对网页数据库技术中的几个关键技术的简介,并结合笔者在设计本公司Internet/Intranet网页中的两个实例说明网页数据库的设计方法,以期对在此方面有所需求的同仁们起到抛砖引玉的作用。
关键词
企业
网页数据
库
INTERNET
INTRANET
ASP
AD0
VBSCRIPT
分类号
F270.7 [经济管理—企业管理]
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页数据抽取中Wrapper的维护
7
作者
邓莎莎
李嘉
机构
上海电力学院计算机与信息工程学院
华东理工大学商学院
出处
《上海电力学院学报》
CAS
2011年第4期378-382,共5页
文摘
当网页结构发生动态变化时,所构建的网页数据抽取器Wrapper往往会失灵.为了解决这一问题,提出了Wrapper维护模型结构.实验证明,当网页数据结构发生变化时,该模型结构能更有效地支持网页数据的抽取.
关键词
Wrapper维护
网页数据
抽取
语义块
Keywords
Wrapper maintenance
web data extracting
semantic block
分类号
N37 [自然科学总论]
下载PDF
职称材料
题名
基于网页数据提取的灌溉监控Android客户端系统
8
作者
周刚
机构
四川理工学院计算机学院
出处
《四川理工学院学报(自然科学版)》
CAS
2014年第2期51-55,共5页
基金
人工智能四川省重点实验室开放基金项目(2012RYY01)
文摘
为了解决移动灌溉监控中用户体验不佳,达不到良好移动监控效果的问题,提出并设计了基于Android平台的灌溉监控客户端系统。所设计系统规避了网站无数据接口的问题,采用数据间接访问方式实现数据获取。给出了数据获取原理,分析了Android灌溉监控客户端功能,并给出实现的具体方法。经过测试表明,系统具有良好的用户体验,满足了移动灌溉监控的需要,具有良好的实用价值和推广价值。
关键词
网页数据
提取
ANDROID
灌溉监控
客户端
Keywords
Webpage data acquisition
Android
irrigation monitoring
client
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
网页数据智能抽取方法
9
作者
俞琰
机构
南京工业大学信息科学与技术学院
出处
《微处理机》
2006年第6期86-88,共3页
文摘
根据所要抽取网页的特点,提出了一种基于网页结构和ontology领域知识的自动网页数据抽取。并且使得ontology在数据抽取的过程中自动扩充。
关键词
网页数据
抽取
ONTOLOGY
智能抽取方法
自动扩充
Keywords
Web data extraction
Ontology
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于网页数据抽取技术的图书著录系统设计与实现
10
作者
屈武江
机构
大连海洋大学职业技术学院
出处
《辽宁师专学报(自然科学版)》
2012年第2期45-48,68,共5页
文摘
图书著录是图书管理工作基础,针对现有的图书管理系统中著录系统的不足和今后发展的需要,结合相关实际,论述基于网页数据抽取技术的图书著录系统的技术原理、功能设计和具体实现.
关键词
图书著录
网页数据
抽取
MARC
数据
C#
Keywords
books' recording
web data extraction
MARC data
C#
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
使用XSL结合ADO转化网页数据
11
作者
黄鸿华
机构
福建交通职业技术学院
出处
《福建电脑》
2010年第10期177-177,121,共2页
文摘
XSL可以将一种XML语言转换为另一中XML语言。全文首先介绍了XSL语言的作用、关键技术以及它的应用方面;用实例讲述使用XSL语言将XML文档转化成HTML文档的方法;以及从ADO记录集得到XML格式数据的办法。
关键词
XSL
网页数据
转换
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
面向不规则列表的网页数据抽取技术的研究
被引量:
1
12
作者
常丽君
钱钢
机构
南京财经大学信息工程学院
出处
《计算机应用研究》
CSCD
北大核心
2015年第9期2651-2654,2658,共5页
文摘
抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性改进了数据记录识别算法,提高了识别数据记录的准确率。而对于数据记录之间的不规则性问题,在已有的标签树匹配算法的基础上加入了对节点内容的考虑,提高了两棵标签树匹配的准确率。根据构成数据记录的标签树之间的匹配结果,再采用部分树对齐算法生成一个数据记录的最大匹配结构,进而用于抽取出所有数据记录。实验结果表明,提出的改进算法有效提高了自动抽取列表页数据的准确率和适应性。
关键词
列表页
网页数据
抽取
标签树匹配
部分树对齐
Keywords
list pages
Web data extraction
matching of tag tree
partial tree alignment
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页数据采集算法及在住户调查中的应用
被引量:
5
13
作者
沈承放
莫达隆
黄文韬
机构
贺州学院数学与计算机学院
广西师范大学数学与统计学院
出处
《统计与决策》
CSSCI
北大核心
2021年第7期52-56,共5页
基金
国家社会科学基金西部项目(18XTJ002)
广西师范大学创新计划项目(XYCSZ2019088)
文摘
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。
关键词
网页数据
采集算法
住户调查
网络爬虫
多线程
精准扶贫
PYTHON
SELENIUM
Keywords
webpage data acquisition algorithm
household survey
web crawler
multithreading
targeted poverty alleviation
python
Selenium
分类号
O212.1 [理学—概率论与数理统计]
下载PDF
职称材料
题名
基于Scrapy的新闻网页数据抓取设计
被引量:
3
14
作者
秦亚红
普措才仁
机构
西北民族大学数学与计算机科学学院
出处
《电子技术与软件工程》
2020年第4期170-171,共2页
基金
国家自然基金项目(NO.61662065)
甘肃省科技计划重点项目(NO.18YF1FA122)。
文摘
本文使用Python开发语言、Scrapy爬虫框架以及MySQL数据库设计抓取新闻网页中的新闻数据,并存储到数据库中。新闻语言文本自身的真实性和时代性,具有非常重要的研究意义和价值。网络爬虫技术使网上新闻数据得以获取、利用,为新闻信息研究提供了数据支持,保证了相关研究工作的顺利开展。
关键词
网络爬虫
网页数据
抓取
Scrapy
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于本体的网页数据抽取技术的研究
被引量:
1
15
作者
常丽君
机构
南京财经大学信息工程学院
出处
《电脑知识与技术》
2014年第6期3726-3728,共3页
文摘
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。
关键词
本体
网页数据
抽取
包装器
Keywords
ontology
web information extraction
wrapper
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种基于聚类的全自动网页数据记录抽取方法
16
作者
朱佳
张忠能
机构
上海交通大学计算机科学与技术系
出处
《微型电脑应用》
2010年第12期5-7,12,共4页
文摘
当前的网页数据记录抽取方法,存在着需要大量人工标注或者通用性不足的缺陷。为了解决这些问题,利用网页数据记录的结构性特征和视觉特征,提出了一种基于聚类的全自动网页记录抽取方法。该方法可以将输入的数据记录页面以结构化的文本记录输出。实验结果表明该方法具有良好的通用性和较高的精确性。
关键词
网页数据
记录
结构特征
视觉特征
聚类
网页
记录抽取
Keywords
Web Data Record
Structure Features
Visual Features
Clustering
Web Record Extraction
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
Python爬虫技术的网页数据抓取与分析
被引量:
11
17
作者
徐志
金伟
机构
江苏省南京市江宁区审计局
出处
《数字技术与应用》
2020年第10期30-32,共3页
基金
南京审计大学教改课题“,新商科”背景下基于数据驱动的实验教学研究(2019JG050)。
文摘
随着信息化时代的到来,互联网信息量呈现爆发式的增长,如何在诸多复杂的信息中简单快捷的寻找到有效信息,而网络爬虫的诞生能够有效的解决此类问题,改善了信息检索的现状,本文通过概述网络爬虫的原理,对Python爬虫技术进行分析。
关键词
网页数据
抓取
Python爬虫技术
分析
Keywords
webpage data
crawling
Python crawler technology
analysis
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网页数据库技术开发区县级环境管理信息系统
18
作者
张爱军
谢涤湘
温志良
机构
广州市花都区环境保护局
中山大学城市与区域研究中心
广东省东莞市环境保护局
出处
《资源开发与市场》
CAS
2003年第1期17-18,22,共3页
文摘
广州市花都区环保局在建成局域网硬件基础上,根据实际环境管理需求,采用网络数据库技术,将现有上级环保部门要求统一使用的软件进行整合,开发出了统一的环境管理信息系统。文章主要阐明了其建设原则、总体框架、设计思想及设计方法,介绍了主要内容及其功能,分析了技术特点,指出了有待进一步完善之处。
关键词
环境管理
信息系统
网页数据
库
局域网
Keywords
environmental management
information system
internet metadata
分类号
X32 [环境科学与工程—环境工程]
下载PDF
职称材料
题名
基于Python爬虫技术的网页数据抓取与分析研究
被引量:
8
19
作者
张俊威
肖潇
机构
中国石化胜利油田物探研究院
出处
《信息系统工程》
2021年第2期155-156,共2页
文摘
随着社会经济的不断发展,现代科学技术水平的不断提升,互联网迅速普及,深刻的影响着人们日常生产生活,而随着互联网的不断发展,怎样快速有效地从互联网中获取生产生活中所需的数据信息成为互联网企业及广大网络用户热切关注的重点内容,网络爬虫又被称呼为网络蜘蛛或网络机器人,其实际上是一个程序,能够遵循特定的规范规则以及给定的URL自动收集的互联网信息及数据,供人们使用。论文结合广泛的社会实践调查研究,就基于Python爬虫技术的网页数据抓取展开了相关的探讨,望能提供借鉴。
关键词
网络爬虫技术
PYTHON
网页数据
获取与分析
探讨
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Python爬虫技术的网页数据抓取方法
被引量:
5
20
作者
刘萍
机构
盐城幼儿师范高等专科学校
出处
《信息与电脑》
2022年第14期169-171,共3页
基金
2021年度广东省普通高校重点科研平台-高职院校产教融合创新平台项目“5G8K超高清新场景应用产教融合创新平台”(项目编号:2021CJPT002)。
文摘
由于对网页数据的爬取存在一定的完整性问题,导致爬取质量和效率较低,为此提出基于Python爬虫技术的网页数据抓取方法。首先,以网页数据的非线性时间序列关键点为节点,构建Python爬虫网络相空间格局;其次,利用Python爬虫技术在划分的网络相空间格局内抓取目标数据;最后,Python爬虫以爬取目标为数据特性,以空间划分结果为基础,对库中的页面进行个性化标记,抽取页面包含的所有统一资源定位系统(Uniform Resource Locator,URL)信息,将其与已抓取队列信息进行比较,确定爬取结果的完整性。测试结果表明,设计方法可以适应不同网络环境,实现对网页数据的快速、有效抓取。
关键词
Python爬虫技术
网页数据
抓取
非线性时间序列
Keywords
Python crawler technology
web data scraping
nonlinear time series
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向用户偏好的动态网页数据交互式查询算法
赵红梅
肖明
白宇
王磊
《吉林大学学报(理学版)》
CAS
北大核心
2024
0
下载PDF
职称材料
2
气象网页数据反爬虫措施探讨
乔显栋
任睿智
史贺龙
费嘉琛
《数字技术与应用》
2024
0
下载PDF
职称材料
3
利用PHP和MYSQL访问网页数据库
魏应彬
杜育宽
孙盛杰
《信息技术》
2000
5
下载PDF
职称材料
4
网页数据抓取中的几个关键技术问题
竺洪平
《宁波教育学院学报》
2016
1
下载PDF
职称材料
5
基于Web页面结构的网页数据提取技术探究
郭晓宇
彭浩
《产业与科技论坛》
2020
1
下载PDF
职称材料
6
网页数据库技术在企业中的应用
冯奇峰
李言
《制造业自动化》
2003
0
下载PDF
职称材料
7
网页数据抽取中Wrapper的维护
邓莎莎
李嘉
《上海电力学院学报》
CAS
2011
0
下载PDF
职称材料
8
基于网页数据提取的灌溉监控Android客户端系统
周刚
《四川理工学院学报(自然科学版)》
CAS
2014
0
下载PDF
职称材料
9
网页数据智能抽取方法
俞琰
《微处理机》
2006
0
下载PDF
职称材料
10
基于网页数据抽取技术的图书著录系统设计与实现
屈武江
《辽宁师专学报(自然科学版)》
2012
0
下载PDF
职称材料
11
使用XSL结合ADO转化网页数据
黄鸿华
《福建电脑》
2010
0
下载PDF
职称材料
12
面向不规则列表的网页数据抽取技术的研究
常丽君
钱钢
《计算机应用研究》
CSCD
北大核心
2015
1
下载PDF
职称材料
13
网页数据采集算法及在住户调查中的应用
沈承放
莫达隆
黄文韬
《统计与决策》
CSSCI
北大核心
2021
5
下载PDF
职称材料
14
基于Scrapy的新闻网页数据抓取设计
秦亚红
普措才仁
《电子技术与软件工程》
2020
3
下载PDF
职称材料
15
基于本体的网页数据抽取技术的研究
常丽君
《电脑知识与技术》
2014
1
下载PDF
职称材料
16
一种基于聚类的全自动网页数据记录抽取方法
朱佳
张忠能
《微型电脑应用》
2010
0
下载PDF
职称材料
17
Python爬虫技术的网页数据抓取与分析
徐志
金伟
《数字技术与应用》
2020
11
下载PDF
职称材料
18
网页数据库技术开发区县级环境管理信息系统
张爱军
谢涤湘
温志良
《资源开发与市场》
CAS
2003
0
下载PDF
职称材料
19
基于Python爬虫技术的网页数据抓取与分析研究
张俊威
肖潇
《信息系统工程》
2021
8
下载PDF
职称材料
20
基于Python爬虫技术的网页数据抓取方法
刘萍
《信息与电脑》
2022
5
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
5
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部