期刊文献+
共找到95篇文章
< 1 2 5 >
每页显示 20 50 100
面向用户偏好的动态网页数据交互式查询算法
1
作者 赵红梅 肖明 +1 位作者 白宇 王磊 《吉林大学学报(理学版)》 CAS 北大核心 2024年第2期417-422,共6页
为提高网页数据查询速度、精度及工作效率,提出一种面向用户偏好的动态网页数据交互式查询算法.首先,构建用户偏好模型,增加偏好组合的演化个体适应性,综合计算适配值;其次,为防止数据冗余和重复,基于兴趣相似性,分离相似度高的查询数... 为提高网页数据查询速度、精度及工作效率,提出一种面向用户偏好的动态网页数据交互式查询算法.首先,构建用户偏好模型,增加偏好组合的演化个体适应性,综合计算适配值;其次,为防止数据冗余和重复,基于兴趣相似性,分离相似度高的查询数据和重复数据,识别出网络数据的性质;最后,利用粒子群优化算法寻找最优的动态网页数据交互式查询方案.实验结果表明:在数据集基数影响下,该算法的查询结果集质量在0.95以上;在查询最大维数影响下,该算法的查询结果集质量在0.96以上,表明其查询使用时间短、结果集精度高、自适应能力强. 展开更多
关键词 用户偏好模型 动态网页数据 数据交互式查询 粒子群优化算法 空间维度
下载PDF
气象网页数据反爬虫措施探讨
2
作者 乔显栋 任睿智 +1 位作者 史贺龙 费嘉琛 《数字技术与应用》 2024年第2期112-114,共3页
随着气象事业及互联网技术的发展,气象数据逐渐成为一项重要资源,并成为数据保护的重点对象,与此同时,获取数据资源的技术,尤其是网络爬虫技术也发展迅猛。各种科研、服务对气象数据的需求日益增长,而数据使用者可能利用爬虫程序使用反... 随着气象事业及互联网技术的发展,气象数据逐渐成为一项重要资源,并成为数据保护的重点对象,与此同时,获取数据资源的技术,尤其是网络爬虫技术也发展迅猛。各种科研、服务对气象数据的需求日益增长,而数据使用者可能利用爬虫程序使用反爬虫的对抗技术非法来获取自己所需的气象数据。本文旨在研究反爬虫措施,并结合实践,探讨如何采取相应的措施对抗数据爬虫,实现对网站气象数据资源的保护。 展开更多
关键词 数据保护 网络爬虫技术 反爬虫 气象事业 气象数据 数据爬虫 网页数据 爬虫程序
下载PDF
利用PHP和MYSQL访问网页数据库 被引量:5
3
作者 魏应彬 杜育宽 孙盛杰 《信息技术》 2000年第11期1-2,11,共3页
介绍了PHP技术和MYSQL数据库 ,给出了用PHP和MYSQL实现网页数据库的具体方法并用实例说明。
关键词 PHP MYSQL 网页数据
下载PDF
网页数据抓取中的几个关键技术问题 被引量:1
4
作者 竺洪平 《宁波教育学院学报》 2016年第2期66-69,共4页
以宁波市中小学校(园)长培训管理平台为例,讨论网页数据抓取中的几个关键技术问题:数字验证码的识别、模拟登陆、网页信息的析取、数据一致性,并给出了解决方案。
关键词 网页数据 数据抓取 问题描述 解决方案
下载PDF
基于Web页面结构的网页数据提取技术探究 被引量:1
5
作者 郭晓宇 彭浩 《产业与科技论坛》 2020年第18期66-67,共2页
随着网络技术的迅速发展,各种各样的数据信息呈现出爆炸性的增长,而网络上的数据主要来自于Web数据。然而受到多种因素的影响,人们往往不能在众多的数据当中提取到需要的或者感兴趣的内容,所以如何在众多的数据当中提取到有用的内容并... 随着网络技术的迅速发展,各种各样的数据信息呈现出爆炸性的增长,而网络上的数据主要来自于Web数据。然而受到多种因素的影响,人们往往不能在众多的数据当中提取到需要的或者感兴趣的内容,所以如何在众多的数据当中提取到有用的内容并且存储起来十分的重要。现阶段,对此方面的研究大多是以HTML标签解析为依据基于网页DOM树结构,再利用包装器的设计方式进行相应的提取技术。本文以DOM树结构为基础,主要对Web页面抽取和相关技术进行概述,研究了Web页面数据的区域定位算法,从而进行网页数据记录抽取工作。 展开更多
关键词 Web页面结构 网页数据 提取技术
下载PDF
网页数据库技术在企业中的应用
6
作者 冯奇峰 李言 《制造业自动化》 2003年第11期65-67,共3页
通过对网页数据库技术中的几个关键技术的简介,并结合笔者在设计本公司Internet/Intranet网页中的两个实例说明网页数据库的设计方法,以期对在此方面有所需求的同仁们起到抛砖引玉的作用。
关键词 企业 网页数据 INTERNET INTRANET ASP AD0 VBSCRIPT
下载PDF
网页数据抽取中Wrapper的维护
7
作者 邓莎莎 李嘉 《上海电力学院学报》 CAS 2011年第4期378-382,共5页
当网页结构发生动态变化时,所构建的网页数据抽取器Wrapper往往会失灵.为了解决这一问题,提出了Wrapper维护模型结构.实验证明,当网页数据结构发生变化时,该模型结构能更有效地支持网页数据的抽取.
关键词 Wrapper维护 网页数据抽取 语义块
下载PDF
基于网页数据提取的灌溉监控Android客户端系统
8
作者 周刚 《四川理工学院学报(自然科学版)》 CAS 2014年第2期51-55,共5页
为了解决移动灌溉监控中用户体验不佳,达不到良好移动监控效果的问题,提出并设计了基于Android平台的灌溉监控客户端系统。所设计系统规避了网站无数据接口的问题,采用数据间接访问方式实现数据获取。给出了数据获取原理,分析了Android... 为了解决移动灌溉监控中用户体验不佳,达不到良好移动监控效果的问题,提出并设计了基于Android平台的灌溉监控客户端系统。所设计系统规避了网站无数据接口的问题,采用数据间接访问方式实现数据获取。给出了数据获取原理,分析了Android灌溉监控客户端功能,并给出实现的具体方法。经过测试表明,系统具有良好的用户体验,满足了移动灌溉监控的需要,具有良好的实用价值和推广价值。 展开更多
关键词 网页数据提取 ANDROID 灌溉监控 客户端
下载PDF
网页数据智能抽取方法
9
作者 俞琰 《微处理机》 2006年第6期86-88,共3页
根据所要抽取网页的特点,提出了一种基于网页结构和ontology领域知识的自动网页数据抽取。并且使得ontology在数据抽取的过程中自动扩充。
关键词 网页数据抽取 ONTOLOGY 智能抽取方法 自动扩充
下载PDF
基于网页数据抽取技术的图书著录系统设计与实现
10
作者 屈武江 《辽宁师专学报(自然科学版)》 2012年第2期45-48,68,共5页
图书著录是图书管理工作基础,针对现有的图书管理系统中著录系统的不足和今后发展的需要,结合相关实际,论述基于网页数据抽取技术的图书著录系统的技术原理、功能设计和具体实现.
关键词 图书著录 网页数据抽取 MARC数据 C#
下载PDF
使用XSL结合ADO转化网页数据
11
作者 黄鸿华 《福建电脑》 2010年第10期177-177,121,共2页
XSL可以将一种XML语言转换为另一中XML语言。全文首先介绍了XSL语言的作用、关键技术以及它的应用方面;用实例讲述使用XSL语言将XML文档转化成HTML文档的方法;以及从ADO记录集得到XML格式数据的办法。
关键词 XSL 网页数据 转换
下载PDF
面向不规则列表的网页数据抽取技术的研究 被引量:1
12
作者 常丽君 钱钢 《计算机应用研究》 CSCD 北大核心 2015年第9期2651-2654,2658,共5页
抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性... 抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性改进了数据记录识别算法,提高了识别数据记录的准确率。而对于数据记录之间的不规则性问题,在已有的标签树匹配算法的基础上加入了对节点内容的考虑,提高了两棵标签树匹配的准确率。根据构成数据记录的标签树之间的匹配结果,再采用部分树对齐算法生成一个数据记录的最大匹配结构,进而用于抽取出所有数据记录。实验结果表明,提出的改进算法有效提高了自动抽取列表页数据的准确率和适应性。 展开更多
关键词 列表页 网页数据抽取 标签树匹配 部分树对齐
下载PDF
网页数据采集算法及在住户调查中的应用 被引量:5
13
作者 沈承放 莫达隆 黄文韬 《统计与决策》 CSSCI 北大核心 2021年第7期52-56,共5页
目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行... 目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。 展开更多
关键词 网页数据采集算法 住户调查 网络爬虫 多线程 精准扶贫 PYTHON SELENIUM
下载PDF
基于Scrapy的新闻网页数据抓取设计 被引量:3
14
作者 秦亚红 普措才仁 《电子技术与软件工程》 2020年第4期170-171,共2页
本文使用Python开发语言、Scrapy爬虫框架以及MySQL数据库设计抓取新闻网页中的新闻数据,并存储到数据库中。新闻语言文本自身的真实性和时代性,具有非常重要的研究意义和价值。网络爬虫技术使网上新闻数据得以获取、利用,为新闻信息研... 本文使用Python开发语言、Scrapy爬虫框架以及MySQL数据库设计抓取新闻网页中的新闻数据,并存储到数据库中。新闻语言文本自身的真实性和时代性,具有非常重要的研究意义和价值。网络爬虫技术使网上新闻数据得以获取、利用,为新闻信息研究提供了数据支持,保证了相关研究工作的顺利开展。 展开更多
关键词 网络爬虫 网页数据抓取 Scrapy
下载PDF
基于本体的网页数据抽取技术的研究 被引量:1
15
作者 常丽君 《电脑知识与技术》 2014年第6期3726-3728,共3页
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上... 随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。 展开更多
关键词 本体 网页数据抽取 包装器
下载PDF
一种基于聚类的全自动网页数据记录抽取方法
16
作者 朱佳 张忠能 《微型电脑应用》 2010年第12期5-7,12,共4页
当前的网页数据记录抽取方法,存在着需要大量人工标注或者通用性不足的缺陷。为了解决这些问题,利用网页数据记录的结构性特征和视觉特征,提出了一种基于聚类的全自动网页记录抽取方法。该方法可以将输入的数据记录页面以结构化的文本... 当前的网页数据记录抽取方法,存在着需要大量人工标注或者通用性不足的缺陷。为了解决这些问题,利用网页数据记录的结构性特征和视觉特征,提出了一种基于聚类的全自动网页记录抽取方法。该方法可以将输入的数据记录页面以结构化的文本记录输出。实验结果表明该方法具有良好的通用性和较高的精确性。 展开更多
关键词 网页数据记录 结构特征 视觉特征 聚类 网页记录抽取
下载PDF
Python爬虫技术的网页数据抓取与分析 被引量:11
17
作者 徐志 金伟 《数字技术与应用》 2020年第10期30-32,共3页
随着信息化时代的到来,互联网信息量呈现爆发式的增长,如何在诸多复杂的信息中简单快捷的寻找到有效信息,而网络爬虫的诞生能够有效的解决此类问题,改善了信息检索的现状,本文通过概述网络爬虫的原理,对Python爬虫技术进行分析。
关键词 网页数据 抓取 Python爬虫技术 分析
下载PDF
网页数据库技术开发区县级环境管理信息系统
18
作者 张爱军 谢涤湘 温志良 《资源开发与市场》 CAS 2003年第1期17-18,22,共3页
广州市花都区环保局在建成局域网硬件基础上,根据实际环境管理需求,采用网络数据库技术,将现有上级环保部门要求统一使用的软件进行整合,开发出了统一的环境管理信息系统。文章主要阐明了其建设原则、总体框架、设计思想及设计方法,介... 广州市花都区环保局在建成局域网硬件基础上,根据实际环境管理需求,采用网络数据库技术,将现有上级环保部门要求统一使用的软件进行整合,开发出了统一的环境管理信息系统。文章主要阐明了其建设原则、总体框架、设计思想及设计方法,介绍了主要内容及其功能,分析了技术特点,指出了有待进一步完善之处。 展开更多
关键词 环境管理 信息系统 网页数据 局域网
下载PDF
基于Python爬虫技术的网页数据抓取与分析研究 被引量:8
19
作者 张俊威 肖潇 《信息系统工程》 2021年第2期155-156,共2页
随着社会经济的不断发展,现代科学技术水平的不断提升,互联网迅速普及,深刻的影响着人们日常生产生活,而随着互联网的不断发展,怎样快速有效地从互联网中获取生产生活中所需的数据信息成为互联网企业及广大网络用户热切关注的重点内容,... 随着社会经济的不断发展,现代科学技术水平的不断提升,互联网迅速普及,深刻的影响着人们日常生产生活,而随着互联网的不断发展,怎样快速有效地从互联网中获取生产生活中所需的数据信息成为互联网企业及广大网络用户热切关注的重点内容,网络爬虫又被称呼为网络蜘蛛或网络机器人,其实际上是一个程序,能够遵循特定的规范规则以及给定的URL自动收集的互联网信息及数据,供人们使用。论文结合广泛的社会实践调查研究,就基于Python爬虫技术的网页数据抓取展开了相关的探讨,望能提供借鉴。 展开更多
关键词 网络爬虫技术 PYTHON 网页数据 获取与分析 探讨
下载PDF
基于Python爬虫技术的网页数据抓取方法 被引量:5
20
作者 刘萍 《信息与电脑》 2022年第14期169-171,共3页
由于对网页数据的爬取存在一定的完整性问题,导致爬取质量和效率较低,为此提出基于Python爬虫技术的网页数据抓取方法。首先,以网页数据的非线性时间序列关键点为节点,构建Python爬虫网络相空间格局;其次,利用Python爬虫技术在划分的网... 由于对网页数据的爬取存在一定的完整性问题,导致爬取质量和效率较低,为此提出基于Python爬虫技术的网页数据抓取方法。首先,以网页数据的非线性时间序列关键点为节点,构建Python爬虫网络相空间格局;其次,利用Python爬虫技术在划分的网络相空间格局内抓取目标数据;最后,Python爬虫以爬取目标为数据特性,以空间划分结果为基础,对库中的页面进行个性化标记,抽取页面包含的所有统一资源定位系统(Uniform Resource Locator,URL)信息,将其与已抓取队列信息进行比较,确定爬取结果的完整性。测试结果表明,设计方法可以适应不同网络环境,实现对网页数据的快速、有效抓取。 展开更多
关键词 Python爬虫技术 网页数据抓取 非线性时间序列
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部