期刊文献+
共找到64篇文章
< 1 2 4 >
每页显示 20 50 100
基于标记树对象抽取技术的Hidden Web获取研究 被引量:9
1
作者 宋晖 张岭 +1 位作者 叶允明 马范援 《计算机工程与应用》 CSCD 北大核心 2002年第23期9-12,24,共5页
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该... 目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。 展开更多
关键词 标记树 对象抽取 hiddenweb 互联网 搜索引擎 信息检索 结构化查询 数据库
下载PDF
基于启发式查询词选择算法的Hidden Web获取研究 被引量:1
2
作者 姚全珠 杨增辉 +1 位作者 张楠 田元 《计算机工程与应用》 CSCD 北大核心 2007年第34期174-176,203,共4页
Hidden Web因为其隐蔽性而难以直接抓取,因此成为信息检索研究的一个新领域。提出了一种获取Hidden Web信息的方法,讨论了实现的关键技术。通过设计提出的启发式查询词选择算法,提高了抓取的效率。实验证明了该模型和算法的有效性。
关键词 信息检索 hidden web 爬虫 启发式算法
下载PDF
SmartCrawler:A Three-Stage Ranking Based Web Crawler for Harvesting Hidden Web Sources 被引量:1
3
作者 Sawroop Kaur Aman Singh +2 位作者 G.Geetha Mehedi Masud Mohammed A.Alzain 《Computers, Materials & Continua》 SCIE EI 2021年第12期2933-2948,共16页
Web crawlers have evolved from performing a meagre task of collecting statistics,security testing,web indexing and numerous other examples.The size and dynamism of the web are making crawling an interesting and challe... Web crawlers have evolved from performing a meagre task of collecting statistics,security testing,web indexing and numerous other examples.The size and dynamism of the web are making crawling an interesting and challenging task.Researchers have tackled various issues and challenges related to web crawling.One such issue is efficiently discovering hidden web data.Web crawler’s inability to work with form-based data,lack of benchmarks and standards for both performance measures and datasets for evaluation of the web crawlers make it still an immature research domain.The applications like vertical portals and data integration require hidden web crawling.Most of the existing methods are based on returning top k matches that makes exhaustive crawling difficult.The documents which are ranked high will be returned multiple times.The low ranked documents have slim chances of being retrieved.Discovering the hidden web sources and ranking them based on relevance is a core component of hidden web crawlers.The problem of ranking bias,heuristic approach and saturation of ranking algorithm led to low coverage.This research represents an enhanced ranking algorithm based on the triplet formula for prioritizing hidden websites to increase the coverage of the hidden web crawler. 展开更多
关键词 hidden web COVERAGE adaptive link ranking query selection depth crawling
下载PDF
Ontology-based Knowledge Extraction from Hidden Web 被引量:1
4
作者 宋晖 马范援 刘晓强 《Journal of Donghua University(English Edition)》 EI CAS 2004年第5期73-78,共6页
Hidden Web provides great amount of domain-specific data for constructing knowledge services. Most previous knowledge extraction researches ignore the valuable data hidden in Web database, and related works do not ref... Hidden Web provides great amount of domain-specific data for constructing knowledge services. Most previous knowledge extraction researches ignore the valuable data hidden in Web database, and related works do not refer how to make extracted information available for knowledge system. This paper describes a novel approach to build a domain-specific knowledge service with the data retrieved from Hidden Web. Ontology serves to model the domain knowledge. Queries forms of different Web sites are translated into machine-understandable format, defined knowledge concepts, so that they can be accessed automatically. Also knowledge data are extracted from Web pages and organized in ontology format knowledge. The experiment proves the algorithm achieves high accuracy and the system facilitates constructing knowledge services greatly. 展开更多
关键词 knowledge service hidden web ONTOLOGY data extraction
下载PDF
民航主题Hidden-Web爬虫的设计与实现 被引量:1
5
作者 张校慧 徐彬 +1 位作者 陈国强 陈珊 《计算机应用与软件》 CSCD 北大核心 2008年第7期187-189,共3页
分析了现今搜索引擎技术在民航主题Hidden-Web获取方面的缺陷,以此为鉴设计并实现了一个民航主题Hidden-Web爬虫。此爬虫使用主题分类等相关技术发现并抓取民航主题Hidden-Web所对应的前台Form,生成相应的Form库,然后利用启发式规则对F... 分析了现今搜索引擎技术在民航主题Hidden-Web获取方面的缺陷,以此为鉴设计并实现了一个民航主题Hidden-Web爬虫。此爬虫使用主题分类等相关技术发现并抓取民航主题Hidden-Web所对应的前台Form,生成相应的Form库,然后利用启发式规则对Form库中的Form进行填写并搜集含有匹配结果的页面集。实验证明此爬虫的性能令人满意且对其它Hidden-Web的应用研究具有借鉴意义。 展开更多
关键词 hidden-web FORM 民航 爬虫
下载PDF
基于网页上下文的Deep Web数据库分类 被引量:31
6
作者 马军 宋玲 +1 位作者 韩晓晖 闫泼 《软件学报》 EI CSCD 北大核心 2008年第2期267-274,共8页
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属... 讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较. 展开更多
关键词 DEEP web 隐式web 数据库分类 内容文本抽取 语义分类
下载PDF
埋藏的web财宝——隐形网络的搜索利用 被引量:12
7
作者 陈红勤 《现代情报》 北大核心 2005年第7期157-159,共3页
隐形网络蕴藏着丰富的、高质量的信息资源,但却难以获得。本文介绍了隐形网络的概念、类型和形成原因,分析了隐形网络的内容,指出了查找隐形网络的途径和工具。
关键词 隐形网络 隐蔽网络 深网 看不见的网络
下载PDF
基于独立分量分析的隐蔽Web领域聚类 被引量:1
8
作者 王晓斌 温春 石昭祥 《计算机工程》 CAS CSCD 北大核心 2009年第7期175-176,179,共3页
针对隐蔽Web主题领域自动识别问题,提出一种基于独立分量分析(ICA)的聚类算法。对查询页面进行页面文本抽取和预处理,利用TF-IDF公式计算权重并选择前N个权重最大的特征词构造文档矩阵,在使用潜在语义索引(LSI)进行特征重构的基础上通过... 针对隐蔽Web主题领域自动识别问题,提出一种基于独立分量分析(ICA)的聚类算法。对查询页面进行页面文本抽取和预处理,利用TF-IDF公式计算权重并选择前N个权重最大的特征词构造文档矩阵,在使用潜在语义索引(LSI)进行特征重构的基础上通过ICA分解获得类别信息。利用LSI的词共现分析和文本降噪能力提高聚类准确率。实验表明聚类平均准确率达到90%以上。 展开更多
关键词 隐蔽web 潜在语义 独立分量分析 文本聚类
下载PDF
Web信息系统的安全隐患与网络管理员对策 被引量:15
9
作者 贺红 徐宝文 《计算机工程与应用》 CSCD 北大核心 2005年第18期151-153,223,共4页
基于Web的信息系统安全性体系大致分为网络系统、操作系统、Web服务器及应用程序和Web数据库等多个层次,该文分别阐述了造成各层次安全隐患的主要原因,以及从网络管理员的角度出发,在各安全层次上消除和减少安全隐患的实用性安全对策。
关键词 web系统 安全隐患 管理员 实用对策
下载PDF
基于改进的PSO和HMM的Web信息抽取算法 被引量:3
10
作者 王川 段德全 王晓东 《河南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第5期65-68,共4页
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群... 针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群优化算法结合Baum-Welch算法对HMM模型参数进行全局优化,实现了Web页面信息的抽取.实验结果表明,该算法在精确率和时间等指标上与现有算法相比具有更好的性能. 展开更多
关键词 PSO HMM web信息抽取
下载PDF
混合遗传算法和隐马尔可夫模型的Web信息抽取 被引量:4
11
作者 肖基毅 邹腊梅 李传琦 《计算机工程与应用》 CSCD 北大核心 2008年第18期132-135,共4页
传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数。提出了一种使用遗传算法优化HMM模型参数的Web信息抽取混合算法。该算法使用实数矩阵编码表示染色体,似然概率值为适应度取值,将GA与Baum-Welc... 传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数。提出了一种使用遗传算法优化HMM模型参数的Web信息抽取混合算法。该算法使用实数矩阵编码表示染色体,似然概率值为适应度取值,将GA与Baum-Welch算法相结合对HMM模型参数进行全局优化,并且调整GA-HMM的Baum-Welch算法参数实现Web信息抽取。实验结果表明,新的算法在精确度和召回率指标上比传统HMM具有更好的性能。 展开更多
关键词 遗传算法 隐马尔可夫模型 web信息抽取 Baum—Welch算法 最大似然算法
下载PDF
基于半监督聚类的Web流量分类 被引量:3
12
作者 陆伟宙 余顺争 《计算机科学》 CSCD 北大核心 2009年第2期90-94,共5页
提出了一种基于半监督学习的方法对Web流量进行聚类分析,使用隐马尔可夫模型对用户流量进行描述和聚类分析。该方法通过对少量数据进行人工标识,利用已标识数据对无监督聚类结果进行调整,以得到与人工分类匹配的聚类结果。使用真实的We... 提出了一种基于半监督学习的方法对Web流量进行聚类分析,使用隐马尔可夫模型对用户流量进行描述和聚类分析。该方法通过对少量数据进行人工标识,利用已标识数据对无监督聚类结果进行调整,以得到与人工分类匹配的聚类结果。使用真实的Web流量对提出的方法进行验证,实验结果表明该方法能有效地对Web流量进行分类,并得到相应的描述模型。 展开更多
关键词 半监督聚类 隐马尔可夫模型 web流量
下载PDF
基于混合隐Markov链浏览模型的WEB用户聚类与个性化推荐 被引量:3
13
作者 林文龙 刘业政 +1 位作者 朱庆生 奚冬芹 《情报学报》 CSSCI 北大核心 2009年第4期557-564,共8页
针对传统的Markov链模型不能有效的表征长串访问序列所蕴含的丰富的用户行为特征(用户类别特征、访问兴趣迁移特征)的缺点,提出混合隐Markov链浏览模型。混合隐Markov链模型使用多个不同的模型来区分不同类别用户的浏览特征,并为每个... 针对传统的Markov链模型不能有效的表征长串访问序列所蕴含的丰富的用户行为特征(用户类别特征、访问兴趣迁移特征)的缺点,提出混合隐Markov链浏览模型。混合隐Markov链模型使用多个不同的模型来区分不同类别用户的浏览特征,并为每个类别的用户设置了能跟踪捕捉其访问兴趣变化的类隐Markov链模型,能更好地对WWW长串访问序列的复杂特征进行建模,在真实WWW站点访问日志数据上的用户聚类实验与个性化推荐实验的结果表明,混合隐Markov链模型与传统的Markov链模型相比,具有更理想的聚类性能和推荐性能。 展开更多
关键词 web使用挖掘 隐Markov链模型 用户聚类 个性化推荐
下载PDF
基于混合模拟退火-遗传算法和HMM的Web挖掘 被引量:2
14
作者 邹腊梅 龚向坚 《计算机技术与发展》 2012年第3期106-109,共4页
隐马尔可夫模型训练算法是一种局部搜索算法,对初值敏感。传统方法采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于Web挖掘效果不佳。遗传算法具有较强的全局搜索能力,但容易早熟、收敛慢,模拟退火算法具有较强的局部寻优能力,... 隐马尔可夫模型训练算法是一种局部搜索算法,对初值敏感。传统方法采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于Web挖掘效果不佳。遗传算法具有较强的全局搜索能力,但容易早熟、收敛慢,模拟退火算法具有较强的局部寻优能力,但会随机漫游,全局搜索能力欠缺。综合考虑遗传算法和模拟退火算法的特点,提出混合模拟退火-遗传算法SGA,优化HMM初始参数,弥补Baum-Welch算法对初始参数敏感的缺陷,Web挖掘的实验结果表明五个域提取的REC和PRE都有明显的提高。 展开更多
关键词 模拟退火算法 遗传算法 隐马尔可夫模型 web挖掘
下载PDF
基于模拟退火算法和二阶HMM的Web信息抽取 被引量:7
15
作者 李伟男 李书琴 +2 位作者 景旭 魏露 李新乐 《计算机工程与设计》 CSCD 北大核心 2014年第4期1264-1268,共5页
针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-... 针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-HMM2训练算法获取HMM2全局最优模型参数,用改进的Viterbi算法实现了Web信息的抽取。实验结果表明,该方法在平均综合值方面比HMM、GA-HMM分别提高约21%和7%。 展开更多
关键词 web信息抽取 隐马尔科夫模型 二阶隐马尔科夫模型 模拟退火算法 基于视觉的网页分割算法
下载PDF
基于模拟退火算法与隐马尔可夫模型的Web信息抽取 被引量:4
16
作者 邹腊梅 龚向坚 +1 位作者 肖芳 马淑萍 《南华大学学报(自然科学版)》 2011年第1期70-74,共5页
典型隐马尔可夫模型对初始参数非常敏感,采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于W eb信息抽取时效果不佳.文中提出基于模拟退火算法与隐马尔可夫模型的W eb信息抽取算法.通过实验比较选择最佳的模拟退火算法参数,结合Ba... 典型隐马尔可夫模型对初始参数非常敏感,采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于W eb信息抽取时效果不佳.文中提出基于模拟退火算法与隐马尔可夫模型的W eb信息抽取算法.通过实验比较选择最佳的模拟退火算法参数,结合Baum-W elch算法优化隐马尔可夫模型并应用于W eb信息抽取.实验结果表明新算法在信息抽取的精确率和召回率都有明显的提高. 展开更多
关键词 模拟退火算法 隐马尔可夫模型 web信息抽取
下载PDF
基于Web用户浏览行为的统计异常检测 被引量:42
17
作者 谢逸 余顺争 《软件学报》 EI CSCD 北大核心 2007年第4期967-977,共11页
提出一种基于Web用户访问行为的异常检测方案,用于检测应用层上的分布式拒绝服务攻击,并以具有非稳态流特性的大型活动网站为例,进行应用研究.根据Web页面的超文本链接特征和网络中各级Web代理对用户请求的响应作用,用隐半马尔可夫模型... 提出一种基于Web用户访问行为的异常检测方案,用于检测应用层上的分布式拒绝服务攻击,并以具有非稳态流特性的大型活动网站为例,进行应用研究.根据Web页面的超文本链接特征和网络中各级Web代理对用户请求的响应作用,用隐半马尔可夫模型来描述服务器端观测到的正常Web用户的访问行为,并用与大多数正常用户访问行为特征的偏离作为一个流的异常程度的测量.给出了模型的参数化方法,推导了模型参数估计与异常检测算法,讨论了实际网络环境下异常检测系统的实现方法.最后用实际数据验证了模型和检测算法的有效性.仿真结果表明,该模型和检测算法可以很好地描述Web用户的正常浏览行为,有效地检测应用层分布式拒绝服务攻击. 展开更多
关键词 隐半马尔可夫模型 大型活动网站 浏览行为 分布式拒绝服务 异常检测
下载PDF
Web挖掘中的用户识别与虹膜识别技术 被引量:2
18
作者 王彤 何丕廉 《计算机工程》 CAS CSCD 北大核心 2008年第6期182-184,共3页
提出引入生物信息技术解决Web挖掘中的用户识别问题的设想及基于隐马尔科夫模型的虹膜识别方法,该方法仅需要虹膜的方向域作为输入参数,对虹膜图像的噪声与扭曲并不敏感,从而使该方法具有鲁棒性的特点。通过准确识别用户,克服了现有Web... 提出引入生物信息技术解决Web挖掘中的用户识别问题的设想及基于隐马尔科夫模型的虹膜识别方法,该方法仅需要虹膜的方向域作为输入参数,对虹膜图像的噪声与扭曲并不敏感,从而使该方法具有鲁棒性的特点。通过准确识别用户,克服了现有Web体系无状态的缺陷,可以实现对Web日志数据按"用户维"进行切片,使挖掘出的结果能够满足对用户个性化使用的需求。 展开更多
关键词 隐马尔科夫模型 虹膜识别 用户识别 web挖掘
下载PDF
一种多参数的Web服务选择方法 被引量:2
19
作者 贾志淳 卢元 +1 位作者 李想 邢星 《计算机工程与应用》 CSCD 北大核心 2019年第21期74-78,共5页
随着服务计算的快速发展,如何快速而准确地找到最优的Web服务组合是众多挑战中最重要的一项。提出了一种基于二阶隐马尔可夫模型(HMM)的服务选择方法。该方法使用服务质量(QoS)参数去区分具有相同功能的Web服务,并且选择一组最优的Web... 随着服务计算的快速发展,如何快速而准确地找到最优的Web服务组合是众多挑战中最重要的一项。提出了一种基于二阶隐马尔可夫模型(HMM)的服务选择方法。该方法使用服务质量(QoS)参数去区分具有相同功能的Web服务,并且选择一组最优的Web服务来执行用户请求。通过考虑两个QoS参数-吞吐量和响应时间,该方法能够解决根据设定的阈值来衡量Web服务质量的问题。通过构建的模型和算法,方法能够选择出最优的Web服务以满足用户的需求。仿真实验验证了所提出的方法是有效的。 展开更多
关键词 二阶隐马尔可夫模型 服务质量(QoS) web服务选择
下载PDF
针对隐藏Web数据库的Skyline查询方法研究 被引量:3
20
作者 李征宇 李贵 曹科研 《计算机科学与探索》 CSCD 北大核心 2020年第8期1307-1314,共8页
通过Web接口查询服务端"隐藏"数据库的Skyline可以支持Web集成领域许多新应用。尽管受到客户端基于IP地址访问次数、top-k查询结果返回元组个数k,以及Web接口类型等诸多限制,但利用基本查询方法仍可获得隐藏Web数据库的Skyli... 通过Web接口查询服务端"隐藏"数据库的Skyline可以支持Web集成领域许多新应用。尽管受到客户端基于IP地址访问次数、top-k查询结果返回元组个数k,以及Web接口类型等诸多限制,但利用基本查询方法仍可获得隐藏Web数据库的Skyline,遗留的主要问题是查询代价过大。对此提出了混合属性的隐藏Web数据库Skyline的启发式求解方法。首先,利用平行坐标系分析Skyline元组相交性质,随后构造了启发式相交元组查询分解树,并证明了该树的查全性,最后针对典型的Web接口类型给出了启发式求解方法。理论分析和实验结果证实了启发式算法的有效性和相对基本查询方法的优越性。 展开更多
关键词 数据库Skyline 隐藏web数据库 相交元组 平行坐标系 查询分解树
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部