基于属性值序列图模型的deep Web新数据发现策略被引量：3

Deep Web new data discovery strategy based on the graph model of data attribute value lists

下载PDF

导出

摘要针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源。在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关系,查询选择时尽可能地降低查询依赖带来的负面影响。该策略提高了新数据爬取的效率,实验结果表明,在相同资源约束前提下,该策略能使本地数据和远程数据保持最大化同步。 A novel deep Web data discovery strategy was proposed for new generated data record in resources. In the approach, a new graph model of deep Web data attribute value lists was used to indicate the deep Web data source, an new data crawling task was transformed into a graph traversal process. This model was only related to the data, compared with the existing query-related graph model had better adaptability and certainty, applicable to contain only a simple query interface of deep Web data sources. Based on this model, which could discovery incremental nodes and predict new data mutual information was used to compute the dependencies between nodes. When the query selects, as much as possible to reduce the negative impact brought by the query-dependent. This strategy improves the data crawling efficiency. Experimental results show that this strategy could maximize the synchronization between local and remote data under the same restriction.

作者鲜学丰崔志明赵朋朋方立刚杨元峰顾才东

机构地区江苏省现代企业信息化应用支撑软件工程技术研发中心苏州大学智能信息处理及应用研究所苏州市职业大学计算机工程学院

出处《通信学报》 EI CSCD 北大核心 2016年第3期20-32,共13页 Journal on Communications

基金国家自然科学基金资助项目(No.61440053 No.61472268 No.41201338) 江苏省自然科学基金资助项目(No.BK2012164) 苏州市科技计划基金资助项目(No.SYG201342 No.SYG201343 No.SS201344)~~

关键词 DEEP WEB 新数据发现数据获取 deep Web new data discovery data acquisition

分类号 TP392 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献56

1俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
2刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
3陈能成,陈泽强,王伟.一种基于能力匹配和本体推理的高精度Web地图服务发现方法[J].武汉大学学报（信息科学版）,2009,34(12):1471-1475. 被引量：7
4邬桐,周雅倩,黄萱菁,吴立德.自动构建时间基元规则库的中文时间表达式识别[J].中文信息学报,2010,24(4):3-10. 被引量：16
5邓丹君,周彩兰.基于内容相关性和时间分析的改进PageRank算法[J].计算机与数字工程,2011,39(1):25-27. 被引量：7
6孙嘉,裴韬,龚玺,周成虎.Web时空数据挖掘研究进展[J].地球科学进展,2011,26(4):449-459. 被引量：7
7张春菊,张雪英,朱少楠,徐希涛.基于网络爬虫的地名数据库维护方法[J].地球信息科学学报,2011,13(4):492-499. 被引量：24
8张立杰.主题爬行策略与算法研究综述[J].图书情报工作,2011,55(18):112-115. 被引量：1
9ZHANG Yi,GAO Yong,XUE LuLu,SHEN Si & CHEN KaiChen Institute of Remote Sensing and Geographic Information System,Peking University,Beijing 100871,China.A common sense geographic knowledge base for GIR[J].Science China(Technological Sciences),2008,51(S1):26-37. 被引量：7
10张晓娟,陆伟,周红霞.用户查询中潜在时间意图分析及其检索建模[J].现代图书情报技术,2011(11):38-43. 被引量：7

引证文献3

1马莉莉,刘江平.大数据信息传输中恶意攻击数据识别仿真[J].计算机仿真,2017,34(10):375-378. 被引量：5
2徐金梅.基于窗口队列的信道信息增量智能爬取仿真[J].计算机仿真,2019,36(11):190-194. 被引量：1
3侯东阳,武昊,陈军.时空数据Web搜索的研究进展[J].地理信息世界,2020,27(4):1-12. 被引量：3

二级引证文献9

1邓子云.基于Scrapy的网站增量式爬取功能的研制与应用[J].湖南工业职业技术学院学报,2022,22(6):25-29.
2王助尧.论邓小平哲学思想的核心和实质[J].探索,2000(2):4-7. 被引量：5
3金磊.基于大数据分析的DDOS检测系统的设计与实现[J].自动化与仪器仪表,2018,0(11):121-124. 被引量：5
4高菲.分布式异构网络恶意攻击取证及预警方法研究[J].计算技术与自动化,2021,40(1):184-188. 被引量：2
5陈军,刘万增,武昊,LI Songnian,闫利.智能化测绘的基本问题与发展方向[J].测绘学报,2021,50(8):995-1005. 被引量：82
6龚健雅,黄文哲,陈泽强,刘玉亭,李霖,唐卫明,张千里,陈静,陈波,乐鹏,刘军,肖计划.全球位置信息叠加协议与位置服务网技术研究进展与展望[J].地球信息科学学报,2022,24(1):2-16. 被引量：14
7Jun CHEN,Zhilin LI,Songnian LI,Wanzeng LIU,Hao WU,Li YAN.From Digitalized to Intelligentized Surveying and Mapping: Fundamental Issues and Research Agenda[J].Journal of Geodesy and Geoinformation Science,2022,5(2):148-160. 被引量：9
8王彩霞,张志刚.关于无线网络用户需求信息快速识别仿真[J].计算机仿真,2019,36(4):392-395.
9詹柳春,黄长江,林美.基于大数据的网络恶意攻击信息识别技术研究[J].信息与电脑,2019,0(16):182-183. 被引量：1

1编程擂台[J].中学生电脑,2004(9):24-24.
2陈严纯,梁立.大数据导入数据库的方法与实现[J].电脑编程技巧与维护,2013(18):27-29. 被引量：1
3孙鹤立,黄健斌,冯博琴,赵志勤,刘均,郑庆华.查询依赖的有序多超平面排序学习模型[J].软件学报,2011,22(11):2773-2781. 被引量：1
4编程擂台[J].中学生电脑,2004(11):24-24.
5崔航,文继荣,李敏强.基于用户日志的查询扩展统计模型[J].软件学报,2003,14(9):1593-1599. 被引量：61
6陈伟,刘佳,刘琳.基于“兴趣集群”的空间网络最优位置的选择与查询研究[J].河北能源职业技术学院学报,2016,16(1):52-54.
7江俊彦,彭智勇,吴小莹.基于Top-k查询约束的深网增量爬取[J].模式识别与人工智能,2017,30(1):43-53. 被引量：1
8鲜学丰,赵朋朋,辛洁,方巍,崔志明.基于领域样本查询的Deep Web数据库分类[J].微电子学与计算机,2010,27(3):20-23. 被引量：1
9李缨.基于依赖树的XML数据查询优化与处理方法研究[J].煤炭技术,2011,30(2):165-167.
10傅克慎.遍历从N个元素中取M个元素可能组合的最佳算法[J].烟台大学学报（自然科学与工程版）,2003,16(2):79-82. 被引量：2

通信学报

2016年第3期

浏览历史

内容加载中请稍等...

基于属性值序列图模型的deep Web新数据发现策略被引量：3

同被引文献56

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于属性值序列图模型的deep Web新数据发现策略 被引量：3

同被引文献56

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于属性值序列图模型的deep Web新数据发现策略被引量：3