Hidden Web信息获取被引量：3

下载PDF

导出

摘要如今Web上越来越多的信息可以通过查询接口获得,但为了获取某Hidden Web站点的页面,用户不得不键入一系列的关键词。由于没有直接指向Hidden Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,研究表明,由Hidden Web站点提供的高质量的信息对许多用户来说非常有价值。文章通过研究针对特定类型的表单,建立一个有效的Hidden Web爬虫,以便获取Hidden Web后台数据库信息。

作者陈珂陈小英徐科

机构地区苏州市职业大学苏州大学信息处理及应用研究所

出处《计算机时代》 2007年第5期54-56,共3页 Computer Era

关键词 Hidden Web Hidden WEB爬虫静态链接搜索引擎采样策略

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Bin He,Mitesh Patel,Zhen Zhang,Kevin Chen-Chuan Chang.Accessing the Hidden Web:A Survey,2004.
2Kevin Chen-Chuan Chang, Bin He, Chengkai Li, Mitesh Patel, Zhen Zhang. Structured Databases on the Web:Observations and Implications,2004.
3Ajit C.Tamhane and Dorothy D.Dunlop. Statistics and Data Analysis: From Elementary to Intermediate. Prentice-Hall,New Jersey,2000.
4A.H.F. Laender, B. Ribeiro-Neto, A.S. da Silva, J.S. Teixeira,A brief survey of Web data extraction tools, SIGMOD Record 31(2),2002.
5D.M. Campbell, W.R. Chen, and Randy D. Smith. Copy detection system for digital documents. In Proceedings of the IEEE Advances in Digital Libraries,pages78-88, Washington,DC, May,2000.
6J.Cope, N.Craswell, and D.Hawking. Automated discovery of search interfaces on the web. In 14th Australasian conference on Database technologies,2003.
7S. Raghavan, and H. Garcia-Molina. Crawling the hidden web. In VLDB, Rome, Italy, September 2001.

同被引文献29

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2邢春艳.隐蔽网络研究刍议[J].图书馆学刊,2005,27(6):114-116. 被引量：4
3彭建荣,罗永会.搜索引擎的基本原理及发展趋势[J].电脑知识与技术,2006,1(1):84-85. 被引量：7
4郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
5杨道玲.深网信息资源采集初探[J].图书馆杂志,2006,25(12):19-22. 被引量：12
6王子熙.高校图书馆隐蔽网络资源的开发利用[J].新世纪图书馆,2007(2):69-71. 被引量：5
7孙彬,王东,李娟.基于XQuery的Deep Web搜索系统的设计与实现[J].科学技术与工程,2007,7(16):4080-4084. 被引量：2
8刘伟,孟小峰,孟卫一.Deep Web数据集成问题研究[EB].http://idke, ruc. edu. cn/reports/report2006/seminar% 20summary/Deep%20 Web.pdf, 2006. 3: 3-4.
9Yiyao Lu, Hal He, Hongkun Zhao, Weiyi Meng. Annotating Structured Data of the Deep Web, IEEE, 2007:376 - 385.
10Zhen Zhang, Bin He, Kevin Chen- Chuan Chang. Light - weight Domain - based Form Assistant: Querying Web Databases On the Fly. In Proceedings of the 31st Very Large Data Bases Conference, 2005:97 - 108.

引证文献3

1鞠彦辉,许燕.Deep Web信息资源开发策略研究[J].现代情报,2008,28(1):77-80. 被引量：1
2曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
3韩卫红.挖掘利用深网资源提升图书馆服务水平[J].图书馆学刊,2011,33(7):92-94.

二级引证文献40

1陈丽君.深层网查询表单标签识别技术研究[J].电脑开发与应用,2010,23(2):66-68. 被引量：1
2黄聪会,张水平,胡洋.主题Deep Web爬虫框架研究[J].计算机工程与设计,2010,31(5):929-931. 被引量：3
3范纯龙,袁滨,余周华,徐蕾.基于陷阱技术的网络爬虫检测[J].计算机应用,2010,30(7):1782-1784. 被引量：4
4于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
5刘凤华,罗菁,崔岩.基于J2EE的服装虚拟企业社区平台的设计与实现[J].中原工学院学报,2011,22(4):39-42.
6张会福,周亚平.基于事件驱动的车型参数主题爬虫[J].计算机系统应用,2011,20(10):198-201.
7林爱群,习万球.Deep Web信息资源的查询接口集成研究[J].热带农业科学,2011,31(12):87-90.
8吴艺捷.糖尿病大血管病变防治研究的新进展[J].临床荟萃,2000,15(2):86-88. 被引量：17
9周峦,林芸,陈露诗.剖宫产术中出血相关因素的探讨[J].广东医学,2000,21(5):420-421. 被引量：1
10苗青.对数字出版环境下图书馆拓展编目对象的探讨[J].现代情报,2014,34(3):135-138.

1荣光,张化祥.一种Deep Web爬虫的设计与实现[J].计算机与现代化,2009(3):31-34. 被引量：5
2方旺盛,邵利平,郑剑.动态链接方式下基于VB的绿色软件构造[J].佳木斯大学学报（自然科学版）,2003,21(4):407-409. 被引量：1
3陈健,赵梦笔.Windows API与DLL[J].松辽学刊（自然科学版）,2002(4):29-31. 被引量：2
4肖毅,张林,聂笑一.基于WEB挖掘的网络爬虫设计与实现[J].计算机系统应用,2013,22(9):60-63. 被引量：9
5尹中华,武雅丽.在MFC DLL中和Windows 32 DLL中使用资源的比较[J].现代电子技术,2005,28(10):50-51.
6马春江,陈帅,何清.论DLL文件在多平台软件开发下的应用[J].信息与电脑（理论版）,2014,0(10):145-145. 被引量：2
7暗网（Hidden Web）[J].通信管理与技术,2009(3).
8郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
9田野,丁岳伟.基于关键词相关度的Deep Web爬虫爬行策略[J].计算机工程,2008,34(15):220-222. 被引量：7
10余丛彬.C++与Delphi的函数与对象共享[J].重庆工业高等专科学校学报,2000,15(4):47-49.

计算机时代

2007年第5期

浏览历史

内容加载中请稍等...

Hidden Web信息获取被引量：3

参考文献7

同被引文献29

引证文献3

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

Hidden Web信息获取 被引量：3

参考文献7

同被引文献29

引证文献3

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

Hidden Web信息获取被引量：3