主题Deep Web爬虫框架研究被引量：3

Research for framework of subject deep web crawler

下载PDF

导出

摘要为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不同主题的Deep Web数据库和采用常用字最大限度下载Deep Web信息的技术。实验结果表明了该框架采用的技术是可行的。 To satisfy people＇ s demand for getting precise and personal information, characteristics ofdeep web information are analyzed, and a framework of crawler for searching different subject information in deep web is put forward. To solve the difficult problems of deep web database discovery and deep web crawler crawling strategy, the technologies of discovering different subject deep web database quickly to use the universal search engine and downloading deep web information to the utmost by adopting the commonly used Chinese characters are proposed respectively. At last the experiment show that the framework is correct, and the technologies are feasible.

作者黄聪会张水平胡洋

机构地区空军工程大学电讯工程学院

出处《计算机工程与设计》 CSCD 北大核心 2010年第5期929-931,935,共4页 Computer Engineering and Design

基金陕西省自然科学基金项目(2007F43)

关键词深网爬虫搜索引擎信息抽取常用字 deep web crawler search engine information extraction commonly used Chinese characters

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Chang KCC,He B,Li C,et al.Structured databases on the web:observations and implications[J].SIGMOD Record,2004,33(3): 61-70.
2Sherman C, Price G. The invisible web: uncovering sources search engines can't see[J]. Library Trends,2003(2):282-298.
3田野,丁岳伟.基于关键词相关度的Deep Web爬虫爬行策略[J].计算机工程,2008,34(15):220-222. 被引量：7
4郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
5曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
6周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
7郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
8王冉冉,王刚,黄青松.基于Deep Web的信息采集系统[J].计算机技术与发展,2007,17(10):171-173. 被引量：3

二级参考文献83

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2吴志强,严贝妮.从隐蔽网络到国际互联网信息资源控制计划[J].图书馆理论与实践,2004(4):80-81. 被引量：13
3张芨秋.深网的概念、规模及内容[J].中国信息导报,2004(11):57-60. 被引量：8
4彭建荣,罗永会.搜索引擎的基本原理及发展趋势[J].电脑知识与技术,2006,1(1):84-85. 被引量：7
5郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
6陈珂,陈小英,徐科.Hidden Web信息获取[J].计算机时代,2007(5):54-56. 被引量：3
7孙彬,王东,李娟.基于XQuery的Deep Web搜索系统的设计与实现[J].科学技术与工程,2007,7(16):4080-4084. 被引量：2
8EHRIG M, MAEDCHE A. Ontology-focused crawling of Web documents[A]. Proceedings of the 2003 ACM symposium on Applied computing[C], March 2003.
9GUO Q, GUO H, ZHANG ZQ, et al. Schema Driven Topic Specific Web Crawling[A]. DASFAA[C], 2005.
10GRAUPMANN J, BIWER M, ZIMMER C, et al. COMPASS: A Concept-based Web Search Engine for HTML, XML, and Deep Web Data[A]. Proceedings of the 30th VLDB Conference[C],2004.

共引文献223

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
3张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
4胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
5苏晓珂,赵磊,黄青松.Deep Web中基于迭代的查询方式[J].云南民族大学学报（自然科学版）,2007,16(1):66-68. 被引量：1
6李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5
7李越,孙彬,王东.XQuery Web搜索系统的设计与实现[J].新疆石油天然气,2007,3(2):94-96. 被引量：1
8孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3
9王迁,王丽娜.对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J].电子知识产权,2007(8):41-43.
10董旻,方曙.Deep Web信息抽取研究[J].图书情报工作,2007,51(10):25-28. 被引量：5

同被引文献13

1邱燕燕.开放存取资源的组织和揭示[J].图书馆杂志,2006,25(6):20-22. 被引量：24
2张芳,肖国强.基于专业搜索引擎的元搜索引擎的设计[J].郑州大学学报（理学版）,2007,39(2):38-41. 被引量：2
3Budapest Open Access Initiative[OL]. [2011-03-02].http:// www.soros.org/Openaccess/read.shtml.
4马费成等.看不见的网站-Internet专业信息检索指南[M].沈阳:辽宁科学技术出版社,2003.48.
5Bright Planet. The Deep Web:Surfacing Hidden Value[OL]. [2011-05-12].http://www.brightplanet.com/images/uploads/ 12550176481-deepwebwhitepaper.pdf.
6Kilgour Award recipient named[OL].[2011-05-12], http:// www.ala.org/ala/mgrps/divs/lita/newandnoteworthy/kilgour- winner2010.cfm.
7Anna K.Hood.Open Access Resources[OL].[2011-03-07] . www.arl.org/bm-doc/spec300web.pdf.
8陈红勤.学术隐蔽网络和学术搜索引擎[J].现代情报,2008,28(7):117-119. 被引量：10
9戚欣.基于本体的主题网络爬虫设计[J].武汉理工大学学报,2009,31(3):138-141. 被引量：14
10高明,王继成,李江峰.基于语义支持的Deep Web数据抽取[J].计算机科学,2010,37(3):156-158. 被引量：1

引证文献3

1邱春艳.基于开放存取组织分析的隐形网络资源显性化[J].图书馆学刊,2011,33(11):32-35.
2胡鹏.学习资源爬虫系统设计与实现[J].软件导刊,2017,16(4):111-113. 被引量：2
3尹长青,杨单稷.基于视频的智能推荐算法[J].科技传播,2011,3(22):204-204.

二级引证文献2

1杨帆,董俊,唐宏亮,张昊.基于Python的淘宝评论爬取技术研究[J].中国管理信息化,2019,22(4):162-163. 被引量：3
2赵敏涯,华英,吴笛,黄鹏,赵明明.基于Java技术的新闻采集器设计与实现[J].电脑编程技巧与维护,2019(4):21-23.

1赵昊,卫刚,赵晓东.基于主题Deep Web数据挖掘的研究与探索[J].电脑知识与技术,2012,8(6):3792-3795.
2郑丽英.数据结构Trie及其应用[J].现代计算机,2004,10(8):20-22. 被引量：6
3搜狗拼音固定常用字[J].电脑爱好者（普及版）,2011(A02):57-57.
4搜狗拼音固定常用字[J].电脑爱好者（普及版）,2010(7):92-92.
5nana.智能ABC中“嗯”的打法[J].玩电脑,2005(5):107-107.
6IMingE.智能ABC的笔形情缘[J].软件指南,2005(12):34-34.
7唐建平.简码为中心的汉字编码设计走出大字符集无重码的误区[J].中文信息,1997,14(4):36-37.
8赵丽.基于Deep Web数据集成系统的预取系统的设计[J].中国科技博览,2012(3):104-104. 被引量：1
9郑炜.为CCBIOS增加常用字快速输入功能[J].电脑学习,1990(2):35-36.
10崔晓军,彭智勇,杨先娣,张莹.Deep Web信息按需集成研究综述[J].武汉大学学报（理学版）,2009,55(4):465-472. 被引量：2

计算机工程与设计

2010年第5期

浏览历史

内容加载中请稍等...

主题Deep Web爬虫框架研究被引量：3

参考文献8

二级参考文献83

共引文献223

同被引文献13

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

主题Deep Web爬虫框架研究 被引量：3

参考文献8

二级参考文献83

共引文献223

同被引文献13

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

主题Deep Web爬虫框架研究被引量：3