Web采集中信息组合自学习的研究

Research on Self-learning of Information Combination in Web Collecting

下载PDF

导出

摘要 Web采集者为了尽可能准确地采集符合主题的网页信息,一般会根据多种Web信息来预测待采集链接的价值。文中为了提高Web采集系统预测链接价值的准确性,提出了一种能根据已采集页面自行调整Web信息重要性的Web采集者。它具有学习能力,能通过对训练集的爬行,分析出对于预测链接价值各种Web信息的重要性,以此调整采集过程中各Web信息的组合权值,得到符合实际Web情况的较优搜索策略。以计算机作为采集主题,对此算法和传统的Web信息固定组合的算法进行了比较。实验结果表明,较之传统的Web采集者,使用此算法的采集者具有较高的Web搜索精度。 In order to precisely obtain Web pages on the topic,the Web crawler usually uses various Web information to forecast the linkages＇ value. In this paper,in order to improve the Web crawlers＇ accuracy in forecasting linkages＇ value, a Web searching strategy is proposed, which can automatically adjust the importance of various Web information according to the crawled Web pages. This crawler has learning ability, which can analyze the importance of Web information through crawling the training set, and then adjust the weights of Web information, get a better search strategy corresponding to actual Web. The algorithm and traditional Web information combination al- gorithm is compared. The experiment result shows that compared with the Web crawler based on fixed weights of Web information, the new crawler has higher searching accuracy.

作者张玲许亮姜华

机构地区湖南省第一师范学院信息科学与工程系

出处《计算机技术与发展》 2013年第11期216-219,共4页 Computer Technology and Development

基金湖南省教育科研计划资助项目(09C231)

关键词 Web采集者链接价值主题搜索搜索策略 Web信息组合 Web crawlers linkage value topic searching searching strategy Web information combination

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1徐金雷,杨晓江.专业搜索引擎的排序算法研究[J].现代图书情报技术,2006(7):20-24. 被引量：9
2王闯.Web资源地理位置分类与检测[J].计算机工程与科学,2006,28(9):136-139. 被引量：2
3高克宁,柴桥子,张斌,马安香.支持Web信息分类的高性能蜘蛛程序[J].小型微型计算机系统,2006,27(7):1308-1312. 被引量：6
4周合明,奚建清.基于模板的Web信息提取系统的设计与实现[J].计算机技术与发展,2011,21(11):105-108. 被引量：5
5汪涛,樊孝忠.主题爬虫的设计与实现[J].计算机应用,2004,24(S1):270-272. 被引量：40
6张岭,马范援.加速评估算法:一种提高Web结构挖掘质量的新方法[J].计算机研究与发展,2004,41(1):98-103. 被引量：27
7朱明,王军,王俊普.Web网页识别中的特征选择问题研究[J].计算机工程,2000,26(8):35-37. 被引量：29

二级参考文献43

1郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
2杨思洛.搜索引擎的排序技术研究[J].现代图书情报技术,2005(1):43-47. 被引量：23
3郭太飞,何洁月.归纳学习XPATH Web信息提取规则[J].计算机技术与发展,2007,17(3):98-101. 被引量：7
4[1]J Cho, H Garcia-Molina, L Page. Efficient crawling through URL ordering. The 7th World Wide Web Conference, Brisbane, 1998
5[2]S Brin, L Page. The anatomy of a large-scale hypertexual web search engine. The 7th World Wide Web Conference, Brisbane, 1998
6[3]Taher H Haveliwala. Efficient computing of PageRank. Stanford Database Group, Tech Rep, 1999
7[4]Monika Henzinger. Link analysis in web information retrieval. IEEE Data Engineering Bulletin, 2000, 23(3): 3～8
8[5]Dell Zhang, Yisheng Dong. An efficient algorithm to rank web resources. Computer Netwoks, 2000, 33: 449～455
9[6]Lei Ming, Wang Jianyong .et al.. Improved relevance ranking in web gather. Journal of Computer Science and Technology, 2001, 16(5): 410～417
10[7]S Lawrence, C L Giles. Accessibility of information on the web. Nature, 1999, 400: 107～109

共引文献107

1王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
2兰东俊,朱精南.网页视图的重构与转化[J].计算机应用,2003,23(z2):158-159. 被引量：1
3许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
4高博,朱东华,韩士雄.一种智能化的信息采集系统的研究与实现[J].兵工学报,2009,30(S1):130-134. 被引量：3
5张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
6邱均平,张洋.网络信息计量学综述[J].高校图书馆工作,2005,25(1):1-12. 被引量：44
7汪涛,樊孝忠.链接分析对主题爬虫的改进[J].计算机应用,2004,24(B12):174-176. 被引量：12
8丁艳,曹倩,王超,潘金贵.基于Ontology和EM方法的网页分类研究[J].计算机科学,2003,30(11):112-115. 被引量：1
9易高翔,程耕国.Web文本挖掘研究[J].武汉科技大学学报,2005,28(1):72-74. 被引量：5
10钟智,黄发良.基于个性化服务的元搜索引擎模型[J].河北理工学院学报,2005,27(1):73-75. 被引量：4

1张睿敏,唐占红,曹博.基于Android的农业信息组合系统设计与开发[J].兰州工业高等专科学校学报,2012,19(5):12-14. 被引量：9
2何志均.“多媒体”与信息任意组合[J].国际学术动态,1994(3):23-24.
3赵善明,崔翔,杨书涛.主题搜索引擎搜索浅析[J].才智,2008,0(13):163-163.
4刘彤,张阳,孙琦,袁翀.基于Hadoop的可视化Deep Web采集平台设计[J].计算机工程与科学,2016,38(2):217-223. 被引量：4
5邹黎君,凌兴宏,姚望舒.一种基于特征信息组合的本体匹配流程[J].计算机工程,2013,39(9):271-276. 被引量：2
6李韩,孙永杰.SQL数据库的安全管理和性能优化[J].科技创新与应用,2016,6(31):108-108. 被引量：7
7刘彤.个性化Web采集算法研究及其应用[J].贵州大学学报（自然科学版）,2006,23(3):305-313. 被引量：1
8张旭东,熊静琪,王丛岭.基于遗传算法信息组合的自适应模糊控制[J].西安交通大学学报,2007,41(7):838-841.
9张玲,秦拯,易先卉.基于遗传算法的Web信息采集策略研究[J].情报理论与实践,2008,31(2):303-306. 被引量：2
10赵根.网络蜘蛛搜索基本策略研究[J].软件导刊,2009,0(2):130-131. 被引量：1

计算机技术与发展

2013年第11期

浏览历史

内容加载中请稍等...

Web采集中信息组合自学习的研究

参考文献7

二级参考文献43

共引文献107

相关作者

相关机构

相关主题

浏览历史