基于网页分块的Shark-Search算法被引量：7

Improved Shark-Search algorithm based on page segmentation

下载PDF

导出

摘要 Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高. A Shark-Seareh algorithm is one of the classical algorithms for focused crawling. However, its performance is not ideal for crawling Web pages which contain too many noisy links. An improved Shark-Search algorithm based on page segmentation was proposed, which can accurately evaluate the relevance from three granularities： page, block and single link. Several experiments were carried out to verify that the improved Shark-Search algorithm can obtain significantly higher efficiency than traditional ones.

作者陈军陈竹敏

机构地区山东大学网络中心山东大学计算机科学与技术学院

出处《山东大学学报（理学版）》 CAS CSCD 北大核心 2007年第9期62-66,共5页 Journal of Shandong University(Natural Science)

基金国家科技支撑计划子课题资助项目(2006BAH02A29) 山东省博士基金资助项目(2006BS01016)

关键词 Shark-Search算法主题爬取页面分块相关性计算 Shark-Search algorithm focused crawling page segmentation relevance computation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1中国互联网信息中心．第19次中国互联网络发展状况统计报告[EB／OL]．(2007-01)[2007-06-20]．http：／／www．cnnic．net．cn／index／0E／00／11／index．htm．
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
3NOVAK B. A survey of focused web crawling algorithms[C]// Proceedings of SIKDD 2004 at Muticonference IS. Slovennia: ACM, 2004: 55-58.
4HERSOVICI M, JACOVI M, MAAREK Y, et al. The Shark- Search algorithm-an application: Tailored web site mapping [C]// Proceedings of the Seventh International World Wide Web Conference. Brisbane, Australia: Elsevier Science Pub- lishers B V, 1998: 317-326.
5苏祺,项锟,孙斌.基于链接聚类的Shark-Search算法[J].山东大学学报（理学版）,2006,41(3):139-143. 被引量：8
6MENCZER F, PANT G, SRINIVASAN P. Topical web crawlers : Evaluating adaptive algorithms [J]. ACM Transactions on Intemet Technology, 2004, 4(4): 378-419.
7MENCZER F, PANT G, RUIZ M, et al. Evaluating topicdriven Web crawlers[C]// Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New Orleans, USA: [s. n.], 2001:241-249.
8BRA P De, HOUBEN G, KORNATZKY Y, et al. Information retrieval in distributed hypertexts [ C]// Proceedings of the 4th RIAO Conference. New York: [s.n.], 1994: 481-491.
9LUO Fang-fang, CHEN Guolong, GUO Wenzhong. An im- proved“Fish-Search” algorithm for information retrieval [ C ]// Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering. [S. I.] : [ s.n.], 2005 : 523-528.
10宋睿华,马少平,陈刚,李景阳.一种提高中文搜索引擎检索质量的HTML解析方法[J].中文信息学报,2003,17(4):19-26. 被引量：20

二级参考文献37

1N. Craswell, D. Hawking, S. E. Robertson, Effective Site Finding Using Link Anchor Information,SIGIR 2001, 2001.
2P. Buneman, Semistructured data, In Proceedings of the ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Databases Systems, 117- 121, 1997.
3Kushmerick, N., Weld, D.S., and Doorenbos, R., Wrapper Induction for Information Extraction,Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence, 729 - 735, 1997.
4Carchiolo, V. ; Longheu, A. ; Malgeri, M., Structuring the Web, Database and Expert Systems Applications, 2000. Proceedings. 11th International Workshop on, 1123 - 1127, 2000.
5Jinlin Chen, Baoyao Zhou, Jin Shi, HongJiang Zhang, Qiu Fengwu, Function-based object model towards website adaptation, WWW10, 587- 596, 2001.
6Michal Cutler, Yungming Shih, Weiyi Meng, Using the Structure of HTML Documents to Improve Retrieval, Proceedings of the USENIX Symposium on Internet Technologies and Systems, 241- 251,1997.
7S. Chakrabarti, B.Dom, D. Gibson, H. Kleinberg, P. Raghavan, S. Rajagopalan, Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text, WWWT, 1998.
8EHRIG M, MAEDCHE A. Ontology-focused crawling of Web documents[A]. Proceedings of the 2003 ACM symposium on Applied computing[C], March 2003.
9GUO Q, GUO H, ZHANG ZQ, et al. Schema Driven Topic Specific Web Crawling[A]. DASFAA[C], 2005.
10GRAUPMANN J, BIWER M, ZIMMER C, et al. COMPASS: A Concept-based Web Search Engine for HTML, XML, and Deep Web Data[A]. Proceedings of the 30th VLDB Conference[C],2004.

共引文献182

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2蔡国民,王雅琳.搜索引擎的相关排序算法分析与优化[J].吉首大学学报（自然科学版）,2006,27(5):17-19. 被引量：4
3杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
4张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
5陈磊,冯玉珉.一种基于网页自动分类的分类查询搜索引擎[J].电脑与信息技术,2004,12(6):47-51.
6张春元,康耀红.基于示例的Web信息自动获取系统的设计与实现[J].计算机应用,2005,25(B12):55-57.
7陈再良,凌力,周强.dPageRank——一种改进的分布式PageRank算法[J].计算机应用,2006,26(1):21-24. 被引量：7
8胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
9夏绪虎,杨炳儒.海量信息搜索共享服务系统的设计与实现[J].计算机工程与应用,2006,42(28):164-166.
10张晋,李太君,邱钊.校园网络信息过滤与监控系统的设计与实现[J].现代计算机,2006,12(11):29-33.

同被引文献64

1曹红,袁津生.林业主题搜索引擎研究[J].计算机应用,2004,24(B12):321-323. 被引量：8
2罗方芳,陈国龙,郭文忠.基于改进的Fish-search算法的信息检索研究[J].福州大学学报（自然科学版）,2006,34(2):184-188. 被引量：9
3苏祺,项锟,孙斌.基于链接聚类的Shark-Search算法[J].山东大学学报（理学版）,2006,41(3):139-143. 被引量：8
4姜鑫维,赵岳松.Topic PageRank——一种基于主题的搜索引擎[J].计算机技术与发展,2007,17(5):238-241. 被引量：8
5夏崇镨,康丽.基于叙词表的主题爬虫技术研究[J].现代图书情报技术,2007(5):41-44. 被引量：8
6赵燕,陈晓云,莫明辉,汤勇.基于用户群的智能主题爬虫[J].广西师范大学学报（自然科学版）,2007,25(2):230-233. 被引量：3
7Bharat K, Henznger M R.Improved Algorithms for Topic Distillation in a Hypedinked Environment[C]//Proce-ddings of SIGIR Conference on Research and Development in Information Retrieval New York, 1998:104-111.
8Bra D P ,Houben G, Kornatzky et al. Information Retrieval in Distributed Hypertexts[C].Proceeding of the 4th RIAO Conference, 1994.
9Cho J, Garcia-MolinaH, Page L.Efficient Crawling Through URL Ordering[J].Computer Networks, 1998,30( 1-7) : 161~172.
10Menczer F. Complementing Search Engines with Online Web Mining Agents[J].Decision Support Systems,2003,35 (2):195-212.

引证文献7

1杨仁广,孟祥增.网络多媒体主题搜索策略研究[J].中国科技资源导刊,2009,41(2):37-41.
2杨仁广,孟祥增.网络多媒体教学资源主题搜索研究[J].电化教育研究,2009,30(5):83-88. 被引量：4
3杨仁广,宋宇,孟祥增.一种改进Shark-Search的多媒体主题搜索算法[J].计算机工程与应用,2010,46(14):152-154. 被引量：4
4袁津生,郭艳芬.林业主题爬虫的算法研究与设计[J].计算机工程与设计,2011,32(6):2003-2006. 被引量：7
5吴羽萍,杨仁广.网络多媒体主题搜索算法比较研究[J].图书情报工作,2013,57(7):112-115. 被引量：1
6薛丽敏,吴琦,李骏.面向专用信息获取的用户定制主题网络爬虫技术研究[J].信息网络安全,2017(2):12-21. 被引量：18
7周雪,刘乃文.引入主题链接块因子的候选链接搜索策略研究[J].计算机与数字工程,2018,46(5):874-878. 被引量：1

二级引证文献35

1项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
2邵云蛟,吴丽莎,张凯,吴屏.一种基于Python的信息安全情报收集工具[J].中国科技纵横,2018,0(13):19-19.
3孟祥增.基于内容的Flash网络教学资源检索研究[J].电化教育研究,2009,30(9):77-79. 被引量：7
4王晓春,李慧.面向教育的垂直搜索引擎框架及其应用[J].电化教育研究,2011,32(9):58-62. 被引量：2
5樊多妮,李禹生.基于Heritrix的网络主题爬虫算法研究与应用——以粮食网站交易信息为例[J].现代物业（下旬刊）,2012(9):97-100. 被引量：1
6吴羽萍,杨仁广.网络多媒体主题搜索算法比较研究[J].图书情报工作,2013,57(7):112-115. 被引量：1
7姚瑞虹,张鹏洲,陈志国.互联网音视频主动搜索算法效率提高的研究[J].广播与电视技术,2013(10):63-67.
8肖江,季节.基于Heritrix的主题爬虫在互联网舆情系统中应用[J].电子设计工程,2015,23(6):30-32. 被引量：5
9万玮琳.网络资源在flash教学中的运用[J].科学大众（智慧教育）,2014(9):107-107.
10刘建成,吴保国,陈栋.基于网络爬虫的森林经营知识采集系统研建[J].浙江农林大学学报,2017,34(4):743-750. 被引量：5

1仇磊,娄渊胜,常民.一种改进Shark-Search的主题爬虫算法[J].微型电脑应用,2017,33(2):19-21. 被引量：2
2苏祺,项锟,孙斌.基于链接聚类的Shark-Search算法[J].山东大学学报（理学版）,2006,41(3):139-143. 被引量：8
3杨仁广,宋宇,孟祥增.一种改进Shark-Search的多媒体主题搜索算法[J].计算机工程与应用,2010,46(14):152-154. 被引量：4
4安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用,2010,29(3):38-41. 被引量：13
5郭坤银,邢永康.基于Web标准的页面分块算法研究[J].微处理机,2009,30(6):58-61. 被引量：2
6罗林波,陈绮,吴清秀.基于Shark-Search和Hits算法的主题爬虫研究[J].计算机技术与发展,2010,20(11):76-79. 被引量：18
7朱庆生,徐宁,周瑜.一种基于链接和内容分析的自适应主题爬虫算法[J].计算机与现代化,2015(9):77-80. 被引量：3
8蒋建中,丁宝琼,吴琼,邱文武.基于页面分块的网页排序算法:BHITS[J].计算机工程,2010,36(11):64-66. 被引量：2
9路松峰,王丹丹.面向移动设备的WEB页面分块算法[J].小型微型计算机系统,2007,28(9):1672-1677. 被引量：1
10李姜.基于DOM的评论发现及抽取模型研究[J].计算机工程与设计,2007,28(9):2150-2153. 被引量：5

山东大学学报（理学版）

2007年第9期

浏览历史

内容加载中请稍等...

基于网页分块的Shark-Search算法被引量：7

参考文献12

二级参考文献37

共引文献182

同被引文献64

引证文献7

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于网页分块的Shark-Search算法 被引量：7

参考文献12

二级参考文献37

共引文献182

同被引文献64

引证文献7

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于网页分块的Shark-Search算法被引量：7