基于动态评价URL链接结构的主题爬行策略
摘要
在深入分析了HTML页面的超链结构的基础上,加入了锚文本内容分析权重和动态评价策略,提出了算法的改进,形成了综合动态价值的URL链接结构的搜索策略。改进的算法根据链接类型的不同赋予了不同的权重因子,并结合了动态价值评价穿越"隧道",简化了优先级的计算,有效地降低了"短视"问题和"主题漂移"现象,是一种高效实用的主题采集策略。
出处
《福建电脑》
2010年第2期83-84,96,共3页
Journal of Fujian Computer
参考文献13
-
1P De Bra,GJ Houben,Y Komatzky,ct al.Information Retrieval in Distributed Hypertexts.in:Proceeding of the 4th RIAO Conference.New York, USA.1994.481-491.
-
2罗方芳,陈国龙,郭文忠.基于改进的Fish-search算法的信息检索研究[J].福州大学学报(自然科学版),2006,34(2):184-188. 被引量:9
-
3Michael Hersovici,Michal Jacovi,Dan PeUeg,et al.The shark-search algo- rithm-An application:Tailored Web site mapping.Computer Networks and ISDN System, 1998,30: 256-264.
-
4林海霞,原福永,陈金森.主题网络蜘蛛搜索策略贪婪性解决方法[J].微电子学与计算机,2006,23(z1):278-280. 被引量:4
-
5李盛韬.WebCrawling技术研究[R].北京:中国科学院计算机技术研究所.2003.
-
6徐群岭.搜索引擎的定性、定量评价研究与合理选择[J].情报杂志,2003,22(3):32-33. 被引量:8
-
7Charu C Aggarwal,Fatima Al-Gamwi,Philip S Yu.Intelligent Crawling on the World Wide Web with Arbitrary Predicates.in:Proceedings of the 10th International Wodd Wide Web Conference.Hong Kong,China,2001. 96-105.
-
8Davison B.Topical locality in the web [A].Annual International Conference Information Retrieval [C].Athens, 2000 : 272-279.
-
9M Diligenfi,F M Coetzee,S Lawrence,et al .Focused crawling using context graphs [A] .26th International Conference on Very Large Database [C].eBusiness Research Center, 2000 : 527-534.
-
10Ester M.Grob M,Kriegel H.Focused Web crawling:a genetic fi:amwork for specifying the user interest and for adaptive crawling Stratrgies [A]. Proc of the International Conference on Very Large Database (VLDB 01)[C] . ACM,2001.
二级参考文献65
-
1[8]Cho,Molina. Synchronizing a database to improve freshness. In:Junghoo Cho, Hector Garcia-Molina, eds. Proc. of 2000 ACM Intl. Conf. on Management of Data(SIGMOD),May 2000
-
2[9]Cho, Molina, Page. Efficient Crawling Through URL Ordering.In: Junghoo Cho,Hector Garcia-Molina and Lawrence Page, eds.Proc. of the Seventh Intl. World Wide Web Conf. Toronto,Canada,May 1999
-
3[10]Edwards,et al. An Adaptive Model for Optimizing Performance of an Incremental Web Crawler. In: J. Edwards, K. McCurley, J.Tomlin,eds. Proc. of the 10th Intl. World Wide Web Conf. Hong Kong ,May 2001
-
4[11]Heydon ,Najork .Mercator:A Scalable,Extensible Web Crawler.A. Heydon and M. Najork. In World Wide Web Journal, Dec.1999. 219~229
-
5[12]Kamba T,Bharat K,Albers M. The Krakatoa Chronicle - An Interactive, Personalized, Newspaper on the Web. In: Proc. of WWW 4,Boston, USA,Dec. 1995
-
6[13]Kahle B. Preserving the Internet,Scientific American,March 1997
-
7[14]Koster M. The Web Robots Pages. 1999
-
8[15]Lawrence S,Giles C L. Accessibility of information on the Web.Nature, 1999,400(6740) :107~109
-
9[16]Letizia. An Agent That Assists Web Browsing. In:H. Lieberman,ed. Proc. of the Intl. Joint Conf. on AI,Montreal ,Canada,Aug.1995
-
10[17]Is Agent-Based Online Search Feasible?. In: F. Menzcer, ed.Working Notes of the AAAI Spring Symposium on Intelligent Agents in Cyberspace,Stanford,USA,March 1999
共引文献53
-
1朱素媛,马溪俊,梁昌勇.人工智能技术在搜索引擎中的应用[J].合肥工业大学学报(自然科学版),2003,26(z1):657-661. 被引量:17
-
2刘正春,蒋福坤.搜索引擎定量评价模型研究[J].大学数学,2004,20(4):14-18. 被引量:2
-
3熊海灵,伍胜,余建桥,李航.一种基于RPUC的Web文档索引库的更新算法[J].计算机科学,2004,31(8):95-96. 被引量:1
-
4籍小琴.网络信息的挖掘与搜索[J].山西农业大学学报(社会科学版),2005,4(1):86-88. 被引量:2
-
5刘红,邵晓良,胡吉兵.基于页面内容和链接结构的超链接主题预测算法[J].现代图书情报技术,2005(5):41-45. 被引量:1
-
6李春旺.Web信息主题采集技术研究[J].图书情报工作,2005,49(4):77-80. 被引量:17
-
7张平占.世界动用钻机数量因何而动[J].中国石油企业,2005(3):94-95.
-
8杨宝森,来玲.面向学科的网络信息挖掘系统研究[J].情报理论与实践,2006,29(2):240-242. 被引量:3
-
9杨宝森.面向学科的Web数据挖掘研究[J].情报杂志,2006,25(3):19-21. 被引量:4
-
10祝宇,夏诏杰,聂峰光,郭力.支持向量机在化学主题爬虫中的应用[J].计算机与应用化学,2006,23(4):329-332. 被引量:8
-
1一叶倾城.玩转网页资源之认识网页与链接[J].电脑迷,2006,0(20):10-11.
-
2张同汉,赵越.高职高专数字化校园建设的思考[J].数字技术与应用,2015,33(10):202-202. 被引量:1
-
3龚波,张文敏,郑若忠.计算机2000年问题及测试[J].电脑与信息技术,1999,7(4):49-54.
-
4短视频市场格局 原来是这样的[J].计算机应用文摘,2017,0(8):36-37.
-
5杨劲松,凌培亮.搜索引擎PageRank算法的改进[J].计算机工程,2009,35(22):35-37. 被引量:9
-
6王雅琳,陆向艳,钟诚.基于链接和萤火虫算法聚类博文发现热点话题[J].计算机工程与设计,2015,36(6):1620-1625. 被引量:7
-
7谢海艇.基于锚文本的HITS算法研究[J].内蒙古科技与经济,2009(12):28-29. 被引量:1
-
8王钟斐,王彪.基于锚文本相似度的PageRank改进算法[J].计算机工程,2010,36(24):258-260. 被引量:14
-
9黄德才,戚华春.PageRank算法研究[J].计算机工程,2006,32(4):145-146. 被引量:69
-
10王倩.计算机数据库在信息管理中的应用价值评价[J].信息与电脑,2015,27(9):52-53. 被引量:5