摘要
网络爬虫是搜索引擎的重要组成部分。分析了主题网络爬虫的工作原理,研究了主题相关度的计算方法,提出了基于本体的主题网络爬虫解决方案,设计实现了评估实验系统。最后对实验的结果进行了比较,论证了其可行性。
Web crawler is an important component of search engine. This paper analyses basic measures of the focused Web crawler, researches a relevance computation strategies of web page, proposes an approach for focused web crawler based on ontology. An experimental system is designed and implemented. Results of experiment are compared and feasibility of this approach is demonstrated.
出处
《武汉理工大学学报》
CAS
CSCD
北大核心
2009年第3期138-141,共4页
Journal of Wuhan University of Technology
关键词
网络爬虫
主题爬虫
本体
主题相关度
链接分析
web crawler
focused crawler
ontology
topic relevance
hyperlink analysis