摘要
传统的基于本地搜索算法的信息采集系统存在诸如主题漂移和采集结果局部最优等问题。在深入研究Web拓扑结构基础上,利用网络蜘蛛的在线状态,提出了基于全局信息的、动态综合了链接的立即回报价值和未来回报价值的遗传算法。通过此算法,利用元搜索技术可进一步提高网络蜘蛛的性能,具有更高的查全率和查准率,能够较好地解决现存问题。
Traditional focused crawler uses local search algorithms. It causes the problems of ‘topic drift' and ‘partially most superior'. Based on the knowledge of Web structure and web crawler's online status and meta-search technology, we proposed a new global search algorithm-genetic algorithm, which synthesizes the linkage' s immediate value and future value dynamically. Our experiments show that the new algorithm has better recall rate and precision.
出处
《计算机科学》
CSCD
北大核心
2006年第7期71-74,共4页
Computer Science
关键词
网络蜘蛛
遗传算法
WEB社区
信息采集
Genetic algorithm, Web spider, Web community, Information retrieve