摘要
PageRank算法是最为经典的Web结构挖掘算法,但是其存在主题漂移的问题,使得搜索结果中存在大量与查询主题无关的网页。在分析Page Rank算法的基础上,提出利用欧式距离计算主题相似度并融入传统的PageRank算法中,形成一个改进的网页排序算法,并把此算法应用到云计算环境中,研究MapReduce编程模型上的PageRank算法流程。
Page Rank algorithm is the most classic web structure mining algorithm,but it exists a problem of topic drift that make the webpage irrelevant to the query subject in search results. Based on the analysis of the pagerank algorithm, it proposes using the euclidean distance to compute the topic similarity and integrate into the traditional pagerank algorithm forming an improved webpage ranking algorithm. And this algorithm is applied to the cloud computing enviroment to explore the process of pagerank algorithm in the mapreduce programming model.
出处
《佛山科学技术学院学报(自然科学版)》
CAS
2015年第2期66-70,共5页
Journal of Foshan University(Natural Science Edition)
基金
国家自然科学基金资助项目(30671680)
国家科技型中小企业技术创新基金(11C26213502126)
福建省交通厅科技项目(2013016)