一种基于Spark的改进协同过滤算法研究被引量：8

AN IMPROVED COLLABORATIVE FILTERING ALGORITHM BASED ON SPARK

下载PDF

导出

摘要为提高协同过滤算法在大数据环境下的可扩展性以及在高维稀疏数据下的推荐精度,基于Spark平台实现了一种分层联合聚类协同过滤算法。利用联合聚类对数据集进行稀疏性处理并构建聚类模型,运用层次分析模型并结合评分密集度分析联合聚类模型中用户和项目潜在类别权重,由此进行项目相似度计算并构建项目最近邻居集合,完成在线推荐。通过在GroupLens提供的不同规模MovieLens数据集上实验表明,改进后的算法能够明显提高推荐的准确度,并且在分布式环境下具有良好的推荐效率和可扩展性。 In order to improve the scalability of collaborative filtering algorithm in big data environment and the recommendation accuracy in high dimensional sparse data,a hierarchical co-clustering collaborative filtering algorithm based on spark is implemented. The data sets are sparsely processed by using co-clustering and the clustering model is constructed. The potential categories weight of users and projects in the co-clustering model are analyzed by using the analytic hierarchy model combined with the score-density analysis. The project similarity is calculated and the project nearest neighbor set is constructed to complete the online recommendation. The experiments different scale Movie Lens datasets provided by Group Lens show that the improved algorithm can significantly improve the accuracy of recommendation,and it has good recommendation efficiency and expansibility in distributed environment.

作者许智宏蒋新宇董永峰赵嘉伟

机构地区河北工业大学计算机科学与软件学院河北省大数据计算重点实验室

出处《计算机应用与软件》 2017年第5期247-254,278,共9页 Computer Applications and Software

基金天津市科技计划项目(14ZCDGSF00124) 河北省青年科学基金项目(F2015202311)

关键词协同过滤联合聚类层次分析模型 SPARK Collaborative filtering Co-clustering Analytic hierarchy model Spark

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献5

1朱锐,王怀民,冯大为.基于偏好推荐的可信服务选择[J].软件学报,2011,22(5):852-864. 被引量：69
2何洁月,马贝.利用社交关系的实值条件受限玻尔兹曼机协同过滤推荐算法[J].计算机学报,2016,39(1):183-195. 被引量：40
3郭磊,马军,陈竹敏,姜浩然.一种结合推荐对象间关联关系的社会化推荐算法[J].计算机学报,2014,37(1):219-228. 被引量：73
4赵琴琴,鲁凯,王斌.SPCF：一种基于内存的传播式协同过滤推荐算法[J].计算机学报,2013,36(3):671-676. 被引量：49
5吴湖,王永吉,王哲,王秀利,杜栓柱.两阶段联合聚类协同过滤算法[J].软件学报,2010,21(5):1042-1054. 被引量：83

二级参考文献89

1贾丽会,张修如.BP算法分析与改进[J].计算机技术与发展,2006,16(10):101-103. 被引量：48
2陈刚,刘发升.基于BP神经网络的数据挖掘方法[J].计算机与现代化,2006(10):20-22. 被引量：14
3Xu HL,Wu X,Li XD,Yan BP.Comparison study of Internet recommendation system.Journal of Software,2009,20(2):350-362 (in Chinese with English abstract).http://www.jos.org.cn/1000-9825/3388.htm[doi:10.3724/SP.J.1001.2009.03388].
4Marlin B.Collaborative Filtering:A machine learning perspective[MS.Thesis].Toronto:University of Toronto,2004.
5Hofmann T.Latent semantic models for collaborative filtering.ACM Trans.on Information System,2004,22(1):89-115.[doi:10.1145/963770.963774].
6Blei DM,Ng AY,Jordan MI.Latent Dirichlet allocation.Journal of Machine Learning Research,2003,3(3):993-1022.[doi:10.1162/ jmlr.2003.3.4-5.993].
7Netflix update:Try this at home.2006.http://sifter.org/~simon/journal/20061211.html.
8Zhang S,Wang WH,Ford J,Makedon F.Learning from incomplete ratings using non-negative matrix factorization.In:Ghosh J,ed.Proc.of the 6th SIAM Conf.on Data Mining.Bethesda:SIAM,2006.549-553.
9Cheng YZ,Church GM.Biclustering of expression data.In:Bourne PE,ed.Proc.of the 8th Int'l Conf.on Intelligent Systems for Molecular Biology.La Jolla:AAAI Press,2000.93-103.[doi:10.1016/j.ipm.2008.12.004].
10Cheng G,Wang F,Zhang CS.Collaborative filtering using orthogonal nonnegative matrix tri-factorization.Information Processing & Management,2009,45(3):368-379.

共引文献299

1司长强,种法彤.竞演类综艺《我就是演员》的微博传播策略[J].新闻传播,2022(14):23-25.
2刘冬兰,孔德秋,常英贤,刘新,马雷,王睿.基于受限玻尔兹曼机的电力信息系统多源日志综合特征提取[J].计算机系统应用,2020,29(11):210-217. 被引量：1
3王帅,孙福振,王绍卿,张进,方春.拟合矩阵与两阶融合迭代加速推荐算法[J].计算机应用研究,2020,37(2):370-374.
4崔岩,祁伟,庞海龙,赵辉.融合协同过滤和XGBoost的推荐算法[J].计算机应用研究,2020,37(1):62-65. 被引量：11
5吴泓辰,王新军,成勇,彭朝晖.基于协同过滤与划分聚类的改进推荐算法[J].计算机研究与发展,2011,48(S3):205-212. 被引量：20
6王斌斌,周作建,过洁,潘金贵.基于迭代训练的Web Service混合协同过滤推荐模型[J].计算机研究与发展,2013,50(S2):153-162. 被引量：2
7韦素云,肖静静,业宁.基于联合聚类平滑的协同过滤算法[J].计算机研究与发展,2013,50(S2):163-169. 被引量：12
8赵宏霞,王新海,杨皎平.基于项目因子分析的Web客户需求协同推荐算法[J].计算机系统应用,2011,20(7):188-191.
9赵宏霞,王新海,杨皎平.基于Web客户因子分析的协同推荐算法[J].计算机应用研究,2011,28(7):2525-2527.
10纪良浩.协作过滤信息推荐技术研究[J].重庆邮电大学学报（自然科学版）,2012,24(1):78-82. 被引量：5

同被引文献58

1邓爱林,左子叶,朱扬勇.基于项目聚类的协同过滤推荐算法[J].小型微型计算机系统,2004,25(9):1665-1670. 被引量：147
2刘晓平,安竹林,郑利平.基于MPI的主从式并行遗传算法框架[J].系统仿真学报,2004,16(9):1938-1940. 被引量：26
3董钢.SQL Server数据库封锁及死锁研究[J].计算机与现代化,2005(8):52-55. 被引量：9
4王华金,蔡虔.数据挖掘可视化技术综述[J].科技广场,2009(1):235-237. 被引量：7
5程学旗,郭嘉丰,靳小龙.网络信息的检索与挖掘回顾[J].中文信息学报,2011,25(6):111-117. 被引量：18
6范波,程久军.用户间多相似度协同过滤推荐算法[J].计算机科学,2012,39(1):23-26. 被引量：69
7杨阳,向阳,熊磊.基于矩阵分解与用户近邻模型的协同过滤推荐算法[J].计算机应用,2012,32(2):395-398. 被引量：51
8王聪,王翠荣,王兴伟,蒋定德.面向云计算的数据中心网络体系结构设计[J].计算机研究与发展,2012,49(2):286-293. 被引量：92
9孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2393
10赵琴琴,鲁凯,王斌.SPCF：一种基于内存的传播式协同过滤推荐算法[J].计算机学报,2013,36(3):671-676. 被引量：49

引证文献8

1宋泊东,张立臣,江其洲.基于Spark的分布式大数据分析算法研究[J].计算机应用与软件,2019,36(1):39-44. 被引量：21
2周显春,邓雨,吴世雄,杨宇鑫,王晗.基于改进协同过滤算法的个性化美食推荐APP开发[J].软件导刊,2019,18(2):88-90. 被引量：4
3顾军华,谢志坚,武君艳,许馨匀,张素琪.基于图游走的并行协同过滤推荐算法[J].智能系统学报,2019,14(4):743-751. 被引量：4
4邹红旭,潘冠华,李吟.基于Spark框架的改进协同过滤算法[J].计算机技术与发展,2020,30(5):38-42. 被引量：1
5李光明,房靖力.Spark平台下电影推荐系统的设计[J].计算机应用与软件,2020,37(11):28-34. 被引量：3
6黄冬平,周夏冰,刘冠峰.基于Spark的并行信任进化算法[J].计算机应用与软件,2021,38(3):243-248.
7褚宏林.协同过滤推荐算法研究分析[J].福建电脑,2021,37(6):51-54. 被引量：5
8迟殿委.旅游酒店大数据分析平台的设计与实现[J].无线互联科技,2022,19(7):89-92. 被引量：2

二级引证文献40

1赵卓峰,陈元,梅宇生.面向数据湖存取性能优化的数据并行处理技术研究[J].北方工业大学学报,2024,36(3):1-10.
2黄哲学,何玉林,魏丞昊,张晓亮.大数据随机样本划分模型及相关分析计算技术[J].数据采集与处理,2019,34(3):373-385. 被引量：16
3何经纬,刘黎志,彭贝,付星堡.基于Spark并行SVM参数寻优算法的研究[J].武汉工程大学学报,2019,41(3):283-289. 被引量：7
4张婷.基于Apache Spark的移动APP用户访问路径分析[J].海南大学学报（自然科学版）,2019,37(3):209-218. 被引量：1
5侯璐璐.基于Spark架构的艺术学慕课资源协同过滤推荐算法研究[J].现代电子技术,2020,43(3):162-164. 被引量：3
6唐永军.分布式大数据管理系统的设计与实现研究[J].科技创新导报,2019,16(33):152-152. 被引量：2
7黄涛,王艳慧,关鸿亮.基于Android的“社交+自适应推荐”阅读APP设计与实现[J].软件导刊,2020,19(3):128-132. 被引量：5
8杨永毅.基于分布式架构的气象数据网设计[J].信息技术,2020,44(10):67-71. 被引量：6
9朱沙沙.一种煤矿安全监控系统数据加密算法[J].计算机应用与软件,2020,37(11):324-327. 被引量：8
10傅思维,陈桂芬,赵姗.基于大数据技术的农产品智能推荐方法研究[J].东北农业科学,2020,45(6):140-144.

1孟胜,袁健.支持用户属性特征联合聚类的协同过滤算法[J].信息技术,2016,40(3):31-35.
2王桂娟,陈德泉.网络安全风险层次分析模型[J].现代计算机,2002,8(12):38-41. 被引量：1
3陈洪涛,肖如良,林丽玉,颜杰敏,蔡声镇.一种数据递增式的混合推荐方法[J].计算机系统应用,2014,23(10):119-124. 被引量：1
4王辉,高利军,王听忠.个性化服务中基于用户聚类的协同过滤推荐[J].计算机应用,2007,27(5):1225-1227. 被引量：43
5李文政,张云飞,周思琪,李鑫.基于Peoplerank的微博用户可信度排序算法[J].微型电脑应用,2017,33(5):4-7. 被引量：1
6刘洋,唐好选.针对路面建模的Delaunay三角网格分治算法[J].智能计算机与应用,2017,7(2):87-89. 被引量：3
7王鹤淇,王伟国,郭立红,刘廷霞,姜润强,于洪君.离散萤火虫算法的复杂装备测试点优化选择[J].光学精密工程,2017,25(5):1357-1367. 被引量：9
8张子成,韩伟.求解TSP问题的自适应离散型布谷鸟算法[J].计算机工程与应用,2017,53(10):48-54. 被引量：14
9片兆宇,史天予,袁德鹏,胡玉兰,王栋.分层视觉特征感知在目标识别中的应用[J].计算机辅助设计与图形学学报,2017,29(6):1093-1102. 被引量：1

计算机应用与软件

2017年第5期

浏览历史

内容加载中请稍等...

一种基于Spark的改进协同过滤算法研究被引量：8

参考文献5

二级参考文献89

共引文献299

同被引文献58

引证文献8

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

一种基于Spark的改进协同过滤算法研究 被引量：8

参考文献5

二级参考文献89

共引文献299

同被引文献58

引证文献8

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

一种基于Spark的改进协同过滤算法研究被引量：8