基于Spark的并行KMeans聚类模型研究被引量：8

Research on Parallel Kmeans Clustering Model Based on Spark

下载PDF

导出

摘要文章基于Spark分布式计算框架设计并实现了并行KMeans聚类模型,并通过该模型在不同规模的Movie Lens数据集上进行训练比对实验,结果表明,该并行KMeans聚类模型适合运行在分布式集群环境下,且并行化计算效率也有不俗的表现;其次通过repartition算子设计分片加载数据,优化并行方案,有效减少了模型的训练时间。 Distributed computing framework based on spark is designed and implemented in parallel KMeans clustering model,and through the model in different sizes of MovieLens data set for training on the comparison experiment,the results show that the parallel KMeans clustering model is suitable for operation under the large distributed data environment,and parallel computa tion efficiency is also doing well.Secondly through the repartition operator load data,parallel scheme is optimized,the training time of the model is reduced effectively.

作者侯敬儒吴晟李英娜 HOU Jingru;WU Sheng;LI Yingna(School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500)

机构地区昆明理工大学信息工程与自动化学院

出处《计算机与数字工程》 2018年第3期537-540,555,共5页 Computer & Digital Engineering

关键词 SPARK KMeans MovieLens 并行聚类 repartition Spark,KMeans,MovieLens,parallel clustering,repartition

分类号 O141 [理学—基础数学]

引文网络
相关文献

参考文献5

1刘泽燊,潘志松.基于Spark的并行SVM算法研究[J].计算机科学,2016,43(5):238-242. 被引量：17
2孟建良,刘德超.一种基于Spark和聚类分析的辨识电力系统不良数据新方法[J].电力系统保护与控制,2016,44(3):85-91. 被引量：66
3黎文阳.大数据处理模型Apache Spark研究[J].现代计算机（中旬刊）,2015(3):55-60. 被引量：34
4萨初日拉,周国亮,时磊,王刘旺,石鑫,朱永利.Spark环境下并行立方体计算方法[J].计算机应用,2016,36(2):348-352. 被引量：5
5陈梦杰,陈勇旭,贾益斌,张一川,宋杰.基于Hadoop的大数据查询系统简述[J].计算机与数字工程,2013,41(12):1939-1942. 被引量：5

二级参考文献61

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
2孙雅明,王晨力,张智晟,刘尚伟.基于蚁群优化算法的电力系统负荷序列的聚类分析[J].中国电机工程学报,2005,25(18):40-45. 被引量：24
3王海波.云计算中数据库的关键问题研究与实现[D].吉林大学,2011.
4李奕.计算革命与数据价值[J].中国计算机报,2012(10).
5Yongqiang He, Rubao Lee, Yin Huai. RCFile: A fast and space-efficient data placement structure in MapReduce~based warehouse systems. ICDE,2011:1199-1208.
6Dhruba Borthakur. The Hac/oop Distributed File System[J]. Architecture and Design.
7宋杰,侯泓颖,李丹程.MQM:一种用于Web服务查找的多维QoS模型[J].小型微型计算机系统,2011(3):1000-1220.
8Apache HBase, a distributed, versioned, column-oriented da tabase built on top of Apache Hadoop and Apache ZooKeeper. Chapter 5. 5.
9Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Bigtable: A Dis trihuted Storage System for Structured Data[J]. ACM Trans. Comput. Syst. (TOCS),2008,26(2).
10Foley, James, Andries van Dam, Steven Feiner, John Hughes. Computer Graphics= Principle and Practice. Massa- chusetts : Addison-Wesley Publishing Company, 1987 : 870-871.

共引文献122

1马一杰,陈君,刘松.基于长短时记忆网络的电力负荷异常检测[J].云南大学学报（自然科学版）,2020,42(S02):55-59. 被引量：18
2张春辉,白翠芝,张蔓娴.基于小波的电力负荷异常检测[J].云南大学学报（自然科学版）,2020,42(S02):49-54. 被引量：11
3陈红兵.一种单元分布式变电站综合自动化系统设计方案[J].工程设计与研究（长沙）,2000(1):14-17.
4辛晃,易兴辉,陈震宇.基于Hadoop+MPP架构的电信运营商网络数据共享平台研究[J].电信科学,2014,30(4):135-145. 被引量：19
5余传明,原赛,王峰,安璐.大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源[J].图书情报工作,2019,63(4):101-111. 被引量：13
6张亮,杨春丽,马媛媛.大数据应用部署研究[J].电信网技术,2016,0(5):30-36. 被引量：2
7刘成,牛锐,范贺明,许静,朱永利.基于Spark环境变压器故障并行诊断[J].电力科学与工程,2016,32(6):32-37. 被引量：11
8吕益民,吴旻中,苏伟杰.基于Spark大数据平台在视频中搜索特征车辆的研究[J].警察技术,2016(4):80-82. 被引量：1
9冯银辉,黄曾华,李昊.互联网+综采自动化专家决策平台设计与应用[J].煤炭科学技术,2016,44(7):73-79. 被引量：11
10李根,樊龙,万定生,余宇峰.基于Map/Reduce的决策树分类挖掘方法应用研究[J].计算机与数字工程,2016,44(8):1504-1510. 被引量：4

同被引文献102

1刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3黄永平,邹力鹍.数据仓库中基于密度的批量增量聚类算法[J].计算机工程与应用,2004,40(29):206-208. 被引量：9
4高小梅,冯云,冯兴杰.增量式K-Medoids聚类算法[J].计算机工程,2005,31(B07):181-183. 被引量：9
5哈明虎,李颜,李嘉,田大增.Sugeno测度空间上学习理论的关键定理和一致收敛速度的界[J].中国科学（E辑）,2006,36(4):398-410. 被引量：26
6徐新华,谢永红.增量聚类综述及增量DBSCAN聚类算法研究[J].华北航天工业学院学报,2006,16(2):15-17. 被引量：5
7王惠文,孟洁.多元线性回归的预测建模方法[J].北京航空航天大学学报,2007,33(4):500-504. 被引量：241
8王洪春,彭宏.基于模糊C-均值的增量式聚类算法[J].微电子学与计算机,2007,24(6):156-157. 被引量：22
9胡彩平,秦小麟.一种改进的基于密度的抽样聚类算法[J].中国图象图形学报,2007,12(11):2031-2036. 被引量：4
10纪良浩.基于密度偏差抽样的聚类算法研究[J].重庆邮电大学学报（自然科学版）,2007,19(6):729-732. 被引量：2

引证文献8

1何玉林,黄哲学.大规模数据集聚类算法的研究进展[J].深圳大学学报（理工版）,2019,36(1):4-17. 被引量：10
2张振,冯永亮,赵津曼.一种基于Spark的图像聚类并行化算法[J].电子制作,2019,27(3):67-68. 被引量：3
3张国斌,张叔禹,刘永江,郭瑞君.基于大数据与人工智能技术的电力在线技术监督平台建设方案[J].热力发电,2019,48(9):94-100. 被引量：39
4侯汝冲,兰海翔,卢涵宇,胡正江,薛安琪.数据挖掘技术在NBA球队比赛应用研究[J].电脑知识与技术,2019,15(9):199-201. 被引量：1
5韩璐,苏治,李爱华.Sugeno测度下的征信用户聚类研究[J].系统工程理论与实践,2019,39(11):2750-2759. 被引量：2
6葛苏慧,万泉,白成杰.基于交替最小二乘法的Spark个性化影片推荐系统[J].南京理工大学学报,2020,44(5):583-589. 被引量：6
7黄海洋.基于NB-IoT的多道并行程序数据召测模型研究[J].现代电子技术,2021,44(3):16-20. 被引量：2
8王红霞,赵丽.基于AKD-means算法对轨迹数据的聚类研究[J].信息技术与信息化,2023(5):111-114.

二级引证文献63

1杜思阳,吴杰.基于人工智能技术的大数据分析电力设备总承包项目营销策略优化研究[J].现代制造技术与装备,2023,59(S01):135-137. 被引量：1
2朱愉洁,韩元,陈媛媛,吴宇,田文涛.内蒙古中西部地区燃煤电厂环保技术监督现状及展望[J].洁净煤技术,2021,27(S02):370-374. 被引量：1
3高峰.浅谈促进人工智能运用于电气工程自动化的方法[J].信息系统工程,2019,32(12):23-24. 被引量：4
4刘强,张淼.基于大数据技术的企业综合数据分析平台[J].通信技术,2020,53(1):127-130. 被引量：5
5朱家麒,徐亚军.基于Spark框架的政府公文聚类方法研究[J].电脑知识与技术,2020,16(1):210-212. 被引量：1
6赵玉明,舒红平,魏培阳,刘魁.基于Spark的聚类算法优化与实现[J].现代电子技术,2020,43(8):52-55. 被引量：1
7聂春雷,肖忠良.基于大数据与人工智能技术的电力在线监督平台设计[J].通信电源技术,2020,37(6):123-124. 被引量：5
8张海华,李楠楠.基于大数据K-means聚类算法的在线学习行为路径的研究[J].电子设计工程,2020,28(12):17-20. 被引量：13
9杨锴,周岩.外引内联型科研团队创新能力纵向匹配研究[J].科技进步与对策,2020,37(11):145-152. 被引量：1
10纪宏德,朱伟.浅谈人工智能技术在电力监控系统中的应用[J].江西电力职业技术学院学报,2020,33(2):12-13. 被引量：2

1吴兴蛟,吴晟,周海河,刘光榕.基于流形学习的客户价值分析研究[J].软件导刊,2018,17(2):136-139.
2邓丽,余玥,庞洪霖,费敏锐.一种基于并行聚类的温室天窗开度预测方法[J].系统仿真学报,2017,29(10):2459-2467.
3李俪颜,何耀民,张辉.基于K-means聚类算法的信号源识别分类研究[J].课程教育研究（学法教法研究）,2017,0(22):24-25.
4赵倩,张燕平.基于MFC和Access的航电加载数据管理软件设计与实现[J].电子技术与软件工程,2017(18):61-63. 被引量：1
5秦立峰,张延苏.混合颜色特征下番茄叶霉病病斑双层K-means聚类分割方法[J].安徽农业科学,2018,46(3):169-170. 被引量：2
6徐占洋,郑克长.云计算下基于改进遗传算法的聚类融合算法[J].计算机应用,2018,38(2):458-463. 被引量：9
7黄颖,郭明强,谢忠,吴亮.集群环境下网络空间信息服务高性能内存缓存方法[J].测绘工程,2018,27(1):47-51.
8王月娇,刘三阳.生物地理学优化算法中基于Zoutendijk可行方向法的变异算子设计[J].浙江大学学报（理学版）,2018,45(1):23-28.
9曾行吉,李莹,宋瑶.地面气象观测数据入库多线程并行设计与实现[J].气象研究与应用,2017,38(3):114-116. 被引量：7
10杨兆程.图染色算法的并行化[J].电脑编程技巧与维护,2018(3):121-123. 被引量：1

计算机与数字工程

2018年第3期

浏览历史

内容加载中请稍等...

基于Spark的并行KMeans聚类模型研究被引量：8

参考文献5

二级参考文献61

共引文献122

同被引文献102

引证文献8

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于Spark的并行KMeans聚类模型研究 被引量：8

参考文献5

二级参考文献61

共引文献122

同被引文献102

引证文献8

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于Spark的并行KMeans聚类模型研究被引量：8