基于Spark的K-means快速聚类算法的优化被引量：15

Optimization of K-Means Fast Clustering Algorithm Based on Spark

下载PDF

导出

摘要针对聚类算法处理海量数据所存在的不足,提出基于Spark的K-means快速聚类算法的优化。使用形态学相似距离代替欧氏距离作为相似度测量标准来提高聚类准确率;通过最大距离(Max-distince)准则改进因初始聚类中心选取不当而造成的局部最优问题;为减少迭代过程中的冗余计算,利用数据集中点的位置信息与聚类质心的位置关系建立网格结构。综合肘部法则绘制误差平方和SSE-K的关系图确定K值,并在Spark实现SMGK-means(SparkMaxGridK-means)聚类算法。通过实验表明,SMGK-means算法不仅准确率平均提高了6.73%,而且在Spark分布式集群下表现出优秀的执行效率和并行计算能力。 Aiming at the shortcomings of clustering algorithm in processing massive data,an optimization of K-means fast clustering algorithm based on Spark is proposed.Morphological similarity distance instead of Euclidean distance was used as similarity measurement standard to improve clustering accuracy;The maximum distance criterion was used to improve the local optimization problem caused by the improper selection of initial clustering centers;In order to reduce the redundant calculation in the iterative process,the grid structure was established by using the position information of points in the data set and the position relationship of clustering centroid.The elbow rule was synthesized to draw a relation graph of the error square and SSE-K to determine the K value,and the SMGK-means(SparkMaxGridK-means)clustering algorithm was implemented in Spark.Experiments show that the SMGK-means algorithm not only improves the accuracy by 6.73%on average,but also shows excellent execution efficiency and parallel computing capabilities under the Spark distributed cluster.

作者王全民胡德程 WANG Quan-min;HU De-cheng(Department of Information,Beijing University of Technology,Beijing 100022,China)

机构地区北京工业大学信息学部

出处《计算机仿真》北大核心 2022年第3期344-349,共6页 Computer Simulation

基金北京市自然科学基金(4202004)。

关键词形态学相似距离最大距离位置关系 Morphological similarity distance Max-distance Positional relationship

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1行艳妮,钱育蓉,南方哲,赵京霞.Spark环境下K-means初始中心点优化研究综述[J].计算机应用研究,2020,37(3):641-647. 被引量：9
2许明杰,蔚承建,沈航.基于Spark的并行K-means算法研究[J].微电子学与计算机,2018,35(5):95-99. 被引量：13
3胡湘萍.基于近邻图的k-means初始中心选择调优算法[J].计算机应用与软件,2014,31(4):178-181. 被引量：3
4郭占元,林涛.面向大规模数据快速聚类K-means算法的研究[J].计算机应用与软件,2017,34(5):43-47. 被引量：17
5吴广建,章剑林,袁丁.基于K-means的手肘法自动获取K值方法研究[J].软件,2019,40(5):167-170. 被引量：66
6陈光平,王文鹏,黄俊.一种改进初始聚类中心选择的K-means算法[J].小型微型计算机系统,2012,33(6):1320-1323. 被引量：40
7叶颖诗,魏福义,蔡贤资.基于并行计算的快速Dijkstra算法研究[J].计算机工程与应用,2020,56(6):58-65. 被引量：22

二级参考文献75

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
3贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：226
4袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：153
5李洋.K-means聚类算法在入侵检测中的应用[J].计算机工程,2007,33(14):154-156. 被引量：23
6Hartigan J A. Clustering Algorithms [ M ]. Wiley, New York, 1975.
7Jain A K. Data clustering: 50 years beyond K-means [J]. Pattern Rec- ognition Letters,2010, 31 (8) : 651 -666.
8Jain A K,Murty M N,Flynn P J. Data Clustering: A Review [J]. ACM Computing Surveys, 1999,31 ( 3 ) : 264 - 323.
9Segundo M P, Silva L, Bellon O R P, et al. Automatic Face Segmenta- tion and Facial Landmark Detection in Range Images [ J]. IEEE Trans- actions on Systems, Man ,and Cybernetics, Part B : Cybernetics, 2010, 40:1319 - 1330.
10Yu S, Tranchevent L C, Liu X, et al. Optimized Data Fusion for Kernel k-Means Clustering [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(5 ) :1031 - 1039.

共引文献162

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2赵源,王越,胡华.基于POI-K-means地铁车站聚类方法研究[J].智能计算机与应用,2022,12(5):114-118. 被引量：5
3王鸿玺,李飞,林志文,罗义钊,梁海涛,胡建新.基于IK-means的用电行为研究[J].国外电子测量技术,2020,39(1):54-58. 被引量：5
4张靖,段富.优化初始聚类中心的改进k-means算法[J].计算机工程与设计,2013,34(5):1691-1694. 被引量：56
5曾旭,郑健.基于各维度分段优化的聚类中心优化选择方法[J].科技通报,2013,29(10):214-216.
6赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
7郝晓丽,张靖.基于改进自适应聚类算法的RBF神经网络分类器设计与实现[J].计算机科学,2014,41(6):260-263. 被引量：21
8张雪英,王真真,刘晓峰.一种改进的LSSVM支持向量预选取算法[J].太原理工大学学报,2014,45(5):609-613.
9姚丽君,赵磊.基于改进的K-means聚类算法在图像分割中的研究[J].计算机光盘软件与应用,2014,17(20):201-201. 被引量：1
10李小培,张洪伟,邹书蓉.一种改进的人工鱼群聚类算法[J].成都信息工程学院学报,2014,29(5):485-490. 被引量：1

同被引文献160

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：13
2李国庆,刘钊,金国彬,权然.基于随机分布式嵌入框架及BP神经网络的超短期电力负荷预测[J].电网技术,2020,44(2):437-445. 被引量：65
3段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
4宿硕,肖荣娜,赵南希.基于大数据的公路货运安全指数构建研究[J].公路交通科技,2020,37(S01):54-57. 被引量：2
5裴爱晖,刘航,胡安.道路货运行业安全量化评估体系研究[J].公路交通科技,2020,37(S01):25-28. 被引量：3
6马艳丽,裴玉龙.连续驾驶时间对驾驶特性测评指标的影响[J].中国公路学报,2009,22(1):84-88. 被引量：22
7蒋庆丰,李梓,程晓旭.K-Means聚类算法研究及图形演示的实现[J].信息技术,2010,34(3):23-25. 被引量：8
8林卫星,文劲宇,艾小猛,程时杰,李伟仁.风电功率波动特性的概率分布研究[J].中国电机工程学报,2012,32(1):38-46. 被引量：179
9冯辅周,饶国强,司爱威,吴广平.排列熵算法研究及其在振动信号突变检测中的应用[J].振动工程学报,2012,25(2):221-224. 被引量：49
10王振亚,曾黄麟.一种基于帧间差分和光流技术结合的运动车辆检测和跟踪新算法[J].计算机应用与软件,2012,29(5):117-120. 被引量：35

引证文献15

1于志良.基于Flink的鲸鱼优化K-Means算法[J].互联网周刊,2023(4):83-85. 被引量：3
2舒兆翰,李小龙,黎宇茵.融合聚类法的改进三帧差分车辆检测算法[J].江西科学,2023,41(1):159-166. 被引量：1
3黄凌子.基于Spark的旅游舆情热点发现方法研究[J].信息系统工程,2023(1):14-17.
4申佳灵,易婷,聂勤,李军成.几种电力数据异常检测算法的对比分析[J].智能城市,2023,9(2):1-4. 被引量：1
5李娟,张冰心,曹文琪,李嘉琪.基于空间数据挖掘的营销决策支持研究[J].内蒙古科技与经济,2023(8):70-73.
6林培群,龚敏平,周楚昊.面向运输风险识别的高速公路货车用户画像方法[J].华南理工大学学报（自然科学版）,2023,51(6):1-9. 被引量：3
7周翔宇,吉哲,王凤武.基于EEMD-PE-LSTM的短时船舶交通流量预测与航道交通状态可视化[J].大连海事大学学报,2023,49(2):58-68. 被引量：1
8潘庆愉,王超,王大鹏,朱义君.基于SPAD阵列探测的空中运动目标识别方法[J].光学学报,2023,43(12):127-135. 被引量：1
9黄俊萍.基于改进K-means数据聚类算法的网络入侵检测[J].成都工业学院学报,2024,27(2):58-62. 被引量：1
10李洪赭,江海涛,高艳苹,徐斯润.基于贝叶斯层级模型的用户异常行为检测研究[J].通信技术,2024,57(6):593-597. 被引量：1

二级引证文献12

1徐丽丽,王宇飞.用户画像在智慧高速公路中的应用[J].中国交通信息化,2024(S01):89-91.
2车玲,黄勇华,姜林林,车恩羽.基于随机森林算法的智能电表故障诊断及寿命预测模型设计[J].南通职业大学学报,2023,37(4):86-90.
3牛家冰,陈志雨.基于Flink的个人信用评估集成方法[J].长春工业大学学报,2023,44(6):569-576.
4陈明阳,郑积仕.视频媒体网络中基于轨迹优化的监控图像聚类算法[J].盐城工学院学报（自然科学版）,2023,36(4):17-23.
5朱镇远,金真,吴齐阳.信息生态视域下交通信用信息平台构建分析——以河南省高速“绿通”车辆为例[J].征信,2024,42(3):18-25.
6周维,曹扬,谢红韬,胡建.基于有状态实时流的流批一体数据处理平台的设计与研究[J].现代信息科技,2024,8(6):29-34.
7成诚,李兴华,周巍,胡潇柔,王兆建,王洧.公路交通数据要素价值释放:机理路径、重点方向与发展建议[J].交通运输研究,2024,10(2):33-42.
8陈前宇,许唐,刘志强,马治强,袁丰,徐跃.一种集成近红外SPAD阵列的激光雷达测距系统[J].光学学报,2024,44(12):299-308. 被引量：1
9于智晨,杨光.基于RBF神经网络模型的田径运动员焦虑、压力来源分析[J].吉林体育学院学报,2024,40(4):98-108.
10王志宽,张成全.船舶流量智能交通检测系统设计[J].舰船科学技术,2024,46(17):158-161.

1李政,周春辉,陈刚,刘宗杨,赵俊男.基于浮标漂移遥测的沉石移位估计方法研究[J].武汉理工大学学报（交通科学与工程版）,2022,46(2):340-344.
2盛晓艳,王伟杰.K-means++聚类算法在更改图像背景色中的应用[J].科学大众（科技创新）,2021(11):197-198.
3栾明慧,李松松,李晨,王宇恒,郭忠宇.基于改进YOLOv4算法的铝材表面缺陷识别方法研究[J].现代信息科技,2021,5(23):96-99.
4刘佳,刘孝保,阴艳超,孙海彬.面向不均衡样本空间的工件表面缺陷检测方法[J].机械科学与技术,2022,41(5):755-763. 被引量：2
5叶瑾玫,程科.基于密度峰值优化K-means聚类算法的微博舆情分析[J].计算机与数字工程,2022,50(4):726-729. 被引量：1
6说明[J].时间频率公报,2022(2):1-1.
7乔卫东,张恒,王嘉明,李奕.基于阈值增量的标准动态眩光源设计方法[J].计量学报,2022,43(3):338-345. 被引量：4
8刘俊勇,徐琛,海家鸣,杨珏,宋珂,张淦,李妍.城市负荷空间分布的聚类感知方法[J].湖北大学学报（自然科学版）,2022,44(3):252-257.
9李志杰,王力,张习恒.改进樽海鞘群优化K-means算法的图像分割[J].包装工程,2022,43(9):207-216. 被引量：5
10孙胜博,聂东,陈曦,田园.基于聚类算法的低压电网分段线损智能识别方法[J].电网与清洁能源,2022,38(4):104-109. 被引量：12

计算机仿真

2022年第3期

浏览历史

内容加载中请稍等...

基于Spark的K-means快速聚类算法的优化被引量：15

参考文献7

二级参考文献75

共引文献162

同被引文献160

引证文献15

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Spark的K-means快速聚类算法的优化 被引量：15

参考文献7

二级参考文献75

共引文献162

同被引文献160

引证文献15

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Spark的K-means快速聚类算法的优化被引量：15