基于Spark平台的K-means算法的设计与优化被引量：5

Design and Optimization of K-means Algorithm Based on Spark Platform

下载PDF

导出

摘要聚类中心需要手动设置是K-means算法最大的问题,而通常情况是并不能确定现实中数据的分类情况。为了解决这一问题,提出了一种新的OCC K-means算法。不同于传统算法以随机选择的方式产生聚类中心,该算法进行必要的预处理,利用UPGMA和最大最小距离算法对数据点进行筛选,得到可以反映数据分布特征的点,并作为初始的聚类中心,以提高聚类的精度。从两次的实验结果可以对比出,在不同的数据集上,改进算法在衡量聚类效果的准确率、召回率、F-测量值上的表现要优于传统K-means算法。这是因为OCC算法选择的中心点来自于不同的且数据密集的区域,并在筛选的过程中排除了噪声数据、边缘数据对实验的干扰;同时为了契合大数据发展潮流,使用Scala语言在Spark平台进行了并行化实现,提高了算法处理海量数据的能力,并通过实验指标验证了算法具有良好的并行化能力。 The clustering center needs to be set manually is the biggest problem of K-means algorithm,and it is usually impossible to determine the classification of data in reality.In order to solve the problem,we propose a new OCC K-means algorithm.Different from the traditional algorithm,which generates the clustering center in the way of random selection,this algorithm carries out necessary preprocessing ,and uses UPGMA and maximum and minimum distance algorithm to screen data points for the ones that can reflect data distribution characteristics as the initial clustering center,so as to improve the accuracy of clustering.From the two experimental results,it can be found that in different data sets,the improved algorithm is better in the measurement of clustering accuracy,recall,F -measurement than the traditional K-means algorithm.This is because the center point selected by OCC algorithm comes from different and data-intensive areas ,and noise data and edge data interference to the experiment are excluded in the process of screening.At the same time,in order to conform to the trend of big data development,the parallelization implementation is carried out on Spark platform with Scala language, which improves the ability of the algorithm to deal with massive data, and the better parallelization of the algorithm is verified by experimental indexes.

作者王义武杨余旺于天鹏沈兴鑫李猛坤 WANG Yi-wu;YANG Yu-wang;YU Tian-peng;SHEN Xing-xin;LIMeng-kun(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210000,China;304 Weapon Factory,Changzhi 046000,China;School of Economics and Management,Tsinghua University,Beijing 100000,China)

机构地区南京理工大学计算机科学与工程学院 [ 清华大学经管学院

出处《计算机技术与发展》 2019年第3期72-76,共5页 Computer Technology and Development

基金国家自然科学基金(61640020) 江苏省农业自主创新项目(CX(13)3054 CX(16)1006) 江苏省重点研发计划(BE2016368-1) 江苏省科技重点及面上项目(SBE2018310371) 弹总装线***技术研究(JCKY2017***) Postgraduate Research&Practice Innovation Program of Jiangsu Province(SJCX17_0107) 北京市教育委员会科技计划面上项目(KM201510028019)

关键词聚类聚类中心 K-MEANS 最大最小距离算法非加权组平均法 clustering clustering center K-means maximum and minimum distance algorithm unweighted pair group method with arithmetic mean

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1张忠林,曹志宇,李元韬.基于加权欧式距离的k_means算法研究[J].郑州大学学报（工学版）,2010,31(1):89-92. 被引量：35
2贾瑞玉,管玉勇,李亚龙.基于MapReduce模型的并行遗传k-means聚类算法[J].计算机工程与设计,2014,35(2):657-660. 被引量：22
3冯晓云,陆建峰.基于Hive的分布式K_means算法设计与研究[J].计算机光盘软件与应用,2013,16(21):62-64. 被引量：2
4刘宝龙,苏金.双MapReduce改进的Canopy-Kmeans算法[J].西安工业大学学报,2016,36(9):730-737. 被引量：6
5成卫青,卢艳红.一种基于最大最小距离和SSE的自适应聚类算法[J].南京邮电大学学报（自然科学版）,2015,35(2):102-107. 被引量：46
6季赛,谭畅.基于UPGMA聚类无线传感网络的簇头选择方法[J].武汉理工大学学报,2010,32(16):139-142. 被引量：1
7翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：108
8于彦伟,王沁,邝俊,何杰.一种基于密度的空间数据流在线聚类算法[J].自动化学报,2012,38(6):1051-1059. 被引量：28

二级参考文献92

1周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：32
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3陈卓,孟庆春,魏振钢,任丽婕,窦金凤.一种基于网格和密度凝聚点的快速聚类算法[J].哈尔滨工业大学学报,2005,37(12):1654-1657. 被引量：14
4刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
5朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：51
6陆林花,王波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172. 被引量：26
7PANG N T,MICHAEL S,VIPIN K.数据挖掘导论(英文版)[M].北京:人民邮电出版社,2006.
8马卫武李念平杨志昂.室内空气品质综合评价权重系数的确定与分析.通风除尘,2004,(11):9-11.
9彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
10Akyildiz I F, Su W, Sankarasubramaniarn Y, etal. A Survey on Sensor Networks[J ]. IEEE Communications Magazine,2002, 40(8) : 102-114.

共引文献237

1陈西江,安庆,班亚,王德欣,李坤,刘海鹏.融合高斯核及指数函数聚类的点云目标物提取[J].应用科学学报,2022,40(3):411-422.
2赵小瑶,王正勇,滕奇志,任超,杨毅,刘浩.颈椎间盘CT图像三维相似度量化研究[J].新一代信息技术,2023,6(19):21-27.
3冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：13
4段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
5马振,刘凤连,汪日伟.基于子模式下LBP-HOG特征融合的单样本人脸识别方法[J].光电子．激光,2019,30(12):1309-1316. 被引量：8
6李翠,冯冬青.基于改进K-均值聚类的图像分割算法研究[J].郑州大学学报（理学版）,2011,43(1):109-113. 被引量：25
7杨秋,王建涛,张荣,杨承志.一种基于自适应密度阈值的未知雷达信号分选算法[J].电子信息对抗技术,2012,27(1):16-18. 被引量：4
8于彦伟,王沁,王小东,王欢,何杰.面向实时查询处理的轨迹流挖掘框架[J].仪器仪表学报,2012,33(12):2803-2811. 被引量：1
9吴华稳,王富章,陈志荣.铁路信息系统指标权重评价研究[J].铁道运输与经济,2013,35(2):46-51. 被引量：4
10赵艳玲,王亚云,何厅厅,李建华,付馨,曾纪勇,李源.基于组合权区间欧式距离模型的重金属污染评价[J].金属矿山,2013,42(3):132-136. 被引量：5

同被引文献94

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：13
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1076
3骆永明.中国污染场地修复的研究进展、问题与展望[J].环境监测管理与技术,2011,23(3):1-6. 被引量：201
4何永秀,王冰,熊威,张婷,刘洋洋.基于模糊综合评价的居民智能用电行为分析与互动机制设计[J].电网技术,2012,36(10):247-252. 被引量：72
5何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：328
6李枫林,柯佳.基于深度学习的文本表示方法[J].情报科学,2019,37(1):156-164. 被引量：19
7姜林,钟茂生,张丽娜,张俊丽,贾晓洋,韩丹,张丹,夏天翔,姚珏君.基于风险的中国污染场地管理体系研究[J].环境污染与防治,2014,36(8):1-10. 被引量：46
8赵莉,候兴哲,胡君,傅宏,孙洪亮.基于改进k-means算法的海量智能用电数据分析[J].电网技术,2014,38(10):2715-2720. 被引量：126
9康佳文,杨培林.内蒙古自治区环境信息化总体规划的战略构想研究[J].环境科学与管理,2015,40(6):178-181. 被引量：5
10David J.Lary,Amir H.Alavi,Amir H.Gandomi,Annette L.Walker.Machine learning in geosciences and remote sensing[J].Geoscience Frontiers,2016,7(1):3-10. 被引量：39

引证文献5

1王鸿玺,李飞,林志文,罗义钊,梁海涛,胡建新.基于IK-means的用电行为研究[J].国外电子测量技术,2020,39(1):54-58. 被引量：5
2陆晓松,王国庆,李勖之,杜俊洋,孙丽.场地环境大数据采集和机器学习方法在污染智能识别中的应用研究进展[J].生态与农村环境学报,2022,38(9):1101-1111. 被引量：11
3宋辉,苑龙祥.基于K⁃means算法的10 kV变压器负载状态检测方法[J].电气传动,2023,53(5):84-88.
4莫理,柳本林,张树保,罗勇,刘代国.基于分布式K-means算法的水电厂光纤测温系统可扩展性优化[J].电子设计工程,2023,31(16):107-111. 被引量：1
5李召鑫,孟祥印,肖世德,胡锴沣,赖焕杰.基于Flink框架的K-means算法优化及并行计算策略[J].计算机与数字工程,2023,51(10):2231-2235. 被引量：1

二级引证文献18

1胡聪,徐敏,洪德华,刘翠玲,薛晓茹,王海鑫.基于改进K-medoids聚类和SVM的异常用电模式在线检测方法[J].国外电子测量技术,2022,41(2):53-59. 被引量：8
2赵璟博,朱欣娟.基于行为数据采集加权的用户兴趣预测[J].国外电子测量技术,2021,40(3):123-129. 被引量：1
3舒珏淋,张力,胡建.基于高斯混合模型的智能电表误差数据挖掘与分析方法[J].电子测量技术,2021,44(15):56-61. 被引量：8
4张悦,宋运忠.一种基于类内类间协同的用电数据聚类选择[J].武汉大学学报（工学版）,2022,55(5):493-502. 被引量：1
5毛阳,万烂军,朱德山.客户用电行为分析助手的设计与实现[J].福建电脑,2023,39(3):82-85.
6丁杨军,钱钢.基于大数据的医保审计优化路径研究[J].卫生经济研究,2023,40(5):47-50. 被引量：2
7孙同,何梦溪,何理,金涛.基于“大智物云”的土壤与地下水修复智慧平台设计研究[J].环境工程技术学报,2023,13(5):1711-1716.
8许洋,陈健松,王志栋,姜芳茗,张清宇,唐阔,蒋洪强,邓劲松.基于多源异构数据的典型场地土壤重金属污染模拟预测研究[J].环境科学学报,2023,43(9):357-368. 被引量：5
9马吉伟,王靖宇,谢勇,李田,姚志平.基于强化深度学习的城市环境空气污染监测与预警方法研究[J].环境科学与管理,2023,48(10):116-120.
10韩镇阳,张磊,任冬.基于Kalman算法的大数据存储架构可扩展性优化算法[J].网络安全与数据治理,2023,42(11):25-28. 被引量：1

1郭根材.基于铁路出行数据的旅客常住地智能识别算法研究[J].铁路计算机应用,2018,27(11):40-42.
2陈国军,张清伟,李开悦,曹岳.基于RGB-D树状结构物体三维重建[J].计算机技术与发展,2018,28(12):142-146.
3李蓓筠.基于Map Reduce移动轨迹大数据的短时交通流预测研究[J].商业故事,2017(10):45-45.
4郭慧,刘忠宝.融合数据分布特征的多视图典型相关分析[J].广西大学学报（自然科学版）,2018,43(6):2252-2257.
5段建民,李帅印,王昶人,冉旭辉.基于激光雷达的道路边界与障碍物检测研究[J].应用激光,2018,38(6):1000-1007. 被引量：14
6花晨芝,赵凌,宋建军,袁丽娟.粒子群算法选择特征波长在紫外光谱检测COD中的研究[J].西华师范大学学报（自然科学版）,2019,40(1):81-85. 被引量：5
7王雷(译).Photo Answers专家指导[J].摄影之友（影像视觉）,2019,0(1):84-89.
8朱晓云.边缘数据中心:边缘计算风口下数据中心的未来[J].信息通信技术与政策,2019,0(2):14-17. 被引量：12
9郎骏健,梁星辉,柳林涛,王国成.航空重力傅里叶基追踪低通滤波方法研究[J].地球物理学报,2018,61(12):4737-4745. 被引量：9
10申晋祥,鲍美英.基于Hadoop平台的优化协同过滤推荐算法研究[J].软件,2018,39(12):1-5. 被引量：5

计算机技术与发展

2019年第3期

浏览历史

内容加载中请稍等...

基于Spark平台的K-means算法的设计与优化被引量：5

参考文献8

二级参考文献92

共引文献237

同被引文献94

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于Spark平台的K-means算法的设计与优化 被引量：5

参考文献8

二级参考文献92

共引文献237

同被引文献94

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于Spark平台的K-means算法的设计与优化被引量：5