最小方差优化初始聚类中心的K-means算法被引量：86

K-means Algorithm Based on Minimum Deviation Initialized Clustering Centers

下载PDF

导出

摘要传统K-means算法随机选取初始聚类中心,容易导致聚类结果不稳定,而优化初始聚类中心的K-means算法需要一定的参数选择,也会使聚类结果缺乏客观性。为此,根据样本空间分布紧密度信息,提出利用最小方差优化初始聚类中心的K-means算法。该算法运用样本空间分布信息,通过计算样本空间分布的方差得到样本紧密度信息,选择方差最小(即紧密度最高)且相距一定距离的样本作为初始聚类中心,实现优化的K-means聚类。在UCI机器学习数据库数据集和含有噪音的人工模拟数据集上的实验结果表明,该算法不仅能得到较好的聚类结果,且聚类结果稳定,对噪音具有较强的免疫性能。 To overcome the deficiencies of traditional K-means algorithm whose clustering is dependent on the seeds chosen randomly and of the improved K-means algorithms whose clustering are unstable for the parameters selected arbitrarily,a novel K-means clustering algorithm is proposed in this paper.This new K-means algorithm adopts the pattern information of exemplars in a dataset,and computes the deviation for each sample.It uses the well known principle that the deviation of a sample addresses the intensive of exemplars around it.The less the deviation is,the more exemplars are intensively gathered around the related sample.The proposed K-means algorithm chooses the first K samples with the minimum deviation and far away from each other as the initial cluster centers to improve the performance of it.The proposed K-means algorithm is tested on UCI data sets and on synthetic datasets with some proportional noises.The experimental results demonstrate that the proposed novel K-means algorithm not only can achieve a very promising and stable clustering,but also get the immune property with noises in its clustering.

作者谢娟英王艳娥

机构地区陕西师范大学计算机科学学院

出处《计算机工程》 CAS CSCD 2014年第8期205-211,223,共8页 Computer Engineering

基金国家自然科学基金资助项目(31372250) 陕西省科技攻关计划基金资助项目(2013K12-03-24) 中央高校基本科研业务费专项基金资助项目(GK201102007)

关键词聚类 K-MEANS算法方差紧密度初始聚类中心 clustering K-means algorithm deviation intensive degree initialized clustering centers

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献25

1Han Jiawei,Kamber M.Data Mining:Concepts and Techniques[M].2nd ed.Beijing,China:China Machine Press,2011.
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1074
3Pena J M,Lozano J A,Larranaga P.An Empirical Comparison of Four Initialization Methods for the K Means Algorithm[J].Pattern Recognition Letters,1999,20(10):1027-1040.
4Vance F.Clustering and the Continuous K-Means Algorithm[J].Los Alamos Science,1994,22:138-134.
5Jain A K,Murty M N,Flynn P J.Data Clustering:A Review[J].ACM Computing Survey,1999,31 (3):264-323.
6Kaufman L,Rousseeuw P J.Finding Groups in Data:An Introduction to Cluster Analysis[M].New York,USA:John Wiley & Sons,Inc.,1990.
7Dhillon I S,Guan Yuqiang,Kogan J.Refining Clusters in High Dimensional Text Data[C]//Proceedings of the 2nd SIAM Workshop on Clustering High Dimensional Data.Arlington,USA:[s.n.],2002:59-66.
8Khan S S,Ahmad A.Cluster Center Initialization for Kmeans Clustering[J].Pattern Recognition Letters,2004,25(11):1293-1302.
9Deelers S,Auwatanamongkol S.Enhancing K-means Algorithm with Initial Cluster Centers Derived from Data Partitioning Along the Data Axis with the Highest Variance[J].Proceedings of World Academy of Science,Engineering and Technology,2007,26:323-328.
10钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32

二级参考文献119

1荆丰伟,刘冀伟,王淑盛.改进的K-均值算法在岩相识别中的应用[J].微计算机信息,2004,20(7):41-42. 被引量：5
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
3李洁,高新波,焦李成.一种基于修正划分模糊度的聚类有效性函数[J].系统工程与电子技术,2005,27(4):723-726. 被引量：8
4张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
5朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：51
6李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
7李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
8普运伟,金炜东,朱明,胡来招.核模糊C均值算法的聚类有效性研究[J].计算机科学,2007,34(2):207-210. 被引量：28
9钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
10刘青宝,戴超凡,邓苏,张维明.基于网格的数据流聚类算法[J].计算机科学,2007,34(3):159-161. 被引量：10

共引文献1688

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2赵春丽,王延博,万润之,孙丽平.基于R语言探析中医药治疗哮喘发作期的用药规律[J].世界科学技术-中医药现代化,2023,25(3):1011-1019. 被引量：4
3王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
4林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
5高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
8李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
9尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
10段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1

同被引文献556

1方月彤,黄惠晟,陈麒骏,徐欣.基于多层感知机的情绪分类系统[J].产业与科技论坛,2021,20(2):35-37. 被引量：2
2高凤荣,邢春晓,杜小勇,王珊.基于矩阵聚类的协作过滤算法[J].华中科技大学学报（自然科学版）,2005,33(z1):257-260. 被引量：3
3孙洁,李辉.企业财务困境的多分类器混合组合预测[J].系统工程理论与实践,2009,29(2):78-86. 被引量：12
4王悦东,薛河儒.在不同彩色空间的分割效果的比较研究[J].内蒙古农业大学学报（自然科学版）,2008,29(3):155-157. 被引量：2
5吴世农,黄世忠.企业破产的分析指标和预测模型[J].中国经济问题,1987(6):8-15. 被引量：123
6Hua-Ping Zhang,Rui-Qi Zhang,Yan-Ping Zhao,Bao-Jun Ma.Big Data Modeling and Analysis of Microblog Ecosystem[J].International Journal of Automation and computing,2014,11(2):119-127. 被引量：6
7韦素云,肖静静,业宁.基于联合聚类平滑的协同过滤算法[J].计算机研究与发展,2013,50(S2):163-169. 被引量：12
8张明明,芦琳.电能计量中的异常数据研究[J].电气应用,2013,0(S1):42-46. 被引量：2
9胡建军,唐常杰,李川,彭京,元昌安,陈安龙,蒋永光.基于最近邻优先的高效聚类算法[J].四川大学学报（工程科学版）,2004,36(6):93-99. 被引量：24
10蔡美峰,王鹏,赵奎,张登科.基于遗传算法的岩体结构面的模糊C均值聚类方法[J].岩石力学与工程学报,2005,24(3):371-376. 被引量：38

引证文献86

1张晓倩,曲福恒,杨勇,才华,梁鲜.一种高效的基于初始聚类中心优化的K-means算法[J].长春理工大学学报（自然科学版）,2015,38(4):154-158. 被引量：6
2张小川,严杰,朱常鹏.聚类算法在市政绩效评估中的应用[J].软件导刊,2015,14(11):48-51. 被引量：2
3罗亚松,许江湖,胡洪宁,贺静波,陈占伟.正交频分复用传输速率最大化自适应水声通信算法研究[J].电子与信息学报,2015,37(12):2872-2876. 被引量：6
4蔡宇浩,梁永全,樊建聪,李璇,刘文华.加权局部方差优化初始簇中心的K-means算法[J].计算机科学与探索,2016,10(5):732-741. 被引量：11
5傅城州,汤庸,贺超波,王津凌,袁成哲.基于标签相似度计算的学术圈构建方法[J].计算机科学,2016,43(9):52-56. 被引量：5
6朱纯,吴建华,潘毅.关于优化K-medoids聚类算法搜索策略研究[J].计算机仿真,2016,33(10):244-248. 被引量：4
7张明微,吴海涛.一种优化初始聚类中心的k-means算法[J].上海师范大学学报（自然科学版）,2016,45(5):599-603. 被引量：2
8吕琳,尉永清,任敏,潘晓.基于蚁群优化算法的凝聚型层次聚类[J].计算机应用研究,2017,34(1):114-117. 被引量：16
9刘萍,龚雪飞,简家文,张帆,陈志芸.k-means-RBF集成神经网络在工业尾气检测中的应用[J].宁波大学学报（理工版）,2017,30(1):116-120. 被引量：1
10陈蕾,赵霞,贾嫣,魏霖静.关于人的语音声调准确识别仿真[J].计算机仿真,2017,34(3):161-164. 被引量：2

二级引证文献515

1卢功靖,卢林艳,李媛媛,王成军.基于议题类型的临近预测:使用社交媒体预测新冠肺炎疫情确诊人数[J].中国网络传播研究,2021(4):93-117. 被引量：1
2禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
3万光艺,孔杰俊,张璐.基于CT影像数据和改进降噪自编码器的肺结节生长预测模型[J].生命科学仪器,2023,21(1):56-62.
4张明宇,齐瑞锋,王强,刘峰.喷杆机械臂障碍物检测系统设计与性能测试[J].中国农业信息,2021,33(2):49-56. 被引量：2
5黄鹤,李潇磊,王珺,王会峰,茹锋.基于随机跳跃蝠鲼算法优化的电影信息数据聚类[J].南京大学学报（自然科学版）,2022,58(5):856-867.
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7刘辉.遥感手段全要素地表分类在国情普查中的应用[J].江西测绘,2021(3):44-47.
8罗其俊,曹志芬,牛国臣.基于加强模糊聚类的航空行李图像超像素分割[J].航空学报,2020,41(S02):205-212. 被引量：1
9肖韵菲,黄捷,孙冠宇,高希龙,陈建国,文婷婷,文剑.基于无监督机器学习的核电厂支吊架智能布置研究[J].电子技术（上海）,2021,50(1):58-61. 被引量：2
10廖国庆,吴文海,曾鑫鹏.YOLOv4与ORB深度融合的绝缘子识别定位研究[J].电子测量与仪器学报,2022,36(2):131-138. 被引量：6

1余弘道.基于密度差距离的聚类中心快速定位方法[J].福建电脑,2016,32(3):106-107.
2张晓倩,曲福恒,杨勇,才华,梁鲜.一种高效的基于初始聚类中心优化的K-means算法[J].长春理工大学学报（自然科学版）,2015,38(4):154-158. 被引量：6
3周爱武,崔丹丹,肖云.一种改进的K-means聚类算法[J].微型机与应用,2011,30(21):17-19. 被引量：5
4邱存勇,肖建,韩璐.增强型区间二型FCM算法[J].控制与决策,2014,29(3):465-469. 被引量：4
5汪丽娜,陈晓宏.基于AFS优化初始聚类中心的GK聚类模型[J].华南理工大学学报（自然科学版）,2014,42(9):65-69.
6印勇,蒋海娜.优化初始聚类中心的关键帧提取[J].计算机工程与应用,2007,43(21):165-167. 被引量：6
7邓森林,陈卫东.基于遗传模拟退火的K-means聚类方法[J].电子设计工程,2014,22(6):54-56. 被引量：4
8刘强,吴京慧.优化初始聚类中心的K-means算法[J].信息技术,2009,33(2):71-73. 被引量：1
9张明微,吴海涛.一种优化初始聚类中心的k-means算法[J].上海师范大学学报（自然科学版）,2016,45(5):599-603. 被引量：2
10田腾浩.优化初始聚类中心的K-Means算法[J].网络安全技术与应用,2014(9):42-43. 被引量：3

计算机工程

2014年第8期

浏览历史

内容加载中请稍等...

最小方差优化初始聚类中心的K-means算法被引量：86

参考文献25

二级参考文献119

共引文献1688

同被引文献556

引证文献86

二级引证文献515

相关作者

相关机构

相关主题

浏览历史

最小方差优化初始聚类中心的K-means算法 被引量：86

参考文献25

二级参考文献119

共引文献1688

同被引文献556

引证文献86

二级引证文献515

相关作者

相关机构

相关主题

浏览历史

最小方差优化初始聚类中心的K-means算法被引量：86