基于最小方差的自适应K-均值初始化方法被引量：7

An Adaptive K-means Initialization Method Based on Minimum Deviation

下载PDF

导出

摘要 K-均值算法对初始聚类中心敏感,聚类结果随不同初始聚类中心波动。针对以上问题,提出一种基于最小方差的自适应K-均值初始化方法,使初始聚类中心分布在K个不同样本密集区域,聚类结果收敛到全局最优。首先,根据样本空间分布信息,计算样本方差得到样本紧密度信息,并基于样本紧密度选出满足条件的候选初始聚类中心;然后,对候选初始聚类中心进行处理,筛选出K个初始聚类中心。实验证明,算法具有较高的聚类性能,对噪声和孤立点具有较好的鲁棒性,且适合对大规模数据集聚类。 K-means algorithm is sensitive to the initial cluster center;fluctuation of clustering results are following with different initial cluster centers. To solve these problems,in this paper,an adaptive K-means initialization method is proposed based on minimum variance;the initial clustering center is distributed in the K different sample density regions,clustering results of convergence to the global optimum. Firstly,according to the information of the space distribution of samples,the information of samples close degree is got by calculation of sample variance. In addition,based on samples close degree the qualified candidate initial cluster centers is selected;Then,the candidate initial cluster centers are dealt with and k initial cluster centers are filtered. The experiment proved that this algorithm has high clustering performance and good robustness for processing of the noise and the isolated point;it is suitable for clustering the large-scale data set.

作者肖洋李平王鹏邱宁佳

机构地区长春理工大学计算机科学技术学院

出处《长春理工大学学报（自然科学版）》 2015年第5期140-144,149,共6页 Journal of Changchun University of Science and Technology(Natural Science Edition)

关键词聚类 K-均值方差初始聚类中心 clustering K-means deviation initialized clustering centers

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1韩忠明,陈妮,张慧,杨伟杰.一种非对称距离下的层次聚类算法[J].模式识别与人工智能,2014,27(5):410-416. 被引量：11
2倪巍伟,陈耿,崇志宏,吴英杰.面向聚类的数据隐藏发布研究[J].计算机研究与发展,2012,49(5):1095-1104. 被引量：16
3赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75
4韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：93
5汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
6毛韶阳,李肯立.优化K-means初始聚类中心研究[J].计算机工程与应用,2007,43(22):179-181. 被引量：26
7韩晓红,胡彧.K-means聚类算法的研究[J].太原理工大学学报,2009,40(3):236-239. 被引量：46
8于海涛,李梓,姚念民.K-means聚类算法优化方法的研究[J].小型微型计算机系统,2012,33(10):2273-2277. 被引量：22

二级参考文献103

1荆丰伟,刘冀伟,王淑盛.改进的K-均值算法在岩相识别中的应用[J].微计算机信息,2004,20(7):41-42. 被引量：5
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
3余建桥,张帆.基于数据场改进的PAM聚类算法[J].计算机科学,2005,32(1):165-167. 被引量：15
4罗永龙,黄刘生,荆巍巍,姚亦飞,陈国良.一个保护私有信息的布尔关联规则挖掘算法[J].电子学报,2005,33(5):900-903. 被引量：33
5葛伟平,汪卫,周皓峰,施伯乐.基于隐私保护的分类挖掘[J].计算机研究与发展,2006,43(1):39-45. 被引量：20
6淦文燕,李德毅,王建民.一种基于数据场的层次聚类方法[J].电子学报,2006,34(2):258-262. 被引量：83
7李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
8张鹏,童云海,唐世渭,杨冬青,马秀莉.一种有效的隐私保护关联规则挖掘方法[J].软件学报,2006,17(8):1764-1774. 被引量：53
9钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
10袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：153

共引文献356

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：13
2楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
3郑攀,庹武.基于K-means聚类算法的女裤弹性面料分类研究[J].国际纺织导报,2014,42(5):71-72. 被引量：1
4吴东飞,金玉龙,蒋建国.基于TMS320DM6467和TMS320C6472的高清视频处理系统[J].数据采集与处理,2012,27(S2):227-234.
5曹树志,项响琴.基于改进的K_Means算法的城市高架桥交通流分析[J].公路交通科技（应用技术版）,2010,6(10):261-264.
6王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
7李玮瑶,刘建粉,吕海莲.基于模糊扩展聚类的关联编码算法设计[J].微电子学与计算机,2015,32(6):138-141.
8陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
9张忠平,王爱杰,陈丽萍.一种基于广度优先搜索的K-means初始化算法[J].计算机工程与应用,2008,44(27):159-161. 被引量：7
10张忠平,王爱杰,柴旭光.简单有效的确定聚类数目算法[J].计算机工程与应用,2009,45(15):166-168. 被引量：23

同被引文献54

1陈小全,张继红.基于改进粒子群算法的聚类算法[J].计算机研究与发展,2012,49(S1):287-291. 被引量：31
2叶志伟,尹宇洁,王明威,赵伟.一种基于杜鹃搜索算法的聚类分析方法[J].微电子学与计算机,2015,32(5):104-110. 被引量：6
3陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
4肖春景,张敏.基于减法聚类与模糊c-均值的模糊聚类的研究[J].计算机工程,2005,31(B07):135-137. 被引量：22
5王惠文.变量多重相关性对主成分分析的危害[J].北京航空航天大学学报,1996,22(1):65-70. 被引量：17
6王红睿,赵黎明,裴剑.均衡化的改进K均值聚类法[J].吉林大学学报（信息科学版）,2006,24(2):172-176. 被引量：13
7朱玲利,李吉桂,鲍苏苏.基于遗传算法的聚类分析在CT图像分割中的应用[J].计算机科学,2006,33(10):186-188. 被引量：5
8HAN J, KAMBER M. Data mining .. Concepts and techniques[M]. San Diego: Morgan Kaufmann Publishers, 2001 : 223.
9J AIN A K, MURTY M N, FLYNN P J. Data clustering.. A review[J]. ACM Computing Surveys, 1999,31 (3) 264-323.
10LU Qiang. K-Means optional clustering algorithm based an hybrid genetic technique[J]. Journal of East China Univer- sity of Science and Technology,2005, 31 (2) : 218-222.

引证文献7

1满扬,王晓东.基于扰动因子的相似度下的聚类算法[J].西安工程大学学报,2016,30(3):388-392. 被引量：3
2王鹏,杨华民,邱宁佳,李松江,杨迪.基于用户间影响力度量的网络信任模型研究[J].长春理工大学学报（自然科学版）,2017,40(5):92-98. 被引量：1
3刘艳,于露.粗大误差判定准则在靶场试验数据预处理中的应用[J].长春理工大学学报（自然科学版）,2018,41(3):139-142. 被引量：3
4周本金,陶以政,纪斌,谢永辉.最小化误差平方和k-means初始聚类中心优化方法[J].计算机工程与应用,2018,54(15):48-52. 被引量：36
5王世其,张文斌,蔡潮森,李建军.最小局部方差优化初始聚类中心的K-means算法[J].软件导刊,2020,19(6):196-200. 被引量：2
6王为,王艳春,陈占芳.基于动态概率引导的人工蜂群聚类算法[J].长春理工大学学报（自然科学版）,2020,43(3):95-101. 被引量：1
7黄鹤,李昕芮,吴琨,郭璐,王会峰,茹锋.引入改进飞蛾扑火的K均值交叉迭代聚类算法[J].西安交通大学学报,2020,54(9):32-39. 被引量：12

二级引证文献58

1黄鹤,李潇磊,王珺,王会峰,茹锋.基于随机跳跃蝠鲼算法优化的电影信息数据聚类[J].南京大学学报（自然科学版）,2022,58(5):856-867.
2王晓东,满扬,李海洋.基于扰动因子的准则函数下的聚类算法[J].纺织高校基础科学学报,2017,30(1):81-86. 被引量：4
3郭佳,罗森林,陈倩柔.基于Paragraph Vector模型的科研热点发现方法[J].电子设计工程,2018,26(20):105-109.
4李艳娟,牛梦婷,李林辉.基于蜂群k-means算法的遥感图像聚类应用研究[J].计算机工程与应用,2019,55(6):151-159. 被引量：20
5王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019,55(8):27-33. 被引量：109
6向长峰,王宸,张秀峰.自适应天牛须优化与K均值聚类的图像分割算法研究[J].制造技术与机床,2020,0(5):99-101. 被引量：4
7朱淑鑫,杨宸,顾兴健,张永春,艾玉春,徐焕良.K均值算法结合连续投影算法应用于土壤速效钾含量的高光谱分析[J].江苏农业学报,2020,36(2):358-365. 被引量：11
8尹世庄,王韬,陈庆超,刘丽君,张斌.基于调整互信息的二进制协议一类分类算法[J].兵工自动化,2020,39(6):37-41. 被引量：1
9王世其,张文斌,蔡潮森,李建军.最小局部方差优化初始聚类中心的K-means算法[J].软件导刊,2020,19(6):196-200. 被引量：2
10孙卫忠,张楠,李亚函,高迎平.基于改进K-Means算法的图书馆读者阅读需求实证研究[J].新世纪图书馆,2020(5):59-64.

1郑洪英,倪霖,肖迪.大规模数据集聚类中的数据分区及应用研究[J].计算机应用研究,2007,24(2):203-205. 被引量：1
2申彦,宋顺林,朱玉全.一种基于半监督的大规模数据集聚类算法[J].南京大学学报（自然科学版）,2011,47(4):372-382. 被引量：1
3张朝鑫.大规模数据集聚类方法及其应用研究[J].电子世界,2014(14):313-313.
4张巧达,何振峰.基于Hub的高维数据初始聚类中心的选择策略[J].计算机系统应用,2015,24(4):171-175. 被引量：3
5吉成恒,雷咏梅.大规模数据集聚类的K邻近均匀抽样数据预处理算法[J].上海大学学报（自然科学版）,2016,22(1):28-35. 被引量：2
6谢娟英,高瑞.Num-近邻方差优化的K-medoids聚类算法[J].计算机应用研究,2015,32(1):30-34. 被引量：11
7刘海峰,王元元.一种基于统计的汉语切词方法[J].工程地质计算机应用,2006(2):16-19. 被引量：1
8Tiziano,Luigi Croce,Enzo Grossi,De Vreese,Massimo,Ulrico.A Short Version of SIS （Support Intensity Scale）＂ The Utility of the Application of Artificial Adaptive Systems[J].US-China Education Review(A),2011,1(2X):196-207.
9柳伯超,秦茂玲,刘弘.一种基于分布的形状特征描述子[J].计算机技术与发展,2007,17(12):86-88.
10Spansion在中国苏州设立设计中心[J].电子测试（新电子）,2006(9):115-115.

长春理工大学学报（自然科学版）

2015年第5期

浏览历史

内容加载中请稍等...

基于最小方差的自适应K-均值初始化方法被引量：7

参考文献8

二级参考文献103

共引文献356

同被引文献54

引证文献7

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

基于最小方差的自适应K-均值初始化方法 被引量：7

参考文献8

二级参考文献103

共引文献356

同被引文献54

引证文献7

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

基于最小方差的自适应K-均值初始化方法被引量：7