K-means聚类算法的一种改进方法研究被引量：7

Research on an improved K-means clustering algorithm

下载PDF

导出

摘要针对K-means聚类算法对初始聚类中心敏感问题,提出1种结合方差与误差平方和的优化算法。首先,该算法基于方差和距离选取k个位于不同区域且样本点相对集中的集合。然后,分别选取使这k个样本集合误差平方和最小的数据作为k个初始聚类中心。利用改进算法与其他算法将UCI数据库中所选取的数据集进行聚类划分,对比不同算法下的聚类结果。研究结果表明,改进算法不仅可以提高聚类质量,而且可以减少聚类的迭代次数,加快收敛速度。 Aiming at the problem that K-means clustering algorithm is sensitive to the initial clustering center,an optimization algorithm combining variance and sum of square error was proposed.Firstly,k sets located in different regions and with relatively concentrated sample points were selected based on variance and distance,and then the data that minimizes the sum of square errors of these k sets are calculated as k initial clustering centers.The improved algorithm and other algorithms were employed to cluster the selected datasets in UCI database.By comparing the clustering results of different algorithms,it can be seen that the improved algorithm can not only improve the clustering quality,but also reduce the number of iterations of clustering and accelerate the convergence speed.

作者曾如明李云飞 ZENG Ruming;LI Yunfei(College of Mathematics and Information,China West Normal University,Nanchong 637009,China)

机构地区西华师范大学数学与信息学院

出处《邵阳学院学报（自然科学版）》 2021年第2期8-14,共7页 Journal of Shaoyang University：Natural Science Edition

基金西华师范大学英才科研基金项目(17YC381)。

关键词 K-MEANS聚类初始聚类中心方差误差平方和 K-means clustering initial clustering center variance sum of squared errors

分类号 O212.4 [理学—概率论与数理统计]

引文网络
相关文献

参考文献13

1崔玲玲,许金兰,徐岗,吴卿.融合双特征图信息的图像显著性检测方法[J].中国图象图形学报,2018,23(4):583-594. 被引量：14
2翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：108
3马克勤,杨延娇,秦红武,耿琳,王丕栋.结合最大最小距离和加权密度的K-means聚类算法[J].计算机工程与应用,2020,56(16):50-54. 被引量：21
4韩凌波.基于密度的K-means初始聚类中心选取算法[J].电子科技,2015,28(7):105-107. 被引量：8
5傅德胜,周辰.基于密度的改进K均值算法及实现[J].计算机应用,2011,31(2):432-434. 被引量：76
6杨金花,刘显为.K-means聚类算法初始中心选择研究[J].河南科学,2016,34(3):348-351. 被引量：7
7张文明,吴江,袁小蛟.基于密度和最近邻的K-means文本聚类算法[J].计算机应用,2010,30(7):1933-1935. 被引量：29
8周本金,陶以政,纪斌,谢永辉.最小化误差平方和k-means初始聚类中心优化方法[J].计算机工程与应用,2018,54(15):48-52. 被引量：36
9谢娟英,屈亚楠.密度峰值优化初始中心的K-medoids聚类算法[J].计算机科学与探索,2016,10(2):230-247. 被引量：27
10郑丹,王潜平.K-means初始聚类中心的选择算法[J].计算机应用,2012,32(8):2186-2188. 被引量：35

二级参考文献130

1张红荣,张峰.传统的K-means聚类算法的研究与改进[J].咸阳师范学院学报,2010,25(4):59-62. 被引量：4
2逄玉俊,柳明,李元.k均值聚类分析在过程改进中的应用[J].华中科技大学学报（自然科学版）,2009,37(S1):245-247. 被引量：9
3张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
4王惠文.变量多重相关性对主成分分析的危害[J].北京航空航天大学学报,1996,22(1):65-70. 被引量：17
5杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：191
6李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
7钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
8袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
9陆林花,王波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172. 被引量：26
10彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44

共引文献396

1崔丽群,陈晶晶,任茜钰,王柏涵.融合多特征与先验信息的显著性目标检测[J].中国图象图形学报,2020,25(2):321-332. 被引量：11
2曲海成,田小容,刘腊梅,石翠萍.多尺度显著区域检测图像压缩[J].中国图象图形学报,2020,0(1):31-42. 被引量：10
3陈西江,安庆,班亚,王德欣,李坤,刘海鹏.融合高斯核及指数函数聚类的点云目标物提取[J].应用科学学报,2022,40(3):411-422.
4杨捷,李沛霖,罗成臣,洪锋.基于数据挖掘的电网用户行为分析[J].云南大学学报（自然科学版）,2020,42(S02):38-43. 被引量：23
5黄鹤,李潇磊,王珺,王会峰,茹锋.基于随机跳跃蝠鲼算法优化的电影信息数据聚类[J].南京大学学报（自然科学版）,2022,58(5):856-867.
6段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
7宋军英,崔益伟,李欣然,钟伟,邹鑫,李培强.基于欧氏动态时间弯曲距离与熵权法的负荷曲线聚类方法[J].电力系统自动化,2020(15):87-98. 被引量：32
8陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
9吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：166
10熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190. 被引量：86

同被引文献70

1徐辉,李石君.一种整合粒子群优化和K-均值的数据聚类算法[J].山西大学学报（自然科学版）,2011,34(4):518-523. 被引量：9
2吴世农,黄世忠.企业破产的分析指标和预测模型[J].中国经济问题,1987(6):8-15. 被引量：123
3陈军斌,肖述琴,李,屈展,周芳德.油气井压裂后效果评价的系统聚类分析方法[J].天然气工业,2004,24(10):56-58. 被引量：4
4张晋昕,李河.回归分析中定性变量的赋值[J].循证医学,2005,5(3):169-171. 被引量：27
5杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：191
6周首华,杨济华,王平.论财务危机的预警分析——F分数模式[J].会计研究,1996(8):8-11. 被引量：462
7张文明,吴江,袁小蛟.基于密度和最近邻的K-means文本聚类算法[J].计算机应用,2010,30(7):1933-1935. 被引量：29
8王赛芳,戴芳,王万斌,张晓宇.基于初始聚类中心优化的K-均值算法[J].计算机工程与科学,2010,32(10):105-107. 被引量：24
9傅德胜,周辰.基于密度的改进K均值算法及实现[J].计算机应用,2011,31(2):432-434. 被引量：76
10韩凌波.K-均值算法中聚类个数优化问题研究[J].四川理工学院学报（自然科学版）,2012,25(2):77-80. 被引量：17

引证文献7

1卢洪.基于深度学习聚类算法的城市数据分类分级方法[J].工业技术创新,2021,8(4):73-78. 被引量：3
2杨波,张立娜.基于改进K-means算法的肠道肿瘤图像分析研究[J].电脑与信息技术,2021,29(5):26-28.
3王代楠,陈琼.改进K-means算法的船舶密集区域识别模型研究与VTS应用[J].中国海事,2022(1):53-56. 被引量：1
4付文华,白竹,张蕾,王世铎.基于IDWPSO-K-means聚类的网约车需求量时变特征分析[J].交通运输研究,2022,8(3):76-84. 被引量：1
5赵衡,彭铃,李云飞.基于改进K-means聚类算法的上市公司信用风险评估研究[J].内江师范学院学报,2022,37(12):77-83. 被引量：3
6张嘉颖,王军永,李欣咪,万兆伟,梅杰,王力.我国中医医疗服务领域问题分析与建议[J].中国农村卫生事业管理,2023,43(10):732-736. 被引量：3
7李龙,郑姝,敖科,李琦,魏子豪,钟萍萍.熵权法与层次分析法在四川盆地碳酸盐岩气藏开发效果评价中的应用[J].天然气勘探与开发,2024,47(2):53-60.

二级引证文献11

1唐林.自动采摘目标图像快速识别算法研究——基于K-means聚类算法[J].农机化研究,2023,45(5):32-36. 被引量：5
2张婷.基于大数据挖掘技术的图书馆服务自动化感知模型[J].自动化与仪器仪表,2023(7):5-9.
3黄道燚,陈敏敏.智能草莓种植系统模型设计[J].物联网技术,2023,13(10):101-104.
4黄式敏,马勇,杨忠鹏,卢锐恒.民航数据安全风险评估体系探讨[J].信息安全与通信保密,2023(10):75-85. 被引量：1
5龙志,陈湘州.非均衡数据下企业碳减排信用风险预警模型的构建与检验[J].内江师范学院学报,2024,39(2):77-89. 被引量：2
6李长乐,陈旻.健康中国视域下医保政策支持中医药发展路径探析[J].中国实用乡村医生杂志,2023,30(12):14-16.
7崔彤彤,徐硕,刘慧媛.基于渔船轨迹数据的进出港区域识别方法[J].计算机技术与发展,2024,34(6):155-163.
8方媛.城乡居民中医院就医质量感知现状调查与管理[J].中医药管理杂志,2024,32(8):40-42.
9郭朴,胡晓兵,李航,毛业兵,陈海军.基于K-PSO算法的机器人运动学参数标定方法[J].组合机床与自动化加工技术,2024(7):69-73.
10王思颖.同时考虑过度自信和损失厌恶的风险投资契约模型研究[J].内江师范学院学报,2024,39(8):91-95.

邵阳学院学报（自然科学版）

2021年第2期

浏览历史

内容加载中请稍等...

K-means聚类算法的一种改进方法研究被引量：7

参考文献13

二级参考文献130

共引文献396

同被引文献70

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

K-means聚类算法的一种改进方法研究 被引量：7

参考文献13

二级参考文献130

共引文献396

同被引文献70

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

K-means聚类算法的一种改进方法研究被引量：7