Num-近邻方差优化的K-medoids聚类算法被引量：11

Optimized K-medoids clustering algorithm by variance of Num-near neighbour

下载PDF

导出

摘要针对K-medoids聚类算法对初始聚类中心敏感、聚类结果依赖于初始聚类中心的缺陷,提出一种局部方差优化的K-medoids聚类算法,以期使K-medoids的初始聚类中心分布在不同的样本密集区域,聚类结果尽可能地收敛到全局最优解。该算法引入局部方差的概念,根据样本所处位置的局部样本分布定义样本的局部方差,以样本局部标准差为邻域半径,选取局部方差最小且位于不同区域的样本作为K-medoids的初始中心,充分利用了方差所提供的样本分布信息。在规模大小不等的UCI数据集以及带有不同比例噪声的不同规模的人工模拟数据集上进行实验,并利用六种聚类算法性能测试指标进行测试,结果表明该算法具有聚类效果好、抗噪性能强的优点,而且适用于大规模数据集的聚类。提出的Num-近邻方差优化的K-medoids聚类算法优于快速K-medoids聚类算法及基于邻域的改进K-medoids聚类算法。 To overcome the disadvantages of K-medoids which was sensible to the initial seeds and whose clustering depended on the initial seeds, this paper proposed a new K-medoids algorithm to select the samples in different dense area as the initial seeds and made the clustering of K-medoids converge to the global optimal solution as could as possible. The new algorithm in- troduced the concept of the local variance, and gave the definition using the distribution pattern of exemplars in a local area. Then the local standard deviation was regarded the radius of the neighbourhood, so that the samples with the minimum local va- riance and lying at different areas were chosen as initial seeds for K-medoids. The proposed algorithm was tested on the real datasets with different size of samples from UCI machine learning repository and on the synthetically generated datasets with the varied size of exemplars and with some proportional noises. This paper adopted the 6 very popular criteria for evaluating cluste- ring algorithms to value the performance of the proposed algorithm. The experimental results demonstrate that the proposed K- medoids algorithm obtains good clustering, and is robust to noises, and is scalable to cluster large scale datasets. The proposed K-medoids clustering algorithm outperforms the fast K-medoids clustering algorithm and the improved K-medoids algorithm which is based on the neighbourhood.

作者谢娟英高瑞

机构地区陕西师范大学计算机科学学院

出处《计算机应用研究》 CSCD 北大核心 2015年第1期30-34,共5页 Application Research of Computers

基金陕西省科技攻关基金资助项目(2013K12-03-24) 国家自然科学基金资助项目(31372250) 中央高校基本科研业务费专项资金资助项目(GK201102007)

关键词局部方差 Num-近邻邻域初始聚类中心聚类 local variance Num-nearneighbour neibourhood initial seeds clustering

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献23

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1074
2HAN Jia-wei, KAMBER M, PEI Jing. Data mining: concepts and techniques [ M ]. San Francisco : Morgan Kaufmann Publishers,2006.
3HUANG Zhe-xue. Clustering large data sets with mixed numeric and categorical values [ C ]//Proc of the 1st Pacific-Asia Conference onKnowledge Discovery and Data Mining. 1997 : 21-34.
4HUANG Zhe-xue. Extensions to the K-means algorithm for clustering large data sets with categorical values[ J]. Data Minin9 and Knows- edge Discovery, 1998,2 ( 3 ) : 283 -304.
5HUANG Zhe-xue,NG M K, RONG Hong-qiang,et al. Automated vari- able weighting in K-means type clustering[J]. IEEE Traas on Pat- tern Analysis and Machine Intelligence, 2005,27(5) : 657-668.
6CHEN Xiao-jun, YE Yun-ming, XU Xiao-fei, et al. A feature group weighting method for subspace clustering of high-dimensional data [ J]. Pattern Recognition ,2012,45( 1 ) : 434-446.
7谢娟英,蒋帅,王春霞,张琰,谢维信.一种改进的全局K-均值聚类算法[J].陕西师范大学学报（自然科学版）,2010,38(2):18-22. 被引量：47
8谢娟英,张琰,谢维信,高新波.一种新的密度加权粗糙K-均值聚类算法[J].山东大学学报（理学版）,2010,45(7):1-6. 被引量：11
9谢娟英,马箐,谢维信.一种确定最佳聚类数的新算法[J].陕西师范大学学报（自然科学版）,2012,40(1):13-18. 被引量：11
10谢娟英,郭文娟,谢维信,高新波.基于样本空间分布密度的改进次胜者受罚竞争学习算法[J].计算机应用,2012,32(3):638-642. 被引量：5

二级参考文献74

1李洁,高新波,焦李成.一种基于修正划分模糊度的聚类有效性函数[J].系统工程与电子技术,2005,27(4):723-726. 被引量：8
2张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
3杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：191
4李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
5普运伟,金炜东,朱明,胡来招.核模糊C均值算法的聚类有效性研究[J].计算机科学,2007,34(2):207-210. 被引量：28
6Jain A K, Dubes R C. Algorithms for clustering data [ M]. Englewood Cliffs: Prentice-Hall, 1988 : 1-334.
7Huang Z. Extensions to the K-means algorithm for clustering large data sets with categorical values [J]. Data Ming and Knowledge Discovery, 1998, 2 (3): 283-304.
8Maulik U, Bandyopadhyay S. Genetic algorithm based clustering technique[J]. Pattern Recognition, 2000, 33 (9): 1 455-1 465.
9Selim S Z, Al-Sultan K S. A simulated annealing algorithm for the clustering[J]. Pattern Recognition, 1991, 24 (10):1 003-1 008.
10Likas A, Vlassis M, Verbeek J. The global K-means clustering algorithm[J]. Pattern Recognition, 2003, 36 (2) : 451-461.

共引文献1295

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献86

1陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
2郝占刚,王正欧.基于遗传算法和k-medoids算法的聚类新算法[J].现代图书情报技术,2006(5):44-46. 被引量：5
3宋宇辰,张玉英,孟海东.一种基于加权欧氏距离聚类方法的研究[J].计算机工程与应用,2007,43(4):179-180. 被引量：35
4钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
5杨纶标,高英仪,凌卫新.模糊数学原理及应用[M].5版.广州:华南理工出版社,2011:1-2,42-52,100-109.
6徐克圣,王澜.一种自动获得k值的聚类算法[J].大连交通大学学报,2007,28(4):68-71. 被引量：3
7孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1074
8Rahman MA, Islam MZ. A hybird clustering technique combi ning a novel genetic algorithm with K-means [J]. Knowledge Based Systems, 2014, 24 (11): 345-365.
9Bai Liang, Liang Jiye, Dang Chuangyin, et al. A novel fuzzy clus tering algorithm with between cluster information for categorical da- ta [J]. Fuzzy Sets and Systems, 2013, 215 (3); 55 -73.
10An Fengwei, Hans Jurgen Mattausch. K-means clustering algorithm for multimedia applications with flexible HW/SW codesign [J]. Journal d Systems Architeetur, 2013, 59 (3) : 155-164.

引证文献11

1王兵,王轲.基于密度指标的大样本数据集聚类方法[J].计算机工程与设计,2016,37(5):1245-1248.
2贺呈磊,唐磊,刘曦.一种拟人聚类算法在PHM聚类分析中的应用[J].微电子学与计算机,2016,33(9):32-35. 被引量：1
3朱纯,吴建华,潘毅.关于优化K-medoids聚类算法搜索策略研究[J].计算机仿真,2016,33(10):244-248. 被引量：4
4王勇,王李福,饶勤菲,邹辉.半径自适应的初始中心点选择K-medoids聚类算法[J].重庆理工大学学报（自然科学）,2017,31(2):95-101. 被引量：4
5王立国,吴飞.基于KL-ISOMAP的高光谱图像彩色可视化[J].南京信息工程大学学报（自然科学版）,2018,10(1):63-71.
6陈静杰,车洁.基于IK-medoids算法的飞机油耗聚类方法[J].计算机科学,2018,45(8):306-309. 被引量：5
7邓滨玥.K均值优化算法综述[J].软件,2020,41(2):188-192. 被引量：12
8张晓滨,母玉雪.改进的方差优化初始中心的K-medoids算法[J].计算机技术与发展,2020,30(7):42-45. 被引量：1
9梁卓灵,元昌安,覃晓.基于方差优化谱聚类的热点区域挖掘算法[J].广西科学,2020,27(6):616-621.
10冯锋.专利在线交易供需匹配研究:机理分析、模型构建[J].南京理工大学学报（社会科学版）,2022,35(5):45-51. 被引量：1

二级引证文献31

1佐磊,胡小敏,何怡刚,孙洪凯,李兵.小样本数据处理的加速寿命预测方法[J].电子测量与仪器学报,2020,32(11):26-32. 被引量：8
2姜群,傅瑜,李文生,梁瑞仕,杨武.基于谓词的大数据抽样技术研究[J].重庆理工大学学报（自然科学）,2017,31(8):120-124. 被引量：3
3李鹏飞,刘春宇,海军.云计算环境下关联性大数据实时流式可控聚类算法[J].科学技术与工程,2018,18(7):185-190. 被引量：13
4段桂芹,邹臣嵩,刘锋.基于优化初始聚类中心的K中心点算法[J].计算机与现代化,2019(4):1-5. 被引量：5
5张小青,许才军,王帅.基于聚类分析的川滇地区块体划分与应变研究[J].南京信息工程大学学报（自然科学版）,2019,11(2):208-215.
6韩子硕,王春平.基于改进FCM与MRF的SAR图像分割[J].系统工程与电子技术,2019,41(8):1726-1734. 被引量：13
7陈静杰,崔金成.基于不同采样率的短航程油耗估计[J].科学技术与工程,2019,19(24):254-259. 被引量：1
8叶福兰.基于离群点检测的不确定数据流聚类算法研究[J].中国电子科学研究院学报,2019,14(10):1094-1099. 被引量：13
9汤洪涛,闫伟杰,陈青丰,鲁建厦,詹燕.自动化立体仓库货位分配与作业调度集成优化[J].计算机科学,2020,47(5):204-211. 被引量：23
10倪向东,孔凡泉.一种面向现役装备的PHM设计方法[J].科学技术创新,2020(25):36-37. 被引量：1

1曾勇,卫宏儒,潘伟.安全隔离与信息交换设备性能测试方法研究[J].信息安全与通信保密,2006,28(10):97-99.
2谈姝辰,尹军.基于负载的Web性能测试研究与应用[J].现代电子技术,2007,30(14):139-142. 被引量：11
3苏爱柳,徐贵力,蔡博,贾银亮,李开宇.基于显著图的红外图像显著轮廓提取方法研究[J].机械制造与自动化,2017,46(1):191-193.
4王少杰,潘晋孝,陈平.基于双树复小波变换的图像融合[J].核电子学与探测技术,2015,35(7):726-728. 被引量：5
5张秋凤.WEB应用系统性能测试研究与实践[J].中国新通信,2016,0(14):117-118. 被引量：5
6张巧达,何振峰.基于Hub的高维数据初始聚类中心的选择策略[J].计算机系统应用,2015,24(4):171-175. 被引量：3
7胡维娜,顾健,宋好好.防火墙性能测试研究[J].信息安全与技术,2012,3(12):36-39.
8范铁生,张绍成,张忠清,宣伟宏,薛军.小波域局部标准差的图像置乱评价方法[J].小型微型计算机系统,2014,35(4):931-935. 被引量：1
9凌建国,刘尔琦,梁海燕,杨杰.基于核密度估计的红外目标提取方法[J].红外与毫米波学报,2006,25(6):434-438. 被引量：11
10咸兆勇,甘金明,玉振明,李陶深.一种基于相关性和局部标准差的图像失焦模糊区域检测方法[J].计算机应用与软件,2014,31(9):198-200. 被引量：5

计算机应用研究

2015年第1期

浏览历史

内容加载中请稍等...

Num-近邻方差优化的K-medoids聚类算法被引量：11

参考文献23

二级参考文献74

共引文献1295

同被引文献86

引证文献11

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

Num-近邻方差优化的K-medoids聚类算法 被引量：11

参考文献23

二级参考文献74

共引文献1295

同被引文献86

引证文献11

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

Num-近邻方差优化的K-medoids聚类算法被引量：11