一种考虑数据类大小和密度差异的模糊聚类有效性指标被引量：2

A Fuzzy Cluster Validity Index in Consideration of Different Size and Density of Data Set

下载PDF

导出

摘要聚类有效性指标用于评价聚类质量和确定最佳聚类数，针对包含大小和密度差异性较大数据类的数据集，在分析了传统模糊聚类有效性指标不足的基础上，提出了一个同时考虑紧致性、重叠度和分离性的聚类有效性指标COS。类内紧致性用一定阈值内的隶属度之和与最大类内距离之比表示，一定阈值内各样本同属于两个类的隶属度差异反映了这两个类的重叠度，类间分离性的度量为最小类间距离，使COS指标值最大的聚类数即为最佳聚类数。在四个人工数据集和iris真实数据集上利用模糊C均值算法进行聚类实验的结果表明，COS指标可以有效发现小类和低密度类。 Cluster validity indices are used to validate clustering results and determine the optimal cluster number. Regarding to the data set with clusters of different size and density, a new cluster validity index called COS is proposed based on the analysis of drawbacks of traditional cluster validity indices. The compactness, overlapping and separation are taken into account in COS index at the same time. The compactness of intra-clusters is expressed by the ratio of the sum of membership degrees in certain threshold and the max distance of intra-clusters. The difference of membership degrees in certain threshold of a certain point to two clusters indicates the overlapping degree of the two clusters. The measurement of separation of inter-clusters is the minimum distance between clusters. The optimal cluster number is determined by the maximum value of COS index. Experimental studies using fuzzy c-means algorithm on four artificial data sets and iris data set show that the COS index can discover the small size and low density clusters effectively.

作者周开乐杨善林

机构地区过程优化与智能决策教育部重点实验室合肥工业大学计算机网络系统研究所

出处《情报学报》 CSSCI 北大核心 2013年第3期306-313,共8页 Journal of the China Society for Scientific and Technical Information

基金国家高技术研究发展计划(863计划)(编号:2011AA05A116) 国家自然科学基金重点项目(编号:71131002)

关键词模糊C均值聚类聚类有效性指标大小和密度 COS指标 fuzzy c-means clustering, cluster validity index, size and density, COS index

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献17

1Jain A K, Murty M N, Flynn P J. Data Clustering: A Review [ J ]. ACM Computing Surveys, 1999, 31 : 264-323.
2王连喜,蒋盛益.基于聚类的电信客户细分[J].情报学报,2011,30(11):1171-1177. 被引量：4
3魏建香,孙越泓,苏新宁.基于聚类分析的学科交叉研究[J].情报学报,2010,29(6):1066-1073. 被引量：24
4李枫林,何洲芳.基于关键词共现分析的检索结果聚类研究[J].情报学报,2011,30(8):819-825. 被引量：9
5常富洋,许侃,林鸿飞.基于用户信息平滑聚类的协同推荐方法[J].情报学报,2011,30(8):796-801. 被引量：2
6Bezdek J C, Keller J M, Krishnapuram R, et al. Fuzzy Models and Algorithms for Pattern Recognition and Image Processing[ C]. Kluwer, 1999.
7Pal N R, Bezdek J C. On Cluster Validity for the Fuzzy C-means Model [ J ]. IEEE Transactions on Fuzzy Systems, 1995, 3 ( 3 ) : 370-379.
8Kim M, Ramakrishna R S. New Indices for Cluster Validity Assessment [ J ]. Pattern Recognition Letters, 2005,26 (15) : 2353 - 2363.
9Wang W, Zhang Y. On Fuzzy Cluster Validity Indices. Fuzzy Sets Systems, 2007, 158 (19) : 2095 -2117.
10Bezdek J C. Fuzzy Mathematics in Pattern Classification. NY: Cornell University, 1974.

二级参考文献56

1林春燕,朱东华.科学文献的模糊聚类算法[J].计算机应用,2004,24(11):66-67. 被引量：9
2路甬祥.学科交叉与交叉科学的意义[J].中国科学院院刊,2005,20(1):58-60. 被引量：330
3张海燕,丁峰,姜丽红.基于模糊聚类的协同过滤推荐方法[J].计算机仿真,2005,22(8):144-147. 被引量：25
4吴景岚,朱文兴.基于K中心点的文档聚类算法[J].兰州大学学报（自然科学版）,2005,41(5):88-91. 被引量：4
5潘红艳,林鸿飞,赵晶.基于矩阵划分和兴趣方差的协同过滤算法[J].情报学报,2006,25(1):49-54. 被引量：16
6白曦,吕晓枫,孙吉贵.融合模拟退火的遗传算法在文档聚类中的应用[J].计算机工程与应用,2006,42(23):144-148. 被引量：2
7宋江春,沈钧毅.一个基于双向近邻技术的多层文档聚类算法[J].情报学报,2006,25(4):488-492. 被引量：3
8顾浩.论学科交叉路径及趋势[J].上海金融学院学报,2006(6):67-69. 被引量：21
9孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
10Osinski S, Weiss D. Conceptual Clustering Using Lingo Algorithm: Evaluation on Open Directory Project data [ C ]//Advances in Soft Computing, Intelligent Inform- ation Processing and Web Mining, Proceedings of the Internat-ional IIS: IIPWM'04 Conference ZakoPane, Poland, 2004 : 369-378.

共引文献225

1段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
2刘文一,孙伟,朱良明,赵志博.舰载飞行器打击水面舰艇编队队形识别和目标选择方法[J].兵器装备工程学报,2020,41(2):85-89. 被引量：11
3刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
4楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
5韩丽苹,孟海东,李海荣.聚类算法在矿产资源与经济发展关系研究中的应用[J].煤炭技术,2015,34(5):290-292.
6李桃迎,陈燕.一种改进FCM的快速优化算法及其应用[J].大连海事大学学报,2006,32(4):23-27. 被引量：4
7郭海湘,诸克军,李玥,王得运.软计算与硬计算融合的中国石油需求预测[J].中国地质大学学报（社会科学版）,2007,7(6):24-28. 被引量：2
8孙薇,张省.基于半监督支持向量机的供电企业安全性评价[J].电气应用,2008,27(1):57-60. 被引量：1
9刘茵,李弼程,郭映月.一种基于聚类算法的主旨句提取方法[J].情报学报,2008,27(1):49-55. 被引量：1
10施培蓓,钱雪忠,汪中.基于均衡化函数的快速K-means算法[J].计算机工程与应用,2008,44(3):189-191. 被引量：1

同被引文献126

1杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：191
2倪长健,王顺久,崔鹏.投影寻踪动态聚类模型及其在天然草地分类中的应用[J].安全与环境学报,2006,6(5):68-71. 被引量：17
3Anderberg M R. Cluster analysis for application[M]. New York: Academic Press, 1973.
4Jain A K, Murty M N, Flynn P J. Data clustering: A review[J]. ACM Computing Survey, 1999, 31(3): 264-323.
5Xu R, Wunsch II D. Survey of clustering algorithms[J]. IEEE Transactions on Neural Networks, 2005, 16: 645-678.
6Omran M G H, Engelbrecht A P, Salman A. An overview of clustering methods[J]. Intelligent Data Analysis, 2007, 11(6): 583-605.
7Giancarlo R, Utro F. Algorithmic paradigms for stability-based cluster validity and model selection statistical methods, with applications to microarray data analysis[J]. Theoretical Computer Science, 2012, 428(4): 58-79.
8Bezdek J C. Cluster validity with fuzzy sets[J]. Journal of Cybernetics, 1974, 3(3): 58-74.
9Liang J Y, Zhao X W, Li D Y, et al. Determining the number of clusters using information entropy for mixed data[J]. Pattern Recognition, 2012, 45(6): 2251-2265.
10Pal N R, Biswas J. Cluster validation using graph theoretic concepts[J]. Pattern Recognition, 1997, 30(6): 847-857.

引证文献2

1周开乐,杨善林,丁帅,罗贺.聚类有效性研究综述[J].系统工程理论与实践,2014,34(9):2417-2431. 被引量：109
2骆正山,王文辉,王小完,张新生.引入重叠度指标的FPPC油气管道管段划分方法[J].天然气工业,2018,38(8):103-111.

二级引证文献109

1黄贤英,阳安志,刘小洋,刘广峰.融合兴趣的微博用户相似度计算研究[J].计算机应用研究,2020,37(1):66-70. 被引量：1
2路小娟,朱正平.太阳能光伏发电量分类预测研究[J].自动化与仪器仪表,2016(1):27-28. 被引量：1
3王丝丝,张敬磊,陈慈,张洪宾,马春杰.基于方差与改进群智能算法的K-means聚类优化[J].系统科学与数学,2018,38(10):1117-1127. 被引量：8
4黄春梅,马宏忠,付明星,许洪华,李勇.基于混沌理论和KPCM聚类的变压器绕组松动状态监测[J].高压电器,2019,55(1):95-102. 被引量：10
5丁明,黄冯,邹佳芯,刘金山,宋晓皖.改进谱聚类与遗传算法相结合的电力时序曲线聚类方法[J].电力自动化设备,2019,39(2):93-99. 被引量：21
6徐辉军,张新科,赵永林,刘长太,张进林,符家庆,顾问,许万飞.基于模糊聚类的高校领导体育锻炼与职业素质关联性研究——以江苏普通高校正职领导为例[J].数学的实践与认识,2015,45(8):179-188. 被引量：1
7吴文浩,吴升.多时间尺度密度聚类算法的案事件分析应用[J].地球信息科学学报,2015,17(7):837-845. 被引量：8
8阮俊虎,王旭坪,杨挺.大规模灾害中基于FCMwNC的医疗物资联合运送优化[J].系统工程理论与实践,2015,35(10):2675-2686. 被引量：8
9张小川,严杰,朱常鹏.聚类算法在市政绩效评估中的应用[J].软件导刊,2015,14(11):48-51. 被引量：2
10谢娟英,周颖.一种新聚类评价指标[J].陕西师范大学学报（自然科学版）,2015,43(6):1-8. 被引量：13

1张大庆,徐再花.一种新的模糊聚类有效性指标[J].沈阳农业大学学报,2012,43(5):636-639. 被引量：2
2周开乐,杨善林,丁帅,罗贺.聚类有效性研究综述[J].系统工程理论与实践,2014,34(9):2417-2431. 被引量：109
3谢福鼎,卞子金,嵇敏.一个新的模糊聚类有效性指标[J].系统科学与数学,2014,34(9):1074-1079. 被引量：1
4姚晓红,任珂珂,赵花妮,鲍春梅.一种新的模糊聚类有效性指标的验证[J].洛阳理工学院学报（自然科学版）,2012,22(3):76-79. 被引量：1
5时念云,侯双双,马力.基于隶属比的聚类有效性指标[J].计算机系统应用,2016,25(8):109-114. 被引量：1
6李晓云,周菊玲,李超群.聚类分析中类与类的特征[J].数学学习与研究,2015(1):109-109. 被引量：1
7薛忠,谢维信.模糊C均值聚类算法的一种初始化方法[J].系统工程与电子技术,1995,17(11):64-69. 被引量：12
8李勤丰,郭海凤,刘玉霞.基于统计特征的数据分类[J].金陵科技学院学报,2015,31(4):53-56. 被引量：1
9文小琴.划分法在分类效果上的一些理论探讨[J].涪陵师范学院学报,2005,21(5):67-68.
10刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22

情报学报

2013年第3期

浏览历史

内容加载中请稍等...

一种考虑数据类大小和密度差异的模糊聚类有效性指标被引量：2

参考文献17

二级参考文献56

共引文献225

同被引文献126

引证文献2

二级引证文献109

相关作者

相关机构

相关主题

浏览历史

一种考虑数据类大小和密度差异的模糊聚类有效性指标 被引量：2

参考文献17

二级参考文献56

共引文献225

同被引文献126

引证文献2

二级引证文献109

相关作者

相关机构

相关主题

浏览历史

一种考虑数据类大小和密度差异的模糊聚类有效性指标被引量：2