一种改进K-means算法的聚类算法CARDBK 被引量：12

Clustering Algorithm CARDBK Improved from K-means Algorithm

下载PDF

导出

摘要 CARDBK聚类算法与批K-means算法的不同之处在于,每个点不是只归属于一个簇,而是同时影响多个簇的质心值,一个点影响某一个簇的质心值的程度取决于该点与其它离该点更近的簇的质心之间的距离值。从聚类结果的熵、纯度、F1值、Rand Index和NMI等5个性能指标值来看,与多个不同算法在多个不同数据集上分别聚类相比,该算法具有较好的聚类结果;与多个不同算法在同一数据集上很多不同的初始化条件下分别聚类相比,该算法具有较好且稳定的聚类结果;该算法在不同大小数据集上聚类时具有线性伸缩性且速度较快。 The difference between our clustering algorithm and batch K-means algorithm is that in our algorithm each point is not only attributable to one cluster,instead affects multiple cluster centroid values,and the degree of influence of a point on a cluster centroid depends on the distance values between this point and the other more near cluster centroids.Our algorithm and a number of different algorithms on a number of different data sets were clustered respectively from the point of view of their clustering result’s five performance index values such as entropy,purity,F1 value,Rand Index and normalized mutual information,and the results show our algorithm has a better clustering results.Our algorithm and a number of different algorithms were clustered respectively on one same data set but under many different initialization conditions,and clustering results of our algorithm are preferably more stable and better.Cluster on different size data sets by our algorithm has a linear scalability and is faster.

作者朱烨行李艳玲崔梦天杨献文

机构地区西安邮电大学经济与管理学院第二炮兵工程大学电子工程系西南民族大学计算机科学与技术学院电子科技大学计算机科学与工程学院西安财经学院信息与教育技术中心

出处《计算机科学》 CSCD 北大核心 2015年第3期201-205,共5页 Computer Science

基金国家自然科学基金(61379019 71102149) 中国博士后科学基金(2013M540704) 四川省学术和技术带头人培养资金四川省博士后科研基金资助

关键词聚类文档聚类文本聚类 K-MEANS 算法 Clustering Text clustering Document clustering K-means Algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1朱烨行.文档聚类算法研究[D].西安:西北工业大学,2009.
2Zhao Ying, Karypis G. Criterion functions for document clut ring: Experiments and analysis[R/OL]. 20O3-O4-23 [2008-10-2] http://glaros dt: umrL edu/gkhome/cluto/cluto/do:aload [.
3Anon. an Introduction to Cluster Analysis for Data Mining[EB/ OL]. 2000-02-10 [2008-12-2]. http://www, do188, corn/p- 567183494975. html.
4刘泉凤,陆蓓,王小华.文本挖掘中聚类算法的比较研究[J].计算机时代,2005(6):7-8. 被引量：8
5谷波,张永奎.文本聚类算法的分析与比较[J].电脑开发与应用,2003,16(11):4-6. 被引量：11
6Bernd F. Some Competitive Learning Methods [R/OL]. 1997-04-05E2008-10-223. http://www, neuroinformatik, ruhr- uni-bochum, de/ini/VDM/research/gsn/JavaPaper/.
7Ridella S, Rovetta S, Zunino R. Plastic Algorithm for Adaptive Vector Quantisation[J]. Neural Computing &. Applications, 1998,7(1) :37-51.
8Pal N R, Bezdek J C, Tsao E C K. Generalized Clustering Net- works and Kohonen's Self-Organizing Scheme[J]. IEEE Trans- action on Neural Networks, 1993,4(4) : 549-557.
9Hansen P, Mladenovie N. J-Means: A New Local Search Heuris- tic for Minimum Sum-of-Squares Clustering[J]. Pattern Recog- nition, 2001,34(2) ： 405-413.
10唐春生,张磊,潘东,等.文本分类研究进展[EB/OL].2001.ttp://epec.sjtu.edu.cn/seminar/.

二级参考文献11

1Krishma K,Murty M N.Genetic K-Means Algorithm [J]. IEEE Trans on System. Man, and Cybernetics, Part B,1999.29(3):433～439
2S. Guha, R. Rastogi, K. Shim, CURE: An Efficient ClusteringAlgorithm for Large Databases, Proc. 1998 ACMSIGMOD Int.Conf. Management of Data (SIGMOD'98),1998.
3L. Kaufman, P. J. Rousseeuw, Finding Groups in Data: An Introduction to Cluster Analysis, New York:John Wiley &Sons, 1990.
4周水庚,周傲英,曹晶.基于数据分区的DBSCAN算法[J].计算机研究与发展,2000,37(10):1153-1159. 被引量：99
5陈宁,陈安,周龙骧.基于密度的增量式网格聚类算法(英文)[J].软件学报,2002,13(1):1-7. 被引量：44
6苏中,马少平,杨强,张宏江.基于Web-Log Mining的Web文档聚类[J].软件学报,2002,13(1):99-104. 被引量：29
7李戈,邵峰晶,朱本浩.基于神经网络聚类的研究[J].青岛大学学报（工程技术版）,2001,16(4):21-24. 被引量：20
8张莉,周伟达,焦李成.核聚类算法[J].计算机学报,2002,25(6):587-590. 被引量：195
9张伟,廖晓峰,吴中福.一种基于遗传算法的聚类新方法[J].计算机科学,2002,29(6):114-116. 被引量：21
10李飞,薛彬,黄亚楼.初始中心优化的K-Means聚类算法[J].计算机科学,2002,29(7):94-96. 被引量：47

共引文献19

1李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
2原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
3林华兵,傅清祥.基于文本相似度的关键词分类算法[J].福建电脑,2005,21(8):46-47. 被引量：1
4李文炬.文本挖掘技术在农业科技基础数据库中应用的探讨[J].农业网络信息,2005(11):86-87.
5郏宣耀,滕少华.一种基于聚类的彩色图像分色算法[J].计算技术与自动化,2006,25(1):110-113. 被引量：3
6刘海涛,老松杨,韩智广.自动文摘系统中的段落自适应聚类研究[J].微计算机信息,2006,22(06X):288-291. 被引量：6
7白曦,吕晓枫,孙吉贵.融合模拟退火的遗传算法在文档聚类中的应用[J].计算机工程与应用,2006,42(23):144-148. 被引量：2
8陈晓云,王平,何春霞,冷明伟.基于三角不等式原理的TTSAS聚类加速算法[J].计算机工程,2006,32(17):97-99. 被引量：1
9李俊,周宇葵.数据挖掘在生物医学工程文献检索中的应用[J].图书馆学研究,2008(1):22-24.
10樊旭亮.基于中文Blog的话题识别方法探讨[J].大众科技,2008,10(2):11-13.

同被引文献105

1洪月华.一种具有学习能力的人工蜂群优化算法[J].微电子学与计算机,2015,32(6):154-158. 被引量：2
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3黄金杰,李士勇,蔡云泽.一种建立粗糙数据模型的监督模糊聚类方法[J].软件学报,2005,16(5):744-753. 被引量：12
4毛韶阳,李肯立.优化K-means初始聚类中心研究[J].计算机工程与应用,2007,43(22):179-181. 被引量：26
5罗森林,马俊,潘丽敏编著.数据挖掘理论与技术[M].北京:电子工业出版社,2013.
6Zhang Ren-yuan, Shibata T. An analog on-line-learning K-means processor employing fully parallel self-converging cireuitry[J]. Analog Integrated Circuits and Signal Processing, 2013,75 (2): 267-277.
7Sathiyakumari K, Preamsudha V, Manimekalai G, et al. A Sur- vey on Various Approaches in Document Clustering [J]. Inter- national Journal of Computer Technology and Applications, 2011,2(5) : 1534-1539.
8Kannungo T, Mount D M, Netanyahu N S, et al. An Efficient K- Means Clustering Algorithm: Analysis And Implementation[J]. IEEE Transactions on Pattern Analysis and Machine Intelli- gence, 2002,24(7) : 881-891.
9Wang Da, Mazumdar A, Womell G W. A Rate-Distortion Theory For Permutation Spaces[C]//IEEE International Symposium on Information Theory Proceedings. 2013:2562-2566.
10Sun Zhan-quan,Geoffrey F, Gu Wei-dong, et al. A parallel clus- tering method combined information bottleneck theory and cen- troid-based clustering [J]. The Journal of Supercomputing, 2014,69 (1) .. 452-467.

引证文献12

1陈丽娜,司海平,曹永生.多维农业数据交互式协同可视化系统设计与应用[J].商丘师范学院学报,2023,39(3):12-15. 被引量：2
2李钊,李晓,王春梅,李诚,杨春.一种基于MapReduce的文本聚类方法研究[J].计算机科学,2016,43(1):246-250. 被引量：6
3唐颖军,黄淑英,杨勇,戴利云,李贤虹.图像高维数据的K-means自适应聚类算法[J].小型微型计算机系统,2016,37(8):1854-1856. 被引量：6
4姚程宽,光峰,卢灿举,曹立勇,詹喆.数据挖掘经典算法研究[J].广州航海学院学报,2016,24(3):47-49.
5刘飞,唐雅娟,刘瑶.K-means聚类算法中聚类个数的方法研究[J].电子设计工程,2017,25(15):9-13. 被引量：19
6徐鹏程,王诚.K-Means算法改进及基于Spark计算模型的实现[J].南京邮电大学学报（自然科学版）,2017,37(4):113-118. 被引量：11
7洪月华.基于MPI蜂群K均值聚类算法并行化计算[J].计算机工程与设计,2017,38(12):3339-3343. 被引量：5
8张淑芬,董岩岩,陈学斌.基于云计算平台Hadoop的HKM聚类算法设计研究[J].应用科学学报,2018,36(3):524-534. 被引量：9
9ZHU Yehang,ZHANG Mingjie,SHI Feng.Application of Algorithm CARDBK in Document Clustering[J].Wuhan University Journal of Natural Sciences,2018,23(6):514-524.
10林昌辉.基于改进聚类算法在金融用户投资推荐中的应用研究[J].长沙航空职业技术学院学报,2015,15(4):47-51.

二级引证文献61

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：13
2周勇.基于信息损失度的文本聚类研究[J].内蒙古师范大学学报（自然科学汉文版）,2017,46(5):759-762.
3万静,张超,何云斌,李松.可变网格优化的K-means聚类方法[J].小型微型计算机系统,2018,39(1):95-99. 被引量：10
4陶永才,赵国桦,石磊,卫琳.一种改进的MapReduce互信息文本特征选择机制[J].小型微型计算机系统,2018,39(3):433-438. 被引量：7
5彭勇,黄梦兰,姜祖明,魏华勇,刘煜.基于数据挖掘的暂态电力斜坡均衡聚类算法研究[J].电网与清洁能源,2017,33(12):18-22. 被引量：4
6曹家庆,吴观茂.基于MapReduce的分布式贪心EM算法[J].信息技术与网络安全,2018,37(5):84-87. 被引量：1
7葛璐瑶.改进的决策树ID3算法及应用[J].电子技术与软件工程,2018(13):153-154. 被引量：1
8阴爱英,吴运兵,朱敏琛,张莹.基于MapReduce框架下K-means的改进算法[J].计算机应用研究,2018,35(8):2295-2298. 被引量：11
9韦洁华,韦春妙.基于微簇的两阶段高维数据流聚类算法[J].西南师范大学学报（自然科学版）,2018,43(7):100-106.
10薛印玺,许鸿文,李羚.基于样本密度的全局优化K均值聚类算法[J].计算机工程与应用,2018,54(14):143-147. 被引量：14

1夏海英,颜远辉,黄思奇,肖雯静.面向智能监控的运动目标轮廓可靠提取[J].广西师范大学学报（自然科学版）,2014,32(4):39-44.
2郭锐锋,于东,刘明烈,徐心和.基于合同网的任务分配方法的研究[J].小型微型计算机系统,1999,20(10):740-743. 被引量：9
3朱遂伍,孙杏初.关节型工业机器人工作空间及结构尺寸参数的一种确定方法[J].机械科学与技术,1995,14(3):41-44. 被引量：3
4成亚萍.实现冒泡排序算法的一种新方法[J].淮阴师范学院学报（自然科学版）,2003,2(3):234-236. 被引量：6
5谷欣超,梁鲜,曲福恒,才华,杨勇.基于处罚的K-均值优化算法[J].长春理工大学学报（自然科学版）,2015,38(6):103-107. 被引量：1
6王春雨,李喜云,张敏秋.二维图形的矢量裁剪法[J].水利科技与经济,2002,8(3):160-161.
7裴维玲.用注册表编辑器直接恢复IE设置[J].信息网络安全,2002(8):48-49.
8肖满生,肖哲.抑制式模糊C均值聚类惩罚因子的改进[J].计算机应用,2016,36(9):2427-2431. 被引量：5
9南景富,刘延斌,牛广林.轮式移动机器人的路径规划和跟踪控制[J].机械设计与制造,2007(8):131-133. 被引量：5
10张腾达,吕晓琪,任晓颖,谷宇,张明.基于模糊水平集的脑肿瘤MR图像分割方法[J].现代电子技术,2016,39(18):91-95. 被引量：5

计算机科学

2015年第3期

浏览历史

内容加载中请稍等...