一类基于贝叶斯信息准则的k均值聚类算法被引量：15

An k Means Clustering Algorithm Based on Bayesian Information Criterion

下载PDF

导出

摘要典型k-均值算法中的聚类数k必须是事先给定的确定值,然而,实际应用中k很难被精确地确定。同时该算法对初始聚类中心的依赖性而导致聚类结果可能陷入局部极小,使得该算法对一些实际问题无效。采用基于密度聚类算法(DBSCAN),在筛选局部代表点时结合贝叶斯信息准则(BIC),得到少量精准反映局部数据分布的BIC核心点。然后,以BIC核心点为初始聚类中心,BIC核心点数量为类别数,对全局数据进行k-均值聚类。实验结果表明,优化的k-均值算法是一种有效可行的聚类算法。 The value of k must be confirmed in advance to exert k-means algorithm,however,it can not be clearly and easily confirmed in fact for its uncertainty.At the same time,the dependence of k-means algorithm on the initial center may sink into the local minimum,makes this algorithm ineffective for a number of practical issues.An effective algorithm based on density-based spatical clustering of application with noise（DBSCAN） is proposed,which is combined with the Bayesian Information Criterion（BIC）,only selecting less BIC-core-points to represent each local site.The global k-means clustering select BIC-core-points as the initial cluster centers,the value of k is equal to the number of BIC-core-points.Experimental results show that the feasibility and the effectiveness of optimal k-means algorithm.

作者储岳中

机构地区安徽工业大学计算机学院

出处《安徽工业大学学报（自然科学版）》 CAS 2010年第4期409-412,共4页 Journal of Anhui University of Technology（Natural Science）

基金安徽省教育厅自然科学基金资助项目(KJ2008B103)

关键词空间聚类k -均值聚类贝叶斯信息准则(BIC) 密度聚类算法(DBSCCAN) 核心点 spatial clustering k-means clustering algorithm Bayesian information criterion density-based clustering of application with noise core-points

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1HanJ,KAMBERM.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2002:223-262.
2马帅,王腾蛟,唐世渭,杨冬青,高军.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):1089-1095. 被引量：108
3郑苗苗,吉根林.一种基于密度的分布式聚类算法[J].南京大学学报（自然科学版）,2008,44(5):536-543. 被引量：11
4杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：191
5Kass R, Wasserman L. A reference Bayesian test for nested hypotheses and it s relationship to the Schwarz criterion[J]. Journal of the American Statistical Association, 1995(90 ):773-795.
6Rui Xu, Donald Wunsch II. Survey of Clustering Alborithms[J]. IEEE Transactions on Neural Networks,2005,16(3):645-678.
7王红睿,赵黎明,裴剑.均衡化的改进K均值聚类法[J].吉林大学学报（信息科学版）,2006,24(2):172-176. 被引量：13
8淦文燕,李德毅.基于核密度估计的层次聚类算法[J].系统仿真学报,2004,16(2):302-305. 被引量：30
9Bezdek J C, Nikhil R P. Some new indexes of cluster validity[J]. IEEE Transactions on Systems, Man and Cybemertics-Part B, 1998,28(3) : 301-310.
10Januzaj E, Kriegel H P, Pfeifle M. DBDC:Density based distributed clustering[C].Proceedings of the 9th International Conference of Extending Database Technology. Heraklion : Springer, 2004 : 88-105.

二级参考文献25

1赵鹏,耿焕同,王清毅,蔡庆生.基于聚类和分类的个性化文章自动推荐系统的研究[J].南京大学学报（自然科学版）,2006,42(5):512-518. 被引量：13
2Han JW, Kambr M. Data Mining Concepts and Techniques. Beijing: Higher Education Press, 2001. 145-176.
3Kaufan L, Rousseeuw PJ. Finding Groups in Data: an Introduction to Cluster Analysis. New York: John Wiley & Sons, 1990.
4Ester M, Kriegel HP, Sander J, Xu X. A density based algorithm for discovering clusters in large spatial databases with noise. In:Simoudis E, Han JW, Fayyad UM, eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining.Portland: AAAI Press, 1996. 226-231.
5Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databases. In: Haas LM, Tiwary A, eds. Proceedings of the ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. "73-84.
6Agrawal R, Gehrke J, Gunopolos D, Raghavan P. Automatic subspace clustering of high dimensional data for data mining application. In: Haas LM, Tiwary A, eds. Proceedings of the ACM SIGMOD International Conference on Management of Data.Seattle: ACM Press, 1998.94-105.
7Alexandros N, Yannis T,Yannis M. C^2P: clustering based on closest pairs. In: Apers PMG, Atzeni P, Ceri S, Paraboschi S,Ramamohanarao K, Snodgrass RT, eds. Proceedings of the 27th International Conference on Very Large Data Bases. Roma:Morgan Kaufmann Publishers, 2001. 331-340.
8Berchtold S, Bohm C, Kriegel H-P. The pyramid-technique: towards breaking the curse of dimensionality. In: Haas LM, Tiwary A,eds. Proceedings of the ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. 142- 153.
9Yu C, Ooi BC, Tan K-L, Jagadish HV. Indexing the distance: an efficient method to KNN processing. In: Apers PMG, Atzeni P,Ceri S, Paraboschi S, Ramamohanarao K, Snodgrass RT, eds. Proceedings of the 27th International Conference on Very Large Data Bases. Roma: Morgan Kaufmann Publishers, 2001. 421--430.
10Treshansky A,McGraw R.An overview of clustering algorithms[A].Proceedings of SPIE,The International Society for Optical Engineering[C].2001(4367):41-51.

共引文献342

1段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
2刘文一,孙伟,朱良明,赵志博.舰载飞行器打击水面舰艇编队队形识别和目标选择方法[J].兵器装备工程学报,2020,41(2):85-89. 被引量：11
3刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
4赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1
5楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
6李玉鑑.自适应K-均值聚类算法[J].计算机研究与发展,2007,44(z2):100-104. 被引量：5
7毛尚勤,黄心汉,王敏.基于密度聚类的彩色图像分割方法[J].华中科技大学学报（自然科学版）,2011,39(S2):116-119. 被引量：2
8韩丽苹,孟海东,李海荣.聚类算法在矿产资源与经济发展关系研究中的应用[J].煤炭技术,2015,34(5):290-292.
9薛永生,翁伟,文娟,王劲波,张宇.LSNCCP——一种基于最大不相含核心点集的聚类算法[J].计算机研究与发展,2004,41(11):1930-1935. 被引量：2
10陈燕,耿国华,郑建国.一种改进的基于密度的聚类算法[J].微机发展,2005,15(3):17-19. 被引量：13

同被引文献143

1栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：115
2薛方正,方帅,徐心和.多机器人对抗系统仿真中的对手建模[J].系统仿真学报,2005,17(9):2138-2141. 被引量：7
3岳佳,王士同.高斯混合模型聚类中EM算法及初始化的研究[J].微计算机信息,2006,22(11X):244-246. 被引量：51
4郑海金,邓吉彬.能耗最低机采系统设计方法的研究及应用[J].石油学报,2007,28(2):129-132. 被引量：36
5赵洪激,刘扬,高林森.树状双管掺热水集输系统参数优化技术[J].石油学报,1997,18(1):104-110. 被引量：16
6Xu Rui, Donald Wunsch. Survey of clustering algorithms [J]. IEEE Trans on Neural Networks,2005,16(3):645-678.
7Lai Jim Z C,Liaw Yi-Ching.Improvement of the k-means clustering filtering algorithm [J]. Pattern Recognition, 2008,41 (12): 3677-3681.
8Liaw Yi-Ching.Improvement of the fast exact pairwise-nearestneighbor algorithm[J].Pattern Recognition,2009,42(5):867-870.
9Januzaj E, Kriegel H P, Pfeifle M.DBDC:Density based distributed clustering[C].Proceedings of the 9th International Conference of Extending Database Technology. Heraklion: Springer, 2004:88-105.
10Kass R,Wasserman L.A reference Bayesian test for nested hypotheses and its relationship to the Schwarz criterion[J].Journal of the American Statistical Association,1995,90(431):928-934.

引证文献15

1方兴,晋欣桥,范波,杜志敏,曾晓庆.基于层次聚类的航站楼空调机组运行性能评价[J].化工学报,2012,63(S2):89-94. 被引量：1
2储岳中,徐波.动态最近邻聚类算法的优化研究[J].计算机工程与设计,2011,32(5):1687-1690. 被引量：5
3王军,柳红岩.基于三目视觉系统的车辆导引方法[J].计算机应用,2014,34(6):1762-1764. 被引量：4
4周海涛,王志刚,刘昌明.基于主成分分析和高斯混合模型的耐火材料损伤信号分类[J].武汉科技大学学报,2014,37(4):269-272. 被引量：4
5刘彤,李顺平,陈钢.健康效用值测量中映射法应用的研究进展[J].中国药物经济学,2018,13(11):121-124. 被引量：5
6袁青云,王福利,何大阔,张淑宁.考虑模型误差的浸出过程优化方法[J].控制与决策,2014,29(8):1408-1412.
7刘潭,高宪文,王丽娜.补偿模型误差的采油过程多目标优化[J].控制理论与应用,2015,32(5):615-622. 被引量：3
8杨晓斌,毛雪岷.聚类分析在电信客户细分中的应用[J].鄂州大学学报,2015,22(7):101-103.
9郭晨晨,朱红康.基于K-均值和K-中心点算法的大数据集分析[J].太原师范学院学报（自然科学版）,2016,15(2):56-59. 被引量：1
10王华芳,王婷,王祥,魏珍,范瑾,武鹏,张洁,仇丽霞.二次推断函数与广义估计方程缓控释制剂工艺数据建模比较[J].中国卫生统计,2016,33(5):752-754. 被引量：4

二级引证文献34

1周德鑫,刘茵,唐夕佳,王善泽,马剑达,林建子,戴冽,凌莉.类风湿关节炎患者健康效用值测量研究——从HAQ-DI到EQ-5D-5L的映射[J].热带医学杂志,2022,22(3):295-300. 被引量：4
2谢小莲,杜涛,乔静.LASSO-logistic回归模型在高尿酸血症影响因素分析中的应用[J].武警医学,2023,34(3):185-189. 被引量：3
3苏亚然,陈军霞,牛习现.随机种子最近邻居搜索聚类算法研究[J].河北科技大学学报,2012,33(4):338-342. 被引量：1
4胡博磊,谭建豪.基于累积平均密度的聚类方法[J].计算机工程与科学,2013,35(1):155-159. 被引量：1
5曾明如,刘公法,宗胡亮,刘亮.无线信道统计模型识别[J].南昌大学学报（理科版）,2012,36(6):577-580. 被引量：1
6任培花,王丽珍.不确定域环境下基于DKC值改进的K-means聚类算法[J].计算机科学,2013,40(4):181-184. 被引量：7
7吴玲玉,白尘.兼顾属性距离及关系强度的密度聚类算法[J].计算机应用研究,2013,30(11):3283-3286. 被引量：2
8王军,孙慧婷,姜志,何昕.基于Hessian矩阵多尺度滤波的路面裂缝图像检测方法[J].计算机应用,2016,36(A01):174-176. 被引量：8
9李旭健,张丛静.一种基于改进的混合高斯模型的运动目标检测算法[J].软件导刊,2016,15(8):10-12. 被引量：1
10黄佩秋,刘建昌,谭树彬,王洪海.混合多目标粒子群优化算法在热精轧负荷分配优化中的应用[J].控制理论与应用,2017,34(1):93-100. 被引量：7

1赵凯,史长琼,张理阳.基于聚类分析的P2P流量识别[J].长沙理工大学学报（自然科学版）,2010,7(3):58-62. 被引量：3
2白志杰,李弼程,彭天强.基于BIC的新闻视频近似重复帧检测方法[J].计算机应用,2009,29(6):1694-1695.
3邸若海,高晓光,郭志高.基于改进BIC评分的贝叶斯网络结构学习[J].系统工程与电子技术,2017,39(2):437-444. 被引量：10
4许明,韩军伟,郭雷,尹文杰.利用模型选择确定视觉词袋模型中词汇数目[J].计算机工程与应用,2011,47(31):148-150. 被引量：3
5于俊清,胡小强,孙凯.改进的音频混合分割方法[J].计算机辅助设计与图形学学报,2010,22(7):1174-1181. 被引量：4
6郭鹏,李乃祥,刘同海.基于进化MCMC的DBN学习算法[J].计算机工程,2011,37(10):143-145.
7谭立球,夏利民,谷士文.基于信息瓶颈算法的图像分割[J].计算机工程,2008,34(18):215-216.
8郑铁然,李海峰,刘先,韩纪庆.基于预分割的说话人分割方法[J].通信学报,2009,30(2):118-122. 被引量：4
9王晓斌,温春,石昭祥.基于贝叶斯信息准则的文本主题数估计[J].计算机工程,2009,35(7):183-185. 被引量：5
10陈树,陆颖.WSN中多节点RSS混合序列聚类算法研究[J].计算机与现代化,2016(5):46-50. 被引量：1

安徽工业大学学报（自然科学版）

2010年第4期

浏览历史

内容加载中请稍等...

一类基于贝叶斯信息准则的k均值聚类算法被引量：15

参考文献10

二级参考文献25

共引文献342

同被引文献143

引证文献15

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

一类基于贝叶斯信息准则的k均值聚类算法 被引量：15

参考文献10

二级参考文献25

共引文献342

同被引文献143

引证文献15

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

一类基于贝叶斯信息准则的k均值聚类算法被引量：15