一种并行的加速k-均值聚类方法被引量：2

A Parallel Speeding K-means Clustering Method

下载PDF

导出

摘要针对传统k-均值聚类方法不能有效处理海量数据聚类的问题,该文提出一种基于并行计算的加速k-均值聚类(K-means clustering based on parallel computing,Pk-means)方法。该方法首先将海量的聚类样本随机划分为多个独立同分布的聚类工作集,并在每个工作集上并行进行传统k-均值聚类,并得到相应的聚类中心和半径,通过衡量不同子集聚类结果的关系,对每个工作集中聚类得到的子类进行合并,并对特殊数据进行二次归并以校正聚类结果,从而有效处理海量数据的聚类问题。实验结果表明,Pk_means方法在大规模数据集上在保持聚类效果的同时大幅度提高了聚类效率。 To solve problems that traditional k-means clustering algorithm can not solve the large scale dataset clustering,this pa per presents a speeding k-means clustering method based on parallel computing,called PK-means clustering algorithm,in order to solve the low efficiency clustering problem of traditional k-means algorithm.The large scale samples set is divided into some clustering working sets with independent identical distribution and the traditional k-means clustering method is executed on ev ery working set.Then the center and radius of every cluster is computed,and the clustering results of all working sets are com bined by the relationship of different working set.At last,the remaining small special samples are clustered by the former results.The parallel computing way is used in this process,so the clustering efficiency is improved largely and it can be used to solve the large scale clustering problems.Simulation results demonstrate that the excellent clustering efficiency is obtained by this parallel speeding k-means method.

作者王秀华

机构地区晋中学院计算机学院

出处《电脑知识与技术》 2013年第6X期4299-4302,共4页 Computer Knowledge and Technology

关键词 K-均值聚类并行计算并行k-均值聚类工作集效率 k-means clustering parallel computing parallel k-means clustering working set efficiency

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1唐新宇.浅析数据挖掘中的聚类分析[J].电脑知识与技术,2013,9(3X):2031-2032. 被引量：3
2周红芳,赵雪涵,周扬.基于限定区域数据取样的密度聚类算法[J].计算机应用,2012,32(8):2182-2185. 被引量：5
3徐天顺.谱聚类算法研究[J].电脑知识与技术,2012,8(6):3948-3950. 被引量：5
4彭厚文,杨爽,何凤成.基于聚类算法的并行化研究[J].电脑知识与技术,2009,5(8X):7010-7012. 被引量：2
5许华杰,李国徽,杨兵,杜建强.基于密度的不确定性数据概率聚类[J].计算机科学,2009,36(5):68-71. 被引量：12
6周兵,冯中慧,王和兴.集群环境下的并行聚类算法之研究[J].计算机科学,2007,34(10):195-199. 被引量：2
7刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
8张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
9Jain AK,Murty MN,Flynn PJ.Data clustering: a review[].ACM Computing Surveys.1999
10Mu-Chun Su,Chien-Hsing Chou.A modified version of the k-means algorithm with a distance based on cluster symmetry. IEEE Transactions on Pattern Analysis and Machine Intelligence . 2001

二级参考文献66

1司文武,钱沄涛.一种基于谱聚类的半监督聚类方法[J].计算机应用,2005,25(6):1347-1349. 被引量：11
2冯少荣,肖文俊.基于密度的DBSCAN聚类算法的研究及应用[J].计算机工程与应用,2007,43(20):216-221. 被引量：34
3Cheng R.Managing Uncertainty in Constantly-evolving Environments[D].Purdue University,2005
4Cheng R,Kalashnikov D V,Prabhal.ar S.Evaluating probabilistic queries over imprecise data[C]//The 2003 ACM SIGMOD International Conference on Management of Data.San Diego,2003
5Cheng R,Xia Y,Prabhal.ar S,et al.Efficient indexing methods for probabilistic threshold queries over uncertain data[C]//The 30th International Conference on Very Large Data Bases.Toronto,2004
6Dalvi N,Suciu D.Efficient query evaluation on probabilistic databases[C]//The 30th International Conference on Very Large Data Bases.Toronto,2004
7Chau M,Cheng R,Kao B,et al.Uncertain Data Mining:An Example in Clustering Location Data[C] // The 10th Pacific-Asia Conference on Knowledge Discovery and Data Mining.Singapore,2006
8Kriegel H-P,Pfeifle M.Density-based clustering of uncertain data[C]//The 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining.Chicago,2005
9Ester M,Kriegel H-P,Sander J,et al.A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C]//The 2nd International Conference on Knowledge Discovery and Data Mining.Portland,1996
10Stonebral.er M,Frew J,Gardels K,et al.The SEQUOIA 2000 Storage Benchmark[C]//The 1993 ACM SIGMOD International Conference on Management of Data.Washington,1993

共引文献316

1孙美卫.一种基于学习模型与BoW-SURF的目标识别算法[J].中原工学院学报,2021(1):79-83.
2李小波,刘威,李健.基于模糊聚类分析方法的高含水期油藏层系优化[J].当代化工,2019,0(11):2630-2633. 被引量：2
3刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：23
4娄冬梅,陈明,朱有娜.一种基于密度的无参数聚类算法[J].计算机研究与发展,2006,43(z3):328-331.
5刘琳,曾鹏,于海斌.工业无线传感器网络中的簇首节点部署问题[J].中国仪器仪表,2008(S1):115-121.
6徐辉,李石君.一种整合粒子群优化和K-均值的数据聚类算法[J].山西大学学报（自然科学版）,2011,34(4):518-523. 被引量：9
7杨增芳.一种基于分布的空间聚类算法[J].玉溪师范学院学报,2012,28(4):48-53. 被引量：1
8秦燕,赵彦伟,杨志峰.基于模糊聚类技术的区域生态功能区划研究——以三峡库区万州为例[J].应用基础与工程科学学报,2009,17(S1):74-81. 被引量：2
9张吉稳,何汉武,胡兆勇.基于虚拟环境的汽车驾驶安全预警方法[J].系统仿真学报,2009,21(S1):234-237. 被引量：1
10司建波,姚燕,郭蔚莹,杨芳.基于模糊聚类的Web用户聚类方法与实现[J].吉林大学学报（工学版）,2013,43(S1):485-488.

同被引文献22

1张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
2周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
3韩家炜,坎伯.数据挖掘概念与技术[M].北京:机械工业出版社.2008.
4汤秋菊,李义杰.无指导聚类在信用卡促销中的应用[J].计算机与现代化,2007(9):100-102. 被引量：1
5ViktorMS,KennethC.大数据时代[M].盛扬燕,周涛译.杭州:浙江人民出版社,2012.
6Rudi L Cilibrasi, Paul M B Vitanyi. A fast quartet tree heuristic for hierarchical clustering [ J ]. Pattern Recogni- tion, 2011,44(3) :662-677.
7Su M C, Chou C H. A modified version of the k-means al- gorithm with a distance based on cluster symmetry [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelli- gence, 2001,23(6) :674-680.
8Elkan C. Using the triangle inequality to accelerate k- means [ C ]/! Proceedings of the 20th International Confer- ence on Machine Learning. 2003:147-153.
9Huang G B, Ding X, Zhou H. Optimization method based extreme learning machine for classification [ J ]. Neuroeom- puting, 2010,74 ( 1-3 ) : 155-163.
10UCI Machine Learning Repository. Welcome to the UC Ir- vine Machine Learning Repository! [ DB/OL]. http://ar- chive, ics. uci. edu/ml/, 2013-07-01.

引证文献2

1王秀华.基于随机抽样的加速K-均值聚类方法[J].计算机与现代化,2013(12):27-29. 被引量：7
2韩岩,李晓.加速大数据聚类K-means算法的改进[J].计算机工程与设计,2015,36(5):1317-1320. 被引量：14

二级引证文献20

1郭东东,郝润芳,吉增涛,杨信廷,周超,梁旭姣.基于三轴加速度传感器的山羊行为特征分类与识别[J].家畜生态学报,2014,35(8):53-57. 被引量：8
2郭东东,郝润芳,吉增涛,钱建平,周超,梁旭娇.三种记录间隔时间对山羊行为分类精度的影响[J].科学技术与工程,2015,35(2):254-258.
3韩岩,李晓.加速大数据聚类K-means算法的改进[J].计算机工程与设计,2015,36(5):1317-1320. 被引量：14
4谢川.基于混沌关联维特征提取的大数据聚类算法[J].计算机科学,2016,43(6):229-232. 被引量：6
5牛常勇,刘国枢.基于局部全局相似度的SVD的协同过滤算法[J].计算机工程与设计,2016,37(9):2497-2501. 被引量：6
6田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：26
7郭占元,林涛.面向大规模数据快速聚类K-means算法的研究[J].计算机应用与软件,2017,34(5):43-47. 被引量：17
8宋学伟,李东营,黄天仑.T型管液压成形加载路径自适应多目标优化[J].哈尔滨工业大学学报,2017,49(7):139-145. 被引量：4
9张清川,孙帆,王宇晨,李金良,王洁.物联网环境下Web数据库异常数据检测方法研究[J].计算机测量与控制,2017,25(9):170-173. 被引量：3
10赵敏,魏长江,王树华.基于Eaton方法的地层压力预测的算法研究与实现[J].青岛大学学报（自然科学版）,2017,30(3):86-88. 被引量：5

1安爱芬.一种加速的k-均值聚类方法[J].韶关学院学报,2012,33(12):15-18. 被引量：1
2张莉,孙钢,郭军.基于K-均值聚类的无监督的特征选择方法[J].计算机应用研究,2005,22(3):23-24. 被引量：29
3孙德山,李海清.基于线性规划的支持向量聚类算法[J].计算机工程与设计,2010,31(6):1305-1307. 被引量：2
4耿德志.一种改进的数据流聚类方法[J].山西师范大学学报（自然科学版）,2014,28(3):22-25.
5王秀华.基于随机抽样的加速K-均值聚类方法[J].计算机与现代化,2013(12):27-29. 被引量：7
6廖绍雯.一种基于K-均值聚类方法的肤色分割算法[J].甘肃联合大学学报（自然科学版）,2011,25(4):64-66. 被引量：2
7汪军,王传玉.模糊聚类算法在痕迹图像分割中的应用[J].南通大学学报（自然科学版）,2010,9(1):19-23. 被引量：1
8盛莉,邹开其,邓冠男.基于网格和密度的模糊C均值聚类初始化方法[J].计算机应用与软件,2008,25(3):22-23. 被引量：9
9伍国鑫,刘秉权,刘铭.一种改进的多视图K-均值聚类算法[J].智能计算机与应用,2014,4(3):11-14. 被引量：4
10胡伟.一种改进的动态k-均值聚类算法[J].计算机系统应用,2013,22(5):116-121. 被引量：8

电脑知识与技术

2013年第6X期

浏览历史

内容加载中请稍等...

一种并行的加速k-均值聚类方法被引量：2

参考文献11

二级参考文献66

共引文献316

同被引文献22

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

一种并行的加速k-均值聚类方法 被引量：2

参考文献11

二级参考文献66

共引文献316

同被引文献22

引证文献2

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

一种并行的加速k-均值聚类方法被引量：2