面向大数据集的有效聚类算法被引量：7

Efficient clustering algorithm for large data sets

下载PDF

导出

摘要为解决传统模糊C-均值算法无法适应大规模数据集体量大、冗余属性的问题,提出了一种面向大数据集的混合聚类算法。将大数据集划分为多个子集,对各子集进行聚类,通过合并得到最终聚类结果。对于子集采用基于基因表达式编程(GEP)和模糊C-均值的混合算法进行聚类,以改善聚类的质量和效率;基于相似性选取初始聚类中心,使用信息熵体现属性重要程度,从而进一步优化聚类性能。实验仿真及分析结果表明,该算法具有较好地全局收敛性,得到的聚类效果也更好。 To solve the problem that traditional fuzzy C-means algorithm could not adopt to large scale datasets with large size and redundant attribute,a hybrid clustering algorithm for large data sets was proposed.The large data sets were divided into subsets,and each subset was first clustered,and then final clustering result was obtained by merging.The subset was clustered by a mixed algorithm based on gene expression programming （GEP） and fuzzy C-means.The quality and efficiency of clustering was improved.While initial clustering center was selected based on similarity,and the importance of data attribute was embedded by information entropy,thereby the clustering performance was optimized further.Simulation experiments showed that the algorithm had better global convergence,and could get even better clustering result.

作者古凌岚

机构地区广东轻工职业技术学院计算机工程系

出处《计算机工程与设计》 CSCD 北大核心 2014年第6期2183-2187,共5页 Computer Engineering and Design

关键词大数据集模糊C-均值基因表达式编程属性信息熵聚类 large data sets fuzzy C-means gene expression programming attribute information entropy clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1孙洋,罗可.基于免疫遗传算法的模糊C-均值聚类[J].计算机工程与应用,2009,45(23):152-153. 被引量：9
2牛强,夏士雄,周勇,张磊.改进的模糊C-均值聚类方法[J].电子科技大学学报,2007,36(6):1257-1259. 被引量：12
3董军浪,王庆飞.基于改进遗传算法的模糊C均值聚类算法[J].西安工程大学学报,2008,22(5):605-609. 被引量：5
4姜代红,张三友.基于基因表达式编程的K均值自动聚类算法[J].计算机仿真,2010,27(12):216-220. 被引量：10
5陈舵,李雪,崔杜武,费蓉.一种基于模糊度的聚类有效性函数[J].模式识别与人工智能,2008,21(1):34-41. 被引量：11
6李同强,周天弋,吴斌.基于改进遗传算法的加权模糊C均值聚类算法[J].计算机应用,2009,29(B12):260-262. 被引量：11
7陈瑜,唐常杰,叶尚玉,李川,姜钥,刘齐宏.基于基因表达式编程的自动聚类方法[J].四川大学学报（工程科学版）,2007,39(6):107-112. 被引量：28
8王艳春.基因表达式编程算法及其应用综述[J].计算机应用与软件,2010,27(6):23-26. 被引量：9
9胡建军,唐常杰,段磊,左劼,彭京,元昌安.基因表达式编程初始种群的多样化策略[J].计算机学报,2007,30(2):305-310. 被引量：44
10李翠霞,谭营军.一种新的模糊C均值聚类算法[J].河南大学学报（自然科学版）,2011,41(2):201-205. 被引量：3

二级参考文献160

1朱明放,唐常杰,陈瑜,向勇,代术成.基于朴素基因表达式编程的函数自动建模[J].四川大学学报（工程科学版）,2008(4):126-131. 被引量：7
2王悦,唐常杰,杨宁,陈瑜,徐开阔.基于基因表达式编程的进化模式定理[J].四川大学学报（工程科学版）,2009,41(2):167-172. 被引量：8
3向剑平,唐常杰,陈瑜,王悦,杨宁.CEA:基于弱势种群保护抗早熟的聚类淘汰算法[J].四川大学学报（工程科学版）,2009,41(5):146-150. 被引量：1
4杜欣,丁立新.一类基因表达式程序设计的收敛速度[J].中国科学：信息科学,2010,40(1):41-53. 被引量：7
5唐常杰,张天庆,左劼,汪锐,贾晓斌.基于基因表达式编程的知识发现——沿革、成果和发展方向[J].计算机应用,2004,24(10):7-10. 被引量：53
6段磊,唐常杰,左劼,陈宇,钟义啸,元昌安.基于基因表达式编程的抗噪声数据的函数挖掘方法[J].计算机研究与发展,2004,41(10):1684-1689. 被引量：39
7元昌安,唐常杰,左劼,谢方军,陈安龙,胡建军.基于基因表达式编程的函数挖掘——收敛性分析与残差制导进化算法[J].四川大学学报（工程科学版）,2004,36(6):100-105. 被引量：44
8元昌安,唐常杰,温远光,胡建军,彭京.基于基因表达式编程的智能模型库系统的实现[J].四川大学学报（工程科学版）,2005,37(3):99-104. 被引量：11
9张雷,李人厚.人工免疫C-均值聚类算法[J].西安交通大学学报,2005,39(8):836-839. 被引量：17
10贾晓斌,唐常杰,左劼,陈安龙,段磊,汪锐.基于基因表达式编程的频繁函数集挖掘[J].计算机学报,2005,28(8):1247-1254. 被引量：22

共引文献145

1陈烜,刘晓燕,赵泉华,李玉.结合多特征和模糊偏好关系的高分辨率遥感影像分割[J].控制与决策,2020,35(4):781-790. 被引量：3
2向剑平,唐常杰,陈瑜,王悦,杨宁.CEA:基于弱势种群保护抗早熟的聚类淘汰算法[J].四川大学学报（工程科学版）,2009,41(5):146-150. 被引量：1
3邵克勇,范欣,张永华,田野.一种基于数据驱动的模糊系统建模方法[J].化工自动化及仪表,2009,36(5):25-28. 被引量：7
4陈瑜,唐常杰,李川,乔少杰,朱明放.LDecode：具有线性复杂度的GEP适应度评价算法[J].四川大学学报（工程科学版）,2008,40(1):107-112. 被引量：9
5李川,唐常杰,陈瑜,邱江涛,罗谦,吴江,朱军.无表达式树的基因表达[J].计算机应用,2008,28(5):1319-1321. 被引量：9
6李川,唐常杰,陈瑜,代术成,邱江涛,罗谦,朱军.基因的无树评估(英文)[J].计算机工程与应用,2008,44(14):80-84.
7胡建军.中药方剂数据挖掘系统中数据存储的设计[J].福建电脑,2008,24(6):3-4. 被引量：1
8陈舵,崔杜武,李雪.动态模糊聚类及其在变压器故障诊断中的应用[J].计算机工程与应用,2008,44(20):26-29. 被引量：2
9邓松,王汝传.基于网格的GEP函数挖掘算法研究[J].通信学报,2008,29(6):69-74. 被引量：4
10薛思清,张求明,康立山.基于克隆选择原理的基因表达式程序设计[J].计算机工程与设计,2008,29(14):3706-3708.

同被引文献60

1段磊,唐常杰,左劼,陈宇,钟义啸,元昌安.基于基因表达式编程的抗噪声数据的函数挖掘方法[J].计算机研究与发展,2004,41(10):1684-1689. 被引量：39
2洪志令 ,姜青山 ,董槐林 ,Wang Sheng-Rui .模糊聚类中判别聚类有效性的新指标[J].计算机科学,2004,31(10):121-125. 被引量：15
3宫改云,高新波,伍忠东.FCM聚类算法中模糊加权指数m的优选方法[J].模糊系统与数学,2005,19(1):143-148. 被引量：81
4胡建军,唐常杰,段磊,左劼,彭京,元昌安.基因表达式编程初始种群的多样化策略[J].计算机学报,2007,30(2):305-310. 被引量：44
5谢大同,康立山,李悦乔,杜欣.符号回归的一种新算法[J].系统仿真学报,2007,19(8):1667-1671. 被引量：6
6姜玥,唐常杰,郑明秀,叶尚玉,吴江.基因表达式编程中动态适应的远缘繁殖策略[J].四川大学学报（工程科学版）,2007,39(2):121-126. 被引量：7
7Ferreira C. Gene expression programming:A new adaptive algorithm for solving problems [ J ]. Complex Systems,2001,13 (2) :87 - 129.
8ROBERT TIBSHIRANI. Cluster validation by predication strength [J]. 2001. http://citeseerx, ist. psu. edu/viewdoc/summary? Doi = 10.1.1.24. 2960.
9卞亦文.大样本数据聚类的改进方法[J].统计与决策,2009,25(1):12-13. 被引量：5
10范九伦,裴继红,谢维信.基于可能性分布的聚类有效性[J].电子学报,1998,26(4):113-115. 被引量：41

引证文献7

1阮梦黎.基因表达式编程的种群多样性优化策略与应用[J].山东师范大学学报（自然科学版）,2015,30(3):58-62. 被引量：1
2卢威,戴文娟,黄雅馨,张峰,陈靓瑜.面向表层海水温度的时空数据挖掘研究[J].海洋信息,2015,30(3):9-15.
3蔡洪山,许峰.基于改进预测强度的大数据K-均值聚类方法[J].软件导刊,2016,15(5):4-6. 被引量：1
4王振辉,夏鸿斌.模糊加权多视角可能性聚类算法[J].计算机应用与软件,2017,34(4):294-298. 被引量：3
5金保林.基于模糊聚类改进的光纤大数据分类算法研究[J].激光杂志,2018,39(7):152-156. 被引量：2
6侯莉莎.大数据集合中冗余特征排除的聚类算法设计[J].现代电子技术,2018,41(14):48-50. 被引量：9
7张华丽,杨帆,杨华勇.云计算下大数据分布式存储中冗余数据分配算法[J].中国电子科学研究院学报,2018,13(4):433-438. 被引量：20

二级引证文献36

1李浩光.大数据网络分布式独立内存分配算法研究[J].科技通报,2021,37(4):37-41.
2谢伯林,王正国,朱佩芳,严密,张军军.大鼠视网膜光化学损伤的病理特征[J].第三军医大学学报,2000,22(5):442-444. 被引量：18
3屈洁.虚拟环境下大数据智能并行聚类方法研究[J].计算机测量与控制,2017,25(6):257-260. 被引量：4
4鄢靖丰.基因表达式程序设计在宏观经济预测中的应用[J].许昌学院学报,2018,37(12):64-67.
5谢梦怡.混合云存储架构下分布式大数据异步迁移系统设计[J].电子设计工程,2019,27(23):45-49. 被引量：10
6陈鹏,程思,鲍婷婷,翟伶俐,王宏斌.基于二分K均值聚类算法的数字档案优化[J].气象科技,2019,47(6):1032-1036. 被引量：4
7张昊,赵洋,赵晓红.基于小波分析的网络通信大数据谱聚类算法研究[J].自动化与仪器仪表,2020,0(1):36-39. 被引量：2
8赵云强,韩翼,崔慧茹,郑琳.聚类目标函数下混合属性大数据集分析系统[J].电子设计工程,2020,28(4):73-76. 被引量：3
9刘睿,吴军平.PTN中LAG技术研究与实现[J].电子设计工程,2020,28(7):113-117.
10于菊珍,员婉婉.任务分配条件下大数据异常依赖冲突协作检测[J].计算机仿真,2020,37(5):408-411. 被引量：2

1狄文辉,李卿,楼新远.基于修正系数的决策树分类算法[J].计算机工程与设计,2008,29(24):6344-6346. 被引量：6
2徐永华,李广水.基于距离加权模板约简和属性信息熵的增量SVM入侵检测算法[J].计算机科学,2012,39(12):76-78. 被引量：10
3强保华,吴中福,余建桥,陈凌,吴开贵.基于属性信息熵的实体匹配方法研究[J].计算机工程,2005,31(21):31-33. 被引量：5
4李春贵,王萌,孙自广,王晓荣,张增芳.属性频率划分和信息熵离散化的决策树算法[J].计算机工程与应用,2009,45(12):153-156. 被引量：4
5张永梅,韩焱,张建华.一种有效聚类算法的研究和实现[J].计算机应用,2005,25(7):1573-1576. 被引量：2
6周伟.Energy efficient clustering algorithm based on neighbors for wireless sensor networks[J].Journal of Shanghai University(English Edition),2011,15(2):150-153. 被引量：2
7曾志,周永福,杜震洪,刘仁义.云环境下基于Entropy-KNN算法的节点选择策略[J].浙江大学学报（理学版）,2015,42(3):359-364. 被引量：6
8陈恩红,王上飞,宁岩,王煦法.一种利用代表点的有效聚类算法设计与实现[J].模式识别与人工智能,2001,14(4):417-422. 被引量：10
9陈洁,熊晓.基于分形维度的聚类算法研究[J].天津理工大学学报,2008,24(6):30-32. 被引量：1
10戴东波,赵杠,孙圣力.基于概率数据流的有效聚类算法[J].软件学报,2009,20(5):1313-1328. 被引量：15

计算机工程与设计

2014年第6期

浏览历史

内容加载中请稍等...

面向大数据集的有效聚类算法被引量：7

参考文献12

二级参考文献160

共引文献145

同被引文献60

引证文献7

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

面向大数据集的有效聚类算法 被引量：7

参考文献12

二级参考文献160

共引文献145

同被引文献60

引证文献7

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

面向大数据集的有效聚类算法被引量：7