基于最小生成树的多层次k-Means聚类算法及其在数据挖掘中的应用被引量：17

Multi-level k-Means Clustering Algorithm Based on Minimum Spanning Tree and Its Application in Data Mining

下载PDF

导出

摘要针对传统聚类算法存在挖掘效率慢、准确率低等问题,提出一种基于最小生成树的多层次k-means聚类算法,并应用于数据挖掘中.先分析聚类样本的数据类型,根据分析结果设计聚类准则函数;再通过最小生成树对样本数据进行划分,并选取初始聚类中心,将样本的数据空间划分为矩形单元,在矩形单元中对样本对象数据进行计算、降序和选取,得到有效的初始聚类中心,减少数据挖掘时间.实验结果表明,与传统算法相比,该算法可快速、准确地挖掘数据,且挖掘效率提升约50%. Aiming at the problem of slow mining efficiency and lowaccuracy in traditional clustering algorithm,we proposed a multi-level k-means clustering algorithm based on minimum spanning tree,and applied to datamining.Firstly,we analyzed thedata types of the clustering samples and designed the clustering criterion function according to the analysis results.Secondly,we divided the sample data bythe minimum spanning tree,and selected the initial clustering center.The data space of the sample was divided into rectangular unit,the sample object data was calculated,descended and selected in the rectangular unit,the effective initial clustering center was obtained to reduce the time spent in data mining.The experimental results show that,compared with the traditional algorithm,the proposed method can quickly and accurately excavate the data,and the efficiency ofmining is increased by about 50%.

作者金晓民张丽萍 JIN Xiaomin;ZHANG Liping(Institute of Transportation,Inner Mongolia University,Hohhot 010021,China;Inner Mongolia Engineering Research Center of Testing and Strengthening for Bridges,Hohhot 010070,China;College of Computer Science and Technology,Inner Mongolia Normal Univers ity,Hohhot 010022,China)

机构地区内蒙古大学交通学院内蒙古自治区桥梁检测与维修加固工程技术研究中心内蒙古师范大学计算机科学技术学院

出处《吉林大学学报（理学版）》 CAS CSCD 北大核心 2018年第5期1187-1192,共6页 Journal of Jilin University:Science Edition

基金国家自然科学基金(批准号:61462071)

关键词最小生成树多层次k-means聚类算法数据挖掘 minimum spanning tree multi-level k-means clus tering algorithm data mining

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献10

1林媛.非结构化网络中有价值信息数据挖掘研究[J].计算机仿真,2017,34(2):414-417. 被引量：22
2何拥军,骆嘉伟,余爱民.多帧CT图像数据的测序数据挖掘与规律分析[J].现代电子技术,2017,40(14):106-108. 被引量：1
3贾瑞玉,李振.基于最小生成树的层次K-means聚类算法[J].微电子学与计算机,2016,33(3):86-88. 被引量：18
4王茜,刘胜会.改进K-means算法在入侵检测中的应用研究[J].计算机工程与应用,2015,51(17):124-127. 被引量：13
5杨辉华,王克,李灵巧,魏文,何胜韬.基于自适应布谷鸟搜索算法的K-means聚类算法及其应用[J].计算机应用,2016,36(8):2066-2070. 被引量：22
6李洪成,吴晓平,陈燕.MapReduce框架下支持差分隐私保护的k-means聚类方法[J].通信学报,2016,37(2):124-130. 被引量：24
7张顺龙,库涛,周浩.针对多聚类中心大数据集的加速K-means聚类算法[J].计算机应用研究,2016,33(2):413-416. 被引量：28
8陈平华,陈传瑜.基于满二叉树的二分K-means聚类并行推荐算法[J].计算机工程与科学,2015,37(8):1450-1457. 被引量：9
9张睿,熊金虎,汪东兴,高欣.基于体素邻域信息的均值漂移聚类算法检测fMRI激活区[J].江苏大学学报（自然科学版）,2016,37(5):556-561. 被引量：5
10王永,万潇逸,陶娅芝,张璞.基于K-medoids项目聚类的协同过滤推荐算法[J].重庆邮电大学学报（自然科学版）,2017,29(4):521-526. 被引量：14

二级参考文献110

1卿斯汉,蒋建春,马恒太,文伟平,刘雪飞.入侵检测技术研究综述[J].通信学报,2004,25(7):19-29. 被引量：234
2陈小全,张继红.基于改进粒子群算法的聚类算法[J].计算机研究与发展,2012,49(S1):287-291. 被引量：31
3江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
4邓爱林,左子叶,朱扬勇.基于项目聚类的协同过滤推荐算法[J].小型微型计算机系统,2004,25(9):1665-1670. 被引量：147
5刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
6吴新玲.数据维数消减方法研究[J].计算机工程与设计,2006,27(16):3000-3002. 被引量：2
7贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：226
8武振华,唐焕文,唐一.ROC分析及其在fMRI信号中的一个应用[J].生物医学工程学杂志,2007,24(1):19-22. 被引量：2
9陆林花,王波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172. 被引量：26
10王洁松张小飞.KDDCup99网络入侵检测数据的分析和预处理.科技信息,2008,(15):407-408.

共引文献144

1郑洪清.改进的蝴蝶优化聚类算法[J].计算机系统应用,2020(10):217-221. 被引量：2
2段桂芹,邹臣嵩.基于K-medoids算法的学生成绩聚类研究[J].微型电脑应用,2020,0(2):64-66. 被引量：1
3岳金柱,王德来.对易县“两山”划分和“四荒”拍卖的思考[J].河北林果研究,2000,15(1):20-23. 被引量：3
4邵晶.大数据在新媒体传播中的运用[J].新闻传播,2018(23):66-67. 被引量：3
5王胜利.基于大数据聚类算法在网络安全中的应用[J].网络安全技术与应用,2016(1):50-50. 被引量：4
6郑志娴,王敏.基于大数据的K-means聚类算法在网络安全检测中的应用[J].湖北第二师范学院学报,2016,33(2):36-40. 被引量：6
7汪文靖,冯瑞.基于二分K-means的测试用例集约简方法[J].计算机工程,2016,42(12):73-77. 被引量：4
8刘宝龙,苏金.双MapReduce改进的Canopy-Kmeans算法[J].西安工业大学学报,2016,36(9):730-737. 被引量：6
9陈丽珊.数据挖掘中敏感信息安全问题的探讨[J].福建广播电视大学学报,2016(5):19-22.
10冀晓岩,李玉龙.Hadoop环境下基于改进聚类的个性化推荐算法[J].兰州交通大学学报,2017,36(1):70-76. 被引量：1

同被引文献125

1李洁,高新波,焦李成.一种基于GA的混合属性特征大数据集聚类算法[J].电子与信息学报,2004,26(8):1203-1209. 被引量：9
2黄敏,何中市,邢欣来,陈英.一种新的k-means聚类中心选取算法[J].计算机工程与应用,2011,47(35):132-134. 被引量：20
3刘兵,夏士雄,周勇,韩旭东.基于样本加权的可能性模糊聚类算法[J].电子学报,2012,40(2):371-375. 被引量：21
4郑丹,王潜平.K-means初始聚类中心的选择算法[J].计算机应用,2012,32(8):2186-2188. 被引量：35
5李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1606
6胡伟.改进的层次K均值聚类算法[J].计算机工程与应用,2013,49(2):157-159. 被引量：63
7冯波,郝文宁,陈刚,占栋辉.K-means算法初始聚类中心选择的优化[J].计算机工程与应用,2013,49(14):182-185. 被引量：50
8喻金平,郑杰,梅宏标.基于改进人工蜂群算法的K均值聚类算法[J].计算机应用,2014,34(4):1065-1069. 被引量：50
9姚一鸣,邱俊强.18 d亚高原训练对花样滑冰运动员生理机能及运动表现的影响[J].北京体育大学学报,2018,41(12):85-90. 被引量：13
10于剑,程乾生.模糊聚类方法中的最佳聚类数的搜索范围[J].中国科学（E辑）,2002,32(2):274-280. 被引量：130

引证文献17

1刘凌旗,张炜,王洪川.世界人工智能研究储量及技术热点分析——基于2013~2018年SCIE高质量数据[J].中国电子科学研究院学报,2020,15(2):115-124.
2王贺,张秀梅.智能教学系统中动态学生模型构建[J].科技资讯,2019,17(9):15-17.
3段琪.数据挖掘中的聚类算法分析[J].信息与电脑,2019,0(15):39-40. 被引量：2
4周倩雯,曹磊,韩家熊.基于多源数据融合的配网台区效能自动评估方法[J].自动化应用,2019(7):99-101.
5彭伟.可信动态度量下学习行为数据分布式挖掘算法[J].黑龙江工业学院学报（综合版）,2019,19(11):49-53. 被引量：1
6李永定.基于网格和密度的k-means聚类算法[J].洛阳理工学院学报（自然科学版）,2019,29(4):48-54. 被引量：1
7曾俊.基于划分的数据挖掘K-means聚类算法分析[J].现代电子技术,2020,43(3):14-17. 被引量：19
8詹柳春,黄长江.云计算下物联网密集场景大数据挖掘技术[J].电子测量技术,2019,42(23):164-168. 被引量：15
9陈斌.多节点网络时序数据相似性度量算法及数据应用[J].信息工程大学学报,2019,20(5):571-575.
10张毅.基于多元生理参数的人体热舒适程度自动检测方法综述[J].长春大学学报,2020,30(4):10-15. 被引量：1

二级引证文献64

1陈金山.基于密度峰值的电子商务用户行为数据聚类方法[J].哈尔滨师范大学自然科学学报,2023,39(4):65-69.
2毕海波.SAS聚类算法在外商投资企业经营分析中的应用研究[J].金融科技时代,2020,28(3):41-46.
3吴建平,詹桢,王涛,文博,杨红超.基于通讯数据的社群聚类分析[J].科教文汇,2020(21):107-109.
4赵俊炜,黎鸣,梅傲琪.基于聚类算法对主站与电厂、变电站的数据同步问题的研究[J].中国科技纵横,2020(5):28-29.
5褚龙现,陈婉冰.基于Hadoop的Web日志分析系统设计[J].信息与电脑,2020,32(20):116-118. 被引量：4
6王文晶,闫俊伢.基于大数据的在线学习行为分析与干预研究[J].山西电子技术,2020(6):69-71. 被引量：3
7李文娟.改进粒子群优化算法的云计算任务调度策略[J].国外电子测量技术,2020,39(10):55-59. 被引量：7
8张思源.基于云计算技术物联网仓储管理系统设计[J].电子制作,2021,29(1):57-60. 被引量：3
9刘金安,汤新民,胡钰明,陈强超.基于聚类分析的航空器滑行过点时间预测[J].南京航空航天大学学报,2020,52(6):903-911. 被引量：1
10刘园园.数理统计方法在计量检测数据分析中应用研究[J].大众标准化,2021(1):248-249. 被引量：6

1刘哲,韩九强,黄世奇.基于多引导滤波器的单幅图像超分辨率技术[J].红外技术,2017,39(10):920-927. 被引量：1
2徐进.新时期如何提升博物馆讲解员综合素养[J].精品,2018(3):83-83.
3苏适,李红萍,严玉廷,陆海,王飞,任惠,N.A.Engerer,米增强.服务于区域光伏预测的天空图像K-means云空辨识模型[J].华北电力大学学报（自然科学版）,2017,44(6):61-68.
4蒋丽,薛善良.优化初始聚类中心及确定K值的K-means算法[J].计算机与数字工程,2018,46(1):21-24. 被引量：26
5杜洪波,白阿珍,朱立军.基于改进的密度峰值算法的K-means算法[J].统计与决策,2018,0(18):20-24. 被引量：12
6卢建明.核心素养下初中语文写作教学探究[J].神州,2018,0(28):208-208.
7罗经辉.影响无线网络安全的相关因素和层次分析法-灰色聚类评价方法分析[J].信息与电脑,2017,29(3):96-98.
8李婧,于丽英.基于直觉模糊集的模糊C均值聚类改进算法[J].上海大学学报（自然科学版）,2018,24(4):634-641. 被引量：5
9秦博阳,张如意.个人信息保护需共建共治[J].中国电信业,2018,0(9):29-31.
10徐艳,付学良,李宏慧,董改芳,王晴.一种基于特征加权的K-Means算法研究[J].计算机科学与应用,2018,8(8):1164-1171.

吉林大学学报（理学版）

2018年第5期

浏览历史

内容加载中请稍等...

基于最小生成树的多层次k-Means聚类算法及其在数据挖掘中的应用被引量：17

参考文献10

二级参考文献110

共引文献144

同被引文献125

引证文献17

二级引证文献64

相关作者

相关机构

相关主题

浏览历史

基于最小生成树的多层次k-Means聚类算法及其在数据挖掘中的应用 被引量：17

参考文献10

二级参考文献110

共引文献144

同被引文献125

引证文献17

二级引证文献64

相关作者

相关机构

相关主题

浏览历史

基于最小生成树的多层次k-Means聚类算法及其在数据挖掘中的应用被引量：17