一种基于k-均值的DBSCAN算法参数动态选择方法被引量：23

k-means based method for dynamically selecting DBSCAN algorithm parameters

下载PDF

导出

摘要为解决DBSCAN聚类算法的Eps及MinPts参数选择问题,提出一种领域无关的参数动态选择方法。首先,基于k-均值算法对数据集进行初步聚类,聚类中采用最大最小距离方法确定初始聚类中心。其次,针对k-均值聚类结果,计算统计各聚类中样本间距离的分布情况,选择使得具有最大样本对数的距离值作为对应类的Eps值,并通过Eps获得MinPts值。最后,对DBSCAN算法进行改进,使其可根据当前核心点所属k-均值聚类对应的Eps对其运行值进行自适应调整。将上述思想运用于未知协议条件下的比特流聚类分析,结果表明,在无需用户指定Eps及MinPts的条件下,即可获得满意的聚类结果,提高了算法的适用性和准确率。 This paper puts forward a field-irrelative method for dynamically selecting the Eps and MinPts parameters forDBSCAN algorithm.The dataset is first crudely clustered with k-means algorithm using maximum and minimum distanceinitial-centers choosing method.The distance distribution of samples within each k-means cluster is then calculated andanalyzed,choosing the distance which allows maximum point-pair numbers as Eps.The MinPts parameter is also calculatedaccording to the confirmed Eps.Also it improves DBSCAN algorithm to dynamically adjust Eps according to the kmeanscluster to which the current key point belongs.Appling the above ideas to unknown protocol bitstreams clustering,the experiment results demonstrate that the improved DBSCAN can yield satisfied clustering results without manuallyspecifying the Eps and MinPts parameters.The applicability and accuracy of DBSCAN algorithm are improved.

作者王兆丰单甘霖 WANG Zhaofeng;SHAN Ganlin(Electronics and Optics Engineering Department, Ordnance Engineering College, Shijiazhuang 050003, China)

机构地区军械工程学院电子与光学工程系

出处《计算机工程与应用》 CSCD 北大核心 2017年第3期80-86,共7页 Computer Engineering and Applications

关键词聚类一种经典的基于密度的聚类算法(DBSCAN) 参数选择 K-均值算法未知协议 clustering Density-Based Spatial Clustering of Applications with Noise(DBSCAN) algorithm parameter selection k-means algorithm unknown protocol

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1王守强,朱大铭.基于最小聚类求解k-means问题算法[J].通信学报,2010,31(7):46-52. 被引量：6
2于勇前,赵相国,王国仁,陈衡岳.一种基于密度单元的自扩展聚类算法[J].控制与决策,2006,21(9):974-978. 被引量：7
3蔡颖琨,谢昆青,马修军.屏蔽了输入参数敏感性的DBSCAN改进算法[J].北京大学学报（自然科学版）,2004,40(3):480-486. 被引量：39
4周红芳,王鹏.DBSCAN算法中参数自适应确定方法的研究[J].西安理工大学学报,2012,28(3):289-292. 被引量：42
5赵文,夏桂书,苟智坚,闫振兴.一种改进的DBSCAN算法[J].四川师范大学学报（自然科学版）,2013,36(2):312-316. 被引量：17
6夏鲁宁,荆继武.SA-DBSCAN:一种自适应基于密度聚类算法[J].中国科学院研究生院学报,2009,26(4):530-538. 被引量：81
7冯少荣,肖文俊.一种提高DBSCAN聚类算法质量的新方法[J].西安电子科技大学学报,2008,35(3):523-529. 被引量：13
8张丽杰.具有稳定饱和度的DBSCAN算法[J].计算机应用研究,2014,31(7):1972-1975. 被引量：14
9王兆丰,单甘霖.一种基于聚类和模式串匹配的未知协议比特流分类方法研究[J].军械工程学院学报,2015,27(4):65-71. 被引量：1

二级参考文献100

1周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
2何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16
3李杰,贾瑞玉,张璐璐.一个改进的基于DBSCAN的空间聚类算法研究[J].计算机技术与发展,2007,17(1):114-116. 被引量：13
4冯少荣,肖文俊.基于密度的DBSCAN聚类算法的研究及应用[J].计算机工程与应用,2007,43(20):216-221. 被引量：34
5..http://www.ics.uci.edu/mleam/MLSununary.html,.
6MacQueen J.Some methods for classification and analysis of multivariate observations[C]//LeCam L,Neyman J,eds.Proceedings of the Fifth Berkeley Symposium on Mathematics,Statistics and Probability.Berkeley:University of California Press,1967:281-297.
7Leonard Kaufman,Peter J Rousseenw.Finding groups in data:An introduction to cluster analysis[M].New York:Wiley Press,2005.
8Tan P N,Steinbach M,Kumar V 著,范明,范宏建,等译,数据挖掘导论(Introduction to DataMining).北京:人民邮电出版社,2006.
9Ester M,Kriegel H P,Sander J.A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Simoudis E,Hart JW,Fayyad UM,eds.Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining.Portland:AAAI Press,1996:226-231.
10Ankerst M,Breunig M M,Kriegcl H P.OPTICS:ordering points to identify the clustering structure[C]//Alex Dells,Christns Faloutscs,Shahram Ghandeharizadeh eds.Proceedings of the ACM SIGMOD'99 lnt Conf on Management of Data.Philadelphia Pennsylvania:ACM Press,1999:49-60.

共引文献187

1张怡霄,郭文普,康凯,姚云龙,王攀.基于聚类与网格搜索的TDOA/DOA联合定位方法[J].战术导弹技术,2020(1):105-112. 被引量：2
2侯冀超,谢成心,孟凡兴,温秀梅.基于模糊聚类处理月亮型数据的研究与实现[J].河北建筑工程学院学报,2022,40(3):173-178.
3伊胜伟,刘旸,魏红芳.基于数据挖掘的入侵检测系统智能结构模型[J].计算机工程与设计,2005,26(9):2464-2466. 被引量：10
4徐晓华.高中阶段教育面临的形势与发展策略[J].教育科学论坛,2005(12):57-58.
5陈治平,王雷,李志成.基于密度梯度的聚类算法研究[J].计算机应用,2006,26(10):2389-2392. 被引量：4
6李秀芳,李志成.基于数据挖掘的聚类算法研究[J].计算技术与自动化,2006,25(3):41-45. 被引量：3
7李杰,贾瑞玉,张璐璐.一个改进的基于DBSCAN的空间聚类算法研究[J].计算机技术与发展,2007,17(1):114-116. 被引量：13
8陈宇.聚类算法研究[J].福建电脑,2007,23(7):27-29. 被引量：1
9徐仰彬,刘志镜.基于DBSCAN的簇共享对象的处理办法[J].计算机技术与发展,2007,17(7):38-39.
10于勇前,赵相国,陈衡岳,王国仁.基于引力概念的聚类质量评估算法[J].东北大学学报（自然科学版）,2007,28(8):1109-1112. 被引量：3

同被引文献191

1王德文,杨凯华.基于生成式对抗网络的窃电检测数据生成方法[J].电网技术,2020,44(2):775-782. 被引量：50
2邹同华,高云鹏,伊慧娟,徐长宝,夏睿,吴聪.基于Thompson tau-四分位和多点插值的风电功率异常数据处理[J].电力系统自动化,2020(15):156-165. 被引量：44
3简志春,李清泉,常晓猛.社交网络定位数据在居民职住地识别方法中的研究[J].测绘地理信息,2020,45(1):56-61. 被引量：3
4张永峰.对数据采集器等受雷击情况的分析及对策[J].电子科技,2004,17(7):58-60. 被引量：1
5李新延,李德仁.DBSCAN空间聚类算法及其在城市规划中的应用[J].测绘科学,2005,30(3):51-53. 被引量：38
6庄军,郭平,周杨,周劲,蔡日旭.路由器日志序列模式挖掘[J].计算机科学,2005,32(11):179-181. 被引量：2
7于勇前,赵相国,王国仁,陈衡岳.一种基于密度单元的自扩展聚类算法[J].控制与决策,2006,21(9):974-978. 被引量：7
8张宁.基于交通资源优化配置的机场群整合问题[J].综合运输,2007,29(6):16-20. 被引量：14
9孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1074
10李明华,刘全,刘忠,郗连霞.数据挖掘中聚类算法的新发展[J].计算机应用研究,2008,25(1):13-17. 被引量：50

引证文献23

1伏家云,靖常峰,杜明义.空间密度聚类模式挖掘方法DBSCAN研究回顾与进展[J].测绘科学,2018,43(12):50-57. 被引量：7
2崔元,张琢.基于大规模网络日志的模板提取研究[J].计算机科学,2017,44(B11):448-452. 被引量：7
3李赞,王朝霞,隋昊.基于DBSCAN算法的机场体系划分方法研究[J].兵器装备工程学报,2018,39(10):173-177.
4胡健,朱海湾,毛伊敏.基于自适应蜂群优化的DBSCAN聚类算法[J].计算机工程与应用,2019,55(14):105-114. 被引量：12
5李霖,杨宇翔,吴永强.基于高阶累积量非线性变换的JTIDS多用户聚类分选[J].电信技术研究,2019,0(2):32-38.
6犹峰,王渊.优化GSA算法在电力调度系统不良数据检测中的应用[J].自动化技术与应用,2019,38(7):33-36. 被引量：5
7袁昊,金铭,邱昱,李兴.基于电力系统日志的模板提取研究[J].电力信息与通信技术,2019,17(8):37-41. 被引量：1
8蒋华,林森,王鑫,王慧娇.海洋数据下的密度自适应聚类算法[J].计算机工程与设计,2019,40(9):2523-2529. 被引量：4
9刘洪歧,陈远平,马建化.系统日志模板提取方法研究[J].计算机系统应用,2019,28(10):239-244. 被引量：3
10王军华,李建军,李俊山,赖文达.自适应快速搜索密度峰值聚类算法[J].计算机工程与应用,2019,55(24):122-127. 被引量：9

二级引证文献106

1江城,饶尧,胡文博,许朝阳,万长瑛,丁胜.基于大数据的综合能源系统能效对标方法研究[J].环境工程,2023,41(S02):1078-1082. 被引量：3
2肖韵菲,黄捷,孙冠宇,高希龙,陈建国,文婷婷,文剑.基于无监督机器学习的核电厂支吊架智能布置研究[J].电子技术（上海）,2021,50(1):58-61. 被引量：2
3魏巍巍.空间数据挖掘的方法进展及其问题探究[J].产业与科技论坛,2020(8):35-36.
4胡聪,徐敏,洪德华,刘翠玲,薛晓茹,王海鑫.基于改进K-medoids聚类和SVM的异常用电模式在线检测方法[J].国外电子测量技术,2022,41(2):53-59. 被引量：8
5岳金柱,王德来.对易县“两山”划分和“四荒”拍卖的思考[J].河北林果研究,2000,15(1):20-23. 被引量：3
6邓盛彪,张宏涛,孙勇,苏子宁,凌云汉.基于大数据的锻造生产过程模型的搭建与分析[J].锻压技术,2019,44(5):174-179. 被引量：5
7应毅,黄慧,刘定一.基于PageRank的热点发现混合算法研究[J].计算机技术与发展,2019,29(9):81-85. 被引量：3
8袁昊,金铭,邱昱,李兴.基于电力系统日志的模板提取研究[J].电力信息与通信技术,2019,17(8):37-41. 被引量：1
9刘洪歧,陈远平,马建化.系统日志模板提取方法研究[J].计算机系统应用,2019,28(10):239-244. 被引量：3
10王玉成,王世海,周芟杉.基于GSA算法与抗差估计的抽水蓄能电站电能数据校正方法[J].数字技术与应用,2019,37(10):124-125. 被引量：1

1徐海涛,郑宁.基于模拟退火算法的实体化视图动态选择方法[J].计算机工程与应用,2005,41(22):190-193. 被引量：1
2王勇,代桂平,侯亚荣.信任感知的组合服务动态选择方法[J].计算机学报,2009,32(8):1668-1675. 被引量：37
3冯少荣,肖文俊.DBSCAN聚类算法的研究与改进[J].中国矿业大学学报,2008,37(1):105-111. 被引量：88
4许芳芳.一种基于密度的Web文本聚类算法[J].电脑知识与技术（过刊）,2015,21(3X):234-235 239. 被引量：1
5陈敏,余晓平,左文英.K-means算法的分析及改进[J].佳木斯大学学报（自然科学版）,2015,33(6):872-876.
6许芳芳.一种结合蚁群聚类算法的DBSCAN算法[J].池州学院学报,2014,28(6):33-36. 被引量：2
7李本伍,王小华,谢君廷.一种图像中检测直线的快速算法[J].杭州电子科技大学学报（自然科学版）,2007,27(6):67-70. 被引量：8
8徐黎明.蚁群算法在网上书店推荐系统中的应用研究[J].软件导刊,2007,6(6):107-108.
9曹大铸,胡平,蒋珉.一类分布参数动态系统的混合仿真[J].东南大学学报（自然科学版）,1989,19(1):78-87.
10庞天杰,赵兴旺.一种基于先验信息的混合数据聚类个数确定算法[J].计算机科学,2016,43(2):101-104. 被引量：3

计算机工程与应用

2017年第3期

浏览历史

内容加载中请稍等...

一种基于k-均值的DBSCAN算法参数动态选择方法被引量：23

参考文献9

二级参考文献100

共引文献187

同被引文献191

引证文献23

二级引证文献106

相关作者

相关机构

相关主题

浏览历史

一种基于k-均值的DBSCAN算法参数动态选择方法 被引量：23

参考文献9

二级参考文献100

共引文献187

同被引文献191

引证文献23

二级引证文献106

相关作者

相关机构

相关主题

浏览历史

一种基于k-均值的DBSCAN算法参数动态选择方法被引量：23