一种改进的DBSCAN算法在Spark平台上的应用被引量：7

Application of Improved DBSCAN Algorithm on Spark Platform

下载PDF

导出

摘要针对DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法内存占用率较高的问题,文中将改进的DBSCAN聚类算法与Spark平台并行聚类计算理论相结合,对海量数据采用分而治之的办法进行聚类处理,大幅减小了算法对内存的占用率。实验仿真结果表明,所提出的并行计算方法能够有效缓解内存不足的问题,并且该方法也能够用来评价DBSCAN聚类算法在Hadoop平台下的聚类分析效果,还能对两种聚类方法进行对比分析,从而获得较好的计算性能;且其比在Hadoop平台上的计算加速度提高了24%左右,因此可以用以评价DBSCAN聚类算法在聚类处理方面的优劣。 Aiming at the problem of high memory occupancy of DBSCAN(Density-Based Spatial Clustering of Applications with Noise)clustering algorithm,this paper combines the improved DBSCAN clustering algorithm with the parallel clustering calculation theory of Spark platform,and the clustering and processing methods for massive data are clustered,which greatly reduces the memory usage of the algorithm.The experimental simulation results show that the proposed parallel computing method can effectively reduce the shortage of memory,and it also can be used to evaluate the clustering effect of the DBSCAN clustering algorithm on the Hadoop platform,and compare and analyze the two clustering methods to obtain better computing performance.Besides,the acceleration is increased by about 24%compared with that on the Hadoop platform.The proposed method can be used to evaluate the pros and cons of the DBSCAN clustering algorithm in clustering.

作者邓定胜 DENG Ding-sheng(School of Science and Technology,Sichuan Minzu College,Kangding,Sichuan 626001,China)

机构地区四川民族学院理工学院

出处《计算机科学》 CSCD 北大核心 2020年第S02期425-429,443,共6页 Computer Science

基金四川民族学院自然科学重点项目(XYZB19001ZA) 四川省教育厅自然科学重点项目(17ZA0295) 四川民族学院2017年应用型示范课程项目(sfkc201705) 国家自然科学基金项目(11461058)。

关键词并行计算 DBSCAN 聚类算法 SPARK 聚类加速比 Parallel computing DBSCAN Clustering algorithm Spark Clustering acceleration ratio

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1宁建飞.基于spark框架的DBSCAN文本聚类算法[J].汕头大学学报（自然科学版）,2018,33(2):73-80. 被引量：2
2王兴,吴艺,蒋新华,廖律超.大规模数据集下基于DBSCAN算法的增量并行化快速聚类[J].计算机应用与软件,2018,35(4):269-275. 被引量：7
3赵文,夏桂书,苟智坚,闫振兴.一种改进的DBSCAN算法[J].四川师范大学学报（自然科学版）,2013,36(2):312-316. 被引量：17
4王玲,吴璐璐,付冬梅.一种基于密度的模糊自适应聚类算法[J].北京科技大学学报,2014,36(11):1560-1565. 被引量：5

二级参考文献36

1宋明,刘宗田.基于数据交叠分区的并行DBSCAN算法[J].计算机应用研究,2004,21(7):17-20. 被引量：9
2何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16
3李杰,贾瑞玉,张璐璐.一个改进的基于DBSCAN的空间聚类算法研究[J].计算机技术与发展,2007,17(1):114-116. 被引量：13
4冯少荣,肖文俊.基于密度的DBSCAN聚类算法的研究及应用[J].计算机工程与应用,2007,43(20):216-221. 被引量：34
5Chem M S, Hart J H, Yu P S. Data mining: An overview from a database perspective [ J ]. IEEE Transactions on Knowledge and Data Engineering, 1996,8 ( 6 ) : 866 - 883.
6Kaufan L, Rpusseeuw P J. Finding Group in Data: An Introduction to Cluster Analysis [ M ]. New York:John Wiley & Sons, 1990.
7Guha S, Rastogi R, Shi M K. CURE:An Efficient (;lustering Algorithm for Large Databases[ C]//Proc 1998 ACMSIGMOD Inter Conf Manage Data. New York : ACM Press, 1998 -73 - 84.
8Agrawal R, Gehrke J, Gunopolos D, et al. Automatic subspace clustering of high dimensional data for data mining application [ C ]//Proc ACM SIGMOD Inter Conf Very Large Data Base. Roma:Morgan Kalffmann Publishers,2001:331 -340.
9Ester M, Kriegel H P, Sander J, et al. A density based algorithm for discovering clusters in large spatial database with noise [ C ]//Proc 2nd Inter Conf Know Discove Data Mining. Portland:AAAI Press, 1996:226 -231.
10Lin C Y, Chang C C, Lin C C. Fundamental Informatieae,2005,68(4) :315 -331.

共引文献26

1侯冀超,谢成心,孟凡兴,温秀梅.基于模糊聚类处理月亮型数据的研究与实现[J].河北建筑工程学院学报,2022,40(3):173-178.
2张扬,陈亮,张番栋.一种基于聚类的情报分析程序的设计与实现[J].情报杂志,2013,32(8):27-30. 被引量：6
3朱俚治.一种改进和实现密度聚类的算法[J].信息安全与技术,2015,6(11):29-32.
4王玲,吴璐璐,付冬梅.一种基于密度的模糊自适应聚类算法[J].北京科技大学学报,2014,36(11):1560-1565. 被引量：5
5凌朝东,陈虎,杨骁,张浩,黄信.结合SLIC超像素和DBSCAN聚类的眼底图像硬性渗出检测方法[J].华侨大学学报（自然科学版）,2015,36(4):399-405. 被引量：8
6张晓,张媛媛,高阳,周新民.一种基于密度的快速聚类方法[J].数据采集与处理,2015,30(4):888-895. 被引量：6
7赵京胜,韩凌霄,孙宇航.一种优化初始中心的改进K-means算法[J].青岛理工大学学报,2015,36(6):99-102. 被引量：2
8姜建华,杨玉免,边海燕,康嘉容,王丽敏,刘颖.改进DBSCAN聚类算法在电子商务网站评价中的应用[J].吉林大学学报（理学版）,2016,54(2):329-336. 被引量：5
9赵京胜,孙梦丹,张丽.一种有效的K-means初始中心优化算法[J].信息技术与信息化,2016(5):77-79. 被引量：3
10包瑞胜,马新,崔熠明.基于优化DBSCAN算法的智能车载激光雷达数据处理技术研究[J].中国交通信息化,2017(3):135-140. 被引量：7

同被引文献83

1闪淳昌,周玲,秦绪坤,沈华,宿洁.我国应急管理体系的现状、问题及解决路径[J].公共管理评论,2020,2(2):5-20. 被引量：79
2冯少荣,肖文俊.DBSCAN聚类算法的研究与改进[J].中国矿业大学学报,2008,37(1):105-111. 被引量：88
3武佳薇,李雄飞,孙涛,李巍.邻域平衡密度聚类算法[J].计算机研究与发展,2010,47(6):1044-1052. 被引量：22
4于亚飞,周爱武.一种改进的DBSCAN密度算法[J].计算机技术与发展,2011,21(2):30-33. 被引量：35
5张帅,范荣双,梁勇,王晓.基于手机定位方法的研究与精度分析[J].全球定位系统,2011,36(2):45-48. 被引量：16
6陈刚,刘秉权,吴岩.一种基于高斯分布的自适应DBSCAN算法[J].微电子学与计算机,2013,30(3):27-30. 被引量：24
7周水庚,周傲英,曹晶.基于数据分区的DBSCAN算法[J].计算机研究与发展,2000,37(10):1153-1159. 被引量：99
8金安,程承旗,宋树华,陈波.基于Geohash的面数据区域查询[J].地理与地理信息科学,2013,29(5):31-35. 被引量：57
9武炜,陈标,吴剑锋,黄馗.基于五点三次平滑算法的入库流量反推研究[J].水利水电技术,2013,44(12):100-102. 被引量：35
10薛陇彬,刘钊远.基于WebSocket的网络实时通信[J].计算机与数字工程,2014,42(3):478-481. 被引量：30

引证文献7

1姚业浩,李毅念,陈玉仑,丁启朔,何瑞银.基于油菜角果长度图像识别的每角粒数测试方法[J].农业工程学报,2021,37(23):153-160. 被引量：6
2张长勇,陈治华,韩梁.基于改进DBSCAN的激光雷达障碍物检测[J].激光与光电子学进展,2021,58(24):443-450. 被引量：8
3闫强强,张敏,荀亚玲.采用有效邻近点和适应密度的密度聚类算法[J].计算机技术与发展,2022,32(9):14-22. 被引量：4
4何文康,陈冰瑜,蔡贤资.应急管理巡护轨迹的优化方法及实验仿真[J].实验技术与管理,2022,39(9):250-255. 被引量：1
5卢建云,邵俊明,张蔚.基于RAPIDS的无参DBSCAN算法[J].数据采集与处理,2023,38(2):426-438.
6孙泽军,常新峰,王飞飞,杨开语.“互联网+”背景下学生网络学习行为分析及预警[J].平顶山学院学报,2023,38(2):37-46.
7蔡贤资,冯雅雯,蓝嘉雪,黄小虎.大型商业区域智能导航服务定位修正策略探索[J].金融科技时代,2023,31(12):59-62.

二级引证文献19

1张长勇,韩梁.基于优化DBSCAN的激光雷达障碍物检测[J].激光与光电子学进展,2022,59(12):506-514. 被引量：7
2张煌,何佳洲,王景石,蒋佳锐.基于全景图像的无人艇激光雷达杂波滤除方法[J].光学学报,2022,42(18):66-76. 被引量：4
3Lili Yang,Yuanyuan Xu,Yajie Liang,Jia Qin,Yuanbo Li,Xinxin Wang,Weixin Zhai,Long Wen,Zhibo Chen,Caicong Wu.Extraction of straight field roads between farmlands based on agricultural vehicle-mounted LiDAR[J].International Journal of Agricultural and Biological Engineering,2022,15(5):155-162. 被引量：1
4王瑞萍,刘东风,王先琳,杨会君.基于多视图几何的白菜薹分割与关键表型测量[J].农业工程学报,2022,38(16):243-251. 被引量：2
5高雨菲.基于密度聚类算法的大学英语教学资源分类方法研究[J].信息与电脑,2022,34(22):67-69. 被引量：1
6郑先哲,赵兴隆,刘成海,霍俊伟,杨昊,刘钗,沈柳杨.基于果实颜色特征的蓝靛果忍冬花青素含量预测[J].农业工程学报,2023,39(2):242-251. 被引量：3
7杨建宇,胡芬,邢福临,董浩,侯梦迪,李任植,潘雷霆,许京军.结合多次DBSCAN和层次聚类算法的膜蛋白单分子定位超分辨图像分割[J].中国激光,2023,50(3):78-85. 被引量：2
8梁浩林,蔡怀宇,刘博翀,汪毅,陈晓冬.基于图像与点云融合的公路撒落物检测算法[J].激光与光电子学进展,2023,60(10):32-39. 被引量：3
9胡杰,安永鹏,徐文才,熊宗权,刘汉.基于激光点云的深度语义和位置信息融合的三维目标检测[J].中国激光,2023,50(10):192-202. 被引量：15
10李莉,王小龙,张之欣,时榕良,郭旭.新型电力系统分布式家庭光伏采集场景下的信任评估模型[J].通信学报,2023,44(7):197-206. 被引量：2

1黄蕾.加速康复外科理念在腹腔镜治疗胆囊结石并胆总管结石患者护理中的应用疗效观察[J].健康女性,2020,12(17):174-174.
2包杨洋,王欣.优质护理在急性心梗护理中的应用[J].益寿宝典,2020(4):19-19.
3刘荣鑫.面向数据集覆盖问题的优化算法研究[J].智能计算机与应用,2020,10(6):79-85.
4季策,穆文欢,耿蓉.基于A-DBSCAN的欠定盲源分离算法[J].系统工程与电子技术,2020,42(12):2676-2683. 被引量：4
5张光丽,彭丽.中青年急性右心室心梗护理中心理护理的应用效果[J].益寿宝典,2020(4):56-56.
6姚龙燕,张光丽.简易版八段锦对慢性心力衰竭患者心功能及生活质量的影响研究[J].益寿宝典,2020(4):69-69. 被引量：1
7激荡计算产业未来[J].软件和集成电路,2020(11):4-4.
8Arm通过64位计算突破移动终端性能与安全局限[J].单片机与嵌入式系统应用,2020,20(12):27-27.
9项建弘,魏俊豪.一种根据ADMM改进的图像去噪方法[J].应用科技,2020,47(4):14-19. 被引量：1
10陈红梅,林洁琪,陈燊,林小燕,林雅蓉,陈辉清(指导).陈辉清主任治疗小儿泄泻的经验探析[J].中国中医药现代远程教育,2020,18(21):57-59.

计算机科学

2020年第S02期

浏览历史

内容加载中请稍等...

一种改进的DBSCAN算法在Spark平台上的应用被引量：7

参考文献4

二级参考文献36

共引文献26

同被引文献83

引证文献7

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一种改进的DBSCAN算法在Spark平台上的应用 被引量：7

参考文献4

二级参考文献36

共引文献26

同被引文献83

引证文献7

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一种改进的DBSCAN算法在Spark平台上的应用被引量：7