基于spark框架的DBSCAN文本聚类算法被引量：2

Parallel DBSCAN Algorithm Based on Spark Framework in Text Classification

下载PDF

导出

摘要针对DBSCAN算法性能上的瓶颈以及内存和I/O上的消耗严重,提出了一种大数据计算框架的并行聚类方案.选用Spark计算框架对DBSCAN算法进行并行化改进,利用SNN相似度图解决DBSCAN算法对高维数据密度定义模糊的问题,并且将DBSCAN算法运行在spark计算平台上,缓解了内存的不足.实验结果证明,该解决方案相对于单机的DBSCAN算法,聚类精度没有下降,并且通过横向的添加节点增加了运行内存,在缓解内存紧张的前提下降低了算法运行时间,和基于Hadoop的DBSCAN算法相比也有较好的加速比. The memory cost and the disk＇s IO of the Density-Based Spatial Clustering of Applications with Noise（DBSCAN） algorithm is very hard. With the data size grows, the performance of DBSCAN algorithm declines much. To solve these problems, a parallel algorithm of DBSCAN based on Spark framework was proposed. First, because the density in high-dimensional data is hard to define, SNN similarity is used to measure two data in high dimension. To parallelize the algorithm in the spark, solving the memory problem is inadequate. The experiment results show that the parallel algorithm of DBSCAN does not decline the precision of clustering and does not reduce the time of running using adding runtime memory transversely. Compared to the parallel algorithm based in Hadoop, it has better speedup ratio.

作者宁建飞 NING Jianfei(Electronic Information Department,Luoding Polytechnic,Luoding 527200, Guangdong, Chin)

机构地区罗定职业技术学院电子信息系

出处《汕头大学学报（自然科学版）》 2018年第2期73-80,共8页 Journal of Shantou University：Natural Science Edition

基金广东职业教育信息化研究会基金资助项目(YZJY161724)

关键词 DBSCAN聚类大数据并行算法 SNN相似度 Spark计算平台 DBSCAN clustering big data parallel algorithm SNN similarity Spark Computing platform

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16
2周水庚,周傲英,曹晶.基于数据分区的DBSCAN算法[J].计算机研究与发展,2000,37(10):1153-1159. 被引量：99
3于苹苹,倪建成,姚彬修,李淋淋,曹博.基于Spark框架的高效KNN中文文本分类算法[J].计算机应用,2016,36(12):3292-3297. 被引量：19
4宋明,刘宗田.基于数据交叠分区的并行DBSCAN算法[J].计算机应用研究,2004,21(7):17-20. 被引量：9
5邹艳春.基于DBSCAN算法的文本聚类研究[J].软件导刊,2016,15(8):36-38. 被引量：6

二级参考文献30

1周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
2刘远超,王晓龙,刘秉权,钟彬彬.信息检索中的聚类分析技术[J].电子与信息学报,2006,28(4):606-609. 被引量：9
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
4傅华忠,茅剑.基于DBSCAN聚类算法的Web文本挖掘[J].科技信息,2007(1):55-56. 被引量：5
5[1]Beachmann N,et al.The R*-tree:An Efficient and Robust Access Method for Points and Rectanggles[C].Proc.of ACM SIGMOD Int'l Conf.on Management of Data,Atlantic:ACM Press,1998.73-84.
6[2]Ester M,et al.A Densith-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C].Proc.of 2nd Int'l Conf.on Knowledge Discovering in Databases and Data Mining (KDD-96),Portland:AAA I Press,1996.
7[3]Guha S,Rastogi R,Shimk.CURE:An Efficient Clustering Algorithm for Large Databases[C].Proc.of the ACM SIGMOD Int'l Conf.on Morgan Kaufmann,1997.186-195.
8[4]Paul Stolorz,et al.Scalable High Performance Computing for Knowledge Discovery and Data Mining[M].Kluwer Academic Publishers,1997.
9[6]Paul Stolorz,Ron Musick.Scalable High Performance Computing for Knowledge Discovery and Data Mining[M].Kluwer Academic Publishers,1997.
10[8]T Zhang,R Ramakrishnan.Birch:An Efficent Data Clustering Method for Very Large Databases[C].Proceedings of the ACM SIGMOD Conference on Management of Data,Montreal,Canada,1996.

共引文献136

1宗长富,文龙,何磊.基于欧几里得聚类算法的三维激光雷达障碍物检测技术[J].吉林大学学报（工学版）,2020,50(1):107-113. 被引量：24
2武森,冯小东,吴庆海.基于稀疏指数排序的高维数据并行聚类算法[J].系统工程理论与实践,2011,31(S2):13-18. 被引量：1
3宋明,刘宗田.基于数据交叠分区的并行DBSCAN算法[J].计算机应用研究,2004,21(7):17-20. 被引量：9
4栾丽华,吉根林.一种基于四叉树的快速聚类算法[J].计算机应用,2005,25(5):1001-1003. 被引量：6
5倪巍伟,孙志挥,陆介平.k-LDCHD——高维空间k邻域局部密度聚类算法[J].计算机研究与发展,2005,42(5):784-791. 被引量：18
6尹松,周永权,李陶深.数据聚类方法的研究与分析[J].航空计算技术,2005,35(1):63-66. 被引量：16
7熊忠阳,孙思,张玉芳,王秀琼.一种基于划分的不同参数值的DBSCAN算法[J].计算机工程与设计,2005,26(9):2319-2321. 被引量：16
8伊胜伟,刘旸,魏红芳.基于数据挖掘的入侵检测系统智能结构模型[J].计算机工程与设计,2005,26(9):2464-2466. 被引量：10
9何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16
10清华同方RFID远距离车辆进出管理系统[J].金卡工程,2006,10(4):40-41.

同被引文献9

1赵文,夏桂书,苟智坚,闫振兴.一种改进的DBSCAN算法[J].四川师范大学学报（自然科学版）,2013,36(2):312-316. 被引量：17
2王玲,吴璐璐,付冬梅.一种基于密度的模糊自适应聚类算法[J].北京科技大学学报,2014,36(11):1560-1565. 被引量：5
3刘恒,苏静,唐咸艳,卢佳佳,梁志胜,洪月华.一种基于密度的分布式聚类改进算法[J].微电子学与计算机,2018,35(5):128-132. 被引量：1
4徐欣,舒振宇,陈双敏,辛士庆,屠长河.基于决策图的三维模型无监督聚类算法[J].宁波大学学报（理工版）,2018,31(4):46-51. 被引量：2
5宋董飞,徐华.DBSCAN算法研究及并行化实现[J].计算机工程与应用,2018,54(24):52-56. 被引量：21
6王兴,吴艺,蒋新华,廖律超.大规模数据集下基于DBSCAN算法的增量并行化快速聚类[J].计算机应用与软件,2018,35(4):269-275. 被引量：7
7汪晶,邹学玉,喻维明,孙咏.分布式MVC-Kmeans算法设计与实现[J].长江大学学报（自然科学版）,2019,16(6):113-119. 被引量：3
8何仝,徐蔚鸿,马红华,曾水玲.一种基于密度峰值的高效分布式聚类算法[J].计算技术与自动化,2019,38(2):64-71. 被引量：4
9胡迪,聂飞平,李学龙.基于深度线性判别分析的哈希技术[J].中国科学：信息科学,2021,51(2):279-293. 被引量：3

引证文献2

1邓定胜.一种改进的DBSCAN算法在Spark平台上的应用[J].计算机科学,2020,47(S02):425-429. 被引量：7
2蔡莉,王浩宇,周君,何婧,刘俊晖.一种改进的自适应网格划分的分布式聚类算法[J].小型微型计算机系统,2023,44(4):731-736. 被引量：1

二级引证文献8

1姚业浩,李毅念,陈玉仑,丁启朔,何瑞银.基于油菜角果长度图像识别的每角粒数测试方法[J].农业工程学报,2021,37(23):153-160. 被引量：6
2张长勇,陈治华,韩梁.基于改进DBSCAN的激光雷达障碍物检测[J].激光与光电子学进展,2021,58(24):443-450. 被引量：8
3闫强强,张敏,荀亚玲.采用有效邻近点和适应密度的密度聚类算法[J].计算机技术与发展,2022,32(9):14-22. 被引量：4
4何文康,陈冰瑜,蔡贤资.应急管理巡护轨迹的优化方法及实验仿真[J].实验技术与管理,2022,39(9):250-255. 被引量：1
5卢建云,邵俊明,张蔚.基于RAPIDS的无参DBSCAN算法[J].数据采集与处理,2023,38(2):426-438.
6孙泽军,常新峰,王飞飞,杨开语.“互联网+”背景下学生网络学习行为分析及预警[J].平顶山学院学报,2023,38(2):37-46.
7蔡贤资,冯雅雯,蓝嘉雪,黄小虎.大型商业区域智能导航服务定位修正策略探索[J].金融科技时代,2023,31(12):59-62.
8角远韬,李润梅,王剑.基于模糊自然语言处理的铁路CTC接口文本智能测试方法[J].智能科学与技术学报,2024,6(2):201-209.

1邹晓辉.LDA主题模型在文本聚类中的应用[J].数字技术与应用,2017,35(12):76-77. 被引量：2
2黄杰,余长庚.基于处理器时空势场修正的多城市拥堵并行聚类分析[J].计算机应用研究,2018,35(3):820-824. 被引量：1
3侯敬儒,吴晟,李英娜.基于Spark的并行KMeans聚类模型研究[J].计算机与数字工程,2018,46(3):537-540. 被引量：8
4徐占洋,郑克长.云计算下基于改进遗传算法的聚类融合算法[J].计算机应用,2018,38(2):458-463. 被引量：9
5王玮,严文涛,苏琦,刘荫,于展鹏,殷齐林,赵宪佳,孙更新.基于Hadoop的客服运维文本聚类算法研究[J].青岛大学学报（工程技术版）,2018,33(1):59-64.
6邓丽,余玥,庞洪霖,费敏锐.一种基于并行聚类的温室天窗开度预测方法[J].系统仿真学报,2017,29(10):2459-2467.
7魏德志,陈福集,林丽娜.基于MFIHC聚类和TOPSIS的微博热点发现方法[J].计算机应用研究,2018,35(4):1014-1017. 被引量：5
8余建波,董晨阳,李传锋,程辉,孙习武.基于统计α算法的过程挖掘[J].北京航空航天大学学报,2018,44(5):895-906. 被引量：2
9纪晓亮,王春晓.排列抽稀初至拾取计算校正量的可行性[J].中国石油和化工标准与质量,2018,38(1):151-152.
10房战峰.非宾格动结式的研究现状和发展空间[J].大众文艺（学术版）,2018(7):181-184. 被引量：1

汕头大学学报（自然科学版）

2018年第2期

浏览历史

内容加载中请稍等...

基于spark框架的DBSCAN文本聚类算法被引量：2

参考文献5

二级参考文献30

共引文献136

同被引文献9

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于spark框架的DBSCAN文本聚类算法 被引量：2

参考文献5

二级参考文献30

共引文献136

同被引文献9

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于spark框架的DBSCAN文本聚类算法被引量：2