基于Spark的模糊聚类算法实现及其应用被引量：2

Implementation and Application of Fuzzy Clustering Algorithm Based on Spark

下载PDF

导出

摘要作为软聚类的代表性算法,模糊聚类算法FCM能客观地处理带有模糊性的聚类问题。为了适应对大数据进行实时和准确地聚类的需求,提高FCM算法对大数据的聚类效率,设计了FCM基于大数据计算平台Spark的并行化实现方法。该方案用HDFS对底层数据进行分布式存储,用RDD机制进行计算过程中的数据转换,用持久化技术实现中间结果的重用。为了检验所设计的并行化FCM算法的有效性,将其应用于入侵检测系统中,首先对KDD CUP 99数据集进行预处理,然后分别在单机和Spark集群上,针对预处理前后的KDD CUP 99数据集,用该算法实施聚类来检测入侵,并比较检测的准确性和时效性。应用结果表明,基于Spark的并行化FCM算法有良好的聚类鲁棒性、收敛速度和准确率,尤其在处理大规模样本数据时,优势更加明显。 As a typical soft clustering algorithm,fuzzy c-means(FCM)can deal with the clustering problem with fuzziness objectively.In order to adapt to the need for real-time and accurate clustering of big data and improve the clustering efficiency of FCM algorithm for big data,we design a parallel implementation method of FCM based on Spark,a big data computing platform.HDFS is used to store the underlying data,RDD is used for realizing data conversion in the computing process,and persistence technology for the reuse of intermediate results.To test the effectiveness of the designed parallel FCM,it is applied in the intrusion detection system.First KDD CUP 99 data set is preprocessed,and then intrusions are detected by using the algorithm to cluster KDD CUP 99 data sets before and after pretreatment respectively and on the single machine and Spark cluster respectively.In addition,the accuracy and timeliness of the detection are compared.The application results show that the parallel FCM algorithm based on Spark has better clustering robustness,convergence speed and accuracy,especially more significant advantages when dealing with large sample data.

作者吴云龙李玲娟 WU Yun-long;LI Ling-juan(School of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)

机构地区南京邮电大学计算机学院

出处《计算机技术与发展》 2019年第1期130-134,共5页 Computer Technology and Development

基金国家自然科学基金(61302158 61571238)

关键词聚类分析模糊C均值 SPARK 入侵检测 cluster analysis fuzzy c-means Spark intrusion detection

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：328
2张新有,曾华燊,贾磊.入侵检测数据集KDD CUP99研究[J].计算机工程与设计,2010,31(22):4809-4812. 被引量：121
3王桂兰,周国亮,萨初日拉,朱永利.Spark环境下的并行模糊C均值聚类算法[J].计算机应用,2016,36(2):342-347. 被引量：11
4李勇男,梅建明,秦广军.反恐情报分析中的数据预处理研究[J].情报科学,2017,35(11):103-107. 被引量：21

二级参考文献113

1陈跃国,王京春.数据集成综述[J].计算机科学,2004,31(5):48-51. 被引量：139
2史美林,钱俊,许超.入侵检测系统数据集评测研究[J].计算机科学,2006,33(8):1-8. 被引量：24
3梅建明.论反恐数据挖掘[J].中国人民公安大学学报（社会科学版）,2007,23(2):24-29. 被引量：16
4祖宝明,詹永照,卿林.一种针对MANET入侵检测Agent分布的分簇方法[J].微计算机信息,2007,23(05X):41-43. 被引量：1
5Labrinidis A, Jagadish H V. Challenges and Opportunities with Big Data. Proc of the VLDB Endowment, 2012, 5(12) : 2032-2033.
6Bizer C, Boncz P, Brodie M L, et al. The Meaningful Use of Big Data : Four Perspectives-Four Challenges. ACM SIGMOD Record, 2012, 40(4) : 56-60.
7Wang F Y. A Big-Data Perspective on AI: Newton, Merton, and An- alytics Intelligence. IEEE Intelligent Systems, 2012, 27 (5) : 2-4.
8Simon H A. Why Should Machines Learn?//Michalski R S, Car- bonell J G, Mitchell T M, et al. , eds. Machine Learning: An Arti- ficial Intelligence Approach. Berlin, Germany: Springer, 1983: 25 -37.
9Hart P. The Condensed Nearest Neighbor Rule. IEEE Trans on In- formation Theory, 1968, 14(3) : 515-516.
10Gates G. The Reduced Nearest Neighbor Rule. IEEE Trans on In- formation Theory, 1972, 18(3) : 431-433.

共引文献477

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2陈欣宇.基于大数据背景的机器学习算法研究[J].计算机产品与流通,2020,0(3):85-85. 被引量：1
3王珏,芦斌,祝跃飞.对抗性网络流量的生成与应用综述[J].计算机科学,2022,49(S02):651-661. 被引量：2
4张毅,田浩.XGBoost在量化选股中的应用研究[J].金融管理研究,2020(2):122-132.
5朱赫夫.论证型式:司法人工智能的希冀[J].法大研究生,2021(1):83-101.
6李玥.机器学习的分类、聚类研究[J].电脑知识与技术,2020,0(4):161-162. 被引量：5
7宋东翔,马伽洛伦,王怡然,袁铭举.基于云原生和区块链的高校智能人事系统的研究[J].新一代信息技术,2022,5(6):67-70.
8王刚.大数据在硝酸生产中的应用[J].自动化与仪器仪表,2016(7):242-244. 被引量：1
9姜家涛,刘志杰,谢晓尧.基于模糊神经网络集成的入侵检测模型[J].山东大学学报（理学版）,2011,46(9):95-98. 被引量：4
10沈利香,曹国.基于数据挖掘的入侵检测多分类模型研究[J].常州工学院学报,2011,24(6):36-40.

同被引文献21

1金龙,吴建生,林开平,陈冰廉.基于遗传算法的神经网络短期气候预测模型[J].高原气象,2005,24(6):981-987. 被引量：40
2张乐坚,程明虎,田付友.人工神经网络及支持向量机在降雨量预报中的应用[J].高原气象,2010,29(4):982-991. 被引量：11
3张晨阳,马志强,刘利民,常骏,李永利.Hadoop下基于粗糙集与贝叶斯的气象数据挖掘研究[J].计算机应用与软件,2015,32(4):72-76. 被引量：6
4萨初日拉,周国亮,时磊,王刘旺,石鑫,朱永利.Spark环境下并行立方体计算方法[J].计算机应用,2016,36(2):348-352. 被引量：5
5王昊,师卫,李欢.Hadoop下基于贝叶斯网络的气象数据挖掘研究[J].电子器件,2016,39(4):841-846. 被引量：5
6魏迪,刘德山,楚永贺,闫德勤.基于角度优化的鲁棒极端学习机算法[J].计算机测量与控制,2017,25(1):198-203. 被引量：1
7刘瑶,刘宏邦.深亚微米GGNMOS器件ESD鲁棒性的优化与模拟[J].微电子学,2017,47(1):130-134. 被引量：1
8何谦,王潇,程刚,朱昱铭,刘帅.船载测控雷达偏馈信号动态控制系统的设计[J].舰船科学技术,2017,39(2):141-145. 被引量：3
9李淋淋,倪建成,曹博,于苹苹,姚彬修.基于Spark框架的并行聚类算法[J].计算机技术与发展,2017,27(5):97-101. 被引量：6
10王志红.机载监视雷达软件系统设计[J].雷达科学与技术,2017,15(3):271-275. 被引量：1

引证文献2

1万世昌.基于HDFS跟踪的雷达控制系统鲁棒性增强技术[J].计算机测量与控制,2019,27(12):75-78. 被引量：5
2勾志竟,宫志宏,徐梅,刘布春.基于Spark的Canopy-FCM在气象中的应用[J].计算机技术与发展,2020,30(8):169-173. 被引量：1

二级引证文献6

1夏正龙,姚蓉,朱亮,钟艳雯.基于Spark的探空逆温识别算法实现[J].湖北农业科学,2021,60(S01):335-339. 被引量：1
2陈恺.S模式监视数据质量分析系统设计与实现[J].软件,2020,41(7):228-234.
3王晓光,尚永爽,杜军,贾文铜,史静平,吕永玺.基于蒙特卡洛的飞机控制分配鲁棒性评估方法[J].探测与控制学报,2022,44(4):98-103. 被引量：1
4李国,袁闻,王怀超.融合多任务深度学习与主动学习的民航常旅客缺失数据填补[J].计算机应用与软件,2022,39(8):21-27.
5钟宏宇,吴刚,尹婷婷,乔羽.基于雷达技术的输电智能监控预警系统[J].东北电力技术,2022,43(9):29-34. 被引量：3
6郑浩荣,蔡红维,张瀚,罗昊,王康.基于变步长算法的航天测控雷达多站跟踪技术研究[J].计算机测量与控制,2022,30(10):33-38. 被引量：1

1姜滨.基于特征选择的网络入侵检测模型[J].现代电子技术,2019,42(1):87-90. 被引量：5
2胡能鹏,黄坤豪,郑磊.基于大数据的安全审计[J].电脑与电信,2018(10):73-77. 被引量：1
3李爽,陈瑞瑞,林楠.面向大数据挖掘的Hadoop框架K均值聚类算法[J].计算机工程与设计,2018,39(12):3734-3738. 被引量：22
4杨凝之.基于CNN的入侵检测技术[J].通讯世界,2019,26(1):233-235. 被引量：2
5王红梅.云存储在高校信息化建设中的应用[J].智库时代,2018(36):86-87.
6刘景康,刘健,赵坤,张浩.一种模糊C均值图像分割改进算法[J].电子设计工程,2019,27(3):6-10. 被引量：5
7朱威威,赵岩松,李艳灵.一种基于集合划分的鲁棒性自适应模糊聚类分割算法[J].信阳师范学院学报（自然科学版）,2019,32(1):146-152. 被引量：11
8北京印发智能网联汽车创新发展行动方案[J].汽车纵横,2019,0(2):10-10.
9唐波,龚雪娇,朱瑞金.基于模糊均值聚类分割的牛羊自动检测算法[J].信息通信,2018,31(12):30-32.
10金燄.网格化系统建设若干问题与解决途径[J].信息与电脑,2018,30(24):87-89.

计算机技术与发展

2019年第1期

浏览历史

内容加载中请稍等...

基于Spark的模糊聚类算法实现及其应用被引量：2

参考文献4

二级参考文献113

共引文献477

同被引文献21

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Spark的模糊聚类算法实现及其应用 被引量：2

参考文献4

二级参考文献113

共引文献477

同被引文献21

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Spark的模糊聚类算法实现及其应用被引量：2