一种基于Hadoop平台CloudSVM的网络流量分类方法被引量：2

A network traffic classification method based on Hadoop platform CloudSVM

下载PDF

导出

摘要大规模的netflow训练数据集是构建高质量、高稳定网络流量分类器的必然要求。但随着网络流特征维数的提高和数据集规模的扩大,无论是网络流的分析处理还是基于支持向量机(SVM)的分类器模型的训练,都无法在有效的时间内得到有效的处理结果。本文基于Hadoop云计算平台,采用MapReduce技术对SVM网络流量分类器进行分布式学习和训练,构建CloudSVM网络流量分类器。通过对来自校园网出口镜像的近2 T的大规模网络流量的跟踪文件的分布式存储和处理,对抽取的样本数据集进行分类,实验验证了基于Hadoop平台分布式存储和并行处理大规模网络数据集的高效率性,也验证了CloudSVM分类器在不降低分类准确度的情况下可以快速收敛到最佳,并随着大规模网络流样本的增加,SVM分类器训练的时间趋近平稳。 Large-scale net flow training data sets are inevitable requirements for building highquality,highly stable network traffic classifiers.However,with the increase of the feature dimension of the network stream and the expansion of the data set size,neither the analysis processing of the network stream nor the training of the classifier model based on Support Vector Machin(SVM)can obtain effective processing results in effective time.A distributed and parallel large-scale network flow based on Hadoop cloud computing platform is proposed.Distributed learning and training of SVM network traffic classifier is implemented by MapReduce technology on Hadoop cloud computing platform,and CloudSVM network traffic classifier is constructed.Through the distributed storage and processing of trace files of large-scale network traffic from the campus network export mirror,the sample data sets are classified,and the distributed storage and parallel processing of large-scale network data based on Hadoop platform is experimentally verified.The high efficiency of the set also verifies that the CloudSVM classifier can quickly converge to the best without reducing the accuracy of the classification,and with the increase of large-scale network flow samples,the training time of the SVM classifier is approaching constant.

作者邓河唐一韬贺宗梅袁爱平 DENG He;TANG Yitao;HE Zongmei;YUAN Aiping(School of Software,Changsha Social Work College,Changsha Hunan 410000,China)

机构地区长沙民政职业技术学院软件学院

出处《太赫兹科学与电子信息学报》北大核心 2020年第5期918-923,共6页 Journal of Terahertz Science and Electronic Information Technology

基金湖南省教育厅科研资助项目(15C0081) 湖南省教育厅科研资助项目(14C0064) 湖南省教育厅科研资助项目(19C0103)。

关键词网络流量分类 HADOOP平台 CloudSVM分类器 network traffic classification Hadoop CloudSVM

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1吴云蔚,宁芊.基于Hadoop平台的分布式SVM参数寻优[J].计算机工程与科学,2017,39(6):1042-1047. 被引量：8
2王平,毛剑琴.支持向量机训练算法及其应用[J].信息与电子工程,2005,3(4):309-314. 被引量：9
3邓绯.基于支持向量机网络流量识别的研究[J].兰州文理学院学报（自然科学版）,2019,33(2):62-66. 被引量：1
4邹腾宽,汪钰颖,吴承荣.网络背景流量的分类与识别研究综述[J].计算机应用,2019,39(3):802-811. 被引量：27
5梁文国,王勇,俸皓.基于并行DAGSVM的网络流量分类方法[J].计算机工程与设计,2018,39(2):316-319. 被引量：3
6满蔚仕,吉元元.Hadoop平台分布式SVM算法分类研究[J].计算机系统应用,2017,26(8):141-146. 被引量：6
7莫遥,梁铸,吴波,陈翔.基于传输层特征和统计特征的P2P流量识别[J].太赫兹科学与电子信息学报,2019,17(1):112-117. 被引量：2
8邓河,阳爱民,刘永定.一种基于SVM的P2P网络流量分类方法[J].计算机工程与应用,2008,44(14):122-126. 被引量：17
9王勇,龙也,陶晓玲,韦毅.基于多层MapReduce的混合网络流量分类特征选择方法[J].桂林电子科技大学学报,2016,36(2):123-128. 被引量：1

二级参考文献63

1亢生彩.网格搜索法SVM参数优化在主扇风机故障诊断中的应用[J].煤炭技术,2015,34(1):295-297. 被引量：10
2汪西莉,焦李成.一种基于马氏距离的支持向量快速提取算法[J].西安电子科技大学学报,2004,31(4):639-643. 被引量：21
3崔万照,朱长纯,保文星,刘君华.混沌时间序列的支持向量机预测[J].物理学报,2004,53(10):3303-3310. 被引量：99
4邵信光,杨慧中,石晨曦.ε不敏感支持向量回归在化工数据建模中的应用[J].东南大学学报（自然科学版）,2004,34(B11):215-218. 被引量：6
5王振华,王攀,张顺颐.基于综合统计特征的Skype流量分析与识别[J].南京邮电大学学报（自然科学版）,2006,26(1):1-7. 被引量：14
6Mitchell T M. Machine learning [M]. [S.l.] : McGraw-Hill Education, 1997.
7Mitchell T M. Does machine learning really work? [ J]. AI Magazine, 1997,18(3) :11-20.
8Frank J. Machine learning and intrusion detection:current and future directions [ C ]//Proceedings of the National 17th Computer Security Conference, 1994.
9Dunnigan T, Ostrouchov G. Flow characterization for intrusion detection[ R/OL]. ( 2001 - 11 ). Oak Ridge National Laboratory. http:// www. csm. oml.gov/～ost/id/tm. ps.
10Roughan M, Sen S, Spatscheck O, et al. Class-of-service mapping for QoS: a statistical signature-based approach to IP traffic classification [ C ]//ACM SIGCOMM Internet Measurement Workshop 2004 ,Taormina, Sicily, Italy ,2004.

共引文献63

1苏林萍,韩淑宇.关于流量识别技术在新能源厂站中的研究[J].计算机应用研究,2020,37(S01):281-282.
2山艳,须文波,孙俊.量子粒子群优化算法在训练支持向量机中的应用[J].计算机应用,2006,26(11):2645-2647. 被引量：5
3山艳,须文波,孙俊.基于QPSO算法训练SVM[J].计算机应用研究,2007,24(7):94-96. 被引量：1
4何震凯,阳爱民,刘永定,邱密.一种使用DBSCAN聚类的网络流量分类方法[J].计算机应用研究,2009,26(9):3461-3464. 被引量：5
5刘永定,阳爱民,周序生,邹豪杰.使用机器学习算法分类P2P流量的方法[J].计算机应用研究,2009,26(9):3468-3471. 被引量：8
6何明波,谭政,宋迪,刘真祥.基于贝叶斯技术的P2P流量识别方法的研究[J].计算机与现代化,2009(11):67-69.
7陈云菁,张赟,陈经涛.基于决策树模型的P2P流量分类方法[J].计算机应用研究,2009,26(12):4690-4693. 被引量：4
8焦小焦,钟诚,杨柳,柳永念.基于流量特征和载荷特征的P2P流量识别[J].计算机工程与科学,2010,32(8):24-28. 被引量：5
9邱密,阳爱民,刘永定,何震凯.使用贝叶斯学习算法分类网络流量[J].计算机工程与应用,2010,46(25):78-81. 被引量：6
10李鹏,刘悦.一种基于行为特征和SVM的P2P流量识别模型[J].开封大学学报,2010,24(3):79-84. 被引量：3

同被引文献31

1李红亚,彭昱忠,邓楚燕,龚道庆.GA与PSO的混合研究综述[J].计算机工程与应用,2018,54(2):20-28. 被引量：43
2王艳伟,邬江,罗赟骞,史春见.一种基于开放聚合框架的网络流量安全监测体系设计[J].信息技术与网络安全,2018,37(9):22-26. 被引量：3
3徐继伟,杨云.集成学习方法:研究综述[J].云南大学学报（自然科学版）,2018,40(6):1082-1092. 被引量：140
4刘兆禄,赵英,刘淑梅.基于Spark的网络流量分类方法研究[J].通信学报,2018,39(A01):30-36. 被引量：5
5李桃,蒋伏松,陈霆,郑西川.预测2型糖尿病并发颈动脉斑块的机器学习模型的建立[J].医疗卫生装备,2020,41(1):7-11. 被引量：8
6张友鹏,李响,兰丽,周净毓,刘思雨,张妍.基于大数据的铁路时间同步网异常流量检测系统的研究[J].铁道科学与工程学报,2020,17(2):306-313. 被引量：7
7曲文龙,李一漪,周磊.XGBoost算法在糖尿病血糖预测中的应用[J].吉林师范大学学报（自然科学版）,2019,40(4):118-125. 被引量：9
8孙旭日,刘明峰,程辉,彭博,赵宇飞.结合二次特征提取和LSTM-Autoencoder的网络流量异常检测方法[J].北京交通大学学报,2020,44(2):17-26. 被引量：35
9郭庆,朱一凡,谢莹莹,张榆,陈小兵.面向大规模网络流量数据的实时汇聚查询关键技术研究[J].小型微型计算机系统,2020,41(6):1314-1320. 被引量：17
10张琪安,张波涛,吕强,王亚东.采用卷积神经网络的低风险可行地貌分类方法[J].控制理论与应用,2020,37(9):1944-1950. 被引量：2

引证文献2

1李波.应用计算机技术实现临床医学信息分析的方法[J].信息技术,2021,45(12):118-123.
2王波,卫培培.基于蚁群算法的通信网络流量分析[J].长江信息通信,2023,36(3):103-106.

1李胜华.基于Hadoop的电商数据分析系统的设计与实现[J].移动信息,2020(6):49-50. 被引量：1
2缪元照,刘志南.基于策略路由的校园网出口建构与实践[J].现代计算机,2019,0(32):50-53. 被引量：1
3张晓曈,柴旭超,王文青,朱飞鸿.Hadoop平台下数据质量计算方法的实现[J].信息技术与信息化,2020(10):88-92. 被引量：2
4缪元照,刘志南.基于边界防火墙策略路由的校园网出口建设[J].计算机时代,2020,0(4):97-100.
5尹立君.华为云LSN在校园网中的应用[J].网络安全和信息化,2020,0(6):74-76.
6蔡文郁,郑雪晨,郭嘉豪,阮智祥.基于SVM-MultiCNN模型的视觉感知跌倒检测算法[J].杭州电子科技大学学报（自然科学版）,2020,40(5):59-66. 被引量：7
7王浩,王建春,李凤菊,钱春阳,张雪飞,徐义鑫,吕雄杰,杜彦芳,宋斌.基于SVM和CNN组合模型的黄瓜病斑叶片检测与识别[J].贵州农业科学,2020,48(10):58-63. 被引量：3
8杜芳芳,熊令纯.支持向量机分类理论中的几个细节理解及实验[J].数据挖掘,2020,10(3):163-175.
9沈潇童,毕卉,王苏弘,李文杰,邹凌.抑郁症患者脑电导联选择算法及分类研究[J].计算机工程与应用,2020,56(22):154-159. 被引量：2
10郭德鑫,康春玉,夏志军,张忆.基于3阶小波张量的船舶辐射噪声识别[J].舰船科学技术,2020,42(9):171-175.

太赫兹科学与电子信息学报

2020年第5期

浏览历史

内容加载中请稍等...

一种基于Hadoop平台CloudSVM的网络流量分类方法被引量：2

参考文献9

二级参考文献63

共引文献63

同被引文献31

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于Hadoop平台CloudSVM的网络流量分类方法 被引量：2

参考文献9

二级参考文献63

共引文献63

同被引文献31

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于Hadoop平台CloudSVM的网络流量分类方法被引量：2