基于信息增益和随机森林分类器的入侵检测系统研究被引量：4

Intrusion Detection System Using Random Forests Classifier and Information Gain

下载PDF

导出

摘要目前,许多误用检测系统无法检测未知攻击,而异常检测系统虽然能够精确检测未知攻击,但由于入侵检测固有的特性,入侵事件与正常事件类间存在极大的不平衡性,这导致很难利用机器学习的方法高效地进行入侵行为检测.为此,提出了一种基于信息增益和随机森林分类器的入侵检测系统.为了解决类之间的不平衡性,对训练数据集应用了合成少数过采样算法.提出了一种基于信息增益的特征选择方法,并用于构建一个数据集的特征约减子集.首先,利用随机森林算法从训练集中建立入侵模型,构建误用检测模型,通过网络连接的特征来匹配检测已知攻击.然后,利用信息增益的特征选择方法,根据特征约减获得的特征,将不确定性攻击的网络连接数据通过随机森林进行聚类,进而实现未知攻击的检测.实验采用的NSL-KDD入侵检测数据集是KDDCUP99数据集的增强版本.由于入侵检测固有的特性,NSL-KDD数据集设计时类间存在极大的不平衡性.实验结果表明,结合合成少数过采样算法以及基于特征选择的信息增益的随机森林分类器对少数类别异常检测率可达到0.962. At present, many misuse detection systems cannot detect unknown attacks, while the anomaly detection system can accurately detect unknown attacks, but because of intrusion detection inherent characteristics, there is a great imbalance between intrusion events and normal events, which lead it very difficult to use the method of machine learning to carry out intrusion behavior detection. An intrusion detection system based on information gain and random forest classifier is proposed. In order to solve the imbalance between classes, a small number of over-sampling algorithms is applied to the training data set. A feature selection method based on information gain is proposed, and it is used to construct the feature subtraction subsets of the data set. Firstly, the intrusion model is established from the training set by using the random forest algorithm, and the misuse detection model is constructed, and the known attacks are detected by matching the characteristics of the network connection. Then, by using the feature selection method of information gain, the network connection data of the uncertain attack is clustered according to the characteristic of the feature, and the detection of unknown attack is realized by clustering with the forest. The NSL-KDD intrusion detection data set used in the experiment is an enhanced version of the KDDCUP＇99 data set. Due to the inherent characteristics of intrusion detection, there is a great imbalance between NSL-KDD data set. The experimental results show that the random forest classifier combined with the Synthetic Minority Over Sampling Technique （SMOTE） can reach 0. 962 of the detection rate for small samole categories.

作者魏金太高穹

机构地区河南林业职业学院信息与艺术设计系中国洛阳电子装备试验中心

出处《中北大学学报（自然科学版）》 CAS 2018年第1期74-79,88,共7页 Journal of North University of China(Natural Science Edition)

基金国家自然科学基金资助项目(11404398) 河南科技厅重点攻关资助项目(142102210097)

关键词网络安全入侵检测随机森林特征选择 Network security IDS random forest feature selection

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1徐培,赵雪专,唐红强,占伟鹏.基于两阶段投票的小样本目标检测方法[J].计算机应用,2014,34(4):1126-1129. 被引量：3
2陈友,沈华伟,李洋,程学旗.一种高效的面向轻量级入侵检测系统的特征选择算法[J].计算机学报,2007,30(8):1398-1408. 被引量：46
3崔振,山世光,陈熙霖.结构化稀疏线性判别分析[J].计算机研究与发展,2014,51(10):2295-2301. 被引量：5
4饶鲜,董春曦,杨绍全.基于支持向量机的入侵检测系统[J].软件学报,2003,14(4):798-803. 被引量：135
5张振海,李士宁,李志刚,陈昊.一类基于信息熵的多标签特征选择算法[J].计算机研究与发展,2013,50(6):1177-1184. 被引量：62
6任晓芳,赵德群,秦健勇.基于随机森林和加权K均值聚类的网络入侵检测系统[J].微型电脑应用,2016,32(7):21-24. 被引量：7

二级参考文献108

1唐焕文,张立卫,王雪华.一类约束不可微优化问题的极大熵方法[J].计算数学,1993,15(3):268-275. 被引量：75
2唐焕文,张立卫.凸规划的极大熵方法[J].科学通报,1994,39(8):682-684. 被引量：49
3李兴斯.一类不可微优化问题的有效解法[J].中国科学（A辑）,1994,24(4):371-377. 被引量：137
4陈友,程学旗,李洋,戴磊.基于特征选择的轻量级入侵检测系统[J].软件学报,2007,18(7):1639-1651. 被引量：78
5[1]Forrest S, Perrelason AS, Allen L, Cherukur R. Self_Nonself discrimination in a computer. In: Rushby J, Meadows C, eds. Proceedings of the 1994 IEEE Symposium on Research in Security and Privacy. Oakland, CA: IEEE Computer Society Press, 1994. 202～212.
6[2]Ghosh AK, Michael C, Schatz M. A real-time intrusion detection system based on learning program behavior. In: Debar H, Wu SF, eds. Recent Advances in Intrusion Detection (RAID 2000). Toulouse: Spinger-Verlag, 2000. 93～109.
7[3]Lee W, Stolfo SJ. A data mining framework for building intrusion detection model. In: Gong L, Reiter MK, eds. Proceedings of the 1999 IEEE Symposium on Security and Privacy. Oakland, CA: IEEE Computer Society Press, 1999. 120～132.
8[4]Vapnik VN. The Nature of Statistical Learning Theory. New York: Spring-Verlag, 1995.
9[5]Lee W, Dong X. Information-Theoretic measures for anomaly detection. In: Needham R, Abadi M, eds. Proceedings of the 2001 IEEE Symposium on Security and Privacy. Oakland, CA: IEEE Computer Society Press, 2001. 130～143.
10[6]Warrender C, Forresr S, Pearlmutter B. Detecting intrusions using system calls: Alternative data models. In: Gong L, Reiter MK, eds. Proceedings of the 1999 IEEE Symposium on Security and Privacy. Oakland, CA: IEEE Computer Society Press, 1999. 133～145.

共引文献249

1李洋,方滨兴,郭莉.基于TSVM分类的网络入侵检测方法[J].计算机研究与发展,2007,44(z2):198-202.
2荆守波,高鹏翔.基于相空间重构和一类分类的异常入侵检测[J].电脑开发与应用,2004,17(8):11-12.
3刘评,汤志国,于海峰.网络入检测的快速规则匹配算法[J].海军工程大学学报,2004,16(5):71-73. 被引量：2
4杨敏,张焕国,傅建明,罗敏.基于支持向量数据描述的异常检测方法[J].计算机工程,2005,31(3):39-42. 被引量：17
5王勇,杨辉华,王行愚,何倩.基于最小二乘支持向量机的Linux主机入侵检测系统[J].计算机工程与应用,2005,41(2):120-124. 被引量：4
6彭宏,吴铁峰,张东娜.基于粗集理论和SVM算法的入侵检测方法研究[J].计算机工程,2005,31(8):157-158. 被引量：4
7许劲松,覃俊.一种基于支持向量机的入侵检测模型[J].计算机仿真,2005,22(5):43-45. 被引量：5
8侯方明,李大兴.一种新的基于协议树的入侵检测系统的设计[J].计算机应用研究,2005,22(7):150-152. 被引量：6
9彭新光,刘玉树,吴裕树,杨勇.Classification Model with High Deviation for Intrusion Detection on System Call Traces[J].Journal of Beijing Institute of Technology,2005,14(3):260-263.
10张义荣,肖顺平,鲜明,王国玉.基于机器学习的入侵检测技术概述[J].计算机工程与应用,2006,42(2):7-10. 被引量：15

同被引文献27

1董师师,黄哲学.随机森林理论浅析[J].集成技术,2013,2(1):1-7. 被引量：148
2金洪杰.离群点挖掘技术在入侵检测中的研究[J].黑龙江科技信息,2009(36):121-121. 被引量：1
3王茜,唐锐.基于频繁模式的离群点挖掘在入侵检测中的应用[J].计算机应用研究,2013,30(4):1208-1211. 被引量：11
4姚兰,肖建,王嵩,蒋玉莲.自组织区间二型模糊神经网络及其自适应学习算法[J].控制理论与应用,2013,30(6):785-791. 被引量：6
5陈庄,黄勇,邹航.基于离群点挖掘的工业控制系统异常检测[J].计算机科学,2014,41(5):178-181. 被引量：13
6刘羿.蝙蝠算法优化神经网络的网络入侵检测[J].计算机仿真,2015,32(2):311-314. 被引量：19
7李琼,陈利.一种改进的支持向量机文本分类方法[J].计算机技术与发展,2015,25(5):78-82. 被引量：22
8何文河,李陶深,黄汝维.云环境下基于改进BP算法的入侵检测模型[J].计算机技术与发展,2016,26(2):87-90. 被引量：7
9周立军,张杰,吕海燕.基于数据挖掘技术的网络入侵检测技术研究[J].现代电子技术,2016,39(6):10-13. 被引量：27
10刘婷,刘晓洁,岳未然.基于主成分分析法的入侵检测特征选择方法[J].网络新媒体技术,2017,6(2):28-32. 被引量：6

引证文献4

1胡天宇,刘嵩.基于卡方检验和LDOF算法的入侵检测技术研究[J].齐鲁工业大学学报,2019,33(3):62-69. 被引量：5
2夏景明,李冲,谈玲,周刚.改进的随机森林分类器网络入侵检测方法[J].计算机工程与设计,2019,40(8):2146-2150. 被引量：42
3曹扬晨,朱国胜,祁小云,邹洁.基于随机森林的入侵检测分类研究[J].计算机科学,2021,48(S01):459-463. 被引量：10
4王杨,王非凡,张舒宜,黄少芬,许闪闪,赵晨曦,赵传信.基于TF-IDF和改进BP神经网络的社交平台垃圾文本过滤[J].计算机系统应用,2019,28(3):126-132. 被引量：12

二级引证文献67

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
2张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
3樊景威,葛丽娜,张壕,李登辉.融合MultiHead Attention和BiGRU的入侵检测模型[J].计算机与数字工程,2023,51(1):74-80. 被引量：1
4沈冰生.基于小波包分解多尺度排列熵特征的阳极效应预测[J].科学与信息化,2019,0(24):78-80.
5王奕翔,陈济颖,王晟全,李昂.基于改进型RF-BP神经网络的房地产价格预测[J].工业控制计算机,2019,32(10):122-124. 被引量：4
6王奕翔,李昂,王晟全.基于改进型BP神经网络的房地产预警[J].物联网技术,2019,9(12):39-42. 被引量：1
7聂春雷,肖忠良.基于Spark的随机森林的网络入侵检测方法[J].电子测试,2020,31(4):83-84. 被引量：1
8罗艳,肖辅盛,王庭刚,周智海.基于随机森林的电网实时运行风险评估方法[J].信息技术,2020,44(4):23-26. 被引量：14
9黄建琼,郭文龙.混合粒子群和改进细菌觅食的不平衡数据分类[J].计算机工程与应用,2020,56(10):171-178. 被引量：6
10赵晓平,马文,刘雪萍,陈达.一种面向科技项目文本的相似度度量方法[J].电子技术应用,2020,46(5):31-34. 被引量：3

1赵智龙.计算机网络安全问题及其防范措施[J].电子技术与软件工程,2018(3):219-219. 被引量：3
2金小雪,廖念慈,王怀志,韩津,毕延冰.基于灰度和梯度的视频异常检测[J].中小企业管理与科技,2017,1(33):187-189.
3陈爽.基于大数据的天线覆盖异常检测系统[J].现代信息科技,2017,1(3):68-69.
4华旭奋,孙俊.基于深度信息的手势识别算法研究[J].传感器与微系统,2017,36(12):122-125. 被引量：11
5纪顺,李英.非选择任务驱动型作文思维展开的视角[J].语文教学与研究（综合天地）,2017,0(11):124-125. 被引量：1
6石磊,刘月梅.我校教育信息化的问题与对策研究[J].当代旅游,2017,0(6):82-83.
7王君.支招事件类新材料作文的审题立意[J].科教导刊（电子版）,2017,0(36):141-141.
8闫信达.论计算机网络安全管理研究[J].网络安全技术与应用,2017(12):2-2.
9安尼瓦尔.加马力,亚森.艾则孜,木尼拉.塔里甫.基于连接数据分析和OSELM分类器的网络入侵检测系统[J].计算机应用研究,2017,34(12):3749-3752. 被引量：16
10王正昊.计算机网络信息安全未来发展趋势[J].电子技术与软件工程,2017(24):214-214.

中北大学学报（自然科学版）

2018年第1期

浏览历史

内容加载中请稍等...

基于信息增益和随机森林分类器的入侵检测系统研究被引量：4

参考文献6

二级参考文献108

共引文献249

同被引文献27

引证文献4

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

基于信息增益和随机森林分类器的入侵检测系统研究 被引量：4

参考文献6

二级参考文献108

共引文献249

同被引文献27

引证文献4

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

基于信息增益和随机森林分类器的入侵检测系统研究被引量：4