基于Stacking集成学习的恶意URL检测系统设计与实现被引量：2

Design and implementation of malicious URL detection system based on Stacking ensemble learning

下载PDF

导出

摘要针对传统URL检测方法在恶意URL检测时存在的准确率不高、实时性差等问题,提出一种基于Stacking集成学习的算法模型。该模型采用机器学习单一方法中的岭分类、支持向量机、朴素贝叶斯作为初级学习器,采用逻辑回归作为次级学习器,通过初级学习器和次级学习器相结合的双层结构对URL进行检测。使用大量的URL数据集分别对单一方法中的模型和Stacking集成学习方法的模型进行训练,并对每种模型进行评估。评估结果表明,Stacking集成学习的算法模型对恶意URL检测的准确率可达98.75%,与其他模型相比提升0.75%以上。采用Flask作为开发框架,实现了恶意URL检测系统的功能,并对系统进行云端等部署,得到系统根据用户输入的URL链接可以输出URL的检测结果,具有较好的应用价值。 In allusion to the problems of traditional URL(uniform resource locator)detection methods such as low accuracy and poor real⁃time performance in detecting malicious URLs,an algorithm model based on Stacking ensemble learning is proposed.In this model,the ridge classification,support vector machine,and naive Bayes in a single machine learning method are used as primary learner,and the logical regression is used as secondary learner.The URL is detected by means of the two⁃layer structure combining primary learner and secondary learner.A large number of URL datasets are used to train the models of single method and Stacking ensemble learning method,and evaluate each model.The evaluation results show that the accuracy of Stacking ensemble learning algorithm model for malicious URL detection can reach 98.75%,which is at least 0.75%higher than other models.The Flask is taken as the development framework to implement the functions of malicious URL detection system,and carry out the cloud and other deployments to the system.Based on the URL link input by the user,the system can output the detection result of the URL,which has good application value.

作者张永刚吕鹏飞张悦姚兴博冯艳丽 ZHANG Yonggang;LÜPengfei;ZHANG Yue;YAO Xingbo;FENG Yanli(State Grid Inner Mongolia East Power Co.,Ltd.,Hohhot 010020,China;College of Artificial Intelligence,Nanjing Agricultural University,Nanjing 210095,China)

机构地区国网内蒙古东部电力有限公司南京农业大学人工智能学院

出处《现代电子技术》 2023年第10期105-109,共5页 Modern Electronics Technique

关键词恶意URL检测 Stacking集成学习检测系统设计算法模型模型评估 Flask框架 malicious URL detection Stacking ensemble learning detection system design algorithm model model assessment Flask framework

分类号 TN911.23-34 [电子电信—通信与信息系统] TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1麻瓯勃,刘雪娇,唐旭栋,周宇轩,胡亦承.基于半监督学习的恶意URL检测方法[J].计算机系统应用,2020(11):11-20. 被引量：4
2刘健,赵刚,郑运鹏.恶意URL多层过滤检测模型的设计与实现[J].信息网络安全,2016(1):75-80. 被引量：10
3汪鑫,武杨,卢志刚.基于威胁情报平台的恶意URL检测研究[J].计算机科学,2018,45(3):124-130. 被引量：10
4武海燕,李坤明.基于信息增益的KNN社交网络异常用户检测[J].软件导刊,2021,20(4):53-56. 被引量：1
5李莉莉,靳士檑,周楷贺.基于岭回归模型大数据最优子抽样算法研究[J].系统科学与数学,2022,42(1):50-63. 被引量：9
6段友祥,张晓天.基于主动学习的SVM评论内容分类算法的研究[J].计算机与数字工程,2022,50(3):608-612. 被引量：6
7林海波,卢元栋,丁荣诚,修玉峰.基于图像处理与改进SVM的苹果多特征融合分级方法[J].山东农业科学,2022,54(6):141-149. 被引量：12
8丁月,汪学明.基于改进特征加权的朴素贝叶斯分类算法[J].计算机应用研究,2019,36(12):3597-3600. 被引量：26
9王正存,肖中俊,严志国.逻辑回归分类识别优化研究[J].齐鲁工业大学学报,2019,33(5):47-51. 被引量：11
10胡晓丽,张会兵,董俊超,吴冬强.基于集成学习的电子商务平台新用户重复购买行为预测[J].现代电子技术,2020,43(11):115-119. 被引量：8

二级参考文献164

1杨小青,党宏社.基于像素点变换法的苹果颜色分级系统研究[J].农机化研究,2012,34(3):203-205. 被引量：6
2单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
3卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
4MA J, SAUL L K, SAVAGE S, et al. Beyond Blacklists: Learning to Detect Malicious Web Sites from Suspicious URLs[C]//ACM SIGMOD. International Conference on Knowledge Discovery & Data Mining, June 28-July 1, 2009, Paris, France. New York: Association for Computing Machinery, 2009: 1245-1254.
5GARERA S, PROVOS N, CHEW M, et al. A Framework for Detection and Measurement of Phishing Attacks[C]// ACM SIGSAC. 2007 ACM Workshop on Recurring Malcode. Alexandria, VA, United states. New York : Association for Computing Machinery, 2007: 1-8.
6LEO Breiman, JEROME Friedman, CHARLES J, et al. Classification and Regression Trees (CART)[M]. New York: Chapman & Hall, 1984.
7KEERTHI S S, SHEVADE S K, BHATTACHARYYA C, et al. Improvements to Platt's SMO Algorithm for SVM Classifier Design[J]. Neural Computation, 2001, 13(3): 637-649.
8SUYKENS J A K, VANDEWALLE J. Least Squares Support Vector Machine Classifiers[J]. Neural processing letters, 1999, 9(3): 293-300.
9Mahmoud K, Youssef I, Andrew J. Phishing detection: A literature survey. IEEE Communications Surveys & Tutorials, 2013, 15(4): 2091-2121.
10Paul K, Georgia K, Hector G M. Fighting spam on social Web sites a survey of approaches and future challenges. IEEE Internet Computing, 2007, 11(6): 36-45.

共引文献150

1麻瓯勃,刘雪娇,唐旭栋,周宇轩,胡亦承.基于半监督学习的恶意URL检测方法[J].计算机系统应用,2020(11):11-20. 被引量：4
2冯建英,苏允汇,龚劭齐,王智,穆维松.基于集成学习的农业生产技术效率评价方法[J].农业机械学报,2021,52(S01):148-155. 被引量：6
3周文清,周达,康建军.基于逻辑回归二分类的核素识别算法研究[J].核电子学与探测技术,2023,43(1):12-17.
4陈星铭,赵胜祥.二次曲面截交线投影成圆的条件及应用[J].上海工程技术大学学报,2000,14(1):50-55. 被引量：1
5李洁,陈博,赵昱红.大规模网络流量下的恶意地址检测技术研究[J].吉林电力,2016,44(4):1-4. 被引量：1
6杨洪娇.基于机器学习的校园网恶意网页检测方法[J].信息与电脑,2016,28(11):175-176. 被引量：2
7张莉,孙丽娜,郭峰.在线社会网络中近似网页识别方法研究[J].微电子学与计算机,2017,34(2):141-144.
8胡向东,刘可,张峰,林家富,付俊,郭智慧.基于页面敏感特征的金融类钓鱼网页检测方法[J].网络与信息安全学报,2017,3(2):31-38. 被引量：8
9张腾飞,张谦,刘嘉勇.基于AdaBoost-Bayes算法的URL分类方法[J].信息网络安全,2017(3):66-71.
10张茜,延志伟,李洪涛,耿光刚.网络钓鱼欺诈检测技术研究[J].网络与信息安全学报,2017,3(7):7-24. 被引量：12

同被引文献20

1麻瓯勃,刘雪娇,唐旭栋,周宇轩,胡亦承.基于半监督学习的恶意URL检测方法[J].计算机系统应用,2020(11):11-20. 被引量：4
2沙泓州,刘庆云,柳厅文,周舟,郭莉,方滨兴.恶意网页识别研究综述[J].计算机学报,2016,39(3):529-542. 被引量：40
3张慧,钱丽萍,汪立东,袁辰,张婷.基于CNN和多分类器的恶意URLs检测[J].计算机工程与设计,2019,40(10):2991-2995. 被引量：2
4刘一利,张家钢,施凡.基于BP神经网络的恶意URL检测模型[J].网络安全和信息化,2020,0(5):121-123. 被引量：2
5杨杉,肖治华,张成.基于威胁情报和多分类器投票机制的恶意URL检测模型[J].计算机与数字工程,2020,48(8):1969-1974. 被引量：1
6朱鸿斌.ROC分析在变点检测中的应用[J].电子世界,2021(8):144-145. 被引量：1
7郑玉谦,陈晓璠.基于机器学习的加密流量的特征工程方法研究和系统设计[J].网络安全技术与应用,2021(5):36-39. 被引量：6
8吴森焱,罗熹,王伟平,覃岩.融合多种特征的恶意URL检测方法[J].软件学报,2021,32(9):2916-2934. 被引量：8
9修位蓉,王欢欢,卞琛.基于CATBL算法的恶意URL检测[J].计算机工程与设计,2021,42(11):3059-3066. 被引量：1
10卜佑军,张桥,陈博,张稣荣,王方玉.基于CNN和BiLSTM的钓鱼URL检测技术研究[J].郑州大学学报（工学版）,2021,42(6):14-20. 被引量：6

引证文献2

1盛蒙蒙,史建晖,沈立峰.基于CBA算法的恶意URL检测[J].数字技术与应用,2023,41(10):9-13. 被引量：1
2冯美琪,李赟,蒋冰,王立松,刘春波,陈伟.基于Boosting集成学习的风险URL检测研究[J].网络安全与数据治理,2024,43(7):32-40.

二级引证文献1

1冯美琪,李赟,蒋冰,王立松,刘春波,陈伟.基于Boosting集成学习的风险URL检测研究[J].网络安全与数据治理,2024,43(7):32-40.

1贺涛.皮带机下料斗堵料检测系统设计及改造[J].设备管理与维修,2023(8):83-84.
2张明嘉,黄丁韫,赵凯,杨超宇,蒋玉茹.基于Android的多模态情感识别APP的设计与开发[J].现代计算机,2023,29(5):99-103.
3尹力,陈德立,谭国旭.基于双边阈值算法的城轨齿轮箱故障检测系统设计[J].机电技术,2023(2):36-41.
4赵伟鹏,潘盛辉,李镇楠.基于机器视觉的连接器PIN针歪斜检测系统设计[J].广西科技大学学报,2023,34(2):100-107. 被引量：1
5姜万录,赵岩,李振宝,杨旭康,张士博,张淑清.多模型Stacking集成学习的旋转机械故障诊断方法[J].液压与气动,2023,47(4):46-58. 被引量：5
6范淑倩,陈慧,王德美,夏松林,崔常辉,于娜娜,刘志浩.基于Stacking融合的工程造价预测组合模型[J].烟台大学学报（自然科学与工程版）,2023,36(2):211-216.
7孟彩霞,林俊豪.基于Flask的分布式漏洞扫描系统研究与设计[J].警察技术,2023(3):68-72. 被引量：2
8林文敏,汪学明,袁春风,赵倩,华建行,吕永江.文盲智能辅助系统的设计与实现[J].福建电脑,2023,39(5):83-86.
9李思奇,吕王勇,陈雯,代娟,邓柙.基于属性约简的加权朴素贝叶斯分类算法[J].四川师范大学学报（自然科学版）,2023,46(4):532-539. 被引量：1
10王亚飞,张占荣,刘华吉,姚震桐.基于模型融合的钻进参数识别岩石类型研究[J].钻探工程,2023,50(2):17-25. 被引量：6

现代电子技术

2023年第10期

浏览历史

内容加载中请稍等...

基于Stacking集成学习的恶意URL检测系统设计与实现被引量：2

参考文献14

二级参考文献164

共引文献150

同被引文献20

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Stacking集成学习的恶意URL检测系统设计与实现 被引量：2

参考文献14

二级参考文献164

共引文献150

同被引文献20

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Stacking集成学习的恶意URL检测系统设计与实现被引量：2