针对无人机集群对抗的规则与智能耦合约束训练方法被引量：2

Rule and intelligence coupling constraint training method for UAV swarm confrontation

下载PDF

导出

摘要基于无人机集群智能攻防对抗构想,建立了无人机集群智能攻防对抗仿真环境。针对传统强化学习算法中难以通过奖励信号精准控制对抗过程中无人机的速度和攻击角度等问题,提出一种规则与智能耦合约束训练的多智能体深度确定性策略梯度(rule and intelligence coupling constrained multi-agent deep deterministic policy gradient,RIC-MADDPG)算法,该算法采用规则对强化学习中无人机的动作进行约束。实验结果显示,基于RIC-MADDPG方法训练的无人机集群对抗模型能使得红方无人机集群在对抗中的胜率从53%提高至79%,表明采用“智能体训练—发现问题—编写规则—再次智能体训练—再次发现问题—再次编写规则”的方式对优化智能体对抗策略是有效的。研究结果对建立无人机集群智能攻防策略训练体系、开展规则与智能相耦合的集群战法研究具有一定参考意义。 Based on the concept of the intelligent combat of UAV(unmanned aerial vehicle)swarms,the UAV swarms intelligent combat simulation environment was established.Aiming at the problem that it is difficult to accurately control the speed and attack angle of UAVs in the confrontation process through reward signals in traditional reinforcement learning algorithms,the RIC-MADDPG(rule and intelligence coupling constrained multi-agent deep deterministic policy gradient)algorithm was proposed.The algorithm uses rules to constrain the actions of UAVs in reinforcement learning.The simulation results show that the wining-rate of red UAV swarm,trained by the method based on the RIC-MADDPG,can be improved from 53%to 79%.This proves that the strategy of"agent training—problem finding—rule making—agent training again—problem finding again—rule making again"is effective for the optimization of agent combat strategy.The research results can be a reference for establishing the training system of the intelligent combat strategy of UAV swarms and conducting the research of swarm tactics coupling rule and intelligence.

作者高显忠项磊王宝来贾高伟侯中喜 GAO Xianzhong;XIANG Lei;WANG Baolai;JIA Gaowei;HOU Zhongxi(College of Aerospace Science and Engineering,National University of Delense Technology,Changsha 410073,China;College of Computer Science and Technology,National University of Defense Technology,Changsha 410073,China)

机构地区国防科技大学空天科学学院国防科技大学计算机学院

出处《国防科技大学学报》 EI CAS CSCD 北大核心 2023年第1期157-166,共10页 Journal of National University of Defense Technology

基金国家自然科学基金资助项目(11602298)。

关键词无人机集群 MADDPG算法智能体决策对抗模型规则约束 UAV swarms MADDPG algorithm agent decision making countermeasure model rule-constrained

分类号 V279 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献11

1高显忠,王克亮,彭新,郭正,侯中喜.无人机粉碎机——硬杀伤式反无人机蜂群关键技术解析[J].国防科技,2020,41(2):33-38. 被引量：6
2宋怡然,申超,李东兵.美国分布式低成本无人机集群研究进展[J].飞航导弹,2016(8):17-22. 被引量：44
3周欢,赵辉,韩统,黄汉桥.基于规则的无人机集群飞行与规避协同控制[J].系统工程与电子技术,2016,38(6):1374-1382. 被引量：25
4罗德林,张海洋,谢荣增,吴顺祥.基于多agent系统的大规模无人机集群对抗[J].控制理论与应用,2015,32(11):1498-1504. 被引量：47
5陈侠,李光耀,赵谅.多无人机协同打击任务的攻防博弈策略研究[J].火力与指挥控制,2018,43(11):17-23. 被引量：7
6Haibin Duan,Pei Li,Yaxiang Yu.A Predator-prey Particle Swarm Optimization Approach to Multiple UCAV Air Combat Modeled by Dynamic Game Theory[J].IEEE/CAA Journal of Automatica Sinica,2015,2(1):11-18. 被引量：27
7何金,丁勇,高振龙.基于Double Deep Q Network的无人机隐蔽接敌策略[J].电光与控制,2020,27(7):52-57. 被引量：9
8张耀中,许佳林,姚康佳,刘洁凌.基于DDPG算法的无人机集群追击任务[J].航空学报,2020,41(10):309-321. 被引量：30
9陈灿,莫雳,郑多,程子恒,林德福.非对称机动能力多无人机智能协同攻防对抗[J].航空学报,2020,41(12):337-349. 被引量：20
10梁星星,冯旸赫,马扬,程光权,黄金才,王琦,周玉珍,刘忠.多Agent深度强化学习综述[J].自动化学报,2020,46(12):2537-2557. 被引量：37

二级参考文献66

1DUAN HaiBin 1 ,SHAO Shan 2 ,SU BingWei 3 &ZHANG Lei 41 State Key Laboratory of Science and Technology on Holistic Flight Control,School of Automation Science and Electrical Engineering, Beijing University of Aeronautics and Astronautics,Beijing 100191,China,2 Flight Control Department,Shenyang Aircraft Design and Research Institute,Shenyang 110035,China,3 Beijing Institute of Near Space Vehicle’s System Engineering,Beijing 100076,China,4Integration and Project Section,Air Force Equipment Academy,Beijing 100085,China.New development thoughts on the bio-inspired intelligence based control for unmanned combat aerial vehicle[J].Science China(Technological Sciences),2010,53(8):2025-2031. 被引量：33
2DUAN HaiBin & LIU SenQi National Key Laboratory of Science and Technology on Holistic Flight Control,School of Automation Science and Electrical Engineering,Beijing University of Aeronautics and Astronautics,Beijing 100191,China.Unmanned air/ground vehicles heterogeneous cooperative techniques:Current status and prospects[J].Science China(Technological Sciences),2010,53(5):1349-1355. 被引量：18
3余谦,王先甲.基于粒子群优化求解纳什均衡的演化算法[J].武汉大学学报（理学版）,2006,52(1):25-29. 被引量：37
4钟麟,佟明安,钟卫.影响图对策在多机协同空战中的应用[J].北京航空航天大学学报,2007,33(4):450-453. 被引量：11
5廖沫,陈宗基,周锐.基于MAS的多UAV协同任务分配设计与仿真[J].系统仿真学报,2007,19(10):2313-2317. 被引量：24
6龙涛,沈林成,朱华勇,牛轶峰.面向协同任务的多UCAV分布式任务分配与协调技术[J].自动化学报,2007,33(7):731-737. 被引量：33
7姚宗信,李明,陈宗基.基于博弈论模型的多机协同对抗多目标任务决策方法[J].航空计算技术,2007,37(3):7-11. 被引量：24
8ANDREW I. Multi-agent Based Simulation of Combat [M]. Singa- pore: World Scientific Press, 2003.
9UWEGAERTNER. UAV swarm tactics: an agent-based simulation and Markov process analysis [D]. Monterey: Naval Postgraduate School, 2013.
10HU J W, ZHAO X. Distributed cooperative control for deployment and task allocation of unmanned aerial vehicle networks [J]. lET Con- trol Theory & Applications, 2013, 7(11): 1574 - 1582.

共引文献291

1刘莹莹,王占山.异构多智能体系统的输出同步:一个基于数据的强化学习方法[J].智能科学与技术学报,2020(4):394-400. 被引量：2
2宿帅,朱擎阳,魏庆来,唐涛,阴佳腾.基于DQN的列车节能驾驶控制方法[J].智能科学与技术学报,2020(4):372-384. 被引量：3
3傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
4李涛,魏庆来.基于深度强化学习的智能暖气温度控制系统[J].智能科学与技术学报,2020,2(4):348-353. 被引量：4
5刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：46
6刘闯,鱼小军,张婷,朱豪坤.无人集群装备仿真试验关键技术现状及趋势[J].航空学报,2022,43(S01):21-33. 被引量：6
7刘雷,刘大卫,王晓光,陈俊男,刘东兴.无人机集群与反无人机集群发展现状及展望[J].航空学报,2022,43(S01):4-20. 被引量：36
8贾永楠,田似营,李擎.无人机集群研究进展综述[J].航空学报,2020(S01):4-14. 被引量：92
9平洋,刘文斌,缪正元,葛品,黄琮凯,庄正浩.智能无人艇研究现状及关键问题发展趋势[J].船舶工程,2023,45(2):61-69. 被引量：5
10何吕龙,张佳强,侯岳奇,梁晓龙,柏鹏.有向通信拓扑和时延条件下的无人机集群时变编队控制[J].北京航空航天大学学报,2020,46(2):314-323. 被引量：19

同被引文献22

1周思全,董希旺,李清东,任章.无人机-无人车异构时变编队控制与扰动抑制[J].航空学报,2020(S01):128-139. 被引量：13
2张文,毛艺帆,王睿.空天高速飞行器建模技术研究[J].空军工程大学学报（自然科学版）,2013,14(2):9-13. 被引量：4
3敖永才,师奕兵,张伟,李焱骏.自适应惯性权重的改进粒子群算法[J].电子科技大学学报,2014,43(6):874-880. 被引量：85
4赵启伦,陈建,李清东,任章,李亮.高超武器与常规导弹协同攻击策略可行域研究[J].航空学报,2015,36(7):2291-2300. 被引量：20
5傅莉,谢福怀,孟光磊,王东政.基于滚动时域的无人机空战决策专家系统[J].北京航空航天大学学报,2015,41(11):1994-1999. 被引量：40
6申超,李磊,吴洋,刘都群.美国空中有人/无人自主协同作战能力发展研究[J].战术导弹技术,2018(1):16-21. 被引量：42
7段海滨,霍梦真,范彦铭.仿鹰群智能的无人机集群协同对抗飞行验证[J].控制理论与应用,2018,35(12):1812-1819. 被引量：20
8杨中英,王毓龙,赖传龙.无人机蜂群作战发展现状及趋势研究[J].飞航导弹,2019,0(5):34-38. 被引量：38
9田磊,赵启伦,董希旺,李清东,任章.异构多智能体系统分组输出时变编队跟踪控制[J].航空学报,2020,41(7):295-306. 被引量：15
10WU Wen-di,WU Yun-long,LI Jing-hua,REN Xiao-guang,SHI Dian-xi,TANG Yu-hua.Multi-UAV surveillance implementation under hierarchical dynamic task scheduling architecture[J].Journal of Central South University,2020,27(9):2614-2627. 被引量：4

引证文献2

1盛磊,时满红,亓迎川,李浩,庞明军.基于态势演化博弈的无人机集群动态攻防[J].系统工程与电子技术,2023,45(8):2332-2342. 被引量：1
2江涌,王林波,王蒙一.“群对群”协同对抗的规划与制导问题研究[J].中国科学：技术科学,2024,54(3):377-390.

二级引证文献1

1操羿,黎静,张永新,余国文.俄乌冲突中FPV攻击无人机攻防运用初探[J].中国军转民,2024(11):20-22.

1金烨,田志奎(指导).我与象棋的故事[J].新作文（冰心少年文学）,2022(9):21-21.
2李振,陈学文.交通车辆换道行为预测方法[J].重庆理工大学学报（自然科学）,2022,36(12):50-57. 被引量：1
3马诗谣.基于Multi-Agent的数据挖掘系统研究[J].移动信息,2022(11):46-48.
4孙丹,高东,郑建华,韩鹏.引入积分补偿的四旋翼确定性策略梯度控制器[J].计算机工程与设计,2023,44(1):255-261. 被引量：1
5王滨,李思敏,钱亚冠,张君,李超豪,朱晨鸣,张鸿飞.基于剪枝技术和鲁棒蒸馏融合的轻量对抗攻击防御方法[J].网络与信息安全学报,2022,8(6):102-109.
6无.如何知道自己是否适合做股票投资?[J].股市动态分析,2023(1):41-41.
7黄艳瑜.习武修德,凌逸在胸[J].黄金时代（下半月）,2022(12):36-38.
8陈亚东,王琭珉,郭大庆,刘俊辉,王佳楠.视场角受限的三维攻击角度控制导引律[J].宇航学报,2022,43(11):1487-1498. 被引量：3
9杨秀霞,高恒杰,刘伟,张毅.RVO-DDPG算法在多UAV集结航路规划的应用[J].计算机工程与应用,2023,59(1):308-316.
10吴立成,吴启飞,钟宏鸣,李霞丽.“拱猪”游戏的深度蒙特卡洛博弈算法[J].重庆理工大学学报（自然科学）,2022,36(12):121-128. 被引量：2

国防科技大学学报

2023年第1期

浏览历史

内容加载中请稍等...

针对无人机集群对抗的规则与智能耦合约束训练方法被引量：2

参考文献11

二级参考文献66

共引文献291

同被引文献22

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

针对无人机集群对抗的规则与智能耦合约束训练方法 被引量：2

参考文献11

二级参考文献66

共引文献291

同被引文献22

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

针对无人机集群对抗的规则与智能耦合约束训练方法被引量：2