深度强化学习算法在智能军事决策中的应用被引量：6

Application of Deep Reinforcement Learning Algorithm on Intelligent Military Decision System

下载PDF

导出

摘要深度强化学习算法能够很好地实现离散化的决策行为,但是难以运用于高度复杂且行为连续的现代战场环境,同时多智能体环境下算法难以收敛。针对这些问题,提出了一种改进的深度确定策略梯度(DDPG)算法,该算法引入了基于优先级的经验重放技术和单训练模式,以提高算法收敛速度;同时算法中还设计了一种混合双噪声的探索策略,从而实现复杂且连续的军事决策控制行为。采用Unity开发了基于改进DDPG算法的智能军事决策仿真平台,搭建了蓝军步兵进攻红军军事基地的仿真环境,模拟多智能体的作战训练。实验结果显示,该算法能够驱动多作战智能体完成战术机动,实现绕过障碍物抵达优势区域进行射击等战术行为,算法拥有更快的收敛速度和更好的稳定性,可得到更高的回合奖励,达到了提高智能军事决策效率的目的。 Deep reinforcement learning algorithm can well achieve discrete decision-making behavior,but it is difficult to apply to the highly complex and continuous modern battlefield situations,and the algorithm is difficult to converge in multi-agent environment.To solve these problems,an improved Deep Deterministic Policy Gradient(DDPG)algorithm is proposed,which introduces the experience replay technology based on priority and single training mode to improve the convergence speed of the algorithm;at the same time,an exploration strategy of mixed double noise is designed in the algorithm to realize complex and continuous military decision-making and control behavior.The intelligent military decision simulation platform based on the improved DDPG algorithm is developed by unity3D.The simulation environment of Blue Army Infantry attacking Red Army military base is built to simulate multi-agent combat training.The experimental results show that the algorithm can drive multiple combat agents to complete tactical maneuvers and achieve tactical behaviors,such as bypassing obstacles to reach the dominant area for shooting.The algorithm has faster convergence speed and better stability.It can get higher round rewards,and achieves the purpose of improving the efficiency of intelligent military decision-making.

作者况立群李思远冯利韩燮徐清宇 KUANG Liqun;LI Siyuan;FENG Li;HAN Xie;XU Qingyu(School of Data Science and Technology,North University of China,Taiyuan 030051,China;Department of Simulation Equipment,North Automatic Control Technology Institute,Taiyuan 030006,China)

机构地区中北大学大数据学院北方自动控制技术研究所仿真装备部

出处《计算机工程与应用》 CSCD 北大核心 2021年第20期271-278,共8页 Computer Engineering and Applications

基金国家部委预研项目。

关键词深度强化学习深度Q网络深度确定策略梯度智能军事决策多智能体 deep reinforcement learning deep Q-network deep deterministic policy gradient intelligent military decisionmaking multi-agent

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1陈希亮,张永亮.基于深度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,31(3):20-27. 被引量：23
2姚桐,王越,董岩,戚锦,耿修堂.深度强化学习在作战任务规划中的应用[J].飞航导弹,2020(4):16-21. 被引量：8
3LI Yue,QIU Xiaohui,LIU Xiaodong,XIA Qunli.Deep reinforcement learning and its application in autonomous fitting optimization for attack areas of UCAVs[J].Journal of Systems Engineering and Electronics,2020,31(4):734-742. 被引量：12
4郑健,陈建,朱琨.基于多智能体强化学习的无人集群协同设计[J].指挥信息系统与技术,2020,11(6):26-31. 被引量：9
5陈亮,梁宸,张景异,刘韵婷.Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法[J].控制与决策,2021,36(1):75-82. 被引量：23
6赵毓,郭继峰,郑红星,白成超.基于强化学习的多无人机避碰计算制导方法[J].导航定位与授时,2021,8(1):31-40. 被引量：8
7吴昭欣,李辉,王壮,陶伟,吴昊霖,侯贤乐.基于深度强化学习的智能仿真平台设计[J].战术导弹技术,2020(4):193-200. 被引量：6
8吴球业.基于Actor-Critic结构的受扰倒立摆平衡控制研究[J].信息系统工程,2020(3):146-147. 被引量：1

二级参考文献37

1张克,刘永才,关世义.多智能体系统在导弹攻防对抗仿真中应用的可行性研究[J].战术导弹技术,2001(6):59-65. 被引量：8
2魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
3姚俊武,黄丛生.多机器人系统协调协作控制技术综述[J].黄石理工学院学报,2007,23(6):1-6. 被引量：6
4杨瑞平,郭齐胜.指挥实体建模与仿真研究[J].火力与指挥控制,2008,33(10):63-66. 被引量：7
5周炜,魏瑞轩,董志兴.基于层次分解策略无人机编队避障方法[J].系统工程与电子技术,2009,31(5):1152-1157. 被引量：19
6王锐平,高正红.无人机空战仿真中基于机动动作库的决策模型[J].飞行力学,2009,27(6):72-75. 被引量：16
7吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22
8杜正军,陈超,姜鑫.基于影响网络与序贯博弈的作战行动序列模型与求解[J].系统工程理论与实践,2013,33(1):215-222. 被引量：14
9张迎新,陈超,刘忠,石建迈.资源不确定军事任务计划预测调度模型与算法[J].国防科技大学学报,2013,35(3):30-35. 被引量：13
10王文明,周帅.多机器人协同控制与编队方法研究[J].信息网络安全,2014(6):59-66. 被引量：4

共引文献77

1郑成辰,李辉,陶伟,刘思成,吴冯国,何立.基于深度强化学习的导弹末端约束角制导律[J].战术导弹技术,2022(6):93-102. 被引量：2
2Damian B O'Grady,周立君.硅质碎屑被动大陆边缘的地貌变化分类[J].海洋地质动态,2000,16(7):13-15. 被引量：1
3何杨,肖基毅.基于深度强化学习的网络共享资源智能调度方法[J].自动化与仪器仪表,2019,0(6):80-82. 被引量：3
4高昂,段莉,张国辉,董志明,曹洁,郭齐胜.计算机生成兵力行为建模发展现状[J].计算机工程与应用,2019,55(19):43-51. 被引量：4
5张永亮,董浩洋,刘勇.基于知识的智能指挥决策运行机制及其支撑技术研究[J].军事运筹与系统工程,2020,34(2):5-12. 被引量：9
6曹雷,孙彧,陈希亮,吴宜珈.联合作战任务智能规划关键技术及其应用思考[J].国防科技,2020,41(3):49-56. 被引量：10
7殷昌盛,杨若鹏,朱巍,邹小飞,李峰.多智能体分层强化学习综述[J].智能系统学报,2020,15(4):646-655. 被引量：24
8高昂,董志明,张国辉,梁涛,郭齐胜.LVC训练系统中计算机生成兵力生成技术研究[J].系统仿真学报,2021,33(3):745-752. 被引量：8
9陈瑜,沈昳婷,廖羽洁.基于多智能体的分布式音乐灯光控制系统研究[J].数码设计,2021,10(11):62-62. 被引量：1
10吴宜珈,赖俊,陈希亮,曹雷,徐鹏.强化学习算法在超视距空战辅助决策上的应用研究[J].航空兵器,2021,28(2):55-61. 被引量：13

同被引文献50

1傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：20
2王锐平,高正红.无人机空战仿真中基于机动动作库的决策模型[J].飞行力学,2009,27(6):72-75. 被引量：16
3杨艳萍,叶锡庆,张明安,陈厚武.战场网络战基本模型研究[J].系统仿真学报,2011,23(5):1015-1020. 被引量：6
4孙建彬,邢立宁.基于遗传算法的武器系统组合优化方法[J].价值工程,2011,30(29):9-11. 被引量：3
5陶九阳,吴琳,胡晓峰.AlphaGo技术原理分析及人工智能军事应用展望[J].指挥与控制学报,2016,2(2):114-120. 被引量：74
6张骁雄,葛冰峰,姜江,谭跃进.面向能力需求的武器装备组合规划模型与算法[J].国防科技大学学报,2017,39(1):102-108. 被引量：16
7李文,陈建.有人机/无人机混合编队协同作战研究综述与展望[J].航天控制,2017,35(3):90-96. 被引量：36
8左家亮,杨任农,张滢,李中林,邬蒙.基于启发式强化学习的空战机动智能决策[J].航空学报,2017,38(10):212-225. 被引量：52
9赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：62
10汤奕,李梦雅,王琦,倪明.电力信息物理系统网络攻击与防御研究综述(二)检测与保护[J].电力系统自动化,2019,43(10):1-9. 被引量：36

引证文献6

1郭洪宇,初阳,刘志,周玉芳.基于深度强化学习潜艇攻防对抗训练指挥决策研究[J].指挥控制与仿真,2022,44(1):103-111. 被引量：2
2张博超,温晓玲,刘璐,张雅茜,王宏光.基于近端策略优化的空战决策算法研究[J].航空工程进展,2023,14(2):145-151. 被引量：2
3李达,尚涛,高雪芹,刘建伟.基于深度强化学习的电力CPS联合防御方案[J].电力信息与通信技术,2023,21(9):23-29. 被引量：3
4张梦钰,豆亚杰,陈子夷,姜江,杨克巍,葛冰峰.深度强化学习及其在军事领域中的应用综述[J].系统工程与电子技术,2024,46(4):1297-1308. 被引量：4
5杜凯,王晗,赵东海,黄建洋,张雷,张振月,朱春光,逄金刚.创新发展智能化指挥控制的思考[J].舰船电子工程,2024,44(1):6-8. 被引量：1
6岳颀,石伊凡,褚晶,黄勇.深度Q网络在月球着陆任务中的性能评估与改进[J].西北工业大学学报,2024,42(3):396-405.

二级引证文献11

1郝昕然,于洋,崔燕,刘妍杉,刘剑,高红伟.潜艇防御两阶段追逃微分博弈模型[J].兵器装备工程学报,2023,44(S01):103-110.
2贺宝记,白林亭,文鹏程.基于态势评估及DDPG算法的一对一空战格斗控制方法[J].航空工程进展,2024,15(2):179-187.
3程凤敏.基于深度强化学习的自动特征提取模型研究[J].电子质量,2024(4):11-15.
4单时卓,裴天翼,刘泽轩.基于人机混合智能的协同作战研究[J].计算机测量与控制,2024,32(5):296-301. 被引量：1
5郭宏达,娄静涛,徐友春,叶鹏,李永乐,陈晋生.基于MADDPG的多无人车协同事件触发通信[J].系统工程与电子技术,2024,46(7):2525-2533.
6张烨,涂远刚,张良,崔颢,王靖宇.智能空战深度强化决策方法现状与展望[J].航空兵器,2024,31(3):21-31.
7向紫燕.基于改进智能优化算法的自主导航物流小车路径决策方法[J].集成电路与嵌入式系统,2024,24(9):74-80.
8马松,李黎,黎伟,黄巍,王军.基于近端策略优化的智能抗干扰决策算法[J].通信学报,2024,45(8):249-257.
9叶学顺,李昭,刘科研,贾东梨,康田园,周俊.信息物理并发故障下的配电网供电恢复方法[J].电力信息与通信技术,2024,22(9):18-25.
10周从航,李建兴,石宇静,林致睿,林航航.深度强化学习在无人机编队路径规划中的应用[J].电光与控制,2024,31(10):27-33.

1彭世伟,杨东雷.武装直升机生存力现状探究[J].装备维修技术,2021(28):0339-0339.
2李亮亮.灵敏素质训练在拳击训练中的应用思考[J].当代体育科技,2021,11(16):73-75. 被引量：3
3马贤明,张海林,王全东,齐智敏.无人机集群作战智能培育平台构建研究[J].军事运筹与系统工程,2021,35(2):68-74.
4王琦,闻立杰,邓雅方,钱忱,王建民.基于过程模型约束的轨迹乱序事件修复方法[J].计算机集成制造系统,2021,27(9):2491-2500. 被引量：3
5韩泽瑞,吴鸣,杨军.多区域声重放技术综述[J].网络新媒体技术,2021,10(3):1-13.
6吴宜珈,赖俊,陈希亮,曹雷,徐鹏.强化学习算法在超视距空战辅助决策上的应用研究[J].航空兵器,2021,28(2):55-61. 被引量：13
7文德泽.浅谈垣曲县花椒产业发展现状及存在问题[J].农业技术与装备,2021(9):63-64. 被引量：1
8张永强,杨洁.中国肉牛养殖布局演变分析及驱动机制研究[J].家畜生态学报,2021,42(9):38-44. 被引量：11
9王冠,马长波,茹海忠,马广程,夏红伟.一种非仿射高超声速飞行器的智能控制方法[J].飞控与探测,2021,4(4):59-65. 被引量：3
10李华时(摄影/报道).淬火成钢铸卫勤尖刀——武警四川总队总队医院组织预提卫生士官集训队开展实战卫勤演练剪影[J].解放军健康,2021(4):46-46.

计算机工程与应用

2021年第20期

浏览历史

内容加载中请稍等...

深度强化学习算法在智能军事决策中的应用被引量：6

参考文献8

二级参考文献37

共引文献77

同被引文献50

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

深度强化学习算法在智能军事决策中的应用 被引量：6

参考文献8

二级参考文献37

共引文献77

同被引文献50

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

深度强化学习算法在智能军事决策中的应用被引量：6