强化学习在多阶段装备组合规划问题中的应用被引量：2

Application of reinforcement learning in multi-period weapon portfolio planning problems

下载PDF

导出

摘要针对多阶段武器装备组合规划中的选择难、规划难问题,提出基于多目标优化算法以及强化学习技术的混合优化方法。在各个阶段以装备组合效能最大和成本最小为准则,构建单阶段多目标优化模型,并设计基于非支配排序遗传算法的求解算法以生成各阶段的Pareto解,在此基础上建立多阶段的组合优化模型。通过强化学习的Q-Learning方法,在各阶段的Pareto解中采用探索或者利用两种模式,生成各阶段的装备组合,并指导下一阶段的装备选型,从而生成整个周期内的规划方案。通过对比实验分析,验证了所提模型和算法的有效性,能够为多阶段武器装备组合规划提供辅助决策。 Aiming at the difficulties in the choosing and planning in multi-period weapon systems development problems,an optimization simulation approach combining multi-objective optimization algorithm and reinforcement learning technique was proposed.A multi-objective optimization model was built to maximize the capability and minimize the cost of weapon portfolios in each period.Moreover,a solving algorithm based on the non-dominated sorting genetic algorithm-Ⅲwas presented to obtain the Pareto set in each period,based on which an optimization model for multi-period problem was built.The Q-Learning method,one of the reinforcement learning algorithms,searches within the Pareto set using two different ways for the selection of weapon portfolios in each period,whose outcome is used for the selection in the next period and the optimization of the portfolios over the entire planning horizon.An illustrative example was studied to demonstrate the effectiveness of the proposed model and hybrid algorithm,which can support the decision making on the weapons development and planning.

作者张骁雄丁松李明浩丁鲲王龙义余江 ZHANG Xiaoxiong;DING Song;LI Minghao;DING Kun;WANG Long;YI Yujiang(The Sixty-third Research Institute, National University of Defense Technology, Nanjing 210007, China;School of Economics, Zhejiang University of Finance & Economics, Hangzhou 310018, China;College of Systems Engineering, National University of Defense Technology, Changsha 410073, China;Southwest Electronics and Telecommunication Technology Research Institute, Chengdu 610041, China)

机构地区国防科技大学第六十三研究所浙江财经大学经济学院国防科技大学系统工程学院西南电子电信技术研究所

出处《国防科技大学学报》 EI CAS CSCD 北大核心 2021年第5期127-136,共10页 Journal of National University of Defense Technology

基金国家自然科学基金资助项目(71901215,71901191) 国防科技大学校科研计划资助项目(ZK20-46)。

关键词武器装备组合规划非支配排序遗传算法强化学习 Q-LEARNING weapon portfolio planning non-dominated sorting genetic algorithm-Ⅲ reinforcement learning Q-Learning

分类号 O22 [理学—运筹学与控制论] N94 [自然科学总论—系统科学]

引文网络
相关文献

参考文献8

1张骁雄,葛冰峰,姜江,谭跃进.面向能力需求的武器装备组合规划模型与算法[J].国防科技大学学报,2017,39(1):102-108. 被引量：16
2王孟,张怀强,蒋铁军.区间型需求下基于epoch-era思想的武器装备组合规划模型[J].海军工程大学学报,2018,30(6):36-41. 被引量：2
3孙盛智,侯妍,裴春宝.面向作战需求的卫星应用装备组合优化研究[J].电光与控制,2018,25(5):7-11. 被引量：3
4卜广志.武器装备建设方案的组合分析方法[J].火力与指挥控制,2011,36(3):154-158. 被引量：6
5胡晓峰,张昱,李仁见,杨镜宇.网络化体系能力评估问题[J].系统工程理论与实践,2015,35(5):1317-1323. 被引量：35
6王飞,司光亚.武器装备体系能力贡献度的解析与度量方法[J].军事运筹与系统工程,2016,30(3):10-15. 被引量：37
7吴伟丽.基于NSGA-Ⅲ的复杂成因变压器直流偏磁控制优化算法[J].电测与仪表,2018,55(11):89-93. 被引量：7
8张骁雄,姜江,葛冰峰.武器装备科研经费分配的规划模型与算法[J].系统工程与电子技术,2015,37(9):2061-2066. 被引量：7

二级参考文献49

1王振宇,马亚平,李柯.现代战争复杂性—联合作战的“联合增效”作用研究[J].计算机仿真,2004,21(11):10-12. 被引量：12
2胡晓峰.战争复杂性与信息化战争模拟[J].系统仿真学报,2006,18(12):3572-3580. 被引量：22
3付东,方程,王震雷.作战能力与作战效能评估方法研究[J].军事运筹与系统工程,2006,20(4):35-39. 被引量：69
4Paul K D, Russell D S,Justin B. Portfolio-Analysis Methods for Assessing Capability Options [R]. U. S.A. :RAND Corporation, 2008, MG-662.
5Paul D, Paul K D. A Portfolio-Analysis Tool for Missile Defense [ R ]. U. S. A... RAND Corporation, 2005, TR-262-A.
6Edwin J E,Martin J G, Stephen J B,et al. Modern Portfolio Theory and Investment Analysis [M]. U. S.A. :John Wiley & Sons, Inc. , 2007.
7Jack A J, Brian L J, Lee J L. an Operational Analysis for Air Force 2025, An Application of Value-Focused Thinking to Future Air and Space Capabilities[M]. U.S.A.: Air University, 1995.
8Sean Della.Applying the Information Age Combat Model:Quantitative Analysis of Network Centric Operations. The international C2 journal . 2009
9Yang Liu,Xiao-feng Hu,Lin Wu.Evolutionary Analysis of Operation System-of-Systems (SoS)Network Based on Simulated Data. 2012 Ninth Web Information Systems and Applications Conference . 2012
10Bertsimas D, Gupta S, Lulli G. Dynamic resource allocation a flexible and tractable modeling framework[J]. European Journal of Operational Research, 2014, 236(1) : 14 - 26.

共引文献99

1禹明刚,何明,权冀川.基于能力价值的NIC-SoS演化建模及分析方法[J].兵器装备工程学报,2020,41(1):111-116. 被引量：1
2张帅,苌军红,张永顺.装备经费预算项目优先级评价指标体系研究[J].价值工程,2013,32(21):183-185. 被引量：1
3禹明刚,倪金盾,权冀川,董经纬.基于ANP的网络信息体系能力相关性模型研究[J].指挥与控制学报,2018,4(4):291-296. 被引量：9
4邓群,王丰.战备物资储备能力评估研究综述[J].物流技术,2016,35(6):163-167. 被引量：2
5杨镜宇,胡晓峰.基于体系仿真试验床的新质作战能力评估[J].军事运筹与系统工程,2016,30(3):5-9. 被引量：17
6朱丰,胡晓峰.基于深度学习的战场态势评估综述与研究展望[J].军事运筹与系统工程,2016,30(3):22-27. 被引量：39
7沈治河,刘峰.水面舰艇水声对抗系统对抗声自导鱼雷仿真分析及评估[J].军事运筹与系统工程,2017,31(1):5-9. 被引量：1
8张骁雄,葛冰峰,姜江,谭跃进.面向能力需求的武器装备组合规划模型与算法[J].国防科技大学学报,2017,39(1):102-108. 被引量：16
9杨镜宇,胡晓峰,张昱,伍文峰.基于体系仿真实验的联合作战能力评估技术[J].指挥信息系统与技术,2017,8(4):1-9. 被引量：16
10赵翔,徐江,刘博欣.后勤装备维修保障能力参数体系研究[J].兵器装备工程学报,2017,38(9):136-139. 被引量：6

同被引文献40

1张昱,张明智,杨镜宇,赵晔,荣明.一种基于OODA环的武器装备体系建模方法[J].系统仿真学报,2013,25(S1):6-11. 被引量：35
2张明智,胡晓峰,司光亚,赵占龙.基于Agent的体系对抗仿真建模方法研究[J].系统仿真学报,2005,17(11):2785-2788. 被引量：30
3杨宇.多指标综合评价中赋权方法评析[J].统计与决策,2006,22(13):17-19. 被引量：218
4李远远,云俊.多属性综合评价指标体系理论综述[J].武汉理工大学学报（信息与管理工程版）,2009,31(2):305-309. 被引量：58
5杨艳萍,叶锡庆,张明安,陈厚武.战场网络战基本模型研究[J].系统仿真学报,2011,23(5):1015-1020. 被引量：6
6孙建彬,邢立宁.基于遗传算法的武器系统组合优化方法[J].价值工程,2011,30(29):9-11. 被引量：3
7赵静,郭鹏,潘女兆.基于交互效应的项目组合风险度量及选择优化[J].运筹与管理,2011,20(6):120-126. 被引量：23
8周宇,杨克巍,姜江,谭跃进.面向武器装备体系组合规划的集成决策优化框架[J].国防科技大学学报,2013,35(3):36-41. 被引量：11
9张迪,郭齐胜,李智国.基于ANP的武器装备体系能力有限层次评估方法[J].系统工程与电子技术,2015,37(4):817-824. 被引量：21
10张树杰,黄勇,王静滨,陈欣鹏.基于熵值和TOPSIS法的装备体系方案优选方法[J].兵工自动化,2016,35(1):20-22. 被引量：9

引证文献2

1常青,刘德生,刘文文,李肖,林文祥.装备组合选择问题研究[J].指挥控制与仿真,2023,45(1):1-10.
2张梦钰,豆亚杰,陈子夷,姜江,杨克巍,葛冰峰.深度强化学习及其在军事领域中的应用综述[J].系统工程与电子技术,2024,46(4):1297-1308. 被引量：4

二级引证文献4

1郭宏达,娄静涛,徐友春,叶鹏,李永乐,陈晋生.基于MADDPG的多无人车协同事件触发通信[J].系统工程与电子技术,2024,46(7):2525-2533.
2马松,李黎,黎伟,黄巍,王军.基于近端策略优化的智能抗干扰决策算法[J].通信学报,2024,45(8):249-257.
3周从航,李建兴,石宇静,林致睿,林航航.深度强化学习在无人机编队路径规划中的应用[J].电光与控制,2024,31(10):27-33.
4张东戈,禹明刚,牛彦杰,柏婷婷,池尚卓.人工智能对指控领域的影响[J].指挥控制与仿真,2024,46(5):1-5.

1耿藤瑜,傅红,曾雅婕,胡铭真.森林康养游憩者场所感知与健康效益评估关系研究——以成都龙泉山城市森林公园为例[J].林业经济,2021,43(3):21-36. 被引量：30
2罗雨绮.“三治结合”乡村治理体系内在逻辑与实现路径研究[J].区域治理,2021(17):47-48.
3李立朋,丁秀玲,李桦.农户规模经营中林地确权、关系资源与正规信贷获得研究——基于林地转入规模视角的实证分析[J].林业经济,2021,43(1):21-36. 被引量：3
4关于编辑出版《热处理装备选型手册》的通知[J].热处理技术与装备,2021,42(4):68-68.

国防科技大学学报

2021年第5期

浏览历史

内容加载中请稍等...

强化学习在多阶段装备组合规划问题中的应用被引量：2

参考文献8

二级参考文献49

共引文献99

同被引文献40

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

强化学习在多阶段装备组合规划问题中的应用 被引量：2

参考文献8

二级参考文献49

共引文献99

同被引文献40

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

强化学习在多阶段装备组合规划问题中的应用被引量：2