分层强化学习综述被引量：14

Overview of Hierarchical Reinforcement Learning

下载PDF

导出

摘要近年来强化学习愈发体现其强大的学习能力,2017年AlphaGo在围棋上击败世界冠军,同时在复杂竞技游戏星际争霸2和DOTA2中人类的顶尖战队也败于AI之手,但其自身又存在着自身的弱点,在不断的发展中瓶颈逐渐出现。分层强化学习因为能够解决其维数灾难问题,使得其在环境更为复杂,动作空间更大的环境中表现出更加优异的处理能力,对其的研究在近几年不断升温。对强化学习的基本理论进行简要介绍,对Option、HAMs、MAXQ这3种经典分层强化学习算法进行介绍,之后对近几年在分层的思想下提出的分层强化学习算法从3个方面进行综述,并对其进行分析,讨论了分层强化学习的发展前景和挑战。 In recent years,reinforcement learning has increasingly reflected its strong learning ability.In 2017,AlphaGo beat the world champion in go.Meanwhile,in the complex competitive games StarCraft 2 and dota2,the top human teams are also defeated by AI.However,it has its own weaknesses,and the bottleneck gradually appears in the continuous development.Hierarchical reinforcement learning can solve the problem of dimension disaster,which makes it show more excellent processing ability in the environment with more complex environment and larger action space.This paper briefly introduces the basic theory of reinforcement learning.It introduces three classical hierarchical reinforcement learning algorithms,option,hams and MAXQ.It summarizes and analyzes the hierarchical reinforcement learning algorithm proposed in recent years under the idea of stratification from three aspects.It discusses the development prospects and challenges of hierarchical reinforcement learning.

作者赖俊魏竞毅陈希亮 LAI Jun;WEI Jingyi;CHEN Xiliang(College of Command Information System,Army Engineering University,Nanjing 210007,China)

机构地区陆军工程大学指挥控制工程学院

出处《计算机工程与应用》 CSCD 北大核心 2021年第3期72-79,共8页 Computer Engineering and Applications

基金国家自然科学基金(61806221)。

关键词分层强化学习子策略共享多层分层结构自动分层 hierarchical reinforcement learning subpolicy sharing multi-layer hierarchical structure automatic stratification

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献91

1陈彩辉,姜汉龙.任务空间概念模型(CMM S)研究[J].计算机仿真,2005,22(9):80-84. 被引量：13
2张秋华,赵小津,孙毅.空间飞行器在视线坐标系中的追逃界栅[J].航天控制,2007,25(1):26-30. 被引量：8
3张秋华,孙毅,黄明明,段广仁.近地共面轨道上两飞行器在径向连续小推力下的追逃界栅[J].控制与决策,2007,22(5):530-534. 被引量：14
4原魁,李园,房立新.多移动机器人系统研究发展近况[J].自动化学报,2007,33(8):785-794. 被引量：73
5冯士刚,艾芊.带精英策略的快速非支配排序遗传算法在多目标无功优化中的应用[J].电工技术学报,2007,22(12):146-151. 被引量：121
6熊健,赵青松,葛冰峰,陈英武.基于多目标优化模型的武器装备体系能力规划[J].国防科技大学学报,2011,33(3):140-144. 被引量：12
7邹蕾,张先锋.人工智能及其发展应用[J].信息网络安全,2012(2):11-13. 被引量：207
8余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：610
9牛轶峰,肖湘江,柯冠岩.无人机集群作战概念及关键技术分析[J].国防科技,2013,34(5):37-43. 被引量：121
10张秋华,孙松涛,谌颖,孙毅.时间固定的两航天器追逃策略及数值求解[J].宇航学报,2014,35(5):537-544. 被引量：16

引证文献14

1欧阳名三,冯舒心.稀疏奖励环境中的分层强化学习[J].佳木斯大学学报（自然科学版）,2022,40(2):54-57. 被引量：1
2李昂,崔勇.人工智能在皮肤科中的应用[J].中国皮肤性病学杂志,2022,36(8):872-876. 被引量：4
3刘志飞,曹雷,赖俊,陈希亮,陈英.多智能体路径规划综述[J].计算机工程与应用,2022,58(20):43-62. 被引量：11
4林泽阳,赖俊,陈希亮.基于课程学习的深度强化学习研究综述[J].计算机技术与发展,2022,32(11):16-23.
5王玉宾,孙怡峰,吴疆,李智,张玉臣.陆战对抗中的智能体博弈策略生成方法[J].指挥与控制学报,2022,8(4):441-450. 被引量：4
6黄志刚,刘全,张立华,曹家庆,朱斐.深度分层强化学习研究与发展[J].软件学报,2023,34(2):733-760. 被引量：5
7刘晓峰,刘智斌,董兆安.基于记忆启发的强化学习方法研究[J].计算机技术与发展,2023,33(6):168-172. 被引量：1
8赵钊,原培新,唐俊文,陈锦林.基于改进SNN-HRL的智能体路径规划算法[J].东北大学学报（自然科学版）,2023,44(11):1548-1555.
9田小禾,李伟,许铮,刘天星,戚骁亚,甘中学.竞争与合作视角下的多Agent强化学习研究进展[J].计算机应用与软件,2024,41(4):1-15.
10方帅,陈旭,李康吉.Q学习差分进化算法求解热电动态经济排放调度[J].电子科技,2024,37(5):9-17. 被引量：1

二级引证文献27

1张悦,顾多多,潘婼芯,许阳.人工智能在皮肤科的应用及前景[J].数字医学与健康,2024,2(3):143-147.
2沈佚葳,王晓艳,周城,陆前进,张建中.皮肤科领域“十三五”期间国家自然科学基金资助分析及展望[J].中国皮肤性病学杂志,2022,36(9):977-983. 被引量：1
3赵英,秦进.基于内在奖励的技能获取和组合方法[J].计算机应用研究,2022,39(12):3678-3682.
4孔国杰,冯时,于会龙,巨志扬,龚建伟.无人集群系统协同运动规划技术综述[J].兵工学报,2023,44(1):11-26. 被引量：6
5刘志飞,董强,赖俊,陈希亮.多智能体强化学习在直升机机场调度中的应用[J].计算机工程与应用,2023,59(16):285-294. 被引量：3
6栗军伟,刘全,徐亚鹏.基于互信息优化的Option-Critic算法[J].计算机科学,2024,51(2):252-258.
7王磊,胡国,吴海,谭阔,周成,朱亚军.基于分层深度强化学习的分布式能源系统多能协同优化方法[J].电力系统自动化,2024,48(1):67-76. 被引量：1
8栾宇,张海涛,李依霖,庞宇飞.基于韧性理论的突发事件情报决策体系研究[J].情报理论与实践,2024,47(3):95-103. 被引量：6
9周毅,刘俊.融合强化学习的多目标路径规划[J].计算机系统应用,2024,33(3):158-169. 被引量：1
10李思敏,产青青,金鑫,杨晶,路恒通,张家旋,碗莹,杨一帆.机器学习在水务行业中的应用现状与发展前景[J].水电能源科学,2024,42(3):43-48. 被引量：1

1迟到的TI 和准时的狂欢[J].电子竞技,2020(10):50-51.
2张国瑞,于昕,樊庆泊,郎景和.医学模拟教学在妇产科临床技能分层强化培训中的效果评价[J].基础医学与临床,2021,41(1):147-150. 被引量：23
3刘鑫.二十世纪六七十年代黄河三角洲儿童游戏种类、特点及传承途径[J].中国民族博览,2020(12):4-6. 被引量：1
4封铁英,南妍.养老产业政策体系及其协调性--基于政策文本的量化分析[J].北京行政学院学报,2021(1):76-85. 被引量：10
5张迪,杨沛,邓鑫波,赵千川.ASExplorer:基于联合熵的多维相关性可视分析系统[J].计算机工程与应用,2021,57(1):99-109. 被引量：2
6左子扬.别样双子星[J].电子竞技,2020(11):70-73.
7金晓蕾,孙静,朱珍,胡金文.CT影像学检查对克罗恩病患者病情活动度的诊断价值[J].临床和实验医学杂志,2021,20(1):85-88. 被引量：3

计算机工程与应用

2021年第3期

浏览历史

内容加载中请稍等...

分层强化学习综述被引量：14

同被引文献91

引证文献14

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

分层强化学习综述 被引量：14

同被引文献91

引证文献14

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

分层强化学习综述被引量：14