分层强化学习中的Option自动生成算法被引量：5

Option Automatic Generation in Hierarchical Reinforcement Learning

下载PDF

导出

摘要分层强化学习中目前有Option、HAM和MAXQ三种主要方法,其自动分层问题均未得到有效解决,该文针对第一种方法,提出了Option自动生成算法,该算法以Agent在学习初始阶段探测到的状态空间为输入,采用人工免疫网络技术对其进行聚类,在聚类后的各状态子集上通过经验回放学习产生内部策略集,从而生成Option,仿真实验验证了该算法的有效性。 There are currently three typical approaches,namely,0ption,HAM,and MAXQ,for hierarchical reinforcement learning,whereas the open problem that generates hierarchies automatically is not solved well,Aiming at the first approach,this paper presents an algorithm for Option automatic generation.The algorithm takes the state space explored by Agent in the initial learning phase and clusters the states employing artificial immune net,Based on the clustered state sets,the intra-strategies are learned by an experience replay procedure.As a result,the Options are generated.The validity of the algorithm is demonstrated by simulation experiments.

作者沈晶顾国昌刘海波

机构地区哈尔滨工程大学计算机科学与技术学院

出处《计算机工程与应用》 CSCD 北大核心 2005年第34期4-6,15,共4页 Computer Engineering and Applications

基金部委基础研究计划项目

关键词分层强化学习 OPTION 人工免疫网络经验回放 hierarchical reinforcement learning, Option, artificial immune net, experience replay

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268
2[2]A G Barto,S Mahadevan.Recent Advances in Hierarchical Reinforcement Learning[J].Discrete Event Dynamic Systems:Theory and Applications,2003; 13 (4):41～77
3[3]R S Sutton,D Precup,S P Singh.Between MDPs and Semi-MDPs:A Framework for Temporal Abstraction in Reinforcement Learning[J].Artificial Intelligence,1999; 112 (1-2):181～211
4[4]R Parr.Hierarchical Control and Learning for Markov Decision Processes[D].Ph D Thesis.University of California,Berkeley,1998
5[5]T G Dietterich.Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition[J].Journal of Artificial Intelligence Research,2000; 13:227～303
6[6]B L Digney.Learning Hierarchical Control Structures for Multiple Tasks and Changing Environments[C].In:Proceedings of the Fifth International Conference on Simulation of Adaptive Behavior,Zurich,Switzerland,1998:321～330
7[7]A McGovern ,A Barto.Autonomous Discovery of Subgoals in Reinforcement Learning Using Deverse Density[C].In :Proceedings of the Fifth International Conference on Machine Learning,San Fransisco:Morgan Kaufmann,2001:361～368
8[8]I Menache,S Mannor,N Shimkin.Q-Cut:Dynamic discovery of subgoals in reinforcement learning.Lecture Notes in Computer Science,Springer,Vol 2430,2002:295～306
9[9]S Mannor et al.Dynamic Abstraction in Reinforcement Learning via Clustering[C].In :Proceedings of the Twenty-First International Conference on Machine Learning,Banff,Canada,2004:560～567
10[10]D Precup.Temporal Abstraction in Reinforcement Learning[D].Ph D Dissertation.University of Massachusetts,Amherst,2000

二级参考文献4

1蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：20
2高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
3李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
4杨煜普,欧海涛.基于再励学习与遗传算法的交通信号自组织控制[J].自动化学报,2002,28(4):564-568. 被引量：12

共引文献267

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7

同被引文献25

1沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7
2苏畅,高阳,陈世福,陈兆乾.基于SMDP环境的自主生成options算法的研究[J].模式识别与人工智能,2005,18(6):679-684. 被引量：9
3王本年,高阳,陈兆乾,谢俊元,陈世福.面向Option的k-聚类Subgoal发现算法[J].计算机研究与发展,2006,43(5):851-855. 被引量：8
4沈晶,顾国昌,刘海波.基于多智能体的Option自动生成算法[J].智能系统学报,2006,1(1):84-87. 被引量：2
5沈晶,顾国昌,刘海波.一种新的分层强化学习方法[J].计算机应用,2006,26(8):1938-1939. 被引量：1
6Sutton R S,Precup D,Singh S P.Between MDPs and Semi-MDPs: a framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999,112(1/2) : 181-211.
7Parr R.Hierarchical control and learning for Markov decision processes[D].Berkeley:University of California, 1998.
8Dietterich T G.Hierarchical reinforcement Learning with the MAXQ value function decomposition[J].Journal of Artificial Intelligence Research, 2000,13 : 227-303.
9McGovern A,Barto A.Autonomous discovery of subgoals in reinforcement learning using deverse density[C]//Proceedings of the 8th International Conference on Machine Learning.San Fransisco: Morgan Kaufmann, 2001 : 361-368.
10Menache I,Mannor S,Shimkin N.Q-cut:dynamic discovery of subgoals in reinforcement learning[C]//LNCS 2430:Proc of the 13th ECML, 2002: 295-306.

引证文献5

1沈晶,顾国昌,刘海波.一种新的分层强化学习方法[J].计算机应用,2006,26(8):1938-1939. 被引量：1
2杜小勤,李庆华,韩建军.一种基于HAMs体系的层次分解方法[J].小型微型计算机系统,2008,29(4):653-658.
3胡明辉,殷苌茗,李立云.基于ACCA的Option自动生成算法[J].计算机工程与应用,2008,44(19):39-40. 被引量：1
4胡坤,余雪丽,李志.一种改进的自动分层算法BMAXQ[J].计算机工程与应用,2011,47(30):1-3. 被引量：1
5魏竞毅,赖俊,陈希亮.基于互信息的智能博弈对抗分层强化学习研究[J].计算机技术与发展,2022,32(9):142-147.

二级引证文献3

1杜小勤,李庆华,韩建军.一种基于HAMs体系的层次分解方法[J].小型微型计算机系统,2008,29(4):653-658.
2余雪丽,李志,周昌能,崔倩,胡坤.强化学习中异构反馈信号的分析与集成[J].计算机科学与探索,2012,6(4):366-376.
3郭乐欣,张孝顺,谭敏,余涛.基于群智能强化学习的电网最优碳-能复合流算法[J].电测与仪表,2017,54(1):1-7. 被引量：4

1林明,朱纪洪,孙增圻.固定长度经验回放对Q学习效率的影响[J].计算机工程,2006,32(6):7-10. 被引量：1
2胡明辉,殷苌茗,李立云.基于ACCA的Option自动生成算法[J].计算机工程与应用,2008,44(19):39-40. 被引量：1
3张欣,戴帅.基于模糊聚类的分层强化学习算法[J].计算机工程与科学,2010,32(1):55-56.
4安岭丽,彭志平,李铁鹰.MAXQ方法在出租车问题中的应用[J].茂名学院学报,2007,17(1):56-59.
5庞士焕,朱相冰,张琦,汤萍萍.基于MAXQ方法的分层强化学习[J].计算机技术与发展,2009,19(4):154-156. 被引量：1
6王凤英,崔国玮,邸建红,颉新春.计数器的VHDL设计与实现[J].现代电子技术,2007,30(9):114-116. 被引量：7
7沈晶,顾国昌,刘海波.一种新的分层强化学习方法[J].计算机应用,2006,26(8):1938-1939. 被引量：1
8“小额农贷”的再思考[J].中国农村信用合作,2008(3):63-66.
9陆军,付成伟.基于核密度估计的分层强化学习自动分层算法[J].自动化技术与应用,2008,27(5):6-10.
10Maxim扩充MAXQ混和信号微控制器产品线[J].电子质量,2010(12):62-62.

计算机工程与应用

2005年第34期

浏览历史

内容加载中请稍等...

分层强化学习中的Option自动生成算法被引量：5

参考文献13

二级参考文献4

共引文献267

同被引文献25

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

分层强化学习中的Option自动生成算法 被引量：5

参考文献13

二级参考文献4

共引文献267

同被引文献25

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

分层强化学习中的Option自动生成算法被引量：5