基于MAXQ方法的分层强化学习被引量：1

Hierarchical Reinforcement Learning with MAXQ Method

下载PDF

导出

摘要强化学习是机器学习领域的一个重要分支,但在强化学习系统中,学习的数量会随着状态变量的个数成指数级增长,从而形成"维数灾"。为此提出了一种基于MAXQ的分层强化学习方法,通过引入抽象机制将强化学习任务分解到不同层次上来分别实现,使得每层上的学习任务仅需在较小的空间中进行,从而大大减少了学习的数量和规模。并给出具体算法——MAXQ-RLA。 Reinforcement learning is an important branch of machine learning. In the system of reinforcement learning,the learning stategies increase exponentially along with the number of state variables, which is called ＂dimensions disaster＂. Here a hierarchical reinforcement learning based on the MAXQ is proposed to solve this problem,which is realized by decomposing the task to different level,thus sub - tasks in every level can be solved in relatively smaller scale. This method turns out to be effective to decrease the stategies. Finally,offer the concerned algorithm-MAXQ- RLA.

作者庞士焕朱相冰张琦汤萍萍

机构地区安徽师范大学教育科学学院安徽师范大学物理与电子信息工程学院西北大学软件学院东南大学计算机学院

出处《计算机技术与发展》 2009年第4期154-156,169,共4页 Computer Technology and Development

基金安徽省教育重点项目(KJ2008A142C) 安徽省自然科学基金项目(KJ2007B061)

关键词分层强化学习 MAXQ MDP hierarchical reinforcement learning MAXQ MDP

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Iima H, Kuroe Y. Swarm reinforcement learning algorithms - exchange of information among multiple agents [ C ]//SICE, 2007. Annual Conference. JAPAN: SICE, 2007 : 2779 - 2784.
2Erfu Y, Yang E. A Multiagent Fuzzy Policy Reinforcement Learning Algorithm with Application to Leader - Follower Robotic Systems [ C] //Intelligent Robots and Systems, 2006 IEEE/RSJ International Conference. New YorK: IEEE,2006:3197 -3202.
3Handa H. Evolutionary Computation on Multitask Reinforcement Learning Problems[ C]//Networking,Sensing and Control, 2007 IEEE International Conference. New York: IEEE, 2007: 685 - 688.
4Watanabe T, Takahashi Y. Hierarchical reinforcement learning using a modular fuzzy model for multi - agent problem[J ]. Systems, Man and Cybernetics, 2007. ISIC. IEEE International Conference. New York: IEEE,2007 : 1681 - 1686.
5Dietterich T G. Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition[ J ]. Journal of Artificial Intelligence Research,2000,13 : 227 - 303.
6Diettefich T G. The MAXQ method for hierarchical reinforcement learning[ C]//Proc of the 15th ICML. San Francisco: Morgan Kaufmann, 1998 : 118 - 126.

同被引文献9

1唐跃中,张王俊,张健,陈明.基于CPS的AGC控制策略研究[J].电网技术,2004,28(21):75-79. 被引量：61
2高宗和,滕贤亮,张小白.互联电网CPS标准下的自动发电控制策略[J].电力系统自动化,2005,29(19):40-44. 被引量：74
3余涛,陈亮,蔡广林.基于CPS统计信息自学习机理的AGC自适应控制[J].中国电机工程学报,2008,28(10):82-87. 被引量：28
4李滨,韦化,农蔚涛,李林峰,吴阿琴,阳育德.基于现代内点理论的互联电网控制性能评价标准下的AGC控制策略[J].中国电机工程学报,2008,28(25):56-61. 被引量：41
5刘斌,王克英,余涛,刘奇.PSO算法在互联电网CPS功率调节中的应用研究[J].电力系统保护与控制,2009,37(6):36-39. 被引量：17
6余涛,周斌,陈家荣.基于Q学习的互联电网动态最优CPS控制[J].中国电机工程学报,2009,29(19):13-19. 被引量：35
7余涛,王宇名,刘前进.互联电网CPS调节指令动态最优分配Q–学习算法[J].中国电机工程学报,2010,30(7):62-69. 被引量：25
8高宗和,滕贤亮,涂力群.互联电网AGC分层控制与CPS控制策略[J].电力系统自动化,2004,28(1):78-81. 被引量：87
9高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268

引证文献1

1余涛,王宇名,叶文加,刘前进.基于改进分层强化学习的CPS指令多目标动态优化分配算法[J].中国电机工程学报,2011,31(19):90-96. 被引量：8

二级引证文献8

1王磊.图书订货会迈入成熟期[J].中国出版,2000(2):25-26.
2王怀智,余涛,唐捷.基于多智能体相关均衡算法的自动发电控制[J].中国电机工程学报,2014,34(4):620-627. 被引量：12
3张孝顺,余涛.互联电网自动发电控制功率分配的改进逼近于理想解的排序-Q多目标优化算法[J].控制理论与应用,2015,32(4):497-503. 被引量：2
4张孝顺,余涛,唐捷.基于CEQ(λ)多智能体协同学习的互联电网性能标准控制指令动态分配优化算法[J].电工技术学报,2016,31(8):125-133. 被引量：10
5左剑,王子琪,李银红,段献忠.计及时滞的互联电网负荷频率控制最优分数阶PID控制器设计[J].控制理论与应用,2017,34(9):1151-1160. 被引量：20
6席磊,李玉丹,黄悦华,杨苹,许志荣.基于虚拟狼群控制策略的智能发电控制[J].中国电机工程学报,2018,38(10):2966-2979. 被引量：12
7刘新展,朱文红,陈佳鹏,郑全朝,王成佐.信息物理系统下区域发电Q学习控制方法[J].沈阳工业大学学报,2021,43(2):138-143. 被引量：2
8范文帝,王俊芳,党甜,杜龙海,陈丛.基于强化学习的无人机网络资源分配研究[J].计算机测量与控制,2024,32(1):297-303.

1安岭丽,彭志平,李铁鹰.MAXQ方法在出租车问题中的应用[J].茂名学院学报,2007,17(1):56-59.
2沈晶,顾国昌,刘海波.一种新的分层强化学习方法[J].计算机应用,2006,26(8):1938-1939. 被引量：1
3李伟,何雪松,叶庆泰,朱昌明.基于先验知识的强化学习系统[J].上海交通大学学报,2004,38(8):1362-1365. 被引量：5
4沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7
5王凤英,崔国玮,邸建红,颉新春.计数器的VHDL设计与实现[J].现代电子技术,2007,30(9):114-116. 被引量：7
6张汝波,顾国昌,张国印.强化学习系统的结构及算法[J].计算机科学,1999,26(10):53-56. 被引量：2
7Maxim扩充MAXQ混和信号微控制器产品线[J].电子质量,2010(12):62-62.
8具有业界最高MIPS／mA性能的16位RISC微控制器[J].电子产品世界,2004,11(12A):148-148.
9王雪松,田西兰,程玉虎,马小平.最小二乘支持向量机在强化学习系统中的应用[J].系统仿真学报,2008,20(14):3702-3706. 被引量：3
10石川,史忠植,王茂光.基于路径匹配的在线分层强化学习方法[J].计算机研究与发展,2008,45(9):1470-1476. 被引量：4

计算机技术与发展

2009年第4期

浏览历史

内容加载中请稍等...

基于MAXQ方法的分层强化学习被引量：1

参考文献6

同被引文献9

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于MAXQ方法的分层强化学习 被引量：1

参考文献6

同被引文献9

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于MAXQ方法的分层强化学习被引量：1