基于模糊聚类的分层强化学习算法

A Hierarchical Reinforcement Learning Algorithm Based on Fuzzy Clustering

下载PDF

导出

摘要本文提出了一种新的分层强化学习Option自动生成算法,以Agent在学习初始阶段探测到的状态空间为输入,采用模糊逻辑神经元的网络进行聚类,在聚类后的各状态子集上通过经验回放学习产生内部策略集,生成Option,仿真实验结果表明了该算法的有效性。 A new algorithm for the automatic generation of the Option Hierarchical Reinforcement Learning is presented. The algorithm takes the state space detected by the agent as input in the initial learning phase, and clusters the states by employing fuzzy clustering. Based on the clustered state sets, the intra-strategies are learned by an experience replay procedure. As a result, the options are generated. The validity of the algorithm is demonstrated by simulation experiments.

作者张欣戴帅

机构地区长沙理工大学计算机与通信工程学院

出处《计算机工程与科学》 CSCD 北大核心 2010年第1期55-56,91,共3页 Computer Engineering & Science

基金湖南省教委资助项目(07C083)

关键词强化学习分层强化学习模糊聚类 OPTION reinforcement learning hierarchical reinforcement learning fuzzy clustering Option

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268
2Parr R. Hierarchical Control and Learning for Markov Decision Processes: [Ph D Dissertation][D]. Berkeley: University of California, 1998.
3Sutton R S, Precup D, Singh S P. Between MDPs and Semi- MDPs: A Framework for Temporal Abstraction in Reinforce ment Learning[J]. Artificial Intelligence, 1999, 112 ( 1 2) : 181-211.
4Dietterich T G. Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition[J]. Journal of Artificial Intelligence Research, 2000,13 : 227-303.
5Hengst B. Discovering Hierarchy in Reinforcement Learning[D] . Sydney University of New South Wales, 2003.
6Barto A G, Mahadevan S. Recent Advances in Hierarchical Reinforcement Learning [J]. Discrete Event Dynamic Systems: Theory and Applications, 2003,13(4) : 41-77.
7Precup D. Temporal Abstraction in Reinforcement Learning: [Ph D Dissertation][D]. Massachusetts:University of Massachusetts, 2000.
8Lin L G. Self-Improving Reactive Agents Based on Reinforcement Learning, Planning and Teaching [J]. Machine Learning, 1992,8(3-4) : 293-321.

二级参考文献4

1蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：20
2高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
3李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
4杨煜普,欧海涛.基于再励学习与遗传算法的交通信号自组织控制[J].自动化学报,2002,28(4):564-568. 被引量：12

共引文献267

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7

1石川,史忠植,王茂光.基于路径匹配的在线分层强化学习方法[J].计算机研究与发展,2008,45(9):1470-1476. 被引量：4
2林明,朱纪洪,孙增圻.固定长度经验回放对Q学习效率的影响[J].计算机工程,2006,32(6):7-10. 被引量：1
3沈晶,顾国昌,刘海波.分层强化学习中的Option自动生成算法[J].计算机工程与应用,2005,41(34):4-6. 被引量：5
4程晓北,沈晶,刘海波,顾国昌,张国印.分层强化学习研究进展[J].计算机工程与应用,2008,44(13):1-5. 被引量：1
5朱斐,许志鹏,刘全,伏玉琛,王辉.基于可中断Option的在线分层强化学习方法[J].通信学报,2016,37(6):65-74. 被引量：4
6胡明辉,殷苌茗,李立云.基于ACCA的Option自动生成算法[J].计算机工程与应用,2008,44(19):39-40. 被引量：1
7钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
8李玮平.基于数据挖掘的图书馆读者需求分析[J].图书馆论坛,2004,24(3):86-88. 被引量：27
9闫娟,杨慧斌,程武山.两轮机器人自平衡稳定性控制仿真研究[J].计算机仿真,2016,33(7):383-387. 被引量：5
10鲁斌.模糊逻辑神经元研究进展[J].计算机工程与设计,2006,27(6):952-954. 被引量：4

计算机工程与科学

2010年第1期

浏览历史

内容加载中请稍等...

基于模糊聚类的分层强化学习算法

参考文献8

二级参考文献4

共引文献267

相关作者

相关机构

相关主题

浏览历史