基于自组织模糊RBF网络的连续空间Q学习被引量：3

A Q-learning Method for Continuous Space Based on Self-organizing Fuzzy RBF Network

下载PDF

导出

摘要针对连续空间下的强化学习控制问题,提出了一种基于自组织模糊RBF网络的Q学习方法.网络的输入为状态,输出为连续动作及其Q值,从而实现了"连续状态—连续动作"的映射关系.首先将连续动作空间离散化为确定数目的离散动作,采用完全贪婪策略选取具有最大Q值的离散动作作为每条模糊规则的局部获胜动作.然后采用命令融合机制对获胜的离散动作按其效用值进行加权,得到实际作用于系统的连续动作.另外,为简化网络结构和提高学习速度,采用改进的RAN算法和梯度下降法分别对网络的结构和参数进行在线自适应调整.倒立摆平衡控制的仿真结果验证了所提Q学习方法的有效性. For reinforcement learning control in continuous spaces, a Q-learning method based on a self-organizing fuzzy RBF （radial basis function） network is proposed. Input of the fuzzy RBF network is state, and the outputs are continuous actions and the corresponding Q-values, which realizes the mapping from a continuous state space to a continuous action space. At first, the continuous action space is discretized into the discrete actions with definite number, and a completely greedy policy is used to select a discrete action with the maximum Q-value as the winning local actions of each fuzzy rule. Then a command fusion mechanism is adopted to weight the winning local actions of each fuzzy rule according to its utility value, and a continuous action is generated for the actual system. Moreover, in order to simplify the network structure and improve the learning speed, an improved resource allocating network （ RAN ） algorithm and a gradient descent algorithm are applied to adjust the structure and parameters of the fuzzy RBF network in an on-line and adaptive manner respectively. The effectiveness of the proposed Q-learning method is shown through simulation on the balancing control of an inverted pendulum system.

作者程玉虎王雪松易建强孙伟

机构地区中国矿业大学信息与电气工程学院中国科学院自动化研究所

出处《信息与控制》 CSCD 北大核心 2008年第1期1-8,共8页 Information and Control

基金教育部博士点基金资助项目(20070290537) 国家博士后科学基金资助项目(20070411064) 江苏省博士后科学基金资助项目(0601033B) 江苏省高校青蓝工程资助项目(苏教师[2007]2号) 中国矿业大学青年科研基金资助项目(0C060093)

关键词自组织模糊RBF网络连续空间 Q学习 Q值 self-organizing fuzzy RBF （ radial basis function） network continuous space Q-learning Q-value

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1Watkins C J C H, Dayan P. Technical note: Q-learning [J]. Machine Learning, 1992, 8(3 -4) : 279-292.
2Ster B. An integrated learning approach to environment modelling in mobile robot navigation [J]. Neurocomputing, 2004, 57( 1 -4) : 215-238.
3Touzet C F. Neural reinforcement learning for behaviour synthesis [J]. Robotics and Autonomous Systems, 1997, 22(3 -4) : 251 -281.
4Santamaria J C, Sutton R S, Ram A. Experiments with reinforcement learning in problems with continuous state and action spaces [J]. Adaptive Behavior, 1997, 6(2) : 163-217.
5Smith A J. Applications of the self-organising map to reinforcement learning [J]. Neural Networks, 2002, 15(8 -9) : 1107-1124.
6Wang L X, Mendel J M. Fuzzy basis functions, universal approximation, and orthogonal least-squares [ J ]. IEEE Transactions on Neural Networks, 1992, 3(5) : 807 -814.
7鲍鸿,黄心汉,李锡雄,毛宗源.用模糊RBF神经网络简化模型设计多变量自适应模糊控制器[J].控制理论与应用,2000,17(2):169-174. 被引量：14
8Kim M S, Hong S G, Lee J J. On-line fuzzy Q-learning with extended rule and interpolation technique [ A ]. Proceedings of the IEEE International Conference on Intelligent Robots and Systems [C]. Piscataway, NJ, USA: IEEE, 1999. 757-762.
9Platt J. A resource-allocating network for function interpolation [J]. Neural Computation, 1991, 3(2) : 213 -225.
10Meesad P, Yen G G. Accuracy, comprehensibility and completeness evaluation of a fuzzy expert system [ J ]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2003, 11(4) : 445 -466.

二级参考文献16

1刘雅婷,龚龑,段博,方圣辉,彭漪.多时相NDVI与丰度综合分析的油菜无人机遥感长势监测[J].武汉大学学报（信息科学版）,2020,45(2):265-272. 被引量：17
2吕子君,卢欣石,辛晓平.中国北方草原沙化现状与趋势[J].草地学报,2005,13(z1):24-27. 被引量：21
3刘法央,刘荣堂.长爪沙鼠种群动态预测模型的研究[J].甘肃农业大学学报,1996,31(2):115-120. 被引量：6
4Peng J，博士学位论文，1993年
5刘荣堂,赵义海.高原鼢鼠种群数量预测模型(Ⅱ)[J].草业科学,1998,15(5):23-26. 被引量：6
6李博,史培军,林小泉.中国温带草地草畜平衡动态监测系统的研究[J].干旱区资源与环境,1993,7(Z1):269-274. 被引量：10
7周立志,马勇,李迪强.大沙鼠在中国的地理分布[J].动物学报,2000,46(2):130-137. 被引量：52
8洪军,贠旭疆,林峻,张焕强.我国天然草原鼠害分析及其防控[J].中国草地学报,2014,36(3):1-4. 被引量：38
9钟文勤,樊乃昌.我国草地鼠害的发生原因及其生态治理对策[J].生物学通报,2002,37(7):1-4. 被引量：71
10李宗南,陈仲新,王利民,刘佳,周清波.基于小型无人机遥感的玉米倒伏面积提取[J].农业工程学报,2014,30(19):207-213. 被引量：101

共引文献67

1窦春红,黄明键,王中华,王新江.倒立摆系统及其控制策略研究现状[J].中南大学学报（自然科学版）,2003,34(z1):96-99.
2周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
3蔡增威,刘德春,张晓华.一种基于鲁棒性设计的一阶倒立摆双闭环控制方法[J].自动化技术与应用,2004,23(4):11-15. 被引量：4
4王瑞霞,孙亮,阮晓刚.基于内部回归神经网络的强化学习[J].控制工程,2005,12(2):138-140. 被引量：4
5田丽,曹安照,陈俊,段争光.RBF神经网络在进出口总额预测中的应用[J].兵工自动化,2005,24(2):50-52. 被引量：4
6张玉梅,阮晓钢.一种生长型神经网络的倒立摆控制方案[J].微计算机信息,2005,21(11S):91-93. 被引量：1
7吴行健.非线性系统神经网络控制的现状与展望[J].临沂师范学院学报,2005,27(6):94-98. 被引量：2
8徐瑜,危韧勇.神经网络在控制系统中的应用现状及展望[J].电脑知识与技术,2006,1(2):178-179. 被引量：8
9徐学军,伍铁斌,李文.基于混沌PID的倒立摆控制[J].湘潭师范学院学报（自然科学版）,2006,28(1):15-19. 被引量：1
10张涛,吴汉生.基于神经网络的强化学习算法实现倒立摆控制[J].计算机仿真,2006,23(4):298-300. 被引量：7

同被引文献36

1段凡丁.关于最短路径的SPFA快速算法[J].西南交通大学学报,1994,29(2):207-212. 被引量：57
2刘建昌,林琳.基于CMAC再励学习控制的电梯群控调度方法[J].信息与控制,2005,34(4):495-499. 被引量：2
3王红睿,赵黎明.基于增强学习规则的倒立摆模糊神经网络控制器[J].吉林大学学报（信息科学版）,2006,24(5):561-566. 被引量：1
4段勇,徐心和.基于模糊神经网络的强化学习及其在机器人导航中的应用[J].控制与决策,2007,22(5):525-529. 被引量：13
5康怀祺,史彩成,何佩琨,李晓琼.Novel Sequential Neural Network Learning Algorithm for Function Approximation[J].Journal of Beijing Institute of Technology,2007,16(2):197-200. 被引量：1
6SUTTON R S, BARTO A G. Reinforcement Learning: An Introductin [ M]. Cambridge, MA: MIT Press, 1998.
7THURN S, MITCHEIL T M. Lifelong Robot Leaning [J]. Robotics and Autonomous System, 1995, 15 (1) : 25-46.
8WATKINS C, DAYAN P. Q-Learning [J]. Machine Learning, 1992, 8 (3/4): 279-292.
9WIDROW B, RUMELHART D E, LEHR M A. The Basic Ideas in Neural Networks [ J]. Communications of the ACM, 1994, 37 (3) : 87-92.
10WANG Xue-song, CHENG Yu-hu, SUN Wei. Q Learning Based on Self-Organizing Fuzzy Radial Basis Function Network [ C] //Thrid International symposium on Neural Networks. Berlin Heidelberg: Springer Verlag, 2006: 607-615.

引证文献3

1吴洪岩,刘淑华,张嵛.基于RBFNN的强化学习在机器人导航中的应用[J].吉林大学学报（信息科学版）,2009,27(2):185-190. 被引量：11
2王雪松,张政,程玉虎,张依阳.基于测地高斯基函数的递归最小二乘策略迭代[J].信息与控制,2009,38(4):406-411.
3徐明亮,须文波.自适应RBF网络Q学习控制[J].控制与决策,2010,25(2):303-306. 被引量：2

二级引证文献13

1周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
2付帅,刘淑华,张之雅,程宇.基于改进人工协调场的多机器人运动编队[J].吉林大学学报（信息科学版）,2010,28(2):153-157. 被引量：3
3郭新辰,吴希,陈书坤,吴春国.基于RBFNN和PSO求解第二类Volterra积分方程的混合方法[J].吉林大学学报（理学版）,2010,48(4):658-661. 被引量：3
4徐明亮,柴志雷,须文波.移动机器人模糊Q-学习沿墙导航[J].电机与控制学报,2010,14(6):83-88. 被引量：7
5但斌斌,王超.重轨矫直参数控制模型的自学习功能研究[J].微型机与应用,2010,29(18):83-85.
6葛锁良,杨旭玮,张亚东.RBF网络自整定PID控制在网络化控制系统中的应用[J].合肥工业大学学报（自然科学版）,2011,34(10):1489-1491. 被引量：7
7徐安,寇英信,于雷,李战武.基于RBF神经网络的Q学习飞行器隐蔽接敌策略[J].系统工程与电子技术,2012,34(1):97-101. 被引量：8
8李艳辉,赵辉,李珊珊.一种新的Q学习算法在机械臂轨迹规划中的应用[J].吉林大学学报（信息科学版）,2013,31(1):90-94. 被引量：2
9盛维涛,张文君,张建兴.基于神经网络的Q学习在Khepera Ⅱ机器人避障中的应用[J].世界科技研究与发展,2013,35(3):374-376.
10朱丽娜,吴庆涛,娄颖,郑瑞娟.基于自律计算的系统服务可信性自优化方法[J].微电子学与计算机,2013,30(8):63-66.

1吴云洁,刘金琨,王宗学.基于模糊RBF网络的伺服系统辩识及控制[J].计算机仿真,2003,20(1):50-53. 被引量：3
2马勇,许晓鸣,杨煜普,张卫东.基于再励自组织模糊CPN的稳定控制系统设计[J].控制与决策,1999,14(A11):549-552.
3余永权.单片微机与模糊控制讲座：第五讲自组织模糊控制方法[J].电脑,1993(9):45-48.
4杨其华.一种实用的自组织模糊控制器设计方法[J].中国计量学院学报,1999,10(2):51-55. 被引量：10
5吴云洁,刘金琨,刘强.基于模糊RBF网络的伺服转台鲁棒控制[J].系统仿真学报,2002,14(9):1232-1234. 被引量：3
6李恒嵬.一种基于ANFIS的模糊RBF网络的倒立摆控制方法[J].辽宁师专学报（自然科学版）,2010,12(2):25-26. 被引量：2
7李战明,刘琳博.基于模糊RBF网络PI控制的谐波电流抑制方法[J].自动化技术与应用,2016,35(12):6-10.
8陈兴国,高阳,范顺国,俞亚君.基于核方法的连续动作Actor-Critic学习[J].模式识别与人工智能,2014,27(2):103-110. 被引量：8
9刘昆,颜钢锋.基于模糊RBF神经网络的函数逼近[J].计算机工程,2001,27(2):70-71. 被引量：16
10程启明,陈雪丽.自组织模糊神经控制船舶自动舵研究[J].工业仪表与自动化装置,1999(1):6-9. 被引量：1

信息与控制

2008年第1期

浏览历史

内容加载中请稍等...

基于自组织模糊RBF网络的连续空间Q学习被引量：3

参考文献12

二级参考文献16

共引文献67

同被引文献36

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于自组织模糊RBF网络的连续空间Q学习 被引量：3

参考文献12

二级参考文献16

共引文献67

同被引文献36

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于自组织模糊RBF网络的连续空间Q学习被引量：3