基于递推最小二乘法的多步时序差分学习算法被引量：5

Multi-step temporal difference learning algorithm based on recursive least-squares method

下载PDF

导出

摘要强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-TD(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫实验表明,与RLS-TD(0)算法相比,该算法能加快学习过程的收敛,与传统的TD(λ)算法相比,该算法减少了值函数估计误差,从而提高了精度。 Reinforcement learning is one of most important machine learning methods.In order to solve the problem of slow convergence speed and the error of value function in reinforcement learning systems,a multi-step Temporal Difference（TD（λ）） learning algorithm using Recursive Least-Squares （RSL） methods （RLS-TD （λ）） is proposed.The proposed algorithm is based on RLS-TD（0） ,its convergence is proved,and its formula of error estimation is obtained.The experiment on maze problem demonstrates that the algorithm can speed up the convergence of the learning process compared with RLS-TD（0）,and improve the learning precision compared with TD（λ）.

作者陈学松杨宜民

机构地区广东工业大学应用数学学院广东工业大学自动化学院

出处《计算机工程与应用》 CSCD 北大核心 2010年第8期52-55,共4页 Computer Engineering and Applications

关键词强化学习时序差分最小二乘收敛 RLS—TD(λ)算法 reinforcement learning temporal difference Recursive Least-Squares（ RLS ） convergence RIS-TD（λ ） algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1Sutton R S,Barto A G.Reinforeement learning:An introduction[M]. Cambridge, MA: MIT Press, 1998.
2李珺,潘启树,洪炳镕.一种基于案例推理的多agent强化学习方法研究[J].机器人,2009,31(4):320-326. 被引量：4
3Syafiie S,Tadeo F,Martinez E.Model-free learning control of neutralization processes using reinforcement learning [J].Engineering Applications of Artificial Intelligence, 2007,20(6) : 762-782.
4王雪松,田西兰,程玉虎,易建强.基于协同最小二乘支持向量机的Q学习[J].自动化学报,2009,35(2):214-219. 被引量：20
5Wang Xue-song,Cheng Yu-hu,Yi Jian-qiang.A fuzzy actor-critic reinforcement learning network [J].Information Sciences, 2007,177 (18) :3764-3781.
6Samuel A LSome studies in machine learning using game of checkers[J].IBM Journal of Research and Development, 1959,3: 211-229.
7Sutton R.Larning to predict by the method of temporal differences[J]. Machine Learning, 1988,3( 1 ) : 9-44.
8Tsitsiklis J N,Van Roy B.An analysis of temporal difference learning with function approximation[J].IEEE Transaction on Automatic Control, 1997,42(5 ) : 674-690.
9Yu H,Bertsekas D.Convergence results for some temporal difference methods based on least squares [J].IEEE Transaction on Automatic Control,2009,54(7): 1515-1531.
10高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268

二级参考文献32

1高阳,胡景凯,王本年,王冬黎.基于CMAC网络强化学习的电梯群控调度[J].电子学报,2007,35(2):362-365. 被引量：13
2郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
3Suykens J A K, Vandewale J. Least squares support vector machine classifiers. Neural Processing Letters, 1999, 9(3): 293-300.
4Watkins C J C H, Dayan P. Q-learning. Machine Learning, 1992, 8(3-4): 279-292.
5Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: a survey. Journal of Artificial Intelligence Research, 1996, 4(2): 237-285.
6Kyriakos M, Dimitris P. Continuous nearest neighbor queries over sliding windows. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(6): 789-803.
7Wang X S, Tian X L, Cheng Y H. Value approximation with least squares support vector machine in reinforcement learning system. Journal of Computational and Theoretical Nanoscience, 2007, 4(7-8): 1290-1294.
8Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge, MA: MIT Press, 1998.
9Conn K, Peters R A. Reinforcement learning with a supervisor for a mobile robot in a real-world environment. In: Proceedings of the IEEE International Symposium on Computational Intelligence in Robotics and Automation. Piscataway, USA: IEEE, 2007. 73-78.
10Syafiie S, Tadeo F, Martinez E. Model-free learning control of neutralization processes using reinforcement learning. Engineering Applications of Artificial Intelligence, 2007, 20 (6): 767- 782.

共引文献290

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7陈学松,杨宜民.基于蚁群优化的模糊Sarsa学习算法[J].华中科技大学学报（自然科学版）,2011,39(S2):340-343.
8周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
9卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
10魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19

同被引文献49

1林依凡,陈彦杰,何炳蔚,黄益斌,王耀南.无碰撞检测RRT^*的移动机器人运动规划方法[J].仪器仪表学报,2020(10):257-267. 被引量：41
2张政馗,庞为光,谢文静,吕鸣松,王义.面向实时应用的深度学习研究综述[J].软件学报,2020(9):2654-2677. 被引量：36
3葛运建,张建军,戈瑜,吴仲城,高理富.无所不在的传感与机器人感知[J].自动化学报,2002,28(S1):125-133. 被引量：14
4Shubhendu BHASIN,Nitin SHARMA,Parag PATRE,Warren DIXON.Asymptotic tracking by a reinforcement learning-based adaptive critic controller[J].控制理论与应用（英文版）,2011,9(3):400-409. 被引量：1
5王睿.关于支持向量机参数选择方法分析[J].重庆师范大学学报（自然科学版）,2007,24(2):36-38. 被引量：39
6刘金琨,孙富春.滑模变结构控制理论及其算法研究与进展[J].控制理论与应用,2007,24(3):407-418. 被引量：570
7王旭东,邵惠鹤.RBF神经网络理论及其在控制中的应用[J].信息与控制,1997,26(4):272-284. 被引量：178
8何成刚,张燕平,张站,张娟.机器学习中知识动态获取在函数逼近中的探究[J].微计算机信息,2010,26(27):134-136. 被引量：2
9袁健,唐功友.基于扩展卡尔曼滤波的移动机器人变结构线性化复合跟踪控制[J].信息与控制,2010,39(6):749-754. 被引量：6
10陈学松,杨宜民.基于执行器-评价器学习的自适应PID控制[J].控制理论与应用,2011,28(8):1187-1192. 被引量：14

引证文献5

1陈学松,刘富春.一类非线性动态系统基于强化学习的最优控制[J].控制与决策,2013,28(12):1889-1893. 被引量：9
2徐坤,王贵,尹希珂,邢宗义.基于旋转森林法的滚动轴承故障诊断[J].广西大学学报（自然科学版）,2017,42(3):970-978.
3王军,杨云霄,李莉.基于改进深度强化学习的移动机器人路径规划[J].电子测量技术,2021,44(22):19-24. 被引量：19
4何成刚,丁宏强,陈思宝,罗斌,王家鑫.基于马尔科夫模型的回归研究及其应用[J].计算机技术与发展,2022,32(4):8-14.
5谢正泰,樊佳亮,刘梅,金龙.基于神经网络的机器人学习与控制:回顾与展望[J].信息与控制,2023,52(1):37-58. 被引量：5

二级引证文献33

1张博,黄山,张浛芮,李应昆,涂海燕.基于强化学习的艾灸机器人温度控制策略研究[J].电子测量技术,2022,45(24):60-66. 被引量：1
2李鹏.基于改进PSO-BP算法的机器人目标位姿识别方法[J].国外电子测量技术,2023,42(1):7-12. 被引量：7
3马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：14
4李风军,李鹏柱.非线性动态系统中的反馈神经网络逼近[J].科学技术与工程,2014,22(36):87-91.
5廖晓文.权值混合更新的神经网络液位控制方法及应用[J].广东石油化工学院学报,2015,25(3):61-64. 被引量：1
6姜彬.偏微分方程最优控制中的变分迭代法应用[J].长春工业大学学报,2016,37(4):348-355. 被引量：2
7朱斐,刘全,傅启明,陈冬火,王辉,伏玉琛.一种不稳定环境下的策略搜索及迁移方法[J].电子学报,2017,45(2):257-266. 被引量：3
8王乐,何舒平.基于Kleinman迭代算法的非线性系统自适应控制器设计[J].系统科学与数学,2017,37(9):1885-1892. 被引量：1
9李波,易洁.基于时间的多机器人协调避碰算法研究[J].重庆理工大学学报（自然科学）,2019,33(3):91-97. 被引量：7
10刘君兰,张文博,姬红兵,朱明哲.无人机集群路径规划算法研究综述[J].航天电子对抗,2022,38(1):9-12. 被引量：14

1徐圆,黄兵明,贺彦林.基于改进ELM的递归最小二乘时序差分强化学习算法及其应用[J].化工学报,2017,68(3):916-924. 被引量：6
2刘卫红,周义莲.强化学习方法在Web服务组合中的应用比较研究[J].计算机应用与软件,2011,28(7):128-131. 被引量：1
3王丽娜,章鑫,余荣威,徐来,徐一波.云环境下基于内存总线的侧信道攻击检测方法[J].武汉大学学报（理学版）,2016,62(5):418-424. 被引量：1
4戴帅,殷苌茗,张欣.基于因素化表示的TD(λ)算法[J].计算机工程,2009,35(13):190-192.
5郑伟,张永飞.基于IEEE标准电脑鼠走迷宫控制算法研究与优化[J].天津职业大学学报,2016,25(3):73-78. 被引量：5
6韦杏秋,陈俊,龙东,李刚,李伟坚,郭小璇.基于时序差分算法的线损异常判别优化研究[J].科技通报,2017,33(3):100-103. 被引量：7
7陈学松,杨宜民.基于执行器-评价器学习的自适应PID控制[J].控制理论与应用,2011,28(8):1187-1192. 被引量：14
8张月芹,尹涓,鞠欢,张博炜.基于STM32的迷宫电脑鼠控制系统设计与实现[J].机电工程技术,2016,45(12):1-6. 被引量：6
9王雪松,程玉虎,易建强,王炜强.基于Elman网络的非线性系统增强式学习控制[J].中国矿业大学学报,2006,35(5):653-657. 被引量：8
10黄蔚,刘全,孙洪坤,傅启明,周小科.基于拓扑序列更新的值迭代算法[J].通信学报,2014,35(8):56-62. 被引量：1

计算机工程与应用

2010年第8期

浏览历史

内容加载中请稍等...

基于递推最小二乘法的多步时序差分学习算法被引量：5

参考文献13

二级参考文献32

共引文献290

同被引文献49

引证文献5

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于递推最小二乘法的多步时序差分学习算法 被引量：5

参考文献13

二级参考文献32

共引文献290

同被引文献49

引证文献5

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于递推最小二乘法的多步时序差分学习算法被引量：5