一个因素化SARSA(λ)激励学习算法被引量：8

A FACTORED SARSA(λ)ALGORITHM OF REINFORCEMENT LEARNING

下载PDF

导出

摘要基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问题 . Based on the factored representation of a state, a new SARSA( λ ) algorithm is proposed. The main principle of the algorithm is that a heuristics on the state similarities can be gained from the features of the state, and according to the heuristics, the state space is aggregated, significantly reducing the searching and computing complexity for the state space. Therefore the algorithm is a promise for solving large scale MDPs problems which are of a huge state space.

作者陈焕文谢建平谢丽娟

机构地区长沙电力学院数学与计算机系长沙交通学院网络中心

出处《计算机研究与发展》 EI CSCD 北大核心 2001年第1期88-92,共5页 Journal of Computer Research and Development

关键词激励学习状态聚类 MDPs SARSA(λ)学习 reinforcement learning state aggregate Markov decision processes SARSA(λ) learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1陈焕文谢建平等.在策略激励学习算法的POMDPs实验研究[J].南京大学学报（自然科学版）（计算机专辑）,2000,36:219-223.
2Chen Huanwen，南京大学学报，2000年，36卷，219页
3陈焕文，南京大学学报，2000年，36卷，计算机专辑，219页
4Peng J，Machine Learning，1996年，22卷，4期，283页

同被引文献35

1Bertsekas D P 李人厚（译）.动态规划-确定和随机模型[M].西安:西安交通大学学报,1990..
2Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].MA:MIT Press,1998
3Watkins C J C H,Dayan P.Q-learning[J].Machine Learning,1992;8(3):279～292
4Sutton R S.Learning to predict by the method of temporal difference[J].Machine Learning,1988 ;3 (1) :9～44
5Peng J,Williams R.Incremental multi-step Q-learning[J].Machine Learning,1996 ;22(4) :283～290
6Watkins C J C H.Leaming from delayed rewarfs[D].University of Cambridge,England,1989
7Wiering M,Schmidhuber J.Speeding up Q-learnind[C].In:Proc of the 10 European Conf on Machine Learning,1998
8Sutton R S.Open theoretical questions in reinforcement learning[C].In:Proc of EuroCOLT'99(Computational Learning Theory),Cambridge,A:MIT Press,1999:11～17
9Singh S.Reinforcement Learning Algorithm for Average-Payoff Mar～kovian Decision Processes[C].In:Proc of the 12' AAAI,1994
10Sutton R S,Barto A G.Reinforcement Learning:An introduction[M].MA: MIT Press, 1998

引证文献8

1殷苌茗,王汉兴,陈焕文.基于动态规划方法的激励学习遗忘算法[J].计算机工程与应用,2004,40(16):75-78.
2密君英,李凡长.一种激励学习遗忘算法[J].计算机工程与应用,2004,40(30):61-64. 被引量：1
3李春贵,刘永信.一种状态集结因子化SARSA(λ)强化学习算法[J].内蒙古大学学报（自然科学版）,2001,32(6):675-678. 被引量：1
4殷苌茗,陈焕文,谢丽娟.基于每阶段平均费用最优的激励学习算法[J].计算机应用,2002,22(4):25-27. 被引量：3
5殷苌茗,陈焕文,谢丽娟.基于有限样本的最优费用关联值递归Q学习算法[J].计算机工程与应用,2002,38(11):65-67. 被引量：4
6殷苌茗,陈焕文,谢丽娟.样本有限关联值递归Q学习算法及其收敛性证明[J].计算机研究与发展,2002,39(9):1064-1070. 被引量：4
7殷苌茗,陈焕文,谢丽娟.激励学习的广义平均算法及其收敛性[J].计算机工程与应用,2002,38(20):72-74.
8杨东,殷苌茗,陈焕文,吴柏森.基于Q-学习的非线性控制[J].长沙电力学院学报（自然科学版）,2003,18(1):35-38.

二级引证文献6

1殷苌茗,王汉兴,陈焕文.基于动态规划方法的激励学习遗忘算法[J].计算机工程与应用,2004,40(16):75-78.
2密君英,李凡长.一种激励学习遗忘算法[J].计算机工程与应用,2004,40(30):61-64. 被引量：1
3殷苌茗,王汉兴,赵飞,郭兴明.风险敏感度激励学习的广义平均算法[J].应用数学和力学,2007,28(3):369-378. 被引量：1
4李春贵,吴沧浦,刘永信.一种集成规划的SARSA(λ)强化学习算法[J].北京理工大学学报,2002,22(3):325-327. 被引量：2
5陈叔平.两个问题:汽车车牌拍卖和图片比对问题[J].数学建模及其应用,2017,6(3):84-86.
6杨东,殷苌茗,陈焕文,吴柏森.基于Q-学习的非线性控制[J].长沙电力学院学报（自然科学版）,2003,18(1):35-38.

1Jana Schmidt,Stefan Kramer.Online Induction of Probabilistic Real-Time Automata[J].Journal of Computer Science & Technology,2014,29(3):345-360.
2陈焕文,谢丽娟.平均奖赏MDP的在策略无模型激励学习算法[J].计算机工程与科学,2001,23(2):66-69.
3陈焕文,谢丽娟.折扣与无折扣MDPs:一个基于SARSA(λ)算法的实例分析[J].计算机工程与应用,2002,38(9):86-88.
4林敬恩,滕忠坚.状态空间搜索算法的进一步探索[J].计算机与现代化,2008(2):34-35.
5唐中勇,付强,卓佳,陈焕文.一类基于启发式搜索的激励学习算法[J].计算机技术与发展,2006,16(8):41-43. 被引量：2
6周勇,王苹.基于SARSA在线规划的软件体系结构自适应[J].计算机应用研究,2012,29(5):1756-1760.
7马朋委,潘地林.基于启发函数改进的SARSA(λ)算法[J].计算机与数字工程,2016,44(5):825-828. 被引量：2
8刘飞,陈焕文,陈鹏慧,蔡琼.强化学习在RoboCup带球任务中的应用[J].微计算机信息,2012(9):471-472.
9李春贵,吴沧浦,刘永信.一种基于状态聚类的SARSA(λ)强化学习算法[J].计算机工程,2003,29(5):37-38. 被引量：3
10张秋云,江虹.基于SARSA学习算法的USB块传输研究[J].中山大学学报（自然科学版）,2014,53(5):73-78.

计算机研究与发展

2001年第1期

浏览历史

内容加载中请稍等...

一个因素化SARSA(λ)激励学习算法被引量：8

参考文献4

同被引文献35

引证文献8

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一个因素化SARSA(λ)激励学习算法 被引量：8

参考文献4

同被引文献35

引证文献8

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一个因素化SARSA(λ)激励学习算法被引量：8