基于性能势的A*平均奖赏强化学习算法研究被引量：2

Study on the A* Average Reward Reinforcement Learning Algorithm Based on Performance Potentials

下载PDF

导出

摘要强化学习和性能势理论是当前人工智能领域的研究热点,RoboCup足球机器人仿真为人工智能和机器人学研究提供了一个良好的实验平台,针对强化学习和性能势理论在足球机器人仿真应用中求解过程不稳定和收敛速度过慢问题,提出了一个新的强化学习算法——基于性能势的A*平均奖赏强化学习算法(GA*-learning)。GA*-learning在基于性能势的平均奖赏强化学习算法(G-learning)中加入启发式函数,根据启发式策略确定动作的选择,从而加快学习收敛速度。把GA*-learning运用到通过简化的机器人足球领域——keepaway,仿真结果验证了算法能有效提高系统的性能和收敛速度。 Reinforcement learning （RL） and performance potentials theory are research hotspots of Artificial Intelligence （AI）. RoboCup Soccer Simulation is a good test platform in which the AI and Robotics are studied. Considering the disadvantages of RL and performance potentials theory used in soccer simulation, such as unstable during the solving process and the long learning time, this work presents a new RL algorithm, called GA ＊ -learning, that is based on the performance potential theory and heuristic search. A heuristic function that influences the choice of the actions according to some heuristic policies is used in G-learning to accelerate the rate of convergence. With the in- troduction of a simplified simulator for the robot soccer domain-keepaway, a set of empirical evaluations are conducted for the proposed algorithm. Simultaneously, the simulation results show the improvement in the system performance and learning time of the algorithm.

作者黄浩晖杨宛璐陈玮

机构地区广东工业大学自动化学院

出处《计算机仿真》 CSCD 北大核心 2014年第7期338-341,共4页 Computer Simulation

关键词强化学习性能势启发式搜索半马尔科夫决策过程 Reinforcement learning Performance potentials Heuristic search Semi-Markov decision process

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置] TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38

二级参考文献14

1Puterman M L.Markov Decision Process:Discrete Dynamic Dtochastic Programming.New-York:Wiley,1994
2Kaya M,Alhajj R.Fuzzy olap association rules mining based modular reinforcement learning approach for multiagent systems.IEEE Transactions on Systems,Man and Cybernetics part B:Cybernetics,2005,35(2):326-338
3Singh S,Bertsekas D.Reinforcement learning for dynamic channel allocation in cellular telephone systems//Mozer M C,Jordan M L,Petsche T.Proceedings of the NIPS-9.Cambridge MA:MIT Press,1997:974
4Vengerov D N,Berenji H R.A fuzzy reinforcement learning approach to power control in wireless transmitters.IEEE Transactions on Systems,Man,and Cybernetics part B:Cybernetics,2005,35(4):768-778
5Critesl R H,Barto A G.Elevator group control using multiple reinforcement learning Agents.Machine Learning,1998,33(2/3):235-262
6Kaelbling L P,Littman M L,Moore A P.Reinforcement learning:A survey.Journal of Artificial Intelligence Research,1996,4:237-285
7Sutton R S,Barto A G.Reinforcement Learning:An Introduction.Cambridge MA:MIT Press,1998
8Schwartz A.A reinforcement learning method for maximizing undiscounted rewards//Huns M N,Singh M P eds.Proceedings of the 10th Annual Conference on Machine Learning.San Francisco:Morgan Kaufmann,1993:298-305
9Tadepalli P,Ok D.Model-based average reward reinforcement learning.Artificial Intelligence,1998,100(1/2):177-224
10Gosavi A.Reinforcement learning for long run average cost.European Journal of Operational Research,2004,155 (3):654-674

共引文献37

1Di Cao,Weihao Hu,Junbo Zhao,Guozhou Zhang,Bin Zhang,Zhou Liu,Zhe Chen,Frede Blaabjerg.Reinforcement Learning and Its Applications in Modern Power and Energy Systems: A Review[J].Journal of Modern Power Systems and Clean Energy,2020,8(6):1029-1042. 被引量：27
2李瑾,刘全,杨旭东,杨凯,翁东良.一种改进的平均奖赏强化学习方法在RoboCup训练中的应用[J].苏州大学学报（自然科学版）,2012,28(2):21-26. 被引量：2
3张捍东,吴玉秀,岑豫皖.多机器人合作与协调研究进展[J].计算机工程与应用,2008,44(24):238-241. 被引量：4
4王巍巍,陈兴国,高阳.一种结合Tile Coding的平均奖赏强化学习算法[J].模式识别与人工智能,2008,21(4):446-452.
5王冠军,王茂励,赵莹.基于马尔可夫决策模型的测试向量排序新方法[J].计算机科学,2010,37(5):287-290. 被引量：1
6付燕宁,张家臣,刘磊.面向预定义过程的强化学习WS组合[J].吉林大学学报（工学版）,2010,40(5):1313-1317.
7刘全,傅启明,龚声蓉,伏玉琛,崔志明.最小状态变元平均奖赏的强化学习方法[J].通信学报,2011,32(1):66-71. 被引量：15
8彭正辉.摩天大楼里的复仇女郎[J].传奇故事（百家讲堂）,2000(8):4-24.
9李誌,胡坤,余雪丽.基于半马氏博弈模型的分层强化学习研究[J].计算机工程与设计,2012,33(9):3558-3562. 被引量：2
10付燕宁,赵东范,赵健.持续自适应的Web服务组合方法[J].吉林大学学报（理学版）,2012,50(5):972-978.

同被引文献5

1赵增顺,沈继毕,王继贞,侯增广,谭民.基于Bayes滤波的移动机器人定位方法[J].计算机科学,2011,38(2):199-201. 被引量：13
2宋骁健.全局游戏策略中基于经验的学习方法[J].计算机应用与软件,2012,29(1):253-256. 被引量：1
3李艳,代佳岳,佟晓磊,王熙照.RTS游戏中用户行为的神经网络预测模型[J].计算机工程与设计,2012,33(2):740-744. 被引量：1
4宫宁生,钱春阳,张媛.一种BP网的学习速率与动量项自适应算法[J].小型微型计算机系统,2013,34(8):1872-1876. 被引量：7
5李炎武,陈渝,曾庆维,罗程,林涛.基于强化学习的非玩家角色行为改进[J].四川大学学报（自然科学版）,2014,51(5):915-920. 被引量：2

引证文献2

1刘子正,卢超,张瑞友.基于蒙特卡罗模拟和Z检验的“2048”游戏并行优化算法[J].小型微型计算机系统,2016,37(3):562-566. 被引量：2
2常天莉,黄浩晖,陈玮.基于粒子滤波的机器人主动定位算法[J].计算机工程与设计,2018,39(2):570-573. 被引量：2

二级引证文献4

1刘畅,王鹏钧,张美玲,田霖,周一青,石晶林.基于IOU分析的稀疏视频检测技术研究[J].高技术通讯,2019,29(10):943-950. 被引量：2
2王亚杰,祁冰枝,张云博,丁傲冬.结合神经网络的改进UCT在国际跳棋中的应用[J].重庆理工大学学报（自然科学）,2021,35(7):259-265. 被引量：5
3管延霞,刘逊韵,刘运韬,谢旻,徐新海.面向多智能体博弈的并行蒙特卡洛树搜索算法研究[J].计算机工程与科学,2022,44(12):2128-2133. 被引量：3
4王琳,陈强,施印炎,汪小旵,朱杨旭,武尧.农业机器人底盘关键技术研究现状分析[J].拖拉机与农用运输车,2023,50(5):1-9. 被引量：5

1李瑾,刘全,杨旭东,杨凯,翁东良.一种改进的平均奖赏强化学习方法在RoboCup训练中的应用[J].苏州大学学报（自然科学版）,2012,28(2):21-26. 被引量：2
2王巍巍,陈兴国,高阳.一种结合Tile Coding的平均奖赏强化学习算法[J].模式识别与人工智能,2008,21(4):446-452.
3杨宛璐,陈玮,黄浩晖,王广涛.性能势算法研究及在RoboCup中的应用[J].计算机工程与设计,2014,35(3):905-908.
4高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
5曾增烽,黄坤,刘丹丹.Robocup足球机器人前锋决策与策略的探讨[J].商业文化（学术版）,2009,0(8):234-234.
6陈焕文,谢丽娟.平均奖赏MDP的在策略无模型激励学习算法[J].计算机工程与科学,2001,23(2):66-69.
7左国玉,张红卫,韩光胜.基于多智能体强化学习的新强化函数设计[J].控制工程,2009,16(2):239-242. 被引量：4
8程硕远,陈万米,桂春胜,陈海波,刘军江,林侃.一种RoboCup足球机器人动态角色分配机制的实现[J].计算机技术与发展,2011,21(10):10-13. 被引量：1
9李龙澍,葛瑞峰,王慧萍.基于神经网络的批强化学习在Robocup中的应用[J].计算机技术与发展,2009,19(7):98-101. 被引量：3
10李学俊,陈士洋,张以文,李龙澍.基于强化学习的RoboCup Keepaway高层抢球策略[J].计算机应用与软件,2015,32(10):101-104. 被引量：1

计算机仿真

2014年第7期

浏览历史

内容加载中请稍等...

基于性能势的A*平均奖赏强化学习算法研究被引量：2

参考文献1

二级参考文献14

共引文献37

同被引文献5

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于性能势的A*平均奖赏强化学习算法研究 被引量：2

参考文献1

二级参考文献14

共引文献37

同被引文献5

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于性能势的A*平均奖赏强化学习算法研究被引量：2