强化学习在足球机器人基本动作学习中的应用被引量：6

Application of Reinforcement Learning to Basic Action Learning of Soccer Robot

下载PDF

导出

摘要主要研究了强化学习算法及其在机器人足球比赛技术动作学习问题中的应用.强化学习的状态空间和动作空间过大或变量连续,往往导致学习的速度过慢甚至难于收敛.针对这一问题,提出了基于T-S模型模糊神经网络的强化学习方法,能够有效地实现强化学习状态空间到动作空间的映射.此外,使用提出的强化学习方法设计了足球机器人的技术动作,研究了在不需要专家知识和环境模型情况下机器人的行为学习问题.最后,通过实验证明了所研究方法的有效性,其能够满足机器人足球比赛的需要. This paper discusses reinforcement learning （RL） algorithm and its application to technical action learning of soccer robot. In RL, since the state space and action space are too large or their variables are continuous, the learning speed are too slow and it is usually too hard for learning to converge. To solve this problem, an RL method based on T-S model fuzzy neural network is proposed, which can effectively perform the mapping from the state space to the action space of RL. Furthermore, the proposed method is used to design technical actions of soccer robot, and behavior learning of the robot without expert knowledge and environment model is discussed. Finally, experiments are made and the results show that the presented method is effective and it can meet the demands of robot soccer match.

作者段勇杨淮清崔宝侠徐心和

机构地区沈阳工业大学信息科学与工程学院东北大学人工智能与机器人研究所

出处《机器人》 EI CSCD 北大核心 2008年第5期453-459,共7页 Robot

基金国家自然科学基金(60475036)

关键词强化学习机器人足球比赛行为学习 T-S模糊神经网络 reinforcement learning （RL） robot soccer match behavior learning T-S fuzzy neural network

分类号 TP24 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献11

1Camacho D, Fernandez F, Rodelgo M A. Roboskeleton: An architecture for coordinating robot soccer agents[J]. Engineering Applications of Artificial Intelligence, 2006, 19(2): 179-188.
2Sutton R S, Barto A G. Reinforcement Learning: An Introduction[M]. Cambridge, MA, USA: MIT Press, 1998.
3Bartlett P L. An introduction to reinforcement learning theory: Value function methods[J]. Advanced Lectures on Machine Learning, 2003, 2600: 184-202.
4Jouffe L. Fuzzy inference system learning by reinforcement methods[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 1998, 28(3): 338-355.
5Watkins C J C H, Dayan E Technical note: Q-learning[J]. Machine Learning, 1992, 8(3-4): 279-292.
6赵顺珍.基于神经网络的永磁同步电动机模糊控制[J].沈阳工业大学学报,2006,28(1):62-64. 被引量：6
7梁中华,林志明,刘鑫,许娟.基于模糊控制的PWM整流器的抗负载扰动性能[J].沈阳工业大学学报,2007,29(6):711-715. 被引量：2
8Baird L C. Residual algorithms: Reinforcement learning with function approximation[A]. Proceedings of the 12th International Conference on Machine Learning[C]. San Francisco, CA, USA: Morgan Kaufmann Publishers, 1995.30-37.
9Jung M J, Kim H S, Shim H S, et al. Fuzzy rule extraction for shooting action controller of soccer robot[A]. Proceedings of the IEEE International Fuzzy Systems Conference[C]. Piscataway, NJ, USA: IEEE, 1999. 556-561.
10Stone P, Sutton R S, Kuhlmann. G. Reinforcement learning for robocup soccer keepaway[J]. Adaptive Behavior, 2005, 13(3): 165-188.

二级参考文献18

1赵仁德,贺益康,刘其辉.提高PWM整流器抗负载扰动性能研究[J].电工技术学报,2004,19(8):67-72. 被引量：68
2徐金榜,赵金,罗泠,万淑芸.PWM整流系统模糊逻辑控制研究[J].华中科技大学学报（自然科学版）,2005,33(2):47-49. 被引量：8
3杨霞,李强,郭庆鼎.模糊PID控制交流伺服系统的研究[J].沈阳工业大学学报,2005,27(1):31-33. 被引量：11
4钟炎平,沈颂华.PWM整流器的一种快速电流控制方法[J].中国电机工程学报,2005,25(12):52-56. 被引量：60
5朱俊杰,周凯.双闭环PWM整流器的SIMULINK建模与仿真[J].电气传动自动化,2005,27(3):26-27. 被引量：7
6刘曙光.用BP神经网络记忆模糊规则的控制算法及其实现[J].自动化与仪表,1996,11(4):39-40. 被引量：3
7HaganMT DemuthHB BealeMH 戴葵宋辉潭明峰等译.神经网络设计[M].北京：机械工业出版社,2002..
8HIROKI K, MINORU A, YASUO K, et al. RoboCup: A Challenge Problem for AI and Robotics[ A]. RoboCup-97: Robot Soccer World Cup I[C]. Berlin: Springer, 1998.1 - 19.
9菲利普斯泰勒.数值分析的理论及其应用[M].上海:上海科学技术出版社,1972.164-167.
10Wang J S,Lee C S G.Self-adaptive neuro-fuzzy inference systems for classification applications [J].IEEE Transactions on Fuzzy Systems,2002,10 (6):790 -802.

共引文献13

1廖本先,杨宜民,项凡.基于改进遗传算法的RBF网络的截球策略[J].控制工程,2009,16(S2):98-99. 被引量：2
2蒲勇,周兴社,王宇英.基于比例导引的足球机器人截球算法研究[J].计算机应用,2008(1):125-126. 被引量：2
3何建荣.基于神经网络永磁同步电动机调速系统的仿真研究[J].机床电器,2008,35(3):8-10.
4侯清涛,厉广伟,李金屏.Robocup中型组机器人足球技术探讨[J].济南大学学报（自然科学版）,2008,22(3):270-275. 被引量：5
5王剑,宋小安,张绍勇,滕德红.永磁同步电机新型智能矢量控制器设计[J].电气传动自动化,2008,30(3):10-14.
6王剑,张雪芹,王江涛,路天航.基于神经网络的永磁同步电动机新型矢量控制器设计[J].微电机,2008,41(9):16-19.
7金奎,程家兴,李志俊,饶玉佳.基于佳点集遗传算法的足球机器人策略设计[J].计算机技术与发展,2008,18(11):123-124. 被引量：1
8邓本再,王江银,张中景,王国伟,张岳刚.基于专家PID控制的足球机器人截球的研究[J].工业控制计算机,2010,23(8):63-64. 被引量：1
9魏克新,杜吉飞,杜明星.基于单神经元的三相PWM整流器外环控制方法研究[J].华东电力,2010,38(10):1546-1549. 被引量：2
10王江涛,刘海琴,王剑.神经网络矢量控制在永磁同步电动机中的应用[J].现代制造工程,2011(6):123-127.

同被引文献91

1王皓,高阳.元博弈平衡和多Agent强化学习的MetaQ算法[J].计算机研究与发展,2006,43(z1):137-141. 被引量：2
2杨晶东,洪炳熔,朴松昊.基于模糊行为融合的移动机器人避障算法[J].华中科技大学学报（自然科学版）,2008,36(S1):310-313. 被引量：50
3刘新宇,洪炳熔.Robot soccer action selection based on Qlearning[J].Journal of Harbin Institute of Technology(New Series),2001,8(3):212-214. 被引量：2
4冯远淑,陈福民.基于动作捕捉的计算机动画探讨与实现[J].同济大学学报（自然科学版）,2004,32(7):956-960. 被引量：18
5宿春慧,杨方廷,涂颖.基于数据手套虚拟训练系统的研究与实现[J].系统仿真学报,2009,21(S1):189-192. 被引量：6
6李磊,曹志强,侯增广,谭民.基于行为的轮式移动机器人导航控制[J].控制与决策,2004,19(6):707-710. 被引量：4
7范波,潘泉,张洪才.基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用[J].机器人,2005,27(1):46-51. 被引量：5
8张磊,秦元庆,孙德宝,肖俊.基于行为的多机器人任意队形的控制[J].控制工程,2005,12(2):174-176. 被引量：6
9李冬梅,陈卫东,席裕庚.基于强化学习的多机器人合作行为获取[J].上海交通大学学报,2005,39(8):1331-1335. 被引量：4
10任燚,陈宗海.基于强化学习算法的多机器人系统的冲突消解策略[J].控制与决策,2006,21(4):430-434. 被引量：7

引证文献6

1王义萍,陈庆伟,胡维礼.机器人行为选择机制综述[J].机器人,2009,31(5):472-480. 被引量：10
2章小兵,陈黎,刘艳春.基于Robocuo的智能协作防守[J].安徽工业大学学报（自然科学版）,2011,28(3):272-276. 被引量：1
3吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22
4刘云龙,吉国力.基于CMAC网络Sarsa(λ)学习的RoboCup守门员策略[J].北京工业大学学报,2012,38(9):1348-1352.
5李慧,张德政,钱文彬,陈红倩,陈谊.一种基于动作学习的2D形状动画制作方法[J].系统仿真学报,2013,25(9):2120-2123.
6JI Xiukun,HAI Jintao,LUO Wenguang,LIN Cuixia,XIONG Yu,OU Zengkai,WEN Jiayan.Obstacle Avoidance in Multi-Agent Formation Process Based on Deep Reinforcement Learning[J].Journal of Shanghai Jiaotong university(Science),2021,26(5):680-685. 被引量：1

二级引证文献34

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2白云飞.机器人发展关键问题研究[J].机械工程与自动化,2011(5):155-156. 被引量：7
3刘锷欣,苏禹,钟伟声,黄鸿,尉越.机器人足球比赛防守与进攻队形转换的研究[J].计算技术与自动化,2011,30(4):134-136.
4杨帆,刘士荣,董德国.编队控制中的机器人行为与基于服务的运动行为结构设计[J].机器人,2012,34(1):120-128. 被引量：13
5王玉友,陈俊杰,赵涓涓.基于情绪与认知的人机交互中的情感决策研究[J].软件导刊,2012,11(4):39-41.
6A.Watzl,罗艳,陈水林.AquaTex——新型织物预处理及增强处理[J].国际纺织导报,2000,28(1):69-73. 被引量：2
7赵涓涓,杨建峰,陈俊杰,王玉友.基于情绪认知评价理论和Q-learning的人机交互中情感决策[J].太原理工大学学报,2012,43(6):710-714. 被引量：2
8宁祎,闫铭,杜宽森.基于行为的机器人自学习方法研究[J].制造业自动化,2013,35(4):8-11. 被引量：1
9陈鑫,魏海军,吴敏,曹卫华.基于高斯回归的连续空间多智能体跟踪学习[J].自动化学报,2013,39(12):2021-2031. 被引量：2
10朱美强,李明,程玉虎,张倩,王雪松.基于拉普拉斯特征映射的启发式Q学习[J].控制与决策,2014,29(3):425-430. 被引量：7

1王国玲.动作学习内部过程调控机制探析[J].内江科技,2012,33(6):46-46.
2苏素珍,土屋喜一.应用遗传算法的多机器人协调动作学习[J].机器人,1995,17(2):89-92. 被引量：1
3李慧,张德政,钱文彬,陈红倩,陈谊.一种基于动作学习的2D形状动画制作方法[J].系统仿真学报,2013,25(9):2120-2123.
4李红娜,姚分喜,黄鸿.分层增强学习在足球机器人比赛中的应用[J].计算机仿真,2005,22(6):145-147. 被引量：2
5包胜刚,董春晨,刘钊.基于PSO算法的RoboCup2D机器人研究[J].计算机测量与控制,2016,24(9):227-230. 被引量：2
6张斌.多媒体技术在现代中学体育教育的应用[J].黑龙江科技信息,2009(32):192-192.
7秦琳琳,石春,吴刚.现代温室温度混杂系统的建模[J].北京工业大学学报,2014,40(7):996-1000. 被引量：2
8黄光球,姚玉霞,陆秋琴.用鱼群算法求解通风系统风机定位优化问题[J].计算机工程与应用,2008,44(1):243-248. 被引量：5

机器人

2008年第5期

浏览历史

内容加载中请稍等...

强化学习在足球机器人基本动作学习中的应用被引量：6

参考文献11

二级参考文献18

共引文献13

同被引文献91

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

强化学习在足球机器人基本动作学习中的应用 被引量：6

参考文献11

二级参考文献18

共引文献13

同被引文献91

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

强化学习在足球机器人基本动作学习中的应用被引量：6