多机器人系统强化学习研究综述被引量：14

A Review of Developments in Reinforcement Learning for Multi-robot Systems

下载PDF

导出

摘要强化学习是实现多机器人对复杂和不确定环境良好适应性的有效手段,是设计智能系统的核心技术之一.从强化学习的基本思想与理论框架出发,针对局部可观测性、计算复杂度和收敛性等方面的固有难题,围绕学习中的通信、策略协商、信度分配和可解释性等要点,总结了多机器人强化学习的研究进展和存在的问题;介绍了强化学习在机器人路径规划与避障、无人机、机器人足球和多机器人追逃问题中的应用;最后指出了定性强化学习、分形强化学习、信息融合的强化学习等若干多机器人强化学习的前沿方向和发展趋势. Reinforcement learning （RL） is an effective mean for multi-robot systems to adapt to complex and uncertain environments. It is considered as one of the key technologies in designing intelligent systems. Based on the basic ideas and theoretical framework of reinforcement learning, main challenges such as partial observation, computational complexity and convergence were focused. The state of the art and difficulties were summarized in terms of communication issues, cooperative learning, credit assignment and interpretability. Applications in path planning and obstacle avoidance, unmanned aerial vehicles, robot football, the multi-robot pursuit-evasion problem, etc., were introduced. Finally, the frontier technologies such as qualitative RL, fraetal RL and information fusion RL, were discussed to track its future development.

作者马磊张文旭戴朝华

机构地区西南交通大学电气工程学院

出处《西南交通大学学报》 EI CSCD 北大核心 2014年第6期1032-1044,共13页 Journal of Southwest Jiaotong University

基金国家自然科学基金资助项目(61075104)

关键词多机器人系统强化学习马尔科夫决策过程计算复杂度不确定性 muki-robot systems reinforcement learning Markov decision process computational complexity；uncertainties

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献96

1MURRAY R M,ASTROM K M,BODY S P,et al.Future directions in control in an information-rich world[J].IEEE Control Systems Magazine,2003,23 (2):20-23.
2陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：61
3WIERING M,OTTERLO M V.Reinforcement learning state-of-the-art[M].Berlin:Springer-Verlag,2012:3-42.
4SUTTON R S.Learning to predict by the methods of temporal differences[J].Machine Learning,1988,3(1):9-44.
5CHEN Xingguo,GAO Yang,WANG Ruili.Online selective kernel-based temporal difference learning[J].IEEE Transactions on Neural Networks and Learning Systems,2013,24(12):1944-1956.
6ZOU Bin,ZHANG Hai,XU Zongben.Learning from uniformly ergodic Markov chains[J].Journal of Complexity,2009,25(2):188-200.
7YU Huizhen,BERTSEKAS D P.Convergence results for some temporal difference methods based on least squares[J].IEEE Transactions on Automatic Control,2009,54(7):1515-1531.
8WATKINS C,DAYAN P.Q-learning[J].Machine Learning,1992,8(3):279-292.
9沈晶,程晓北,刘海波,顾国昌,张国印.动态环境中的分层强化学习[J].控制理论与应用,2008,25(1):71-74. 被引量：5
10王雪松,田西兰,程玉虎,易建强.基于协同最小二乘支持向量机的Q学习[J].自动化学报,2009,35(2):214-219. 被引量：20

二级参考文献430

1张汝波,顾国昌,杨歌,郭轶尊.具有学习能力的智能机器人体系结构研究[J].华中科技大学学报（自然科学版）,2004,32(S1):58-60. 被引量：4
2朴松昊,孙立宁,钟秋波,黄庆成.动态环境下的多智能体机器人协作模型[J].华中科技大学学报（自然科学版）,2008,36(S1):39-41. 被引量：6
3任孝平,蔡自兴.基于移动自组网的多移动机器人远程监控[J].华中科技大学学报（自然科学版）,2008,36(S1):239-242. 被引量：3
4Shubhendu BHASIN,Nitin SHARMA,Parag PATRE,Warren DIXON.Asymptotic tracking by a reinforcement learning-based adaptive critic controller[J].控制理论与应用（英文版）,2011,9(3):400-409. 被引量：1
5亢宽盈.分形理论的创立、发展及其科学方法论意义[J].科学管理研究,1998,16(6):56-59. 被引量：25
6孙明轩,王郸维,陈彭年.有限区间非线性系统的重复学习控制[J].中国科学：信息科学,2010,40(3):433-444. 被引量：12
7赵红,李雅菊,宋涛.基于贝叶斯网络的工程项目风险管理[J].沈阳工业大学学报（社会科学版）,2008,1(3):239-244. 被引量：25
8张雁冰,杭大明,马正新,曹志刚.基于再励学习的主动队列管理算法[J].软件学报,2004,15(7):1090-1098. 被引量：7
9DerongLiu.Approximate Dynamic Programming for Self-Learning Control[J].自动化学报,2005,31(1):13-18. 被引量：14
10杨洋,陈小平.动态不确定环境下的决策:一种分层决策模型[J].计算机科学,2005,32(1):151-154. 被引量：1

共引文献409

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2李小强,杨凯,代龙飞,夏炜豪,蔡正鑫.冷轧连退机组中央段自动控制系统开发[J].冶金自动化,2023,47(S01):121-124.
3张雨.基于马尔科夫过程状态转移矩阵的桥梁结构技术状态预测方法研究[J].四川水泥,2023(3):212-214. 被引量：1
4叶巧玲,郭炳廷,张海燕,蒋小榕,苏丽霞,卜叶梅.基于深度学习的足部伤口图像分割方法的设计与构建[J].黑龙江中医药,2023,52(5):148-150.
5丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
6曾佳,李菁菁.面向复杂环境的移动机器人在线路径规划[J].上海电气技术,2009,2(1):32-35.
7陈学松,杨宜民.基于蚁群优化的模糊Sarsa学习算法[J].华中科技大学学报（自然科学版）,2011,39(S2):340-343.
8张捍东,郑睿,岑豫皖.移动机器人路径规划技术的现状与展望[J].系统仿真学报,2005,17(2):439-443. 被引量：120
9庄慧忠,杜树新,吴铁军.移动机器人在线实时路径规划[J].制造业自动化,2005,27(4):50-55. 被引量：2
10沈捷,费树岷,郑波.多移动机器人保持队形路径规划[J].东南大学学报（自然科学版）,2005,35(3):391-395. 被引量：3

同被引文献123

1蔺一帅,李青山,陆鹏浩,孙雨楠,王亮,王颖芝.智能仓储货位规划与AGV路径规划协同优化算法[J].软件学报,2020,31(9):2770-2784. 被引量：27
2闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：56
3胡世亮,席裕庚.一种通用的移动机器人路径规划仿真系统[J].系统仿真学报,2004,16(8):1714-1716. 被引量：13
4马士华,文坚.基于时间延迟的订单分批策略研究[J].工业工程与管理,2004,9(6):1-4. 被引量：21
5柳林,季秀才,郑志强.基于市场法及能力分类的多机器人任务分配方法[J].机器人,2006,28(3):337-343. 被引量：22
6李薇,张凤鸣.多Agent技术研究与应用[J].微计算机信息,2006(08X):293-295. 被引量：37
7Pezzella F ,Morganti G ,Ciaschetti G. A genetic algorithm for theFlexible job-shop Scheduling Problem [J]. Computers and OperationsResearch,2007(10) :3202 -3212.
8宋勇,李贻斌,栗春,李彩虹.基于神经网络的移动机器人路径规划方法[J].系统工程与电子技术,2008,30(2):316-319. 被引量：25
9张嵛,刘淑华.多机器人任务分配的研究与进展[J].智能系统学报,2008,3(2):115-120. 被引量：31
10蔡自兴,崔益安.多机器人覆盖技术研究进展[J].控制与决策,2008,23(5):481-486. 被引量：19

引证文献14

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2渠国庆,熊峰,李军世,牛倩.基于多Agent可重构装配系统结构研究[J].工业控制计算机,2016,29(7):135-136.
3王卫民,储美玉,王晓进.基于强化学习的话务调度新模型[J].信息技术,2016,40(9):130-133.
4薛天.深度强化学习原理及其在机器人运动控制中的运用[J].通讯世界,2018,25(8):240-241. 被引量：3
5张文旭,马磊,贺荟霖,王晓东.强化学习的地–空异构多智能体协作覆盖研究[J].智能系统学报,2018,13(2):202-207. 被引量：7
6殷国栋,朱侗,任祖平,李广民,金贤建.基于多Agent的电动汽车底盘智能控制系统框架[J].中国机械工程,2018,29(15):1796-1801. 被引量：8
7武子睿.浅析人工智能主要技术方向以及在智能机器人上的应用[J].电子制作,2018,26(20):36-38.
8邱宇宸.基于Actor-Critic强化学习的倒立摆智能控制方法[J].武汉冶金管理干部学院学报,2018,28(4):88-90. 被引量：4
9王婷婷.基于ELM-BP的强化学习在倒立摆控制中的研究[J].电子设计工程,2019,27(6):55-58.
10陈明智,钱同惠,张仕臻,王嘉前.仓储物流机器人集群避障及协同路径规划方法[J].现代电子技术,2019,42(22):174-177. 被引量：17

二级引证文献110

1王凌浩,舒亮,钱祺.基于断路器柔性装配的移动机器人路径规划[J].电子测量技术,2023,46(5):121-128. 被引量：2
2姚懋欣,刘桂雄,陈国宇.燃气表计量检定线首次检定调度技术研究[J].电子测量技术,2023,46(4):56-59. 被引量：3
3曹红倩.应用改进Q-learning算法解决柔性作业车间调度问题[J].国外电子测量技术,2022,41(4):164-169. 被引量：3
4张春龙,陶涛,许国林,李汉清.智能车辆底盘控制系统研究[J].轻型汽车技术,2019,0(6):3-6. 被引量：2
5刘胜祥,林群煦,杨智才,吴月玉,翟玉江.基于深度确定性策略梯度算法的双轮机器人平衡控制研究[J].机械工程师,2020,0(3):142-144. 被引量：2
6何逻辑,谢广明,文家燕,罗文广.通信时滞下事件驱动多智能体系统环形编队控制[J].计算机应用研究,2020,37(6):1661-1665. 被引量：5
7吴球业.基于Actor-Critic结构的受扰倒立摆平衡控制研究[J].信息系统工程,2020(3):146-147. 被引量：1
8李金钊,张世宣,周小铃,郑潇玥,胡宗政,张勇.智能仓储机器人动态路径规划研究[J].软件工程,2020,23(7):30-32. 被引量：1
9辜勇,段晶晶,苏宇霞,袁源乙.基于改进蚁群算法的仓储物流机器人路径规划[J].武汉理工大学学报（交通科学与工程版）,2020,44(4):688-693. 被引量：12
10甄岩,袁健全,池庆玺,郝明瑞.深度强化学习方法在飞行器控制中的应用研究[J].战术导弹技术,2020(4):112-118. 被引量：3

1张佳杰,付丽群.虚拟人路径规划与避障检测的研究[J].商情,2013(23):213-213.
2吕艳娥,周力青.基于策略协商的数据一致性的维护方法[J].大众科技,2009,11(2):28-29.
3刘海波,沈晶,徐玉如,董宇欣,孔晓东.基于模糊小波神经网络的BDI模型[J].系统仿真学报,2009,21(8):2308-2310.
4卫桢,白妍丽.网络环境下的计算机病毒及其防范技术[J].科学中国人,2014(8X):26-26.
5陈世强.安全策略系统SPS的一种改进[J].湖北民族学院学报（自然科学版）,2006,24(2):151-154.
6张淼,李闻白,王冬.单信标距离测量的AUV导航方法[J].西安工业大学学报,2012,32(7):557-562. 被引量：3
7方宝富,潘启树,洪炳镕,丁磊,蔡则苏.多追捕者-单-逃跑者追逃问题实现成功捕获的约束条件[J].机器人,2012,34(3):282-291. 被引量：9
8姬祥,董云卫,王宇英,凌恒.组态化嵌入式软件仿真系统设计[J].计算机工程,2011,37(21):225-227. 被引量：3
9张旭,李玲,贾磊磊.基于微分博弈的多机器人追逃策略研究及仿真[J].装备制造技术,2015(9):9-12. 被引量：3
10费聿宁.基于LabVIEW的信号调制识别研究与应用[J].电子技术与软件工程,2017(1):33-33.

西南交通大学学报

2014年第6期

浏览历史

内容加载中请稍等...

多机器人系统强化学习研究综述被引量：14

参考文献96

二级参考文献430

共引文献409

同被引文献123

引证文献14

二级引证文献110

相关作者

相关机构

相关主题

浏览历史

多机器人系统强化学习研究综述 被引量：14

参考文献96

二级参考文献430

共引文献409

同被引文献123

引证文献14

二级引证文献110

相关作者

相关机构

相关主题

浏览历史

多机器人系统强化学习研究综述被引量：14