基于半马尔可夫对策的多机器人分层强化学习被引量：6

Multi-robot hierarchical reinforcement learning based on semi-Markov games

导出

摘要在多智能体分层强化学习研究成果的基础上,考虑多机器人系统经常面临的通信困难问题(如水下环境),提出一种基于半马尔可夫对策的多机器人分层强化学习方法,通过引入对策论方法解决通信困难情况下多机器人学习问题。仿真实验结果表明了该方法的有效性。 Following previous work and considering the multi-robot systems with communication failure（e.g.in an underwater environment）,a multi-robot hierarchical reinforcement learning approach based on semi-Markov games was proposed. The game theory was employed in this approach.Simulation experimental results showed that the proposed approach was effective on multi-robot learning with communication failure.

作者沈晶刘海波张汝波吴艳霞程晓北

机构地区哈尔滨工程大学计算机科学与技术学院

出处《山东大学学报（工学版）》 CAS 北大核心 2010年第4期1-7,共7页 Journal of Shandong University（Engineering Science）

基金国家自然科学基金资助项目(60975071) 教育部博士点基金资助项目(20092304120013) 中央高校基本科研业务费资助项目(HEUCFZ1010 HEUCF100604)

关键词半马尔可夫对策多机器人分层强化学习 semi-Markov game multi-robot hierarchical reinforcement learning

分类号 TP24 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献18

1张彦,关胜晓.完全未知环境下机器人探索路径策略与仿真[J].计算机仿真,2008,25(2):199-202. 被引量：3
2NILSSON N. Shakey the robot[ R]. Menlo Park, USA: AI Center, SRI International, 1984.
3BROOKS R. A Robust layered control system for a mobile robot[ J]. IEEE Journal of Robotics and Automation, 1986, 2(1) :14-23.
4CONNELL J. SSS: a hybrid architecture applied to robot navigation[ C]//ICRA, Piscataway. USA: IEEE, 1992 : 2719 -2724.
5张汝波,顾国昌,杨歌,郭轶尊.具有学习能力的智能机器人体系结构研究[J].华中科技大学学报（自然科学版）,2004,32(S1):58-60. 被引量：4
6高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268
7BARTO A G, MAHADEVAN S. Recent advances in hierarchical reinforcement learning [J].Discrete Event Dynamic Systems : Theory and Applications, 2003,13 (4) : 41-77.
8SUTTON R S, PRECUP D, SINGH S P. Between MDPs and semi-MDPs: a framework for temporal abstraction in reinforcement learning [ J ]. Artificial Intelligence, 1999, 112(1-2) : 181-211.
9PARR R. Hierarchical control and learning for Markov decision processes [ D ]. Berkeley, USA: University of California, 1998.
10DIEFFERICH T G. Hierarchical reinforcement learning with the MAXQ value function decomposition [ J ]. Journal of Artficial Intelligence Research, 2000,13( 1 ) :227-303.

二级参考文献54

1杨敬辉,洪炳镕,朴松昊.基于遗传模糊算法的机器人局部避障规划[J].哈尔滨工业大学学报,2004,36(7):946-948. 被引量：21
2戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
3孟江华,朱纪洪,孙增圻.未知环境下基于传感器的移动机器人路径规划新方法[J].机器人,2005,27(4):319-324. 被引量：19
4沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7
5李智也.移动机器人路径规划问题的解决方案[J].计算机工程,2006,32(1):189-192. 被引量：10
6沈晶,顾国昌,刘海波.基于免疫聚类的自动分层强化学习方法研究[J].哈尔滨工程大学学报,2007,28(4):423-428. 被引量：2
7Barto A G,Mahadevan S.Recent advances in hierarchical reinforcement learning[J].Discrete Event Dynamic Systems:Theory and Applications, 2003,13 ( 4 ) : 41-77.
8Singh S P,Jaakola T,Jordan M I.Reinforcement learning with soft state aggregation[Z]//Neural Information Processing Systems 7.Cambridge, Massachusetts: MIT Press, 1995 : 361-368.
9Moriarty D,Schuhz A,Grefenstette J.Evolutionary algorithms for reinforcement learning[J].Journal of Artificial Intelligence Research, 1999,11 ( 1 ) :241-276.
10Bertsekas D P,Tsitsiklis J N.Neuro-dynamic programming[M]. Belmont: Athena Scientific, 1996.

共引文献278

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8张汝波,吴俊伟,刘冠群,刘海涛.自主式水下机器人分层规划与重规划[J].华中科技大学学报（自然科学版）,2013,41(S1):77-80. 被引量：1
9熊盛武,刘麟,王琼,史旻.改进的多目标粒子群算法[J].武汉大学学报（理学版）,2005,51(3):308-312. 被引量：21
10卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5

同被引文献154

1朴松昊,孙立宁,钟秋波,黄庆成.动态环境下的多智能体机器人协作模型[J].华中科技大学学报（自然科学版）,2008,36(S1):39-41. 被引量：6
2Laura RAY.Hierarchical state-abstracted and socially augmented Q-Learning for reducing complexity in agent-based learning[J].控制理论与应用（英文版）,2011,9(3):440-450. 被引量：2
3戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
4赵晓军,黄强,彭朝琴,张利格,李科杰.基于人体运动的仿人型机器人动作的运动学匹配[J].机器人,2005,27(4):358-361. 被引量：34
5刘淑华,田彦涛,刘金芳.扩展KQML在多移动机器人仿真系统中的应用[J].吉林大学学报（信息科学版）,2005,23(5):500-505. 被引量：3
6郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
7李超明,苏开乐.一个基于智能的MAS模型及其方法论[J].计算机研究与发展,2007,44(6):980-989. 被引量：5
8于振华,蔡远利,徐海平.基于π网的多Agent系统建模与分析[J].系统工程理论与实践,2007,27(7):77-84. 被引量：3
9ARISTIDOU A, LASENBY J. Motion capture with constrained in- verse kinematics for real-time hand tracking[ C]// The 4th Interna- tional Symposium on Communications, Control and Signal Process- ing. Piscataway: IEEE Press, 2010: 1 -5.
10CONNAGHAN D, CONAIRE O, KEUY P, et al. Recognition of tennis strokes using key postures[ C]// ISSC 2010: SignaLs and Sys- tems Conference. Piscataway: IEEE, 2010:245-248.

引证文献6

1柯文德,彭志平,陈珂,项顺伯.基于分层Option的仿人机器人相似性关键姿势转换[J].计算机应用,2013,33(5):1301-1304.
2柯文德,洪炳镕,崔刚,蔡则苏.一种基于π-MaxQ学习的多机器人协作方法[J].智能计算机与应用,2013,3(3):14-17. 被引量：2
3马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：14
4郑延斌,李波,安德宇,李娜.基于分层强化学习及人工势场的多Agent路径规划方法[J].计算机应用,2015,35(12):3491-3496. 被引量：14
5栾咏红,刘全,章鹏.连续空间中的随机技能发现算法[J].现代电子技术,2016,39(10):14-17. 被引量：2
6惠小亮,张朦朦,李鹏豪,张永林,曹钰.基于B-MAXQ自适应预测PID在柴油机调速中的研究[J].小型内燃机与车辆技术,2020,49(1):36-43. 被引量：2

二级引证文献34

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：14
3渠国庆,熊峰,李军世,牛倩.基于多Agent可重构装配系统结构研究[J].工业控制计算机,2016,29(7):135-136.
4闫伟,史洪玮.网络数据多信道传输路径规划方法研究[J].计算机仿真,2016,33(8):284-287. 被引量：6
5王卫民,储美玉,王晓进.基于强化学习的话务调度新模型[J].信息技术,2016,40(9):130-133.
6赵辉,刘雅喆.改进的Q学习算法在轨迹规划中的应用[J].吉林大学学报（信息科学版）,2016,34(5):697-702. 被引量：2
7田秀丽,黄亚丽.空间噪声下语音信号端点检测仿真研究[J].计算机仿真,2017,34(5):406-409. 被引量：3
8许建国,张佳.物联网数据并行传输路径预测仿真[J].计算机仿真,2018,35(1):172-175. 被引量：5
9王芳,丁小娜.关于空间利用优化的图形特征分类研究[J].计算机仿真,2018,35(6):348-352. 被引量：1
10薛天.深度强化学习原理及其在机器人运动控制中的运用[J].通讯世界,2018,25(8):240-241. 被引量：3

1张荣华.一种以扇区为基础的目标航迹链式结构[J].空军雷达学院学报,2000,14(3):31-33.
2石川,史忠植,王茂光.基于路径匹配的在线分层强化学习方法[J].计算机研究与发展,2008,45(9):1470-1476. 被引量：4
3程晓北,沈晶,刘海波,顾国昌,张国印.分层强化学习研究进展[J].计算机工程与应用,2008,44(13):1-5. 被引量：1
4朱斐,许志鹏,刘全,伏玉琛,王辉.基于可中断Option的在线分层强化学习方法[J].通信学报,2016,37(6):65-74. 被引量：4
5张欣,戴帅.基于模糊聚类的分层强化学习算法[J].计算机工程与科学,2010,32(1):55-56.
6邹于丰.神经网络非线性模型算法控制[J].长沙水电师院学报（自然科学版）,1999,14(1):23-24.
7寇勇,刘直芳.多投影仪显示系统的几何失真校正方法[J].计算机工程与设计,2011,32(9):3187-3190. 被引量：1
8陈志勇,厉鹏.PowerBuilder中财务凭证样式界面的实现[J].辽宁财专学报,2003,5(3):48-50.
9闫娟,杨慧斌,程武山.两轮机器人自平衡稳定性控制仿真研究[J].计算机仿真,2016,33(7):383-387. 被引量：5
10黄泳.电气自动化工程控制系统的现状及发展趋势[J].科技创新与应用,2016,6(36):141-141.

山东大学学报（工学版）

2010年第4期

浏览历史

内容加载中请稍等...

基于半马尔可夫对策的多机器人分层强化学习被引量：6

参考文献18

二级参考文献54

共引文献278

同被引文献154

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于半马尔可夫对策的多机器人分层强化学习 被引量：6

参考文献18

二级参考文献54

共引文献278

同被引文献154

引证文献6

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于半马尔可夫对策的多机器人分层强化学习被引量：6