基于分层强化学习及人工势场的多Agent路径规划方法被引量：14

Multi-Agent path planning algorithm based on hierarchical reinforcement learning and artificial potential field

下载PDF

导出

摘要针对路径规划算法收敛速度慢及效率低的问题,提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。首先,将多Agent的运行环境虚拟为一个人工势能场,根据先验知识确定每点的势能值,它代表最优策略可获得的最大回报;其次,利用分层强化学习方法的无环境模型学习以及局部更新能力将策略更新过程限制在规模较小的局部空间或维度较低的高层空间上,提高学习算法的性能;最后,针对出租车问题在栅格环境中对所提算法进行了仿真实验。为了使算法贴近真实环境,增加算法的可移植性,在三维仿真环境中对该算法进行验证,实验结果表明该算法收敛速度快,收敛过程稳定。 Aiming at the problems of the path planning algorithm, such as slow convergence and low efficiency, a multiAgent path planning algorithm based on hierarchical reinforcement learning and artificial potential field was proposed. Firstly,the multi-Agent operating environment was regarded as an artificial potential field, the potential energy of every point, which represented the maximal rewards obtained according to the optimal strategy, was determined by the priori knowledge. Then,the update process of strategy was limited to smaller local space or lower dimension of high-level space to enhance the performance of learning algorithm by using model learning without environment and partial update of hierarchical reinforcement learning. Finally, aiming at the problem of taxi, the simulation experiment of the proposed algorithm was done in grid environment. To close to the real environment and increase the portability of the algorithm, the proposed algorithm was verified in three-dimensional simulation environment. The experimental results show that the convergence speed of the algorithm is fast, and the convergence procedure is stable.

作者郑延斌李波安德宇李娜

机构地区河南师范大学计算机与信息工程学院智慧商务与物联网技术河南省工程实验室

出处《计算机应用》 CSCD 北大核心 2015年第12期3491-3496,共6页 journal of Computer Applications

基金河南省重点科技攻关项目(132102210537 132102210538)

关键词路径规划多智能体系统分层强化学习人工势场先验知识 path planning Multi-Agent System（MAS） hierarchical reinforcement learning artificial potential field priori knowledge

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献18

1PARKER L E. Multiple mobile robot systems [ M]//Springer Hand- book of Robotics. Berlin: Springer, 2005:921-941.
2CHARKROBORTY J, MUKHOPADHYAY S. A robust cooperative multi-robot path-planning in noisy environment [ C]// Proceedings of the 2010 IEEE International Conference on Industrial and Infor- mation Systems. Piscataway: IEEE, 2010:626-631.
3戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
4石琳,罗庆生,韩宝玲,黄麟.仿生六足机器人稳定性的仿生实验研究(英文)[J].系统仿真学报,2008,20(19):5384-5387. 被引量：4
5JARADAT M, GARIBEH M H, FEILAT E A. Dynamic motion plan- ning for autonomous mobile robot using fuzzy potential field [ C]// Proceedings of the 6tb International Symposium on Meehatronies and Its Applications. Piseataway: IEEE, 2009:24-26.
6GHATEE M, MOHADES A. Motion planning in order to optimize the length and clearance applying a Hopfield neural network [ J]. Expert Systems with Applications, 2009, 36(3): 4688 -4695.
7徐玉如,姚耀中.考虑海流影响的水下机器人全局路径规划研究[J].中国造船,2008,49(4):109-114. 被引量：24
8郝冬,刘斌.基于模糊逻辑行为融合路径规划方法[J].计算机工程与设计,2009,30(3):660-663. 被引量：39
9宋勇,李贻斌,李彩虹.移动机器人路径规划强化学习的初始化[J].控制理论与应用,2012,29(12):1623-1628. 被引量：27
10BARTO A G, MAHADEVEN S. Recent advance in hierarchical reinforcement learning [ J]. Discrete Event Dynamic Systems, 2003, 13(4): 341 -379.

二级参考文献83

1张汝波,顾国昌,杨歌,郭轶尊.具有学习能力的智能机器人体系结构研究[J].华中科技大学学报（自然科学版）,2004,32(S1):58-60. 被引量：4
2王小忠,孟正大.机器人运动规划方法的研究[J].控制工程,2004,11(3):280-284. 被引量：18
3付宜利,顾晓宇,王树国.基于模糊控制的自主机器人路径规划策略研究[J].机器人,2004,26(6):548-552. 被引量：44
4吴晓军,薛惠锋,李慜,兰壮丽.GA-PSO混合规划算法[J].西北大学学报（自然科学版）,2005,35(1):39-43. 被引量：21
5齐国光,郭木河,马少平,归柽华.轮式机器人最优控制的研究[J].机器人,1996,18(1):21-27. 被引量：7
6邰宜斌,席裕庚,李秀明.一种机器人路径规划的新方法[J].上海交通大学学报,1996,30(4):94-100. 被引量：14
7夏旭峰,葛文杰.仿生机器人运动稳定性的研究进展[J].机床与液压,2007,35(2):229-234. 被引量：13
8KENNEDY J and EBERHART R. Particle Swarm Optimization[A]. Proc. the 1995 IEEE International Conference on Neural Networks (Perth, Australia)[C], 1995, 4: 1942-1948.
9GARAU B, ALVAREZ A, OLIVER G. Path planning of autonomous underwater vehicles in current fields with complex spatial variability:an A * approach[A]. Proceedings of the 2005 IEEE International Conference on Robotics and Automation[C]. Barcelona, Spain, 2005,194-198.
10ALVAREZ A, CAITI A, ONKEN R. Evolutionary path planning for autonomous underwater vehicles in a variable ocean[J]. IEEE Journal of Oceanic Engineering, 2004,29(2):418-423.

共引文献166

1金翔,王天霖,于鹏垚,赵勇.基于值迭代网络的路径规划算法[J].华中科技大学学报（自然科学版）,2020,48(2):91-96. 被引量：1
2刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2
3郭泉成.智能车避障路径规划建模方法概述[J].电子元器件与信息技术,2022,6(8):101-105.
4王保红.移动机器人路径规划方法的研究与展望[J].沈阳工程学院学报（自然科学版）,2011,7(4):348-351. 被引量：5
5吕太之,李伟.启发式路径搜索算法研究综述[J].电脑知识与技术,2006,1(5):103-104. 被引量：1
6周友行,何清华.双臂凿岩机器人离散任务规划[J].中国机械工程,2006,17(13):1334-1337. 被引量：3
7史美萍,吴军,李焱,贺汉根.面向月球车路径规划的多约束环境建模方法[J].国防科技大学学报,2006,28(5):104-108. 被引量：8
8刘义,张宇.基于改进人工势场法的移动机器人局部路径规划的研究[J].现代机械,2006(6):48-49. 被引量：17
9皮旷怡,马孜,徐慧朴.未知环境下的移动机器人定位及实时避障[J].控制工程,2007,14(B05):162-165. 被引量：3
10谢贝贝.移动机器人智能路径规划方法研究[J].福建电脑,2007,23(10):49-50. 被引量：2

同被引文献99

1吴靓,何清华,黄志雄,邹湘伏.基于蚁群算法的多机器人集中协调式路径规划[J].机器人技术与应用,2006(3):32-37. 被引量：6
2沈晶,顾国昌,刘海波.未知动态环境中基于分层强化学习的移动机器人路径规划[J].机器人,2006,28(5):544-547. 被引量：15
3宋勇,李贻斌,栗春,李彩虹.基于神经网络的移动机器人路径规划方法[J].系统工程与电子技术,2008,30(2):316-319. 被引量：25
4朱大奇,易健雄,袁芳.基于小波灰色预测理论的旋转机械故障预测分析仪[J].仪器仪表学报,2008,29(6):1176-1181. 被引量：11
5胡桐清,陈亮.军事智能辅助决策的理论与实践[J].军事运筹与系统工程,1995,9(Z1):3-10. 被引量：14
6段勇,崔宝侠,徐心和.多智能体强化学习及其在足球机器人角色分配中的应用[J].控制理论与应用,2009,26(4):371-376. 被引量：26
7XU Jian-Xin,HOU Zhong-Sheng.Notes on Data-driven System Approaches[J].自动化学报,2009,35(6):668-675. 被引量：31
8王文玺,肖世德,孟祥印,陈应松,张卫华.基于递阶强化学习的自主机器人路径规划智能体[J].计算机集成制造系统,2009,15(6):1215-1221. 被引量：6
9宋勇,李贻斌,李彩虹.递归神经网络的进化机器人路径规划方法[J].哈尔滨工程大学学报,2009,30(8):898-902. 被引量：6
10孟蕊,苏维均,连晓峰.基于动态模糊人工势场法的移动机器人路径规划[J].计算机工程与设计,2010,31(7):1558-1561. 被引量：21

引证文献14

1闫伟,史洪玮.网络数据多信道传输路径规划方法研究[J].计算机仿真,2016,33(8):284-287. 被引量：6
2许建国,张佳.物联网数据并行传输路径预测仿真[J].计算机仿真,2018,35(1):172-175. 被引量：5
3赵广复,方加娟.基于蚁群优化和离策略学习的机器人路径规划[J].长春师范大学学报,2019,38(4):19-23. 被引量：1
4王毅然,经小川,田涛,孙运乾,从帅军.基于强化学习的多Agent路径规划方法研究[J].计算机应用与软件,2019,36(8):165-171. 被引量：26
5孙艺彬,杨慧珍.基于定向约束的脉冲耦合神经网络路径规划[J].计算机科学,2019,46(S11):28-32. 被引量：4
6刘辉,肖克,王京擘.基于多智能体强化学习的多AGV路径规划方法[J].自动化与仪表,2020,35(2):84-89. 被引量：10
7刘庆周,吴锋.多智能体路径规划研究进展[J].计算机工程,2020,46(4):1-10. 被引量：21
8李锋,陈勇,汤宝平,王家序.强化学习长短时记忆神经网络用于状态预测[J].振动．测试与诊断,2020,40(5):895-903. 被引量：1
9殷昌盛,杨若鹏,朱巍,邹小飞,李峰.多智能体分层强化学习综述[J].智能系统学报,2020,15(4):646-655. 被引量：24
10蒲志强,易建强,刘振,丘腾海,孙金林,李非墨.知识和数据协同驱动的群体智能决策方法研究综述[J].自动化学报,2022,48(3):627-643. 被引量：27

二级引证文献131

1陈述,田亚,袁越.风力作用下的大坝浇筑空间冲突频率研究[J].水力发电学报,2020(5):27-35. 被引量：9
2王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
3邢继军.非结构化离散网络传输路径预测方法仿真[J].计算机仿真,2017,34(4):424-427. 被引量：1
4邹智慧,杨帅.电子信息传输效率优化控制仿真研究[J].计算机仿真,2017,34(8):220-223. 被引量：5
5许建国,张佳.物联网数据并行传输路径预测仿真[J].计算机仿真,2018,35(1):172-175. 被引量：5
6方斌,王启东.无线网络异质复杂信息节点搜索路径寻优仿真[J].计算机仿真,2018,35(9):386-390. 被引量：1
7严星,吴向前,高敬礼.计弱连接条件下网络数据多信道传输节点路径调控方法[J].现代电子技术,2019,42(1):100-102. 被引量：3
8陈立万,杨震,李洪兵,陈强.无线传感器网络基于改进遗传算法的节点调度[J].重庆邮电大学学报（自然科学版）,2019,31(3):305-312. 被引量：17
9范杏元,孙颖,杜锦阳.基于NB-IOT的充电桩物联网数据自动召测系统设计[J].自动化与仪器仪表,2019,0(12):61-64. 被引量：7
10王同军,赵培君.开放式动态网络中可渗透路径预测方法仿真[J].计算机仿真,2020,37(1):430-434. 被引量：1

1朱泽民,张青.基于多维QoS和云计算的资源负载均衡调度研究[J].计算机测量与控制,2013,21(1):263-265. 被引量：6
2安琪.多媒体在默会工作环境中的作用和思路[J].广东科技,2009,18(8):91-92.
3乌云,张章,夏昆冈.准备篇:了解概况,心中有数[J].电脑自做,2003(8):60-61.
4许亚.基于人工势能场的移动机器人导航综述[J].科技致富向导,2014(27):191-191.
5邓文生,马王俊美.Java3D扩展鼠标交互功能的研究与实现[J].计算机仿真,2007,24(3):176-179. 被引量：4
6广宽.安全防范三维仿真系统的设计与实现[J].计算机光盘软件与应用,2011(6):172-172.
7宋勇,李贻斌,李彩虹.移动机器人路径规划强化学习的初始化[J].控制理论与应用,2012,29(12):1623-1628. 被引量：27
8沈晶,顾国昌,刘海波.未知动态环境中基于分层强化学习的移动机器人路径规划[J].机器人,2006,28(5):544-547. 被引量：15
9J.W.Olsen,伍颖文.ABC FlowCharter 4.0迎合各层用户[J].个人电脑,1995,0(9):32-32.
10沈晶,程晓北,刘海波,顾国昌,张国印.动态环境中的分层强化学习[J].控制理论与应用,2008,25(1):71-74. 被引量：5

计算机应用

2015年第12期

浏览历史

内容加载中请稍等...

基于分层强化学习及人工势场的多Agent路径规划方法被引量：14

参考文献18

二级参考文献83

共引文献166

同被引文献99

引证文献14

二级引证文献131

相关作者

相关机构

相关主题

浏览历史

基于分层强化学习及人工势场的多Agent路径规划方法 被引量：14

参考文献18

二级参考文献83

共引文献166

同被引文献99

引证文献14

二级引证文献131

相关作者

相关机构

相关主题

浏览历史

基于分层强化学习及人工势场的多Agent路径规划方法被引量：14