改进型DDPG算法的多智能体编队控制与仿真

Multi-agent formation control and simulation based on improved DDPG algorithm

下载PDF

导出

摘要针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化起始点和终点概念,添加路径中点的方式,使智能体同时从起点以及终点向中点移动,形成由起点指向中点、终点指向中点的2条路径。将奖励函数设计为同号智能体相碰为正向奖励,异号智能体相碰以及智能体(同号智能体和异号智能体)与障碍物之间相碰均为负向奖励。在搭建的静态和动态障碍物2种仿真环境下分别进行可变容量体验池深度确定性策略梯度算法(deep deterministic policy gradient-variable capacity experience pool,DDPG-vcep)验证,并对比不同训练次数下的奖赏值。仿真结果表明,改进后的DDPG编队算法较传统DDPG算法节约了路径获取时间,编队避障的效果更加明显。 In view of the problems of unstable formation in the path planning process,slow time to obtain path,and close distance to obstacles in the process of obstacle avoidance,in this paper,the method of angular distance measurement is used to form multiple agents,and by changing the traditional path planning method formed by the obstacle avoidance process from the start point to the end point,weakening the concept of start point and end point,and adding the path midpoint,the agent moves from the start point and the end point to the midpoint at the same time,forming two paths from the start point to the midpoint and the end point to the midpoint.The reward function is designed to meet agents of the same number as a positive reward,and the collision of different agents and the collision between agents(agents of the same number and different agents)and obstacles are all negative rewards.The deep deterministic policy gradient-variable capacity experience pool(DDPGvcep)algorithm is verified respectively in the static and dynamic obstacle simulation environments,and the reward values under different training times are compared.The simulation results show that compared with the traditional DDPG algorithm,the improved DDPG formation algorithm saves the path acquisition time and has a more obvious obstacle avoidance effect.

作者景永年耿双双向瑶文家燕 JING Yongnian;GENG Shuangshuang;XIANG Yao;WEN Jiayan(School of Automation,Guangxi University of Science and Technology,Liuzhou 545616,China;Black Sesame Technologies Company Limited,Shenzhen 518055,China;Research Center for Intelligent Cooperation and Cross-application,Guangxi University of Science and Technology,Liuzhou 545616,China;Guangxi Key Laboratory of Automobile Components and Vehicle Technology,Guangxi University of Science and Technology,Liuzhou 545616,China)

机构地区广西科技大学自动化学院黑芝麻智能科技有限公司智能协同与交叉应用研究中心(广西科技大学) 广西汽车零部件与整车技术重点实验室(广西科技大学)

出处《广西科技大学学报》 CAS 2023年第3期62-71,共10页 Journal of Guangxi University of Science and Technology

基金国家自然科学基金项目(61963006) 广西自然科学基金项目(2018GXNSFAA050029,2018GXNSFAA294085) 2022年广西汽车零部件与整车技术重点实验室自主研究课题(2022GKLACVTZZ01)资助。

关键词深度学习强化学习深度确定性策略梯度算法(DDPG算法) 多智能体编队控制避障 deep learning reinforcement learning deep deterministic policy gradient algorithm(DDPG algorithm) multi-agent formation control obstacle avoidance

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献7

1顾大强,郑文钢.多移动机器人协同搬运技术综述[J].智能系统学报,2019,14(1):20-27. 被引量：20
2杨继明,朱先睿.一类非线性最优控制问题的间断有限元方法[J].湖南工程学院学报（自然科学版）,2017,27(3):37-39. 被引量：2
3徐鹏,谢广明,文家燕,高远.事件驱动的强化学习多智能体编队控制[J].智能系统学报,2019,14(1):93-98. 被引量：10
4王文欣,叶洪涛,罗文广,文家燕.事件触发机制下多智能体系统的非对称二分一致性[J].广西科技大学学报,2021,32(4):28-34. 被引量：2
5唐博文,王智文,胡振寰.基于事件驱动的无人机强化学习避障研究[J].广西科技大学学报,2019,30(1):96-102. 被引量：9
6贾丙佳,李平.复杂环境下移动机器人路径规划算法[J].华侨大学学报（自然科学版）,2021,42(1):103-112. 被引量：8
7邓小豪,侯进,谭光鸿,万斌杨,曹婷婷.基于强化学习的多目标车辆跟随决策算法[J].控制与决策,2021,36(10):2497-2503. 被引量：10

二级参考文献35

1秦颖,李涛,张智勇,邹敢.一种面向工程应用的多移动搬运机器人系统结构[J].中南大学学报（自然科学版）,2013,44(S2):21-27. 被引量：4
2黎萍,杨宜民.多机器人系统任务分配的研究进展[J].计算机工程与应用,2008,44(17):201-205. 被引量：13
3朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：331
4李春贵,周坚和,孙自广,王萌,张增芳.基于多智能体团队强化学习的交通信号控制[J].广西工学院学报,2011,22(2):1-5. 被引量：2
5杨甜甜,苏治宝,刘进,孟红.多移动机器人避障编队控制[J].计算机仿真,2011,28(9):215-218. 被引量：13
6李冯敬,姚佩阳,张杰勇,万路军.基于多Agent的分布式通信对抗目标分配系统[J].计算机工程,2012,38(12):283-286. 被引量：7
7杨杰,贺利乐,李荣丽,仪怀亮.基于改进势场栅格法的移动机器人路径规划[J].煤矿机械,2012,33(8):74-76. 被引量：16
8刘钰,陆建峰,蔡海舟.基于改进A*算法的机器人路径规划方法研究[J].计算机技术与发展,2012,22(12):108-111. 被引量：15
9张国亮.动态环境中移动机器人路径规划研究综述[J].机床与液压,2013,41(1):157-162. 被引量：13
10黄太安,生佳根,徐红洋,黄泽峰.一种改进的简化粒子群算法[J].计算机仿真,2013,30(2):327-330. 被引量：71

共引文献53

1姜龙亭,魏瑞轩,张启瑞,王栋.基于群智机理的集群防碰撞控制[J].航空学报,2020(S02):161-170. 被引量：10
2马千茹,侯玉泽,刘原伯,侯玉一.加入热-结构耦合类型的全瓷冠非线性接触型有限元分析[J].黑龙江医药科学,2019,42(4):223-226. 被引量：1
3张明,王铉,陈柯颖.基于激光雷达的室内场景三维重建系统设计[J].电子设计工程,2019,27(24):181-184. 被引量：14
4闫华,黎丽荣,万飞,刘波,李睿.基于排队论的智能仓库机器人数量需求分析[J].兵器装备工程学报,2020,41(3):102-105. 被引量：5
5杨庆凯,潘云龙,周勃,刘虹,方浩.基于仿射变换的微型无人机编队飞行控制技术[J].指挥与控制学报,2020,6(2):179-183. 被引量：4
6张辰,周乐来,李贻斌.多机器人协同导航技术综述[J].无人系统技术,2020,3(2):1-8. 被引量：24
7张卫东,刘笑成,韩鹏.水上无人系统研究进展及其面临的挑战[J].自动化学报,2020,46(5):847-857. 被引量：54
8李海婷,张鹏超,罗朝阳,刘亚恒,徐鹏飞.多移动机器人队形初始化目标点分配算法研究[J].陕西理工大学学报（自然科学版）,2020,36(3):40-46. 被引量：1
9程韬波,李晓晓,徐智浩,周雪峰.基于递归神经网络的多机器人智能协同控制[J].机电工程技术,2020,49(5):1-4. 被引量：5
10李锦程,赵勇,邢宏文,董正建.基于模糊力控制的移载工装协同搬运控制策略[J].机械设计与研究,2020,36(3):89-93. 被引量：2

1《指挥控制与仿真》2023年征稿简则[J].指挥控制与仿真,2023,45(3).
2廖文义.高考思想政治“定向关系论证”类主观题解题方法例谈——以2019年全国Ⅰ卷38题为例[J].教学考试,2020(34):58-59.
3于富民.思辨:语文课堂的应然追求[J].教育视界,2022(20):48-52.
4任光莉.王子才:矢志科研丹心报国[J].党员干部之友,2023(6):42-43.
5谢容丽.基于分布虚拟现实技术的城市轨道交通控制与仿真[J].长江信息通信,2023,36(4):157-160. 被引量：2
6史晓晶.职业教育师资能力体系及培养途径探究[J].济南职业学院学报,2020(2):9-11. 被引量：1
7刘盈东.生态文明背景下的国土空间规划体系构建[J].前卫,2023(23):4-6.
8郝喆,王运,王珂.基于无线通讯的多智能机器人协作运行系统研究[J].信息技术与信息化,2023(5):192-194. 被引量：1
9丁晓波,王康,王恒涛,吴凡.基于端到端延时补偿的TOA无人机编队协同定位算法[J].无线电工程,2023,53(7):1596-1603.
10Yingzhi HUANG,Zhaoyang ZHANG,Jingze CHE,Zhaohui YANG,Qianqian YANG,Kai-Kit WONG.Self-attention reinforcement learning for multi-beam combining in mmW ave 3D-MIMO systems[J].Science China(Information Sciences),2023,66(6):200-217.

广西科技大学学报

2023年第3期

浏览历史

内容加载中请稍等...

改进型DDPG算法的多智能体编队控制与仿真

参考文献7

二级参考文献35

共引文献53

相关作者

相关机构

相关主题

浏览历史