基于强化学习的四旋翼无人机控制律设计被引量：6

Design of Control Law for Quadrotor UAV Based on Reinforcement Learning

下载PDF

导出

摘要目前四旋翼无人机大部分都采用经典控制方法进行控制律的设计,然而控制参数的选择和对被控对象数学模型的依赖一直是经典控制方法设计中需要克服的问题;针对此问题,采用了一种基于深度强化学习算法Deep Q Network的无人机控制律设计方法,以四旋翼姿态角和姿态角速率作为三层神经网络的输入数据,最终输出动作值函数,再根据贪婪策略进行动作的选取,通过与环境的不断交互,智能体根据奖惩信息来更新神经网络的权值,使得智能体朝着获得累积回报最大值的方向选取动作;仿真结果表明在经过强化学习训练之后,四旋翼姿态角能够快速准确地跟踪上参考指令的变化,证明了基于强化学习的四旋翼无人机控制律的可行性,从而避免了传统控制方法对控制参数的选择与控制模型的依赖。 At present,most of the quadrotor UAVs use the classic control method to design the control law.However,the selection of control parameters and the dependence on the mathematical model of the controlled object have always been problems that need to be overcome in the design of the classic control method.Aiming at this problem,a design method of UAV control law based on deep reinforcement learning algorithm Deep Q Network is adopted.The quadrotor attitude angle and attitude angle rate are used as the input data of the three-layer neural network,and finally the action value function is output.Then,the action is selected according to the greedy strategy.Through continuous interaction with the environment,the agent updates the weight of the neural network according to the reward and punishment information,so that the agent selects the action in the direction of obtaining the maximum cumulative return.The simulation results show that after the reinforcement learning training,the quadrotor attitude angle can quickly and accurately track the change of the reference command,which proves the feasibility of the quadrotor UAV control law based on reinforcement learning,thus avoiding the dependence of traditional control methods on the selection of control parameters and control model.

作者梁晨刘小雄张兴旺黄剑雄 Liang Chen;Liu Xiaoxiong;Zhang Xingwang;Huang Jianxiong(College of Automation,Northwestern Polytechnical University,Xi'an 710072,China)

机构地区西北工业大学自动化学院

出处《计算机测量与控制》 2021年第2期71-75,86,共6页 Computer Measurement &Control

基金航空科学基金资助(201905053003) 陕西省飞行控制与仿真技术重点实验室资助。

关键词强化学习(RL) 四旋翼无人机控制律 reinforcement learning quadrotor drone control law

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献6

1刘哲成,郭丽娟.基于分层滤波算法的无人机控制系统故障检测技术[J].计算机测量与控制,2020,28(5):23-26. 被引量：6
2尹豪,唐猛,侯凡.四旋翼无人机PDF控制系统设计和抗干扰分析[J].计算机测量与控制,2020,28(7):91-96. 被引量：4
3徐一鸣,李笑,杨凯凯,杨宇.基于深度学习的四旋翼无人机控制系统设计[J].计算机测量与控制,2020,28(5):123-127. 被引量：8
4徐今强,刘付颖,叶伟杰,张佳旋,沈兆坤.基于双目立体视觉避障的四旋翼飞行器设计[J].计算机测量与控制,2020,28(3):183-186. 被引量：3
5张萍.四旋翼飞行器姿态控制建模与仿真[J].电机与控制应用,2019,46(12):70-74. 被引量：8
6晋帅,李煊鹏,何嘉颖,李纾昶,周敬淞.基于强化学习的两轮模型车控制仿真分析[J].测控技术,2019,38(12):115-121. 被引量：3

二级参考文献48

1李波,唐猛.PDF策略在变载荷高性能控制系统中的设计及仿真[J].工程设计学报,2013,20(1):49-54. 被引量：8
2陈航科,张东升,盛晓超,王凯.四旋翼飞行器悬停状态姿态控制建模与仿真[J].计算机仿真,2013,30(11):41-45. 被引量：27
3李毅,陈增强,刘忠信.自抗扰技术在四旋翼飞行姿态控制中的应用[J].哈尔滨工业大学学报,2014,46(3):115-118. 被引量：15
4张镭,李浩.四旋翼飞行器模糊PID姿态控制[J].计算机仿真,2014,31(8):73-77. 被引量：66
5江杰,冯旭光,苏建彬.四旋翼无人机仿真控制系统设计[J].电光与控制,2015,22(2):27-30. 被引量：20
6刘敏,吉月辉,李俊芳,高强.四旋翼飞行器自抗扰姿态控制[J].计算机仿真,2016,33(3):71-75. 被引量：12
7王跃勇,于海业,刘媛媛.基于双目立体视觉的机械手移栽穴盘定位方法[J].农业工程学报,2016,32(5):43-49. 被引量：10
8滕雄,吴怀宇,陈洋,余辉.基于反步法的四旋翼飞行器轨迹跟踪研究[J].计算机仿真,2016,33(5):78-83. 被引量：21
9田红鹏,范振可.四旋翼飞行器不完全微分PID控制算法研究[J].计算机仿真,2016,33(12):58-61. 被引量：8
10陈亮,杨柳庆,肖前贵.基于梯度下降法和互补滤波的航向姿态参考系统[J].电子设计工程,2016,24(24):38-41. 被引量：13

共引文献25

1房印闯,韩辉云,张华.低空无人机探测反制的关键技术研究[J].中国新通信,2020,22(22):55-56. 被引量：3
2王蕊,孔国利.传感器故障的四旋翼无人机模糊自适应容错控制[J].数学的实践与认识,2020,50(24):116-124. 被引量：4
3黄剑雄,刘小雄,章卫国,高鹏程.基于视觉/惯导的无人机组合导航算法研究[J].计算机测量与控制,2021,29(2):137-143. 被引量：13
4刘宝莹,李明秋,杨俊威.基于改进型自抗扰的四旋翼飞行器姿态控制[J].指挥控制与仿真,2021,43(2):98-102. 被引量：4
5王伟杰.基于深度学习的发电机组四大管道智能视觉健康监测系统[J].电力系统装备,2021(8):45-46.
6秦明峰.基于北斗卫星通信定位的战斗机队形指挥控制系统设计[J].计算机测量与控制,2021,29(7):161-165. 被引量：1
7冯强,齐伟.基于MPC的四旋翼无人机航迹跟踪控制系统[J].计算机测量与控制,2021,29(8):109-113. 被引量：5
8黄智,张建强,苏润丛.基于混合滤波的四旋翼无人机抗干扰姿态控制系统设计[J].计算机测量与控制,2021,29(9):105-109. 被引量：4
9王少波,马文来,杜玉杰,郝伟.无人机异常行为研究进展与展望[J].滨州学院学报,2021,37(4):30-35.
10杨旭,曹立佳,刘洋.基于自耦PID控制的四旋翼无人机姿态控制[J].兵器装备工程学报,2021,42(10):170-175. 被引量：14

同被引文献52

1刘建庸,刘克.MARKOV DECISION PROGRAMMING WITH CONSTRAINTS[J].Acta Mathematicae Applicatae Sinica,1994,10(1):1-11. 被引量：1
2李东华,江驹,姜长生.多智能体强化学习飞行路径规划算法[J].电光与控制,2009,16(10):10-14. 被引量：8
3王宏伦,杜熠,盖文东.无人机自动空中加油精确对接控制[J].北京航空航天大学学报,2011,37(7):822-826. 被引量：18
4周燕艳.改进的Q学习算法及在其RoboCup中的应用[J].四川理工学院学报（自然科学版）,2011,24(4):417-421. 被引量：2
5徐小野,李爱军,张丛丛,姚宗信.基于Q学习的变体无人机控制系统设计[J].西北工业大学学报,2012,30(3):340-344. 被引量：2
6纪超,王庆.基于双目视觉的自主空中加油算法研究与仿真[J].系统仿真学报,2013,25(6):1327-1331. 被引量：7
7李大伟,王宏伦,盖文东.基于L_1自适应的自动空中加油对接段飞行控制技术[J].控制理论与应用,2014,31(6):717-724. 被引量：5
8钱素娟,王水萍.基于辅助视觉飞机空中加油对接优化过程仿真[J].计算机仿真,2014,31(8):88-91. 被引量：1
9陈鹏,段凤阳,张庆杰,郑志成,肖伟.基于模糊PID的无人机姿态控制器的设计[J].弹箭与制导学报,2015,35(1):9-11. 被引量：16
10Wang Xufeng,Kong Xingwei,Zhi Jianhui,Chen Yong,Dong Xinmin.Real-time drogue recognition and 3D locating for UAV autonomous aerial refueling based on monocular machine vision[J].Chinese Journal of Aeronautics,2015,28(6):1667-1675. 被引量：15

引证文献6

1凤雷,王宾涛,刘冰,李喜鹏.基于FPGA的深度强化学习硬件加速技术研究[J].计算机测量与控制,2022,30(6):242-247. 被引量：4
2杨兴昊,宋建梅,佘浩平,吴程杰,杨钦宁,付伟达.基于深度强化学习的无人机空中目标自主跟踪[J].计算机测量与控制,2022,30(10):88-94. 被引量：2
3刘旭光,杜昌平,郑耀.基于强化迭代学习的四旋翼无人机轨迹控制[J].计算机应用,2022,42(12):3950-3956. 被引量：2
4李波,黄晶益,万开方,宋超.基于深度强化学习的无人机系统应用研究综述[J].战术导弹技术,2023(1):58-68. 被引量：1
5王伟,吴昊,刘鸿勋,杨溢.基于深度强化学习的无人机姿态控制器设计[J].科学技术与工程,2023,23(34):14888-14895. 被引量：1
6杨宗月,刘磊,刘晨.基于PPO算法的四旋翼无人机位置控制[J].计算机仿真,2024,41(2):462-467.

二级引证文献10

1王超森,李舒琪,郭昭馗,马超凡,陈祥.智能预警侦察机器人[J].机械工程与自动化,2022(4):171-173. 被引量：1
2李延儒,左铁东,王婧.基于DQN深度强化学习的无人机智能航路规划方法研究[J].电子技术与软件工程,2022(18):5-8. 被引量：3
3夏元清,谢超,高寒,詹玉峰,孙中奇,戴荔,柴润祺,崔冰,张元,翟弟华,刘坤,杨辰,吴楚格,高润泽.天空地一体化网络环境下多运动体系统跨域协同控制与智能决策[J].控制与决策,2023,38(5):1176-1199. 被引量：7
4王硕,张景璐,裴春梅.基于ZYNQ的随机森林分类器实现[J].今日制造与升级,2023(2):17-19.
5张立博,李昌伟,齐伟,王刚,戚鲁凤.神经网络训练处理器的浮点运算优化架构[J].计算机测量与控制,2023,31(6):176-182.
6于力涵,洪儒,吴宇伦,谢迎娟.基于IKGC-PSO算法的无人机三维路径规划系统[J].计算机测量与控制,2023,31(8):259-266. 被引量：2
7徐天宇,徐江华.无人机自动机库造型设计研究综述[J].艺术科技,2023,36(18):177-179.
8刘峥嵘.基于FPGA的深度强化学习硬件加速技术分析[J].集成电路应用,2024,41(2):22-25.
9Yang Jiachen,Duan Ruifeng,Li Chengju.CNN demodulation model with cascade parallel crossing for CPM signals[J].The Journal of China Universities of Posts and Telecommunications,2024,31(3):30-42.
10张博,黄宜庆.基于变指数干扰观测器的无人机非奇异终端滑模控制[J].长春理工大学学报（自然科学版）,2024,47(5):48-56.

1雷军委,刘刚,陈黎明,李恒.高超声速飞行器状态反馈控制与稳定性分析[J].自动化应用,2020(10):8-10.
2李小亮.浅析高中体育与健康实施选项教学的意义[J].当代体育,2021(1):50-50.
3杨小明,徐子奇,张梦天,舒帆.穿越式自动化轨道吊任务分配与作业序列联合优化[J].计算机集成制造系统,2020,26(11):3094-3107. 被引量：1
4梁爽,刁节文,肖邦.P2P网贷平台风险预测研究[J].运筹与管理,2021,30(1):170-176. 被引量：3
5王飞跃.平行控制与数字孪生:经典控制理论的回顾与重铸[J].智能科学与技术学报,2020,2(3):293-300. 被引量：30
6新物志[J].风流一代,2021(3):62-63.
7王君超.用“症候式阅读法”把握媒体融合的“总问题”——阿尔都塞《读〈资本论〉》的“第二种阅读方法”借鉴[J].中国社会科学院研究生院学报,2020(6):78-87.
8沈璇,何俊.NORX算法中非线性组件的移位参数选取准则研究[J].国防科技大学学报,2021,43(1):66-71.
9肖鹏飞,张超勇,孟磊磊,洪辉,戴稳.基于深度强化学习的非置换流水车间调度问题[J].计算机集成制造系统,2021,27(1):192-205. 被引量：30

计算机测量与控制

2021年第2期

浏览历史

内容加载中请稍等...

基于强化学习的四旋翼无人机控制律设计被引量：6

参考文献6

二级参考文献48

共引文献25

同被引文献52

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于强化学习的四旋翼无人机控制律设计 被引量：6

参考文献6

二级参考文献48

共引文献25

同被引文献52

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于强化学习的四旋翼无人机控制律设计被引量：6