一种记忆可修剪型仿生机器人的速度跟踪算法研究被引量：2

Research on a speed tracking algorithm for memory pruning bionic robot

下载PDF

导出

摘要针对强化学习算法训练网络规模较大、运行时间较长、过度拟合等问题,提出一种记忆可修剪型强化学习仿生模型(H-RLM)作为两轮机器人的学习机制。该算法将神经网络输出与期望输出的最小均方差作为代价函数,采用Hessian矩阵和Markov相结合的决策进行寻优,选择最大评价值对应的最优行为。这样既可以保证初期网络学习训练内容的完整性,又降低了系统对初始条件的约束性,提高了控制算法的泛化能力。利用H-RLM和强化算法对两轮机器人进行速度跟踪实验,结果表明,H-RLM算法能够提高网络学习效率、消除延迟影响、减小输出误差,获得了良好的动态性能。 Since the reinforcement learning algorithm has the problems of large scale, long running time and over fitting for network training, a pruning reinforcement learning model （H-RLM） taken as the learning mechanism of the two-wheeled robot is proposed. The output of neural network and least mean square error of expected output are deem as the cost function of the algorithm. The Hessian matrix and Markov decision model are combined to select the optimal behavior corresponding to the maxi- mum evaluation value, which can ensure the integrity of the training content of the network learning in initial period, and reduce the system contraints for initial conditions, and improve the generalization ability of the control algorithm. The speed tracking experiments were carried on by means of H-RLM algorithm and reinforcement learning algorithm. The experimental resuits show that the H-RLM algorithm can improve the network learning efficiency, eliminate the delay effect, reduce the output error, and obtain better dynamic performance.

作者任红格刘伟民李福进

机构地区华北理工大学电气工程学院

出处《现代电子技术》北大核心 2017年第15期141-145,共5页 Modern Electronics Technique

基金国家自然科学基金项目(61203343) 河北省自然科学基金项目(E2014209106) 河北省教育厅高等学校科学技术研究项目(QN2016102 QN2016105) 华北理工大学研究生创新项目(2016S10)

关键词强化学习可修剪仿生模型 HESSIAN矩阵两轮机器人 reinforcement learning pruning bionic model Hessian matrix two-wheeled robot

分类号 TN911-34 [电子电信—通信与信息系统] TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1马莉,樊友平,钟勇,杨文茵.修剪技术与参数调整的动态模糊神经网络设计[J].系统仿真学报,2010,22(7):1646-1650. 被引量：1
2高瑞娟,吴梅.基于改进强化学习的PID参数整定原理及应用[J].现代电子技术,2014,37(4):1-4. 被引量：4
3任红格,霍美杰,李福进,张磊.两轮自平衡机器人速度跟踪研究[J].计算机仿真,2015,32(4):325-329. 被引量：3

二级参考文献23

1魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：13
2马野,王孝通,戴耀.基于模糊神经网络的自适应滤波方法仿真研究[J].系统仿真学报,2005,17(10):2447-2449. 被引量：7
3Chcllappa R, Wilson C L, Sirohcy S. Human and Machine Recognition of Faces: A Survey [J]. Proc. IEEE, 2005, 93(2): 705-740.
4Brunelli R, Poggio T. Face Recognition: Features Versus Templates [J]. IEEE Trans. Pattern Analysis and Machine Intelligence, 2003, 25(10): 1042-1053.
5Platt J. A Resource-Allocating Network for Function Interpolation [J]. Neural Computation, 2007, 19(2): 213-225.
6Valentin D, Abdi H, O'Toole A J, et al. Connectionist Models of Face Processing: a Survey [J]. Patt. Recog, 2004, 27(4): 1209-1230.
7Chao C T, Chen Y J, Teng C C. Simplification of Fuzzy Neural Systems Using Similarity Analysis [J]. 1EEE Trans. Syst, Man, Cybern, Part B: Cybem, 2003, 35(2): 344-354.
8Jang J-S R. ANFIS: Adaptive-Network-Based Fuzzy Inference System [J]. IEEE Trans. Syst, Man, Cybem, 1993, 23(3): 665-684.
9Kadirkamanathan V, Niranjan M. A Function Estimation Approach to Sequential Learning with Neural Networks [J]. Neural Computation, 2004, 16(4): 954-975.
10Lu Y, Sundamrajan N, Saratchandmn P. A Sequential Learning Scheme for Function Approximation by Using Minimal Radial Basis Function Networks [J]. Neural Computation, 2007, 19(2): 461-478.

共引文献5

1夏国清,陈华珍,甄文劲.基于互补滤波的两轮机器人运动控制系统设计[J].自动化技术与应用,2018,37(10):72-78. 被引量：2
2柳絮润,姚文杰.基于Policy Gradient的自动驾驶仪控制参数设计[J].自动化与仪器仪表,2021(2):1-4. 被引量：1
3严家政,专祥涛.基于强化学习的参数自整定及优化算法[J].智能系统学报,2022,17(2):341-347. 被引量：7
4任红格,吴启隆,史涛.OC学习机制的两轮平衡车模糊自平衡控制[J].机械设计与制造,2023(5):283-286. 被引量：1
5吕振瑞,沈欣,李少博,田鹏,司迎利.基于深度强化学习的来袭导弹智能拦截与平台机动策略优化技术[J].航空兵器,2024,31(5):56-66.

同被引文献24

1王洪斌,李程,王跃灵,刘鹏飞.基于Arduino和蓝牙技术的六足机器人控制系统设计[J].黑龙江大学自然科学学报,2015,32(4):533-537. 被引量：21
2杨俊驹,林睿,王振华,孙立宁.轮式移动机器人运动控制系统研究与设计[J].现代电子技术,2016,39(2):22-27. 被引量：16
3曾俊宝,李硕,李一平,王晓辉,阎述学.便携式自主水下机器人控制系统研究与应用[J].机器人,2016,38(1):91-97. 被引量：32
4许坤,陈谋.基于干扰观测器的移动机器人轨迹跟踪控制[J].应用科学学报,2016,34(2):177-189. 被引量：7
5白晶,于喜红,秦现生.基于PMAC的码垛机器人模糊PID算法研究[J].机械设计与制造工程,2016,45(3):46-49. 被引量：6
6杨兴,张亚,杨巍,张慧娟,常皓.室内移动机器人路径规划研究[J].科学技术与工程,2016,16(15):234-238. 被引量：17
7温熙,郭杭.室内移动机器人自定位方法[J].测绘科学,2016,41(6):97-101. 被引量：3
8李朕阳,郎朗,陈孟元.基于SR-CKF的相对方位多机器人协同定位算法[J].电子测量与仪器学报,2016,30(7):1107-1113. 被引量：6
9黄显良,郁建芳,戚浩,张炳,夏仕安,韩成成.安徽霍山窗中小地震活动与精定位研究[J].地震工程学报,2016,38(2):236-241. 被引量：9
10冯晟,吴成东,张云洲.基于改进APIT的移动机器人动态定位[J].北京邮电大学学报,2016,39(5):67-71. 被引量：3

引证文献2

1夏洪永.自主移动式机器人运动自动控制技术研究[J].机械设计与制造工程,2018,47(8):59-62. 被引量：1
2何奇文.基于机器人仿生视觉路标多模式匹配定位仿真[J].计算机仿真,2019,36(6):302-305. 被引量：2

二级引证文献3

1张苏新,李昊昱.抓取与传递机器人设计与实现[J].电脑编程技巧与维护,2022(10):127-130.
2刘文涛.基于矢量化加速的网络安全应用多模式匹配[J].西安文理学院学报（自然科学版）,2022,25(4):11-16. 被引量：1
3王连枝,朱朝旭,赵帅,李宝玺.基于视觉双窗口的机器人视觉跟随式导航仿真[J].计算机仿真,2023,40(2):466-470. 被引量：1

1梁娜,晁晖,张超.小波神经网络在MC-CDMA多用户检测技术中应用研究[J].中国新通信,2015,17(1):72-73. 被引量：1
2许瑞琛,蒋挺.认知无线电自适应频谱感知时间分配机制[J].北京邮电大学学报,2013,36(5):56-60.
3赵凯.基于Linux的ADSL实现[J].电脑知识与技术,2009,5(10X):8414-8415.
4王恒,王怀柱,刘艳青.基于三角网下的仿射不变几何约束的图像匹配算法研究[J].计算机应用研究,2017,34(8):2528-2532. 被引量：3
5汪一鸣,朱洪波.一种较低复杂度的UWB信道自适应均衡技术[J].通信学报,2005,26(10):13-18. 被引量：6
6饶伟,郭业才,汪胜前,谭文群,夏非,刘剑冰.基于坐标变换的常数模盲均衡新算法[J].电子学报,2011,39(1):7-12. 被引量：15
7付万程,达飞鹏,黄源.基于分数阶梯度算子的图像匹配算法[J].图学学报,2017,38(3):352-360. 被引量：3
8王琳,赵耀,余静华,陈曦.深度卷积神经网络在计算机视觉中的应用研究综述[J].农村经济与科技,2017,28(14):295-295. 被引量：6
9Shuxin ZHANG,Jingli DU,Wei WANG,Xinghua ZHANG,Yali ZONG.Two-step Structural Design of Mesh Antennas for High Beam Pointing Accuracy[J].Chinese Journal of Mechanical Engineering,2017,30(3):604-613. 被引量：4
10陈利军.传输网优化中设备替换方案的探讨[J].科学家,2017,5(7):60-61.

现代电子技术

2017年第15期

浏览历史

内容加载中请稍等...

一种记忆可修剪型仿生机器人的速度跟踪算法研究被引量：2

参考文献3

二级参考文献23

共引文献5

同被引文献24

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种记忆可修剪型仿生机器人的速度跟踪算法研究 被引量：2

参考文献3

二级参考文献23

共引文献5

同被引文献24

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种记忆可修剪型仿生机器人的速度跟踪算法研究被引量：2