深度强化学习复原多目标航迹的TOC奖励函数被引量：2

Design of TOC reward function in multi-target trajectory recovery with deep reinforcement learning

下载PDF

导出

摘要针对航迹探测领域中探测器获得的目标地理位置通常是同一帧下无法区分的多目标场景,需要利用目标位置信息还原各航迹并区分各目标的问题进行研究,提出采用深度强化学习复原目标航迹的方法。依据目标航迹的物理特点,提取数学模型,结合目标航迹的方向、曲率等提出轨迹曲率圆(TOC)奖励函数,使深度强化学习能够有效复原多目标航迹并区分各目标。首先描述多目标航迹复原问题,并将问题建模成深度强化学习能够处理的模型;结合TOC奖励函数对多目标航迹复原问题进行实验;最后给出该奖励函数的数学推导和物理解释。实验结果表明,TOC奖励函数驱动下的深度强化网络能够有效还原目标的航迹,在航向和航速方面切合实际目标航迹。 It attracts lots of attention in the field of object trajectory detection that detectors always receive several geographical locations without any other information about the targets,and furthermore it comes into a problem to use the geographical location information received by the sensors to reconstruct the trajectories of each target as well as to distinguish the targets in each frame,which is called multi-target trajectory recovery and can be solved by deep reinforcement learning( DRL). This paper implemented a trajectory osculating circle( TOC) reward function based on the mathematical model of the direction and trajectory curvature according to the peculiarity of trajectories in actual. Firstly,it switched the issue of the multi-target trajectory reconstruction into a model which could be appropriate for DRL. Then,it tested DRL with the proposed reward function. Finally,it introduced a mathematical derivation and physical interpretation of the proposed TOC reward function. The experimental result shows that DRL with the TOC reward function can reverse the trajectory effectively,and the trace corresponds well with the actual trajectory.

作者贺亮徐正国贾愚沈超李赟 He Liang;Xu Zhengguo;Jia Yu;Shen Chao;Li Yun(National Key Laboratory of Science&Technology on Blind Signal Processing,Chengdu 610041,China;MOE Key Laboratory for Intelligent Networks&Network Security,Xi’an Jiaotong University,Xi’an 710049,China)

机构地区盲信号处理重点实验室西安交通大学智能网络与网络安全教育部重点实验室

出处《计算机应用研究》 CSCD 北大核心 2020年第6期1626-1632,共7页 Application Research of Computers

基金国家自然科学基金重点项目(U1736205) 国家自然科学基金资助项目(61773310)。

关键词深度强化学习序贯决策 Q函数轨迹密切圆 deep reinforcement learning(DRL) sequential decision Q function trajectory osculating circle(TOC)

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王增福,潘泉,郎林,程咏梅.基于减法聚类的动态航迹聚类算法[J].系统仿真学报,2009,21(16):5240-5243. 被引量：12
2行艳妮,钱育蓉,南方哲,赵京霞.Spark环境下K-means初始中心点优化研究综述[J].计算机应用研究,2020,37(3):641-647. 被引量：9
3陈勇.一种目标航迹数据聚类挖掘分析方法[J].无线电工程,2015,45(3):22-24. 被引量：13

二级参考文献35

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：226
3J L Krolik, R H Anderson. Maximum likelihood coordinate registration for over-the-horizon radar [J]. IEEE Transactions on Signal Processing (S1053-587X), 1997, 45(4): 945-959.
4D J Percival, K A B White. Multipath track fusion for over-the- horizon radar [J]. Signal and Data Processing of Small Targets, San Diego, CA, United States (S0277-786X), 1997, 3163: 363-374.
5M Mohandes, R E Bogner, A Bouzerdoum. Hierarchical clustering for OTHR track fusion [C]// Proceedings of the Australian Data Fusion Symposium, Adelaide, Aust, 1996. Adelaide, Australia: IEEE, 1996: 90-93.
6J Zhu, R E Bogner, A Bouzerdoum, et al. Application of neural networks to track association in over the horizon radar [J]. Sensor Fusion and Aerospace Applications II, Orlando, FL, USA, (S0277- 786X), 1994, 2233: 224-235.
7S L Chiu. Fuzzy model identification based on cluster estimation [J]. Journal of Intelligent and Fuzzy Systems (S1064-1246), 1994, 2(3): 267-278.
8张枸.FCM算法初始化方法研究[D].重庆:西南大学,2006.
9王涛波,黄宝军.基于4D航迹的模糊聚类分析[J].交通信息与安全,2013,31(180):38-42.
10ACHTERT E,BOHM C,KRIEGEL H-P,et al.Deriving Quantitative Models for Correlation Clusters[C]∥12th ACM SIGKDD Int'l Conf.on Knowledge Discovery and Data Mining,Philadelphia,Pennsylvania,2006:4-13.

共引文献31

1赵元棣,孙禾,王洁宁,李桃.终端区航迹簇的中心航迹提取方法研究[J].图学学报,2014,35(3):379-386. 被引量：4
2王兆强,胡昌华,周志杰,孔祥玉.基于新的AFCM算法的陀螺仪漂移预测[J].电光与控制,2011,18(4):51-55. 被引量：1
3王洁宁,孙禾,赵元棣.基于时间-空间的进场航迹聚类分析[J].科学技术与工程,2013,21(33):10078-10081. 被引量：9
4王涛波,黄宝军.改进模糊聚类算法在航迹分析中的应用[J].中国安全科学学报,2014,24(2):23-27. 被引量：10
5陈勇.一种目标航迹数据聚类挖掘分析方法[J].无线电工程,2015,45(3):22-24. 被引量：13
6王伟,周新志.ANFIS微波加热过程分段温度预测模型[J].智能系统学报,2016,11(1):61-69. 被引量：2
7白洁,田瑞丽,张学军.Apriori算法在用户特性关联分析中的应用[J].计算机与网络,2016,42(12):70-72. 被引量：6
8孟凡君,曹伟,管志强.海量雷达数据异常轨迹分析[J].电子科技,2017,30(1):41-45. 被引量：4
9彭勃.基于数据库的收缩型航迹聚类模型仿真研究[J].航空计算技术,2017,47(2):45-48.
10张瑞,王烁.基于凸型模板的目标行为识别算法[J].无线电通信技术,2017,43(4):75-79.

同被引文献8

1郑宇.城市计算概述[J].武汉大学学报（信息科学版）,2015,40(1):1-13. 被引量：97
2姚迪,张超,黄建辉,陈越新,毕经平.时空数据语义理解：技术与应用[J].软件学报,2018,29(7):2018-2045. 被引量：31
3徐继宁,曾杰.基于深度强化算法的机器人动态目标点跟随研究[J].计算机科学,2019,46(S11):94-97. 被引量：7
4兰宇,刘文斌,寇云峰,丁建锋,王梦寒,陈永祥.基于深度学习的非法电子设备识别方法与应用分析[J].通信技术,2019,52(12):3090-3094. 被引量：3
5樊玉琦,刘瑜岚,许雄,郭丹,温鹏飞.基于点迹时空关系的雷达目标航迹识别[J].电子测量与仪器学报,2020,32(9):108-116. 被引量：7
6曾睿,周建,刘满禄,张俊俊,陈卓.双Q网络学习的迁移强化学习算法[J].计算机应用研究,2021,38(6):1699-1703. 被引量：4
7周盛世,单梁,常路,陈佳,刘成林,李军.基于改进DDPG算法的机器人路径规划算法研究[J].南京理工大学学报,2021,45(3):265-270. 被引量：15
8张荣霞,武长旭,孙同超,赵增顺.深度强化学习及在路径规划中的研究进展[J].计算机工程与应用,2021,57(19):44-56. 被引量：27

引证文献2

1贺雪梅,匡胤,杨志鹏,杨亚乔.基于深度强化学习的AGV智能导航系统设计[J].计算机应用研究,2022,39(5):1501-1504. 被引量：8
2李振,孙建星,王少阳,马基栋.时空轨迹应用分类及其智能处理方法分析[J].通信技术,2023,56(1):28-32.

二级引证文献8

1杨友波,张目,唐俊,雷印杰.基于深度确定性策略梯度强化学习算法的航迹规划研究[J].现代计算机,2023,29(5):1-7. 被引量：1
2徐萌.基于视觉传达的船用智能导航系统界面设计研究[J].舰船科学技术,2023,45(13):166-169.
3陈骏,沈琦琦.自动导引车路径规划算法的研究综述[J].自动化与仪器仪表,2023(9):8-15. 被引量：3
4付涛,景兴淇,李正雄,任涛.离散型制造车间AGV小车自主避障路径选择研究[J].机械设计与制造,2024(4):238-243.
5李忠伟,刘伟鹏,罗偲.基于轨迹引导的移动机器人导航策略优化算法[J].计算机应用研究,2024,41(5):1456-1461.
6张艳菊,吴俊,程锦倩,陈泽荣.多搬运任务下考虑碰撞避免的AGV路径规划[J].计算机应用研究,2024,41(5):1462-1469. 被引量：2
7向紫燕.基于改进智能优化算法的自主导航物流小车路径决策方法[J].集成电路与嵌入式系统,2024,24(9):74-80.
8石斌,何奇彦.基于AGV导航技术的智慧乡村旅游景区标识系统规划研究[J].自动化与仪器仪表,2024(9):313-316.

1江恩慧,王远见,李军华,田世民.黄河水库群泥沙动态调控关键技术研究与展望[J].治黄科技信息,2019,0(5):6-10. 被引量：1
2朱青,张维,罗志红.生产者责任视阈下的城市生活垃圾分类多元主体序贯决策分析[J].企业经济,2020,39(2):24-30. 被引量：1
3喻晨龙,谭贤四,曲智国,李凡,谢非.临近空间高超声速滑翔目标地理位置估计[J].现代雷达,2019,41(6):55-60. 被引量：2
4万志远,刘勤明,叶春明,刘文溢.突发事件下的医院应急资源动态分配模型研究[J].计算机应用研究,2020,37(2):456-459. 被引量：4
5唐益明,张征,芦启明.分段二次方转换函数驱动的高斯核模糊C均值聚类[J].山东大学学报（理学版）,2020,55(3):107-112. 被引量：2
6田国.基于Pro/Engineer系统函数驱动的异形曲面建构在产品造型设计中的应用研究[J].湖南工业职业技术学院学报,2019,19(6):1-4.
7郭鹏,赵马杰,朱旻明,叶桃红.自由圆射流对声激励的非线性响应分析[J].中国科学技术大学学报,2019,49(6):465-475.
8雷鹏福,戴宁,汪志鹏,陈为,黄仁凯.功能性微结构可控参数建模技术研究[J].中国机械工程,2020,31(5):553-560. 被引量：1
9张继仁,陈慧,宋绍禹,胡峰伟.基于强化学习的自动泊车运动规划[J].同济大学学报（自然科学版）,2019,47(S01):186-190. 被引量：3
10姚文.高等学校生物类专业统计学课程教学的思考[J].学园,2019,12(17):22-23.

计算机应用研究

2020年第6期

浏览历史

内容加载中请稍等...

深度强化学习复原多目标航迹的TOC奖励函数被引量：2

参考文献3

二级参考文献35

共引文献31

同被引文献8

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

深度强化学习复原多目标航迹的TOC奖励函数 被引量：2

参考文献3

二级参考文献35

共引文献31

同被引文献8

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

深度强化学习复原多目标航迹的TOC奖励函数被引量：2