基于策略梯度强化学习的高铁列车动态调度方法被引量：7

A policy gradient reinforcement learning algorithm for high-speed railway dynamic scheduling

导出

摘要高速铁路以其运输能力大、速度快、全天候等优势,取得了飞速蓬勃的发展.而恶劣天气等突发事件会导致列车延误晚点,更甚者延误会沿着路网不断传播扩散,其带来的多米诺效应将造成大面积列车无法按计划运行图运行.目前依靠人工经验的动态调度方式难以满足快速优化调整的实际要求.因此,针对突发事件造成高铁列车延误晚点的动态调度问题,设定所有列车在各站到发时间晚点总和最小为优化目标,构建高铁列车可运行情况下的混合整数非线性规划模型,提出基于策略梯度强化学习的高铁列车动态调度方法,包括交互环境建立、智能体状态及动作集合定义、策略网络结构及动作选择方法和回报函数建立,并结合具体问题对策略梯度强化学习(REINFORCE)算法进行误差放大和阈值设定两种改进.最后对算法收敛性及算法改进后的性能提升进行仿真研究,并与Q-learning算法进行比较,结果表明所提出的方法可以有效地对高铁列车进行动态调度,将突发事件带来的延误影响降至最小,从而提高列车的运行效率. The high-speed railway has achieved vigorous development in recent years due to its advantages of large transport capacity,fast speed and all-weather.But unexpected events such as bad weather will cause train delays,and even the delay will continue to spread along the road network.The domino effect will cause large-area trains to fail to operate according to the plan.At present,the dynamic scheduling method relying on manual experience is difficult to meet the actual requirements.Therefore,this paper aims at the problem of dynamic scheduling of high-speed train,setting the minimum sum of the delays of all trains at each station as the optimization goal.At the same time,a mixed-integer nonlinear programming(MINLP)model under traversable conditions is constructed,and a policy gradient reinforcement learning method is proposed including establishment of environment,definition of state and action set,policy network,action selection method,reward function and combined with the specific problems,the error amplification and threshold setting of REINFORCE algorithm are improved.Finally,the convergence and the performance improvement of the algorithm are studied and compared with the Q-learning algorithm.The results show that the method proposed in this paper can effectively reschedule high-speed trains,minimize the impact of delays,and improve the efficiency of train operation.

作者俞胜平韩忻辰袁志明崔东亮 YU Sheng-ping;HAN Xin-chen;YUAN Zhi-ming;CUI Dong-liang(State Key Laboratory of Synthetical Automation for Process Industries,Northeastern University,Shenyang 110004,China;Signal&Communication Reseach Institute,China Academy of Railway Sciences Co.,Ltd,Beijing 100081,China)

机构地区东北大学流程工业综合自动化国家重点实验室中国铁道科学研究院集团有限公司通信信号研究所

出处《控制与决策》 EI CSCD 北大核心 2022年第9期2407-2417,共11页 Control and Decision

基金国家自然科学基金项目(U1834211,61790574,61603262,61773269) 辽宁省自然科学基金项目(2020-MS093)。

关键词高铁列车突发扰动动态调度强化学习策略梯度策略梯度强化学习 high-speed railway unexpected disturbances dynamic scheduling reinforcement learning policy gradient REINFORCE

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1江峰,倪少权,吕红霞.基于拉格朗日松弛的高速铁路列车运行图新增运行线局部调整模型[J].交通运输系统工程与信息,2018,18(4):163-170. 被引量：11
2廖正文,苗建瑞,孟令云,李海鹰,赵岚.基于拉格朗日松弛的双线铁路列车运行图优化算法[J].铁道学报,2016,38(9):1-8. 被引量：25
3孟慧慧,王长林.基于双重启发式动态规划算法的列车运行调整研究[J].铁路计算机应用,2014,23(8):1-4. 被引量：1
4林博,俞胜平,刘子源,代学武,崔东亮,韩忻辰.基于改进粒子群算法的高铁列车动态调度[J].控制工程,2021,28(7):1334-1341. 被引量：14
5张琦,陈峰,张涛,袁志明.高速铁路列车连带晚点的智能预测及特征识别[J].自动化学报,2019,45(12):2251-2259. 被引量：15

二级参考文献46

1郑亚晶,张星臣,陈军华,徐彬.单线铁路成对非追踪平行运行图最小周期时间的混合整数非线性规划模型[J].中国铁道科学,2012,33(2):100-106. 被引量：9
2史峰,黎新华,秦进,邓连波.单线列车运行图铺划的时间循环迭代优化方法[J].铁道学报,2005,27(1):1-5. 被引量：22
3章优仕,金炜东.基于遗传算法的单线列车运行调整体系[J].西南交通大学学报,2005,40(2):147-152. 被引量：25
4胡思继,孙全欣,胡锦云,杨肇夏.区段内列车晚点传播理论的研究[J].中国铁道科学,1994,15(2):41-54. 被引量：29
5刘华蓥,林玉娥,王淑云.粒子群算法的改进及其在求解约束优化问题中的应用[J].吉林大学学报（理学版）,2005,43(4):472-476. 被引量：33
6贾传峻,胡思继,杨宇栋.列车运行调整微粒群算法研究[J].铁道学报,2006,28(3):6-11. 被引量：17
7路飞,宋沐民,田国会.基于多智能体的地铁列车运行调整方法[J].中国铁道科学,2007,28(1):123-126. 被引量：8
8车燕,崔炳谋,胡宸瀚,谢金虎.双线铁路列车调度阶段计划自动调整的遗传算法[J].铁道运输与经济,2007,29(12):80-83. 被引量：2
9CAREY M. A Model and Strategy for Train Pathing with Choice of Lines,Platforms, and Routes[J]. Transportation Research Part B.. Methodological, 1994,28(5) : 333-353.
10CAREY M, LOCKWOOD D. A Model, Algorithms and Strategy for Train Pathing[J]. Journal of the Operational Research Society, 1995,46(8) : 988-1 005.

共引文献56

1李晓辉,刘元东,赵毅,董媛.基于两阶段算法的列车调度问题[J].计算机系统应用,2022,31(11):282-289. 被引量：1
2刘云生,曹作良,王哲明,孙纬业.中国 -欧盟合作远程高等职业技术教育项目有关问题的思考[J].天津理工学院学报,2000,16(1):109-112. 被引量：1
3张哲铭,王莹,陈旭,李健.高速铁路单一循环乘务值乘计划优化研究[J].铁道运输与经济,2018,40(1):21-27. 被引量：9
4张哲铭,王莹,廖正文,曹文慧.基于时空状态网络的高速铁路乘务交路计划优化研究[J].铁道学报,2019,41(9):1-11. 被引量：2
5于洋,李积英,海宁,付天烜.基于蚁群优化算法的高速列车运行调整研究[J].测控技术,2019,38(10):61-65. 被引量：2
6王艺楠,孟令云,龙思慧,樊亚夫.高速铁路列车区间故障条件下列车运行调整优化模型[J].电气技术,2019,20(S01):9-16. 被引量：9
7高如虎,牛惠民,江雨星.基于多维网络的增开列车条件下高速铁路列车运行图调整[J].铁道学报,2020,42(5):1-8. 被引量：8
8郭一唯,黄艨靼,李博,何清.考虑均衡性的城际铁路列车运行图智能调整方法研究[J].铁道运输与经济,2020,42(9):20-25. 被引量：5
9李新毅,李海鹰,王莹,廖正文,苗建瑞.铁路快运班列开行方案与车底周转一体化优化研究[J].铁道学报,2020,42(10):9-15. 被引量：6
10王宇强,魏玉光,商攀,张进川.考虑跨线列车的高速铁路能力最大化合理利用研究[J].铁道学报,2020,42(10):23-29. 被引量：5

同被引文献83

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
2张政馗,庞为光,谢文静,吕鸣松,王义.面向实时应用的深度学习研究综述[J].软件学报,2020(9):2654-2677. 被引量：36
3葛运建,张建军,戈瑜,吴仲城,高理富.无所不在的传感与机器人感知[J].自动化学报,2002,28(S1):125-133. 被引量：14
4贾传峻,胡思继,杨宇栋.列车运行调整微粒群算法研究[J].铁道学报,2006,28(3):6-11. 被引量：17
5刘金琨,孙富春.滑模变结构控制理论及其算法研究与进展[J].控制理论与应用,2007,24(3):407-418. 被引量：570
6王旭东,邵惠鹤.RBF神经网络理论及其在控制中的应用[J].信息与控制,1997,26(4):272-284. 被引量：178
7李玉庆,徐敏强,王日新.航天器观测重调度问题中的模糊性不确定因素及其处理[J].宇航学报,2009,30(3):1106-1111. 被引量：1
8鲁放,韩宝明,何世伟,李得伟.铁路调度区域内货物列车出发计划动态全局优化[J].中国铁道科学,2010,31(1):134-138. 被引量：5
9陈学松,杨宜民.基于递推最小二乘法的多步时序差分学习算法[J].计算机工程与应用,2010,46(8):52-55. 被引量：5
10袁健,唐功友.基于扩展卡尔曼滤波的移动机器人变结构线性化复合跟踪控制[J].信息与控制,2010,39(6):749-754. 被引量：6

引证文献7

1谢正泰,樊佳亮,刘梅,金龙.基于神经网络的机器人学习与控制:回顾与展望[J].信息与控制,2023,52(1):37-58. 被引量：5
2毛维杨,王彬,柳景兴,熊新.基于强化学习的深空探测器自主任务规划方法[J].深空探测学报（中英文）,2023,10(2):220-230. 被引量：2
3蒋灵明,倪少权.基于多智体强化学习的高效率货物列车运行动态调整方法[J].铁道学报,2023,45(8):27-35. 被引量：2
4代学武,吴越,石琦,崔东亮,俞胜平.基于优先经验回放可迁移深度强化学习的高铁调度[J].控制与决策,2023,38(8):2375-2388. 被引量：1
5庞子帅,王丽雯,彭其渊.基于强化学习的干扰条件下高速铁路时刻表调整研究[J].交通运输系统工程与信息,2023,23(5):279-289. 被引量：2
6朱晓庆,刘鑫源,阮晓钢,张思远,李春阳,李鹏.融合元学习和PPO算法的四足机器人运动技能学习方法[J].控制理论与应用,2024,41(1):155-162.
7吴卫,阴佳腾,陈照森,唐涛.基于深度强化学习DDDQN的高速列车智能调度调整方法[J].铁道科学与工程学报,2024,21(4):1298-1308. 被引量：1

二级引证文献12

1黄艺驰,梁爽,姜红,陈敏璠,刘颖.拉曼光谱结合机器学习对面巾纸类物证的分类研究[J].实验与分析,2023,1(1):61-65.
2张丽娟.机器人系统的故障检测与诊断研究[J].现代制造技术与装备,2024,60(2):16-18.
3唐斌,刘光耀,江浩斌,田宁,米伟,王春宏.基于柔性演员-评论家算法的决策规划协同研究[J].交通运输系统工程与信息,2024,24(2):105-113.
4徐瑞,李世震,李朝玉,田若冰,朱哲,陈建岳,王帅.太阳系边际探测器自主技术需求分析[J].宇航学报,2024,45(5):647-660.
5杜心怡,邵长虹.基于强化学习的高速铁路列车运行调整方法研究[J].铁道技术标准（中英文）,2024,6(6):35-43.
6杨洋,王烨,康大勇,陈嘉玉,李姜,赵华栋.基于强化学习的多智能体协同电子对抗方法[J].兵器装备工程学报,2024,45(7):1-10.
7刘鸿恩,胡闽胜,胡海林.基于制动特征自学习的磁浮列车强化学习制动控制[J].西南交通大学学报,2024,59(4):839-847.
8孙泽翼,王彬,胡馨月,熊新,金怀平.深空探测器多智能体强化学习自主任务规划[J].深空探测学报（中英文）,2024,11(3):244-255.
9谢宗武,马博宇,孙万东,杨晓航,姬一明,谢光虎.基于元启发式优化的机器人智能体无碰撞轨迹规划[J].载人航天,2024,30(4):510-515.
10何筱雍,王莹,李涵,曹伟.客流波动场景下的动车组运用计划调整研究[J].铁道科学与工程学报,2024,21(8):3072-3081.

1许智贤,刘成峰,吴荣基,朱晓伟,陈科.基于DDPG的机械臂避障轨迹序列模式挖掘仿真[J].机械设计与制造工程,2022,51(8):34-38.
2赵健,宋东鉴,朱冰,刘斌,陈志成,张培兴.基于自学习和监督学习混合驱动的智能汽车跟驰控制策略[J].中国公路学报,2022,35(3):55-65. 被引量：4
3武天才,王宏伦,刘一恒,任斌,余跃.基于深度强化学习与高度速率反馈的再入制导方法[J].无人系统技术,2022,5(4):1-13. 被引量：2
4陈载宇,李阳,殷明慧,顾伟峰,刘建坤,邹云.基于参考输入优化的变速风电机组最大化风能捕获方法[J].控制理论与应用,2022,39(7):1219-1228. 被引量：1
5王付宇,张康,谢昊轩,陈梦凯.基于改进Q-learning算法的移动机器人路径优化[J].系统工程,2022,40(4):100-109. 被引量：7
6刘锋,徐杰,柯文博.基于深度强化学习的服装缝制过程实时动态调度[J].纺织学报,2022,43(9):41-48. 被引量：2
7董乾东,李敏.考虑不同碳排放处理模式的动态供应商选择及采购批量问题研究[J].中国管理科学,2022,30(8):106-116. 被引量：2
8吴超仲,冷姚,陈志军,罗鹏.基于强化学习的智能车人机共融转向驾驶决策方法[J].交通运输工程学报,2022,22(3):55-67. 被引量：1
9朱建文,赵长见,李小平,包为民.多约束强化学习最优智能滑翔制导方法[J].国防科技大学学报,2022,44(4):116-124. 被引量：3
10吕超,鲁洪良,于洋,王昊阳,吴绍斌.基于分层强化学习和社会偏好的自主超车决策系统[J].中国公路学报,2022,35(3):115-126. 被引量：9

控制与决策

2022年第9期

浏览历史

内容加载中请稍等...

基于策略梯度强化学习的高铁列车动态调度方法被引量：7

参考文献5

二级参考文献46

共引文献56

同被引文献83

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于策略梯度强化学习的高铁列车动态调度方法 被引量：7

参考文献5

二级参考文献46

共引文献56

同被引文献83

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于策略梯度强化学习的高铁列车动态调度方法被引量：7