强化学习在运筹学的应用:研究进展与展望被引量：12

Research Progress and Prospects for Application of Reinforcement Learning in Operations Research

下载PDF

导出

摘要强化学习已经成为人工智能领域一个新的研究热点,并已成功应用于各领域,强化学习将运筹优化领域的很多问题视为序贯决策问题,建模为马尔可夫决策过程并进行求解,在求解复杂、动态、随机运筹优化问题具有较大的优势。本文主要对强化学习在运筹优化领域的应用进行综述,首先介绍了强化学习的基本原理及其应用于运筹优化领域的研究框架,然后回顾并总结了强化学习在库存控制、路径优化、装箱配载和车间作业调度等方面的研究成果,并将最新的深度强化学习以及传统方法在运筹学领域的应用研究进行了对比分析,以突出深度强化学习的优越性。最后提出几个值得进一步探讨的研究方向,期望能为强化学习在运筹优化领域的研究提供参考。 Reinforcement learning has become a new research hotspot in the field of artificial intelligence.and has been successfully applied in various fields.Reinforcement learning regards many problems in the community of operational optimization as sequential decision problems,modeled as Markov decision processes,and thensolve them.It has great advantages in solving complex,dynamic and random operation optimization problems.This paper mainly summarizes the application of reinforcement learning in the area of operational optimization.Firstly,it introduces the basic principles of reinforcement learning and its application framework in the field of operational optimization.Then it systematically reviews and summarizes the reinforcement learning in inventory control,path optimization,packing and loading and job shop scheduling.And the latest deep reinforcement learning and the application of traditional methods in the field of operations research are compared and analyzed to highlight the superiority of deep reinforcement learning.Finally,several research directions worthy of further discussion are proposed,and it is expected to provide reference for the study of reinforcement learning in the field of operational optimization.

作者徐翔斌李志鹏 XU Xiang-bin;LI Zhi-peng(School of Transportation and Logistics,East China Jiaotong University,Nanchang 330013,China)

机构地区华东交通大学交通运输与物流学院

出处《运筹与管理》 CSSCI CSCD 北大核心 2020年第5期227-239,共13页 Operations Research and Management Science

基金国家自然科学基金资助项目(71761013) 江西省自然科学基金面上项目(20181BAB201010)。

关键词强化学习运筹优化序贯决策马尔可夫决策过程深度强化学习 reinforcement learning operation and optimization sequential decision:Markov decision process deep reinforcement learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] O22 [理学—运筹学与控制论]

引文网络
相关文献

参考文献12

1王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
2潘燕春,冯允成,周泓,魏佳呈.强化学习和仿真相结合的车间作业排序系统[J].控制与决策,2007,22(6):675-679. 被引量：3
3娄山佐,吴耀华,肖际伟,廖莉.基于增强学习解决随机需求车辆路径问题[J].系统仿真学报,2008,20(14):3675-3678. 被引量：1
4杨华龙,叶迪,张倩,曾庆成.时间窗变动的车辆调度干扰管理模型与算法[J].运筹与管理,2017,26(10):56-64. 被引量：15
5王国磊,钟诗胜,林琳.基于聚类状态隶属度的动态调度Q-学习[J].高技术通讯,2009,19(4):428-433. 被引量：8
6邰世文,商剑平.煤炭码头卸车调度问题多目标优化模型及算法[J].运筹与管理,2018,27(6):91-99. 被引量：13
7魏英姿,谷侃锋.基于性能预测的遗传强化学习动态调度方法[J].系统仿真学报,2010,22(12):2809-2812. 被引量：7
8高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268
9余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：611
10魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19

二级参考文献120

1蔡兰,郭顺生.智能调度问题的综述和方法研究[J].科技进步与对策,2004,21(10):170-171. 被引量：6
2魏英姿,赵明扬.资源受限单机动态调度的并行GA算法研究[J].系统仿真学报,2005,17(4):827-830. 被引量：2
3范波,潘泉,张洪才.一种基于分布式强化学习的多智能体协调方法[J].计算机仿真,2005,22(6):115-117. 被引量：5
4杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
5李冬梅,陈卫东,席裕庚.基于强化学习的多机器人合作行为获取[J].上海交通大学学报,2005,39(8):1331-1335. 被引量：4
6王明春,高成修,曾永廷.VRPTW的扰动恢复及其TABUSEARCH算法[J].数学杂志,2006,26(2):231-236. 被引量：24
7王本年,高阳,陈兆乾,谢俊元,陈世福.RLGA:一种基于强化学习机制的遗传算法[J].电子学报,2006,34(5):856-860. 被引量：9
8蒋忠中,汪定伟.物流配送车辆路径优化的模糊规划模型与算法[J].系统仿真学报,2006,18(11):3301-3304. 被引量：33
9魏英姿,曲艳丽,胡玉兰.基于合同网协议交互投标的动态调度方法研究[J].计算机科学,2007,34(7):124-127. 被引量：4
10Anderson J R. Cognitive Psychology and Its Applications(third edition) [M]. New York: Freeman, 1990.

共引文献965

1贾彦哲.论人工智能研发者过失犯的注意义务[J].华中师范大学研究生学报,2020(2):40-46.
2项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
3李文文.铁路智能卸车超限分级预警系统构建研究[J].铁道运输与经济,2019,0(S01):72-77. 被引量：4
4毕思文,Henri Jaffrès,Chandra Sekhar Roychoudhuri.量子遥感发展新态势——世界首次量子遥感国际会议评述[J].全球变化数据学报（中英文）,2019,3(4):317-325. 被引量：1
5范敏,胥小波,聂小明.基于字符级扩张卷积网络的Web攻击检测方法[J].计算机应用研究,2020,37(S02):234-237. 被引量：4
6安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
7孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1
8华夏,王新晴,马昭烨,王东,邵发明.基于递归神经网络的视频多目标检测技术[J].计算机应用研究,2020,37(2):615-620. 被引量：8
9刘树霄,衣立,张苏平,时晓曚,薛允传.基于全卷积神经网络方法的日间黄海海雾卫星反演研究[J].海洋湖沼通报,2019(6):13-22. 被引量：12
10丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7

同被引文献91

1曹新红,杨俊峰,王昊东,任炳昱.基于AHP的东庄高拱坝施工方案优化研究[J].水利水电技术（中英文）,2021,52(S02):251-256. 被引量：2
2蔺一帅,李青山,陆鹏浩,孙雨楠,王亮,王颖芝.智能仓储货位规划与AGV路径规划协同优化算法[J].软件学报,2020,31(9):2770-2784. 被引量：27
3丁世来,胡志根,刘全.大坝混凝土浇筑块排序方法的评价研究[J].红水河,2004,23(2):97-100. 被引量：16
4胡世亮,席裕庚.一种通用的移动机器人路径规划仿真系统[J].系统仿真学报,2004,16(8):1714-1716. 被引量：13
5马士华,文坚.基于时间延迟的订单分批策略研究[J].工业工程与管理,2004,9(6):1-4. 被引量：21
6柳林,季秀才,郑志强.基于市场法及能力分类的多机器人任务分配方法[J].机器人,2006,28(3):337-343. 被引量：22
7钟登华,吴康新,练继亮,任炳昱.基于模糊规则的大坝混凝土施工跳仓排序研究[J].系统仿真学报,2008,20(5):1099-1102. 被引量：14
8宋勇,李贻斌,栗春,李彩虹.基于神经网络的移动机器人路径规划方法[J].系统工程与电子技术,2008,30(2):316-319. 被引量：25
9张嵛,刘淑华.多机器人任务分配的研究与进展[J].智能系统学报,2008,3(2):115-120. 被引量：31
10李诗珍,杜文宏.基于聚类分析的订单分批拣货模型及启发式算法[J].统计与决策,2008,24(12):53-56. 被引量：34

引证文献12

1赵永叶,贲树军.学习马尔可夫模型的低秩谱估计算法[J].数学进展,2023,52(4):741-755.
2耿波,邹江.云教学背景下物流运筹学混合式教学改革的探索[J].中国物流与采购,2020(18):57-57. 被引量：1
3马俊,张纪会,郭乙运.基于混合修正策略的随机时间车辆路径优化方法[J].交通运输工程与信息学报,2021,19(4):87-97. 被引量：6
4罗琴凤,贾坤泽,殷允强.灾后人道主义物流运营管理研究综述和展望[J].电子科技大学学报（社科版）,2022,24(1):82-91. 被引量：3
5徐翔斌,马中强.基于移动机器人的拣货系统研究进展[J].自动化学报,2022,48(1):1-20. 被引量：27
6吴泽锐,刘冉,陈晓东,易延洪.数学优化和人工智能助力智能制造生产线--基于上汽大众新能源汽车生产的案例研究[J].工业工程与管理,2021,26(6):208-218. 被引量：7
7赵庶旭,元琳,张占平.多智能体边缘计算任务卸载[J].计算机工程与应用,2022,58(6):177-182. 被引量：2
8贲树军,翁艺鸿.马尔可夫过程的低秩谱估计[J].华南师范大学学报（自然科学版）,2022,54(4):101-108.
9祁玉青,赵兴雷,赵田东杰.考虑框架协议的动态报童模型强化学习建模研究[J].运筹与管理,2022,31(10):105-112.
10李雨情,潘超凡.基于深度强化学习的配件库存决策研究[J].现代计算机,2023,29(11):16-21.

二级引证文献47

1王翯华,姚雨辰.课程思政融入“RPC”三维能力教学改革研究——以物流运筹学课程为例[J].大学（思政教研）,2022(1):104-107. 被引量：3
2董博文,宋君,范玮嘉,孙嘉欣,刘沐涵.基于智能体仿真的货到人拣选系统货架动态布局研究[J].物流工程与管理,2022,44(1):53-55.
3朱玉明.浅析自动仓库货位调度策略[J].机器人产业,2022(3):76-81. 被引量：1
4曹峰,崔少华,荆治家,姚宝珍.面向巡检车与无人机协同电力巡检的车辆路径规划方法[J].交通运输工程与信息学报,2022,20(2):95-104. 被引量：6
5石敏涵,吕红霞,倪少权,吕苗苗.考虑要素协同的高铁列车运行图双层优化模型[J].交通运输工程与信息学报,2022,20(2):125-135. 被引量：6
6郝杰,唐叶剑.基于密度峰值聚类并行麻雀搜索算法的食品机器人路径规划[J].食品与机械,2022,38(6):123-130. 被引量：4
7马俊,张纪会,郭乙运.考虑客户分类的随机时间车辆路径优化模型与算法[J].计算机应用研究,2022,39(7):1979-1984. 被引量：3
8孙阳君,赵宁.多机器人存取系统动态调度方法[J].计算机集成制造系统,2022,28(7):2213-2228. 被引量：2
9李腾,丁佩佩,刘金芳.货到人拣选系统多阶段可穿行多AGV路径规划[J].系统仿真学报,2022,34(7):1512-1523. 被引量：7
10刘艳秋,韩晶.货车搭载多架无人机车辆路径问题模型及算法[J].交通运输工程与信息学报,2022,20(3):102-113. 被引量：5

1孙宝真.仓储管理中加工系统的开发与应用[J].现代信息科技,2020,4(10):5-7.
2徐雨,黄海松,胡涞.一种求解车间调度的混合免疫遗传算法[J].机械设计与制造,2020(9):287-291. 被引量：5

运筹与管理

2020年第5期

浏览历史

内容加载中请稍等...

强化学习在运筹学的应用:研究进展与展望被引量：12

参考文献12

二级参考文献120

共引文献965

同被引文献91

引证文献12

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

强化学习在运筹学的应用:研究进展与展望 被引量：12

参考文献12

二级参考文献120

共引文献965

同被引文献91

引证文献12

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

强化学习在运筹学的应用:研究进展与展望被引量：12