深度强化学习综述:兼论计算机围棋的发展被引量：131

Review of deep reinforcement learning and discussions on the development of computer Go

下载PDF

导出

摘要深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法.自提出以来,深度强化学习在理论和应用方面均取得了显著的成果.尤其是谷歌深智(Deep Mind)团队基于深度强化学习方法研发的计算机围棋"初弈号–Alpha Go",在2016年3月以4:1的大比分战胜了世界围棋顶级选手李世石(Lee Sedol),成为人工智能历史上一个新里程碑.为此,本文综述深度强化学习的发展历程,兼论计算机围棋的历史,分析算法特性,探讨未来的发展趋势和应用前景,期望能为控制理论与应用新方向的发展提供有价值的参考. Deep reinforcement learning which incorporates both the advantages of the perception of deep learning and the decision making of reinforcement learning is able to output control signal directly based on input images. This mechanism makes the artificial intelligence much close to human thinking modes. Deep reinforcement learning has achieved remarkable success in terms of theory and application since it is proposed. ‘Chuyihao–Alpha Go＇, a computer Go developed by Google Deep Mind, based on deep reinforcement learning, beat the world＇s top Go player Lee Sedol 4：1 in March2016. This becomes a new milestone in artificial intelligence history. This paper surveys the development course of deep reinforcement learning, reviews the history of computer Go concurrently, analyzes the algorithms features, and discusses the research directions and application areas, in order to provide a valuable reference to the development of control theory and applications in a new direction.

作者赵冬斌邵坤朱圆恒李栋陈亚冉王海涛刘德荣周彤王成红

机构地区中国科学院自动化研究所复杂系统管理与控制国家重点实验室北京科技大学自动化学院清华大学自动化系国家自然科学基金委信息科学部

出处《控制理论与应用》 EI CAS CSCD 北大核心 2016年第6期701-717,共17页 Control Theory & Applications

基金国家自然科学基金项目(61273136 61573353 61533017)~~

关键词深度强化学习初弈号深度学习强化学习人工智能 deep reinforcement learning AlphaGo deep learning reinforcement learning artificial intelligence

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献120

1MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-levelcontrol through deep reinforcement learning [J]. Nature, 2015,518(7540): 529 – 533.
2SILVER D, HUANG A, MADDISON C, et al. Mastering the gameof Go with deep neural networks and tree search [J]. Nature, 2016,529(7587): 484 – 489.
3AREL I. Deep reinforcement learning as foundation for artificialgeneral intelligence [M] //Theoretical Foundations of Artificial GeneralIntelligence. Amsterdam: Atlantis Press, 2012: 89 – 102.
4TEAAURO G. TD-Gammon, a self-teaching backgammon program,achieves master-level play [J]. Neural Computation, 1994,6(2): 215 – 219.
5SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge MA: MIT Press, 1998.
6KEARNS M, SINGH S. Near-optimal reinforcement learning inpolynomial time [J]. Machine Learning, 2002, 49(2/3): 209 – 232.
7KOCSIS L, SZEPESVARI C. Bandit based Monte-Carlo planning[C] //Proceedings of the European Conference on MachineLearning. Berlin: Springer, 2006: 282 – 293.
8LITTMAN M L. Reinforcement learning improves behaviour fromevaluative feedback [J]. Nature, 2015, 521(7553): 445 – 451.
9BELLMAN R. Dynamic programming and Lagrange multipliers[J]. Proceedings of the National Academy of Sciences, 1956,42(10): 767 – 769.
10WERBOS P J. Advanced forecasting methods for global crisis warningand models of intelligence [J]. General Systems Yearbook, 1977,22(12): 25 – 38.

二级参考文献88

1王皓,高阳.元博弈平衡和多Agent强化学习的MetaQ算法[J].计算机研究与发展,2006,43(z1):137-141. 被引量：2
2范波,潘泉,张洪才.基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用[J].机器人,2005,27(1):46-51. 被引量：5
3任燚,陈宗海.基于强化学习算法的多机器人系统的冲突消解策略[J].控制与决策,2006,21(4):430-434. 被引量：7
4周浦城,洪炳镕,黄庆成.一种新颖的多agent强化学习方法[J].电子学报,2006,34(8):1488-1491. 被引量：8
5郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
6JIANG Da-Wei WANG Shi-Yuan DONG Yi-Sheng.Role-based Context-specific Multiagent Q-learning[J].自动化学报,2007,33(6):583-587. 被引量：1
7赵杰,姜健,臧希喆.基于强化学习的多机器人编队导航[J].辽宁工程技术大学学报（自然科学版）,2007,26(6):915-918. 被引量：1
8Silver D, Huang A, Maddison C J, Guez A, Sifre L, van den Driessche G, Schrittwieser J, Antonoglou I, Panneershelvam V, Lanctot M, Dieleman S, Grewe D, Nham J, Kalchbren- ner N, Sutskever I, Lillicrap T, Leach M, Kavukcuoglu K, Graepel T, Hassabis D. Mastering the game of go with deep neural networks and tree search. Nature, 2016, 529(7587): 484-489.
9Tian Y D, Zhu Y. Better computer go player with neural network and long-term prediction. In: International Confer- ence on Learning Representation (ICLR). San Juan, Puerto Rico, 2016.
10Werbos P. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences [Ph.D. dissertation], Harvard University, USA, 1974.

共引文献337

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
3安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
4丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
5王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
6马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
7赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
8周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
9卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
10魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19

同被引文献864

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：45
2李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：21
3LUCAS Simon,沈甜雨,王晓,张杰.基于统计前向规划算法的游戏通用人工智能[J].智能科学与技术学报,2019,0(3):219-227. 被引量：5
4王亚杰,王晓岩,邱虹坤,李飞.建设棋牌谱标准构建计算机博弈竞赛持续发展新生态[J].实验技术与管理,2020,37(2):19-23. 被引量：3
5杨奇光.技术可供性“改造”客观性:数字新闻学的话语重构[J].南京社会科学,2021(5):118-127. 被引量：28
6Liting Tian,Lin Cheng,Jianbo Guo,Kuihua Wu.System Modeling and Optimal Dispatching of Multi-energy Microgrid with Energy Storage[J].Journal of Modern Power Systems and Clean Energy,2020,8(5):809-819. 被引量：8
7李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：13
8Lisha CUI,Rui MA,Pei LV,Xiaoheng JIANG,Zhimin GAO,Bing ZHOU,Mingliang XU.MDSSD:multi-scale deconvolutional single shot detector for small objects[J].Science China(Information Sciences),2020,63(2):98-100. 被引量：18
9李宪强,马戎,张伸,侯砚泽,裴毅飞.蚁群算法的改进设计及在航迹规划中的应用[J].航空学报,2020(S02):213-219. 被引量：33
10董一群,艾剑良.自主空战技术中的机动决策:进展与展望[J].航空学报,2020(S02):4-12. 被引量：12

引证文献131

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：45
2舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
3程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：119
4张董,游福成,王惠华,姜超,李明.受限制Boltzmann机深度置信网络与手写数字识别[J].北京印刷学院学报,2016,24(4):56-58. 被引量：4
5侯宇青阳,全吉成,王宏伟.深度学习发展综述[J].舰船电子工程,2017,37(4):5-9. 被引量：39
6王奇,秦进.基于动作空间划分的MAXQ自动分层方法[J].计算机应用,2017,37(5):1357-1362.
7石征锦,王康.深度强化学习在Atari视频游戏上的应用[J].电子世界,2017,0(16):105-106. 被引量：3
8刘勇,李青,于翠波.深度学习技术教育应用:现状和前景[J].开放教育研究,2017,23(5):113-120. 被引量：42
9陈希亮,张永亮.基于深度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,31(3):20-27. 被引量：23
10温暖,刘正华,祝令谱,孙扬.深度强化学习在变体飞行器自主外形优化中的应用[J].宇航学报,2017,38(11):1153-1159. 被引量：18

二级引证文献1505

1刘莹莹,王占山.异构多智能体系统的输出同步:一个基于数据的强化学习方法[J].智能科学与技术学报,2020(4):394-400. 被引量：2
2宿帅,朱擎阳,魏庆来,唐涛,阴佳腾.基于DQN的列车节能驾驶控制方法[J].智能科学与技术学报,2020(4):372-384. 被引量：3
3傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
4李涛,魏庆来.基于深度强化学习的智能暖气温度控制系统[J].智能科学与技术学报,2020,2(4):348-353. 被引量：4
5刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：45
6赵健,宋东鉴,朱冰,刘斌,陈志成,张培兴.基于自学习和监督学习混合驱动的智能汽车跟驰控制策略[J].中国公路学报,2022,35(3):55-65. 被引量：4
7程乐峰,杨汝,刘贵云,王建晖,陈洋,王晓刚,张杰,余涛.多群体非对称演化博弈动力学及其在智能电网电力需求侧响应中的应用[J].中国电机工程学报,2020,40(S01):20-36. 被引量：24
8黎兰豪崎,陈世云,向泓宇,王振威,潘楠.深度学习视角下的航空飞行器故障自助检测分析[J].冶金管理,2021(1):74-75.
9姚红革,王诚,喻钧,白小军,李蔚.复杂卫星图像中的小目标船舶识别[J].遥感学报,2020,24(2):116-125. 被引量：16
10张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.

1王光明,钱宁芳.数据库模型智能化构造[J].哈尔滨商业大学学报（自然科学版）,1992,12(4):27-34.
2杜建凤,李琳,宋俊德.模糊事例推理的实现与应用[J].北京邮电大学学报,2001,24(1):96-98.
3陈懋.大数据分析中“云安全”的系统设计研究[J].赤峰学院学报（自然科学版）,2016,32(24):19-20. 被引量：2
4陈翰馥,程代展.求索在控制理论与应用的创新路上[J].控制理论与应用,2004,21(6):852-854.
5李卫忠.智慧政府——大数据治国时代的来临[J].中国信息界,2014(6):95-96. 被引量：1
6李勇.控制理论和挠性航天器控制技术的一些新进展[J].航天出国考察技术报告,1997(1):184-190.
7杨立波.模糊控制系统稳定性研究[J].科技致富向导,2012(29):75-75. 被引量：1
8杨丽彬,李海林.基于云模型定性规则推理的分类方法[J].计算机时代,2011(3):4-6. 被引量：1
9自动测试及其系统[J].电子科技文摘,2002,0(6):87-89.
10控制理论与应用（中文刊）Journal of Control Theory and Applications（英文刊）[J].智能系统学报,2012,7(5):428-428.

控制理论与应用

2016年第6期

浏览历史

内容加载中请稍等...

深度强化学习综述:兼论计算机围棋的发展被引量：131

参考文献120

二级参考文献88

共引文献337

同被引文献864

引证文献131

二级引证文献1505

相关作者

相关机构

相关主题

浏览历史

深度强化学习综述:兼论计算机围棋的发展 被引量：131

参考文献120

二级参考文献88

共引文献337

同被引文献864

引证文献131

二级引证文献1505

相关作者

相关机构

相关主题

浏览历史

深度强化学习综述:兼论计算机围棋的发展被引量：131