基于强化学习的非玩家角色行为改进被引量：2

Using reinforcement learning to improve NPC intelligence

导出

摘要当前游戏中非玩家角色(Non-player Character,NPC)的行为主要基于随机决策或者传统的预定义行为决策,该方法的NPC不具有对游戏环境的自主学习能力.本文研究的目的是探索将强化学习方法应用于提高游戏NPC智能,使NPC在游戏过程中能实时地学习和适应演进的游戏环境,产生最合适的行为策略来响应玩家.本文提出一种动态训练强化学习的探索率参数方法,并将该方法应用于经典的Bomber Man游戏中.实验结果表明,该方法训练的NPC比非强化学习和传统强化学习训练的NPC具有更高的智能. Traditional non-player character （NPC） strategies are developed mainly based on stochastic decision or predefined behavior decision and these methods lack the capability of automatic learning. The purpose of the research is to exploring the application of reinforcement learning techniques in improving NPC intelligence, i.e. , producing the optimal NPC strategy that enables NPC to learn and adjust itself to game context. Specifically, the authors first presented a method of dynamically training exploration rate of reinforcement learning, and then applied the method into a classical game ＂Bomber＂. The results show that the presented method can obtain better NPC intelligence compared to traditional reinforcement learning methods.

作者李炎武陈渝曾庆维罗程林涛

机构地区四川大学计算机学院四川民族学院计算机学院

出处《四川大学学报（自然科学版）》 CAS CSCD 北大核心 2014年第5期915-920,共6页 Journal of Sichuan University(Natural Science Edition)

基金四川省科技支撑项目(2013GZX0138 2012GZ0091)

关键词游戏智能强化学习非玩家角色 Game intelligence Reinforcement learning NPC

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1Von A L.Games with a purpose[J].Comput,2006,39(6):92.
2Szita I.Reinforcement learning in games[J].Reinforcement Learning,2012,12:539.
3Tesauro G.TD Gammon,a self teaching backgammon program,achieves master level play[J].Neural Comput,1994,6(2):215.
4Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge:MIT press,1998.
5Duan J,Gough N E,Mehdi Q H.Multi-agent reinforcement learning for computer game agents[C]//Proceedings of the 3rd international conference on intelligent games and simulation.London:The University of Wolverhampton,2002:104.
6Galway L, Charles D, Black M, et al. Temporal difference control within a dynamic environment [C]//Proceedings of the 8th international confer- ence on intelligent games and simulation. Italy: The University of Bologna, 2007: 42.
7Wender S,Watson I.Using reinforcement learning for city site selection in the turn-based strategy game Civilization Ⅳ[C]// Proceedings of IEEE Symposium on Computational Intelligence and Games.Perth,Australia:IEEE,2008:372.
8Graepel T,Herbrich R,Gold J.Learning to fight[C]//Proceedings of the International Conference on Computer Games:Artificial Intelligence,Design and Education.Wolverhampton,UK:Microsoft UK,2004.
9Smith M,Lee-Urban S,Mu(n)oz-Avila H.Retaliate:Learning winning policies in first person shooter games[C]// William Cheetham.IAAI'07 Proceedings of the 19th national conference on Innovative applications of artificial intelligence-Volume 2.Vancouver:AAAI Press,2007:1801.
10宋炯,金钊.采用多智能体强化学习的交通信号优化控制[J].制造业自动化,2012,34(17):13-16. 被引量：1

二级参考文献72

1杨晓光,林瑜,杭明升.信号控制交叉口公共汽车优先信号确定方法研究[J].中国公路学报,2001,14(z1):101-104. 被引量：49
2刘海威,黄有方,史建民.基于模糊逻辑的集卡智能全场调度系统[J].中国工程机械学报,2004,2(3):279-284. 被引量：3
3朱元,田光宇,陈全世,吴昊.混合动力汽车能量管理策略的四步骤设计方法[J].机械工程学报,2004,40(8):127-133. 被引量：9
4朱元,孙鸿航,田光宇,周伟波,张涵.燃料电池客车整车控制系统的研究[J].汽车工程,2005,27(2):136-140. 被引量：9
5张鹏,张桂林.马尔可夫随机场在低信噪比图像恢复中的应用[J].计算机与数字工程,2006,34(1):41-43. 被引量：1
6SAS Institute Inc.Base SAS9.0 Procedures Guide. Cary NC: SAS Institute Inc, 2004.
7Bish E K. A Multiple-crane-constrained Scheduling Problem in a Container Terminal[J]. European Journal of Operational Research, 2003,144 : 83-107.
8Bish E K,Chen F Y,Leong Y T,et al. Dispatching Vehicles in a Mega Container Terminal[J]. OR Spectrum,2005,27: 491-506.
9Chen L, Bostel N, Dejax P, et al. A Tabu Search Algorithm for the Integrated Scheduling Problem of Container Handling Systems in a Maritime Terminal[J]. European Journal of Operational Research, 2007,181:40-58.
10Nishimura E, Imai A, Papadimitriou S. Yard Trailer Routing at a Maritime Container Terminalv. Transport Res E , 2005,41 : 53-76.

共引文献466

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7丁仁伟,李振春,孙小东,仝兆岐.CRS叠加优化方法的改进[J].天然气工业,2007,27(S1):113-115.
8陈立华,梅亚东,董雅洁,杨娜.改进遗传算法及其在水库群优化调度中的应用[J].水利学报,2008,39(5):550-556. 被引量：75
9张海军,王春光,郁志宏.在小波域进行基于模拟退火算法的图像阈值分割[J].内蒙古农业大学学报（自然科学版）,2008,29(3):161-164. 被引量：3
10郑朋,周杭霞,於可广.模拟退火算法在线热源反问题数值求解中的应用[J].中国计量学院学报,2010,21(3):246-250. 被引量：6

同被引文献4

1宋骁健.全局游戏策略中基于经验的学习方法[J].计算机应用与软件,2012,29(1):253-256. 被引量：1
2李艳,代佳岳,佟晓磊,王熙照.RTS游戏中用户行为的神经网络预测模型[J].计算机工程与设计,2012,33(2):740-744. 被引量：1
3宫宁生,钱春阳,张媛.一种BP网的学习速率与动量项自适应算法[J].小型微型计算机系统,2013,34(8):1872-1876. 被引量：7
4黄浩晖,杨宛璐,陈玮.基于性能势的A*平均奖赏强化学习算法研究[J].计算机仿真,2014,31(7):338-341. 被引量：2

引证文献2

1刘子正,卢超,张瑞友.基于蒙特卡罗模拟和Z检验的“2048”游戏并行优化算法[J].小型微型计算机系统,2016,37(3):562-566. 被引量：2
2涂浩,刘洪星.一种改进型Q学习算法及其在行为树中的应用[J].计算机应用与软件,2017,34(12):235-239. 被引量：6

二级引证文献8

1赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
2刘瑞峰,王家胜,张灏龙,田梦凡.行为树技术的研究进展与应用[J].计算机与现代化,2020,0(2):76-82. 被引量：14
3刘翠娟,刘箴,柴艳杰,刘婷婷,陈效奕.严肃游戏中虚拟角色行为建模综述[J].中国图象图形学报,2020,25(7):1318-1329. 被引量：4
4刘瑞峰,王家胜,张灏龙,田梦凡.基于行为树的指挥控制流程建模框架[J].科学技术与工程,2020,20(34):14146-14151. 被引量：7
5王亚杰,祁冰枝,张云博,丁傲冬.结合神经网络的改进UCT在国际跳棋中的应用[J].重庆理工大学学报（自然科学）,2021,35(7):259-265. 被引量：5
6章乐贵,陈希亮,曹雷,汤伟.智能蓝军作战行为模型构建技术研究[J].国防科技,2022,43(1):14-20. 被引量：3
7管延霞,刘逊韵,刘运韬,谢旻,徐新海.面向多智能体博弈的并行蒙特卡洛树搜索算法研究[J].计算机工程与科学,2022,44(12):2128-2133. 被引量：3
8刘兆鹏,徐新海,袁博文,张金璐.一种多分辨率仿真模型构建方法[J].系统仿真学报,2023,35(1):202-211.

1贾晓峰,余雪丽,刘燕平.Quake2中NPC智能结构分析及行为改进[J].电脑开发与应用,2009,22(5):31-32. 被引量：1
2李泽安.模糊控制在游戏开发中的应用[J].南通大学学报（自然科学版）,2007,6(3):87-89. 被引量：1
3黄向阳,彭岩,张树东,涂序彦.一个基于情景演算的自主非玩家角色模型研究[J].电子学报,2010,38(5):1221-1225. 被引量：3
4孙晓鹏,邵英安.非玩家角色瞄准算法的设计与实现[J].计算机工程与设计,2010,31(22):4913-4915.
5张仁津,唐翠芳,刘彬.基于人工神经网络游戏程序的研究和设计[J].广西师范大学学报（自然科学版）,2011,29(2):119-124. 被引量：1
6刘英杰.瞄准算法在非玩家角色中的应用[J].商品与质量（消费研究）,2015,0(9):396-396.
7刘克成,陈小玉.一种基于随机决策信息系统的属性约简算法[J].南阳理工学院学报,2012,4(2):1-4.
8黄向阳,尹怡欣,曾广平,涂序彦.一个基于情感的自主非玩家角色模型[J].计算机工程,2006,32(19):31-33. 被引量：4
9朱学伟,殷兆麟.浅谈用BDI模型开发智能NPC游戏角色[J].计算机工程与设计,2007,28(11):2699-2701. 被引量：1
10彭方.智能游戏开发项目研究综述[J].福建电脑,2011,27(6):11-12.

四川大学学报（自然科学版）

2014年第5期

浏览历史

内容加载中请稍等...

基于强化学习的非玩家角色行为改进被引量：2

参考文献20

二级参考文献72

共引文献466

同被引文献4

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于强化学习的非玩家角色行为改进 被引量：2

参考文献20

二级参考文献72

共引文献466

同被引文献4

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于强化学习的非玩家角色行为改进被引量：2