TD-BP强化学习算法在五子棋博弈系统中的应用被引量：3

Applications of TD-BP Algorithm in Renju Game System

下载PDF

导出

摘要局面估值的准确性是决定棋类游戏水平高低的一个重要因素。针对使用静态估值函数的不足,提出了TD-BP强化学习算法,结合博弈中常用的极小极大搜索算法和经过历史启发增强的PVS搜索算法,实现了一种自适应性较强的五子棋自学习程序。实验结果表明,使用该算法的程序经过较短时间的训练后达到了较好的下棋水平. The accuracy of the valuations is one of the important factors which decide the chess games＇ level.For the fact that static valuations function is rarely used,reinforcement learning algorithm of TD-algorithm combined with BP neural network is proposed.Based on common mini-max search algorithm and PVS search algorithm enhanced by history heuristic,the self-study ability of Renju Game program is realized.Experimental results showed this method of the program achieves a good chess level after a short time training.

作者宫瑞敏吕艳辉

机构地区沈阳理工大学信息科学与工程学院

出处《沈阳理工大学学报》 CAS 2010年第4期30-32,37,共4页 Journal of Shenyang Ligong University

关键词 TD算法 BP神经网络估值函数 PVS算法 TD algorithm BP neural network valuations function PVS algorithm

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1Richard Sutton.TD-Gammon[EB/OL].http://www-anw.cs.umass.edu/index.shtml.
2Tesauro G.Practical issues in temporal difference learning[J].Machine Learning,1992,8(3-4):257-277.
3Mannen H,Wiering M.Learning to Play Chess Using TD(λ)-Learning With Database Games[C].Proceedings of the Thirteenth Belgian-Dutch Conference on Machine Learning,Benelearn,2004.
4Sutton R S.Learning to predict by the method of temporal difference[J].Machine Learning,1988,(3):9-44.
5Jonathan Schaeffer.The history heuristic and alpha-beta search enhancements in practice[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1989,11(11):1203-1212.
6张明亮,李凡长.一种新的博弈树搜索方法[J].山东大学学报（工学版）,2009,39(6):1-7. 被引量：8

二级参考文献22

1KNUTH D E, MOORE R W. An analysis of alpha-beta pruning [J]. Artificial Intelligence, 1975, 6(4):293-326.
2KJELDSEN T H. John von Neumann' s conception of the minimax theorem: a journey through different mathematical contexts[J]. Archive for History of Exact Sciences, 2001, 56(1):39-68.
3SLAGLE J R, DIXON J K. Experiment with some programs that search game trees [J]. Journal of the ACM, 1969, 16 (2) : 189-207.
4FINKEL R A, FISHBUILN J, LAWLESS S A. Parallel alpha- beta search on Arachne[C]// 1EEE International Conference on Parallel Processing.[S.l. ] :IEEE Press, 1980:235-243.
5PEARL J. Asymptotic properties of minimax trees and game searching procedures[J]. Artificial Intelligence, 1980, 14(2) : 113-138.
6PEARL J. Scout: a simple game-searching algorithm with proven optimal properties [J]. Proceedings of the First Annual National Conference on Artificial Intelligence. Stanford: [ s. n. ], 1980: 143-145.
7MARSLAND T A, CAMPBELL M. Parallel search of strongly ordered game trees [J]. Computing Surveys, 1982, 14(4): 533-551.
8PLAAT A, SCHAEFFER J, PIJLS W, et al. A new paradigm for minimax search, technical report TR-CS-94-18[R]. Edmonton, Alberta, Canada: University of Alberta, 1994.
9PLAAT A, SCHAEFFER J, PILS W, et al. Best-first fixeddepth minimax algorithms[J]. Artificial Intelligence, 1996, 87 (1-2) : 255-293.
10ATKIN L, SLATE D. Chess 4.5 -- the northwestern university chess program [ C]// Chess Skill in Man and Machine. New York: Springer-Verlass, 1977 : 82-118.

共引文献7

1陈胜利,李俊奎,刘小东.Mintegration:一种针对大规模数据的并发数据集成方案[J].山东大学学报（工学版）,2010,40(4):153-158.
2张明亮,吴俊,李凡长.极小树叶结点数定理的补充证明及有关分析[J].模式识别与人工智能,2011,24(4):521-526. 被引量：3
3张明亮,吴俊,李凡长.五子棋机器博弈系统评估函数的设计[J].计算机应用,2012,32(7):1969-1972. 被引量：9
4张宏兵,陆建峰,汤九斌.一种基于近似EMD的DBSCAN改进算法[J].山东大学学报（工学版）,2012,42(4):35-40. 被引量：5
5郑昌松,贾丽娟,权贺,王彪.基于西洋跳棋的博弈程序研究[J].哈尔滨理工大学学报,2016,21(3):24-28. 被引量：6
6王亚杰,邱虹坤,吴燕燕,李飞,杨周凤.计算机博弈的研究与发展[J].智能系统学报,2016,11(6):788-798. 被引量：30
7陈雪健,张利群,曹杨.实现不围棋博弈程序的一种策略及关键算法[J].现代计算机,2020,26(22):9-13.

同被引文献24

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
2陈宁,王永骥,程磊.基于多智能体通讯机制的多机器人编队系统[J].计算机工程与应用,2005,41(3):52-54. 被引量：2
3黄炳强,曹广益,王占全.强化学习原理、算法及应用[J].河北工业大学学报,2006,35(6):34-38. 被引量：19
4孙亮,张永强,杜在林.多智能体通信模型研究[J].河北工业科技,2009,26(2):98-101. 被引量：3
5段勇,崔宝侠,徐心和.多智能体强化学习及其在足球机器人角色分配中的应用[J].控制理论与应用,2009,26(4):371-376. 被引量：26
6刘春阳,谭应清,柳长安,马莹巍.多智能体强化学习在足球机器人中的研究与应用[J].电子学报,2010,38(8):1958-1962. 被引量：19
7郑延斌,郭凌云,刘晶晶.多智能体系统分散式通信决策研究[J].计算机应用,2012,32(10):2875-2878. 被引量：3
8罗青,李智军,吕恬生.复杂环境中的多智能体强化学习[J].上海交通大学学报,2002,36(3):302-305. 被引量：9
9陈兴国,俞扬.强化学习及其在电脑围棋中的应用[J].自动化学报,2016,42(5):685-695. 被引量：32
10郑昌松,贾丽娟,权贺,王彪.基于西洋跳棋的博弈程序研究[J].哈尔滨理工大学学报,2016,21(3):24-28. 被引量：6

引证文献3

1丁锦钰.基于神经网络和强化学习的西洋跳棋评估算法[J].电子制作,2019,27(4):45-46.
2段昶,陈亮,耿俊香.一种集群通信的多智能体强化学习算法[J].沈阳理工大学学报,2021,40(4):11-17.
3耿俊香,姜静,魏胜楠,段昶.CIDDPG的多智能体通信优化方法研究[J].沈阳理工大学学报,2021,40(4):29-34. 被引量：1

二级引证文献1

1吕相霖,臧兆祥,李思博,王俊英.基于注意力的循环PPO算法及其应用[J].计算机技术与发展,2024,34(1):136-142.

1陈功,周谊成,王辉.基于强化学习TD算法的乒乓游戏击球策略优化[J].电脑知识与技术,2011,7(10):6926-6927.
2许南山,丛磊,孙风平.并行实现有自学习能力的五子棋AI[J].计算机工程与应用,2006,42(30):45-47. 被引量：4
3专为电竞而生优派VG2401mh[J].计算机应用文摘,2015,0(2):59-59.
4田东.超值游戏键鼠套装——多彩魔剑高手[J].微型计算机,2006(25):6-6.
5王旭.逼真的DirectX 10[J].个人电脑,2007,13(5):174-175.
6邹竞,马华,谢鲲.一种基于OpenMP的并行混合PVS算法[J].计算机应用研究,2016,33(1):56-59. 被引量：3
7朱龙梅.浅论人工智能启发式搜索策略的研究[J].电子设计工程,2013,21(16):61-64. 被引量：5
8黄炳强,曹广益,王占全.强化学习原理、算法及应用[J].河北工业大学学报,2006,35(6):34-38. 被引量：19
9邢森.五子棋智能博弈的研究与设计[J].电脑知识与技术,2010,6(5):3497-3498. 被引量：2
10猎者.略道.几招教你变成小游戏达人[J].电脑迷,2010(24):17-17.

沈阳理工大学学报

2010年第4期

浏览历史

内容加载中请稍等...

TD-BP强化学习算法在五子棋博弈系统中的应用被引量：3

参考文献6

二级参考文献22

共引文献7

同被引文献24

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

TD-BP强化学习算法在五子棋博弈系统中的应用 被引量：3

参考文献6

二级参考文献22

共引文献7

同被引文献24

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

TD-BP强化学习算法在五子棋博弈系统中的应用被引量：3