提高强化学习速度的方法研究被引量：8

Research on the Method to Improve Reinforcement Learning Speed

下载PDF

导出

摘要强化学习一词出自于行为心理学,这门学科把学习看作为反复试验的过程,以便把环境的状态映射为动作。强化学习的这种特性必然增加智能系统的困难性,学习时间增长。强化学习学习速度较慢的原因是没有明确的监督信号。因此,强化学习系统在与环境交互时不得不采取反复试验的方法依靠外部评价信号来调整自己的行为。智能系统必然经过很长的学习过程。如何提高强化学习速度是一个最重要的研究问题。该文从几个方面来讨论提高强化学习速度的方法。 The word,reinforcement learning,comes from behavior psychology.This subject takes learning as trial and er-ror process so as to map world state to the actions.This characteristic of reinforcement learning must increase learning difficulty for intelligent system and learning time also grows up.The reason of lower learning speed for reinforcement learning is due to that explicit supervised signal doesn't exist.Therefore reinforcement learning agent has to take trial and error method when interaction with environment and adjusts its behavior by external critic.The agent must experi-ence a long learning process.Thus how reinforcement learning speed is improved is a crucial problem.In this paper,the methods that improve reinforcement learning speed are discussed in many aspects.

作者张汝波

机构地区哈尔滨工程大学计算机系

出处《计算机工程与应用》 CSCD 北大核心 2001年第22期38-40,共3页 Computer Engineering and Applications

基金黑龙江省自然科学基金F9911 国防基础计划项目的资助

关键词强化学习机器学习 Q-学习自适应启发评价方法学习速度 Reinforcement learning,Machine Learning,Q-learning,Adaptive Heuristic Critic Method

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：92

二级参考文献7

1杨璐,洪家荣,黄梯云.用加强学习方法解决基于神经网络的时序实时建模问题[J].哈尔滨工业大学学报,1996,28(4):136-139. 被引量：2
2阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
3俞星星,阎平凡.强化学习系统及其基于可靠度最优的学习算法[J].信息与控制,1997,26(5):332-339. 被引量：3
4马莉,蔡自兴.再励学习控制器结构与算法[J].模式识别与人工智能,1998,11(1):96-100. 被引量：4
5蒋国飞,吴沧浦.基于Q学习算法和BP神经网络的倒立摆控制[J].自动化学报,1998,24(5):662-666. 被引量：55
6张汝波,周宁,顾国昌,张国印.基于强化学习的智能机器人避碰方法研究[J].机器人,1999,21(3):204-209. 被引量：23
7蒋国飞,高慧琪,吴沧浦.Q学习算法中网格离散化方法的收敛性分析[J].控制理论与应用,1999,16(2):194-198. 被引量：9

共引文献91

1李徐,张帆.受强化学习思想启发的一种结构优化算法[J].智能计算机与应用,2022,12(5):136-140. 被引量：1
2孙方平,符秀辉.复杂环境下机器人的行为学习研究[J].仪器仪表学报,2006,27(z3):1982-1983. 被引量：2
3朱伟一.格林斯潘斗不过经济规律[J].南风窗,2002(24):61-61.
4闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：56
5蒋伟进,许宇胜,孙星明,许宇晖.多智能体的分布式智能故障诊断[J].控制理论与应用,2004,21(6):945-950. 被引量：22
6张驰,韩光胜.改进的模糊Q学习方法及其在RoboCup中的应用[J].计算机仿真,2005,22(5):189-192. 被引量：2
7刘钊,陈建勋.基于自适应遗传算法的足球机器人策略设计[J].哈尔滨工业大学学报,2005,37(7):912-913. 被引量：4
8任燚,陈宗海.自主移动机器人中基于强化学习的噪声消解策略(英文)[J].系统仿真学报,2005,17(7):1699-1703.
9柳在鑫,王进戈,王强.基于Q学习与CBL结合的机器人足球行为学习研究[J].西华大学学报（自然科学版）,2005,24(4):58-60. 被引量：2
10张汝波,施洋.基于模糊Q学习的多机器人系统研究[J].哈尔滨工程大学学报,2005,26(4):477-481. 被引量：4

同被引文献49

1叶菲,罗景青,俞志富.一种改进的并行处理SVM学习算法[J].微电子学与计算机,2009,26(2):40-43. 被引量：6
2于功弟.DSS的新决策方法——模糊决策法的应用[J].计算机工程,1993,19(2):20-23. 被引量：2
3王飞,王志良,赵积春,程宁.基于随机事件处理的情感建模研究[J].微计算机信息,2005,21(3):101-102. 被引量：6
4魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：13
5童亮,陆际联,龚建伟.一种快速强化学习方法研究[J].北京理工大学学报,2005,25(4):328-331. 被引量：4
6林明,朱纪洪,孙增圻.固定长度经验回放对Q学习效率的影响[J].计算机工程,2006,32(6):7-10. 被引量：1
7王志良.人工心理与人工情感[J].智能系统学报,2006,1(1):38-43. 被引量：35
8王国江,王志良,杨国亮,王玉洁,陈锋军.人工情感研究综述[J].计算机应用研究,2006,23(11):7-11. 被引量：24
9宋清昆,胡子婴.基于经验知识的Q-学习算法[J].自动化技术与应用,2006,25(11):10-12. 被引量：7
10郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13

引证文献8

1杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
2宋清昆,胡子婴.基于经验知识的Q-学习算法[J].自动化技术与应用,2006,25(11):10-12. 被引量：7
3张云,刘建平.Q学习的改进研究及其仿真实验[J].计算机仿真,2007,24(10):111-114. 被引量：3
4战忠丽,王强,王佩霞.多Agent系统中Q学习算法研究[J].辽宁农业职业技术学院学报,2008,10(5):48-50.
5孟伟,韩学东.并行强化学习算法及其应用研究[J].计算机工程与应用,2009,45(34):25-28. 被引量：7
6连志刚,高叶军,焦斌.基于学习算法的离散型制造业生产能力平衡技术[J].安徽大学学报（自然科学版）,2013,37(2):19-24.
7谷学静,高贝贝,朱朝月.基于人工情感的Q-学习算法在机器人行为决策中的应用[J].自动化与仪表,2015,30(7):13-16. 被引量：5
8吴昊霖,蔡乐才,高祥.在线更新的信息强度引导启发式Q学习[J].计算机应用研究,2018,35(8):2323-2327. 被引量：4

二级引证文献45

1郭晓军,杨建军,李红卫.Agent仿真中具有先验知识的混合学习算法与混合结构模型[J].海军航空工程学院学报,2007,22(2):247-251.
2宋炯,金钊,杨维和.机器学习中加速强化学习的一种函数方法[J].云南大学学报（自然科学版）,2011,33(S2):176-181.
3何涛,白振兴.多智能体系统设计的关键技术研究[J].现代电子技术,2006,29(14):31-34. 被引量：2
4王惠,符策,谢益武,许瑞雪,杨小佳.面向伙伴选择的模糊Markov博弈控制及仿真研究[J].系统仿真学报,2007,19(15):3572-3576. 被引量：1
5韩伟,韩忠愿.基于黑板模型的多智能体合作学习[J].计算机工程,2007,33(22):42-44. 被引量：5
6韩伟.基于边界样本协调的多智能体合作学习[J].模式识别与人工智能,2008,21(1):111-115.
7毛俊杰,刘国栋.基于先验知识的改进强化学习及其在MAS中应用[J].计算机工程与应用,2008,44(24):156-158. 被引量：2
8李红梅,严正.具有先验知识的Q学习算法在AGC中的应用[J].电力系统自动化,2008,32(23):36-40. 被引量：10
9王国磊,钟诗胜,林琳.基于聚类状态隶属度的动态调度Q-学习[J].高技术通讯,2009,19(4):428-433. 被引量：8
10孟祥萍,王圣镔,王欣欣.多Agent Q学习几点问题的研究及改进[J].计算机工程与设计,2009,30(9):2274-2276. 被引量：5

1张汝波,杨广铭,顾国昌,张国印.Q-学习及其在智能机器人局部路径规划中的应用研究[J].计算机研究与发展,1999,36(12):1430-1436. 被引量：17
2李伟,何雪松,叶庆泰,朱昌明.基于先验知识的强化学习系统[J].上海交通大学学报,2004,38(8):1362-1365. 被引量：5
3孙羽,张汝波,徐东.强化学习中资格迹的作用[J].计算机工程,2002,28(5):128-129. 被引量：1
4张汝波,顾国昌,张国印.强化学习系统的结构及算法[J].计算机科学,1999,26(10):53-56. 被引量：2
5张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：92
6王雪松,田西兰,程玉虎,马小平.最小二乘支持向量机在强化学习系统中的应用[J].系统仿真学报,2008,20(14):3702-3706. 被引量：3
7陈志明,崔宝同.数据包丢失的无线网络控制系统的故障检测[J].计算机技术与发展,2012,22(11):61-64. 被引量：1
8宫静思.浅析设计中行为心理学的应用——以人种学访谈为例[J].艺术科技,2016,29(2):235-235.
9李文超,严洪森.一类类Job-shop结构的知识化制造单元多目标调度自进化算法[J].机械工程学报,2014,50(8):156-164. 被引量：2
10马莉,蔡自兴.基于强化学习的模糊自适应控制器[J].中南工业大学学报,1998,29(2):172-175. 被引量：1

计算机工程与应用

2001年第22期

浏览历史

内容加载中请稍等...

提高强化学习速度的方法研究被引量：8

参考文献1

二级参考文献7

共引文献91

同被引文献49

引证文献8

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

提高强化学习速度的方法研究 被引量：8

参考文献1

二级参考文献7

共引文献91

同被引文献49

引证文献8

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

提高强化学习速度的方法研究被引量：8