多智能体系统中具有先验知识的Q学习算法被引量：21

Q-learning with prior knowledge in multi-agent systems

导出

摘要为了提高多智能体系统中的典型的强化学习——Q学习的学习效率和收敛速度,充分利用环境信息和相关的专家经验,提出了具有先验知识的Q学习算法。利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行优化。典型的足球机器人系统中的仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于普通的Q学习。 Reinforcement Learning （RL） is an important branch of machine learning and it is unsupervised without specific signals. The learning process adjusts its actions according to external signals from interactions with the environment as a result, the system learning speed is relatively slow. Q-learning is a typical RL method with a slow convergence speed especially as the scales of the state space and the action space increase. An improved Q-learning method using prior knowledge uses fuzzy integrated decision making to process expert knowledge, which optimizes the initial states to give a better learning foundation. Test results on the Robot Soccer system show that the improved Q learning method has a higher learning efficiency and convergence speed.

作者杜春侠高云张文

机构地区中国海洋大学计算机科学系

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2005年第7期981-984,共4页 Journal of Tsinghua University(Science and Technology)

基金山东省自然科学基金资助项目(Y2002G18)

关键词机器学习 Q学习模糊综合决策多智能体系统 machine learning Q-learning fuzzy integrated decision-making multi-agent system

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1唐文彬,朱淼良.基于强化学习的多Agent系统[J].计算机科学,2003,30(4):16-18. 被引量：7
2张淑军,孟庆春,宋长虹,张艳,张文.多智能体系统混合智能学习算法研究[J].哈尔滨工业大学学报,2003,35(9):1083-1085. 被引量：5
3MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..
4张汝波.提高强化学习速度的方法研究[J].计算机工程与应用,2001,37(22):38-40. 被引量：8
5邬昆,杨和礼,龚治国.多属性决策系统的设计与实现[J].武汉化工学院学报,2002,24(2):49-52. 被引量：2
6于功弟.DSS的新决策方法——模糊决策法的应用[J].计算机工程,1993,19(2):20-23. 被引量：2
7李实,徐旭明,叶榛,孙增圻.国际机器人足球比赛及其相关技术[J].机器人,2000,22(5):420-426. 被引量：44

二级参考文献25

1庄晓东,孟庆春,魏天滨,王旭柱,谭锐,李筱菁.Robot path planning in dynamic environment based on reinforcement learning[J].Journal of Harbin Institute of Technology(New Series),2001,8(3):253-255. 被引量：3
2田锡唐.焊接结构[M].北京:机械工业出版社,1981..
3王元良.焊接变形与应用[M].成都:西南交通大学出版社,1990..
4候正礼习振中.工程项目评估模型系统理论与方法[M].科学出版社,1991.96-112.
5刘砚田郭志恭等.工程经济[M].西安:西安交通大学出版社,1998.126-148.
6Watkins C J C H. Learning from Delayed Rewards:[Ph.D.thesis]. Cambridge University, 1989.
7Watkins C J C H. Dayan P. Technical not:Q-learning. Machine Learning, 1992,8:279~292.
8Ohashi T ,et al. State transition rate based reinforcement learning Systems, Man, and Cybernetics. In: 2000 IEEE Intl. Cord.Volume: 1, 2000. 236~241.
9Yamagnchi T,et al. Propagating learned behaviors from a virtual agent to a physical robot in reinforcement learnins, In..Proe. IEEE Int. Conf. on Evolutionary Computation, 1996. 855~859.
10Yamagnchi T,et al. Reinforcement learning for a real robot in a real environment. In: European Conf. on Artificial Intelligence,Aug. 1996. 694~698.

共引文献101

1黄卜夫,熊蓉,周科,吴明光.基于视觉的足球机器人小车系统的设计与实现[J].微电子学,2002,32(6):477-480.
2郭晓军,杨建军,李红卫.Agent仿真中具有先验知识的混合学习算法与混合结构模型[J].海军航空工程学院学报,2007,22(2):247-251.
3胡凌云.世界机器人足球比赛控制模式的分析[J].商丘职业技术学院学报,2003,2(3):4-6.
4张峡,黄团华,赵晓岩.基于遗传算法进行加速器自动调束[J].强激光与粒子束,2004,16(9):1222-1224. 被引量：4
5张辉,张浩,徐征,陆剑峰.基于支持向量机的供应链伙伴企业选择方法的研究[J].计算机集成制造系统,2004,10(7):796-800. 被引量：10
6余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报（自然科学版）,2004,43(5):118-120. 被引量：24
7黄庆成,洪炳镕.全自主足球机器人体系结构的研究[J].微型机与应用,2004,23(10):52-55. 被引量：1
8万铭,余臻,林枢.RoboCup仿真中多Agents的最优局部配合[J].厦门大学学报（自然科学版）,2005,44(1):24-28.
9张永贤.足球机器人视觉子系统的分析与设计[J].科技广场,2004(11):32-33.
10孙微微,刘才兴,田绪红.训练集容量对决策树分类错误率的影响研究[J].计算机工程与应用,2005,41(10):159-161. 被引量：6

同被引文献182

1席斌,王振雷,钱锋.机器视觉工业检测系统的应用与发展[J].控制工程,2006,13(S1):220-222. 被引量：19
2郝宗波,洪炳镕,周彤.基于模糊Q-学习的多智能体协作策略研究[J].哈尔滨工业大学学报,2004,36(7):931-933. 被引量：1
3王迅,金万平,张存林,沈京玲,郭广平,杨党纲,吴东流,李建伟,郭兴旺.红外热波无损检测技术及其进展[J].无损检测,2004,26(10):497-501. 被引量：110
4郭钰锋,徐志强,于达仁,赵婷.考虑调频死区的二次调频控制回路设计[J].中国电机工程学报,2004,24(10):77-81. 被引量：18
5雷英杰,王宝树.基于ANFIS的飞行器自动着陆模糊控制器设计[J].系统仿真学报,2004,16(11):2580-2583. 被引量：7
6罗英伟,汪小林,许卓群.分布式GIS的多Agent系统建模与实现[J].计算机辅助设计与图形学学报,2004,16(12):1730-1737. 被引量：13
7周庆忠,曾慧娥.基于多智能代理的装备动态优化调拨系统研究[J].机械工程学报,2005,41(2):97-101. 被引量：9
8束洪春,唐岚,董俊.多Agent技术在电力系统中的应用展望[J].电网技术,2005,29(6):27-31. 被引量：40
9彭军,吴敏.基于行为预测的多智能体协作模型[J].计算机工程与应用,2005,41(9):23-25. 被引量：8
10倪建军,王建颖,马小平,徐立中,李臣明.一种复杂适应系统仿真的Agent混合结构模型[J].河海大学学报（自然科学版）,2005,33(2):207-211. 被引量：8

引证文献21

1郭晓军,杨建军,李红卫.Agent仿真中具有先验知识的混合学习算法与混合结构模型[J].海军航空工程学院学报,2007,22(2):247-251.
2何涛,白振兴.多智能体系统设计的关键技术研究[J].现代电子技术,2006,29(14):31-34. 被引量：2
3王惠,符策,谢益武,许瑞雪,杨小佳.面向伙伴选择的模糊Markov博弈控制及仿真研究[J].系统仿真学报,2007,19(15):3572-3576. 被引量：1
4韩伟,韩忠愿.基于黑板模型的多智能体合作学习[J].计算机工程,2007,33(22):42-44. 被引量：5
5韩伟.基于边界样本协调的多智能体合作学习[J].模式识别与人工智能,2008,21(1):111-115.
6毛俊杰,刘国栋.基于先验知识的改进强化学习及其在MAS中应用[J].计算机工程与应用,2008,44(24):156-158. 被引量：2
7李红梅,严正.具有先验知识的Q学习算法在AGC中的应用[J].电力系统自动化,2008,32(23):36-40. 被引量：10
8王国磊,钟诗胜,林琳.基于聚类状态隶属度的动态调度Q-学习[J].高技术通讯,2009,19(4):428-433. 被引量：8
9王文玺,肖世德,孟祥印,陈应松,张卫华.基于递阶强化学习的自主机器人路径规划智能体[J].计算机集成制造系统,2009,15(6):1215-1221. 被引量：6
10王文玺,肖世德,孟祥印,陈应松,张卫华.基于Agent的递阶强化学习模型与体系结构[J].机械工程学报,2010,46(2):76-82. 被引量：4

二级引证文献92

1韩伟.基于边界样本协调的多智能体合作学习[J].模式识别与人工智能,2008,21(1):111-115.
2王晓伶,慕德俊,袁源,刘哲元.基于预测机制的MAS协商通信模型[J].计算机科学,2008,35(12):65-68.
3卓峻峰,杨小煜,周京阳,李立新,尚学伟,王赞.基于模糊预测控制的AGC自适应控制器设计[J].中国电机工程学报,2010,30(S1):1-5. 被引量：2
4李红梅,严正.用可再生能源充电的SMES装置在系统调频中的应用[J].电力系统自动化,2009,33(15):94-97. 被引量：10
5孟伟,韩学东.并行强化学习算法及其应用研究[J].计算机工程与应用,2009,45(34):25-28. 被引量：7
6余涛,于文俊,李章文.基于CPS标准的AGC变论域模糊松弛控制方法[J].电力系统自动化,2009,33(23):37-41. 被引量：5
7赵峰,孙曰瑶.R&D联盟合作伙伴的选择与联盟组建的博弈分析[J].情报杂志,2010,29(1):195-199. 被引量：2
8李红梅,严正.强化学习方法在水火混杂AGC系统中的应用[J].电力系统自动化,2010,34(9):39-43. 被引量：3
9李红梅,严正,林一,牛凯.节能调度对大受端电网频率和线损影响的分析[J].电力系统保护与控制,2010,38(20):211-216. 被引量：2
10王云,王俊,韩伟.基于进化算法的多智能体合作学习[J].山东大学学报（工学版）,2010,40(6):8-11. 被引量：1

1刘道欢,白小明,张乐.基于模糊综合决策的任务优先级研究与实现[J].计算机与数字工程,2010,38(4):68-70. 被引量：2
2王宝和.汽轮发电机组在线故障诊断的模糊综合决策[J].机械科学与技术,1995,14(4):83-88.
3关惠玲.对故障诊断系统“并发”故障症兆提取方法的探讨[J].郑州工学院学报,1994,15(2):70-74.
4付克亚,李本威.航空发动机维修模糊综合决策方法[J].航空发动机,2007,33(4):55-58. 被引量：5
5赵军.基于模糊综合决策的计算机入侵检测技术[J].硅谷,2009,2(6).
6林长川,孙腾达,洪爰助,黄丽卿,东昉.雷达与AIS目标航迹模糊关联算法与仿真[J].系统仿真学报,2006,18(z2):903-905. 被引量：14
7刘志明,吴明芬,许勇.一种基于遗传算法的权重的确定方法[J].五邑大学学报（自然科学版）,2006,20(3):45-48. 被引量：10
8柳长安,刘春阳,李国栋.基于模糊综合决策的足球机器人策略子系统[J].哈尔滨工业大学学报,2004,36(7):857-858. 被引量：7
9蒋乾悦,张亚英.基于模糊综合决策的服务器推送方法[J].计算机科学,2014,41(5):86-90. 被引量：8
10熊伟,高峰,王海鹏.系统误差下航迹关联算法[J].火力与指挥控制,2012,37(11):29-32. 被引量：8

清华大学学报（自然科学版）

2005年第7期

浏览历史

内容加载中请稍等...

多智能体系统中具有先验知识的Q学习算法被引量：21

参考文献7

二级参考文献25

共引文献101

同被引文献182

引证文献21

二级引证文献92

相关作者

相关机构

相关主题

浏览历史

多智能体系统中具有先验知识的Q学习算法 被引量：21

参考文献7

二级参考文献25

共引文献101

同被引文献182

引证文献21

二级引证文献92

相关作者

相关机构

相关主题

浏览历史

多智能体系统中具有先验知识的Q学习算法被引量：21