基于π演算的足球机器人协作Q学习方法被引量：4

Cooperative Q learning method based on π calculus in robot soccer

下载PDF

导出

摘要针对多机器人协作学习时出现的学习速度慢、学习效率低等问题,提出了一种基于π演算心智模型的足球机器人协作Q学习方法,描述了机器人的运动模型,定义了球场现状、目标、意图、行为、协作、请求、扩展知识、能力判断和联合意图等机器人心智状态,构造了联合奖励函数。最后通过实验验证了方法的有效性。 Concerning the low speed and low efficiency of learning in robot soccer when cooperating between muhirobots, a cooperative Q learning method based on the mental model of π calculus was proposed, in which the mental states were defined as the field state, goal, intention, action, cooperation, request, expanding knowledge, capability judging and connected intention, etc, and the combinational reward function was constructed. The validity of method was verified through experiments.

作者柯文德朴松昊彭志平蔡则苏苑全德

机构地区广东石油化工学院计算机科学与技术系哈尔滨工业大学计算机科学与技术学院

出处《计算机应用》 CSCD 北大核心 2011年第3期654-656,669,共4页 journal of Computer Applications

基金广东高校优秀青年创新人才培育项目(201180) 国家863计划项目(2007AA041603 2006AA040202) 国家自然科学基金资助项目(60905047 61075076 61075077) 国家重点实验室项目(SKLRS200902C) 广东省自然科学基金资助项目(8152500002000003)

关键词多机器人协作 Q学习心智状态 multi-robot cooperation Q learning mental state

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献12

1石志国,王志良,刘冀伟,张晓星.基于周期时间限制的多机器人自主委托协作模型[J].机器人,2010,32(1):109-118. 被引量：6
2高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268
3郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
4曹卫华,徐凌云,吴敏.模糊Q学习的足球机器人双层协作模型[J].智能系统学报,2008,3(3):234-238. 被引量：4
5朴松昊,孙立宁,钟秋波,黄庆成.动态环境下的多智能体机器人协作模型[J].华中科技大学学报（自然科学版）,2008,36(S1):39-41. 被引量：6
6于振华,蔡远利,徐海平.基于π网的多Agent系统建模与分析[J].系统工程理论与实践,2007,27(7):77-84. 被引量：3
7HARMATI I, SKRZYPCZYK K. Robot team coordination for target tracking using fuzzy logic controller in game theoretic framework [J]. Robotics and Autonomous Systems, 2009, 57(1): 75 -86.
8杨鲲,翟永顺,刘大有.Agent:特性与分类[J].计算机科学,1999,26(9):30-34. 被引量：62
9陈为雄,李振龙.基于BDI模型的多机器人智能体系统设计[J].机器人,2004,26(4):310-313. 被引量：2
10康辉,曾莹莹,刘志勇.基于PI-演算的移动通信服务研究与建模[J].通信学报,2009,30(4):11-16. 被引量：3

二级参考文献92

1廖军,谭浩,刘锦德.基于Pi-演算的Web服务可替换性验证[J].华中科技大学学报（自然科学版）,2005,33(z1):168-171. 被引量：8
2于振华,蔡远利.基于面向对象Petri网的软件体系结构描述语言[J].西安交通大学学报,2004,38(12):1236-1239. 被引量：10
3马晓星,余萍,陶先平,吕建.一种面向服务的动态协同架构及其支撑平台[J].计算机学报,2005,28(4):467-477. 被引量：80
4廖军,谭浩,刘锦德.基于Pi-演算的Web服务组合的描述和验证[J].计算机学报,2005,28(4):635-643. 被引量：107
5郭小群,郝克刚.Web服务的Pi演算描述[J].计算机科学,2006,33(3):261-262. 被引量：8
6祖丽楠,田彦涛,梅昊.大规模多移动机器人合作任务的分布自主协作系统[J].机器人,2006,28(5):470-477. 被引量：13
7罗杰,段建民,陈建新.一种引入局部交互的群体协作行为协同进化机制[J].机器人,2007,29(4):313-319. 被引量：4
8MILNER R. The Polyadic PI-calculus: a tutorial[EB/OL], http://citeseer. ist.psu.edu/19489.html, 1991.
9MILNER R. Action structures for the PI-calculus[EB/OL]. http://citeseer. ist.psu.edu/53501.html, 1993.
10CATTANI G L, STARK I, WINSKEL G. Presheaf Models for the PI-Calculus[R]. BRICS, Department of Computer Science, University of Aarhus, Denmark, 1997.

共引文献488

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7孙中红.一个基于Multi-agent理论的个性化计算机导师系统[J].鲁东大学学报（自然科学版）,2008,24(1):34-37.
8康辉,苑森淼,蒋峰,付玉.基于PI-演算的移动通信过程建模[J].吉林大学学报（工学版）,2008,38(S2):191-197.
9蔡丽,童敏明.基于多Agent技术的煤矿安全生产执行系统设计[J].煤炭科学技术,2009,37(3):90-92. 被引量：5
10赵艳,冀亚丽,许德刚.基于移动Agent的粮食物流决策支持系统[J].光盘技术,2007(1):13-15. 被引量：1

同被引文献52

1朴松昊,孙立宁,钟秋波,黄庆成.动态环境下的多智能体机器人协作模型[J].华中科技大学学报（自然科学版）,2008,36(S1):39-41. 被引量：6
2王湘中,喻寿益,龙永红.机器人足球赛中队员角色的动态分配策略[J].哈尔滨工业大学学报,2004,36(7):943-945. 被引量：9
3郭庆,陈纯.基于整合效用的多议题协商优化[J].软件学报,2004,15(5):706-711. 被引量：27
4顾晓锋,张代远.机器人足球比赛截球策略设计[J].计算机应用,2005,25(8):1858-1860. 被引量：8
5刘淑华,田彦涛,刘金芳.扩展KQML在多移动机器人仿真系统中的应用[J].吉林大学学报（信息科学版）,2005,23(5):500-505. 被引量：3
6彭志平,彭宏,郑启伦.一种双边多议题自治协商模型的研究[J].电子与信息学报,2007,29(3):733-738. 被引量：12
7郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
8李超明,苏开乐.一个基于智能的MAS模型及其方法论[J].计算机研究与发展,2007,44(6):980-989. 被引量：5
9于振华,蔡远利,徐海平.基于π网的多Agent系统建模与分析[J].系统工程理论与实践,2007,27(7):77-84. 被引量：3
10张波,蔡庆生,陈小平,等.基于智能体团队的RoboCup仿真球队[C]//Proceedings of the 3rd World Congress on Intelligent Control and Automation, Hefei, China, 2000.

引证文献4

1肖权,孔峰,谢广明.基于动态角色的多机器鱼协作顶球研究[J].机械设计,2012,29(7):24-28. 被引量：1
2柯文德,彭志平,陈珂,蔡则苏.新的多移动机器人任务协商模型[J].计算机应用,2013,33(2):346-349.
3柯文德,洪炳镕,崔刚,蔡则苏.一种基于π-MaxQ学习的多机器人协作方法[J].智能计算机与应用,2013,3(3):14-17. 被引量：2
4赵发君,李龙澍.基于多Agent Q学习的RoboCup局部配合策略[J].计算机工程与应用,2014,50(23):127-130. 被引量：2

二级引证文献5

1马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：14
2季峰,陈飞.基于CAS理论的应急预案仿真系统的研究[J].计算机与数字工程,2015,43(5):817-820. 被引量：3
3李连鹏,苏中,解迎刚,刘福朝.基于遗传算法的机器鱼水中路径规划[J].兵工自动化,2015,34(12):93-96. 被引量：12
4赵辉,刘雅喆.改进的Q学习算法在轨迹规划中的应用[J].吉林大学学报（信息科学版）,2016,34(5):697-702. 被引量：2
5王祎,葛静怡,薛昕惟,王胜法,李凤岐.改进Q学习的薄壁结构3D打印路径规划[J].计算机工程与应用,2022,58(12):299-303. 被引量：9

1雷小建.实用工业产品设计[J].新技术新工艺,2012(5):41-43.
2张树东,曹元大,廖乐健.网格环境下的资源信用模型[J].北京理工大学学报,2004,24(11):971-973. 被引量：2
3黄玉婷.掌上电子图书馆的设计[J].信息通信,2016,29(4):122-123.
4吕彬,冀小平.激光测距传感器在车辆宽高检测中的应用[J].传感器与微系统,2014,33(12):152-154. 被引量：7
5罗贺,胡笑旋,胡小建.基于联合意图的网格资源分配模型[J].东南大学学报（自然科学版）,2010,40(A02):292-296. 被引量：1
6猫妙妙.猫眼看市场——主板选购中的猫腻[J].大众硬件,2006(7):125-126.
7陈春霞.协同办公系统建设过程研究[J].江苏科技信息,2015,32(11):17-18.
8朴松昊,孙立宁,钟秋波,黄庆成.动态环境下的多智能体机器人协作模型[J].华中科技大学学报（自然科学版）,2008,36(S1):39-41. 被引量：6
9马艳云,袁健.基于聚类和梯度选择的网络协作学习分组算法[J].电子科技,2016,29(12):89-92. 被引量：5
10王斌,盛津芳,王建新,张尧学,陈松乔.基于通信的MAS内多Agent自动协商[J].小型微型计算机系统,2005,26(1):26-31. 被引量：3

计算机应用

2011年第3期

浏览历史

内容加载中请稍等...

基于π演算的足球机器人协作Q学习方法被引量：4

参考文献12

二级参考文献92

共引文献488

同被引文献52

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于π演算的足球机器人协作Q学习方法 被引量：4

参考文献12

二级参考文献92

共引文献488

同被引文献52

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于π演算的足球机器人协作Q学习方法被引量：4