图多智能体任务建模视角下的协作子任务行为发现

Discovering Coordinated Subtask Patterns from a Graphical Multi-Agent Task Modeling Perspective

下载PDF

导出

摘要大量多智能体任务都表现出近似可分解结构,其中相同交互集合中智能体间交互强度大,而不同交互集合中智能体间交互强度小.有效建模该结构并利用其来协调智能体动作选择可以提升合作型多智能体任务中多智能体强化学习算法的学习效率.然而,目前已有工作通常忽视并且无法有效实现这一目标.为解决该问题,使用动态图来建模多智能体任务中的近似可分解结构,并由此提出一种名叫协作子任务行为(coordinated subtask pattern,CSP)的新算法来增强智能体间局部以及全局协作.具体而言,CSP算法使用子任务来识别智能体间的交互集合,并利用双层策略结构来将所有智能体周期性地分配到多个子任务中.这种分配方式可以准确刻画动态图上智能体间的交互关系.基于这种子任务分配,CSP算法提出子任务内和子任务间行为约束来提升智能体间局部以及全局协作.这2种行为约束确保相同子任务内的部分智能体间可以预知彼此动作选择,同时所有智能体选择优异的联合动作来最大化整体任务性能.在星际争霸环境的多个地图上开展实验,实验结果表明CSP算法明显优于多种对比算法,验证了所提算法可以实现智能体间的高效协作. Numerous multi-agent tasks exhibit a nearly decomposable structure,wherein interactions among agents within the same interaction set are strong while interactions between different sets are weak.Efficiently modeling this structure and leveraging it to coordinate agents can enhance the learning efficiency of multi-agent reinforcement learning algorithms for cooperative multi-agent tasks,while existing work typically neglects and fails.To address this limitation,we model the nearly decomposable structure using a dynamic graph and accordingly propose a novel algorithm named coordinated subtask pattern(CSP)that enhances both local and global coordination among agents.Specifically,CSP identifies agents’interaction sets as subtasks and utilizes a bi-level structure to periodically distribute agents into multiple subtasks,which ensures accurate characterizations regarding their interactions on the dynamic graph.Based on the subtask assignment,CSP proposes intra-subtask and inter-subtask pattern constraints to facilitate both local and global coordination among agents.These two constraints ensure that partial agents within the same subtask are aware of their action selections and all agents select superior joint actions that maximize the overall task performance.Experimentally,we evaluate CSP across multiple maps of SMAC benchmark,and its superior performance against multiple baseline algorithms demonstrates its effectiveness on efficiently coordinating agents.

作者李超李文斌高阳 Li Chao;Li Wenbin;Gao Yang(State Key Laboratory for Novel Software Technology(Nanjing University),Nanjing 210023)

机构地区计算机软件新技术全国重点实验室(南京大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2024年第8期1904-1916,共13页 Journal of Computer Research and Development

基金国家自然科学基金项目(62192783,62106100,62276142) 江苏省自然科学基金项目(BK20221441) 江苏省产业前瞻与关键核心技术竞争项目(BE2021028) 深圳市中央引导地方科技发展资金项目(2021Szvup056)。

关键词多智能体强化学习合作型任务近似可分解结构动态图协作 multi-agent reinforcement learning cooperative tasks nearly decomposable structure dynamic graph coordination

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1高涵,罗娟,蔡乾娅,郑燕柳.一种基于异步决策的智能交通信号协调方法[J].计算机研究与发展,2023,60(12):2797-2805. 被引量：1
2郑莹莹,周俊龙,申钰凡,丛佩金,吴泽彬.时间和能量敏感的端——边—云车路协同系统资源调度优化方法[J].计算机研究与发展,2023,60(5):1037-1052. 被引量：4
3丁世飞,杜威,郭丽丽,张健,徐晓.基于双评论家的多智能体深度确定性策略梯度方法[J].计算机研究与发展,2023,60(10):2394-2404. 被引量：3

二级参考文献14

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：473
2朱斐,吴文,刘全,伏玉琛.一种最大置信上界经验采样的深度Q网络方法[J].计算机研究与发展,2018,55(8):1694-1705. 被引量：14
3陈红名,刘全,闫岩,何斌,姜玉斌,张琳琳.基于经验指导的深度确定性多行动者-评论家算法[J].计算机研究与发展,2019,56(8):1708-1720. 被引量：6
4段文雪,胡铭,周琼,吴庭明,周俊龙,刘晓,魏同权,陈铭松.云计算系统可靠性研究综述[J].计算机研究与发展,2020,57(1):102-123. 被引量：48
5亓法欣,童向荣,于雷.基于强化学习DQN的智能体信任增强[J].计算机研究与发展,2020,57(6):1227-1238. 被引量：13
6卢海峰,顾春华,罗飞,丁炜超,杨婷,郑帅.基于深度强化学习的移动边缘计算任务卸载研究[J].计算机研究与发展,2020,57(7):1539-1554. 被引量：21
7夏新海.城市交通信号局部博弈交互下的学习协调控制[J].计算机工程与应用,2020,56(23):245-252. 被引量：3
8Kai Zhu,Tao Zhang.Deep Reinforcement Learning Based Mobile Robot Navigation:A Review[J].Tsinghua Science and Technology,2021,26(5):674-691. 被引量：23
9佟兴,张召,金澈清,周傲英.面向端边云协同架构的区块链技术综述[J].计算机学报,2021,44(12):2345-2366. 被引量：27
10许小龙,方子介,齐连永,窦万春,何强,段玉聪.车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法[J].计算机学报,2021,44(12):2382-2405. 被引量：25

共引文献5

1高甲博,肖玮,何智杰.P3C-MADDPG算法的多无人机协同追捕对抗策略研究[J].指挥控制与仿真,2023,45(6):7-18.
2夏思洋,朱学芳.5G环境下基于边缘计算的图书馆智慧服务响应能力研究[J].情报理论与实践,2023,46(12):21-27. 被引量：2
3侯祥鹏,兰兰,陶长乐,寇小勇,丛佩金,邓庆绪,周俊龙.边缘智能与协同计算:前沿与进展[J].控制与决策,2024,39(7):2385-2404. 被引量：1
4尹璐,周俊龙,孙晋,吴泽彬.不确定性感知的边缘计算任务调度算法[J].控制与决策,2024,39(7):2405-2413.
5白冰,董飞,彭文启,刘晓波.基于深度强化学习的水质模型参数率定[J].环境科学学报,2024,44(7):271-280. 被引量：1

1王异之,温清秀,李秀霞.八段锦联合动作观察疗法对脑卒中偏瘫患者肌力的影响[J].黑龙江中医药,2023,52(6):169-171.
2李经辰,刘振元.社区疫情防控的消杀作业路径优化问题研究[J].华中科技大学学报（自然科学版）,2024,52(5):8-14.
3古北.第二讲台[J].师道（人文）,2024(7):59-59.
4杨建忠,杨洪利,孙晓哲.基于CSP算法的BWB飞机飞控作动系统架构设计[J].液压与气动,2024,48(2):165-173.
5谢逢洁,姚欣,王思一.高阶结构对无标度网络上合作行为演化的影响[J].复杂系统与复杂性科学,2024,21(1):12-19. 被引量：1
6袁玉琢,骆方.人工智能辅助的自闭症早期患者的筛查与诊断[J].复印报刊资料（心理学）,2023(2):74-89.
7郑建东,吕晓亮,吕斌,郭峰.社交媒体平台信息交互与资本市场定价效率——基于股吧论坛亿级大数据的证据[J].复印报刊资料（投资与证券）,2023(4):47-62.
8关佳佳.乡村振兴背景下能人带动村集体经济发展作用机制研究[J].经济师,2024(7):140-142.
9苗秀,侯文军.基于隐式意图脑电解码的人机交互多任务建模研究[J].计算机集成制造系统,2024,30(5):1668-1682.
10肖博健,曹霑懋,许莉芬.多任务学习在不良言论与个体特征检测中的应用[J].计算机系统应用,2024,33(7):74-83.

计算机研究与发展

2024年第8期

浏览历史

内容加载中请稍等...

图多智能体任务建模视角下的协作子任务行为发现

参考文献3

二级参考文献14

共引文献5

相关作者

相关机构

相关主题

浏览历史