期刊文献+
共找到116篇文章
< 1 2 6 >
每页显示 20 50 100
单agent强化学习与多agent强化学习比较研究 被引量:2
1
作者 吴元斌 《电脑与信息技术》 2009年第1期8-11,共4页
学习、交互及其结合是建立健壮、自治agent的关键必需能力。强化学习是agent学习的重要部分,agent强化学习包括单agent强化学习和多agent强化学习。文章对单agent强化学习与多agent强化学习进行了比较研究,从基本概念、环境框架、学习... 学习、交互及其结合是建立健壮、自治agent的关键必需能力。强化学习是agent学习的重要部分,agent强化学习包括单agent强化学习和多agent强化学习。文章对单agent强化学习与多agent强化学习进行了比较研究,从基本概念、环境框架、学习目标、学习算法等方面进行了对比分析,指出了它们的区别和联系,并讨论了它们所面临的一些开放性的问题。 展开更多
关键词 单agent强化学习 agent强化学习 博弈论
下载PDF
基于多Agent深度强化学习的无人机协作规划方法
2
作者 王娜 马利民 +1 位作者 姜云春 宗成国 《计算机应用与软件》 北大核心 2024年第9期83-89,96,共8页
人机协作控制是多无人机任务规划的重要方式。考虑多无人机任务环境协同解释和策略控制一致性需求,提出基于多Agent深度强化学习的无人机协作规划方法。依据任务知识和行为状态,构建基于任务分配Agent的任务规划器,生成人机交互的相互... 人机协作控制是多无人机任务规划的重要方式。考虑多无人机任务环境协同解释和策略控制一致性需求,提出基于多Agent深度强化学习的无人机协作规划方法。依据任务知识和行为状态,构建基于任务分配Agent的任务规划器,生成人机交互的相互依赖关系;设计一种深度学习强化方法,解决群体行为最优策略和协同控制方法,并利用混合主动行为选择机制评估学习策略。实验结果表明:作为人机交互实例,所提方法通过深度强化学习使群体全局联合动作表现较好,学习速度和稳定性均能优于确定性策略梯度方法。同时,在跟随、自主和混合主动3种模式比较下,可以较好地控制无人机飞行路径和任务,为无人机集群任务执行提供了智能决策依据。 展开更多
关键词 agent规划 深度强化学习 无人机协同规划 混合主动行为
下载PDF
基于单/多智能体简化强化学习的电力系统无功电压控制 被引量:4
3
作者 马庆 邓长虹 《电工技术学报》 EI CSCD 北大核心 2024年第5期1300-1312,共13页
为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先... 为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先提出一种适用于输电网集中式控制的单智能体简化强化学习方法,该方法基于“Actor-Critic”架构对强化学习进行简化与改进,保留了强化学习无需标签数据与强普适性的优点,同时消除了训练初期因智能体随机搜索造成的计算浪费,大幅提升了强化学习的训练速度;然后,提出一种适用于配电网分布式零通信控制的多智能体简化强化学习方法,该方法将简化强化学习思想推广形成多智能体版本,同时采用模仿学习进行初始化,将全局优化思想提前注入各智能体,提升各无功设备之间的就地协同控制效果;最后,基于改进IEEE 118节点算例的仿真结果验证了所提方法的正确性与快速性。 展开更多
关键词 无功电压控制 集中式控制 智能体简化强化学习 分布式控制 多智能体简化强化学习
下载PDF
竞争与合作视角下的多Agent强化学习研究进展
4
作者 田小禾 李伟 +3 位作者 许铮 刘天星 戚骁亚 甘中学 《计算机应用与软件》 北大核心 2024年第4期1-15,共15页
随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习... 随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习的基本理论框架——马尔可夫博弈以及扩展式博弈,并重点阐述了其在竞争、合作和混合三种场景下经典算法及其近期研究进展;讨论多Agent强化学习面临的核心挑战——环境的不稳定性,并通过一个例子对其解决思路进行总结与展望。 展开更多
关键词 深度学习 强化学习 agent强化学习 环境的不稳定性
下载PDF
基于多Agent强化学习的电力通信网跨层保护方法
5
作者 陈毅龙 《自动化技术与应用》 2024年第10期112-115,共4页
针对当前方法存在数据传输成功率低、传输延迟时间长以及开销大等题,设计基于多Agent强化学习的电力通信网跨层保护方法。首先使用多Agent强化学习算法设定网络多路径协议,控制网络节点数据接收能力,然后构建网络跨层安全构架,设定相应... 针对当前方法存在数据传输成功率低、传输延迟时间长以及开销大等题,设计基于多Agent强化学习的电力通信网跨层保护方法。首先使用多Agent强化学习算法设定网络多路径协议,控制网络节点数据接收能力,然后构建网络跨层安全构架,设定相应网络模型作为网络跨层保护的基础,最后使用罚函数法对模型进行求解,保证函数解具有较高的可靠性,根据求解结果实现对网络跨层算法的优化,实现电力通信网跨层保护方法。实验结果可知,所提方法的收包率得到了明显提升,传输延迟时间缩短,开销低。 展开更多
关键词 agent强化学习 跨层保护 罚函数 数据包传输延迟
下载PDF
基于学习任务单,强化阅读学习
6
作者 史立芬 《小学阅读指南(高年级版)》 2024年第4期43-45,共3页
学习任务单是一种以表单为主要形式,以教材特性和学情分析为基础,以培养学生核心素养为目标的导向型学习工具。在明确学习任务的基础上,教师需要将学习任务单融入语文阅读教学中,利用学习任务单对阅读教学任务进行整合、规划和呈现,以... 学习任务单是一种以表单为主要形式,以教材特性和学情分析为基础,以培养学生核心素养为目标的导向型学习工具。在明确学习任务的基础上,教师需要将学习任务单融入语文阅读教学中,利用学习任务单对阅读教学任务进行整合、规划和呈现,以实现任务的目标。一、深度探究,把握学习任务单的功能特性在依托学习任务单进行阅读教学之前,教师需要加强对相关概念的理解,深入了解学习任务单的特点和功能。 展开更多
关键词 学习任务 学情分析 学生核心素养 阅读教学 强化阅读 深度探究 导向型 深入了解
下载PDF
基于Nash-Stackelberg分层博弈模型的路网交通控制强化学习算法 被引量:2
7
作者 张尊栋 王岩楠 +2 位作者 刘雨珂 刘小明 尚春琳 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第2期334-341,共8页
为了解决多交叉口博弈引发的Nash均衡计算复杂度问题,考虑路网中不同交叉口的重要程度和博弈关系,兼顾路网中子区之间及子区内部的交通控制策略,以2个子区内的重要交叉口作为上层博弈主体,次要交叉口作为下层博弈主体,构建了一种Nash-St... 为了解决多交叉口博弈引发的Nash均衡计算复杂度问题,考虑路网中不同交叉口的重要程度和博弈关系,兼顾路网中子区之间及子区内部的交通控制策略,以2个子区内的重要交叉口作为上层博弈主体,次要交叉口作为下层博弈主体,构建了一种Nash-Stackelberg分层博弈(NSHG)模型.然后,提出2种多Agent强化学习算法,即基于NSHG的Q学习(NSHG-QL)算法和基于NSHG的深度Q网络(NSHG-DQN)算法.在实验中,使用NSHG-QL和NSHG-DQN算法在SUMO仿真软件搭建的路网环境中对信号灯进行控制,并与基础博弈模型求解算法进行比较.实验结果表明:NSHG-QL算法和NSHG-DQN算法减少了交叉口内车辆的平均旅行时间和平均时间损失,提高了平均速度;NSHG模型在满足重要交叉口间上层博弈的基础上协调次要交叉口,做出最优策略选择,而且基于分层博弈模型的多Agent强化学习算法能明显提高学习性能和收敛性. 展开更多
关键词 计算复杂度 交通控制策略 分层博弈模型 agent强化学习 最优策略
下载PDF
一种基于强化学习的学习Agent 被引量:26
8
作者 李宁 高阳 +1 位作者 陆鑫 陈世福 《计算机研究与发展》 EI CSCD 北大核心 2001年第9期1051-1056,共6页
强化学习通过感知环境状态和从环境中获得不确定奖赏值来学习动态系统的最优行为策略 ,是构造智能Agent的核心技术之一 .在面向 Agent的开发环境 AODE中扩充 BDI模型 ,引入策略和能力心智成分 ,采用强化学习技术实现策略构造函数 ,从而... 强化学习通过感知环境状态和从环境中获得不确定奖赏值来学习动态系统的最优行为策略 ,是构造智能Agent的核心技术之一 .在面向 Agent的开发环境 AODE中扩充 BDI模型 ,引入策略和能力心智成分 ,采用强化学习技术实现策略构造函数 ,从而提出一种基于强化学习技术的学习 Agent.研究 AODE中自适应 Agent的结构和运行方式 ,使智能 Agent具有动态环境的在线学习能力 ,并能够有效地满足 Agent各种心智要求 . 展开更多
关键词 强化学习 心智模型 agent 人工智能
下载PDF
基于Markov对策的多Agent强化学习模型及算法研究 被引量:30
9
作者 高阳 周志华 +1 位作者 何佳洲 陈世福 《计算机研究与发展》 EI CSCD 北大核心 2000年第3期257-263,共7页
在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学... 在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学习框架,并提出元对策强化学习的学习模型和元对策Q算法.理论证明元对策Q算法收敛在非零和Markov对策的元对策最优解. 展开更多
关键词 元对策 强化学习 agent系统 人工智能
下载PDF
基于强化学习的指挥控制Agent适应性仿真研究 被引量:8
10
作者 李志强 胡晓峰 +1 位作者 张斌 董忠林 《系统仿真学报》 EI CAS CSCD 北大核心 2005年第11期2801-2804,共4页
应用人工智能中的学习技术来赋予战争模拟系统中的智能Agent适应能力,是基于CAS理论的战争复杂性研究的基础内容之一。面对战争系统中复杂动态的环境,传统的监督学习方法不能很好满足智能Agent实时学习的要求。而强化学习却可以很好的... 应用人工智能中的学习技术来赋予战争模拟系统中的智能Agent适应能力,是基于CAS理论的战争复杂性研究的基础内容之一。面对战争系统中复杂动态的环境,传统的监督学习方法不能很好满足智能Agent实时学习的要求。而强化学习却可以很好的适应这种动态未知的环境。文章引入强化学习技术对战争系统中指挥控制Agent的适应性进行建模仿真研究。实验结果表明强化学习技术能很好的满足指挥控制Agent无师在线实时学习的要求,从而为战争模拟系统中的智能Agent的适应性机制提供良好的建模手段。 展开更多
关键词 适应性 强化学习 指挥控制 agent
下载PDF
随机博弈框架下的多agent强化学习方法综述 被引量:13
11
作者 宋梅萍 顾国昌 张国印 《控制与决策》 EI CSCD 北大核心 2005年第10期1081-1090,共10页
多agent学习是在随机博弈的框架下,研究多个智能体间通过自学习掌握交互技巧的问题.单agent强化学习方法研究的成功,对策论本身牢固的数学基础以及在复杂任务环境中广阔的应用前景,使得多agent强化学习成为目前机器学习研究领域的一个... 多agent学习是在随机博弈的框架下,研究多个智能体间通过自学习掌握交互技巧的问题.单agent强化学习方法研究的成功,对策论本身牢固的数学基础以及在复杂任务环境中广阔的应用前景,使得多agent强化学习成为目前机器学习研究领域的一个重要课题.首先介绍了多agent系统随机博弈中基本概念的形式定义;然后介绍了随机博弈和重复博弈中学习算法的研究以及其他相关工作;最后结合近年来的发展,综述了多agent学习在电子商务、机器人以及军事等方面的应用研究,并介绍了仍存在的问题和未来的研究方向. 展开更多
关键词 agent系统 随机博弈 强化学习
下载PDF
多Agent系统中强化学习的研究现状和发展趋势 被引量:12
12
作者 赵志宏 高阳 +1 位作者 骆斌 陈世福 《计算机科学》 CSCD 北大核心 2004年第3期23-27,共5页
本文对有关强化学习及其在多Agent系统中的应用等方面的研究现状、关键技术、问题和发展趋势进行了综述和讨论,试图给出强化学习目前研究的重点和发展方向。主要内容包括:(1)强化学习的框架结构;(2)几个有代表性的强化学习方法;(3)多Ag... 本文对有关强化学习及其在多Agent系统中的应用等方面的研究现状、关键技术、问题和发展趋势进行了综述和讨论,试图给出强化学习目前研究的重点和发展方向。主要内容包括:(1)强化学习的框架结构;(2)几个有代表性的强化学习方法;(3)多Agent系统中强化学习的应用和问题。最后讨论了多Agent系统中应用强化学习所面临的挑战。 展开更多
关键词 人工智能 agent系统 元对策理论 强化学习算法 POMDP模型
下载PDF
基于Agent的递阶强化学习模型与体系结构 被引量:4
13
作者 王文玺 肖世德 +2 位作者 孟祥印 陈应松 张卫华 《机械工程学报》 EI CAS CSCD 北大核心 2010年第2期76-82,共7页
通过引入频率最大Q值启发式学习算法,对一种递阶强化学习方法进行改进,解决在庞大状态空间和动态变化环境中对Agent进行最优行为策略学习的问题。引入属性维护算子以及承诺和规划意识属性,对经典信念、愿望、意图模型进行扩展,给出意识... 通过引入频率最大Q值启发式学习算法,对一种递阶强化学习方法进行改进,解决在庞大状态空间和动态变化环境中对Agent进行最优行为策略学习的问题。引入属性维护算子以及承诺和规划意识属性,对经典信念、愿望、意图模型进行扩展,给出意识属性的理性维护过程,增强Agent的自适应性并使Agent具有在动态环境中进行在线学习的能力。根据意识模型提出一种具有主动性、适应性、反应性、社会性的Agent体系结构,并根据该体系结构开发出一种路径规划Agent。通过对行驶环境的组态设定,模拟车辆复杂的行驶状态,并通过对行驶状态的不断学习,最终获得最优路径,证明体系结构的可行性和有效性。 展开更多
关键词 agent 强化学习 体系结构 意识模型
下载PDF
基于强化学习的多Agent协作研究 被引量:5
14
作者 郑淑丽 韩江洪 +1 位作者 骆祥峰 蒋建文 《小型微型计算机系统》 CSCD 北大核心 2003年第11期1986-1988,共3页
强化学习为多 Agent之间的协作提供了鲁棒的学习方法 .本文首先介绍了强化学习的原理和组成要素 ,其次描述了多 Agent马尔可夫决策过程 MMDP,并给出了 Agent强化学习模型 .在此基础上 ,对多 Agent协作过程中存在的两种强化学习方式 :IL... 强化学习为多 Agent之间的协作提供了鲁棒的学习方法 .本文首先介绍了强化学习的原理和组成要素 ,其次描述了多 Agent马尔可夫决策过程 MMDP,并给出了 Agent强化学习模型 .在此基础上 ,对多 Agent协作过程中存在的两种强化学习方式 :IL(独立学习 )和 JAL(联合动作学习 )进行了比较 .最后分析了在有多个最优策略存在的情况下 ,协作多 展开更多
关键词 agent系统 强化学习 MMDP 协调机制
下载PDF
一种基于Agent的单路口交通信号学习控制方法 被引量:62
15
作者 马寿峰 李英 刘豹 《系统工程学报》 CSCD 2002年第6期526-530,共5页
Agent技术是从分布式人工智能领域中兴起的研究热点 .论文将Agent与经验知识和加强学习方法中Q -学习算法相结合 ,应用到城市交通信号控制领域中 ,解决单个路口的动态实时问题 .通过在仿真环境下的对比 。
关键词 agent 路口 交通信号 学习控制方法 城市交通控制 智能体 Q-学习 分布式人工智能
下载PDF
AODE中基于强化学习的Agent协商模型 被引量:14
16
作者 王立春 高阳 陈世福 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第2期135-141,共7页
AODE是我们研制的一个面向Agent的智能系统开发环境 .AODE中基于强化学习的Agent协商模型采用Markov决策过程和连续决策过程分别描述系统状态变化和特定系统状态的Agent协商过程 ,并将强化学习技术应用于Agent协商过程 .该协商模型能够... AODE是我们研制的一个面向Agent的智能系统开发环境 .AODE中基于强化学习的Agent协商模型采用Markov决策过程和连续决策过程分别描述系统状态变化和特定系统状态的Agent协商过程 ,并将强化学习技术应用于Agent协商过程 .该协商模型能够描述动态环境下的多Agent协商 ,模型中所有Agent都采用元对策Q 学习算法时 ,系统能获得动态协商环境下的最优协商解 . 展开更多
关键词 多Agnet系统 强化学习 agent协商模型 AODE 智能系统开发环境 协商策略
下载PDF
基于多Agent强化学习的多站点CSPS系统的协作Look-ahead控制 被引量:8
17
作者 唐昊 万海峰 +1 位作者 韩江洪 周雷 《自动化学报》 EI CSCD 北大核心 2010年第2期289-296,共8页
研究多站点传送带给料生产加工站(Conveyor-serviced production station,CSPS)系统的最优控制问题,其优化目标是通过合理选择每个CSPS的Look-ahead控制策略,实现整个系统的工件处理率最大.本文首先根据多Agent系统的反应扩散思想,对每... 研究多站点传送带给料生产加工站(Conveyor-serviced production station,CSPS)系统的最优控制问题,其优化目标是通过合理选择每个CSPS的Look-ahead控制策略,实现整个系统的工件处理率最大.本文首先根据多Agent系统的反应扩散思想,对每个Agent的原始性能函数进行改进,引入了具有扩散功能的局域信息交互项(原始项看作具有反应功能);并运用性能势理论,构建一种适用于平均和折扣两种性能准则的Wolf-PHC多Agent学习算法,以求解决策时刻不同步的多站点的协作Look-ahead控制策略.最后,论文通过仿真实验验证了该算法的有效性,学习结果表明,通过性能函数的改进,各工作站的负载平衡性得到改善,整个系统的工件处理率也明显提高. 展开更多
关键词 传送带给料生产加工站 Look-ahead控制 agent强化学习 性能函数
下载PDF
一种基于Agent团队的强化学习模型与应用研究 被引量:31
18
作者 蔡庆生 张波 《计算机研究与发展》 EI CSCD 北大核心 2000年第9期1087-1093,共7页
多 Agent学习是近年来受到较多关注的研究方向 .以单 Agent强化学习 Q - learning算法为基础 ,提出了一种基于 Agent团队的强化学习模型 ,这个模型的最大特点是引入主导 Agent作为团队学习的主角 ,并通过主导Agent的角色变换实现整个团... 多 Agent学习是近年来受到较多关注的研究方向 .以单 Agent强化学习 Q - learning算法为基础 ,提出了一种基于 Agent团队的强化学习模型 ,这个模型的最大特点是引入主导 Agent作为团队学习的主角 ,并通过主导Agent的角色变换实现整个团队的学习 .结合仿真机器人足球领域 ,设计了具体的应用模型 ,在几个方面对 Q -learning进行了扩充 ,并进行了实验 . 展开更多
关键词 agent团队 机器人足球 强化学习模型 人工智能
下载PDF
多Agent协作的强化学习模型和算法 被引量:6
19
作者 刘菲 曾广周 宋言伟 《计算机科学》 CSCD 北大核心 2006年第12期156-158,186,共4页
结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并... 结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人-猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。 展开更多
关键词 协作学习 强化学习 agent学习 学习模型 学习算法
下载PDF
基于Q-强化学习的多Agent协商策略及算法 被引量:7
20
作者 隋新 蔡国永 史磊 《计算机工程》 CAS CSCD 北大核心 2010年第17期198-200,共3页
针对传统Agent协商策略学习能力不足,不能满足现代电子商务环境需要的问题,采用Q-强化学习理论对Agent的双边协商策略加以改进,提出基于Q-强化学习的Agent双边协商策略,并设计实现该策略的算法。通过与时间协商策略比较,证明改进后的Ag... 针对传统Agent协商策略学习能力不足,不能满足现代电子商务环境需要的问题,采用Q-强化学习理论对Agent的双边协商策略加以改进,提出基于Q-强化学习的Agent双边协商策略,并设计实现该策略的算法。通过与时间协商策略比较,证明改进后的Agent协商策略在协商时间、算法效率上优于未经学习的时间策略,能够增强电子商务系统的在线学习能力,缩短协商时间,提高协商效率。 展开更多
关键词 Q-强化学习 agent 协商策略
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部