在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这...在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性.展开更多
针对热力站供热量与需求量不匹配的现象,提出一种基于深度确定性策略梯度(DDPG)的热力站一次侧优化控制方法。采用LSTM(long short term memory)算法对热力站进行建模,然后结合集中供热系统运行机理,使用DDPG控制算法对热力站一次侧供...针对热力站供热量与需求量不匹配的现象,提出一种基于深度确定性策略梯度(DDPG)的热力站一次侧优化控制方法。采用LSTM(long short term memory)算法对热力站进行建模,然后结合集中供热系统运行机理,使用DDPG控制算法对热力站一次侧供水流量序列求解。运用包头某热力站的大量历史工况数据,进行仿真实验,结果表明该方法的有效性,一定程度上实现了热力站的按需供热,提高热量的利用率。展开更多
电力系统调度中心往往通过控制极限传输能力(total transfer capability,TTC),使之高于传输潮流,以保证运行安全性或扩大断面输电能力。然而,暂态稳定校核使TTC计算和调控均难以满足在线需求。因此文章提出一种基于深度强化学习的动态TT...电力系统调度中心往往通过控制极限传输能力(total transfer capability,TTC),使之高于传输潮流,以保证运行安全性或扩大断面输电能力。然而,暂态稳定校核使TTC计算和调控均难以满足在线需求。因此文章提出一种基于深度强化学习的动态TTC控制方法。首先基于深度置信网络建立系统稳态状态与TTC的精确非线性映射,将此映射替换TTC控制模型中的复杂部分,建立快速响应的代理辅助模型;然后基于此模型搭建了电力系统与强化学习的快速交互环境;最后采用连续动作空间下的深度确定性策略梯度算法实现了TTC控制的快速决策。以IEEE39节点系统为例的测试结果表明,相较全物理模型的分钟级TTC计算和小时级TTC控制,所提方法仅1s左右即可实现准确的TTC计算和趋优的TTC安全控制决策。展开更多
文摘在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性.
文摘针对热力站供热量与需求量不匹配的现象,提出一种基于深度确定性策略梯度(DDPG)的热力站一次侧优化控制方法。采用LSTM(long short term memory)算法对热力站进行建模,然后结合集中供热系统运行机理,使用DDPG控制算法对热力站一次侧供水流量序列求解。运用包头某热力站的大量历史工况数据,进行仿真实验,结果表明该方法的有效性,一定程度上实现了热力站的按需供热,提高热量的利用率。
文摘电力系统调度中心往往通过控制极限传输能力(total transfer capability,TTC),使之高于传输潮流,以保证运行安全性或扩大断面输电能力。然而,暂态稳定校核使TTC计算和调控均难以满足在线需求。因此文章提出一种基于深度强化学习的动态TTC控制方法。首先基于深度置信网络建立系统稳态状态与TTC的精确非线性映射,将此映射替换TTC控制模型中的复杂部分,建立快速响应的代理辅助模型;然后基于此模型搭建了电力系统与强化学习的快速交互环境;最后采用连续动作空间下的深度确定性策略梯度算法实现了TTC控制的快速决策。以IEEE39节点系统为例的测试结果表明,相较全物理模型的分钟级TTC计算和小时级TTC控制,所提方法仅1s左右即可实现准确的TTC计算和趋优的TTC安全控制决策。