期刊文献+
共找到220篇文章
< 1 2 11 >
每页显示 20 50 100
基于双评论家的多智能体深度确定性策略梯度方法 被引量:1
1
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 双评论家 交通信号控制 多智能体深度确定性策略梯度
下载PDF
深度确定性策略梯度算法耦合模型驱动的行人过街仿真
2
作者 宋涛 王彦林 +1 位作者 魏昕恺 韦艳芳 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期651-665,共15页
行人仿真在公共安全研究中扮演着重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差... 行人仿真在公共安全研究中扮演着重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差项和有速度差项2种行人二维优化速度模型的策略探索方案,揭示出带有速度差项行人二维优化速度模型的耦合驱动算法倾向于灵活地选择相对安全的动作,从而使行人选择动作的策略也更优,达到了完全避免行人碰撞、确保行人安全的功能. 展开更多
关键词 深度确定性策略梯度 二维优化速度模型 碰撞 无信号交叉口 行人仿真
下载PDF
基于深度确定性梯度算法的端到端自动驾驶策略
3
作者 赖晨光 杨小青 +2 位作者 胡博 庞玉涵 邹宏 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第1期56-65,共10页
根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作。同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错... 根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作。同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错动作加以约束并修正的监督器,以减少危险动作并提升训练效率。根据Carla的训练测试结果表明,深度确定性策略梯度算法能使小车学习到有效的自动驾驶策略,且添加监督器之后的算法能明显减少试错行为并提升训练效率。 展开更多
关键词 自动驾驶 强化学习 深度确定性策略梯度 监督式深度强化学习
下载PDF
基于深度确定性策略梯度算法的风光储系统联合调度策略 被引量:5
4
作者 张淑兴 马驰 +3 位作者 杨志学 王尧 吴昊 任洲洋 《中国电力》 CSCD 北大核心 2023年第2期68-76,共9页
针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架... 针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等,引入了深度确定性策略梯度算法,利用其环境交互、策略探索的机制,学习风光储系统的联合调度策略,以实现对联合系统功率跟踪,减少弃风弃光以及储能充放电。最后,借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析,结果表明所提方法可以较好地适应不同时期的风光变化,得到在给定风光下联合系统的调度策略。 展开更多
关键词 风光储联合系统 联合调度策略 确定性 深度强化学习 深度确定性策略梯度算法
下载PDF
深度确定性策略梯度和预测相结合的无人机空战决策研究 被引量:1
5
作者 李永丰 吕永玺 +1 位作者 史静平 李卫华 《西北工业大学学报》 EI CAS CSCD 北大核心 2023年第1期56-64,共9页
针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动... 针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动作库,在空战中目标通过深度Q网络算法生成相应机动动作库指令,同时我方无人机通过概率神经网络给出目标机动的预测结果。提出了一种同时考虑了两机态势信息和敌机预测结果的深度确定性策略梯度强化学习方法,使得无人机能够根据当前空战态势选择合适的机动决策。仿真结果表明,该算法可以有效利用空战态势信息和目标机动预测信息,在保证收敛性的前提下提高无人机自主空战决策强化学习算法的有效性。 展开更多
关键词 无人机 空战机动决策 预测 深度确定性策略梯度
下载PDF
基于改进深度确定性策略梯度算法的微电网能量优化调度 被引量:1
6
作者 李瑜 张占强 +1 位作者 孟克其劳 魏皓天 《电子测量技术》 北大核心 2023年第2期73-80,共8页
针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低... 针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低为目标,实现微电网的能量优化调度。首先,采用马尔可夫决策过程对微电网优化问题进行建模;其次,采用Sumtree结构的优先经验回放池提升样本利用效率,并且应用重要性采样来改善状态分布对收敛结果的影响。最后,本文利用真实的电力数据进行仿真验证,结果表明,提出的优化调度算法可以有效地学习到使微电网系统经济成本最低的运行策略,所提出的算法总运行时间比传统算法缩短了7.25%,运行成本降低了31.5%。 展开更多
关键词 优先经验回放 微电网能量优化调度 深度确定性策略梯度算法
原文传递
改进双延迟深度确定性策略梯度的多船协调避碰决策
7
作者 黄仁贤 罗亮 +1 位作者 杨萌 刘维勤 《计算机科学》 CSCD 北大核心 2023年第11期269-281,共13页
目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(... 目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(SD3)多船协调避碰模型。从考虑船舶航行安全的时空因素出发构建时间碰撞模型、空间碰撞模型,对船舶碰撞风险进行定量分析,在此基础上采用根据会遇态势和船速矢量动态变化的船域模型对船舶碰撞风险进行定性分析。综合船舶目标导向、航向角改变、航向保持、碰撞风险和《国际海上避碰规则》(COLREGS)的约束设计奖励函数,结合COLREGS中的典型相遇情况构造对遇、追越和交叉相遇多局面共存的会遇场景进行避碰模拟仿真。消融实验显示softmax运算符提升了SD3算法的性能,使其在船舶协调避碰中拥有更好的决策效果,并与其他强化学习算法进行学习效率和学习效果的比较。实验结果表明,SD3算法在多局面共存的复杂场景下能高效做出准确的避碰决策,并且性能优于其他强化学习算法。 展开更多
关键词 多船会遇 协调避碰 智能决策 双延迟深度确定性策略梯度(TD3) Softmax深层双确定性策略梯度(SD3) 强化学习
下载PDF
基于深度确定性策略梯度强化学习算法的航迹规划研究
8
作者 杨友波 张目 +1 位作者 唐俊 雷印杰 《现代计算机》 2023年第5期1-7,27,共8页
航迹规划是无人机走向智能化的重要组成部分。目前已有的传统航迹规划算法存在实时规划能力差、无法处理动态场景、航迹不平滑等问题,现有的强化学习算法虽然能够实时规划,但是大多数算法主要应用在二维场景下,且存在容易碰撞障碍物、... 航迹规划是无人机走向智能化的重要组成部分。目前已有的传统航迹规划算法存在实时规划能力差、无法处理动态场景、航迹不平滑等问题,现有的强化学习算法虽然能够实时规划,但是大多数算法主要应用在二维场景下,且存在容易碰撞障碍物、到达率低、航迹不平滑和航迹质量低等问题。针对上述问题,提出基于改进深度确定性策略梯度的强化学习算法,该算法融合自注意力机制,提取障碍物特征,躲避障碍,解决到达率低、实时规划能力差的问题,重新设计奖励函数,惩罚无人机“后退”行为,引入方向向量夹角引导机制,解决航迹不平滑问题。仿真验证结果表明,提出的改进算法在复杂动态场景下达到93.5%的到达率,平均飞行距离减少7.3%,推理时间减少26.2%,推理时间短,航迹符合无人机的飞行要求。 展开更多
关键词 航迹规划 深度确定性策略梯度 强化学习 自注意力机制
下载PDF
深度确定性策略梯度学习的火星无人机控制
9
作者 孙丹 郑建华 +1 位作者 高东 韩鹏 《计算机工程与应用》 CSCD 北大核心 2023年第8期288-296,共9页
为了降低控制器设计对火星无人机动力学模型的依赖,提高火星无人机控制系统的智能化水平,结合强化学习(reinforcement learning,RL)算法,提出了一种具有自主学习能力的火星无人机位置姿态控制器。该控制器由神经网络构成,利用深度确定... 为了降低控制器设计对火星无人机动力学模型的依赖,提高火星无人机控制系统的智能化水平,结合强化学习(reinforcement learning,RL)算法,提出了一种具有自主学习能力的火星无人机位置姿态控制器。该控制器由神经网络构成,利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行学习,不断优化控制策略,最终获得满足控制要求的策略。仿真结果表明,在没有推导被控对象模型的前提下,基于DDPG算法的控制器通过学习,自主将火星无人机稳定控制到目标位置,且控制精度、调节时间等性能优于比例-积分-微分(proportion integration differentiation,PID)控制器的效果,验证了基于DDPG算法的控制器的有效性;此外,在被控对象模型改变或存在外部扰动的情况下,基于DDPG算法的控制器仍然能够稳定完成任务,控制效果优于PID控制器,表明基于DDPG算法的控制器具有良好的鲁棒性。 展开更多
关键词 火星无人机 强化学习 自主控制 深度确定性策略梯度 策略优化
下载PDF
基于深度确定性策略梯度算法的智能水下机器人局部路径规划
10
作者 吕茜 党康宁 《科学技术创新》 2023年第20期224-228,共5页
路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件... 路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件,使算法适用于水下机器人的运动学模型。仿真试验验证了采用DDPG算法训练的水下机器人能够在航道水域环境中安全快速地规划和避开障碍物,实现自主安全航行。 展开更多
关键词 智能水下机器人 局部路径规划 深度确定性策略梯度(DDPG)算法 自主安全航行
下载PDF
基于深度确定性策略梯度的粒子群算法 被引量:5
11
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 群体智能 粒子群优化算法
下载PDF
基于双延迟深度确定性策略梯度的船舶自主避碰方法 被引量:3
12
作者 刘钊 周壮壮 +1 位作者 张明阳 刘敬贤 《交通信息与安全》 CSCD 北大核心 2022年第3期60-74,共15页
为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延... 为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延迟深度确定性策略梯度(TD3)的船舶自主避碰方法。根据船舶间相对运动信息与碰撞危险信息,从全局角度构建具有连续多时刻目标船信息的状态空间;依据船舶操纵性设计连续决策动作空间;综合考虑目标导向、航向保持、碰撞危险、《1972年国际海上避碰规则》(COLREGs)和良好船艺等因素,设计船舶运动的奖励函数;基于TD3算法,根据状态空间结构,结合长短期记忆(LSTM)网络和一维卷积网络,利用Actor-Critic结构设计船舶自主避碰网络模型,利用双价值网络学习、目标策略平滑以及策略网络延迟更新等方式稳定网络训练,利用跳帧以及批量大小和迭代更新次数动态增大等方式加速网络训练;为解决模型泛化能力弱的问题,提出基于TD3的船舶随机会遇场景训练流程,实现自主避碰模型应用的多场景迁移。运用训练得到的船舶自主避碰模型进行仿真验证,并与改进人工势场(APF)算法进行比较,结果表明:所提方法学习效率高,收敛快速平稳;训练得到的自主避碰模型在2船和多船会遇场景下均能使船舶在安全距离上驶过,并且在复杂会遇场景中比改进APF算法避碰成功率高,避让2~4艘目标船时成功率高达99.233%,5~7艘目标船时成功率97.600%,8~10艘目标船时成功率94.166%;所提方法能有效应对来船的不协调行动,避碰实时性高,决策安全合理,航向变化快速平稳、震荡少、避碰路径光滑,比改进APF方法性能更强。 展开更多
关键词 交通信息工程 船舶避碰 智能决策 深度强化学习 双延迟深度确定性策略梯度
下载PDF
基于深度确定性策略梯度的热力站一次侧优化控制 被引量:5
13
作者 李琦 韩冰城 《科学技术与工程》 北大核心 2019年第29期193-200,共8页
针对热力站供热量与需求量不匹配的现象,提出一种基于深度确定性策略梯度(DDPG)的热力站一次侧优化控制方法。采用LSTM(long short term memory)算法对热力站进行建模,然后结合集中供热系统运行机理,使用DDPG控制算法对热力站一次侧供... 针对热力站供热量与需求量不匹配的现象,提出一种基于深度确定性策略梯度(DDPG)的热力站一次侧优化控制方法。采用LSTM(long short term memory)算法对热力站进行建模,然后结合集中供热系统运行机理,使用DDPG控制算法对热力站一次侧供水流量序列求解。运用包头某热力站的大量历史工况数据,进行仿真实验,结果表明该方法的有效性,一定程度上实现了热力站的按需供热,提高热量的利用率。 展开更多
关键词 深度确定性策略梯度 热力站 优化控制 长短时记忆网络
下载PDF
考虑源荷不确定性下微电网能量调度的深度强化学习策略
14
作者 马冲冲 王一铮 +1 位作者 王坤 冯昌森 《高技术通讯》 CAS 2023年第1期79-87,共9页
针对微电网中源荷不确定性问题,本文提出一种基于连续型深度确定性策略梯度(DDPG)算法的微电网能量调度方法。首先,以日运行成本最低为目标构建优化调度模型,并将该调度模型转化成马尔可夫决策过程(MDP),定义了马尔可夫决策模型的状态... 针对微电网中源荷不确定性问题,本文提出一种基于连续型深度确定性策略梯度(DDPG)算法的微电网能量调度方法。首先,以日运行成本最低为目标构建优化调度模型,并将该调度模型转化成马尔可夫决策过程(MDP),定义了马尔可夫决策模型的状态空间、动作空间和奖励函数。其次,利用长短期记忆(LSTM)神经网络提取环境中时序数据的未来趋势作为状态,从而在连续调度动作空间下改善深度强化学习算法收敛效果。最后,通过训练深度强化学习模型,对比多种算法下最优能量调度策略,验证了本文所提方法的有效性。 展开更多
关键词 微电网 能量管理 强化学习 深度确定性策略梯度(DDPG)
下载PDF
引入积分补偿的四旋翼确定性策略梯度控制器
15
作者 孙丹 高东 +1 位作者 郑建华 韩鹏 《计算机工程与设计》 北大核心 2023年第1期255-261,共7页
为实现四旋翼无人机位置姿态的自主智能控制,结合强化学习中深度确定性策略梯度算法设计无人机智能控制器,对该控制器在四旋翼位置跟踪过程中出现静差的现象进行分析,提出带积分补偿的改进深度确定性策略梯度算法。仿真结果表明,引入积... 为实现四旋翼无人机位置姿态的自主智能控制,结合强化学习中深度确定性策略梯度算法设计无人机智能控制器,对该控制器在四旋翼位置跟踪过程中出现静差的现象进行分析,提出带积分补偿的改进深度确定性策略梯度算法。仿真结果表明,引入积分补偿的改进深度确定性策略梯度控制器能够实现四旋翼位置姿态的自主稳定控制,位置误差为零,在奖励函数变化后控制过程依然保持平稳,表明积分补偿的加入能够有效消除位置跟踪静差,提高控制的准确性,增强系统的稳定性。 展开更多
关键词 深度确定性策略梯度 积分补偿 静差 四旋翼控制 自主学习 智能控制 未知动力学模型
下载PDF
基于深度确定性策略梯度的电网断面极限传输能力动态趋优控制 被引量:9
16
作者 邱高 刘友波 +4 位作者 许立雄 田蓓 吴玫蓉 刘俊勇 税月 《中国电机工程学报》 EI CSCD 北大核心 2021年第15期5128-5138,共11页
电力系统调度中心往往通过控制极限传输能力(total transfer capability,TTC),使之高于传输潮流,以保证运行安全性或扩大断面输电能力。然而,暂态稳定校核使TTC计算和调控均难以满足在线需求。因此文章提出一种基于深度强化学习的动态TT... 电力系统调度中心往往通过控制极限传输能力(total transfer capability,TTC),使之高于传输潮流,以保证运行安全性或扩大断面输电能力。然而,暂态稳定校核使TTC计算和调控均难以满足在线需求。因此文章提出一种基于深度强化学习的动态TTC控制方法。首先基于深度置信网络建立系统稳态状态与TTC的精确非线性映射,将此映射替换TTC控制模型中的复杂部分,建立快速响应的代理辅助模型;然后基于此模型搭建了电力系统与强化学习的快速交互环境;最后采用连续动作空间下的深度确定性策略梯度算法实现了TTC控制的快速决策。以IEEE39节点系统为例的测试结果表明,相较全物理模型的分钟级TTC计算和小时级TTC控制,所提方法仅1s左右即可实现准确的TTC计算和趋优的TTC安全控制决策。 展开更多
关键词 强化学习 深度学习 深度确定性策略梯度 代理辅助模型 极限传输能力
原文传递
基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策 被引量:7
17
作者 郭万春 解武杰 +1 位作者 尹晖 董文瀚 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期15-21,共7页
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,... 针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络。仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93%;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高。 展开更多
关键词 深度强化学习 近距空战 无人机 双延迟深度确定性策略梯度
下载PDF
风储联合电站实时自调度的高效深度确定性策略梯度算法 被引量:3
18
作者 宋煜浩 魏韡 +2 位作者 黄少伟 吴启仁 梅生伟 《电工技术学报》 EI CSCD 北大核心 2022年第23期5987-5999,共13页
发展风电等可再生能源对于实现双碳目标具有重要意义,风储联合电站是未来风电接入电网的主要形式。该文研究发电侧商业化运行的风储联合电站的实时自调度问题,目标是使自身的期望收益最大化。由于场站级风电预测误差较大,独立发电商信... 发展风电等可再生能源对于实现双碳目标具有重要意义,风储联合电站是未来风电接入电网的主要形式。该文研究发电侧商业化运行的风储联合电站的实时自调度问题,目标是使自身的期望收益最大化。由于场站级风电预测误差较大,独立发电商信息有限,难以准确预测电网电价,风储联合电站实时自调度面临多重不确定性,极具挑战。该文提出高效深度确定性策略梯度(DDPG)算法求取风储联合电站实时自调度策略,实现不依赖预测的场站级在线决策。首先通过Lyapunov优化构建基础策略,得到一个较好的但未必是局部最优的策略;然后,采用基础策略预生成样本,用于初始化经验库,提升搜索效率;接着,应用引入专家机制的DDPG算法,可以训练得到局部最优的自调度策略;最后,算例分析表明,相比于基础调度策略和经典DDPG,该文所提方法能有效提升风储联合电站的平均收益。 展开更多
关键词 风储联合电站 实时自调度 Lyapunov优化 深度确定性策略梯度(DDPG)
下载PDF
基于深度确定性策略梯度的随机路由防御方法 被引量:4
19
作者 徐潇雨 胡浩 +1 位作者 张红旗 刘玉岭 《通信学报》 EI CSCD 北大核心 2021年第6期41-51,共11页
针对现有随机路由防御方法对数据流拆分粒度过粗、对合法的服务质量(QoS)保障效果不佳、对抗窃听攻击的安全性有待提升等问题,提出一种基于深度确定性策略梯度(DDPG)的随机路由防御方法。通过带内网络遥测(INT)技术实时监测并获取网络状... 针对现有随机路由防御方法对数据流拆分粒度过粗、对合法的服务质量(QoS)保障效果不佳、对抗窃听攻击的安全性有待提升等问题,提出一种基于深度确定性策略梯度(DDPG)的随机路由防御方法。通过带内网络遥测(INT)技术实时监测并获取网络状态;通过DDPG方法生成兼顾安全性和QoS需求的随机路由方案;通过P4框架下的可编程交换机执行随机路由方案,实现了数据包级粒度的随机路由防御。实验表明,与其他典型的随机路由方法相比,所提方法在对抗窃听攻击中的安全性和对网络整体QoS的保障效果均有提升。 展开更多
关键词 随机路由 深度确定性策略梯度 窃听攻击 移动目标防御
下载PDF
基于深度确定性策略梯度学习的无线反向散射数据卸载优化 被引量:1
20
作者 耿天立 高昂 +2 位作者 王琦 段渭军 胡延苏 《兵工学报》 EI CAS CSCD 北大核心 2021年第12期2655-2663,共9页
无线驱动通信网络中,无线设备(WD)可以通过无线反向散射和主动射频传输两种方式进行数据卸载。如何合理分配系统中WD的主动传输和反向散射传输工作模式及其对应的工作时间,从而减小传输延迟、提高传输效率就显得尤为必要。在综合考虑卸... 无线驱动通信网络中,无线设备(WD)可以通过无线反向散射和主动射频传输两种方式进行数据卸载。如何合理分配系统中WD的主动传输和反向散射传输工作模式及其对应的工作时间,从而减小传输延迟、提高传输效率就显得尤为必要。在综合考虑卸载数据量大小、信道条件和WD之间公平性情况下,提出一种基于深度确定性策略梯度(DDPG)的数据卸载方法,在连续动作空间内搜索多个WD的最优时间分配。仿真实验结果表明:DDPG可在有限时间步长内实现算法收敛;由于引入了Jain公平指数,多个WD可同时完成数据卸载;与传统的均分算法、贪心算法对比,DDPG算法可将平均传输延迟减小77.4%和24.2%,可有效提高WD的能耗效率,尤其对于卸载数据量较小的WD效果更加显著。 展开更多
关键词 反向散射 数据卸载 深度确定性策略梯度 强化学习
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部