期刊文献+
共找到112篇文章
< 1 2 6 >
每页显示 20 50 100
基于深度确定性策略梯度算法的交通协同智能控制技术分析
1
作者 高兴媛 和铁行 《国外电子测量技术》 2025年第1期54-61,共8页
为提高城市交通系统的效率和稳定性,减少车辆等待时间,提高道路通行能力,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法作为核心控制策略。将城市路网建模为集中式控制系统,通过Agent控制路网中的多个交叉口,... 为提高城市交通系统的效率和稳定性,减少车辆等待时间,提高道路通行能力,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法作为核心控制策略。将城市路网建模为集中式控制系统,通过Agent控制路网中的多个交叉口,并提出多智能体系统(Multi-Agent System,MAS)结合异步优势行动者评论家(Asynchronous Advantage Actor-Critic,A3C),简称MA3C。结果表明,DDPG算法训练初期奖励值迅速上升,1000步后约稳定于150,表现优异。MA3C在高峰时奖励值为−5.94,延迟仅0.39 s,速度最高,其队列长度和等待时间显著低于其他算法。在不同车流密度下,所研究系统的车道平均占用率和平均速度均优于对比算法,高密度流量中车道平均占用率为0.9%,平均速度达14.89 m/s。低密度流量中车道平均占用率为0.4%,平均速度为17.68 m/s。所提方法不仅能够提高了交通系统的效率,还能增强交通控制的灵活性和适应性,推动了交通控制技术向智能化、自动化的方向发展。 展开更多
关键词 交通系统 深度确定性策略梯度算法 路网 智能化
原文传递
基于多维度优先级经验回放机制的深度确定性策略梯度算法
2
作者 荣垂霆 李海军 +2 位作者 朱恒伟 刘延旭 于士军 《德州学院学报》 2024年第4期21-27,32,共8页
为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类... 为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类;其次,利用稀缺性和新奇性两个指标对样本进行评分,并将稀缺性和新奇性的评分进行加权组合,得到最终的优先级评分;最后,将设计的多维度优先级经验回放机制方法应用在深度确定性策略梯度算法中,在强化学习连续控制任务中对改进算法进行测试,实验结果表明,改进算法的收敛速度有所提升。 展开更多
关键词 深度确定性策略梯度算法 强化学习 经验回放机制 多维度优先级
下载PDF
基于改进深度确定性策略梯度算法的智能装卸机械设备控制方法
3
作者 龚宇平 李金瑾 +1 位作者 卿柏元 潘学华 《机械与电子》 2024年第12期43-48,共6页
由于机械臂作业环境具有高度的非线性、时变性和不确定性,导致机械臂动态行为较为复杂,传统控制方法在进行控制过程中经常出现关节位置角度误差大、稳定性差的问题,提出基于改进深度确定性策略梯度(DDPG)的控制方法。首先,建立智能装卸... 由于机械臂作业环境具有高度的非线性、时变性和不确定性,导致机械臂动态行为较为复杂,传统控制方法在进行控制过程中经常出现关节位置角度误差大、稳定性差的问题,提出基于改进深度确定性策略梯度(DDPG)的控制方法。首先,建立智能装卸机械设备运动学模型;其次,基于DDPG算法建立装卸动作控制模型;再次,利用演员(Actor)网络(策略网络)和评论者(Critic)网络(价值网络)来改进DDPG中的装卸动作控制过程;最后,优化奖励函数,对Actor网络和Critic网络进行训练,实现装卸机械设备控制。实验结果表明,智能装卸机械设备实际运动轨迹与期望轨迹非常重合和接近,关节位置误差始终低于5.0 cm,姿态角误差始终低于1.00°,能够对关节位置和姿态角进行有效控制,所提改进DDPG算法的控制效果较好。 展开更多
关键词 改进深度确定性策略梯度算法 智能装卸机械设备 运动学模型 控制方法
下载PDF
基于深度确定性策略梯度算法的风光储系统联合调度策略 被引量:8
4
作者 张淑兴 马驰 +3 位作者 杨志学 王尧 吴昊 任洲洋 《中国电力》 CSCD 北大核心 2023年第2期68-76,共9页
针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架... 针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等,引入了深度确定性策略梯度算法,利用其环境交互、策略探索的机制,学习风光储系统的联合调度策略,以实现对联合系统功率跟踪,减少弃风弃光以及储能充放电。最后,借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析,结果表明所提方法可以较好地适应不同时期的风光变化,得到在给定风光下联合系统的调度策略。 展开更多
关键词 风光储联合系统 联合调度策略 确定性 深度强化学习 深度确定性策略梯度算法
下载PDF
基于改进深度确定性策略梯度算法的微电网能量优化调度 被引量:7
5
作者 李瑜 张占强 +1 位作者 孟克其劳 魏皓天 《电子测量技术》 北大核心 2023年第2期73-80,共8页
针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低... 针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低为目标,实现微电网的能量优化调度。首先,采用马尔可夫决策过程对微电网优化问题进行建模;其次,采用Sumtree结构的优先经验回放池提升样本利用效率,并且应用重要性采样来改善状态分布对收敛结果的影响。最后,本文利用真实的电力数据进行仿真验证,结果表明,提出的优化调度算法可以有效地学习到使微电网系统经济成本最低的运行策略,所提出的算法总运行时间比传统算法缩短了7.25%,运行成本降低了31.5%。 展开更多
关键词 优先经验回放 微电网能量优化调度 深度确定性策略梯度算法
原文传递
基于深度确定性策略梯度算法的智能水下机器人局部路径规划
6
作者 吕茜 党康宁 《科学技术创新》 2023年第20期224-228,共5页
路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件... 路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件,使算法适用于水下机器人的运动学模型。仿真试验验证了采用DDPG算法训练的水下机器人能够在航道水域环境中安全快速地规划和避开障碍物,实现自主安全航行。 展开更多
关键词 智能水下机器人 局部路径规划 深度确定性策略梯度(DDPG)算法 自主安全航行
下载PDF
基于深度确定性策略梯度的粒子群算法 被引量:5
7
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 群体智能 粒子群优化算法
下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
8
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
下载PDF
基于深度强化学习的自适应不确定性经济调度 被引量:71
9
作者 彭刘阳 孙元章 +2 位作者 徐箭 廖思阳 杨丽 《电力系统自动化》 EI CSCD 北大核心 2020年第9期33-42,共10页
当风电、光伏等间歇性电源大规模接入电力系统时,为应对其出力的不确定性,电力系统经济调度模型需建立在对不确定性建模的基础上,建模精确度将直接影响调度结果的精确度。但当系统同时包含风电、光伏和负荷复杂的不确定性时,对系统整体... 当风电、光伏等间歇性电源大规模接入电力系统时,为应对其出力的不确定性,电力系统经济调度模型需建立在对不确定性建模的基础上,建模精确度将直接影响调度结果的精确度。但当系统同时包含风电、光伏和负荷复杂的不确定性时,对系统整体不确定性进行精确建模显得尤为困难。针对这一问题,引入深度强化学习中深度确定性策略梯度算法,避免对复杂的不确定性进行建模,利用其与环境交互、根据反馈学习改进策略的机制,自适应不确定性的变化。为确保算法适用性,进行了模型泛化方法的设计,针对算法稳定性问题进行了感知-学习比例调整和改进经验回放的机制设计。算例结果表明,所提方法能在自适应系统不确定性的基础上,实现任意场景下的电力系统动态经济调度。 展开更多
关键词 间歇性电源 确定性 动态经济调度 深度强化学习 深度确定性策略梯度算法
下载PDF
基于深度强化学习的电力系统紧急切机稳控策略生成方法
10
作者 高琴 徐光虎 +3 位作者 夏尚学 杨欢欢 赵青春 黄河 《电力科学与技术学报》 北大核心 2025年第1期39-46,共8页
电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以... 电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以及涉及的安全约束,并将电力系统稳控模型转换为马尔科夫决策过程,再采用特征评估与斯皮尔曼(Spearman)等级相关系数方法筛选出最典型的特征数据;随后,为提高稳控策略智能体的训练效率,提出基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的稳控策略训练框架;最后,在IEEE 39节点系统和某实际电网中进行测试验证。研究结果显示,所提方法能够根据系统的运行状态和对故障的响应,自动调整生成切机稳控策略,在决策效果和效率方面都表现出更好的性能。 展开更多
关键词 新能源电力系统 稳控策略 强化学习 深度确定性策略梯度算法 马尔科夫模型
下载PDF
考虑可变旋转参数的机器人多轴孔装配强化学习策略
11
作者 鄢智超 周勇 +1 位作者 胡楷雄 李卫东 《计算机集成制造系统》 北大核心 2025年第3期815-827,共13页
针对目前机器人多轴孔装配学习策略严重依赖人工示教数据,导致训练效率低和场景适应性差等问题,提出一种考虑可变旋转参数的机器人多轴孔装配强化学习策略。首先,提出一种可变旋转参数的姿态调整模型,据此采集多轴孔接触力学信息与姿态... 针对目前机器人多轴孔装配学习策略严重依赖人工示教数据,导致训练效率低和场景适应性差等问题,提出一种考虑可变旋转参数的机器人多轴孔装配强化学习策略。首先,提出一种可变旋转参数的姿态调整模型,据此采集多轴孔接触力学信息与姿态调整动作的对应关系数据,以此作为装配技能的预训练学习数据。进而,提出一种改进深度确定性策略梯度(DDPG)强化学习算法,通过多因素稀疏奖励函数对装配动作进行合适的奖励评价以提高学习效率和成功率。最后,在仿真和实验平台上进行了多轴孔电子元器件装配的案例研究,结果表明,所提方法具有良好的场景适应性,相对经典强化学习方法能有效提高装配的学习效率和成功率,同时明显减小了装配接触力/力矩。 展开更多
关键词 协作机器人 多轴孔装配 姿态调整模型 改进深度确定性策略梯度算法
下载PDF
基于DDPG优化方法的插电式混合动力汽车等效燃油消耗最小控制策略
12
作者 徐晓东 韦文祥 甘紫东 《汽车实用技术》 2025年第5期8-13,共6页
为提高混动汽车的燃油经济性,以插电式混合动力汽车作为研究对象,采用深度确定性策略梯度(DDPG)算法对等效燃油消耗最小策略(ECMS)的等效因子和电池荷电状态(SOC)进行优化。将深度学习的感知能力与强化学习的决策能力相结合,解决了对混... 为提高混动汽车的燃油经济性,以插电式混合动力汽车作为研究对象,采用深度确定性策略梯度(DDPG)算法对等效燃油消耗最小策略(ECMS)的等效因子和电池荷电状态(SOC)进行优化。将深度学习的感知能力与强化学习的决策能力相结合,解决了对混合动力汽车的能量管理优化问题。在MATLAB/Simulink中搭建整车仿真模型进行试验,结果表明,采用新欧洲驾驶循环特定工况,在满足车辆正常行驶动力需求下,基于DDPG算法优化的等效油耗极小值算法燃油消耗明显低于双深度Q网络(DDQN)和传统的ECMS,同时维持电池SOC的平衡,保证了多目标平衡性。 展开更多
关键词 插电式混合动力汽车 确定性策略梯度算法 等效燃油消耗最小控制策略 等效因子 多目标平衡
下载PDF
航空混合动力系统能量管理策略研究综述
13
作者 张丁予 沈挺 《航空发动机》 北大核心 2025年第1期12-20,共9页
能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。... 能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。通过阐述强化学习原理,分析了深度Q网络算法和深度确定性策略梯度算法的奖励原理、神经网络更新原理、以及各自优缺点及适用场景,并提出基于规则类能量管理策略对于专家经验依赖性较高等缺陷,可以通过将其与基于智能算法内部创新融合进行缓解的措施。在此基础上,展望了能量管理策略的未来发展趋势为智能内部算法、智能与其他类型算法的融合创新等,可以为后续航空混动系统能量管理策略研究提供一定的参考。 展开更多
关键词 能量管理策略 深度Q网络算法 深度确定性策略梯度算法 强化学习 航空混合动力系统
下载PDF
融合供热系统贮热能力的机组一体化调峰调频控制策略
14
作者 蒋欣军 乔依林 +2 位作者 华山 戴维保 张宏江 《电气自动化》 2025年第2期19-22,共4页
针对火力发电厂中供热系统因能量传输存在惯性大、扰动多和耦合现象强烈等导致的调峰调频能力显著下降以及机组动态特性差等问题,设计了一种基于深度确定性策略梯度算法和线性自抗扰控制算法相结合的机组一体化调峰调频控制策略。利用... 针对火力发电厂中供热系统因能量传输存在惯性大、扰动多和耦合现象强烈等导致的调峰调频能力显著下降以及机组动态特性差等问题,设计了一种基于深度确定性策略梯度算法和线性自抗扰控制算法相结合的机组一体化调峰调频控制策略。利用线性自抗扰代替传统的比例积分控制,将系统中的内扰和外扰均归总到系统的总扰动中,并利用线性自抗扰自带的观测器进行实时估计,同时设计扰动补偿环节,对扰动估计值进行实时补偿,从而消除扰动对系统的影响。为使系统获得参数优化能力,引入深度学习算法,对线性自抗扰中的控制带宽和观测带宽进行实时调节,使系统在任意时刻均具有最优参数,保证系统的暂稳态运行能力。为验证所提控制策略的正确性和优异性,在MATLAB/Simulink试验平台中搭建系统的数字仿真模型,并与比例积分控制策略进行对比试验。结果表明:机组一体化控制策略不但使系统获得了优异的动态特性,而且降低了系统的绝对误差,提高了系统的控制精度。 展开更多
关键词 调峰调频 深度确定性策略梯度算法 线性自抗扰控制算法 数字仿真 机组一体化策略
下载PDF
基于遗传算法优化的深度强化学习-PI空气舵伺服系统控制策略 被引量:5
15
作者 洪子祺 许文波 +2 位作者 吕晨 欧阳权 王志胜 《机电工程》 CAS 北大核心 2023年第7期1071-1078,共8页
针对传统比例积分控制难以选定控制性能更好参数的问题,以空气舵伺服系统为研究对象,提出了一种基于遗传算法优化的强化学习-PI的控制方法。首先,建立了空气舵伺服系统的数学模型;然后,采用遗传算法优化了PI控制器的初始参数;采用深度... 针对传统比例积分控制难以选定控制性能更好参数的问题,以空气舵伺服系统为研究对象,提出了一种基于遗传算法优化的强化学习-PI的控制方法。首先,建立了空气舵伺服系统的数学模型;然后,采用遗传算法优化了PI控制器的初始参数;采用深度确定性策略梯度算法对当前PI控制器进行了实时整定,从而实现了对空气舵伺服系统进行位置指令控制的功能;最后,在Simulink中通过仿真分析,对所采用的方法应用于空气舵伺服系统的效果进行了验证。研究结果表明:改进的算法在参数摄动时,具备一定的在线稳定性;在空载情况下,所需要的调节时间要小于遗传算法-PI、DDPG-PI与传统PI算法,至少缩短了20%;同时,在负载情况下,相比其他3种方法,改进算法的波动幅值与负载结束后回到稳态时间至少缩短了15%,证明了所使用方法在空气舵伺服系统里的有效性。 展开更多
关键词 伺服系统 比例积分(PI)控制器 遗传算法 深度确定性策略梯度算法 参数优化 SIMULINK
下载PDF
基于多智能体算法的多微电网-配电网分层协同调度策略 被引量:24
16
作者 陈池瑶 苗世洪 +3 位作者 姚福星 王廷涛 王佳旭 魏文荣 《电力系统自动化》 EI CSCD 北大核心 2023年第10期57-65,共9页
近年来,作为消纳可再生能源的有效方式之一,微电网在新型电力系统中扮演了愈来愈重要的角色,取得了显著的发展。但微电网的大量接入,改变了传统配电网的单级调度模式,使得调度过程中所面临的计算和通信任务日益繁重,而现行调度策略难以... 近年来,作为消纳可再生能源的有效方式之一,微电网在新型电力系统中扮演了愈来愈重要的角色,取得了显著的发展。但微电网的大量接入,改变了传统配电网的单级调度模式,使得调度过程中所面临的计算和通信任务日益繁重,而现行调度策略难以兼顾配电网运营商及微电网等多主体的利益诉求,也难以满足调度过程的计算高效性与通信私密性要求。对此,提出了一种基于多智能体算法的多微电网-配电网分层协同调度策略。首先,考虑配电网运营商与微电网在电力市场运行中的主从关系,构建了基于双层Stackelberg博弈的多微电网-配电网电力交易模型;然后,将多微电网-配电网协同调度表述为马尔可夫决策过程,采用基于数据驱动的多智能体深度策略性梯度算法求解Stackelberg均衡;最后,基于改进IEEE 33节点系统开展算例分析,验证了所提模型及算法的有效性。 展开更多
关键词 多微电网 配电网 STACKELBERG博弈 多智能体 深度确定性策略梯度算法 协同调度
下载PDF
DDPG深度强化学习算法在无人船目标追踪与救援中的应用
17
作者 宋雷震 吕东芳 《黑龙江大学工程学报(中英俄文)》 2024年第1期58-64,共7页
为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳... 为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳定成功率接近100%,性能优异。该设计的算法最终回合累积奖励值能够稳定在10左右,而平均时长则能稳定在80 s左右,能够根据周边环境的状态调整自己的运动策略,满足海上救援活动中的紧迫性要求,能为相关领域的研究提供一条新的思路。 展开更多
关键词 无人船 目标追踪 海上救援 深度确定性策略梯度算法(DDPG)
下载PDF
基于扰动流体与TD3的无人机路径规划算法 被引量:3
18
作者 陈康雄 刘磊 《电光与控制》 CSCD 北大核心 2024年第1期57-62,共6页
针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动... 针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动态未知环境下的无人机路径规划问题,实现了无人机路径规划方案的快速收敛。仿真结果表明,对算法的改进可大幅提升网络训练效率,且能在保证避障实时性的前提下,满足航迹质量需求,为路径规划任务中应用深度强化学习提供了新思路。 展开更多
关键词 无人机 路径规划 双延迟深度确定性策略梯度算法 深度强化学习 扰动流体动态系统
下载PDF
基于改进TD3算法的无人机轨迹规划 被引量:1
19
作者 牟文心 时宏伟 《计算机系统应用》 2024年第12期197-209,共13页
深度强化学习算法在无人机的航迹规划任务中的应用越来越广泛,但是许多研究没有考虑随机变化的复杂场景,针对以上问题,本文提出一种基于TD3改进的PP-CMNTD3算法,提出了一种简单有效的先验策略并且借鉴人工势场的思想设计了密集奖励,能... 深度强化学习算法在无人机的航迹规划任务中的应用越来越广泛,但是许多研究没有考虑随机变化的复杂场景,针对以上问题,本文提出一种基于TD3改进的PP-CMNTD3算法,提出了一种简单有效的先验策略并且借鉴人工势场的思想设计了密集奖励,能够更好地引导无人机有效避开障碍物并且快速接近目标点.仿真结果表明,算法的改进可以有效提高网络的训练效率以及在复杂场景中的航迹规划表现,同时能够在不同初始电量的情况下都能够灵活调整策略,做到在能耗和迅速抵达目的地之间的有效平衡. 展开更多
关键词 深度强化学习 无人机 航迹规划 人工势场 双延迟深度确定性策略梯度算法
下载PDF
基于DDPG算法的可再生能源系统竞标策略
20
作者 冯伊豪 黄超 +1 位作者 王龙 罗熊 《计算机技术与发展》 2022年第9期154-160,共7页
随着中国电力现货市场建设步伐的加快以及大规模可再生能源电厂的涌现,可再生能源参与电力现货市场竞标策略研究对提升电厂的经济效益愈发重要。但可再生能源发电功率与电价的不确定性为其参与电力市场竞标带来了巨大的挑战。为了解决... 随着中国电力现货市场建设步伐的加快以及大规模可再生能源电厂的涌现,可再生能源参与电力现货市场竞标策略研究对提升电厂的经济效益愈发重要。但可再生能源发电功率与电价的不确定性为其参与电力市场竞标带来了巨大的挑战。为了解决上述问题,该文提出了基于深度确定性策略梯度(DDPG)算法的风-光-储可再生能源系统日前竞标策略与日内实时能量调度策略。面向日前电力市场,基于日前预测信息,以提升运营收入为目标优化竞标电量,建立日前市场竞标模型;面向实时电力市场,基于超短期预测信息与日前竞标策略,建立日内实时能量调度模型,通过控制蓄电池的充放电过程调整系统的实际供电量。实验结果表明,基于DDPG算法的可再生能源系统竞标与能量调度策略可有效提升系统的收入。 展开更多
关键词 电力现货市场 深度确定性策略梯度算法 可再生能源系统 日前市场竞标 实时能量调度
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部