期刊文献+
共找到217篇文章
< 1 2 11 >
每页显示 20 50 100
DDPG深度强化学习算法在无人船目标追踪与救援中的应用
1
作者 宋雷震 吕东芳 《黑龙江大学工程学报(中英俄文)》 2024年第1期58-64,共7页
为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳... 为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳定成功率接近100%,性能优异。该设计的算法最终回合累积奖励值能够稳定在10左右,而平均时长则能稳定在80 s左右,能够根据周边环境的状态调整自己的运动策略,满足海上救援活动中的紧迫性要求,能为相关领域的研究提供一条新的思路。 展开更多
关键词 无人船 目标追踪 海上救援 深度确定性策略梯度算法(ddpg)
下载PDF
基于改进DDPG算法的WSN优化策略研究
2
作者 李泽山 郭改枝 《重庆科技学院学报(自然科学版)》 CAS 2024年第3期63-67,共5页
DDPG算法是Actor-Critic和DQN算法的结合体,作为目前深度强化学习中最为经典的算法之一,被广泛应用于WSN。针对DDPG算法训练效率低、收敛速度慢、同步误差大等问题,提出一种基于加权信息熵的深度确定性策略梯度算法。该算法提前对训练... DDPG算法是Actor-Critic和DQN算法的结合体,作为目前深度强化学习中最为经典的算法之一,被广泛应用于WSN。针对DDPG算法训练效率低、收敛速度慢、同步误差大等问题,提出一种基于加权信息熵的深度确定性策略梯度算法。该算法提前对训练数据进行权重分配,根据权重比例训练数据,并将结果通过神经网络集成。实验结果表明,相较于DQN和DDPG算法,WIE-DDPG算法的训练效率较高、收敛速度较快、同步误差较小。 展开更多
关键词 ddpg Actor-Critic DQN 深度强化学习 WSN WIE-ddpg
下载PDF
自注意力机制结合DDPG的机器人路径规划研究
3
作者 王凤英 陈莹 +1 位作者 袁帅 杜利明 《计算机工程与应用》 CSCD 北大核心 2024年第19期158-166,共9页
为更好解决深度确定性策略梯度算法在路径规划中存在样本利用率低、奖励稀疏、网络模型稳定速度慢等问题,提出了一种改进DDPG的算法。通过对机器人相机传感器获取图片信息加入自注意力机制,利用Dotproduct方法计算图片之间的相关性,能... 为更好解决深度确定性策略梯度算法在路径规划中存在样本利用率低、奖励稀疏、网络模型稳定速度慢等问题,提出了一种改进DDPG的算法。通过对机器人相机传感器获取图片信息加入自注意力机制,利用Dotproduct方法计算图片之间的相关性,能够将较高权重精确聚焦在障碍物信息中。在复杂环境中,由于机器人缺乏经验导致难以获得正反馈的奖励,影响了机器人的探索能力。将DDPG算法与HER结合,提出DDPG-HER算法,有效利用正负反馈使机器人从成功和失败的经历中均可学习到适当奖励。通过Gazebo搭建静态和动态仿真环境进行训练和测试,实验结果表明所提出的算法能显著提高样本利用率,加快网络模型稳定的速度,解决奖励稀疏的问题,使机器人在环境未知的路径规划中能够高效地避开障碍物到达目标点。 展开更多
关键词 深度强化学习 深度确定性策略梯度算法(ddpg) 后见经验算法(HER) 自注意力机制 机器人路径规划
下载PDF
基于深度强化学习CLPER-DDPG的车辆纵向速度规划
4
作者 柳鹏 赵克刚 +1 位作者 梁志豪 叶杰 《汽车安全与节能学报》 CAS CSCD 北大核心 2024年第5期702-710,共9页
为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训... 为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训练和测试,并对深度确定性策略梯度(DDPG)、结合优先经验回放机制的深度确定性策略梯度(PER-DDPG)、结合优先经验回放机制和课程学习机制的深度确定性策略梯度(CLPER-DDPG)3种算法进行对比实验,并在园区内的真实道路上进行实车实验。结果表明:相比于DDPG算法,CLPER-DDPG算法使规划器的收敛速度提高了56.45%,距离差均值降低了16.61%,速度差均值降低了15.25%,冲击度均值降低了18.96%。此外,当实验场景的环境气候和传感器硬件等参数发生改变时,模型能保证在安全的情况下完成纵向速度规划任务。 展开更多
关键词 自动驾驶 纵向速度规划 深度确定性策略梯度(ddpg)算法 课程学习机制 优先经验回放机制
下载PDF
基于贪婪DDPG的无人机智能避障算法
5
作者 展望晨 郭乐江 +1 位作者 许世佳 刘重阳 《空天预警研究学报》 CSCD 2024年第5期342-346,共5页
针对传统无人机DDPG避障算法难以解决无人机在未知条件或复杂环境中飞行时的智能避障问题,提出一种基于贪婪DDPG无人机智能避障算法.在传统DDPG算法基础上,通过引入动态调整贪婪度方法和高斯噪声策略,使无人机在探索环境和制定避障策略... 针对传统无人机DDPG避障算法难以解决无人机在未知条件或复杂环境中飞行时的智能避障问题,提出一种基于贪婪DDPG无人机智能避障算法.在传统DDPG算法基础上,通过引入动态调整贪婪度方法和高斯噪声策略,使无人机在探索环境和制定避障策略时,能够更加高效地平衡探索和利用的关系,从而提高学习效率和避障性能.实验结果表明,贪婪DDPG算法在训练效率和泛化能力上均优于传统DDPG算法,显示出良好的鲁棒性. 展开更多
关键词 无人机避障 贪婪ddpg算法 探索策略
下载PDF
基于DDPG改进PID算法的堆肥翻堆作业反馈控制
6
作者 王悦辰 王纪章 +1 位作者 茆寒 姚承志 《中国农机化学报》 北大核心 2024年第6期184-190,200,共8页
在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业... 在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业负荷与翻堆物料含水率、翻堆机行走速度关系模型,并结合翻堆机变频调速控制模型,利用DDPG(Deep Deterministic Policy Gradient)改进PID算法对翻堆作业调速系统进行优化控制。经过Simulink仿真结果表明,DDPG改进PID算法相比传统PID算法在超调量上减少6.7%,调节时间减少2.5 s,并且抗扰动与跟随性能均更优。翻堆作业现场测试结果表明:DDPG改进PID算法的控制方式相比传统PID算法超调量要降低4%、调节时间减少2 s,相比人工控制其调节时间减少6 s。 展开更多
关键词 堆肥 翻堆 PID控制 反馈控制 ddpg算法
下载PDF
基于DDPG算法的MISO通信系统优化
7
作者 赵冬鹤 徐龙艳 翟亚红 《重庆科技学院学报(自然科学版)》 CAS 2024年第2期82-87,共6页
无线通信系统中部署大量天线时会增加硬件成本,且能耗和信号处理的复杂性加大,针对此问题提出了一种基于深度确定性策略梯度(DDPG)算法的多输入单输出(MISO)通信系统优化方案。研究智能反射面(RIS)辅助多用户的MISO系统,在连续状态和动... 无线通信系统中部署大量天线时会增加硬件成本,且能耗和信号处理的复杂性加大,针对此问题提出了一种基于深度确定性策略梯度(DDPG)算法的多输入单输出(MISO)通信系统优化方案。研究智能反射面(RIS)辅助多用户的MISO系统,在连续状态和动作背景下,利用DDPG算法联合设计基站端波束成形矩阵和RIS处相移,以最大化系统加权和率。仿真实验结果表明,该方案与FP算法的加权和率性能相当且收敛性较好,相比未部署RIS的方案具有明显优势。 展开更多
关键词 ddpg算法 智能反射面 波束成形 多输入单输出系统
下载PDF
自动驾驶路径优化的RF-DDPG车辆控制算法研究
8
作者 焦龙飞 谷志茹 +2 位作者 舒小华 袁鹏 王建斌 《湖南工业大学学报》 2024年第1期62-69,共8页
针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法... 针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法的奖励函数,以此优化DDPG的参数,达到所需跟踪精度及稳定性。并且采用aopllo自动驾驶仿真平台,对原始的DDPG算法和改进的RF-DDPG路径跟踪控制算法进行了仿真实验。研究结果表明,所提出的RF-DDPG算法在路径跟踪精度以及鲁棒性能等方面均优于DDPG算法。 展开更多
关键词 自动驾驶 路径跟踪 深度强化学习 路径控制 ddpg算法
下载PDF
基于改进DDPG-PID的芯片共晶键合温度控制
9
作者 刘家池 陈秀梅 邓娅莉 《半导体技术》 CAS 北大核心 2024年第11期973-980,共8页
芯片共晶键合对加热过程中的升温速率、保温时间和温度精度要求较高,在使用传统的比例-积分-微分(PID)温度控制方法时,存在响应时间过长、超调量过大、控制温度不够准确等问题。针对共晶加热台的温度控制问题,提出了一种基于改进的深度... 芯片共晶键合对加热过程中的升温速率、保温时间和温度精度要求较高,在使用传统的比例-积分-微分(PID)温度控制方法时,存在响应时间过长、超调量过大、控制温度不够准确等问题。针对共晶加热台的温度控制问题,提出了一种基于改进的深度确定性策略梯度(DDPG)强化学习算法优化PID参数的控制方法,采用分类经验回放的思想,以奖励值大小为标准对经验进行分类存放,根据智能体当前的状态和下一步动作,从相应的经验池中进行采样并训练,并根据PID控制算法的特性设计了合理的奖励函数,改善了强化学习中奖励稀疏的问题,提高了算法的收敛速度与性能。仿真结果表明,与传统PID控制、常规DDPG-PID控制相比,改进DDPG-PID控制缩短了响应时间,降低了超调量,近乎消除了稳态误差,提高了控制性能和系统稳定性。 展开更多
关键词 芯片共晶键合 深度确定性策略梯度(ddpg)算法 强化学习 温度控制 比例-积分-微分(PID)控制
原文传递
低压配电台区柔性互联系统多目标DDPG优化调度
10
作者 刘文军 李帅虎 +1 位作者 马瑞 何书耘 《智慧电力》 北大核心 2024年第6期62-70,共9页
针对配电台区柔性互联系统(DSAFIS)中源、荷、设备强不确定性,及台区间功率互济特性,提出基于深度确定性策略梯度(DDPG)的台区运行成本、新能源消纳、负载均衡目标协调优化调度方法。构建系统模型与物理系统自动联动的深度强化学习日前... 针对配电台区柔性互联系统(DSAFIS)中源、荷、设备强不确定性,及台区间功率互济特性,提出基于深度确定性策略梯度(DDPG)的台区运行成本、新能源消纳、负载均衡目标协调优化调度方法。构建系统模型与物理系统自动联动的深度强化学习日前优化调度决策框架,设计考虑多目标奖励和运行约束奖励的优化调度DDPG模型;DDPG采用“在线学习”模式,算法收敛后输出日前调度计划给实际DSAFIS。算例验证了所提方法能自动适应系统的强不确定性,且在降低运行成本的同时兼顾了新能源消纳和台区负载均衡。 展开更多
关键词 配电台区柔性互联系统 日前优化调度 ddpg 多目标 负载均衡
下载PDF
基于DDPG的综合化航电系统多分区任务分配优化方法 被引量:1
11
作者 赵长啸 李道俊 +1 位作者 汪鹏辉 田毅 《电讯技术》 北大核心 2024年第1期58-66,共9页
综合化航电系统(Integrated Modular Avionics,IMA)通过时空分区机制实现共享资源平台下的多航电功能集成,分区间的任务分配方法的优劣决定着航电系统的整体效能。针对航电任务集合在多分区内的分配调度问题,提出了一种基于深度强化学... 综合化航电系统(Integrated Modular Avionics,IMA)通过时空分区机制实现共享资源平台下的多航电功能集成,分区间的任务分配方法的优劣决定着航电系统的整体效能。针对航电任务集合在多分区内的分配调度问题,提出了一种基于深度强化学习的优化方法。构建了航电系统模型与任务模型,以系统资源限制与任务实时性需求为约束,以提高系统资源利用率为优化目标,将任务分配过程描述为序贯决策问题。引入马尔科夫决策模型,建立基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)法的IMA任务分配模型并提出通用分配架构;引入状态归一化、行为噪声等策略训练技巧,提高DDPG算法的学习性能和训练能力。仿真结果表明,提出的优化算法迭代次数达到500次时开始收敛,分析800次之后多分区内驻留任务方案在能满足约束要求的同时,最低处理效率提升20.55%。相较于传统分配方案和AC(Actor-Critic)算法,提出的DDPG算法在收敛能力、优化性能以及稳定性上均有显著优势。 展开更多
关键词 综合模块化航空电子系统(IMA) 任务分配及调度 深度强化学习 ddpg算法
下载PDF
基于DDPG的四旋翼无人机姿态控制 被引量:1
12
作者 黄希杰 《指挥控制与仿真》 2024年第2期115-121,共7页
针对未知环境下四旋翼无人机姿态控制实现难、鲁棒性差等问题,提出了基于深度确定性策略(DDPG)算法的智能姿态控制方法。首先,基于欧拉-庞卡莱方程,利用计算机符号推导,建立四旋翼的动力学模型;其次,基于DDPG算法设计四旋翼的姿态控制器... 针对未知环境下四旋翼无人机姿态控制实现难、鲁棒性差等问题,提出了基于深度确定性策略(DDPG)算法的智能姿态控制方法。首先,基于欧拉-庞卡莱方程,利用计算机符号推导,建立四旋翼的动力学模型;其次,基于DDPG算法设计四旋翼的姿态控制器,并在奖励函数设计中引入姿态误差、姿态角速度误差和控制量惩罚项;最后,通过设置不同初始状态值、改变四旋翼结构参数和引入噪声等仿真试验,分析验证控制器的性能。仿真结果表明,该控制器能够引导四旋翼快速响应到期望姿态并保持稳定,同时展现出较好的泛化能力。 展开更多
关键词 四旋翼 动力学模型 深度强化学习 ddpg 姿态控制
下载PDF
基于DDPG算法的无人船动态目标跟踪控制
13
作者 李浩东 林伟 +2 位作者 袁毓 胡智威 冯友兵 《计算机与数字工程》 2024年第8期2361-2366,2399,共7页
为了实现无人船在复杂海况上对目标的追踪,使用DDPG(Deep Deterministic Policy Gradient)算法对无人船进行运动控制,使无人船完成对运动目标的快速追踪。在Simulink中使用Nomoto模型对无人船的运动模型进行建模。针对无人船的运动具有... 为了实现无人船在复杂海况上对目标的追踪,使用DDPG(Deep Deterministic Policy Gradient)算法对无人船进行运动控制,使无人船完成对运动目标的快速追踪。在Simulink中使用Nomoto模型对无人船的运动模型进行建模。针对无人船的运动具有大迟滞性的特点对无人船的状态量进行重构,使无人船智能体可以通过重构的状态空间观测到状态量的高阶差分量。为无人船对运动目标追踪的任务设置了不易陷入局部最优解的奖励函数,最终强化学习智能体通过与环境的交互学会了有效地控制无人船对运动目标进行追踪,验证了算法的有效性。 展开更多
关键词 ddpg 无人船 运动控制 运动目标追踪
下载PDF
衰减高斯噪声DDPG算法的机械臂轨迹规划
14
作者 周雨溪 赵慧 韩晓峰 《农业装备与车辆工程》 2024年第10期111-118,共8页
针对农业采摘机械臂的DDPG算法轨迹规任务中,调查了因高斯噪声标准差取值不当导致的强化学习训练失败问题,提出一种衰减正态噪声的DDPG算法,使高斯标准差σ随训练回合数增加而减小;利用Mujoco物理引擎进行多次仿真训练,验证衰减正态噪... 针对农业采摘机械臂的DDPG算法轨迹规任务中,调查了因高斯噪声标准差取值不当导致的强化学习训练失败问题,提出一种衰减正态噪声的DDPG算法,使高斯标准差σ随训练回合数增加而减小;利用Mujoco物理引擎进行多次仿真训练,验证衰减正态噪声相较于传统正态噪声在轨迹规划任务中的优势。结果表明,改进后的算法在完成采摘机械臂的轨迹规划任务时更为有效,成功解决了存在的问题。 展开更多
关键词 强化学习 ddpg算法 正态噪声 机械臂 轨迹规划
下载PDF
DDPG方法在抖振约束下变弯度翼型/机翼设计的应用研究
15
作者 周思历 孙刚 王聪 《应用数学和力学》 CSCD 北大核心 2024年第1期45-60,共16页
变弯度技术可以提升巡航多升力系数工况下的升阻性能,对于提高整段巡航的经济效益具有重要意义.构造了光滑连续的流动分离函数约束翼型抖振性能,结合变弯度技术与人工神经网络代理模型搭建了某机翼截面翼型的巡航多升力系数工况优化模型... 变弯度技术可以提升巡航多升力系数工况下的升阻性能,对于提高整段巡航的经济效益具有重要意义.构造了光滑连续的流动分离函数约束翼型抖振性能,结合变弯度技术与人工神经网络代理模型搭建了某机翼截面翼型的巡航多升力系数工况优化模型.应用深度确定性策略梯度(DDPG)方法优化此模型,实现了抖振约束下6.8%的巡航平均升阻比提升,优于粒子群和改进灰狼算法对此模型的优化结果.以优化前后翼型分别生成锥形后掠翼,验证了二维翼型变弯度优化对三维机翼的贡献. 展开更多
关键词 气动外形优化 ddpg 变弯度 抖振
下载PDF
基于DDPG的高速飞行器预测校正制导律设计
16
作者 王晓威 殷玮 +2 位作者 杨亚 沈昱恒 颜涛 《航天控制》 CSCD 2024年第2期22-28,共7页
针对高速飞行器在再入滑翔过程中的多约束、强时变问题,本文结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)的在线自主决策优势,根据威胁区信息,实时生成规避策略来进行动态禁飞区规避航迹规划。进一步为增强... 针对高速飞行器在再入滑翔过程中的多约束、强时变问题,本文结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)的在线自主决策优势,根据威胁区信息,实时生成规避策略来进行动态禁飞区规避航迹规划。进一步为增强高速飞行器对环境不确定因素的抗干扰能力,在规避轨迹基础上选取航路特征点集合,采用预测校正在线制导方式,根据飞行任务需求和终端约束,实时校正高速飞行器飞行状态,最终实现高速飞行器精确制导。同时,为验证方法的有效性,开展了相应的数值仿真分析。结果表明,本文方法能够有效规避禁飞区,增强了对不确定因素的适应性,具有一定的工程应用价值。 展开更多
关键词 高速飞行器 禁飞区 ddpg算法 预测校正制导
原文传递
基于PER-DDPG算法的城市轨道交通越区切换研究
17
作者 张军平 王小鹏 王冶力 《山西电子技术》 2024年第3期100-102,共3页
针对传统IEEE802.11越区切换方式存在较高的切换延时以及乒乓切换等问题,提出深度强化学习(Deep Q-Network,DQN)越区切换算法。通过对列车运行的特征状态信息进行提取输入,考虑列车运行速度及场强、切换阈值等动态信息构建越区切换模型... 针对传统IEEE802.11越区切换方式存在较高的切换延时以及乒乓切换等问题,提出深度强化学习(Deep Q-Network,DQN)越区切换算法。通过对列车运行的特征状态信息进行提取输入,考虑列车运行速度及场强、切换阈值等动态信息构建越区切换模型。同时针对算法时间成本复杂度及稳定性,采用优先经验回放深度确定性策略梯度(Prioritized Experience Replay-Deep Deterministic Policy Gradient,PER-DDPG)算法,将列车状态空间信息传输至PER-DDPG网络中进行优化分析。结果表明基于PER-DDPG算法优化后的列车越区切换模型使用该算法时间计算成本降低,数据包传输延时约降低55%。 展开更多
关键词 基于通信列车控制 CBTC系统 IEEE802.11标准 优先经验回放机制深度确定策略梯度算法
下载PDF
基于DDPG的锅炉NO_(x)排放和屏式过热器超温的多目标优化
18
作者 王赫阳 刘骁 +2 位作者 樊昱晨 刘欣 张超群 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第8期787-797,共11页
锅炉空气分级燃烧技术的使用虽降低了NO_(x)排放,但同时造成了炉内高温火焰上移,导致位于炉膛上部的屏式过热器吸热量增加和超温加剧,影响机组的安全运行.因此,锅炉亟需一个可对NO_(x)排放和屏式过热器超温进行协调优化的多目标控制策略... 锅炉空气分级燃烧技术的使用虽降低了NO_(x)排放,但同时造成了炉内高温火焰上移,导致位于炉膛上部的屏式过热器吸热量增加和超温加剧,影响机组的安全运行.因此,锅炉亟需一个可对NO_(x)排放和屏式过热器超温进行协调优化的多目标控制策略.针对目前基于机器学习的锅炉优化模型普遍局限于针对单一锅炉运行目标的优化,提出了基于深度强化学习的锅炉多目标优化模型,包括预测模型和优化模型:预测模型采用深度神经网络构建锅炉运行参数与NO_(x)浓度和屏式过热器温度的非线性映射;优化模型采用深度确定性策略梯度(DDPG)算法训练策略网络,通过优化运行参数实现锅炉的多目标协同控制.对某600MW锅炉的研究结果表明,通过锅炉配风和过热器减温水量等参数的调整,可实现NO_(x)排放和屏式过热器超温率的协同优化,NO_(x)排放平均降低22.6 mg/m^(3),屏式过热器超温率平均降低0.161. 展开更多
关键词 燃煤锅炉 NO_(x)排放 屏式过热器 多目标优化 深度确定性策略梯度
下载PDF
D2D通信增强的蜂窝网络中基于DDPG的资源分配 被引量:1
19
作者 唐睿 庞川林 +2 位作者 张睿智 刘川 岳士博 《计算机应用》 CSCD 北大核心 2024年第5期1562-1569,共8页
针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为... 针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为马尔可夫决策过程,并提出一种基于深度确定性策略梯度(DDPG)算法的机制。通过离线训练,直接构建了从信道状态信息到最佳资源分配策略的映射关系,而且无需求解任何优化问题,因此可通过在线方式部署。仿真结果表明,相较于遍历搜索机制,所提机制在仅损失9.726%性能的情况下将运算时间降低了4个数量级(99.51%)。 展开更多
关键词 终端直通通信 资源分配 马尔可夫决策过程 深度强化学习 深度确定性策略梯度算法
下载PDF
基于APF-LSTM-DDPG算法的移动机器人局部路径规划
20
作者 李永迪 李彩虹 +3 位作者 张耀玉 张国胜 周瑞红 梁振英 《山东理工大学学报(自然科学版)》 CAS 2024年第1期33-41,共9页
针对深度强化学习算法存在训练时间长、收敛速度慢的问题,将深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法和人工势场(artifical potential field,APF)法相融合,引入长短期记忆(long short-term memory,LSTM)神经... 针对深度强化学习算法存在训练时间长、收敛速度慢的问题,将深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法和人工势场(artifical potential field,APF)法相融合,引入长短期记忆(long short-term memory,LSTM)神经网络结构,提出了APF-LSTM-DDPG算法。首先在DDPG算法中添加LSTM,通过记忆单元和遗忘单元将奖励较高的样本优先学习,使模型更快地收敛;其次引入人工势场法,设计相应势场函数,解决环境奖励稀疏的缺点,加速模型收敛进程;然后通过人工势场法修正算法的动作选择,缩短路径长度;最后在机器人仿真平台(robot operating system,ROS)中搭建不同障碍物环境对算法进行了仿真验证。仿真结果表明,APF-LSTM-DDPG算法在搭建的仿真环境中训练时平均奖励能够更快地稳定,提高了算法的成功率并减少了规划路径中的冗余。 展开更多
关键词 深度确定性策略梯度算法 人工势场法 长短期记忆 移动机器人 局部路径规划
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部