期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法 被引量:4
1
作者 张严心 孔涵 +2 位作者 殷辰堃 王子豪 黄志清 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期459-466,共8页
针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience rep... 针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience replay based on a distributed paradigm, DPER-MASAC).该算法中的行动者以并行与环境交互的方式收集经验数据,为突破单纯最近经验在多智能体高吞吐量情况下被高概率抽取的局限性,提出更为普适的改进的基于优先级的概率方式对经验数据进行抽样利用的模式,并对智能体的网络参数进行更新.为验证算法的效率,设计了难度递增的2类合作和竞争关系共存的捕食者-猎物任务场景,将DPER-MASAC与多智能体软行动-评论者算法(multi-agent soft Actor-Critic, MASAC)和带有优先经验回放机制的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with prioritized experience replay, PER-MASAC)2种基线算法进行对比实验.结果表明,采用DPER-MASAC训练的捕食者团队其决策水平在最终性能和任务成功率2个维度上均有明显提升. 展开更多
关键词 多智能体系统(MAS) 多智能体深度强化学习(DRL) 优先经验回放机制 分布式结构 抽样概率 软行动-评论者算法
下载PDF
基于改进优先经验回放的SAC算法路径规划 被引量:1
2
作者 崔立志 钟航 董文娟 《空间控制技术与应用》 CSCD 北大核心 2023年第5期55-64,共10页
为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优... 为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优先度与TD误差构建的样本混合优先度的离散度计算样本采样概率,进一步提出基于改进优先经验回放方法的柔性动作评价算法,提高模型学习效率.仿真实验结果验证了提出的改进柔性动作评价算法在各个参数配合下的有效性及改进优先经验回放方法在连续控制任务中模型学习效率的优越性. 展开更多
关键词 状态优先 TD误差 离散度 优先经验回放 学习效率
下载PDF
一种多重优先经验回放的麻将游戏数据利用方法 被引量:2
3
作者 李淑琴 李奕 《重庆理工大学学报(自然科学)》 CAS 北大核心 2022年第12期162-169,共8页
针对大众麻将AI训练时经验回放机制中样本均匀采样导致训练缓慢的问题,提出了一种多重优先经验回放算法,即从时序差分误差、局面复杂程度、动作即时奖励3个维度对经验样本进行优先级标记,每次采样时优先级高的样本高概率被抽取来更新神... 针对大众麻将AI训练时经验回放机制中样本均匀采样导致训练缓慢的问题,提出了一种多重优先经验回放算法,即从时序差分误差、局面复杂程度、动作即时奖励3个维度对经验样本进行优先级标记,每次采样时优先级高的样本高概率被抽取来更新神经网络。为了验证算法的有效性,构建了大众麻将自博弈平台进行相应的实验验证。实验结果表明:相比随机经验回放方法,新方法将麻将AI的训练速度提升了22.5%。 展开更多
关键词 大众麻将 多重优先经验回放 时序差分误差 自博弈
下载PDF
基于排序优先经验回放的竞争深度Q网络学习 被引量:7
4
作者 周瑶瑶 李烨 《计算机应用研究》 CSCD 北大核心 2020年第2期486-488,共3页
为减少深度Q网络(DQN)算法的训练时间,采用结合优先经验回放机制与竞争网络结构的DQN方法,针对Open AI Gym平台cart pole和mountain car两个经典控制问题进行研究,其中经验回放采用基于排序的机制,而竞争结构中采用深度神经网络。仿真... 为减少深度Q网络(DQN)算法的训练时间,采用结合优先经验回放机制与竞争网络结构的DQN方法,针对Open AI Gym平台cart pole和mountain car两个经典控制问题进行研究,其中经验回放采用基于排序的机制,而竞争结构中采用深度神经网络。仿真结果表明,相比于常规DQN算法、基于竞争网络结构的DQN方法和基于优先经验回放的DQN方法,该方法具有更好的学习性能,训练时间最少。同时,详细分析了算法参数对于学习性能的影响,为实际运用提供了有价值的参考。 展开更多
关键词 强化学习 深度Q网络 竞争网络 排序优先经验回放
下载PDF
MADDPG算法并行优先经验回放机制 被引量:9
5
作者 高昂 董志明 +2 位作者 李亮 宋敬华 段莉 《系统工程与电子技术》 EI CSCD 北大核心 2021年第2期420-433,共14页
多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法是深度强化学习方法在多智能体系统(multi-agent system,MAS)领域的重要运用,为提升算法性能,提出基于并行优先经验回放机制的MADDPG算法。分... 多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法是深度强化学习方法在多智能体系统(multi-agent system,MAS)领域的重要运用,为提升算法性能,提出基于并行优先经验回放机制的MADDPG算法。分析算法框架及训练方法,针对算法集中式训练、分布式执行的特点,采用并行方法完成经验回放池数据采样,并在采样过程中引入优先回放机制,实现经验数据并行流动、数据处理模型并行工作、经验数据优先回放。分别在OpenAI多智能体对抗、合作两类典型环境中,从训练轮数、训练时间两个维度对改进算法进行了对比验证,结果表明,并行优先经验回放机制的引入使得算法性能提升明显。 展开更多
关键词 多智能体系统 深度强化学习 并行方法 优先经验回放 深度确定性策略梯度
下载PDF
基于优先经验回放可迁移深度强化学习的高铁调度 被引量:1
6
作者 代学武 吴越 +2 位作者 石琦 崔东亮 俞胜平 《控制与决策》 EI CSCD 北大核心 2023年第8期2375-2388,共14页
高铁行车调度是一个复杂的多阶段序列决策问题,需要考虑列车、线路设备等条件,且决策空间随问题规模的增大呈指数增长.而深度强化学习(DQN)兼备强大的搜索和学习能力,为高铁调度提供了新的解决方案,但存在经验利用效率低、迁移能力差等... 高铁行车调度是一个复杂的多阶段序列决策问题,需要考虑列车、线路设备等条件,且决策空间随问题规模的增大呈指数增长.而深度强化学习(DQN)兼备强大的搜索和学习能力,为高铁调度提供了新的解决方案,但存在经验利用效率低、迁移能力差等问题.本文提出一种基于优先经验回放可迁移深度强化学习的高铁调度方法.将包含股道运用计划等约束的高铁调度问题构建为多阶段序列决策过程,为提高算法的迁移能力,提出一种新的支持源域和目标域共享的状态向量和动作空间.为提高经验的利用效率和算法的收敛速度,设计了一种融合优先经验回放的深度Q网络训练方法.以徐兰线小规模案例为源域问题的经验学习实验表明,所提算法的经验利用效率和算法收敛速度优于传统DQN算法,并可适当增大优先级指数和调节权重参数以改善其收敛性能.以京沪线繁忙路段的晚点案例为目标域问题,本文提出的在线决策算法相比于经典的混合整数规划算法,决策时间平均减少约75%,且在近77%的案例中,总晚点时间的性能损失在15%以内. 展开更多
关键词 高速铁路 调度算法 深度强化学习 状态向量 动作空间 优先经验回放
原文传递
一种基于双经验池优先采样的深度强化学习算法
7
作者 李思博 臧兆祥 吕相霖 《长江信息通信》 2023年第11期73-76,共4页
智能体在游戏、机器人控制、自动驾驶和自然语言处理等领域有着广泛应用。然而,稀疏奖励问题成为智能体学习和探索的困难之一。文章提出了改进算法,采用双经验池存储经验样本,并融入优先经验采样以提高采样效率。同时,对奖励函数进行重... 智能体在游戏、机器人控制、自动驾驶和自然语言处理等领域有着广泛应用。然而,稀疏奖励问题成为智能体学习和探索的困难之一。文章提出了改进算法,采用双经验池存储经验样本,并融入优先经验采样以提高采样效率。同时,对奖励函数进行重构,细分为多段奖励,以引导智能体学习。实验结果表明,改进算法优于传统DQN(Deep Q-Network)算法和同策略的A2C(Advantage Actor-Critic)算法,有效应对了稀疏奖励问题,并提高了智能体的学习效率。在经典Cartpole游戏环境中进行的实验验证了改进算法的优越性。 展开更多
关键词 稀疏奖励 经验 优先经验回放 奖励函数 深度强化学习
下载PDF
基于改进深度强化学习的SCR脱硝系统复合控制研究
8
作者 赵征 全家乐 刘子涵 《电力科学与工程》 2024年第11期70-78,共9页
针对选择性催化还原(Selective catalytic reduction,SCR)脱硝系统延迟大、扰动多等特点,提出了一种基于改进双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)的SCR脱硝系统复合控制策略。首先,提出了... 针对选择性催化还原(Selective catalytic reduction,SCR)脱硝系统延迟大、扰动多等特点,提出了一种基于改进双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)的SCR脱硝系统复合控制策略。首先,提出了一种融合多步时序差分(Muti-step temporal-difference,MSTD)和优先经验回放(Prioritized experience replay,PER)的改进TD3算法。该算法在策略更新时使用MSTD计算回报,同时利用PER选择重要的经验进行学习,以此提高TD3算法的策略学习能力并加速算法的学习过程。其次,通过设计多维状态观测,综合考虑SCR脱硝系统的前馈信号和验证反馈信号来实现SCR脱硝系统的复合控制,进而维持出口NOx浓度的稳定性。最后,进行仿真实验验证,结果表明基于MSTD-PER-TD3算法的复合控制策略能更有效地克服入口NOx浓度波动对出口NOx浓度的影响,并具有优秀的抗干扰能力和鲁棒性。 展开更多
关键词 TD3算法 多步时序差分 优先经验回放 SCR脱硝系统 复合控制策略
下载PDF
基于PER-DDPG算法的城市轨道交通越区切换研究
9
作者 张军平 王小鹏 王冶力 《山西电子技术》 2024年第3期100-102,共3页
针对传统IEEE802.11越区切换方式存在较高的切换延时以及乒乓切换等问题,提出深度强化学习(Deep Q-Network,DQN)越区切换算法。通过对列车运行的特征状态信息进行提取输入,考虑列车运行速度及场强、切换阈值等动态信息构建越区切换模型... 针对传统IEEE802.11越区切换方式存在较高的切换延时以及乒乓切换等问题,提出深度强化学习(Deep Q-Network,DQN)越区切换算法。通过对列车运行的特征状态信息进行提取输入,考虑列车运行速度及场强、切换阈值等动态信息构建越区切换模型。同时针对算法时间成本复杂度及稳定性,采用优先经验回放深度确定性策略梯度(Prioritized Experience Replay-Deep Deterministic Policy Gradient,PER-DDPG)算法,将列车状态空间信息传输至PER-DDPG网络中进行优化分析。结果表明基于PER-DDPG算法优化后的列车越区切换模型使用该算法时间计算成本降低,数据包传输延时约降低55%。 展开更多
关键词 基于通信列车控制 CBTC系统 IEEE802.11标准 优先经验回放机制深度确定策略梯度算法
下载PDF
一种基于深度Q网络改进的低轨卫星路由算法
10
作者 许向阳 彭文鑫 李京阳 《现代信息科技》 2024年第1期67-70,76,共5页
针对卫星节点高速移动,导致节点之间链路状态变化过快的问题,对基于深度强化学习的卫星路由算法进行了研究,由此提出一种基于深度Q网络改进的卫星路由算法。算法采用虚拟节点的思想,以最小跳数为原则,将跳数和距离设置为奖励函数相关参... 针对卫星节点高速移动,导致节点之间链路状态变化过快的问题,对基于深度强化学习的卫星路由算法进行了研究,由此提出一种基于深度Q网络改进的卫星路由算法。算法采用虚拟节点的思想,以最小跳数为原则,将跳数和距离设置为奖励函数相关参数。同时设置优先经验回放机制,使得算法训练中学习价值最高的样本;最后对网络进行参数的设置并且进行训练。仿真结果表明,从网络传输时延、系统吞吐量、丢包率方面有明显的提升,能有效地适应卫星节点之间链路状态高动态变化。 展开更多
关键词 卫星路由 虚拟节点 优先经验回放 深度Q网络
下载PDF
基于深度强化学习CLPER-DDPG的车辆纵向速度规划
11
作者 柳鹏 赵克刚 +1 位作者 梁志豪 叶杰 《汽车安全与节能学报》 CAS CSCD 北大核心 2024年第5期702-710,共9页
为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训... 为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训练和测试,并对深度确定性策略梯度(DDPG)、结合优先经验回放机制的深度确定性策略梯度(PER-DDPG)、结合优先经验回放机制和课程学习机制的深度确定性策略梯度(CLPER-DDPG)3种算法进行对比实验,并在园区内的真实道路上进行实车实验。结果表明:相比于DDPG算法,CLPER-DDPG算法使规划器的收敛速度提高了56.45%,距离差均值降低了16.61%,速度差均值降低了15.25%,冲击度均值降低了18.96%。此外,当实验场景的环境气候和传感器硬件等参数发生改变时,模型能保证在安全的情况下完成纵向速度规划任务。 展开更多
关键词 自动驾驶 纵向速度规划 深度确定性策略梯度(DDPG)算法 课程学习机制 优先经验回放机制
下载PDF
基于DRL的无人机辅助MEC任务卸载算法
12
作者 吴文娇 郭荣佐 樊相奎 《计算机工程与设计》 北大核心 2024年第9期2697-2703,共7页
针对无人机辅助移动边缘计算系统中任务卸载问题,结合深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)、改进优先经验回放机制、退火思想,提出一种深度强化学习卸载算法PPS-DDPG。采用部分卸载策略,在时延约束下,联... 针对无人机辅助移动边缘计算系统中任务卸载问题,结合深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)、改进优先经验回放机制、退火思想,提出一种深度强化学习卸载算法PPS-DDPG。采用部分卸载策略,在时延约束下,联合优化用户调度、资源分配以及无人机飞行轨迹,以最小化终端用户总能耗为目标建立数学模型,运用深度强化学习算法寻找最优卸载决策。通过大量仿真实验,验证了该算法能够有效降低终端能耗,在性能和收敛程度上优于基准方案。 展开更多
关键词 移动边缘计算 无人机 计算卸载 深度强化学习 轨迹 资源分配 优先经验回放
下载PDF
基于内在好奇心与自模仿学习的探索算法
13
作者 吕相霖 臧兆祥 +1 位作者 李思博 邹耀斌 《现代电子技术》 北大核心 2024年第16期137-144,共8页
针对深度强化学习算法在部分可观测环境中面临的稀疏奖励、信息缺失等问题,提出一种结合好奇心模块与自模仿学习的近端策略优化算法。该算法利用随机网络来生成探索过程中的经验样本数据,然后利用优先经验回放技术选取高质量样本,通过... 针对深度强化学习算法在部分可观测环境中面临的稀疏奖励、信息缺失等问题,提出一种结合好奇心模块与自模仿学习的近端策略优化算法。该算法利用随机网络来生成探索过程中的经验样本数据,然后利用优先经验回放技术选取高质量样本,通过自模仿学习对优秀的序列轨迹进行模仿,并更新一个新的策略网络用于指导探索行为。在Minigrid环境中设置了消融与对比实验,实验结果表明,所提算法在收敛速度上具有明显优势,并且能够完成更为复杂的部分可观测环境探索任务。 展开更多
关键词 好奇心模块 自模仿学习 深度强化学习 近端策略优化 随机网络 优先经验回放
下载PDF
基于改进深度确定性策略梯度算法的电压无功优化策略 被引量:3
14
作者 李付强 张文朝 +4 位作者 潘艳 张野 赵伟 李杏 周永东 《智慧电力》 北大核心 2024年第5期1-7,30,共8页
电压无功优化是用来调节电压,保证电力系统安全、稳定、优质运行的必要手段。针对当前电力系统电压控制矛盾突出、无功优化难度大的问题,提出了1种基于改进深度确定性策略梯度(I-DDPG)算法的电压控制策略。首先,建立电力系统最小网损化... 电压无功优化是用来调节电压,保证电力系统安全、稳定、优质运行的必要手段。针对当前电力系统电压控制矛盾突出、无功优化难度大的问题,提出了1种基于改进深度确定性策略梯度(I-DDPG)算法的电压控制策略。首先,建立电力系统最小网损化的目标函数,采用马尔可夫决策过程(MDP)对电力系统无功优化问题进行建模,引入了Ornstein-Uhlenbeck(OU)过程生成自相关噪声,使智能体可以确保首先在1个方向上探索,提高学习效率;其次,采用Sumtree结构的优先经验回放池,提高训练样本利用率,并采用重要性采样(IS)来优化收敛结果。最后,通过IEEE30节点标准系统算例,验证了本文所提出的方法在运行过程中使得平均网损相比于之前的系统降低19.64%,有效降低了电网有功损耗,符合电力系统发展的需要。 展开更多
关键词 强化学习 马尔可夫决策过程 OU噪声 优先经验回放
下载PDF
基于深度强化学习的机械臂多模混合控制
15
作者 李家乐 张建锋 +2 位作者 李彬 刘天琅 陈检 《计算机工程与设计》 北大核心 2024年第9期2835-2843,共9页
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别... 针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别进行训练;将经过初步训练的多个模式以距离阈值或奖励积累阈值进行切换控制,消除混合控制存在的冲突;结合机械臂单元运动学特点设计具有软体性质的多连杆机械臂平面仿真模型。实验验证所提方法能够有效提升机械臂动态避障能力,避免多任务间的冲突。 展开更多
关键词 深度强化学习 机械臂 双重演员正则化评论家算法(DARC) 奖励机制 动态避障 优先经验回放机制 连续动作控制
下载PDF
基于多智能体深度强化学习的多船协同避碰策略
16
作者 黄仁贤 罗亮 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期1972-1988,共17页
为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延... 为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。 展开更多
关键词 多智能体深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 多智能体Softmax深层双确定性策略梯度
下载PDF
基于改进TD3的欠驱动无人水面艇路径跟踪控制
17
作者 曲星儒 江雨泽 +2 位作者 李初 龙飞飞 张汝波 《上海海事大学学报》 北大核心 2024年第3期1-9,共9页
针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设... 针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设计基于视线制导的航速航向联合制导律,引导USV准确跟踪期望路径。在动力学层次上,设计基于改进TD3的强化学习动力学控制器;采用基于时间差分误差的优先经验回放技术,建立包含路径跟踪成功和失败采样信息的双经验池,通过自适应比例系数调整每批次回放数据的组成结构;搭建包含长短期记忆网络的评价网络和策略网络,利用历史状态序列信息提高路径跟踪控制器的训练效率。仿真结果表明,基于改进TD3的控制方法可有效提高欠驱动USV的跟踪精度。该方法不依赖USV模型,可为USV路径跟踪控制提供参考。 展开更多
关键词 无人水面艇 路径跟踪控制 双延迟深度确定性策略梯度 优先经验回放 长短期记忆网络
下载PDF
基于改进TD3的综合能源优化调度研究
18
作者 李健明 成贵学 +1 位作者 靳文星 蒋明喆 《计算机仿真》 2024年第6期108-113,共6页
针对综合能源系统的经济优化调度问题,提出一种基于优先经验回放机制与绝对均值法的双延迟深度确定性策略梯度算法(TD3),优先经验回放机制通过区分样本价值,优化采样过程,绝对均值法计算TD误差,确保样本价值的可靠性。以系统总运行成本... 针对综合能源系统的经济优化调度问题,提出一种基于优先经验回放机制与绝对均值法的双延迟深度确定性策略梯度算法(TD3),优先经验回放机制通过区分样本价值,优化采样过程,绝对均值法计算TD误差,确保样本价值的可靠性。以系统总运行成本为指标,构建系统调度模型,并设计环境状态、调度动作和奖励函数。采用某高校微电网算例仿真,结果表明所提算法较TD3算法、深度确定性策略梯度算法(DDPG)和CPLEX求解器能更有效的协调设备出力,提升系统的经济性。 展开更多
关键词 深度强化学习 综合能源系统 绝对均值 优先经验回放
下载PDF
基于深度强化学习的大规模敏捷软件项目调度 被引量:1
19
作者 申晓宁 毛鸣健 +1 位作者 沈如一 宋丽妍 《郑州大学学报(工学版)》 CAS 北大核心 2023年第5期17-23,共7页
为解决大规模敏捷软件项目调度问题,首先,将其分解为故事选择、故事分配和任务分配3个强耦合子问题,并引入用户故事的新增与删除、每个冲刺阶段中员工工作时长的变化等动态事件,考虑团队开发速度、任务时长和技能等约束,以最大化项目所... 为解决大规模敏捷软件项目调度问题,首先,将其分解为故事选择、故事分配和任务分配3个强耦合子问题,并引入用户故事的新增与删除、每个冲刺阶段中员工工作时长的变化等动态事件,考虑团队开发速度、任务时长和技能等约束,以最大化项目所完成用户故事总价值为目标建立大规模敏捷软件项目调度数学模型;其次,根据问题特征设计了马尔可夫决策过程,采用10个状态特征描述每个冲刺阶段开始时的敏捷调度环境,12个复合调度规则作为智能体的候选动作,并按照调度模型的目标函数定义奖励;最后,提出一种基于复合调度规则的优先经验回放双重深度Q网络算法来求解所建模型,引入双重深度Q网络(DDQN)策略和优先经验回放策略,避免深度Q网络的过估计问题,并提高经验回放池中轨迹信息的利用效率。为了验证所提算法的有效性,在6个大规模敏捷软件项目调度算例中进行了实验,分析了所提算法的收敛性。根据算法性能测度,与已有代表性算法DQN、双重深度Q网络以及仅使用单一复合调度规则的方法进行对比。结果表明:所提算法在6个不同算例中均获得了最高的平均累计奖励值。 展开更多
关键词 强化学习 大规模 敏捷软件项目调度 深度Q网络 复合调度规则 优先经验回放 强耦合
下载PDF
超密集网络中基于改进DQN的接入选择算法
20
作者 唐宏 刘小洁 +1 位作者 甘陈敏 陈榕 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2023年第5期107-113,共7页
在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的... 在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的接入选择问题,综合考虑网络状态、用户偏好以及业务类型,结合负载均衡策略,提出了一种基于改进深度Q网络(deep Q network,DQN)的超密集网络接入选择算法。首先,通过分析网络属性和用户业务的偏好对网络选择的影响,选择合适的网络参数作为接入选择算法的参数;其次,将网络接入选择问题利用马尔可夫决策过程建模,分别对模型中的状态、动作和奖励函数进行设计;最后,利用DQN求解选网模型,得到最优选网策略。此外,为了避免DQN过高估计Q值,对传统DQN的目标函数进行优化,并且在训练神经网络时,引入了优先经验回放机制以提升学习效率。仿真结果表明,所提算法能够解决传统DQN的高估问题,加快神经网络的收敛,有效减少用户的阻塞,并改善网络的吞吐能力。 展开更多
关键词 超密集网络 接入选择 深度Q网络(DQN) 优先经验回放 负载均衡
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部