期刊文献+
共找到274篇文章
< 1 2 14 >
每页显示 20 50 100
基于Dueling Double DQN的交通信号控制方法
1
作者 叶宝林 陈栋 +2 位作者 刘春元 陈滨 吴维敏 《计算机测量与控制》 2024年第7期154-161,共8页
为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作... 为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作-价值函数的估计值和目标值迭代运算过程进行了优化,克服基于深度强化学习DQN的交通信号控制模型存在收敛速度慢的问题;设计了一个新的Dueling Network解耦交通状态和相位动作的价值,增强Double DQN(DDQN)提取深层次特征信息的能力;基于微观仿真平台SUMO搭建了一个单交叉口模拟仿真框架和环境,开展仿真测试;仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习DQN的交通信号控制方法相比,所提方法能够有效减少车辆平均等待时间、车辆平均排队长度和车辆平均停车次数,明显提升交叉口通行效率。 展开更多
关键词 交通信号控制 深度强化学习 dueling Double DQN dueling Network
下载PDF
基于Dueling DQN算法的列车运行图节能优化研究
2
作者 刘飞 唐方慧 +3 位作者 刘琳婷 胡文斌 哈进兵 钱程 《都市快轨交通》 北大核心 2024年第2期39-46,共8页
通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,... 通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,建立基于区间动态客流概率统计的时刻表迭代优化模型,降低动态客流变化对节能率的影响。对预测Q网络和目标Q网络分别选取自适应时刻估计和均方根反向传播方法,提高模型收敛快速性,同时以时刻表优化前、后总运行时间不变、乘客换乘时间和等待时间最小为优化目标,实现节能时刻表无感切换。以苏州轨道交通4号线为例验证方法的有效性,节能对比试验结果表明:在到达换乘站时刻偏差不超过2 s和列车全周转运行时间不变的前提下,列车牵引节能率达5.27%,车公里能耗下降4.99%。 展开更多
关键词 城市轨道交通 时刻表优化 牵引节能 dueling DQN 动态客流
下载PDF
未知环境下基于Dueling DQN的无人机路径规划研究
3
作者 赵恬恬 孔建国 +1 位作者 梁海军 刘晨宇 《现代计算机》 2024年第5期37-43,共7页
为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;... 为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;最后在仿真环境中对DQN和Dueling DQN展开训练,结果表明:①Dueling DQN能规划出未知环境下从初始点到目标点的无碰撞路径,且能获得更高的奖励值;②经过50000次训练,Dueling DQN的成功率比DQN提高17.71%,碰撞率减少1.57%,超过最长步长率降低16.14%。 展开更多
关键词 无人机 路径规划 深度强化学习 dueling DQN算法
下载PDF
Transformer-Aided Deep Double Dueling Spatial-Temporal Q-Network for Spatial Crowdsourcing Analysis
4
作者 Yu Li Mingxiao Li +2 位作者 Dongyang Ou Junjie Guo Fangyuan Pan 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第4期893-909,共17页
With the rapid development ofmobile Internet,spatial crowdsourcing has becomemore andmore popular.Spatial crowdsourcing consists of many different types of applications,such as spatial crowd-sensing services.In terms ... With the rapid development ofmobile Internet,spatial crowdsourcing has becomemore andmore popular.Spatial crowdsourcing consists of many different types of applications,such as spatial crowd-sensing services.In terms of spatial crowd-sensing,it collects and analyzes traffic sensing data from clients like vehicles and traffic lights to construct intelligent traffic prediction models.Besides collecting sensing data,spatial crowdsourcing also includes spatial delivery services like DiDi and Uber.Appropriate task assignment and worker selection dominate the service quality for spatial crowdsourcing applications.Previous research conducted task assignments via traditional matching approaches or using simple network models.However,advanced mining methods are lacking to explore the relationship between workers,task publishers,and the spatio-temporal attributes in tasks.Therefore,in this paper,we propose a Deep Double Dueling Spatial-temporal Q Network(D3SQN)to adaptively learn the spatialtemporal relationship between task,task publishers,and workers in a dynamic environment to achieve optimal allocation.Specifically,D3SQNis revised through reinforcement learning by adding a spatial-temporal transformer that can estimate the expected state values and action advantages so as to improve the accuracy of task assignments.Extensive experiments are conducted over real data collected fromDiDi and ELM,and the simulation results verify the effectiveness of our proposed models. 展开更多
关键词 Historical behavior analysis spatial crowdsourcing deep double dueling Q-networks
下载PDF
基于Dueling DQN的临近空间飞行器再入轨迹规划
5
作者 田若岑 刘益吉 +2 位作者 肖涛 张顺家 陆远 《制导与引信》 2024年第2期1-10,共10页
针对临近空间飞行器再入段禁飞区规避制导问题,构建了临近空间飞行器再入过程横侧向制导的马尔可夫决策过程(Markov decision process,MDP)模型。基于竞争深度Q网络(dueling deep Q network,Dueling DQN),设计了横侧向制导律及满足射程... 针对临近空间飞行器再入段禁飞区规避制导问题,构建了临近空间飞行器再入过程横侧向制导的马尔可夫决策过程(Markov decision process,MDP)模型。基于竞争深度Q网络(dueling deep Q network,Dueling DQN),设计了横侧向制导律及满足射程需求与禁飞区规避需求的再入过程奖励函数。经仿真验证,该横侧向制导律能够通过改变倾侧角符号实现禁飞区规避,并导引飞行器到达目标区域,具备较高精度,验证了方法的有效性。 展开更多
关键词 临近空间飞行器 再入轨迹规划 竞争深度Q网络
下载PDF
一种基于Dueling DQN改进的低轨卫星路由算法
6
作者 许向阳 李京阳 彭文鑫 《长江信息通信》 2023年第7期56-59,共4页
卫星网络具有高动态性、节点处理能力不足,流量负载不均等问题。现有的地面路由算法并不能很好的解决卫星网络存在的问题。针对此问题,提出一种改进Dueling DQN的低轨卫星路由算法。首先,在路由算法中引入决斗网络的思想;然后在经验回... 卫星网络具有高动态性、节点处理能力不足,流量负载不均等问题。现有的地面路由算法并不能很好的解决卫星网络存在的问题。针对此问题,提出一种改进Dueling DQN的低轨卫星路由算法。首先,在路由算法中引入决斗网络的思想;然后在经验回放进行改进,将随机经验采样和优先经验采样进行融合,设置分层采样方法来进行采样;最后对网络进行参数的设置并且进行训练。从仿真和分析表明,从网络传输时延、系统吞吐量、丢包率方面有明显的提升。 展开更多
关键词 卫星路由 分层经验回放 决斗网络
下载PDF
一种改进dueling网络的机器人避障方法 被引量:5
7
作者 周翼 陈渤 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2019年第1期46-50,63,共6页
针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并... 针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并利用两个独立训练的dueling网络处理环境数据来预测动作值,在输出层分别输出状态值和动作优势值,并将两者结合输出最终动作值。该模型能处理较高维度数据以适应复杂多变的环境,并输出优势动作供机器人选择以获得更高的累积奖励。实验结果表明,该新算法模型能有效地提升机器人避障性能。 展开更多
关键词 机器人避障 深度增强学习 dueling网络 独立训练
下载PDF
基于Dueling Network与RRT的机械臂抓放控制 被引量:2
8
作者 王永 李金泽 《机床与液压》 北大核心 2021年第17期59-64,共6页
针对当前机械臂抓取与放置方式固定、指令单一、难以应对复杂未知情况的不足,提出一种基于深度强化学习与RRT的机械臂抓放控制方法。该方法将物件抓取与放置问题视为马尔科夫过程,通过物件视场要素描述以及改进的深度强化学习算法Duelin... 针对当前机械臂抓取与放置方式固定、指令单一、难以应对复杂未知情况的不足,提出一种基于深度强化学习与RRT的机械臂抓放控制方法。该方法将物件抓取与放置问题视为马尔科夫过程,通过物件视场要素描述以及改进的深度强化学习算法Dueling Network实现对未知物件的自主抓取,经过关键点选取以及RRT算法依据任务需要将物件准确放置于目标位置。实验结果表明:该方法简便有效,机械臂抓取与放置自主灵活,可进一步提升机械臂应对未知物件的自主操控能力,满足对不同物件抓取与放置任务的需求。 展开更多
关键词 机械臂 深度强化学习 dueling Network RRT 抓放控制
下载PDF
基于KSP与Dueling DQN的电力通信光缆光路智能迂回方法 被引量:3
9
作者 陆怡菲 顾君佳 +3 位作者 沈昊骢 吴媖 潘俊姚 邢旭亮 《浙江电力》 2022年第12期114-122,共9页
目前电力通信光缆光路迂回选路的传统方法是人工决策,效率低下,导致电力通信业务恢复较慢。为此,提出了一种基于KSP(K条最短路径)与Dueling DQN(竞争深度Q学习网络)的电力通信光缆光路智能迂回方法。使用电力通信光缆网络拓扑信息以及... 目前电力通信光缆光路迂回选路的传统方法是人工决策,效率低下,导致电力通信业务恢复较慢。为此,提出了一种基于KSP(K条最短路径)与Dueling DQN(竞争深度Q学习网络)的电力通信光缆光路智能迂回方法。使用电力通信光缆网络拓扑信息以及光缆类型、同沟道情况、光缆长度、光缆芯数等数据,通过KSP算法寻找K条最短迂回路径,然后采用Dueling DQN评估每条迂回路径的风险值并实现路由选择。将所提方法与传统KSP算法、Nature DQN算法的效果进行对比,该算法光缆光路智能迂回准确率达到99.5%,决策时间缩减至秒级。 展开更多
关键词 电力通信光缆 光路迂回 dueling DQN 最短路径
下载PDF
Dueling-DQN在空调节能控制中的应用 被引量:2
10
作者 李骏翔 李兆丰 +3 位作者 杨赛赛 陶洪峰 姚辉 吴超 《计算机系统应用》 2021年第10期271-279,共9页
针对电信机房空调运行耗电量大,空调自动控制系统设计困难的问题,提出了一种规则约束和DuelingDQN算法相结合的空调节能控制方法.该方法能根据不同机房环境自适应学习建模,在保证机房室内温度在规定范围的前提下,节省空调耗电量.同时针... 针对电信机房空调运行耗电量大,空调自动控制系统设计困难的问题,提出了一种规则约束和DuelingDQN算法相结合的空调节能控制方法.该方法能根据不同机房环境自适应学习建模,在保证机房室内温度在规定范围的前提下,节省空调耗电量.同时针对实际机房应用场景,设计节能控制算法中的状态,动作和奖励函数,并采用深度强化学习算法Dueling-DQN提高模型表达能力和学习效率.在电信机房实际验证结果表明:该控制方法与空调默认设定参数运行相比节能18.3%,并可以很方便推广到不同环境场景的机房环境中,为电信机房节能减排提供解决方案. 展开更多
关键词 节能控制 dueling-DQN 强化学习 机房空调调控
下载PDF
《飞轮喋血》(Duel,1971年):银幕处女作几乎引发阶级斗争
11
《电影世界》 2013年第4期33-37,32,共6页
"《飞轮喋血》是针对机器文明的一次控诉。我在很早的时候就想好了这部影片的方方面面,它蕴含了整个技术社会终将彻底瓦解的隐喻。"——斯皮尔伯格《飞轮喋血》是一部电视电影,只有11天的拍摄期,片长74分钟,用斯皮尔伯格的话... "《飞轮喋血》是针对机器文明的一次控诉。我在很早的时候就想好了这部影片的方方面面,它蕴含了整个技术社会终将彻底瓦解的隐喻。"——斯皮尔伯格《飞轮喋血》是一部电视电影,只有11天的拍摄期,片长74分钟,用斯皮尔伯格的话说——"颇像一部真正的电影"。即便比通常的影片时长短了将近15分钟,但它也需要精心的筹备和策划,上映后,深受好评,他已经开始展示出自己非凡的编导才能。 展开更多
关键词 duel 1971 斯皮尔伯格 希区柯克 卡车司机 韦弗 州际公路 丹尼斯 科伦 设计大师 提前预知
下载PDF
一种采用Dueling⁃DDQN算法的无线网络MAC协议 被引量:1
12
作者 杨华 耿烜 孔宁 《北京邮电大学学报》 EI CAS CSCD 北大核心 2023年第3期25-30,55,共7页
为了在快速变化的无线通信网络中实现系统吞吐量最大化,提出了一种采用竞争架构深度双Q网络(dueling⁃DDQN)算法的媒体访问控制协议。该协议将竞争架构Q网络算法中的q值运算方法应用于深度双Q网络中的q值计算,结合了竞争架构Q网络和深度... 为了在快速变化的无线通信网络中实现系统吞吐量最大化,提出了一种采用竞争架构深度双Q网络(dueling⁃DDQN)算法的媒体访问控制协议。该协议将竞争架构Q网络算法中的q值运算方法应用于深度双Q网络中的q值计算,结合了竞争架构Q网络和深度双Q网络的优点,既能够提高q值的计算准确率和收敛性能,又解决了过度估计的问题,提升了系统的整体性能和鲁棒性。仿真实验结果表明,在无线通信系统中,相较于传统深度Q网络媒体访问控制(MAC)协议,当所提协议与时分多址协议和ALOHA协议共存时,有效地减少了收敛时间且提高了系统的总吞吐量。 展开更多
关键词 深度强化学习 竞争架构Q网络 深度双Q网络 媒体访问控制协议 吞吐量
原文传递
考虑行为克隆的深度强化学习股票交易策略 被引量:2
13
作者 杨兴雨 陈亮威 +1 位作者 郑萧腾 张永 《系统管理学报》 CSSCI CSCD 北大核心 2024年第1期150-161,共12页
为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择... 为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明:将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。 展开更多
关键词 股票交易策略 深度强化学习 模仿学习 行为克隆 对决深度Q学习网络
下载PDF
基于深度强化学习的AUV路径规划研究
14
作者 房鹏程 周焕银 董玫君 《机床与液压》 北大核心 2024年第9期134-141,共8页
针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling ... 针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling DQN算法,更改了传统的网络结构以适应AUV路径规划场景。此外,针对路径规划在三维空间中搜寻目标点困难的问题,在原有的优先经验回放池基础上提出了经验蒸馏回放池,使智能体学习失败经验从而提高模型前期的收敛速度和稳定性。仿真实验结果表明:所提出的算法比传统路径规划算法具有更高的实时性,规划路径更短,在收敛速度和稳定性方面都优于标准的DQN算法。 展开更多
关键词 自主水下航行器(AUV) 三维路径规划 深度强化学习 dueling DQN算法
下载PDF
基于改进奖励机制的深度强化学习目标检测
15
作者 陈盈君 武月 刘力铭 《计算机系统应用》 2024年第10期106-114,共9页
为提高深度强化学习目标检测模型的检测精度和检测速度,对传统模型进行改进.针对特征提取不充分的问题,使用融入通道注意力机制的VGG16特征提取模块作为强化学习的状态输入,来更全面地捕获图像中的关键信息;针对仅使用交并比作为奖励出... 为提高深度强化学习目标检测模型的检测精度和检测速度,对传统模型进行改进.针对特征提取不充分的问题,使用融入通道注意力机制的VGG16特征提取模块作为强化学习的状态输入,来更全面地捕获图像中的关键信息;针对仅使用交并比作为奖励出现的评价不精准问题,使用额外考虑了真实框与预测框中心点距离以及长宽比的改进奖励机制,使奖励更加合理;为加速训练过程的收敛并增强智能体对当前状态和动作评价的客观性,使用Dueling DQN算法进行训练.在PASCAL VOC2007和PASCAL VOC2012数据集上进行实验,实验结果表明,该检测模型仅需4–10个候选框即可检测到目标.与Caicedo-RL相比,准确率提高9.8%,最终预测框和真实框的平均交并比提高5.6%. 展开更多
关键词 目标检测 深度强化学习 VGG16 注意力机制 奖励机制 dueling DQN
下载PDF
基于改进D3QN的煤炭码头卸车排产智能优化方法
16
作者 秦保新 张羽霄 +2 位作者 吴思锐 曹卫冲 李湛 《系统仿真学报》 CAS CSCD 北大核心 2024年第3期770-781,共12页
采用智能化决策排产能够提高大型港口的运营效率,是人工智能技术在智慧港口场景落地的重要研究方向之一。针对煤炭码头卸车智能排产任务,将其抽象为马尔可夫序列决策问题。建立了该问题的深度强化学习模型,并针对该模型中动作空间维度... 采用智能化决策排产能够提高大型港口的运营效率,是人工智能技术在智慧港口场景落地的重要研究方向之一。针对煤炭码头卸车智能排产任务,将其抽象为马尔可夫序列决策问题。建立了该问题的深度强化学习模型,并针对该模型中动作空间维度高且可行动作稀疏的特点,提出一种改进的D3QN算法,实现了卸车排产调度决策的智能优化。仿真结果表明,对于同一组随机任务序列,优化后的排产策略相比随机策略实现了明显的效率提升。同时,将训练好的排产策略应用于随机生成的新任务序列,可实现5%~7%的排产效率提升,表明该优化方法具有较好的泛化能力。此外,随着决策模型复杂度的提升,传统启发式优化算法面临建模困难、求解效率低等突出问题。所提算法为该类问题的研究提供了一种新思路,有望实现深度强化学习智能决策在港口排产任务中的更广泛应用。 展开更多
关键词 码头卸车排产 调度策略优化 智能决策 深度强化学习 duelingDoubleDQN算法
原文传递
强化学习中动态ε的贪婪探索策略
17
作者 孔燕 曹俊豪 +1 位作者 杨智超 芮烨锋 《信息技术》 2024年第7期60-64,70,共6页
随着强化学习领域的成熟,ε-贪婪方法被广泛运用在强化学习中,例如深度Q网络。但是,对于ε-贪婪方法每次选择动作,它有一定概率选择非最优的动作,导致不断探索。在此背景下,提出了一种动态ε-贪婪方法(DEG)和Dueling Actor-Critic框架(A... 随着强化学习领域的成熟,ε-贪婪方法被广泛运用在强化学习中,例如深度Q网络。但是,对于ε-贪婪方法每次选择动作,它有一定概率选择非最优的动作,导致不断探索。在此背景下,提出了一种动态ε-贪婪方法(DEG)和Dueling Actor-Critic框架(ACDD),能够平衡强化学习中的探索和利用问题。DEG将状态输入到ACDD框架得到优势值来自动调整ε的值,从而保持探索和利用之间的更好平衡。该实验在多臂老虎机任务中对DEG进行测试,将累计平均奖励和最优动作选择率作为评估标准。与一些广泛使用的方法相比,DEG可以达到更高的平均累积奖励和最优动作选择率,并提高了性能。 展开更多
关键词 深度强化学习 探索和利用 动态化ε dueling Actor-Critic框架 多臂老虎机
下载PDF
基于知识融合和深度强化学习的智能紧急切机决策 被引量:1
18
作者 李舟平 曾令康 +4 位作者 姚伟 胡泽 帅航 汤涌 文劲宇 《中国电机工程学报》 EI CSCD 北大核心 2024年第5期1675-1687,I0001,共14页
紧急控制是在严重故障后维持电力系统暂态安全稳定的重要手段。目前常用的“人在环路”离线紧急控制决策制定方式存在效率不高、严重依赖专家经验等问题,该文提出一种基于知识融合和深度强化学习(deep reinforcement learning,DRL)的智... 紧急控制是在严重故障后维持电力系统暂态安全稳定的重要手段。目前常用的“人在环路”离线紧急控制决策制定方式存在效率不高、严重依赖专家经验等问题,该文提出一种基于知识融合和深度强化学习(deep reinforcement learning,DRL)的智能紧急切机决策制定方法。首先,构建基于DRL的紧急切机决策制定框架。然后,在智能体处理多个发电机决策时,由于产生的高维决策空间使得智能体训练困难,提出决策空间压缩和应用分支竞争Q(branching dueling Q,BDQ)网络的两种解决方法。接着,为了进一步提高智能体的探索效率和决策质量,在智能体训练中融合紧急切机控制相关知识经验。最后,在10机39节点系统中的仿真结果表明,所提方法可以在多发电机决策时快速给出有效的紧急切机决策,应用BDQ网络比决策空间压缩的决策性能更好,知识融合策略可引导智能体减少无效决策探索从而提升决策性能。 展开更多
关键词 紧急切机决策 深度强化学习 决策空间 分支竞争Q网络 知识融合
原文传递
自动化立体仓库退库货位优化问题及其求解算法 被引量:1
19
作者 何在祥 李丽 +1 位作者 张云峰 郗琳 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第3期183-194,共12页
针对自动化立体仓库出库作业过程中剩余货物退库问题,以堆垛机作业总能耗最小化为目标,以退库货位分配为决策变量,建立了自动化立体仓库退库货位优化模型,提出了基于深度强化学习的自动化立体仓库退库货位优化框架。在该框架内,以立体... 针对自动化立体仓库出库作业过程中剩余货物退库问题,以堆垛机作业总能耗最小化为目标,以退库货位分配为决策变量,建立了自动化立体仓库退库货位优化模型,提出了基于深度强化学习的自动化立体仓库退库货位优化框架。在该框架内,以立体仓库实时存储信息和出库作业信息构建多维状态,以退库货位选择构建动作,建立自动化立体仓库退库货位优化的马尔科夫决策过程模型;将立体仓库多维状态特征输入双层决斗网络,采用决斗双重深度Q网络(dueling double deep Q-network,D3QN)算法训练网络模型并预测退库动作目标价值,以确定智能体的最优行为策略。实验结果表明D3QN算法在求解大规模退库货位优化问题上具有较好的稳定性。 展开更多
关键词 自动化立体仓库 退库货位优化 深度强化学习 D3QN
下载PDF
基于改进联邦竞争深度Q网络的多微网能量管理策略
20
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度Q网络 正余弦算法 能量管理
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部