期刊文献+
共找到55篇文章
< 1 2 3 >
每页显示 20 50 100
基于改进DQN算法的无人仓多AGV路径规划 被引量:1
1
作者 谢勇 郑绥君 +1 位作者 程念胜 朱洪君 《工业工程》 2024年第1期36-44,53,共10页
针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法... 针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法收敛。同时提出基于总行程时间最短的冲突消解策略,从根本上解决多AGV路径冲突与死锁问题。最后,建立无人仓栅格地图进行仿真实验。结果表明,本文提出的模型和算法较其他DQN算法收敛速度提升13.3%,平均损失值降低26.3%。这说明该模型和算法有利于规避和化解无人仓多AGV路径规划冲突,减少多AGV总行程时间,对提高无人仓作业效率具有重要指导意义。 展开更多
关键词 多AGV 路径规划 dqn算法 经验知识 冲突消解
下载PDF
基于DQN算法的农用无人车作业路径规划
2
作者 庄金炜 张晓菲 +1 位作者 尹琪东 陈克 《沈阳理工大学学报》 CAS 2024年第4期32-37,共6页
传统农用无人车作业时常依据人工经验确定作业路线,面对复杂的作业环境时无法保证路径规划的高效性,且传统覆盖路径规划方法聚焦于覆盖率而忽略了车辆作业路线上的损耗。为此,提出一种以减少车辆在路线上的损耗为目标的最优全局覆盖路... 传统农用无人车作业时常依据人工经验确定作业路线,面对复杂的作业环境时无法保证路径规划的高效性,且传统覆盖路径规划方法聚焦于覆盖率而忽略了车辆作业路线上的损耗。为此,提出一种以减少车辆在路线上的损耗为目标的最优全局覆盖路径规划方法。以深度Q网络(DQN)算法为基础,根据作业时车辆的真实轨迹创建奖励策略(RLP),对车辆在路线上的损耗进行优化,减少车辆的转弯数、掉头数及重复作业面积,设计了RLP-DQN算法。仿真实验结果表明,对比遗传算法、A~*算法等传统路径规划方法,本文RLP-DQN算法综合性能较好,可在实现全覆盖路径规划的同时有效减少路线损耗。 展开更多
关键词 农用无人车 路径规划 深度强化学习 dqn算法
下载PDF
基于改进DQN算法的考虑船舶配载图的翻箱问题研究
3
作者 梁承姬 花跃 王钰 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第9期43-49,77,共8页
为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进... 为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进行求解,同时为了提高算法求解的性能,又在原算法的基础上设计了基于启发式算法的阈值和全新的奖励函数以改进算法。通过与其它文献中的实验结果进行对比,结果显示:在计算结果上,改进的DQN算法在各个算例上的结果均优于目前各个启发式算法的最优结果,并且规模越大,结果越好;在训练时间上,改进的DQN算法极大的优于未改进的DQN算法,并且规模越大,节省的时间也更显著。 展开更多
关键词 交通运输工程 海运 集装箱翻箱 船舶配载图 dqn算法
下载PDF
基于DQN算法的泵站供水系统节能控制优化
4
作者 陈财会 张天 +3 位作者 黄健康 金典 王卓悦 张小磊 《净水技术》 CAS 2024年第4期60-67,127,共9页
针对手动调节泵站中水泵运行的转速和启停会造成严重的能量浪费问题,引入基于深度Q网络(deep Q-learning network,DQN)的强化学习算法,通过获取当前泵组运行的状态,自动优化水泵组工作时各个水泵的运行参数,在各个水泵均处于高效区的前... 针对手动调节泵站中水泵运行的转速和启停会造成严重的能量浪费问题,引入基于深度Q网络(deep Q-learning network,DQN)的强化学习算法,通过获取当前泵组运行的状态,自动优化水泵组工作时各个水泵的运行参数,在各个水泵均处于高效区的前提下,提高水泵组的整体效率。对水泵组状态优化问题分别进行了数学描述和马尔可夫决策过程描述。同时定义了水泵组运行时的状态空间、动作空间和即时奖励值,构建DQN网络,并以深圳市M水厂为算例,在由Gym构建的自定义仿真环境中进行验证。相较于人工调控,DQN算法调控降低了8.84%的损失能耗,一年可节省吨水电耗达1.27×10^(-2) kW·h/t,实现了节能减排,具有良好的经济效能。同时,DQN算法可通过在线学习的方式适应供水环境的变化,具有自主性、实时性、可推广性等优点。 展开更多
关键词 泵站供水 优化调度 dqn算法 马尔可夫决策过程 节能减排
下载PDF
基于DQN算法的支线集装箱船航线规划与配载协同优化方法
5
作者 李俊 肖笛 +1 位作者 温想 赵雅洁 《交通信息与安全》 CSCD 北大核心 2023年第6期132-141,共10页
针对支线集装箱船运输中喂给港数和靠泊条件不一,以及集装箱船队船型多样的特点,考虑航线规划与配载环节在实际运输过程中的紧密联系,研究支线集装箱船航线规划与配载协同优化方法。采用两阶段分层方法研究航线规划与集装箱配载问题,设... 针对支线集装箱船运输中喂给港数和靠泊条件不一,以及集装箱船队船型多样的特点,考虑航线规划与配载环节在实际运输过程中的紧密联系,研究支线集装箱船航线规划与配载协同优化方法。采用两阶段分层方法研究航线规划与集装箱配载问题,设置多个港口、不同船型及其贝位和堆栈组合、不同尺寸集装箱的集合,并确定其间基本关系,实现两阶段优化过程的完整性和连续性。第一阶段以航线总运营成本最小为目标建立船舶航线规划模型,第二阶段从主贝计划角度出发进行配载优化,确认集装箱与堆栈的对应关系,以船舶混装堆栈数最小为目标建立船舶配载模型,保证船舶稳性在航线任意时段均满足要求,并减少堆栈混装数量,提高到港作业效率。为实现模型高效求解,基于深度强化学习的Deep Q-learning Network(DQN)算法架构,设计了航线规划与配载决策对应的马尔可夫过程,结合问题自身特征分别完成强化学习智能体状态空间、动作空间以及奖励函数设计,构建了两阶段分层求解的DQN算法。实验结果表明:随着船舶数量和船舶装载率的增加,模型精确求解的时间大幅增加,部分算例无法在600 s内完成求解,而DQN算法可实现快速求解;与模型及粒子群优化(Particle Swarm Optimization,PSO)算法相比,DQN算法可高效求解不同规模下的算例,大规模算例求解最大耗时31.40 s,平均耗时30 s以内,求解效率较好;进一步计算表明,不同喂给港数量下PSO算法在求解时间上的平均标准差为11.20,而DQN算法平均标准差仅为1.74,鲁棒性更好。总体来看,DQN算法在求解时间上随问题规模变化而产生的波动较小,具有更加稳定的求解性能,可实现高效寻优。 展开更多
关键词 支线集装箱船运输 航线规划 集装箱配载 深度强化学习 dqn算法
下载PDF
改进DQN算法在WSNs资源分配中的应用 被引量:1
6
作者 郑岚 徐丽萍 《成都工业学院学报》 2023年第6期56-60,共5页
无线传感器网络(WSNs)资源分配不均,容易引起网络服务中断或假警报等情况发生。为此提出一种改进的深度Q网络(DQN)算法,以提升WSNs资源的分配效率。首先搭建WSNs拓扑结构,并给出WSNs的网络属性,基于误码率最小化、网络链路容量最大化、... 无线传感器网络(WSNs)资源分配不均,容易引起网络服务中断或假警报等情况发生。为此提出一种改进的深度Q网络(DQN)算法,以提升WSNs资源的分配效率。首先搭建WSNs拓扑结构,并给出WSNs的网络属性,基于误码率最小化、网络链路容量最大化、资源分配负载均衡度最大化、网络节点能耗最小化等复合条件,建立目标函数及约束条件的多目标优化模型。然后,针对DQN算法的过估计问题和随机经验回放机制进行改进,利用改进DQN算法求取多目标优化模型最优解,得出WSNs资源分配方案。结果表明:与传统分配方案相比,改进DQN资源分配方案的传输延迟更低,节点总能耗更小,具有更好的实际应用效果。 展开更多
关键词 改进dqn算法 无线传感器网络 多目标优化模型 网络资源 分配方案
下载PDF
基于DQN算法的电力仿生机器狗步态规划
7
作者 苗俊杰 郭猛 +1 位作者 邹捷 王爽 《微型电脑应用》 2023年第3期47-51,共5页
传统仿生机器狗步态规划需构建动力学模型,对此提出一种基于DQN的仿生机器狗步态规划方法。结合DQN算法的基本原理,将DQN算法与仿生机器狗控制器结合,进而大量训练仿生机器狗的DQN控制器,设置DQN的参数和计算DQN的奖励函数,并在Webhots... 传统仿生机器狗步态规划需构建动力学模型,对此提出一种基于DQN的仿生机器狗步态规划方法。结合DQN算法的基本原理,将DQN算法与仿生机器狗控制器结合,进而大量训练仿生机器狗的DQN控制器,设置DQN的参数和计算DQN的奖励函数,并在Webhots仿真环境中对四足机器狗进行训练,得到四足仿生机器狗运动的翻滚角、俯仰角以及损失函数的变化。结果表明,通过DQN训练得到的仿生机器狗的翻滚角、俯仰角和损失函数都能趋于稳定,说明机器狗能快速平稳地完成步态运动,证实了DQN控制器的有效性,可为四足机器狗的步态生成提供新的方案。 展开更多
关键词 仿生机器狗 步态规划 强化学习 dqn算法
下载PDF
基于改进DQN算法的机器人路径规划
8
作者 马浩东 陈玲玲 金小杭 《电脑与电信》 2023年第11期37-41,共5页
为了解决机器人路径规划到达目标点困难,以及容易碰撞的问题,研究提出一种改进的DQN算法并命名为MDQN,通过改变状态空间的设置,能更准确地区分不同的状态,得到一个更符合实际的观测空间;通过改变奖励函数,能够获得更有价值的奖励值,从... 为了解决机器人路径规划到达目标点困难,以及容易碰撞的问题,研究提出一种改进的DQN算法并命名为MDQN,通过改变状态空间的设置,能更准确地区分不同的状态,得到一个更符合实际的观测空间;通过改变奖励函数,能够获得更有价值的奖励值,从而提高学习效率。实验在栅格地图中进行,在Pycharm平台上仿真,结果表明,改进的算法与传统DQN算法相比,具有更高的奖励值、能够顺利到达目标点,且路径更短等优点。 展开更多
关键词 路径规划 dqn算法 状态空间 奖励函数 栅格法
下载PDF
基于DQN算法的多微网非计划孤岛切换策略
9
作者 贺旭辉 褚四虎 +1 位作者 张羽 张雪菲 《东北电力技术》 2023年第8期14-18,共5页
配电网发生故障时,多微网会发生非计划孤岛对内部负荷供电产生较大冲击。针对这一问题,提出一种基于深度Q网络(deep Q network,DQN)算法的多微网非计划孤岛切换策略。首先,利用多微网非计划孤岛过程中的源荷储信息进行马尔科夫决策过程... 配电网发生故障时,多微网会发生非计划孤岛对内部负荷供电产生较大冲击。针对这一问题,提出一种基于深度Q网络(deep Q network,DQN)算法的多微网非计划孤岛切换策略。首先,利用多微网非计划孤岛过程中的源荷储信息进行马尔科夫决策过程建模,并利用DQN算法对多微网的运行环境进行探索式学习,以找到最佳的减载策略。其次,执行该减载策略弥补由于非计划孤岛造成的多微网系统内部功率缺额,以保证多微网频率恢复正常并使减载损失最小。最后,基于改进IEEE-33节点的多微网模型对所提策略性能进行测试,测试结果表明了该策略的可行性和有效性。 展开更多
关键词 多微网 非计划孤岛 dqn算法 低频减载
下载PDF
基于强化学习DQN算法的智能决策模型研究
10
作者 韩中华 《现代计算机》 2023年第14期52-56,共5页
针对强化学习DQN算法的三个优化因子(即Dueling、Double⁃Q以及Prioritized⁃replay)之间是否存在相互促进或抑制的关系,对三个优化因子之间进行随意组合作为交易策略进行研究,并将2020年9月2日至2022年9月2日期间雅虎金融网站上的HDFC银... 针对强化学习DQN算法的三个优化因子(即Dueling、Double⁃Q以及Prioritized⁃replay)之间是否存在相互促进或抑制的关系,对三个优化因子之间进行随意组合作为交易策略进行研究,并将2020年9月2日至2022年9月2日期间雅虎金融网站上的HDFC银行股票的收盘价作为研究对象。研究结果发现,相较于基线模型,Dueling对股票短期收益预测最为贴合实际,并且对Double⁃Q与Prioritized⁃replay起到了促进作用;Prioritized⁃replay对Double-Q与Dueling起到了抑制作用,而Double⁃Q则对Prioritized⁃replay与Dueling未起到显著性改变。鉴于DQN算法在股票短期收益预测的随机性与预测精度的问题,其未来在金融预测领域将会有更好的应用前景。 展开更多
关键词 dqn算法 深度学习 股票收益预测
下载PDF
基于DQN算法的倒计时交叉口信号灯配时研究 被引量:3
11
作者 李珊 任安虎 白静静 《国外电子测量技术》 北大核心 2021年第10期91-97,共7页
针对已有的DQN配时算法无法应用在倒计时交叉口的问题,提出以Webster配时法计算绿信比方案,并将其作为控制动作,以归一化车流量、车速、排队长度构造状态矩阵,通过3层全连接神经网络计算动作价值,引入零奖赏延误因子将延误时间转换为奖... 针对已有的DQN配时算法无法应用在倒计时交叉口的问题,提出以Webster配时法计算绿信比方案,并将其作为控制动作,以归一化车流量、车速、排队长度构造状态矩阵,通过3层全连接神经网络计算动作价值,引入零奖赏延误因子将延误时间转换为奖励值,使用探索率余弦衰减的方式提高收敛能力,使用Huber函数计算误差提高收敛稳定性,最后利用Vissim仿真平台进行测试。结果表明,该方法在延误指标上相比20种固定配时方案均有不同程度的降低,证明了该方法的有效性。 展开更多
关键词 智能交通 信号配时 深度强化学习 dqn算法 VISSIM仿真
原文传递
基于DQN算法的考虑AGV小车搬运的离散制造车间调度方法
12
作者 周亚勤 肖蒙 +2 位作者 吕志军 汪俊亮 张洁 《机械工程学报》 EI CAS CSCD 北大核心 2024年第18期338-348,共11页
针对离散制造车间生产调度不仅需要确定工件各工序的加工设备及设备上工序的加工顺序,同时要根据工件调度方案,需要在规定时间点前由AGV小车将各工件运送到工序相应的设备上加工,以提高调度方案执行率的需求,构建考虑车间设备布局、工... 针对离散制造车间生产调度不仅需要确定工件各工序的加工设备及设备上工序的加工顺序,同时要根据工件调度方案,需要在规定时间点前由AGV小车将各工件运送到工序相应的设备上加工,以提高调度方案执行率的需求,构建考虑车间设备布局、工件工艺路线、AGV小车搬运时间与小车位置等约束,工件完工时间最小化和AGV小车运载均衡为综合目标的离散制造车间调度模型。依据离散制造车间调度数学模型构建强化学习环境,包括工件、机器和小车的状态空间,调度决策动作空间和奖励函数;基于建立的强化学习环境,设计基于DQN算法的工件小车调度方法,设计工件智能体,读取车间局部环境,将局部环境映射到工件状态参数的权重,根据该权重得到工件调度列表实现从车间状态到工件调度的动作选择。设计小车智能体,通过读取工件智能体调度决策和车间信息得到小车搬运相关参数,实现小车智能体与工件智能体的交互,将搬运相关参数和车间局部环境中小车状态信息映射成小车调度相关权重,根据权重得到小车调度列表实现小车调度的动作选择。最后,通过离散制造车间实际案例对算法进行测试,测试结果表明,基于DQN算法的调度算法能够有效地求解考虑小车搬运的离散制造车间调度问题,可最小化工件的最大完工时间,均衡小车的搬运负载,具有良好的综合调度性能。 展开更多
关键词 离散制造车间 工件调度 小车调度 dqn算法
原文传递
子目标驱动DQN算法的无人车狭窄转弯环境导航
13
作者 耿玺钧 崔立堃 +1 位作者 熊高 刘知阳 《控制与决策》 EI CSCD 北大核心 2024年第11期3637-3644,共8页
针对无人车在狭窄的转弯工作环境下,传统导航存在无法构建地图或所构建地图障碍物膨胀半径过大以及定位和控制存在误差,从而导致无人车与障碍物相撞,无法有效完成导航任务的问题,首先,通过将A^(*)算法所生成的路径进行离散化,周期性选... 针对无人车在狭窄的转弯工作环境下,传统导航存在无法构建地图或所构建地图障碍物膨胀半径过大以及定位和控制存在误差,从而导致无人车与障碍物相撞,无法有效完成导航任务的问题,首先,通过将A^(*)算法所生成的路径进行离散化,周期性选取路径点作为深度强化学习算法的目标点的方法,设计子目标驱动DQN算法,并基于此建立深度神经网络;然后,采用软件搭建狭窄的转弯环境,使用所提出子目标驱动DQN算法、无子目标驱动的DQN算法、DDPG算法、SAC算法分别对无人车进行训练,通过对比4种算法的收敛速度、执行步数以及导航成功率,验证所提出子目标驱动DQN算法在完成狭窄转弯环境导航任务时,效果最好;最后,将所提出算法的训练结果移植到全新的、空间更小、弯数更多的测试场景中进行测试,表明无人车能够顺利完成导航任务,从而验证所提出子目标驱动DQN算法的高扩展性. 展开更多
关键词 A*算法 路径离散化 子目标驱动dqn算法 无人车 狭窄环境 导航
原文传递
基于改进DQN的移动机器人避障路径规划 被引量:1
14
作者 田箫源 董秀成 《中国惯性技术学报》 EI CSCD 北大核心 2024年第4期406-416,共11页
针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效... 针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效率和成功率。其次提出奖励优化方法,利用状态间的访问次数差异给予奖励,平衡状态点的访问次数,避免过度访问;同时通过计算与目标点的欧氏距离,使其偏向于选择接近目标的路径,并取消远离目标惩罚,实现奖励机制的自适应优化。最后设计了动态探索因子函数,在后期训练中侧重利用强化学习策略选取动作和学习,提高算法性能和学习效率。实验仿真结果显示,与传统DQN算法相比,改进算法在训练时间上缩短了40.25%,避障成功率上提升了79.8%以及路径长度上缩短了2.25%,均体现了更好的性能。 展开更多
关键词 移动机器人 dqn算法 路径规划 避障 深度强化学习
下载PDF
未知环境下基于Dueling DQN的无人机路径规划研究
15
作者 赵恬恬 孔建国 +1 位作者 梁海军 刘晨宇 《现代计算机》 2024年第5期37-43,共7页
为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;... 为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;最后在仿真环境中对DQN和Dueling DQN展开训练,结果表明:①Dueling DQN能规划出未知环境下从初始点到目标点的无碰撞路径,且能获得更高的奖励值;②经过50000次训练,Dueling DQN的成功率比DQN提高17.71%,碰撞率减少1.57%,超过最长步长率降低16.14%。 展开更多
关键词 无人机 路径规划 深度强化学习 Dueling dqn算法
下载PDF
基于DQN的二次供水系统运行优化研究
16
作者 耿为民 颜军 +1 位作者 谢善斌 万鸣 《计算机应用与软件》 北大核心 2024年第10期393-397,共5页
二次供水系统是饮用水到达用户的最后关键环节,针对二次供水运行中水龄较长影响水质的问题,提出一种基于深度学习Q学习算法(Deep Q-Learning Network,DQN)的运行优化模型。该模型将水压、水龄、能耗优化目标综合计算成对应的奖励,基于... 二次供水系统是饮用水到达用户的最后关键环节,针对二次供水运行中水龄较长影响水质的问题,提出一种基于深度学习Q学习算法(Deep Q-Learning Network,DQN)的运行优化模型。该模型将水压、水龄、能耗优化目标综合计算成对应的奖励,基于水力模拟的运行工况为输入,进水池、水泵的运行指令为输出。以某二次供水系统为例,利用EPANET软件构建水力模型,基于DQN分别对组件运行进行优化。结果显示,优化后均在保证供水压力的前提下达到降低水龄的目标。 展开更多
关键词 二次供水系统 dqn算法 运行优化 水龄
下载PDF
基于深度强化学习算法的火力-目标分配方法
17
作者 李伟光 陈栋 《指挥控制与仿真》 2024年第3期62-69,共8页
针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟... 针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟合能力较强、收敛速度较快、方差抖动性较小,并通过实际作战场景对算法进行了验证,所得的分配结果符合作战期望,可为指挥员火力打击分配问题决策提供一定参考。 展开更多
关键词 火力-目标分配 深度强化学习 Q-learning算法 dqn算法
下载PDF
基于Expectimax搜索与Double DQN的非完备信息博弈算法 被引量:7
18
作者 雷捷维 王嘉旸 +2 位作者 任航 闫天伟 黄伟 《计算机工程》 CAS CSCD 北大核心 2021年第3期304-310,320,共8页
麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法。在Expectimax搜... 麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法。在Expectimax搜索树扩展过程中,采用Double DQN输出的估值设计估值函数并在限定搜索层数内获得分支估值,同时设计剪枝策略对打牌动作进行排序与部分扩展实现搜索树剪枝。在Double DQN模型训练过程中,将麻将信息编码为特征数据输入神经网络获得估值,使用Expectimax搜索算法得到最优动作以改进探索策略。实验结果表明,与Expectimax搜索算法、Double DQN算法等监督学习算法相比,该算法在麻将游戏上胜率与得分更高,具有更优异的博弈性能。 展开更多
关键词 Double dqn算法 Expectimax搜索 非完备信息博弈 麻将 强化学习
下载PDF
基于输出层具有噪声的DQN的无人车路径规划 被引量:4
19
作者 李杨 闫冬梅 刘磊 《应用数学和力学》 CSCD 北大核心 2023年第4期450-460,共11页
在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真... 在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真结果表明:①该策略能快速规划出从初始点到目标点的无碰撞路线,与Q-learning算法、DQN算法和noisynet_DQN算法相比,该文提出的算法收敛速度更快;②该策略关于初始点、目标点、障碍物具有泛化能力,验证了其有效性与鲁棒性. 展开更多
关键词 深度强化学习 无人车 dqn算法 Gauss噪声 路径规划 Gazebo仿真
下载PDF
基于改进人工势场与强化学习融合算法的路径规划研究
20
作者 冯恒莉 《中国新技术新产品》 2023年第20期4-6,17,共4页
首先,针对DQN算法存在迭代次数过多、训练速度过慢以及APF算法具有某些局限性等问题,该文基于人工势场(APF)算法和深度强化学习(DQN)算法对DQN算法进行改进。其次,将改进后的APF算法与DQN算法进行融合,提出了改进人工势场与强化学习融... 首先,针对DQN算法存在迭代次数过多、训练速度过慢以及APF算法具有某些局限性等问题,该文基于人工势场(APF)算法和深度强化学习(DQN)算法对DQN算法进行改进。其次,将改进后的APF算法与DQN算法进行融合,提出了改进人工势场与强化学习融合算法(APF-DQN)。最后,通过大量试验验证了该文提出的APF-DQN算法的有效性。 展开更多
关键词 路径规划 人工势场(APF)算法 强化学习 深度强化学习(dqn)算法
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部