期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于强化学习的多无人车协同围捕方法
1
作者 苏牧青 王寅 +1 位作者 濮锐敏 余萌 《工程科学学报》 EI CSCD 北大核心 2024年第7期1237-1250,共14页
本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;... 本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;针对网络结构中引入LSTM所导致的状态空间维度增大、效率低的问题,提出引入注意力机制,通过对状态空间进行注意力权重的计算和选择,将注意力集中在与任务相关的关键状态上,从而约束状态空间维度并保证网络的稳定性,实现多无人车之间稳定高效的合作并提高算法的训练效率.为解决协同围捕任务中奖励稀疏的问题,提出通过混合奖励函数将奖励函数分为个体奖励和协同奖励,通过引入个体奖励和协同奖励,无人车在围捕过程中可以获得更频繁的奖励信号.个体奖励通过引导无人车向目标靠近来激励其运动行为,而协同奖励则激励群体无人车共同完成围捕任务,从而进一步提高算法的收敛速度.最后,通过仿真和实验表明,该方法具有更快的收敛速度,相较于SAC算法,围捕时间缩短15.1%,成功率提升7.6%. 展开更多
关键词 无人车 协同围捕 柔性执行者-评论家算法 注意力机制 奖励函数设计
下载PDF
基于终端诱导强化学习的航天器轨道追逃博弈 被引量:8
2
作者 耿远卓 袁利 +1 位作者 黄煌 汤亮 《自动化学报》 EI CAS CSCD 北大核心 2023年第5期974-984,共11页
针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实... 针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization,PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW(Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性. 展开更多
关键词 航天器追逃 智能博弈 近端策略优化 奖励函数设计 终端诱导
下载PDF
基于强化学习的电磁悬浮型磁浮列车悬浮控制 被引量:1
3
作者 胡轲珽 徐俊起 +1 位作者 刘志刚 林国斌 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第3期332-340,共9页
为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计... 为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计了加速训练的奖励函数与“吸死”处理方案;最后,提出了基于强化学习的悬浮控制方法。与传统比例-积分-微分(PID)控制方法的对比结果表明,本方法具有更快的动态响应,在损失50%线圈匝数或磁极面积变化时具有更好的跟踪精度。 展开更多
关键词 电磁悬浮(EMS)型磁浮列车 悬浮控制 强化学习控制 软演员-评论家(SAC)智能体 奖励函数设计
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部