期刊导航
期刊开放获取
重庆大学
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于强化学习的多无人车协同围捕方法
1
作者
苏牧青
王寅
+1 位作者
濮锐敏
余萌
《工程科学学报》
EI
CSCD
北大核心
2024年第7期1237-1250,共14页
本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;...
本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;针对网络结构中引入LSTM所导致的状态空间维度增大、效率低的问题,提出引入注意力机制,通过对状态空间进行注意力权重的计算和选择,将注意力集中在与任务相关的关键状态上,从而约束状态空间维度并保证网络的稳定性,实现多无人车之间稳定高效的合作并提高算法的训练效率.为解决协同围捕任务中奖励稀疏的问题,提出通过混合奖励函数将奖励函数分为个体奖励和协同奖励,通过引入个体奖励和协同奖励,无人车在围捕过程中可以获得更频繁的奖励信号.个体奖励通过引导无人车向目标靠近来激励其运动行为,而协同奖励则激励群体无人车共同完成围捕任务,从而进一步提高算法的收敛速度.最后,通过仿真和实验表明,该方法具有更快的收敛速度,相较于SAC算法,围捕时间缩短15.1%,成功率提升7.6%.
展开更多
关键词
无人车
协同围捕
柔性执行者-评论家算法
注意力机制
奖励函数设计
下载PDF
职称材料
基于终端诱导强化学习的航天器轨道追逃博弈
被引量:
8
2
作者
耿远卓
袁利
+1 位作者
黄煌
汤亮
《自动化学报》
EI
CAS
CSCD
北大核心
2023年第5期974-984,共11页
针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实...
针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization,PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW(Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性.
展开更多
关键词
航天器追逃
智能博弈
近端策略优化
奖励函数设计
终端诱导
下载PDF
职称材料
基于强化学习的电磁悬浮型磁浮列车悬浮控制
被引量:
1
3
作者
胡轲珽
徐俊起
+1 位作者
刘志刚
林国斌
《同济大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2023年第3期332-340,共9页
为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计...
为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计了加速训练的奖励函数与“吸死”处理方案;最后,提出了基于强化学习的悬浮控制方法。与传统比例-积分-微分(PID)控制方法的对比结果表明,本方法具有更快的动态响应,在损失50%线圈匝数或磁极面积变化时具有更好的跟踪精度。
展开更多
关键词
电磁悬浮(EMS)型磁浮列车
悬浮控制
强化学习控制
软演员-评论家(SAC)智能体
奖励函数设计
下载PDF
职称材料
题名
基于强化学习的多无人车协同围捕方法
1
作者
苏牧青
王寅
濮锐敏
余萌
机构
南京航空航天大学航天学院
南京航空航天大学航空航天结构力学及控制全国重点实验室
出处
《工程科学学报》
EI
CSCD
北大核心
2024年第7期1237-1250,共14页
基金
航空科学基金资助项目(ASFC-20175152)
南京航空航天大学实验技术研究与开发课题资助项目(SYJS202311Z)。
文摘
本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;针对网络结构中引入LSTM所导致的状态空间维度增大、效率低的问题,提出引入注意力机制,通过对状态空间进行注意力权重的计算和选择,将注意力集中在与任务相关的关键状态上,从而约束状态空间维度并保证网络的稳定性,实现多无人车之间稳定高效的合作并提高算法的训练效率.为解决协同围捕任务中奖励稀疏的问题,提出通过混合奖励函数将奖励函数分为个体奖励和协同奖励,通过引入个体奖励和协同奖励,无人车在围捕过程中可以获得更频繁的奖励信号.个体奖励通过引导无人车向目标靠近来激励其运动行为,而协同奖励则激励群体无人车共同完成围捕任务,从而进一步提高算法的收敛速度.最后,通过仿真和实验表明,该方法具有更快的收敛速度,相较于SAC算法,围捕时间缩短15.1%,成功率提升7.6%.
关键词
无人车
协同围捕
柔性执行者-评论家算法
注意力机制
奖励函数设计
Keywords
unmanned ground vehicles
cooperative encirclement
soft actor–critic algorithm
attention mechanism
reward function design
分类号
TG142.71 [金属学及工艺—金属材料]
下载PDF
职称材料
题名
基于终端诱导强化学习的航天器轨道追逃博弈
被引量:
8
2
作者
耿远卓
袁利
黄煌
汤亮
机构
北京控制工程研究所
空间智能控制技术重点实验室
中国空间技术研究院
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2023年第5期974-984,共11页
基金
国家自然科学基金(U21B6001)
中国博士后科学基金(2022M722994)资助。
文摘
针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization,PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW(Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性.
关键词
航天器追逃
智能博弈
近端策略优化
奖励函数设计
终端诱导
Keywords
Spacecraft pursuit and evasion
intelligent game
proximal policy optimization(PPO)
reward function design
terminal-guidance
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
V448.2 [航空宇航科学与技术—飞行器设计]
下载PDF
职称材料
题名
基于强化学习的电磁悬浮型磁浮列车悬浮控制
被引量:
1
3
作者
胡轲珽
徐俊起
刘志刚
林国斌
机构
同济大学国家磁浮交通工程技术研究中心
同济大学交通运输工程学院
同济大学铁道与城市轨道交通研究院
出处
《同济大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2023年第3期332-340,共9页
基金
中国博士后科学基金(2022M712408)
国家自然科学基金(52232013,52072269)。
文摘
为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计了加速训练的奖励函数与“吸死”处理方案;最后,提出了基于强化学习的悬浮控制方法。与传统比例-积分-微分(PID)控制方法的对比结果表明,本方法具有更快的动态响应,在损失50%线圈匝数或磁极面积变化时具有更好的跟踪精度。
关键词
电磁悬浮(EMS)型磁浮列车
悬浮控制
强化学习控制
软演员-评论家(SAC)智能体
奖励函数设计
Keywords
electromagnetic suspension(EMS)maglev trains
suspension control
reinforcement learning control
soft actor-critic(SAC)agent
reward function design
分类号
U27 [机械工程—车辆工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于强化学习的多无人车协同围捕方法
苏牧青
王寅
濮锐敏
余萌
《工程科学学报》
EI
CSCD
北大核心
2024
0
下载PDF
职称材料
2
基于终端诱导强化学习的航天器轨道追逃博弈
耿远卓
袁利
黄煌
汤亮
《自动化学报》
EI
CAS
CSCD
北大核心
2023
8
下载PDF
职称材料
3
基于强化学习的电磁悬浮型磁浮列车悬浮控制
胡轲珽
徐俊起
刘志刚
林国斌
《同济大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2023
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部