具有稳定性保证的基于模型与条件神经过程的强化学习算法

Conditional neural processes for model-based reinforcement learningwith stability guarantees

导出

摘要安全性是强化学习智能控制与决策方法大规模推广应用的必需能力.本文旨在实现智能体只通过安全策略(即将智能体动作限制在安全区域内的策略)收集数据进行训练,并使得最终训练的策略具有安全性保证.针对上述需求,研究拟采用控制理论中稳定性分析的方法,在一致最终有界性约束下优化强化学习训练的策略.具体而言,本方法提出了一类学习系统动态模型和李雅普诺夫函数的有效方法,在不将智能体驱动到安全区域之外的前提下,利用其实现闭环系统的稳定性分析.此外,本文给出了如何在提高策略性能的同时逐步扩大安全区域的方法,并在此基础上,给出了一种实用有效的算法来保证闭环系统在训练中及训练后的策略稳定性.最终,本文通过倒立摆对理论结果进行了仿真验证,即验证如何在倒立摆不倒下的情况下优化强化学习策略. Safety is an essential property that enables the further extensive applications of reinforcement learning. This paper introduces aframework of safe model-based reinforcement learning by employing the classic Lyapunov methods (uniformly ultimate boundness)in control theory with safety guarantees during both training and deployment without the intervention mechanism. More specifically,an efficient way is presented to collect data and learn the dynamic models in a safe region defined by iterated Lyapunov functions. Onthis basis, this paper proposes a practical and effective algorithm capable of gradually expanding the safe region while improving thecontrol performance. Finally, illustrative examples are given to demonstrate the necessity and the validity of the obtained policy on aninverted pendulum.

作者杨嘉楠丁一航朱益民蔡博马雨婷李云鹏韩铭昊 YANG JiaNan;DING YiHang;ZHU YiMin;CAI Bo;MA YuTing;LI YunPeng;HAN MingHao(School of Astronautics,Harbin Institute of Technology,Harbin 150000,China)

机构地区哈尔滨工业大学航天学院

出处《中国科学：技术科学》 EI CSCD 北大核心 2024年第2期265-274,共10页 Scientia Sinica(Technologica)

基金国家自然科学基金(批准号:62003117) 黑龙江省自然科学基金(编号:YQ2022F013) 黑龙江省博士后科学基金(编号:2020M681096,LBHZ20140)资助项目。

关键词强化学习安全性稳定性分析条件神经过程 reinforcement learning safety stability analysis conditional neural processes

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

1《控制与决策》第七届编辑委员会[J].控制与决策,2024,39(1).
2唐骁,叶继坤,周池军,李旭.拦截弹多约束预设性能制导控制一体化设计[J].战术导弹技术,2023(3):106-117. 被引量：2
3马楚怡,王文娟.论后天物理主义视角下“红色”的物理还原[J].学术探索,2023(12):20-23.
4赵妮莎.双语经验对毕生认知能力发展与衰退的影响——以儿童双语者和老年双语者为例[J].现代英语,2023(14):56-59.

中国科学：技术科学

2024年第2期

浏览历史

内容加载中请稍等...

具有稳定性保证的基于模型与条件神经过程的强化学习算法

相关作者

相关机构

相关主题

浏览历史