期刊文献+

具有稳定性保证的基于模型与条件神经过程的强化学习算法

Conditional neural processes for model-based reinforcement learningwith stability guarantees
原文传递
导出
摘要 安全性是强化学习智能控制与决策方法大规模推广应用的必需能力.本文旨在实现智能体只通过安全策略(即将智能体动作限制在安全区域内的策略)收集数据进行训练,并使得最终训练的策略具有安全性保证.针对上述需求,研究拟采用控制理论中稳定性分析的方法,在一致最终有界性约束下优化强化学习训练的策略.具体而言,本方法提出了一类学习系统动态模型和李雅普诺夫函数的有效方法,在不将智能体驱动到安全区域之外的前提下,利用其实现闭环系统的稳定性分析.此外,本文给出了如何在提高策略性能的同时逐步扩大安全区域的方法,并在此基础上,给出了一种实用有效的算法来保证闭环系统在训练中及训练后的策略稳定性.最终,本文通过倒立摆对理论结果进行了仿真验证,即验证如何在倒立摆不倒下的情况下优化强化学习策略. Safety is an essential property that enables the further extensive applications of reinforcement learning. This paper introduces aframework of safe model-based reinforcement learning by employing the classic Lyapunov methods (uniformly ultimate boundness)in control theory with safety guarantees during both training and deployment without the intervention mechanism. More specifically,an efficient way is presented to collect data and learn the dynamic models in a safe region defined by iterated Lyapunov functions. Onthis basis, this paper proposes a practical and effective algorithm capable of gradually expanding the safe region while improving thecontrol performance. Finally, illustrative examples are given to demonstrate the necessity and the validity of the obtained policy on aninverted pendulum.
作者 杨嘉楠 丁一航 朱益民 蔡博 马雨婷 李云鹏 韩铭昊 YANG JiaNan;DING YiHang;ZHU YiMin;CAI Bo;MA YuTing;LI YunPeng;HAN MingHao(School of Astronautics,Harbin Institute of Technology,Harbin 150000,China)
出处 《中国科学:技术科学》 EI CSCD 北大核心 2024年第2期265-274,共10页 Scientia Sinica(Technologica)
基金 国家自然科学基金(批准号:62003117) 黑龙江省自然科学基金(编号:YQ2022F013) 黑龙江省博士后科学基金(编号:2020M681096,LBHZ20140)资助项目。
关键词 强化学习 安全性 稳定性分析 条件神经过程 reinforcement learning safety stability analysis conditional neural processes

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部