-
题名面向机器人系统的虚实迁移强化学习综述
被引量:1
- 1
-
-
作者
林谦
余超
伍夏威
董银昭
徐昕
张强
郭宪
-
机构
中山大学计算机学院
香港大学机械工程系
国防科技大学智能科学学院
大连理工大学计算机科学与技术学院
南开大学人工智能学院
-
出处
《软件学报》
EI
CSCD
北大核心
2024年第2期711-738,共28页
-
基金
国家自然科学基金面上项目(62076259,62073176)
国家自然科学联合基金重点项目(U1908214)
科技创新2030—新一代人工智能重大项目(2021ZD0112400)。
-
文摘
近年来,基于环境交互的强化学习方法在机器人相关应用领域取得巨大成功,为机器人行为控制策略优化提供一个现实可行的解决方案.但在真实世界中收集交互样本存在高成本以及低效率等问题,因此仿真环境被广泛应用于机器人强化学习训练过程中.通过在虚拟仿真环境中以较低成本获取大量训练样本进行策略训练,并将学习策略迁移至真实环境,能有效缓解真实机器人训练中存在的安全性、可靠性以及实时性等问题.然而,由于仿真环境与真实环境存在差异,仿真环境中训练得到的策略直接迁移到真实机器人往往难以获得理想的性能表现.针对这一问题,虚实迁移强化学习方法被提出用以缩小环境差异,进而实现有效的策略迁移.按照迁移强化学习过程中信息的流动方向和智能化方法作用的不同对象,提出一个虚实迁移强化学习系统的流程框架,并基于此框架将现有相关工作分为3大类:基于真实环境的模型优化方法、基于仿真环境的知识迁移方法、基于虚实环境的策略迭代提升方法,并对每一分类中的代表技术与关联工作进行阐述.最后,讨论虚实迁移强化学习研究领域面临的机遇和挑战.
-
关键词
强化学习
迁移学习
虚实迁移
现实差距
机器人控制
-
Keywords
reinforcement learning(RL)
transfer learning
sim-to-real transfer
reality gap
robotic control
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-