期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
移动机器人路径规划强化学习的初始化 被引量:26
1
作者 宋勇 李贻斌 李彩虹 《控制理论与应用》 EI CAS CSCD 北大核心 2012年第12期1623-1628,共6页
针对现有机器人路径规划强化学习算法收敛速度慢的问题,提出了一种基于人工势能场的移动机器人强化学习初始化方法.将机器人工作环境虚拟化为一个人工势能场,利用先验知识确定场中每点的势能值,它代表最优策略可获得的最大累积回报.例... 针对现有机器人路径规划强化学习算法收敛速度慢的问题,提出了一种基于人工势能场的移动机器人强化学习初始化方法.将机器人工作环境虚拟化为一个人工势能场,利用先验知识确定场中每点的势能值,它代表最优策略可获得的最大累积回报.例如障碍物区域势能值为零,目标点的势能值为全局最大.然后定义Q初始值为当前点的立即回报加上后继点的最大折算累积回报.改进算法通过Q值初始化,使得学习过程收敛速度更快,收敛过程更稳定.最后利用机器人在栅格地图中的路径对所提出的改进算法进行验证,结果表明该方法提高了初始阶段的学习效率,改善了算法性能. 展开更多
关键词 移动机器人 强化学习 人工势能场 路径规划 q值初始化
下载PDF
用于移动机器人路径规划的改进强化学习算法
2
作者 张威 初泽源 +1 位作者 杨玉涛 王伟 《中国民航大学学报》 CAS 2024年第5期59-65,共7页
针对传统Q-learning算法规划出的路径存在平滑度差、收敛速度慢以及学习效率低的问题,本文提出一种用于移动机器人路径规划的改进Q-learning算法。首先,考虑障碍物密度及起始点相对位置来选择动作集,以加快Q-learning算法的收敛速度;其... 针对传统Q-learning算法规划出的路径存在平滑度差、收敛速度慢以及学习效率低的问题,本文提出一种用于移动机器人路径规划的改进Q-learning算法。首先,考虑障碍物密度及起始点相对位置来选择动作集,以加快Q-learning算法的收敛速度;其次,为奖励函数加入一个连续的启发因子,启发因子由当前点与终点的距离和当前点距地图中所有障碍物以及地图边界的距离组成;最后,在Q值表的初始化进程中引入尺度因子,给移动机器人提供先验环境信息,并在栅格地图中对所提出的改进Q-learning算法进行仿真验证。仿真结果表明,改进Q-learning算法相比传统Q-learning算法收敛速度有明显提高,在复杂环境中的适应性更好,验证了改进算法的优越性。 展开更多
关键词 强化学习 路径规划 启发式奖励函数 q值初始化
下载PDF
引入势场及陷阱搜索的强化学习路径规划算法 被引量:16
3
作者 董培方 张志安 +1 位作者 梅新虎 朱朔 《计算机工程与应用》 CSCD 北大核心 2018年第16期129-134,共6页
移动机器人在复杂环境中移动难以得到较优的路径,基于马尔可夫过程的Q学习(Q-learning)算法能通过试错学习取得较优的路径,但这种方法收敛速度慢,迭代次数多,且试错方式无法应用于真实的环境中。在Q-learning算法中加入引力势场作为初... 移动机器人在复杂环境中移动难以得到较优的路径,基于马尔可夫过程的Q学习(Q-learning)算法能通过试错学习取得较优的路径,但这种方法收敛速度慢,迭代次数多,且试错方式无法应用于真实的环境中。在Q-learning算法中加入引力势场作为初始环境先验信息,在其基础上对环境进行陷阱区域逐层搜索,剔除凹形陷阱区域Q值迭代,加快了路径规划的收敛速度。同时取消对障碍物的试错学习,使算法在初始状态就能有效避开障碍物,适用于真实环境中直接学习。利用python及pygame模块建立复杂地图,验证加入初始引力势场和陷阱搜索的改进Q-learning算法路径规划效果。仿真实验表明,改进算法能在较少的迭代次数后,快速有效地到达目标位置,且路径较优。 展开更多
关键词 路径规划 强化学习 人工势场 陷阱搜索 q值初始化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部