期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于生成对抗模仿学习的路段非机动车行为仿真
1
作者 魏书樵 倪颖 +1 位作者 孙剑 邱红桐 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第4期105-115,共11页
为精准复现路段非机动车干扰行为,满足自动驾驶仿真测试需求,本文提出一种位置奖励增强的生成对抗模仿学习(Position Reward Augmented Generative Adversarial Imitation Learning,PRA-GAIL)方法训练仿真模型。城市道路中,干扰行为主... 为精准复现路段非机动车干扰行为,满足自动驾驶仿真测试需求,本文提出一种位置奖励增强的生成对抗模仿学习(Position Reward Augmented Generative Adversarial Imitation Learning,PRA-GAIL)方法训练仿真模型。城市道路中,干扰行为主要由电动自行车产生,故以电动自行车作为研究对象。在构建的仿真环境中,使用生成对抗模仿学习(GAIL)更新仿真模型使仿真轨迹逐步逼近真实轨迹,同时加入位置奖励与Lagrangian约束方法以解决现有仿真方法中的均质化和行为不可控的问题。结果表明:在测试集表现上,GAIL和PRA-GAIL方法平均每步长距离误差相比于常用的行为克隆方法下降了61.7%和65.8%。在行为层仿真精度上,与GAIL相比,PRAGAIL的加速度分布与真实分布间的KL散度显著降低,越线、超车数量的百分比误差下降了7.2%和20.2%。使用Lagrangian方法添加安全约束使有危险行为的智能体数量相比于常用的奖励增强方法下降了75.8%。在轨迹层仿真精度上,整体仿真环境下,PRA-GAIL的平均每步长距离误差相比于GAIL下降了17.5%。本文模型真实再现了非机动车超车时的操作空间,说明PRAGAIL方法对非机动车行为仿真有良好的适用性。本文提出的改动有效提升了仿真效果,最终所得的仿真模型能够真实地再现路段非机动车的干扰行为,能够应用于自动驾驶仿真测试。 展开更多
关键词 交通工程 非机动车行为 强化学习 生成对抗模仿学习 自动驾驶测试 微观交通仿真
下载PDF
一种基于生成对抗模仿学习的作战决策方法
2
作者 李东 许霄 吴琳 《指挥控制与仿真》 2024年第2期18-23,共6页
为研究有限作战指挥样本下的智能决策方法,针对作战决策经验难以表达和智能决策学习训练样本稀缺等问题,基于联合战役仿真推演环境,提出了一种基于生成对抗模仿学习的作战决策方法。该方法整合了作战决策经验表示与学习过程,在上层决策... 为研究有限作战指挥样本下的智能决策方法,针对作战决策经验难以表达和智能决策学习训练样本稀缺等问题,基于联合战役仿真推演环境,提出了一种基于生成对抗模仿学习的作战决策方法。该方法整合了作战决策经验表示与学习过程,在上层决策和底层动作分层的基础上,采用规则定义特定任务执行逻辑,并利用生成对抗模仿学习算法提升智能体场景泛化能力。在构设的典型对抗场景中,该方法达到了预期效果,算法训练收敛,智能体输出决策合理。实验结果初步表明,生成对抗模仿学习作为一种智能作战决策方法,具有进一步研究价值。 展开更多
关键词 智能决策 作战决策 基于规则的方法 生成对抗模仿学习
下载PDF
基于生成对抗模仿学习的人机辅助决策系统
3
作者 杨高光 《微型电脑应用》 2021年第3期106-107,120,共3页
在核电人机界面操作环境中,主要依赖专家操作。将专家在人机界面上的操作过程看作马尔可夫决策过程,针对操作过程经验难以准确描述以及奖励函数难以确定的特点,提出了利用模仿学习方法学习专家操作构建辅助决策系统。从而利用模仿学得... 在核电人机界面操作环境中,主要依赖专家操作。将专家在人机界面上的操作过程看作马尔可夫决策过程,针对操作过程经验难以准确描述以及奖励函数难以确定的特点,提出了利用模仿学习方法学习专家操作构建辅助决策系统。从而利用模仿学得的专家策略来为界面操作提供参考,以降低人为因素失误发生概率。用神经网络生成专家策略,以专家策略和生成策略之间的信息熵为损失函数来解决神经网络的收敛问题。最后,在Mujoco仿真环境中验证了该方法的可行性。 展开更多
关键词 人机界面 专家操作 生成对抗模仿学习 决策支持系统
下载PDF
基于混合模仿学习的多智能体追捕决策方法
4
作者 王焱宁 张锋镝 +1 位作者 肖登敏 孙中奇 《计算机科学》 北大核心 2025年第1期323-330,共8页
针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GA... 针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GAIL)方法与时序差分误差行为克隆(Temporal-Difference Error Behavioral Cloning, TD-BC)技术,构建了一种混合模仿学习框架。该框架不仅可以增强模型对复杂多变的专家策略的适应能力,还能够提升模型从低质量数据中提炼有用信息的鲁棒性。框架得到的模型具备直接应用于强化学习的能力,仅需经过细微的调整与优化,即可训练出一个直接可用的、基于专家经验的强化学习模型。在二维动静结合的目标追捕场景中进行了实验验证,该方法展现出良好的性能。结果表明,所提方法可以吸取专家经验,为后续的强化学习训练阶段提供一个起点高、效果佳的初始模型。 展开更多
关键词 智能决策 强化学习 行为克隆 生成对抗模仿学习
下载PDF
基于生成对抗网络的模仿学习综述 被引量:23
5
作者 林嘉豪 章宗长 +1 位作者 姜冲 郝建业 《计算机学报》 EI CSCD 北大核心 2020年第2期326-351,共26页
模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化... 模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化学习的模仿学习两类方法.基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程,并反复迭代.逆向强化学习用于推导符合专家决策数据的奖赏函数,而强化学习基于该奖赏函数来学习策略.基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而来,其中最早出现且最具代表性的是生成对抗模仿学习方法(Generative Adversarial Imitation Learning,简称GAIL).生成对抗网络由两个相对抗的神经网络构成,分别为判别器和生成器.GAIL的特点是用生成对抗网络框架求解模仿学习问题,其中,判别器的训练过程可类比奖赏函数的学习过程,生成器的训练过程可类比策略的学习过程.与传统模仿学习方法相比,GAIL具有更好的鲁棒性、表征能力和计算效率.因此,它能够处理复杂的大规模问题,并可拓展到实际应用中.然而,GAIL存在着模态崩塌、环境交互样本利用效率低等问题.最近,新的研究工作利用生成对抗网络技术和强化学习技术等分别对这些问题进行改进,并在观察机制、多智能体系统等方面对GAIL进行了拓展.本文先介绍了GAIL的主要思想及其优缺点,然后对GAIL的改进算法进行了归类、分析和对比,最后总结全文并探讨了可能的未来趋势. 展开更多
关键词 模仿学习 基于生成对抗网络的模仿学习 生成对抗模仿学习 模态崩塌 样本利用效率
下载PDF
基于余弦相似度的多模态模仿学习方法 被引量:9
6
作者 郝少璞 刘全 +2 位作者 徐平安 张立华 黄志刚 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1358-1372,共15页
生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而... 生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而,现有的GAIL方法大部分假设专家样本产自于单一模态策略,导致生成对抗模仿学习只能学习到部分模态策略,即出现模式塌缩问题,这极大地限制了模仿学习方法在多模态任务中的应用.针对模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法(multi-modal imitation learning method with cosine similarity,MCS-GAIL).该方法引入编码器和策略组,通过编码器提取专家样本的模态特征,计算采样样本与专家样本之间特征的余弦相似度,并将其加入策略组的损失函数中,引导策略组学习对应模态的专家策略.此外,MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略.在假设条件成立的情况下,通过理论分析证明了MCS-GAIL的收敛性.为了验证方法的有效性,将MCS-GAIL用于格子世界和MuJoCo平台上,并与现有模式塌缩方法进行比较.实验结果表明,MCS-GAIL在所有环境中均能有效学习到多个模态策略,且具有较高的准确性和稳定性. 展开更多
关键词 逆向强化学习 生成对抗模仿学习 多模态 模式塌缩 余弦相似度
下载PDF
基于模仿学习的自动驾驶智能体构建 被引量:3
7
作者 杨瑞阳 金蓓弘 《人工智能》 2022年第4期30-39,共10页
模仿学习是智能体从专家轨迹数据中学习获得尽可能靠近专家策略决策的智能学习方法。近年来,模仿学习已从早期的行为克隆发展到了逆强化学习、生成对抗模仿学习,以及多智能体模仿学习。而目前自动驾驶技术中传感器获取外界信息的能力与... 模仿学习是智能体从专家轨迹数据中学习获得尽可能靠近专家策略决策的智能学习方法。近年来,模仿学习已从早期的行为克隆发展到了逆强化学习、生成对抗模仿学习,以及多智能体模仿学习。而目前自动驾驶技术中传感器获取外界信息的能力与深度学习实现的感知环境能力都日趋完善,在决策部分,依靠基于规则的模型可应对大部分常见驾驶场景,但针对规则模型中不适用的极端场景,如何智能化实现安全决策,仍是当前研究的热点问题。本文综述了模仿学习在自动驾驶领域的代表性工作,详细讨论了它们的优势与不足并指出了它们未来的发展趋势。 展开更多
关键词 模仿学习 生成对抗模仿学习 多智能体模仿学习 自动驾驶
下载PDF
基于生成对抗近端策略优化的机动策略优化算法
8
作者 付宇鹏 邓向阳 +2 位作者 朱子强 高阳 张立民 《海军航空大学学报》 2023年第3期257-261,300,共6页
针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互... 针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互数据训练判别器网络,并反馈调节策略网络,实现了约束策略向专家策略方向优化,提高了算法收敛效率和专家经验利用率。仿真环境为基于JSBSim开源平台的F-16飞机空气动力学模型。仿真结果表明,本文算法收敛效率高于PPO算法,生成的策略模型具备较好的智能性。 展开更多
关键词 生成对抗模仿学习 近端策略优化 机动决策 强化学习 模仿学习
下载PDF
逆向强化学习研究综述 被引量:2
9
作者 张立华 刘全 +1 位作者 黄志刚 朱斐 《软件学报》 EI CSCD 北大核心 2023年第10期4772-4803,共32页
逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家... 逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向. 展开更多
关键词 逆向强化学习 模仿学习 生成对抗模仿学习 逆向最优控制 强化学习
下载PDF
带最大熵修正和GAIL的PPO算法
10
作者 王泽宁 刘蕾 《计算机测量与控制》 2025年第1期235-241,共7页
为提高智能体在策略优化过程中的探索性和稳定性,改善强化学习中智能体陷入局部最优和奖励函数设置问题,提出了一种基于最大熵修正和GAIL的PPO算法;在PPO框架内引入最大熵修正项,通过优化策略熵,鼓励智能体在多个可能的次优策略间进行探... 为提高智能体在策略优化过程中的探索性和稳定性,改善强化学习中智能体陷入局部最优和奖励函数设置问题,提出了一种基于最大熵修正和GAIL的PPO算法;在PPO框架内引入最大熵修正项,通过优化策略熵,鼓励智能体在多个可能的次优策略间进行探索,从而更全面地评估环境并发现更优策略;同时,为解决强化学习过程中因奖励函数设置不合理引起的训练效果不佳问题,引入GAIL思想,通过专家数据指导智能体进行学习;实验表明,引入最大熵修正项和GAIL的PPO算法在强化学习任务上取得了良好的性能,有效提升了学习速度和稳定性,且能有效规避因环境奖励函数设置不合理引起的性能损失;该算法为强化学习领域提供了一种新的解决策略,对于处理具有挑战性的连续控制问题具有重要意义。 展开更多
关键词 强化学习 PPO算法 生成对抗模仿学习 深度学习 最大熵学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部