期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
一种基于最优策略概率分布的POMDP值迭代算法 被引量:4
1
作者 刘峰 王崇骏 骆斌 《电子学报》 EI CAS CSCD 北大核心 2016年第5期1078-1084,共7页
随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该... 随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明PBVIOP算法能够收敛到全局最优解,并明显提高了收敛效率. 展开更多
关键词 部分可观测马尔科夫决策过程 基于最优策略概率的值算法 蒙特卡罗法
下载PDF
随机旅行售货员问题的平均目标模型策略求解算法
2
作者 李赵祥 肖果能 李致中 《长沙铁道学院学报》 CSCD 1999年第1期84-87,101,共5页
旅行售货员问题是一个NP—完备问题,至今没有多项式算法.本文利用MDP的方法,建立了随机TSP问题的平均目标模型。
关键词 马尔可夫过程 NP 随机TSP问题 策略迭代算法
下载PDF
多状态退化系统最优故障维修策略 被引量:4
3
作者 姜国 胡飞 覃刚 《江苏大学学报(自然科学版)》 EI CAS 北大核心 2010年第4期492-496,共5页
针对多状态半马尔可夫退化系统,研究了系统发生故障后的维修模型.在系统的退化过程中,有多个不可逆的工作状态和故障状态.系统的所有故障均能修复且可忽略故障修复时间,修复后系统回到正常的工作状态.当系统发生故障时,系统的故障检测... 针对多状态半马尔可夫退化系统,研究了系统发生故障后的维修模型.在系统的退化过程中,有多个不可逆的工作状态和故障状态.系统的所有故障均能修复且可忽略故障修复时间,修复后系统回到正常的工作状态.当系统发生故障时,系统的故障检测设备首先确定出当前所处的故障状态,然后采取相应的维修措施.基于系统长期平均成本率最低的决策准则,运用半马尔可夫决策过程的策略迭代算法给出了系统处于不同故障状态下的最优维修策略.以实例说明了求解最优故障维修策略的迭代过程. 展开更多
关键词 多状态退化系统 长期平均成本率 半马尔可夫决策过程 策略迭代算法 最优故障维修策略
下载PDF
基于MDP的诊断策略构建方法
4
作者 梁雅俊 肖明清 +2 位作者 宋海方 杨召 梁鹏 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2016年第4期844-850,共7页
针对传统方法忽略测试通过的不确定性因素,缺乏长周期寻优机制,难以在复杂测试系统中生成全局最优诊断策略的问题,提出了一种基于马尔可夫决策过程(MDP)的诊断策略构建方法。该方法将故障检测、隔离的过程表述为系统故障状态的马尔可夫... 针对传统方法忽略测试通过的不确定性因素,缺乏长周期寻优机制,难以在复杂测试系统中生成全局最优诊断策略的问题,提出了一种基于马尔可夫决策过程(MDP)的诊断策略构建方法。该方法将故障检测、隔离的过程表述为系统故障状态的马尔可夫过程,通过引入折扣因子与目标权重,构造了综合效用准则函数的无限折扣模型,并利用策略迭代算法求解出全局平稳最优诊断策略。实例表明,该方法充分考虑了测试通过的不确定性,可实现全局平稳策略寻优,能够有效地指导测试系统实现快速故障检测和隔离。 展开更多
关键词 诊断策略 马尔可夫决策过程(MDP) 故障检测 策略迭代算法 策略优化
原文传递
二自由度飞行姿态模拟器的模糊强化学习控制 被引量:9
5
作者 任立伟 班晓军 +1 位作者 吴奋 黄显林 《电机与控制学报》 EI CSCD 北大核心 2019年第11期127-134,共8页
针对二自由度飞行姿态模拟器的姿态稳定问题,依据强化学习中的策略迭代算法设计姿态稳定控制器。将策略迭代学习算法与多项式T-S模糊系统相结合,对控制器参数进行学习调整,实现对二自由度飞行姿态模拟器姿态稳定控制性能的优化。通过多... 针对二自由度飞行姿态模拟器的姿态稳定问题,依据强化学习中的策略迭代算法设计姿态稳定控制器。将策略迭代学习算法与多项式T-S模糊系统相结合,对控制器参数进行学习调整,实现对二自由度飞行姿态模拟器姿态稳定控制性能的优化。通过多项式T-S模糊模型对执行器的策略函数以及评价器的值函数进行逼近,建立基于多项式T-S模糊模型的执行器-评价器结构,经过策略迭代过程,学习得到最优控制器参数,使得值函数最小。通过仿真验证,证明了基于多项式T-S模糊模型的执行器—评价器结构的策略迭代算法在飞行器姿态稳定控制方面的有效性。 展开更多
关键词 飞行器控制 姿态稳定 强化学习 策略迭代算法 多项式T-S模糊系统
下载PDF
考虑个体差异的系统退化建模与半Markov过程维修决策 被引量:3
6
作者 李琦 李婧 +1 位作者 蒋增强 边靖媛 《计算机集成制造系统》 EI CSCD 北大核心 2020年第2期331-339,共9页
为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模型进行退化建模,并利用自回归方法对模型残差中的时间序列相关性进行调节,提高了模型的准确性。在此基础... 为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模型进行退化建模,并利用自回归方法对模型残差中的时间序列相关性进行调节,提高了模型的准确性。在此基础上构造合理的状态空间和维修决策空间,求解退化过程的状态转移概率,并使用策略迭代算法求解最小化单位时间长期预计成本的最优化维修策略。以激光退化实际案例求解了基于半Markov决策过程的维修策略,并与经典的基于役龄的维修策略和周期检查的维修策略进行比较,证明了所提方法能够更加精确地刻画系统的退化过程,并可帮助制定兼顾成本与可靠性的维修策略。 展开更多
关键词 半MARKOV决策过程 缓慢退化系统 线性混合效应模型 策略迭代算法
下载PDF
基于勒贝格采样的非线性系统优化控制
7
作者 朱萌萌 宋运忠 《复杂系统与复杂性科学》 EI CSCD 2019年第1期83-93,共11页
为了解决非线性系统中的最优控制问题,在性能势理论的基础上,提出了一种基于勒贝格采样的新的事件触发控制策略。首先,根据最优控制理论,给出了基于勒贝格采样的非线性系统数学模型。然后,结合Markov决策过程中的时间集结法、解析法和... 为了解决非线性系统中的最优控制问题,在性能势理论的基础上,提出了一种基于勒贝格采样的新的事件触发控制策略。首先,根据最优控制理论,给出了基于勒贝格采样的非线性系统数学模型。然后,结合Markov决策过程中的时间集结法、解析法和策略迭代算法对搭建的数学模型进行Matlab仿真求解,得出了该系统的最优策略和最优性能。最后,将勒贝格采样系统与传统的周期采样系统作比较,深入分析了两种采样方案下的优化性能,比较了其优缺点,得出了勒贝格采样方法不仅能改善系统性能,解决了系统的“维数灾”问题,还能在某种程度上减小系统的资源消耗。 展开更多
关键词 非线性系统 勒贝格采样 时间集结 性能势 策略迭代算法 最优控制
下载PDF
A novel policy iteration based deterministic Q-learning for discrete-time nonlinear systems 被引量:8
8
作者 WEI QingLai LIU DeRong 《Science China Chemistry》 SCIE EI CAS CSCD 2015年第12期143-157,共15页
In this paper, a novel iterative Q-learning algorithm, called "policy iteration based deterministic Qlearning algorithm", is developed to solve the optimal control problems for discrete-time deterministic no... In this paper, a novel iterative Q-learning algorithm, called "policy iteration based deterministic Qlearning algorithm", is developed to solve the optimal control problems for discrete-time deterministic nonlinear systems. The idea is to use an iterative adaptive dynamic programming(ADP) technique to construct the iterative control law which optimizes the iterative Q function. When the optimal Q function is obtained, the optimal control law can be achieved by directly minimizing the optimal Q function, where the mathematical model of the system is not necessary. Convergence property is analyzed to show that the iterative Q function is monotonically non-increasing and converges to the solution of the optimality equation. It is also proven that any of the iterative control laws is a stable control law. Neural networks are employed to implement the policy iteration based deterministic Q-learning algorithm, by approximating the iterative Q function and the iterative control law, respectively. Finally, two simulation examples are presented to illustrate the performance of the developed algorithm. 展开更多
关键词 adaptive critic designs adaptive dynamic programming approximate dynamic programming Q-LEARNING policy iteration neural networks nonlinear systems optimal control
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部