半Markov控制过程在折扣代价准则下的最优平稳策略被引量：1

Optimal stationary policies for semi-Markov control processes with discounted-cost criteria

下载PDF

导出

摘要讨论一类半Markov控制过程(SMCP)的折扣代价性能优化问题.通过引入一个矩阵,该矩阵可作为一个Markov过程的无穷小矩阵,对一个SMCP定义了折扣Poisson方程,并由这个方程定义了α 势.基于α 势,给出了由最优平稳策略所满足的最优性方程.最后给出一个求解最优平稳策略的迭代算法,并提供一个数值例子以表明该算法的应用. The problems of discounted-cost performance optimization are discussed for a class of semi-Markov control processes (SMCP). A matrix is defined, which can be as the infinitesimal generator of a Markov process. The discounted Poisson equation is proposed for an SMCP by using this matrix, from which the α-potential is defined. Based on the α-potential, the optimality equation satisfied by the optimal stationary policy is given. Finally an iteration algorithm to find an optimal stationary policy is proposed, and a numerical example is provided to illustrate the application of the algorithm.

作者殷保群李衍杰周亚平奚宏生

机构地区中国科学技术大学自动化系

出处《控制与决策》 EI CSCD 北大核心 2004年第6期691-694,共4页 Control and Decision

基金国家自然科学基金资助项目(60274012) 安徽省自然科学基金资助项目(01042308).

关键词半Markovr控制过程折扣代价准则折扣Poisson方程 α-势最优性方程最优平稳策略 Decision making Iterative methods Optimal systems Poisson equation

分类号 O232 [理学—运筹学与控制论]

引文网络
相关文献

参考文献8

1Howard R.Semi-Markovian decision processes[J].Inst Intcernat Statist,1963,40:625-652.
2Ross S M.Applied Probability Models with Optimization Applications[M].San Franciso: Holden-Day,1971.
3Beutler F J,Ross K W.Uniformization for semi-Markov decision processes under stationary policies[J].J Appl Prob,1987,24: 644-656.
4Puterman M L.Markov Decision Processes[M].New York: John Wiley,1994.
5Cinlar E.Introduction to Stochastic Processes[M].Englewood Cliffs: Prentice-Hall Inc,1975.
6奚宏生,唐昊,殷保群.连续时间MCP在紧致行动集上的最优策略(英文)[J].自动化学报,2003,29(2):206-211. 被引量：12
7Tang Hao,Xi Hongsheng,Yin Baoqun.Performance optimization of continuous-time Markov control processes based on performance potentials[J].Int J of Systems Science,2003,34(1):63-71.
8Jewell W S.Markov renewal programming: Ⅰ,Ⅱ[J].Operat Res,1963,2:938-971.

二级参考文献2

1殷保群,周亚平,杨孝先,奚宏生,孙德敏.状态相关闭排队网络中的性能指标灵敏度公式[J].控制理论与应用,1999,16(2):255-257. 被引量：15
2周亚平,殷保群,奚宏生,谭小彬,孙德敏.一类闭排队网络基于性能势的优化算法[J].中国科学技术大学学报,2000,30(2):151-157. 被引量：8

共引文献11

1李衍杰,殷保群,奚宏生,周亚平,代桂平.半Markov过程基于性能势的灵敏度分析和性能优化[J].控制理论与应用,2004,21(6):1032-1035. 被引量：1
2李衍杰,殷保群,奚宏生,代桂平.一类连续时间Markov链的灵敏度分析和性能优化[J].中国科学技术大学学报,2004,34(6):704-709.
3殷保群,李衍杰,奚宏生,周亚平.一类可数Markov控制过程的最优平稳策略[J].控制理论与应用,2005,22(1):43-46. 被引量：1
4代桂平,殷保群,李衍杰,周亚平,奚宏生.半Markov控制过程在平均准则下的优化算法[J].中国科学技术大学学报,2005,35(2):202-207. 被引量：1
5唐昊 ,奚宏生 ,韩江洪 ,袁继彬 .具有不确定性路径概率的闭排队网络鲁棒控制策略[J].自动化学报,2005,31(3):446-450. 被引量：2
6唐昊,吴玉华,周雷.半Markov决策过程的数值迭代优化[J].吉林大学学报（工学版）,2006,36(1):108-112. 被引量：2
7代桂平,殷保群,李衍杰,奚宏生.半Markov控制过程基于性能势仿真的并行优化算法[J].中国科学技术大学学报,2006,36(2):183-186.
8代桂平,唐昊,奚宏生.随机平稳策略下半Markov决策过程的仿真优化算法[J].控制理论与应用,2006,23(4):547-551.
9唐波,李衍杰,殷保群.连续时间部分可观Markov决策过程的策略梯度估计[J].控制理论与应用,2009,26(7):805-808. 被引量：1
10TANGHao XIHong-Sheng YINBao-Qun.A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies^1）[J].自动化学报,2004,30(2):229-234. 被引量：4

同被引文献8

1宋京生.转移概率族非一致有界的连续时间马氏决策规划[J].中国科学：A辑,1987,12:1258-1267.
2Ross S M. Applied Probability Models with Optimization Applications [M]. San Franciso: Holden-Day, 1971.
3Yushkevich A A. Controlled Markov Models with Countable State Space and Continuous Time [J].Theory Probability and Applications, 1977,22 (2) : 215 -235.
4Guo X P, Zhu W P. Denumerable-state Continuous Time Markov Decision Processes with Unbounded Transition and Reward Rates Under the Discounted Criterion [J]. J of Applied Probability, 2002, 39 (2) :233-250.
5Puterman M L. Markov Decision Processes: Discrete Stochastic Dynamic Programming [M], New York:John Wiley, 1994.
6Cao X R. Semi-Markov Decision Problems and Performance Sensitivity Analysis [J]. IEEE Trans on Automatical Control, 2003,48 (5): 758-769.
7Dai G P, Yin B Q, Li Y J, et al. Performance Optimization Algorithms Based on Potential for Semi-Markov Control Processes[J]. Int J of Control, 2005,78(11) : 801-812.
8Cinlar E. Introduction to Stochastic Processes[M ].Englewood Cliffs, New Jersey: Prentice-Hall, Ine,1975.

引证文献1

1殷保群,李衍杰,周亚平,奚宏生.可数半Markov决策过程折扣代价性能优化[J].控制与决策,2006,21(8):933-936.

1殷保群,李衍杰,周亚平,奚宏生.可数半Markov决策过程折扣代价性能优化[J].控制与决策,2006,21(8):933-936.
2陈越奋,李志强.无穷时间多维不确定线性二次最优控制[J].信阳师范学院学报（自然科学版）,2016,29(3):336-339.
3李衍杰,殷保群,奚宏生,周亚平,代桂平.半Markov过程基于性能势的灵敏度分析和性能优化[J].控制理论与应用,2004,21(6):1032-1035. 被引量：1
4周亚平,奚宏生,殷保群,孙德敏.一类受控闭排队网络基于性能势的最优性方程[J].控制理论与应用,2002,19(4):521-526. 被引量：3
5HUANG XiangXiang,ZOU XiaoLong,GUO XianPing.A minimization problem of the risk probability in first passage semi-Markov decision processes with loss rates[J].Science China Mathematics,2015,58(9):1923-1938. 被引量：3
6周亚平,奚宏生,殷保群,孙德敏.Markov控制过程基于性能势的平均代价最优策略[J].自动化学报,2002,28(6):904-910. 被引量：4

控制与决策

2004年第6期

浏览历史

内容加载中请稍等...

半Markov控制过程在折扣代价准则下的最优平稳策略被引量：1

参考文献8

二级参考文献2

共引文献11

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

半Markov控制过程在折扣代价准则下的最优平稳策略 被引量：1

参考文献8

二级参考文献2

共引文献11

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

半Markov控制过程在折扣代价准则下的最优平稳策略被引量：1