期刊文献+
共找到74篇文章
< 1 2 4 >
每页显示 20 50 100
一种基于部分可观察马尔可夫决策过程的股票交易策略
1
作者 黄福威 张宁 《东莞理工学院学报》 2023年第1期43-50,共8页
近年来涌现了许多把深度强化学习应用到股票交易策略的研究。深度强化学习通常依赖于马尔可夫决策过程建模,但是股票市场中交易策略的制定需要考虑历史交易数据中包含的信息。因此,本文通过部分可观察马尔可夫决策过程对股票市场建模,... 近年来涌现了许多把深度强化学习应用到股票交易策略的研究。深度强化学习通常依赖于马尔可夫决策过程建模,但是股票市场中交易策略的制定需要考虑历史交易数据中包含的信息。因此,本文通过部分可观察马尔可夫决策过程对股票市场建模,并采用长短期记忆网络和优势演员评论家算法来构建股票交易策略。通过在道琼斯工业平均指数成份股数据集上进行实验,实验结果表明本文所设计的股票交易策略构建方法可以挖掘隐藏在历史数据中的有效信息,获得稳定且有效的交易策略。 展开更多
关键词 股票交易 部分可观察马尔可夫决策过程 优势演员评论家算法
下载PDF
基于部分可观察马尔可夫决策过程的多被动传感器组网协同反隐身探测任务规划 被引量:12
2
作者 万开方 高晓光 +1 位作者 李波 梅军峰 《兵工学报》 EI CAS CSCD 北大核心 2015年第4期731-743,共13页
针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控... 针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控制系统结构,提出了基于无迹卡尔曼滤波(UKF)的信念状态更新方法和基于蒙特卡洛Rollout采样(MCRS)的Q值估计方法,并设计了CCSP基本策略。仿真结果表明,所建立的模型能够实现多被动传感器的高效管理调度,能够控制多被动传感器对隐身目标进行有效探测跟踪,即模型有效性得到了验证。 展开更多
关键词 控制科学与技术 传感器技术 反隐身 多传感器组网 部分可观察马尔可夫决策过程 信念状态 任务规划
下载PDF
部分可观测马尔可夫决策过程算法综述 被引量:10
3
作者 桂林 武小悦 《系统工程与电子技术》 EI CSCD 北大核心 2008年第6期1058-1064,共7页
部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础... 部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础。介绍了POMDP模型后,对离散时间、有限状态集的POMDP精确算法和近似算法进行了综述,分析了造成POMDP难以求解的主要原因,提出了进一步的研究方向。 展开更多
关键词 部分可观测马尔可夫决策过程 算法 综述
下载PDF
基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法 被引量:1
4
作者 仵博 陈鑫 +1 位作者 郑红燕 冯延蓬 《电子与信息学报》 EI CSCD 北大核心 2013年第12期2901-2907,共7页
针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和... 针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明,该算法具有较低误差率和较高收敛性。 展开更多
关键词 信息处理 部分可观察马尔可夫决策过程 信念状态空间 非负矩阵分解 值直接压缩 维数灾
下载PDF
基于部分可观测马尔可夫决策过程的水声传感器网络介质访问控制协议 被引量:2
5
作者 徐明 刘广钟 《计算机应用》 CSCD 北大核心 2015年第11期3047-3050,3074,共5页
针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为... 针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为多个离散等级来表达节点的状态信息。此后,接收节点通过信道状态观测和接入动作的历史信息对信道的占用概率进行预测,从而得出发送节点的信道最优调度策略;发送节点按照该策略中的调度序列在各自所分配的时隙内依次与接收节点进行通信,传输数据包。通信完成后,相关节点根据网络转移概率的统计量估计下一个时隙的状态。仿真实验表明,与传统的水声传感器网络介质访问控制协议相比,基于POMDP的介质访问控制协议可以提高数据包传输成功率和网络吞吐量,并且降低网络的能量消耗。 展开更多
关键词 水声传感器网络 部分可观测马尔可夫决策过程 介质访问控制 信道 调度
下载PDF
基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配 被引量:2
6
作者 李萌 司鹏搏 +1 位作者 孙恩昌 张延华 《高技术通讯》 北大核心 2017年第3期220-227,共8页
研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数... 研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数据传输误码率作为反馈观测对象,对通信小区内基站天线开启数与用户接入数进行动态资源最优匹配。仿真结果表明,这种方法能够有效提升系统传输能效性与可靠性,降低传输误码率,改善系统资源动态匹配控制性能。 展开更多
关键词 受控网络 反馈策略 资源分配 部分可观察马尔可夫决策过程(POMDP)
下载PDF
基于微重启和部分客观马尔可夫决策模型的智能水下机器人软件自修复方法
7
作者 张汝波 孟雷 史长亭 《计算机应用》 CSCD 北大核心 2015年第8期2375-2379,共5页
针对智能水下机器人(AUV)软件故障修复过程中存在的修复代价过高和系统环境只有部分可观察的问题,提出了一种基于微重启技术和部分客观马尔可夫决策(POMDP)模型的AUV软件故障修复方法。该方法结合AUV软件系统分层结构特点,构建了基于微... 针对智能水下机器人(AUV)软件故障修复过程中存在的修复代价过高和系统环境只有部分可观察的问题,提出了一种基于微重启技术和部分客观马尔可夫决策(POMDP)模型的AUV软件故障修复方法。该方法结合AUV软件系统分层结构特点,构建了基于微重启的三层重启结构,便于细粒度的自修复微重启策略的实施;并依据部分可观马尔可夫决策过程理论,给出AUV软件自修复POMDP模型,同时采用基于点的值迭代(PBVI)算法求解生成修复策略,以最小化累积修复代价为目标,使系统在部分可观环境下能够以较低的修复代价执行修复动作。仿真实验结果表明,基于微重启技术和POMDP模型的AUV软件故障修复方法能够解决由软件老化及系统调用引起的AUV软件故障,同与两层微重启策略和三层微重启固定策略相比,该方法在累积故障修复时间和运行稳定性上明显更优。 展开更多
关键词 智能水下机器人 微重启 自修复 部分客观马尔可夫决策 基于点的值迭代算法
下载PDF
不确定性环境下的自动驾驶汽车行为决策方法 被引量:1
8
作者 付新科 蔡英凤 +2 位作者 陈龙 王海 刘擎超 《汽车工程》 EI CSCD 北大核心 2024年第2期211-221,259,共12页
在真实驾驶环境中,由于感知数据的噪声和其他交通参与者难以预测的行为意图,自动驾驶汽车如何在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境... 在真实驾驶环境中,由于感知数据的噪声和其他交通参与者难以预测的行为意图,自动驾驶汽车如何在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境下的自动驾驶汽车行为决策方法,为消除不确定性的影响,将行为决策过程转化为部分可观察马尔可夫决策过程(POMDP)。同时为解决POMDP模型计算复杂度过高的问题,首次将复杂网络理论应用于自动驾驶汽车周围微观的驾驶环境,对自动驾驶汽车驾驶环境进行动态建模,实现了车辆节点间交互关系的有效刻画,并对重要车辆节点进行科学筛选,用于指导自车的行为决策,实现对关键车辆节点的精准识别和决策空间的剪枝。在仿真环境中验证了所提方法的有效性,实验结果表明,与现有最先进的行为决策方法相比,所提出的方法拥有更高的计算效率,且拥有更好的性能和灵活性。 展开更多
关键词 自动驾驶汽车 行为决策 部分可观察马尔可夫决策过程 复杂网络
下载PDF
基于部分可观马氏决策的AUV全局路径规划 被引量:2
9
作者 洪晔 边信黔 《计算机仿真》 CSCD 2007年第6期146-149,共4页
自治式水下机器人在复杂海洋环境航行时要求寻找一条从给定起始点到终止点的较优的运动路径,安全、无碰撞地绕过所有的障碍物。提出了一种基于部分可观察马尔可夫决策过程,并结合预测障碍物运动的全局路径规划新方法;给出了部分可观马... 自治式水下机器人在复杂海洋环境航行时要求寻找一条从给定起始点到终止点的较优的运动路径,安全、无碰撞地绕过所有的障碍物。提出了一种基于部分可观察马尔可夫决策过程,并结合预测障碍物运动的全局路径规划新方法;给出了部分可观马尔可夫决策的数学模型;建立了树状的分层部分可观马尔可夫决策模型,并在路径规划中应用;提出了短期预测和长期预测两种针对水下障碍物运动轨迹预测的方法;最后通过仿真实验对AUV的全局路径规划能力进行了仿真验证,为今后的实艇试验打下了很好的基础。 展开更多
关键词 自治式水下机器人 部分可观察马尔可夫决策过程 全局路径规划 仿真
下载PDF
基于POMDP模型的智能雷达干扰决策方法
10
作者 冯路为 刘松涛 徐华志 《系统工程与电子技术》 EI CSCD 北大核心 2023年第9期2755-2760,共6页
为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建... 为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建了智能雷达对抗系统的POMDP模型,采用非参数的、基于样本的信念分布反映智能体对环境的认知,并利用贝叶斯滤波更新智能体对环境的信念。然后,以信息熵作为评估准则,令干扰机选择信息熵最大的干扰样式不断尝试。最后,通过仿真实验与传统Q-学习法和经验决策法的干扰决策性能进行比较,验证所提方法的优越性。结果表明,所提方法能够根据未知雷达状态变化动态地选择最优干扰方式,且能更快实现对智能雷达的干扰决策。 展开更多
关键词 智能雷达 强化学习 部分可观测马尔可夫决策过程模型 贝叶斯滤波
下载PDF
考虑综合性能最优的非短视快速天基雷达多目标跟踪资源调度算法
11
作者 王增福 杨广宇 金术玲 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第1期253-269,共17页
合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基... 合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基于部分可观测的马尔可夫决策过程(POMDP)的资源调度模型;采用拉格朗日松弛法将多约束下的多目标跟踪资源调度问题转换分解为多个无约束的子问题;针对连续状态空间、连续动作空间及连续观测空间引起的维数灾难问题,采用基于蒙特卡罗树搜索(MCTS)的在线POMDP算法—POMCPOW算法进行求解,最终提出了一种综合多指标性能的非短视快速天基雷达多目标跟踪资源调度算法。仿真表明,与已有调度算法相比,所提算法资源分配更合理,系统性能更优。 展开更多
关键词 天基雷达 资源调度 多目标跟踪 部分可观测的马尔可夫决策过程 蒙特卡罗树搜索(MCTS)
下载PDF
部分可观测信息条件下系统最佳检修策略分析 被引量:4
12
作者 尚永爽 许爱强 +2 位作者 李文海 王怡苹 盛沛 《系统工程与电子技术》 EI CSCD 北大核心 2012年第4期749-753,共5页
针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故... 针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故障率和可靠度函数,不仅考虑系统的工作时间,也考虑系统的退化状态。最后,以系统长期运行的最小平均费用率为目标,得到最佳的检测周期和最优的更换策略。实例研究表明,该方法可为保障人员提供科学的维修决策依据。 展开更多
关键词 视情维修 维修决策 部分可观测马尔可夫决策过程 马尔可夫模型 比例故障率模型 退化系统
下载PDF
多智能体系统分散式通信决策研究 被引量:3
13
作者 郑延斌 郭凌云 刘晶晶 《计算机应用》 CSCD 北大核心 2012年第10期2875-2878,共4页
通信是多智能体系统(MAS)之间协调与协作的最有效和最直接的方法,然而通信的代价却限制了该方法的使用。为了减少MAS协调过程中的通信量,提出一种启发式算法,使Agent仅选择能够改善团队期望回报的观察信息进行通信。实验结果证明,对通... 通信是多智能体系统(MAS)之间协调与协作的最有效和最直接的方法,然而通信的代价却限制了该方法的使用。为了减少MAS协调过程中的通信量,提出一种启发式算法,使Agent仅选择能够改善团队期望回报的观察信息进行通信。实验结果证明,对通信信息的选择能够高效的利用通信带宽,有助于提高系统的性能。 展开更多
关键词 多智能体系统 协作 分散式通信 马尔可夫决策过程 部分可观察马尔可夫决策过程
下载PDF
基于POMDP的可伸缩视频流优化决策调度 被引量:1
14
作者 范凤军 邹君妮 +1 位作者 汪敏 熊红凯 《上海交通大学学报》 EI CAS CSCD 北大核心 2010年第3期393-397,共5页
针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结... 针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结果表明,与传统的调度算法相比,该方法有效提高了视频流的平均峰值信噪比(PSNR).随着调度规模的扩大,其性能能够逐渐逼近用户状态完全确定的理想马尔可夫决策过程(MDP)模型. 展开更多
关键词 可伸缩视频编码 部分可观测马尔可夫决策过程 优化调度 无线广播
下载PDF
POMDP-APF:一种基于POMDP模型的APF无人机路径规划策略 被引量:1
15
作者 冯建新 解爽 +1 位作者 郭冠麟 潘成胜 《计算机应用研究》 CSCD 北大核心 2023年第7期2124-2129,2145,共7页
针对无人机在路径规划过程中会遇到静态或者动态的障碍物,从而导致路径规划失败的问题,提出一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)模型的人工势场(artificial potential field,APF)... 针对无人机在路径规划过程中会遇到静态或者动态的障碍物,从而导致路径规划失败的问题,提出一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)模型的人工势场(artificial potential field,APF)无人机路径规划策略(POMDP-APF)。首先使用传感器获得的障碍物信息结合POMDP模型预测障碍物的未来位置,为无人机的路径规划做准备;其次,提出一种新的基于障碍物的正方体外接球的模型,保障无人机在路径规划过程中的安全性;最后,结合改进的APF算法实现无人机的路径规划。仿真结果表明,POMDP-APF策略在无人机实时路径规划中具有良好的可行性和有效性,使无人机能够有效避开障碍物,同时路径长度以及耗费时间更短。 展开更多
关键词 无人机路径规划 人工势场法 部分可观测马尔可夫决策过程 避障
下载PDF
面向不确定性环境的自动驾驶运动规划:机遇与挑战 被引量:3
16
作者 张晓彤 王嘉诚 +2 位作者 何景涛 陈仕韬 郑南宁 《模式识别与人工智能》 EI CSCD 北大核心 2023年第1期1-21,共21页
运动规划算法作为自动驾驶系统中的重要研究内容,愈发受到研究者们关注.然而目前多数算法仅考虑在确定性结构化环境中的应用,忽视动态交通环境中潜在的不确定性因素.文中面向不确定性环境,将运动规划算法总结为两类:部分可观测马尔可夫... 运动规划算法作为自动驾驶系统中的重要研究内容,愈发受到研究者们关注.然而目前多数算法仅考虑在确定性结构化环境中的应用,忽视动态交通环境中潜在的不确定性因素.文中面向不确定性环境,将运动规划算法总结为两类:部分可观测马尔可夫决策过程(POMDP)和概率占用栅格图(POGM),从理论基础、求解算法、实际应用三方面进行介绍.基于当前置信状态,POMDP计算使未来折扣奖励最大的策略.POGM使用概率表征对应栅格上的占用情况,衡量车流动态变化的可能性,良好表征不确定性情况.最后,总结不确定性环境中当前运动规划问题面临的主要挑战和未来可能的研究方向. 展开更多
关键词 自动驾驶 运动规划 部分可观测马尔可夫决策过程(POMDP) 概率占用栅格图(POGM)
下载PDF
基于改进MADDPG的UAV轨迹和计算卸载联合优化算法 被引量:1
17
作者 苏维亚 徐飞 王森 《计算机系统应用》 2023年第11期203-211,共9页
在地震、台风、洪水、泥石流等造成严重破坏的灾区,无人机(unmanned aerial vehicle,UAV)可以作为空中边缘服务器为地面移动终端提供服务,由于单无人机有限的计算和存储能力,难以实时满足复杂的计算密集型任务.本文首先研究了一个多无... 在地震、台风、洪水、泥石流等造成严重破坏的灾区,无人机(unmanned aerial vehicle,UAV)可以作为空中边缘服务器为地面移动终端提供服务,由于单无人机有限的计算和存储能力,难以实时满足复杂的计算密集型任务.本文首先研究了一个多无人机辅助移动边缘计算模型,并构建了数学模型;然后建立部分可观察马尔可夫决策过程,提出了基于复合优先经验回放采样方法的MADDPG算法(composite priority multi-agent deep deterministic policy gradient,CoP-MADDPG)对无人机的时延能耗以及飞行轨迹进行联合优化;最后,仿真实验结果表明,本文所提出算法的总奖励收敛速度和收敛值均优于其他基准算法,且可为90%左右的地面移动终端提供服务,证明了本文算法的有效性与实用性. 展开更多
关键词 移动边缘计算 多智能体 联合优化 深度强化学习 部分可观察马尔可夫决策过程 计算卸载
下载PDF
融合对比预测编码的深度双Q网络 被引量:1
18
作者 刘剑锋 普杰信 孙力帆 《计算机工程与应用》 CSCD 北大核心 2023年第6期162-170,共9页
在模型未知的部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)下,智能体无法直接获取环境的真实状态,感知的不确定性为学习最优策略带来挑战。为此,提出一种融合对比预测编码表示的深度双Q网络强化学... 在模型未知的部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)下,智能体无法直接获取环境的真实状态,感知的不确定性为学习最优策略带来挑战。为此,提出一种融合对比预测编码表示的深度双Q网络强化学习算法,通过显式地对信念状态建模以获取紧凑、高效的历史编码供策略优化使用。为改善数据利用效率,提出信念回放缓存池的概念,直接存储信念转移对而非观测与动作序列以减少内存占用。此外,设计分段训练策略将表示学习与策略学习解耦来提高训练稳定性。基于Gym-MiniGrid环境设计了POMDP导航任务,实验结果表明,所提出算法能够捕获到与状态相关的语义信息,进而实现POMDP下稳定、高效的策略学习。 展开更多
关键词 部分可观测马尔可夫决策过程 表示学习 强化学习 对比预测编码 深度双Q网络
下载PDF
云环境下工业信息物理系统现场层安全策略决策方法
19
作者 朱美潘 杨健晖 +2 位作者 李欣格 杜鑫 周纯杰 《控制与决策》 EI CSCD 北大核心 2024年第1期281-290,共10页
云环境下工业信息物理系统架构的转变使得工业现场设备更加暴露于网络攻击下,对工业现场层提出更高的安全需求.随着系统结构愈渐复杂,网络攻击更加智能,系统难以准确获取安全状态,传统的基于状态的安全决策方法将不能实现有效防护,对此... 云环境下工业信息物理系统架构的转变使得工业现场设备更加暴露于网络攻击下,对工业现场层提出更高的安全需求.随着系统结构愈渐复杂,网络攻击更加智能,系统难以准确获取安全状态,传统的基于状态的安全决策方法将不能实现有效防护,对此提出一种工业信息物理系统现场层安全策略决策方法.首先,根据功能结构划分现场区域,分析潜在的攻击目标、攻击事件与系统防御策略间的关联性,构建攻击防御树;然后,从攻击和防护属性的视角,利用模糊层次分析法量化防御策略收益;接着,结合部分攻击状态构建部分可观的马尔可夫决策过程模型,通过求解模型得到最优安全策略;最后,以简化的田纳西-伊斯曼过程控制系统为对象验证所提出方法能够有效地决策出最优安全策略. 展开更多
关键词 工业信息物理系统 现场层 安全策略决策 部分可观的马尔可夫决策过程
原文传递
面向大规模网络的服务功能链部署方法
20
作者 张冠莹 伊鹏 +2 位作者 李丹 朱棣 毛明 《计算机工程》 CAS CSCD 北大核心 2023年第8期122-129,共8页
网络功能虚拟化(NFV)将网络功能从硬件中间盒中解耦出来,部署功能实例并编排为服务功能链(SFC),从而实现网络服务。针对资源受限情况下大规模网络环境中的SFC动态部署问题,提出一种基于多智能体的群策部署方法,该方法结合了集中式深度... 网络功能虚拟化(NFV)将网络功能从硬件中间盒中解耦出来,部署功能实例并编排为服务功能链(SFC),从而实现网络服务。针对资源受限情况下大规模网络环境中的SFC动态部署问题,提出一种基于多智能体的群策部署方法,该方法结合了集中式深度强化学习(DRL)和传统分布式方法的优点。将SFC部署问题建模为部分可见马尔可夫决策过程,每个节点部署一个Actor-Critic智能体,仅通过观察本地节点信息即可得到全局训练策略,具有DRL的灵活性和自适应性。本地智能体控制交互过程,以解决集中式DRL方法在大规模网络中控制复杂、响应速度慢等问题。基于多线程的思想,收集、整合每个节点的经验进行集中式训练,避免完全分布式训练过程中部分节点因请求流量少而导致训练不充分、策略不适用等问题。实验结果表明,该方法无须考虑网络规模而且不依赖特定场景,可以很好地适应现实中复杂多变的网络环境,在相对复杂的流量环境中,与CDRL、GCASP方法相比,在多种流量模式下所提方法的部署成功率均提高了20%以上,同时能够降低部署成本。 展开更多
关键词 网络功能虚拟化 服务功能链 深度强化学习 部分可见马尔可夫决策过程 多智能体
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部