-
题名基于启发式奖赏塑形方法的智能化攻击路径发现
- 1
-
-
作者
曾庆伟
张国敏
邢长友
宋丽华
-
机构
陆军工程大学指挥控制工程学院
-
出处
《信息安全学报》
CSCD
2024年第3期44-58,共15页
-
基金
国家自然科学基金(No.62172432)资助。
-
文摘
渗透测试作为一种评估网络系统安全性能的重要手段,是以攻击者的角度模拟真实的网络攻击,找出网络系统中的脆弱点。而自动化渗透测试则是利用各种智能化方法实现渗透测试过程的自动化,从而大幅降低渗透测试的成本。攻击路径发现作为自动化渗透测试中的关键技术,如何快速有效地在网络系统中实现智能化攻击路径发现,一直受到学术界的广泛关注。现有的自动化渗透测试方法主要基于强化学习框架实现智能化攻击路径发现,但还存在奖赏稀疏、学习效率低等问题,导致算法收敛速度慢,攻击路径发现难以满足渗透测试的高时效性需求。为此,提出一种基于势能的启发式奖赏塑形函数的分层强化学习算法(HRL-HRSF),该算法首先利用渗透测试的特性,根据网络攻击的先验知识提出了一种基于深度横向渗透的启发式方法,并利用该启发式方法设计出基于势能的启发式奖赏塑形函数,以此为智能体前期探索提供正向反馈,有效缓解了奖赏稀疏的问题;然后将该塑形函数与分层强化学习算法相结合,不仅能够有效减少环境状态空间与动作空间大小,还能大幅度提高智能体在攻击路径发现过程中的奖赏反馈,加快智能体的学习效率。实验结果表明,HRL-HRSF相较于没有奖赏塑形的分层强化学习算法、DQN及其改进算法更加快速有效,并且随着网络规模和主机漏洞数目的增大,HRL-HRSF均能保持更好地学习效率,拥有良好的鲁棒性和泛化性。
-
关键词
自动化渗透测试
奖赏塑形
分层强化学习
攻击路径发现
DQN算法
-
Keywords
automated penetration testing
reward shaping
hierarchical reinforcement learning
attack path discovery
DQN algorithm
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于自生成样本学习的奖赏塑形方法
被引量:1
- 2
-
-
作者
钱煜
俞扬
周志华
-
机构
计算机软件新技术国家重点实验室(南京大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2013年第11期2667-2675,共9页
-
基金
江苏省自然科学基金(BK2012303)
百度开放课题(181315P00651)
-
文摘
强化学习通过从以往的决策反馈中学习,使Agent做出正确的短期决策,以最大化其获得的累积奖赏值.以往研究发现,奖赏塑形方法通过提供简单、易学的奖赏替代函数(即奖赏塑性函数)来替换真实的环境奖赏,能够有效地提高强化学习性能.然而奖赏塑形函数通常是在领域知识或者最优策略示例的基础上建立的,均需要专家参与,代价高昂.研究是否可以在强化学习过程中自动地学习有效的奖赏塑形函数.通常,强化学习算法在学习过程中会采集大量样本.这些样本虽然有很多是失败的尝试,但对构造奖赏塑形函数可能提供有用信息.提出了针对奖赏塑形的新型最优策略不变条件,并在此基础上提出了RFPotential方法,从自生成样本中学习奖赏塑形.在多个强化学习算法和问题上进行了实验,其结果表明,该方法可以加速强化学习过程.
-
关键词
奖赏塑形
自生成样本
策略不变
强化学习
-
Keywords
shaping reward
passive sample
policy-invariance
reinforcement learning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-