-
题名差分隐私保护的随机森林算法及在钢材料上的应用
被引量:1
- 1
-
-
作者
陈薛辉
冯燕
钱权
-
机构
上海大学计算机工程与科学学院
上海大学材料信息与数据科学中心
之江实验室
-
出处
《工程科学学报》
EI
CSCD
北大核心
2023年第7期1194-1204,共11页
-
基金
国家重点研发计划资助项目(2018YFB0704400)
云南省重大科技专项资助项目(202102AB080019-3,202002AB080001-2)
+1 种基金
之江实验室科研攻关资助项目(2021PE0AC02)
上海张江国家自主创新示范区专项发展资金重大项目(ZJ2021-ZD-006)。
-
文摘
基于数据驱动的材料信息学被认为是材料研发第四范式,可以极大降低新材料的研发成本,缩短研发周期.然而,数据驱动的方法在材料数据共享利用时,会增加材料研发中关键工艺等敏感信息的隐私泄露风险.因此,面向隐私保护的机器学习是材料信息学中的关键问题.基于此,本文针对在材料信息学领域广泛使用的随机森林模型,提出了一种差分隐私保护的随机森林算法.算法将整体隐私预算分配到每棵树上,在建决策树过程中引入差分隐私的拉普拉斯机制和指数机制,即在决策树的分裂过程中采用指数机制随机选择分裂特征,同时采用拉普拉斯机制对节点数量添加噪声,实现对随机森林算法的差分隐私保护.本文结合钢材料疲劳性能预测实验,验证算法在数据分别采用集中式存储和分布式存储下的有效性.实验结果表明,在添加差分隐私保护后,各目标性能的预测决定系数R^(2)值均达到0.8以上,与普通随机森林的结果相差很小.另外,在数据分布式存储情况下,随着隐私预算的增加,各目标性能的预测R^(2)值随之增加.同时,随着最大树深度的增加,算法整体的预测精度先增加后降低,当最大树深度取5时,预测精度最好.综合看来,本文算法在实现随机森林的差分隐私保护前提下,仍能保持较高的预测精度,且数据在分散存储的分布式网络的环境中,可根据隐私预算等算法参数设置,实现隐私保护强度和预测精度的平衡,有广泛的应用前景.
-
关键词
材料信息学
随机森林
隐私保护
差分隐私
钢疲劳性能预测
-
Keywords
materials informatics
random forest
privacy protection
differential privacy
steel fatigue properties prediction
-
分类号
TG391
[金属学及工艺—金属压力加工]
-