随着云存储、人工智能等技术的发展,数据的价值已获得显著增长。但由于昂贵的通信代价和难以承受的数据泄露风险迫使各机构间产生了“数据孤岛”问题,大量数据无法发挥它的经济价值。虽然将区块链作为承载联邦学习的平台能够在一定程度...随着云存储、人工智能等技术的发展,数据的价值已获得显著增长。但由于昂贵的通信代价和难以承受的数据泄露风险迫使各机构间产生了“数据孤岛”问题,大量数据无法发挥它的经济价值。虽然将区块链作为承载联邦学习的平台能够在一定程度上解决该问题,但也带来了三个重要的缺陷:1)工作量证明(Proof of Work,POW)、权益证明(Proof of Stake,POS)等共识过程与联邦学习训练过程并无关联,共识将浪费大量算力和带宽;2)节点会因为利益的考量而拒绝或消极参与训练过程,甚至因竞争关系干扰训练过程;3)在公开的环境下,模型训练过程的数据难以溯源,也降低了攻击者的投毒成本。研究发现,不依靠工作量证明、权益证明等传统共识机制而将联邦学习与模型水印技术予以结合来构造全新的共识激励机制,能够很好地避免联邦学习在区块链平台上运用时所产生的算力浪费及奖励不均衡等情况。基于这种共识所设计的区块链系统不仅仍然满足不可篡改、去中心化、49%拜占庭容错等属性,还天然地拥有49%投毒攻击防御、数据非独立同分布(Not Identically and Independently Distributed,Non-IID)适应以及模型产权保护的能力。实验与论证结果都表明,本文所提出的方案非常适用于非信任的机构间利用大量本地数据进行商业联邦学习的场景,具有较高的实际价值。展开更多
基于差分隐私的深度学习隐私保护方法中,训练周期的长度以及隐私预算的分配方式直接制约着深度学习模型的效用.针对现有深度学习结合差分隐私的方法中模型训练周期有限、隐私预算分配不合理导致模型安全性与可用性差的问题,提出一种基...基于差分隐私的深度学习隐私保护方法中,训练周期的长度以及隐私预算的分配方式直接制约着深度学习模型的效用.针对现有深度学习结合差分隐私的方法中模型训练周期有限、隐私预算分配不合理导致模型安全性与可用性差的问题,提出一种基于数据特征相关性和自适应差分隐私的深度学习方法(deep learning methods based on data feature Relevance and Adaptive Differential Privacy,RADP).首先,该方法利用逐层相关性传播算法在预训练模型上计算出原始数据集上每个特征的平均相关性;然后,使用基于信息熵的方法计算每个特征平均相关性的隐私度量,根据隐私度量对特征平均相关性自适应地添加拉普拉斯噪声;在此基础上,根据加噪保护后的每个特征平均相关性,合理分配隐私预算,自适应地对特征添加拉普拉斯噪声;最后,理论分析该方法(RADP)满足ε-差分隐私,并且兼顾安全性与可用性.同时,在三个真实数据集(MNIST,Fashion-MNIST,CIFAR-10)上的实验结果表明,RADP方法的准确率以及平均损失均优于AdLM(Adaptive Laplace Mechanism)方法、DPSGD(Differential Privacy with Stochastic Gradient Descent)方法和DPDLIGDO(Differentially Private Deep Learning with Iterative Gradient Descent Optimization)方法,并且RADP方法的稳定性仍能保持良好.展开更多
文摘随着云存储、人工智能等技术的发展,数据的价值已获得显著增长。但由于昂贵的通信代价和难以承受的数据泄露风险迫使各机构间产生了“数据孤岛”问题,大量数据无法发挥它的经济价值。虽然将区块链作为承载联邦学习的平台能够在一定程度上解决该问题,但也带来了三个重要的缺陷:1)工作量证明(Proof of Work,POW)、权益证明(Proof of Stake,POS)等共识过程与联邦学习训练过程并无关联,共识将浪费大量算力和带宽;2)节点会因为利益的考量而拒绝或消极参与训练过程,甚至因竞争关系干扰训练过程;3)在公开的环境下,模型训练过程的数据难以溯源,也降低了攻击者的投毒成本。研究发现,不依靠工作量证明、权益证明等传统共识机制而将联邦学习与模型水印技术予以结合来构造全新的共识激励机制,能够很好地避免联邦学习在区块链平台上运用时所产生的算力浪费及奖励不均衡等情况。基于这种共识所设计的区块链系统不仅仍然满足不可篡改、去中心化、49%拜占庭容错等属性,还天然地拥有49%投毒攻击防御、数据非独立同分布(Not Identically and Independently Distributed,Non-IID)适应以及模型产权保护的能力。实验与论证结果都表明,本文所提出的方案非常适用于非信任的机构间利用大量本地数据进行商业联邦学习的场景,具有较高的实际价值。
文摘基于差分隐私的深度学习隐私保护方法中,训练周期的长度以及隐私预算的分配方式直接制约着深度学习模型的效用.针对现有深度学习结合差分隐私的方法中模型训练周期有限、隐私预算分配不合理导致模型安全性与可用性差的问题,提出一种基于数据特征相关性和自适应差分隐私的深度学习方法(deep learning methods based on data feature Relevance and Adaptive Differential Privacy,RADP).首先,该方法利用逐层相关性传播算法在预训练模型上计算出原始数据集上每个特征的平均相关性;然后,使用基于信息熵的方法计算每个特征平均相关性的隐私度量,根据隐私度量对特征平均相关性自适应地添加拉普拉斯噪声;在此基础上,根据加噪保护后的每个特征平均相关性,合理分配隐私预算,自适应地对特征添加拉普拉斯噪声;最后,理论分析该方法(RADP)满足ε-差分隐私,并且兼顾安全性与可用性.同时,在三个真实数据集(MNIST,Fashion-MNIST,CIFAR-10)上的实验结果表明,RADP方法的准确率以及平均损失均优于AdLM(Adaptive Laplace Mechanism)方法、DPSGD(Differential Privacy with Stochastic Gradient Descent)方法和DPDLIGDO(Differentially Private Deep Learning with Iterative Gradient Descent Optimization)方法,并且RADP方法的稳定性仍能保持良好.