摘要
目前多数匿名化隐私保护技术由于其严重依赖于预先定义的泛化层或属性域上的全序关系,导致匿名结果产生很高的信息损失,数据的可用性降低。通过定义距离和代价度量函数,提出基于聚类算法构造l-多样性匿名隐私保护模型。实验结果表明,该方法可减少信息损失,提高发布数据的可用性。
At present, most anonymous privacy - preserving techniques suffer from high information loss and low usability that is mainly due to reliance on pre - defined generalization hierarchies or total order imposed on each attribute domain. Through defining distance and cost function, the paper provides a kind of I - diverse anonymous privacy - preserving mod- el based on clustering algorithm. Experiment results show that the method can improve the usability of the released data while reducing the information loss.
出处
《现代图书情报技术》
CSSCI
北大核心
2010年第11期53-58,共6页
New Technology of Library and Information Service
基金
教育部人文社会科学青年基金项目"文本挖掘技术在判定论文抄袭中的应用研究"(项目编号:07JC870006)
安徽省高等学校自然科学基金重点项目"集成隐私保护机制的安全数据库研究"(项目编号:KJ2010A003)的研究成果之一
关键词
数据发布
隐私保护
K-匿名
1-多样性
聚类
Data release Privacy - preserving k - Anonymity 1 - Diversity Clustering