针对现有的异常检测方法大多无法有效处理不完备混合数据的问题,提出一种面向不完备混合数据的模糊多粒度异常检测算法ADFIIS(Anomaly Detection in Fuzzy Incomplete Information System),所提算法考虑在标称属性和在数值属性上出现缺...针对现有的异常检测方法大多无法有效处理不完备混合数据的问题,提出一种面向不完备混合数据的模糊多粒度异常检测算法ADFIIS(Anomaly Detection in Fuzzy Incomplete Information System),所提算法考虑在标称属性和在数值属性上出现缺失值的情况,能处理混合属性数据。首先,定义属性之间的模糊相似度;其次,计算每个属性的模糊熵,基于熵的大小使用多粒度的思想构建多个属性序列;再次,计算每个样本的异常值以表征它的异常程度;最后,设计相应的ADFIIS算法并分析它的复杂度。在公开数据集上进行实验,将所提算法与ILGNI(Incomplete Local and Global Neighborhood Information network)等主流离群点检测算法对比。实验结果表明,ADFIIS在不完备混合数据集上的受试者操作特征(ROC)曲线效果更好。ADFIIS的曲线下面积(AUC)的平均值优于90%的对比方法,相较于同样能够处理不完备混合数据的ILGNI,它的AUC平均值提升了7个百分点。所提算法使用模型扩展法在不改变原始数据集的情况下对不完备数据集进行异常检测,拓展了异常检测的适用范围。展开更多
文摘针对现有的异常检测方法大多无法有效处理不完备混合数据的问题,提出一种面向不完备混合数据的模糊多粒度异常检测算法ADFIIS(Anomaly Detection in Fuzzy Incomplete Information System),所提算法考虑在标称属性和在数值属性上出现缺失值的情况,能处理混合属性数据。首先,定义属性之间的模糊相似度;其次,计算每个属性的模糊熵,基于熵的大小使用多粒度的思想构建多个属性序列;再次,计算每个样本的异常值以表征它的异常程度;最后,设计相应的ADFIIS算法并分析它的复杂度。在公开数据集上进行实验,将所提算法与ILGNI(Incomplete Local and Global Neighborhood Information network)等主流离群点检测算法对比。实验结果表明,ADFIIS在不完备混合数据集上的受试者操作特征(ROC)曲线效果更好。ADFIIS的曲线下面积(AUC)的平均值优于90%的对比方法,相较于同样能够处理不完备混合数据的ILGNI,它的AUC平均值提升了7个百分点。所提算法使用模型扩展法在不改变原始数据集的情况下对不完备数据集进行异常检测,拓展了异常检测的适用范围。