基于聚类和核密度估计假设检验的异常值检测方法被引量：4

Outlier Detection Based on Clustering and KDE Hypothesis Testing

下载PDF

导出

摘要异常值检测是数据挖掘领域中的核心问题,在工业生产中也有着广泛的应用。准确高效的异常值检测方法能够及时反映出工业系统运行状态,为相关人员提供参考,而传统的异常值检测方法无法很好地检测出变化模式复杂、变化范围小、具有流数据特性的数据中的异常值。因此,本文提出了一种新的针对该类型数据的异常值检测方法:首先通过对数据进行聚类划分,将相似的数据进行归类,从而将原本复杂的数据分布拆解成为每个聚类下简单数据分布的叠加;然后使用核密度估计假设检验的方法对待检测数据进行异常值检测。在标准数据集和真实数据上的实验结果表明,该方法相比于传统的异常值检测方法在检测精度上有一定的提升。 Outlier detection is the core problem in data mining and is widely used in industrial production.Accurate and efficient outlier detection method can reflect the condition of industrial system in time,which provides reference for the relevant personnel.Traditional outlier detection algorithms can′t efficiently detect outliers in those data with complicated change modes,small change range and the characteristics of streaming data.In this paper a new method for detecting outliers is proposed.Firstly,the data are clustered into several categories by clustering.The data in the same categories share the common characteristics.In this way,we believe that the data in the same categories are under the same distribution which are simpler to fit than the whole data.So the original complex data distribution can be factored into several simple distributions.Secondly,kernel density estimation(KDE)hypothesis testing is used for abnormal value detection.Experiments in the UCI dataset and real industrial data show that the proposed method is more efficient than traditional methods.

作者周春蕾田品卓杨晨琛王皓

机构地区南京大学计算机软件新技术国家重点实验室江苏方天电力技术有限公司

出处《数据采集与处理》 CSCD 北大核心 2017年第5期997-1004,共8页 Journal of Data Acquisition and Processing

基金国家自然科学基金(61503178)资助项目江苏省自然科学基金(BK20150587)资助项目

关键词异常值检测聚类假设检验核密度估计 outlier detection clustering hypothesis testing kernel density estimation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1贺力克,聂平由.时序数据故障点检测方法分析比较及应用[J].湖南师范大学自然科学学报,2012,35(2):35-40. 被引量：4
2苏卫星,朱云龙,胡琨元,刘芳.基于模型的过程工业时间序列异常值检测方法[J].仪器仪表学报,2012,33(9):2080-2087. 被引量：23

二级参考文献31

1刘齐宏,李天德,周志斌,易彬,唐常杰,刘齐巍.基于RFID与基因表达式编程的经济统计时序挖掘[J].四川大学学报（工程科学版）,2008,40(5):121-124. 被引量：5
2齐红威,张军平,王珏.主曲线异常检测及其在股票市场中的应用[J].计算机研究与发展,2005,42(8):1306-1311. 被引量：6
3孙焕良,鲍玉斌,于戈,赵法信,王大玲.一种基于划分的孤立点检测算法[J].软件学报,2006,17(5):1009-1016. 被引量：16
4苏圣超,张正道,朱大奇.基于时间序列数据挖掘的旋转机械故障预报[J].南京航空航天大学学报,2006,38(B07):120-123. 被引量：4
5刘伟新,郭东星.主成分回归中异常点的二步诊断法及其医学应用[J].现代预防医学,2007,34(13):2423-2425. 被引量：3
6ELIO L, EDGAR A. Parallel algorithms for distance- based and density-based outliers [ C ]. International Con- ference on IEEE, 2005:767-776.
7PARK Y S, LEE J H, CHO Y K. Intrusion detection using noisy training data[ J]. Lecture Notes in Computer Science, 2004, (3043) :547-556.
8FAWCETF T, PROVOST F. Adaptive fraud detection [J]. Data Mining and Knowledge Discovery, 1997, 1 (3) : 291-316.
9ALMEIDA J A S, BARBOSA L M S, PAISA A C C. Improving hierarchical cluster analysis: A new method with outlier detection and automatic clustering [ J ]. Che- mometrics and Intelligent Laboratory Systems, 2007, 87 (2) : 208-217.
10BARNET V, LEVIS T. Outlier in statistical data [ M ]. John Wiley & Sons Chichester, 1994.

共引文献25

1董泽,贾昊.基于EWT-LOF的热工过程数据异常值检测方法[J].仪器仪表学报,2020,41(2):126-134. 被引量：25
2刘吉臻,高萌,吕游,杨婷婷.过程运行数据的稳态检测方法综述[J].仪器仪表学报,2013,34(8):1739-1748. 被引量：37
3刘祥明,石为人,范敏.一种时间序列连续分段多项式模式表示方法[J].仪器仪表学报,2014,35(5):1052-1056. 被引量：6
4冯富霞,李森贵.利用跟随周期均值显著化序列异常数据的学习算法[J].安徽工程大学学报,2019,34(1):26-30. 被引量：3
5陈娇,潘天红,张明.基于信号变化速率的时间序列异常值检测方法[J].北京工业大学学报,2014,40(7):992-995. 被引量：4
6孙磊,慕玉坤,郝宪武.基于小波变换和ARIMA模型的桥梁健康监测数据分析[J].中外公路,2015,35(1):126-130. 被引量：4
7康立宁,卢会国,裴翀,胡学英,刘银锋.基于ARMA模型判别气压传感器故障[J].气象科技,2014,42(6):986-991.
8张玲,刘波.基于残差统计的时间序列加性离群点检测算法研究[J].电子技术应用,2015,41(9):85-87. 被引量：9
9应海松,王振新,余春晖,李雪莲,陈颖娜.基于机械采样的MATLAB/Simulink技术在铁矿石取样中的应用[J].现代矿业,2015,31(12):263-265. 被引量：1
10王东风,刘千,韩璞,赵文杰.基于大数据驱动案例匹配的电站锅炉燃烧优化[J].仪器仪表学报,2016,37(2):420-428. 被引量：27

同被引文献52

1李广林,陈凌峰,张广治,胡志远,王付兴,张宝磊.冷轧硅钢板形与横向厚度控制的分析[J].中国冶金,2015,25(4):24-27. 被引量：14
2王中宇,张海滨,刘智敏.剔除离群值的学生化残差新方法[J].仪器仪表学报,2006,27(6):624-628. 被引量：11
3程度.异常值剔除法在RCS测量数据处理中的应用[J].现代电子技术,2007,30(19):82-84. 被引量：4
4魏治文,程琳,来记桃,吴火兵.几种异常值判别准则在安全监测数据处理中的应用[J].大坝与安全,2009,23(1):67-69. 被引量：23
5熊艳艳,吴先球.粗大误差四种判别准则的比较和应用[J].大学物理实验,2010,23(1):66-68. 被引量：91
6崔岩,李彦群.智能电能表测量结果异常值的判别和剔除方法研究[J].陕西电力,2012,40(10):78-80. 被引量：5
7宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935. 被引量：542
8高雷,郭立伟,陈丹.冷连轧轧制力模型中变形抗力和摩擦系数的分析[J].轧钢,2013,30(4):12-15. 被引量：22
9于陆军,侯松梁.气体涡街流量计校准结果的异常值剔除和符合性判定[J].计量与测试技术,2014,41(5):29-30. 被引量：2
10许健勇.薄板冷轧厚度与板形高精度控制技术[J].钢铁,2002,37(1):73-77. 被引量：35

引证文献4

1祝永晋,马吉科,季聪.基于多判据融合的用电信息采集系统异常数据甄别模型[J].广东电力,2019,32(9):184-192. 被引量：9
2刘红英.大数据下网络化软件时间变化敏感点检测仿真[J].计算机仿真,2019,36(12):353-356. 被引量：1
3李常春,常克昊,刘禹杉.几种异常值判别准则在气象计量数据处理中的应用[J].电子测量技术,2020,43(23):68-72. 被引量：7
4周军,杨荃,王晓晨.基于因果推断的冷轧带钢厚度异常根因分析[J].中国冶金,2023,33(5):94-101. 被引量：1

二级引证文献18

1胡柳,张四平,肖瑶星,邓慈云,卢艳芝.网络化软件异常行为特征分析与识别研究[J].智能计算机与应用,2020(7):253-256. 被引量：1
2景永生.智能电网时代电力信息通信技术的应用探讨[J].卫星电视与宽带多媒体,2019,0(17):4-5.
3王智,吴俊盼,魏海坤,张侃健.基于Stacking的雷达伺服系统故障诊断[J].软件导刊,2020,19(8):6-9. 被引量：3
4游昊,石恒初,杨远航,颜丽,廖晓春.基于改进D-S证据理论的电网故障多源信息智能融合诊断方法[J].广东电力,2020,33(11):16-25. 被引量：26
5石恒初,游昊,李本瑜,廖晓春,曾令森.继电保护主站信息融合决策系统的设计与应用[J].电力信息与通信技术,2021,19(1):81-90. 被引量：13
6于烨,刘思尧,郭安乐,杨勇.基于用电信息采集和配电自动化系统数据的电源点自动识别技术研究[J].电力大数据,2021,24(2):47-54. 被引量：1
7姚诚智,冯小峰,周东旭.检测低压用户窃电的计及专家经验的模糊聚类法[J].广东电力,2021,34(7):60-70. 被引量：4
8唐冬来,杨帆,付世峻,何鹏,陈武,陈科宇.基于贝叶斯网络的电能表状态评估方法[J].广东电力,2021,34(11):51-56. 被引量：5
9王晨龙,王堃,左朋莱,高佳佳,张晓曦,童亚莉,韩悦,李冰洋.城市建筑群影响下的实验室废气排放与扩散模拟[J].实验技术与管理,2021,38(11):308-314. 被引量：1
10刁晨昊,王成刚,严家德,郁佳俊.基于GNSS的新型大气边界层探空仪[J].电子测量技术,2021,44(23):73-77. 被引量：1

1翁丽丽,李波,王哲.基于核密度估计的吉林省龙胆分布区划研究[J].吉林中医药,2017,37(10):1038-1041. 被引量：1
2刘林.工业企业成本控制相关问题分析及对策探讨[J].中国管理信息化,2017,20(22):23-24. 被引量：3
3方海泉,薛惠锋,蒋云钟,周铁军,万毅,王海宁.基于EEMD的水资源监测数据异常值检测与校正[J].农业机械学报,2017,48(9):257-263. 被引量：15
4赵新斌,李斌.异常值检测方法在民航告警中的应用[J].南京航空航天大学学报,2017,49(4):524-530. 被引量：11
5殷嘉迪,雷国平,乐容潮,丁雪,马鑫鹏,杨欢.三江平原农村居民点时空格局演变——以富锦市为例[J].水土保持研究,2017,24(6):300-304. 被引量：16
6BIMCO与SHIPDEX开展航运数据电子化合作[J].海运情报,2017,0(10):34-34.
7王丽.电力系统调度自动化的探讨[J].长春理工大学学报（高教版）,2013(2):233-234.
8张其祺.低压电气供配电与安全运行管理探讨[J].华东科技（学术版）,2017,0(11):313-313.
9任意.区队工序定价方法[J].内蒙古煤炭经济,2017(20):70-71.
10苗苗.脑活动模式可判断做梦[J].科学大观园,2017,0(20):32-32.

数据采集与处理

2017年第5期

浏览历史

内容加载中请稍等...

基于聚类和核密度估计假设检验的异常值检测方法被引量：4

参考文献2

二级参考文献31

共引文献25

同被引文献52

引证文献4

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于聚类和核密度估计假设检验的异常值检测方法 被引量：4

参考文献2

二级参考文献31

共引文献25

同被引文献52

引证文献4

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于聚类和核密度估计假设检验的异常值检测方法被引量：4