基于方差聚类的时序数据野值识别算法被引量：2

Variance clustering based outlier identification algorithm for time series data

下载PDF

导出

摘要时序数据中的野值会直接影响数据挖掘算法的结果,甚至造成算法失效。传统的基于密度的带有噪声的空间聚类(DBSCAN)算法可以用来识别野值,但是却存在算法对参数敏感、时间复杂度高、精度不高等问题。针对时序数据的特点,提出了一种可自动进行多次识别的基于方差聚类的野值识别算法。该方法通过将传统的邻域密度转换为方差和均值、将密度阈值转换为时间窗口内的方差和阈值,在定义野值数据、野簇数据和异常簇数据的基础上,给出野值识别方法的判断规则。同时,针对一次野值识别不能将全部野值剔除的问题,通过定义多次野值识别的结束条件将算法扩展为多次野值识别算法。通过在某航天数据挖掘项目中的应用,验证了该算法具有较好的通用性、低的时间复杂度、可进行多次识别以提高精度等特点。 Outliers in time series data will directly affect the results in data mining, even make the algorithm inefficacious. Traditional Density-Based Spatial Clustering of Applications with Noise （DBSCAN） algorithm can be used in outlier identification; however, there are several deficiencies such as sensitive to parameters, higher time complexity and less accuracy. Considering the characteristics of time series data, an outlier identification algorithm based on variance clustering was proposed. By converting neighborhood density into variance and mean value, converting density threshold into variance and threshold of a time window, based on the definition of outlier data, outlier cluster data and abnormal data, the outlier identifieation rides were given. For applying the algorithm once will probably not eliminate all the outliers, it is expanded to a multiple identification algorithm by defining the termination condition. This algorithm was verified its generality, less time complexity and higher accurate by being applied to a space data mining system.

作者史椸赵静鲍军鹏齐勇林秦颖

机构地区西安交通大学电子与信息工程学院空军工程大学工程学院

出处《计算机应用》 CSCD 北大核心 2012年第A02期22-25,共4页 journal of Computer Applications

关键词时序数据野值识别聚类挖掘 DBSCAN算法 time series data outlier identification clustering data mining DBSCAN algorithm

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1杨宁,唐常杰,王悦,陈瑜,郑皎凌.一种基于时态密度的倾斜分布数据流聚类算法[J].软件学报,2010,21(5):1031-1041. 被引量：17
2HONG T P, LIOU Y L. Attribute clustering in high dimensional fea- ture spaces[ C]//Proceedings of the Sixth International Conference on Machine Learning and Cybernetics. Hong Kong: IEEE, 2007: 2286 - 2289.
3FOTAKIS D. Incremental algorithms for facility location and k-medi- an[C]// ALGORITHMS: ESA 2004, LNCS 3221. Berlin: Spring- er, 2004:347 -358.
4ZHANG T, RAMAKRISHNAN R, LIVNY M. BIRCH - An effi- cient data clustering method for very large databases[ C]//Proceed- ings of the 1996 ACM S1GMOD International Conference on Manage- ment of Data. New York: ACM, 1996:103 - 114.
5HO S L, YANG SHIYOU. A population-based incremental learning method for robust optimal solutions[ J]. IEEE Transactions on Mag- netics, 2010, 46(8) : 3189 -3192.
6GABSI N, CLIROT F, HtBRAIL G. An hybrid data stream sum- marizing approach by sampling and clustering[ C]// Advances in Knowledge Discovery and Management, Studies in Computational In- telligence 292. Berlin: Springer, 2010:181-200.
7WANG DINGDING, LI TAO. Document update summarization u- sing incremental hierarchical clustering[ C]// CIKM'10: Proceed- ings of the 19th ACM International Conference on Information and Knowledge Management. New York: ACM, 2010:279-288.
8NASSAR S, SANDER J, CHENG C. Incremental and effective data summarization for dynamic hierarchical clustering [ C ]// S1GMOD'04: Proceedings of the 2004 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2004:467 - 478.
9LIANG B, AUSTIN J. A neural network for mining large volumes of time series data[ C]//ICIT2005: IEEE International Conference on Industrial Technology. [ S. 1. ] : IEEE, 2005:688 -693.
10WANG XIAO-YE, WANG ZHENG-OU. Stock market time series data mining based on regularized neural network and rough set [C]// Proceedings of the First International Conference on Ma- chine Learning and Cybernetics. [ S. 1. ] : IEEE, 2002, 1:315 - 318.

二级参考文献1

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161

共引文献16

1唐常杰,段磊,郑皎凌,杨宁,王悦,朱军.基于干预规则挖掘因果关系与分段干预事件及对比不等式[J].计算机应用,2011,31(4):869-873. 被引量：1
2陈锦阳,刘良旭,宋加涛,王让定,管博.基于R-tree的高效异常轨迹检测算法[J].计算机应用与软件,2011,28(10):34-37. 被引量：3
3邢长征,张国凯.基于自适应网格划分的数据流聚类算法[J].计算机工程与科学,2011,33(10):149-153. 被引量：2
4顾晨辉,王伦文.一种正交跳频信号动态分选方法[J].宇航学报,2012,33(11):1699-1705. 被引量：6
5郭昆,张岐山.基于聚类的快速数据流匿名方法[J].软件学报,2013,24(8):1852-1867. 被引量：5
6邢长征,胡权波.基于倾斜分布的变流速数据流聚类算法[J].计算机工程,2013,39(12):247-250.
7曹红,郑鑫.数据流分类器算法在水质环境中的应用[J].科技通报,2014,30(1):117-122.
8张建朋,陈福才,李邵梅,刘力雄.基于密度与近邻传播的数据流聚类算法[J].自动化学报,2014,40(2):277-288. 被引量：28
9张建朋,陈福才,李邵梅,刘力雄.基于仿射传播的进化数据流在线聚类算法[J].模式识别与人工智能,2014,27(5):443-451. 被引量：5
10刘卓,杨悦,张健沛,杨静,初妍,张泽宝.不确定度模型下数据流自适应网格密度聚类算法[J].计算机研究与发展,2014,51(11):2518-2527. 被引量：5

同被引文献15

1王娟,周永霞,徐冰俏,王康健.图像处理在胶囊外形缺陷检测中的应用[J].中国计量学院学报,2012,23(3):239-245. 被引量：12
2姜万录,杨超,牛慧峰.液压泵、马达试验台技术概况[J].机床与液压,2005,33(8):1-3. 被引量：21
3汪敏,夏咸军.新型LED背光源技术及应用[J].光电子技术,2005,25(4):267-270. 被引量：46
4WESLEY E S, QI H R. Machine vision [ M ]. Bejing: China Machine Press, 2005: 3-5.
5朱新岩,史忠科.基于残差特性分析的野值检测与剔除方法[J].飞行力学,2008,26(6):79-83. 被引量：25
6金学军.基于最小二乘拟合的外弹道测量数据野值剔除方法[J].四川兵工学报,2011,32(1):20-23. 被引量：22
7谷阳阳,赵圣占.遥测数据野值剔除方法的对比与分析[J].战术导弹技术,2012(2):60-63. 被引量：11
8郑瀚,韦文斌,齐子城.机器视觉检测胶囊图像的预处理研究[J].电子科技,2012,25(12):133-136. 被引量：4
9刘雅坤,于双元,罗四维.基于最小最大割算法的阈值分割算法[J].计算机科学,2014,41(1):95-99. 被引量：7
10叶艳,王少云,孙永帅.基于奇异值分解和小波分析的飞行数据野值综合处理方法[J].光学仪器,2014,36(5):394-398. 被引量：2

引证文献2

1彭彦卿,刘成,陈李清,许国澎.采用机器视觉技术的软胶囊药板质检系统设计[J].厦门理工学院学报,2016,24(3):23-27. 被引量：1
2代美泉.测量数据野值的局部化处理模型与算法[J].组合机床与自动化加工技术,2021(7):37-39.

二级引证文献1

1李超,吕昊,刘成,梁伟,焉诗萌.船舶垫块蓝油拂配质量检测[J].造船技术,2020,0(2):65-68.

1金学军.基于最小二乘拟合的外弹道测量数据野值剔除方法[J].四川兵工学报,2011,32(1):20-23. 被引量：22
2荀瑞新.基于扩展卡尔曼滤波的测量系统数据分析[J].现代计算机,2012,18(5):8-10. 被引量：2
3苑进,胡敏,Kesheng Wang,刘雪美,侯加林,米庆华.基于高斯过程建模的物联网数据不确定性度量与预测[J].农业机械学报,2015,46(5):265-272. 被引量：16
4郝颖明,朱枫.2维Otsu自适应阈值的快速算法[J].中国图象图形学报（A辑）,2005,10(4):484-488. 被引量：121
5薛聿桢,张育林,袁建平.GP-RBF网络应用于飞行器外测数据野值实时剔除[J].系统仿真学报,2005,17(2):286-289. 被引量：2
6毛罕平,胡波,张艳诚,钱丹,陈树人.杂草识别中颜色特征和阈值分割算法的优化[J].农业工程学报,2007,23(9):154-158. 被引量：38
7段一萍.基于FCM的方位标测量数据野值剔除方法研究及应用[J].战术导弹技术,2014(1):104-107. 被引量：1
8宫明广,王琪,江民俊,李锦.基于小波变换自适应门限信号预处理[J].计算机与现代化,2010(8):11-14.
9朱学锋,韩荣阁,杨若红.基于模糊预测系统的观测数据野值剔除方法[J].系统工程与电子技术,2006,28(3):478-482. 被引量：9
10张亮,张凤鸣,张晓丰,徐晴.飞参数据挖掘中的预处理算法研究[J].微电子学与计算机,2007,24(2):171-173.

计算机应用

2012年第A02期

浏览历史

内容加载中请稍等...

基于方差聚类的时序数据野值识别算法被引量：2

参考文献12

二级参考文献1

共引文献16

同被引文献15

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于方差聚类的时序数据野值识别算法 被引量：2

参考文献12

二级参考文献1

共引文献16

同被引文献15

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于方差聚类的时序数据野值识别算法被引量：2