基于数据分区和网格的离群点挖掘算法被引量：2

Outlier mining algorithm based on data-partitioning and grid

下载PDF

导出

摘要针对已有的基于网格的离群点挖掘算法挖掘效率低和对于大数据集适应性差的问题,提出基于数据分区和网格的离群点挖掘算法。算法首先将数据进行分区,以单元为单位筛选非离群点,并把中间结果暂存起来;然后采用改进的维单元树结构维护数据点的空间信息,以微单元为单位进行非离群点筛选,并通过两个优化策略进行高效操作;最后以数据点为单位挖掘离群点,从而得到离群数据集合。理论分析和实验结果表明了该方法是有效可行的,对大数据集和高维数据具有更好的伸缩性。 To solve the problems of inefficiency and bad-adaptability for the existing outlier mining algorithms based on grid, this paper proposed an outlier mining algorithm based on data partitioning and grid. Firstly, the technology of data partitioning was applied. Secondly, the non-outliers were filtered out by cell and the intermediate results were temporarily stored. Thirdly, the structure of the improved Cell Dimension Tree （CD-Tree） was created to maintain the spatial information of the reserved data. Afterwards, the non-outliers were filtered out by micro-cell and were operated efficiently through two optimization strategies. Finally, followed by mining by data point, the outlier set was obtained. The theoretical analysis and experimental results show that the method is feasible and effective, and has better scalability for dealing with massive and high dimensional data.

作者唐成龙邢长征

机构地区辽宁工程技术大学电子与信息工程学院

出处《计算机应用》 CSCD 北大核心 2012年第8期2193-2197,共5页 journal of Computer Applications

关键词数据挖掘离群数据网格数据分区单元微单元维单元树 data mining outlier data grid data partitioning cell micro-cell Cell Dimension Tree （CD-Tree）

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
2HAN J,KAMBER M. Data mining: concepts and techniques[M].2nd ed. San Francisco: Morgan Kaufmann, 2006: 451-459.
3薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：69
4CHEN Z,TANG J,FU A W-C. Modeling and efficient mining of intentional knowledge of outliers[C] // IDEAS'03: Proceedings of the 7th International Database Engineering and Applications Symposium. Washington, DC: IEEE Computer Society,2003:44-53.
5于浩,王斌,肖刚,杨晓春.基于距离的不确定离群点检测[J].计算机研究与发展,2010,47(3):474-484. 被引量：19
6江峰,杜军威,眭跃飞,曹存根.基于边界和距离的离群点检测[J].电子学报,2010,38(3):700-705. 被引量：24
7赵科平,周水庚,关佶红,等.一种新的离群数据对象发现方法[C] // 中国人工智能学会第10届全国学术年会.北京:北京邮电大学出版社,2003:470-475.
8李存华,孙志挥,陈耿.基于网格上近似的大规模数据集离群点检测算法GROUT[J].计算机应用研究,2003,20(9):134-136. 被引量：3
9徐翔,刘建伟,罗雄麟.离群点挖掘研究[J].计算机应用研究,2009,26(1):34-40. 被引量：27
10崔贯勋,李梁,王勇,倪伟,黄丽丰.快速的基于单元格的离群数据挖掘算法[J].计算机应用,2009,29(12):3300-3302. 被引量：8

二级参考文献215

1蒋盛益,李庆华,王卉,孟中楼.一种增强的局部异常挖掘方法[J].计算机研究与发展,2005,42(2):210-216. 被引量：8
2朱倩,黄志军.一种改进的基于密度和网格的高维聚类算法[J].舰船电子工程,2005,25(5):55-56. 被引量：5
3刘晓影,王国仁.SUDBC:一种基于空间单元密度的快速聚类算法[J].小型微型计算机系统,2005,26(12):2216-2220. 被引量：5
4陆介平,倪巍伟,孙志挥.基于关联分析的高维空间异常点发现[J].应用科学学报,2006,24(1):60-63. 被引量：2
5黄添强,秦小麟,叶飞跃.基于方形邻域的离群点查找新方法[J].控制与决策,2006,21(5):541-545. 被引量：16
6文俊浩,吴中福,吴红艳.空间孤立点检测[J].计算机科学,2006,33(5):186-187. 被引量：5
7黄毅群,卢正鼎,胡和平,李瑞轩.分布式异常检测中隐私保持问题研究[J].电子学报,2006,34(5):796-799. 被引量：7
8王宏鼎,童云海,谭少华,唐世渭,杨冬青.异常点挖掘研究进展[J].智能系统学报,2006,1(1):67-73. 被引量：22
9陶新民,陈万海,郭黎利.一种新的基于模糊聚类和免疫原理的入侵监测模型[J].电子学报,2006,34(7):1329-1332. 被引量：6
10杨宜东,孙志挥,朱玉全,杨明,张柏礼.基于动态网格的数据流离群点快速检测算法[J].软件学报,2006,17(8):1796-1803. 被引量：22

共引文献315

1宗长富,文龙,何磊.基于欧几里得聚类算法的三维激光雷达障碍物检测技术[J].吉林大学学报（工学版）,2020,50(1):107-113. 被引量：25
2冯泽磊,吴美凤.动态浮箱数据清洗方法在电力系统中的应用[J].发电技术,2019,40(S1):109-113. 被引量：5
3钟诗胜,陕振勇,付旭云,王体春.基于二次指数平滑的发动机气路参数偏差值平滑[J].航空精密制造技术,2012,48(6):26-28. 被引量：1
4宋明,刘宗田.基于数据交叠分区的并行DBSCAN算法[J].计算机应用研究,2004,21(7):17-20. 被引量：9
5栾丽华,吉根林.一种基于四叉树的快速聚类算法[J].计算机应用,2005,25(5):1001-1003. 被引量：6
6倪巍伟,孙志挥,陆介平.k-LDCHD——高维空间k邻域局部密度聚类算法[J].计算机研究与发展,2005,42(5):784-791. 被引量：18
7尹松,周永权,李陶深.数据聚类方法的研究与分析[J].航空计算技术,2005,35(1):63-66. 被引量：16
8熊忠阳,孙思,张玉芳,王秀琼.一种基于划分的不同参数值的DBSCAN算法[J].计算机工程与设计,2005,26(9):2319-2321. 被引量：16
9伊胜伟,刘旸,魏红芳.基于数据挖掘的入侵检测系统智能结构模型[J].计算机工程与设计,2005,26(9):2464-2466. 被引量：10
10何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16

同被引文献19

1张建锦,吴渝,刘小霞.一种改进的密度偏差抽样算法[J].计算机应用,2007,27(7):1695-1698. 被引量：5
2GU B H, HU F F, LIU H. Sampling and its application in data mining: a survey[ R]. Singapore: National University of Singapore, 2000.
3PALMER C R, FALOUTSOS C. Density biased sampling: an im- proved method for data mining and clustering[ C]// Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. New York: ACM Press, 2000:82 -92.
4NANOPOULOS A, THEODORIDS Y, MANOLOPOULOS Y. In- dexed-based density biased sampling for clustering applications[ J].Data & Knowledge Engineering, 2006, 57(1) : 37 -63.
5APPEL A P, PATERLINI A A, de SOUSA E P M, et al. A densi- ty-biased sampling technique to improve cluster representativeness [ C]// Proceedings of PKDD 2007. Berlin: Springer, 2007:366 - 373.
6HUANG J B, SUN H L, KANG J M, et al. ESC: an efficient syn- chronization-based clustering algorithm [ J]. Knowledge-Based Sys- tems, 2013, 40". 111 - 122.
7ZHAO Y C, CAO J, ZHANG C Q, et al. Enhancing grid-density based clustering for high dimensional data[ J]. Journal of Systems and Software, 2011,84(9) : 1524 - 1539.
8PILEVAR A H, SUKUMAR M. GCHL: a grid-clustering algorithm for high-dimensional very large spatial data bases [ J]. Pattern Rec- ognition Letters, 2005, 26(7) : 999 - 1010.
9张继福,蒋义勇,胡立华,蔡江辉,张素兰.基于概念格的天体光谱离群数据识别方法[J].自动化学报,2008,34(9):1060-1066. 被引量：24
10余波,朱东华,刘嵩,郑涛.密度偏差抽样技术在聚类算法中的应用研究[J].计算机科学,2009,36(2):207-209. 被引量：7

引证文献2

1盛开元,钱雪忠,吴秦.基于可变网格划分的密度偏差抽样算法[J].计算机应用,2013,33(9):2419-2422. 被引量：7
2冯婷婷,张继福.基于网格单元和P权值的离群数据挖掘方法[J].太原科技大学学报,2016,37(5):359-364. 被引量：1

二级引证文献8

1马菲,朱昌杰,郑颖,邓杰.一种基于可变网格划分的离群点检测算法[J].江南大学学报（自然科学版）,2015,14(6):751-757. 被引量：1
2熊开玲,彭俊杰,杨晓飞,黄俊.基于核密度估计的K-means聚类优化[J].计算机技术与发展,2017,27(2):1-5. 被引量：20
3万静,张超,何云斌,李松.可变网格优化的K-means聚类方法[J].小型微型计算机系统,2018,39(1):95-99. 被引量：10
4吕丹,龙华,高杰,邵玉斌,杜庆治.基于不均匀数据的密度偏差抽样改进算法[J].软件导刊,2018,17(2):77-79. 被引量：2
5肖先勇,谭亚欧,胡文曦,汪颖.电压暂降系统指标的监测节点数量选择与评估方法[J].电力自动化设备,2020,40(10):8-14. 被引量：5
6尚福华,曹茂俊,王才志.基于人工智能技术的局部离群数据挖掘方法[J].吉林大学学报（工学版）,2021,51(2):692-696. 被引量：7
7金安.一种移动端APM系统框架设计与实现[J].软件导刊,2022,21(1):205-209. 被引量：1
8贾雪枫,李存斌,周颖.基于数据密度与Transformer-IkNN的掺烧机组烟风系统风险态势感知模型[J].热力发电,2022,51(7):129-138. 被引量：3

1芈然.高效操作WindowsMe12招[J].电脑界（应用文萃）,2001(7):35-36.
2Hobo Chou.高效操作，从桌面开始[J].计算机应用文摘,2010(26):32-32.
3温卫红,陈耀光,等.高效操作Windows秘技大放送[J].电脑应用文萃（电脑界配套光盘）,2001(11X):40-45.
4蒋春蕾,刘宁,杨道勇,孙涛.中小型企业网络远程监控的设计与实现[J].西昌学院学报（自然科学版）,2010,24(3):50-54.
5飘零雪.修建目标文件高速路[J].网友世界,2007(8):34-34.
6杨国良,朱青亮.高效操作Win2000的15个妙法[J].软件世界（PC任我行）,2001(8):28-30.
7陈文璨.利用快捷键提高计算机操作效率浅谈[J].电脑知识与技术,2006(11):220-221. 被引量：2
8曹春华.高效操作就要一步到位[J].电脑迷,2013(9):85-85.
9朱莉（文/图）.高手是这样炼成的键盘高效操作秘笈大奉送[J].网友世界,2008(15):29-31.
10狂风.良好习惯助力高效操作[J].个人电脑,2012,18(11):84-87.

计算机应用

2012年第8期

浏览历史

内容加载中请稍等...

基于数据分区和网格的离群点挖掘算法被引量：2

参考文献16

二级参考文献215

共引文献315

同被引文献19

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于数据分区和网格的离群点挖掘算法 被引量：2

参考文献16

二级参考文献215

共引文献315

同被引文献19

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于数据分区和网格的离群点挖掘算法被引量：2