基于MapReduce与距离的离群数据并行挖掘算法被引量：4

Parallel Mining of Distance-Based Outliers Using MapReduce

下载PDF

导出

摘要数据挖掘技术是解决数据丰富而知识贫乏的有效途径,离群数据挖掘是数据挖掘领域中的重要研究内容之一,己广泛应用于网络入侵检测,信用卡诈骗,垃圾邮件的分析和基因突变分析等领域.在高维海量数据中,由于数据量大和维度高,严重影响了离群数据挖掘的精度和效率.本文在KNN基础上,通过定义"解集"的概念,在MapReduce编程环境下,实现了一种基于距离的离群数据挖掘算法.分别采用人工数据集和UCI数据集,实验验证了该算法在不同条件下,参数对算法性能的影响. Data mining technology is an effective approach to resolve the problem of abundant data and scanty information. Outlier mining is one of the main research topic in the field of data mining, and it has been widely used in network intrusion detection, line card fraud, spam analysis, gene mutation analysis, etc. In high-dimensional data, the data volume and high dimension affect the effects of outlier data mining and efficiency seriously. In view of the high dimensional data, this study adopts the KNN implementing a distance-based outlier data mining algorithms under the MapReduce programming model by defining the ＂solving set＂. Using artificial data set and UCI data set, the influence of parameters on the algorithm performance is discussed under different conditions in the experiment.

作者任燕

机构地区山西省特殊教育中等专业学校

出处《计算机系统应用》 2018年第2期151-156,共6页 Computer Systems & Applications

关键词 MAPREDUCE 基于距离 KNN 离群数据挖掘 MapReduce distance-based KNN outliers data mining

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献46

1齐晓慧,王永川,董海瑞.研究生“线性系统理论”课程教学改革与实践[J].中国电力教育（中）,2010(11):82-84. 被引量：14
2姚明经,林甲祥,陈崇成,马亨冰.网格环境下分布式空间离群挖掘体系的设计与应用[J].地球信息科学学报,2011,13(3):383-390. 被引量：1
3潘淼鑫,林甲祥,陈崇成,叶晓燕.基于C-SOM和Spark的并行空间离群挖掘方法及应用[J].地球信息科学学报,2019,21(1):128-136. 被引量：4
4徐新海,唐玉华,林宇斐.跨专业并行计算基础课程教学设计[J].计算机教育,2014(23):106-109. 被引量：7
5张继福,李永红,秦啸,荀亚玲.基于MapReduce与相关子空间的局部离群数据挖掘算法[J].软件学报,2015,26(5):1079-1095. 被引量：41
6魏唯,刘威,董学阳.非计算机专业Visual C++研究生课程建设探索[J].教育教学论坛,2016(4):180-181. 被引量：2
7王习特,申德荣,白梅,聂铁铮,寇月,于戈.BOD:一种高效的分布式离群点检测算法[J].计算机学报,2016,39(1):36-51. 被引量：29
8曹佳.综合实验为驱动的教学法在研究生网络编程类课程中的应用[J].计算机教育,2016(5):44-47. 被引量：3
9彭彦彬,田野,彭新光.一种端到端的医疗无线体域网轻量认证协议[J].计算机工程,2017,34(6):73-77. 被引量：7
10张卫平,刘纪平,仇阿根,张用川,赵阳阳.一种分布式计算的空间离群点挖掘算法[J].测绘科学,2017,42(8):85-90. 被引量：3

引证文献4

1潘淼鑫,林甲祥,陈崇成,叶晓燕.基于C-SOM和Spark的并行空间离群挖掘方法及应用[J].地球信息科学学报,2019,21(1):128-136. 被引量：4
2阚运奇.基于案例驱动的研究生程序设计类课程教学方案[J].无线互联科技,2018,15(24):85-86.
3唐伟宁,刘颖,于旭,董冠良.基于离群数据挖掘的低压窃电行为辨识方法研究[J].电子设计工程,2021,29(23):56-59. 被引量：5
4支建勋.基于模糊K-means聚类算法的区域数据智能分析方法[J].电子设计工程,2022,30(10):46-49. 被引量：4

二级引证文献13

1唐伟宁,刘颖,于旭,董冠良.基于离群数据挖掘的低压窃电行为辨识方法研究[J].电子设计工程,2021,29(23):56-59. 被引量：5
2何美玲,李佩雅.面向高维大数据的局部离群点并行检测算法[J].计算机仿真,2022,39(2):304-308. 被引量：5
3程雅琼.基于双区块链结构的高维光谱离群数据挖掘[J].电脑知识与技术,2022,18(15):17-18. 被引量：1
4李娟.基于Hadoop云平台的空间属性数据挖掘技术研究[J].南京理工大学学报,2022,46(4):419-426. 被引量：15
5郭亮,郭子雪,贾洪涛,范若禹.基于皮尔逊相关系数与SVM的居民窃电识别[J].河北大学学报（自然科学版）,2023,43(4):357-363. 被引量：13
6张坤,张健辉,杜文静,王杰,卞吉祥.基于线性回归的精准识别窃电用户的研究[J].电子设计工程,2023,31(17):51-55. 被引量：2
7廖建锐.基于特征挖掘的低压配电段用户异常用电数据挖掘方法[J].电气技术与经济,2023(7):214-216. 被引量：1
8康耀龙,冯丽露,张景安.基于谱聚类的多维数据集异常子群挖掘方法[J].计算机仿真,2023,40(7):477-480. 被引量：1
9陈超,吴晖,万庆,王二振.基于优化聚类簇后K-means算法的通用飞机售后保障方法[J].教练机,2023(4):52-56.
10侯敏,张仕斌,黄曦.量子模糊朴素贝叶斯分类算法[J].电子科技大学学报,2024,53(1):149-154.

1杨海峰,于晓龙,荀亚玲,张继福.MapReduce编程模型下的上下文离群数据挖掘算法[J].太原科技大学学报,2017,38(4):265-270. 被引量：2
2许红龙,唐颂,毛睿,沈婧,刘刚,陈国良.基于多种支撑点的度量空间离群检测算法[J].计算机学报,2017,40(12):2839-2855. 被引量：4
3系统软件[J].个人电脑,2004,10(1):134-134.
4张洁玲.一种基于近邻关系的新型离群评估算法[J].福建工程学院学报,2017,15(6):591-596.
5陈凤.复杂网络数据信息传输稳定性检测仿真研究[J].计算机仿真,2018,35(1):341-344. 被引量：2
6李昕妮.计算机网络编程中VB编程的运用研究[J].科技经济导刊,2017(27):21-21.
7乔天成.高维数据集之中基于距离的离群快速检测算法[J].科技创新与生产力,2017(11):67-71.
8曹安林.基于数据挖掘算法的创客校园质量管理模型研究[J].现代职业教育,2017,0(10):167-167. 被引量：1
9刘琪琛,雷景生,郝珈玮,黄燕刚,李强,罗海波.基于Spark平台和并行随机森林回归算法的短期电力负荷预测[J].电力建设,2017,38(10):84-92. 被引量：30
10桑秀丽,戴小梅,秦国伟,王晋波.云南高校学科建设与产业优化的协调发展研究[J].昆明理工大学学报（社会科学版）,2018,18(1):78-83. 被引量：1

计算机系统应用

2018年第2期

浏览历史

内容加载中请稍等...

基于MapReduce与距离的离群数据并行挖掘算法被引量：4

同被引文献46

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于MapReduce与距离的离群数据并行挖掘算法 被引量：4

同被引文献46

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于MapReduce与距离的离群数据并行挖掘算法被引量：4