基于Spark的大数据聚类研究及系统实现被引量：24

Research and Implementation of Big Data Clustering Based on Spark

下载PDF

导出

摘要传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。 Traditional clustering algorithms can not meet the requirements of current big data processing because of the limitations of stand-alone memory and computing power.Therefore it is urgent to find new solutions.Aiming at problems occurred in stand-alone memory calculating,combined with iterative computing features of clustering algorithms,a clustering system based on Spark platform is proposed.For the two different types of data sets,which are sparse sets and dense sets,the system firstly uses different strategies to achieve data preprocessing.Secondly,the performance of different clustering algorithms on Spark platform is analyzed and the best solution is given.Finally,the computing speed is improved with data persistence technology.Experimental results show that the proposed system can effectively meet the requirements of massive data clustering analysis.

作者王磊邹恩岑曾诚奚雪峰陆悠 Wang Lei;Zou Encen;Zeng Cheng;Xi Xuefeng;Lu You(School of Electronic and Information Engineering,Suzhou University of Science and Technology,Suzhou,215009,China;Virtual Reality Key Laboratory of Intelligent Interaction and Application Technology of Suzhou,Suzhou,215009,China;Big Data Key Laboratory of PuKai,Suzhou University of Science and Technology,Suzhou,215009,China;Kunshan Public Security Bureau Command Center,Suzhou,215300,China)

机构地区苏州科技大学电子与信息工程学院苏州市虚拟现实智能交互及应用技术重点实验室苏州科技大学普开大数据重点实验室昆山市公安局指挥中心

出处《数据采集与处理》 CSCD 北大核心 2018年第6期1077-1085,共9页 Journal of Data Acquisition and Processing

基金国家自然科学基金(61673290 61750110534 61728205)资助项目苏州市科技发展计划(SYG201707 SYG201817)资助项目

关键词 SPARK 聚类大数据 Spark clustering big data

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1张翔,王士同.一种基于马氏距离的可能性聚类方法[J].数据采集与处理,2011,26(1):101-105. 被引量：14
2张玉芳,毛嘉莉,熊忠阳.一种改进的K-means算法[J].计算机应用,2003,23(8):31-33. 被引量：73
3张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
4胡俊,胡贤德,程家兴.基于Spark的大数据混合计算模型[J].计算机系统应用,2015,24(4):214-218. 被引量：56

二级参考文献36

1(加)HanJ KamberM 范明盂小峰等译.数据挖掘概念与技术m[M].北京：机械工业出版社,2001.223-262.
2..http://lib, slat. Cmu. Edu/datasets/places. Data,.
3Raghu Krishnapuram,Keller J M.A possibilistic approach to clustering[J].IEEE Transactions on Fuzzy System,1993,1(2):98-110.
4Bezdek J C.Pattern recognition with fuzzy objective function algorithm[M].New York:New York Plenum Press,1981.
5Dombi J.Membership function as an evaluation[J].Fuzzy Sets and Systems,1990,35(1):1-21.
6Popescu I,Bertsimas D.Optimal inequalities in probability theory:A convex optimization approach[J].SIAM Journal on Optimization,2001,15(3):780-804.
7Gert R G L,Laurent E G,Chiranjib Bhattacharyya,et al.A robust minimax approach to classification[J].Journal of Machine Learning Research,2002(3):555-582.
8Huang Kaizhu,Yang Haiqin,King Irwin,et al.The minimum error minimax probability machine[J].Journal of Machine Learning Research,2004(5):1253-1286.
9Savaresi S M, Boley D. On the Performance of Bisecting K-Means and PDDP[C]//Proc. of the 1st SIAM International Conference on Data Mining. Chicago, USA: [s. n.], 2001: 1-14.
10Steinbach M, Karypis G, Kumar V. A Comparison of Document Clustering Techniques[C]//Proc. of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Boston, USA: [s. n.], 2000: 525-526.

共引文献161

1赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1
2黎新伍.医学图像体分割的特征聚类算法[J].清华大学学报（自然科学版）,2008,48(S2):1790-1793. 被引量：1
3李丽珊,朱文兴.基于簇中心动态迁移的一个聚类算法[J].福建农林大学学报（自然科学版）,2004,33(4):508-511.
4江华,王翰虎,陈梅.一种基于K-means聚类分组的P2P超结点模型[J].计算机应用与软件,2005,22(10):67-68. 被引量：1
5李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9
6辛国江,邹北骥,刘相滨,康晶.运动物体的阴影检测与分割[J].工程图学学报,2007,28(6):85-90. 被引量：5
7赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75
8尹珧人,王德广.一种改进的k-means聚类算法在入侵检测中的应用[J].科学技术与工程,2008,8(16):4701-4705. 被引量：7
9陈寿文,李明东.基于面向对象思想KMeans算法实现[J].滁州学院学报,2008,10(3):42-44. 被引量：7
10刘萍,钟诚.机群系统上基于映射和抽样划分的并行聚类算法[J].微电子学与计算机,2008,25(9):144-146.

同被引文献208

1江永渡,程德生,赵志武,王梨,江峰.基于Spark框架的大数据计算平台[J].网络安全技术与应用,2020,0(3):65-66. 被引量：3
2于建涛,刘圣东,赖灵伟,吕同轩,王嘉浩,高小雨,惠毅翔,侯君瑶,殷童,郭茂祖.基于Spark的转录组大数据并行处理方法[J].计算机应用研究,2020,37(S02):176-180. 被引量：2
3王玉.Spark大数据处理平台的构建及应用[J].大众标准化,2019,0(18):28-29. 被引量：2
4陈嬛,刘珍才,汪兴旺.大型医疗设备维修管理的思考和探讨[J].中国医学装备,2012,9(2):52-54. 被引量：53
5邹继颖,刘辉,李东,陈意.长白山圆池湿地生态系统自然环境分析[J].吉林化工学院学报,2014,31(1):59-61. 被引量：3
6江渝川,何国斌.基于似然估计补偿机制的移动无线传感网数据控制同步传输算法[J].新疆大学学报（自然科学版）,2018,35(4):465-472. 被引量：12
7宋鸣程,贾立,叶灵芝.基于Spark的火电大数据挖掘方法的研究[J].控制工程,2018,25(12):2158-2165. 被引量：11
8黄成,朱金善,张锋,郭沐壮.基于云模型改进物元结构的船舶夜航光环境评价模型[J].大连海事大学学报,2018,44(4):43-48. 被引量：10
9黄天恩,郭庆来,孙宏斌,赵乃岩,王彬,郭文鑫.模型-数据混合驱动的电网安全特征选择和知识发现关键技术与工程应用[J].电力系统自动化,2019,43(1):95-101. 被引量：54
10闫龙川,白东霞,刘万涛,刘殷,李莉敏.人工智能技术在云计算数据中心能量管理中的应用与展望[J].中国电机工程学报,2019,39(1):31-42. 被引量：37

引证文献24

1陈红兵.一种单元分布式变电站综合自动化系统设计方案[J].工程设计与研究（长沙）,2000(1):14-17.
2庄银霞.基于信用评价机制的物业缴费模式推荐系统设计[J].长春工程学院学报（自然科学版）,2019,20(3):90-93.
3李沛林.物联网终端短距离无线通信系统可靠性实验分析[J].环境技术,2019,37(3):141-145. 被引量：3
4张乐.基于田口方法的生态环境敏感性评估方法研究[J].吉林化工学院学报,2019,36(7):67-71. 被引量：2
5赵冉.基于云计算平台的图书馆混合推荐技术研究[J].现代电子技术,2019,42(23):145-149. 被引量：5
6张昊,赵洋,赵晓红.基于小波分析的网络通信大数据谱聚类算法研究[J].自动化与仪器仪表,2020,0(1):36-39. 被引量：2
7林美,何竹峰.基于协同Kalman滤波无线传感通信大数据分配机制[J].电子测量技术,2019,42(23):123-127. 被引量：2
8郑春,张继山.基于机器学习的无线传感网络室内定位研究[J].太原师范学院学报（自然科学版）,2020,19(1):49-53. 被引量：2
9左世萍,初良勇,胡美丽.大数据驱动下自动化码头资源冲突辨识[J].集美大学学报（自然科学版）,2020,25(2):120-126. 被引量：2
10魏超,陈虹洁.GIS系统数据传输质量自动监控和分析[J].信息技术,2020,44(6):99-103. 被引量：2

二级引证文献57

1黄东,陈光,李海滨,杨朔.Spark个性化地点推荐系统[J].辽宁工程技术大学学报（自然科学版）,2020(6):533-540. 被引量：1
2朱彩霞.物联网终端安全问题与解决措施[J].信息通信,2020(4):187-188. 被引量：5
3续立强,王佐勋,曹凤.小波变换在电力系统故障检测中的应用[J].齐鲁工业大学学报,2020,34(3):60-67. 被引量：3
4姬景聚.基于大数据驱动的个性化产品包装设计研究[J].机械设计与制造工程,2020,49(7):103-106.
5崔杨,张立平.第三方物流企业配送中心选址研究[J].吉林化工学院学报,2020,37(7):27-31. 被引量：3
6高朝营.面向物联网的传感器采样数据分配策略研究[J].电子技术与软件工程,2020(14):92-93.
7王斐.自动化集装箱码头AGV调度研究[J].黑龙江科学,2020,11(20):32-33.
8欧琼妍.智慧校园背景下图书馆个性化推荐服务系统设计[J].图书馆学刊,2020,42(10):93-96. 被引量：5
9顾大刚,黄伟,邹茜.一种无线传感网络分层式远距离传输研究[J].电子技术与软件工程,2020(19):7-8.
10邹茜,顾大刚,黄伟.一种无线传感网络分层式链路构架设计与研究[J].电子技术与软件工程,2020(20):4-5.

1龙品红,韩惠丽.锥中与稳态的薛定谔算子相关的容度与广义Green能量（英文）[J].数学进展,2017,46(6):908-918.
2郝保国.高考数学中的集合试题赏析[J].数学教学,2017(9):38-42.
3刘如辉,黄炜平,王凯,刘创,梁军.半监督约束集成的快速密度峰值聚类算法[J].浙江大学学报（工学版）,2018,52(11):2191-2200. 被引量：23
4杨志超,刘佳.城市排水管中过流断面平均流速计算方法研究[J].陕西水利,2018(6):279-280.
5刘先花.基于群体协同智能聚类的大数据存储系统设计[J].现代电子技术,2017,40(23):130-133. 被引量：7
6杨晓艺,李顺东,亢佳.保密替换及其在保密科学计算中的应用[J].计算机学报,2018,41(5):1132-1142. 被引量：16
7许家楠,张桂珠.自动确定聚类中心的数据竞争算法[J].计算机工程与应用,2018,54(24):136-142. 被引量：1
8程丽军,王艳.面向云端融合的任务-资源双边匹配决策模型[J].系统仿真学报,2018,30(11):4348-4358. 被引量：3

数据采集与处理

2018年第6期

浏览历史

内容加载中请稍等...

基于Spark的大数据聚类研究及系统实现被引量：24

参考文献4

二级参考文献36

共引文献161

同被引文献208

引证文献24

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

基于Spark的大数据聚类研究及系统实现 被引量：24

参考文献4

二级参考文献36

共引文献161

同被引文献208

引证文献24

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

基于Spark的大数据聚类研究及系统实现被引量：24