基于Hadoop平台Canopy-Kmeans聚类算法优化改进研究被引量：2

Research on Optimization and Improvement of Canopy-Kmeans Clustering Algorithm Based on Hadoop Platform

下载PDF

导出

摘要在分析Hadoop平台架构和Canopy-Kmeans聚类算法的基础上,对Canopy-Kmeans算法进行了并行化优化改进,通过统计学思维对数据分组抽样后聚类以方便并行化和降低时间复杂度,利用最小最大原则优化Canopy初始中心点选取,用数据异度均值抽样法保证从原数据中均匀提取数据样本,并对Kmeans迭代计算过程进行优化。结合Hadoop平台下MapReduce框架将改进算法进行并行化设计实现。实验表明,对海量数值数据进行聚类时,改进的Canopy-Kmeans并行算法是有效的、收敛的,在聚类准确率和时效性上都有一定程度的提升。 Based on the analysis of Hadoop platform architecture and Canopy kmeans clustering algorithm, the Canopy-kmeans algorithm is optimized for parallelization. The data is sampled and clustered by statistical thinking to facilitate parallelization and reduce time complexity. The minimum and maximum principle optimizes the Canopy initial center point selection, and the data heterogeneous mean sampling method is used to ensure uniform extraction of data samples from the original data, and the Kmeans iterative calculation process is optimized. Combined with the MapReduce framework under the Hadoop platform, the improved algorithm is designed and implemented in parallel. Experiments show that the improved Canopy Kmeans parallel algorithm is effective and convergent when clustering massive numerical data, and has a certain degree of improvement in clustering accuracy and timeliness.

作者周功建 ZHOU Gongjian(Xiamen University Tan Kah Kee College,Zhangzhou Fujian 363105,China)

机构地区厦门大学嘉庚学院

出处《安徽广播电视大学学报》 2018年第4期117-122,128,共7页 Journal of Anhui Radio & TV University

基金福建省教育科学"十三五"规划重点课题(项目编号:FJJKCGZ16-165)

关键词 HADOOP MAPREDUCE 聚类分析 Kmeans算法 Canopy-Kmeans算法加速比 Hadoop MapReduce cluster analysis Kmeans algorithm Canopy-Kmeans algorithm speedup

分类号 G621 [文化科学—教育学]

引文网络
相关文献

参考文献4

1毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
2李钊,李晓,王春梅,李诚,杨春.一种基于MapReduce的文本聚类方法研究[J].计算机科学,2016,43(1):246-250. 被引量：6
3王永贵,武超,戴伟.基于MapReduce的随机抽样K-means算法[J].计算机工程与应用,2016,52(8):74-79. 被引量：8
4缪裕青,张锦杏,刘少兵,文益民,明媚.一种基于Hadoop平台的新聚类算法[J].计算机科学,2014,41(4):269-272. 被引量：6

二级参考文献50

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
3Han Jiawei,Kamber M.Data mining:concepts and tech- niques[M].San Francisco:Morgan Kaufmann Publishers, 2000.
4Januzaj E, Kriegel H P, Pfeifle M.DBDC : Density-Based Distributed Clustering[C]//Proceedings of 9th International Conference on Extending Database Technology(EDBT). Oakland: IEEE Computer Press, 2004 : 88-105.
5Samatova N F, Ostrouchov G.RACHET : an efficient cov- er-based merging of clustering hierarchies from distribut- ed datasets[J].Distributed and Parallel Databases,2002, 11 (2) : 157-180.
6Johoson E, KarguPta H.Collective, hierarchical clustering from distributed, heterogeneous data[C]//Lecture Notes in Computer Science.Berlin: Springer, 2000 : 221-244.
7Kargupta H.Sclable, distributed data mining using an agent based architecture[C]//Proceedings of 3rd Interna- tional Conference on Knowledge Discovery and Data Mining.Oakland .. AAAI Press, 1997 .. 211-214.
8Hearst M A.Texttiling: segmenting text into multi-para- graph subtopic passages[J].Computational Linguistics, 1997,23(1) :33-64.
9Dean J, Ghemawat S.MapReduce-simplified data process- ing on large clusters[C]//Proceedings of the 6th Inter- national Conference on Operation Systems Design & Im- plementation(OSDI), Berkeley, CA, USA, 2004 : 137-150.
10WhiteT.Hadoop权威指南[M].曾大聃,周傲英,译.北京清华大学出版社,2010.

共引文献78

1徐晓旻,肖仰华.KBAC:一种基于K-means的自适应聚类[J].小型微型计算机系统,2012,33(10):2268-2272. 被引量：6
2海沫,张书云,马燕林.分布式环境中聚类问题算法研究综述[J].计算机应用研究,2013,30(9):2561-2564. 被引量：13
3杨劲锋,刘涛,陈启冠,阙华坤,肖勇.基于海量计量数据的电力客户在线分群研究[J].华东电力,2013,41(8):1581-1585. 被引量：4
4戴涛,杨洲,方勇,景旭.基于CUDA的k-means文档聚类算法并行优化[J].计算机工程与设计,2013,34(11):4032-4036. 被引量：2
5余晓山,吴扬扬.基于MapReduce的文本层次聚类并行化[J].计算机应用,2014,34(6):1595-1599. 被引量：5
6黄蔚,李戴维.基于MapReduce的网络舆情分析系统的设计与实现[J].信息技术,2014,38(7):149-153. 被引量：2
7郎福通,王鹏.基于MapReduce的网格化优化CURE算法的实现[J].成都信息工程学院学报,2014,29(6):603-608.
8武霞,董增寿,孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报,2015,36(2):92-96. 被引量：11
9孙天昊,黎安能,李明,朱庆生.基于Hadoop分布式改进聚类协同过滤推荐算法研究[J].计算机工程与应用,2015,51(15):124-128. 被引量：21
10曾蔚.一种基于K-均值的用户行为聚类算法[J].绵阳师范学院学报,2015,34(8):94-98. 被引量：1

同被引文献20

1张荣梅,陈彬,张琦.基于K-means的矩阵分解推荐算法[J].智能计算机与应用,2020,0(1):56-60. 被引量：5
2岑咏华,王晓蓉,吉雍慧.一种基于改进K-means的文档聚类算法的实现研究[J].现代图书情报技术,2008(12):73-79. 被引量：7
3毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
4夏战国,万玲,蔡世玉,孙鹏辉.一种面向入侵检测的半监督聚类算法[J].山东大学学报（工学版）,2012,42(6):1-7. 被引量：9
5赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
6祝永志.基于Spark的Hybrid推荐算法的研究与实现[J].电子技术（上海）,2018,47(12):59-62. 被引量：2
7孙天昊,黎安能,李明,朱庆生.基于Hadoop分布式改进聚类协同过滤推荐算法研究[J].计算机工程与应用,2015,51(15):124-128. 被引量：21
8赵伟,林楠,韩英,张洪涛.一种改进的K-means聚类的协同过滤算法[J].安徽大学学报（自然科学版）,2016,40(2):32-36. 被引量：14
9徐超,王芳,黄树成.基于聚类分析的入侵检测算法[J].指挥控制与仿真,2016,38(1):57-60. 被引量：5
10郭成华.基于KDDCUP99数据集的入侵检测系统的设计与实现[J].网络安全技术与应用,2017(12):57-60. 被引量：7

引证文献2

1王蓉,刘宇红,张荣芬.基于混合聚类与融合用户属性特征的协同过滤推荐算法[J].现代电子技术,2021,44(6):179-182. 被引量：9
2张珂嘉,黄树成.一种改进的K-means入侵检测算法[J].计算机与数字工程,2021,49(10):1963-1966. 被引量：2

二级引证文献11

1陈雪婷.协同过滤下的电子商务个性化推荐算法分析[J].数字通信世界,2021(5):246-247.
2沈云云.计算机基础泛在学习资源推荐系统设计[J].贵阳学院学报（自然科学版）,2021,16(3):5-8.
3杨云,魏燕荣.融合用户属性偏好相似性的协同过滤推荐算法研究[J].信息与电脑,2021,33(18):66-68. 被引量：1
4徐永燊.基于协同过滤的体育运动员适宜项目推荐方法研究[J].信息技术,2022,46(4):147-151. 被引量：1
5麻天,余本国,张静,宋文爱,景昱.基于混合聚类与融合用户兴趣的协同过滤推荐算法[J].电子技术应用,2022,48(4):29-33. 被引量：10
6黄知坤,文炜,刘明,张香怡,刘凯书,黄腾,顾继俊.基于DQN和K-means聚类算法的天然气站场仪表智能识别研究[J].计算机测量与控制,2023,31(5):300-308. 被引量：2
7朱鑫,金友振,夏小云.融合情境信息的非支配排序多目标进化推荐算法[J].嘉兴学院学报,2023,35(6):79-85.
8林建辉,王茜冉,詹可强.基于聚类与差异协调的协同过滤推荐算法[J].兰州文理学院学报（自然科学版）,2023,37(6):50-54.
9喻金平,李钰,姚炫辰,罗琛.融合门控单元与多头自注意力机制的特征自动交互推荐算法[J].现代电子技术,2023,46(23):126-132.
10杨知玲,谭树杰.不确定大数据流分类的决策树模型构建仿真[J].计算机仿真,2024,41(5):532-535.

1左国才.基于大数据的分布式隐私保护聚类挖掘算法研究[J].智能计算机与应用,2018,8(6):57-60. 被引量：7
2戴月明,王明慧,张明,王艳.SVD优化初始簇中心的K-means中文文本聚类算法[J].系统仿真学报,2018,30(10):3835-3842. 被引量：10
3李志华.智能技术在电气自动化中的应用创新[J].机械管理开发,2018,33(11):269-271. 被引量：1
4马莹,赵辉,崔岩.基于Hadoop平台的改进KNN分类算法并行化处理[J].长春工业大学学报,2018,39(5):484-489. 被引量：4
5余文敏.“大数据”背景下高职院校经管类专业统计学教学思考[J].现代交际,2018(17):197-198. 被引量：7
6邓思思,魏高文,陈书,朱旭.浅谈《科研思路与方法》课程教学体会[J].经贸实践,2016(23):237-237. 被引量：3
7史俊冰.课赛融合下教学风格对学生影响的研究[J].科教导刊,2017(8Z):87-88.
8陈星,王亚非,袁望舒.基于竞赛难度与能力提高的大学生竞赛定级方法[J].大学数学,2018,34(3):40-45. 被引量：2
9王敏,陈立潮,曹建芳,潘理虎.Hadoop下自适应随机权值多特征融合图像分类[J].计算机技术与发展,2018,28(11):30-34. 被引量：1
10邵祖峰,刘知音,梁小华.农村派出所民警交通安全管理能力提升路径分析[J].贵州警官职业学院学报,2017,29(5):91-98. 被引量：6

安徽广播电视大学学报

2018年第4期

浏览历史

内容加载中请稍等...

基于Hadoop平台Canopy-Kmeans聚类算法优化改进研究被引量：2

参考文献4

二级参考文献50

共引文献78

同被引文献20

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台Canopy-Kmeans聚类算法优化改进研究 被引量：2

参考文献4

二级参考文献50

共引文献78

同被引文献20

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台Canopy-Kmeans聚类算法优化改进研究被引量：2