面向大数据挖掘的Hadoop框架K均值聚类算法被引量：22

K-means clustering algorithm with Hadoop framework for large data mining

下载PDF

导出

摘要为提高大数据聚类效率,提出一种基于Hadoop框架的K均值聚类算法。采用Hadoop框架所用的MapReduce模型,将大数据划分成许多数据块。在Map阶段提出权重K均值聚类算法,对每一个数据块独立聚类,得到聚类中心和权重;在Reduce阶段提出加权融合K均值聚类算法,对Map阶段得到的聚类中心和权重进行融合,得到最终的聚类结果。在HIGGS数据集上进行聚类实验,实验结果表明,该算法在保持聚类准确率的前提下大幅提升了大数据聚类时K均值聚类算法的运算效率。 To improve the efficiency of big data clustering,a K-means clustering algorithm based on Hadoop framework was proposed.The MapReduce model of Hadoop framework was used to divide big data into many data blocks.In the Map phase,a weighted K-means clustering algorithm was proposed to cluster independently for each data block,and the clustering centers and weights were obtained.In the Reduce phase,the weighted fusing K-means clustering algorithm was proposed,to fuse the clustering centers and weights obtained in the Map phase,and the final clustering results were obtained.The clustering experiment was executed on HIGGS dataset,the results show that the proposed algorithm can greatly improve the efficiency of K-means clustering algorithm for big data clustering on the premise of keeping the accuracy of clustering.

作者李爽陈瑞瑞林楠 LI Shuang;CHEN Rui-rui;LIN Nan(School of Information Engineering, Zhengzhou University of Industrial Technology, Zhengzhou 451199, China;College of Software and Application of Science and Technology, Zhengzhou University, Zhengzhou 451199, China)

机构地区郑州工业应用技术学院信息工程学院郑州大学软件与应用科技学院

出处《计算机工程与设计》北大核心 2018年第12期3734-3738,共5页 Computer Engineering and Design

基金国家自然科学基金项目(61502204)

关键词数据挖掘 K均值聚类 Hadoop框架大数据 MAPREDUCE模型 data mining K-means clustering Hadoop framework big data MapReduce model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1王元卓,贾岩涛,刘大伟,靳小龙,程学旗.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015,52(2):456-474. 被引量：96
2陈季梦,陈佳俊,刘杰,黄亚楼,王嫄,冯霞.基于结构相似度的大规模社交网络聚类算法[J].电子与信息学报,2015,37(2):449-454. 被引量：15
3胡雷钧,庞松涛,朱炯,公维峰,赵雅倩.基于FPGA的大数据K-means算法优化[J].电力信息与通信技术,2016,14(8):1-6. 被引量：7
4杨晓雁.基于Hadoop的海量数据的分布式存储关键技术研究[J].自动化与仪器仪表,2016(10):166-167. 被引量：7

二级参考文献111

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
4吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48
5董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
6.百度热门搜索[EB/OL].http://top.baidu.com,2005/03/18,[2005-05-17].
7Lee T B. Semantic Web architecture[EB/OL]. 2000[2013- 07-25]. http://www. w3. org/2000/talks/1206-xmI2k-tbl. 2000-11-8.
8Aditya P, Anand R, Hector G-M, Towards the Web of concepts: Extracting concepts from large datasets[C]//Proc of the 36th Int Conf on Very Large Data Bases VLDB'10. San Francisco, CA: Morgan Kaufmann, 2010: 566-577.
9Gruber T R. A translations approach to portable ontology specifications[J]. Knowledge Acquisition, 1993,5(2): 199- 220.
10Etzioni 0, Cafarella M, Downey D, et al. Unsupervised named-entity extraction from the Web: An experimental study[EB/OL]. 2005[2013-07-25]. https: //homes. cs. washington. edu/ etzioni/papers/knowitall-aij. pdf.

共引文献121

1陈宁,陈孝文,冯世杰,吕志鹏,陈习,张娜,王岩.基于Hadoop的电力客户用电地址存储与结构化管理系统设计[J].微型电脑应用,2020,36(2):97-101. 被引量：4
2文辉,徐永林,于敬.基于主动学习的领域知识多模式抽取框架[J].新一代信息技术,2022,5(6):137-143.
3朱飞燕.大数据资源调度中多种类复杂信息智能定向检索[J].自动化与仪器仪表,2019(2):118-121. 被引量：5
4刘承良.网络大数据的现状与展望[J].中国管理信息化,2015,18(12):186-188. 被引量：7
5赵泽亚,贾岩涛,王元卓,靳小龙,程学旗.基于动态异构信息网络的时序关系预测[J].计算机研究与发展,2015,52(8):1735-1741. 被引量：8
6荣垂田.大数据背景下高校信息管理课程改革研究[J].课程教育研究,2015,0(28):42-43. 被引量：4
7陈丽敏,杨静,张健沛.一种基于嵌入技术的异构信息网络的快速聚类算法[J].电子与信息学报,2015,37(11):2634-2641. 被引量：3
8李宏涛,何克清,王健,彭珍连,田刚.基于概念格和随机游走的社交网朋友推荐算法[J].四川大学学报（工程科学版）,2015,47(6):131-138. 被引量：8
9陈志锋,李清宝,张平,冯培钧.基于聚类分析的内核恶意软件特征选择[J].电子与信息学报,2015,37(12):2821-2829. 被引量：14
10席平,张宝源.产品结构建模技术发展综述[J].航空制造技术,2015,58(23):36-41.

同被引文献192

1张红亮,龚光红,王江云.飞行仿真器导航系统建模与仿真[J].系统仿真学报,2006,18(z2):130-133. 被引量：6
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3李洁,高新波,焦李成.一种基于GA的混合属性特征大数据集聚类算法[J].电子与信息学报,2004,26(8):1203-1209. 被引量：9
4赵中堂,李春雷.基于移动Agent的并行聚类算法模型[J].中原工学院学报,2005,16(1):40-43. 被引量：1
5陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1312
6陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,29(9):2562-2567. 被引量：932
7陈红坤,黄娟.数据挖掘及其在电能质量分析中的应用[J].电力系统及其自动化学报,2009,21(5):51-55. 被引量：15
8张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010,27(2):429-433. 被引量：589
9李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：111
10李乔,郑啸.云计算研究现状综述[J].计算机科学,2011,38(4):32-37. 被引量：434

引证文献22

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2尹延华,杨林,付梅.工业大数据技术助力煤矿安全生产管控初探[J].煤炭加工与综合利用,2019,0(6):122-125. 被引量：2
3段琪.数据挖掘中的聚类算法分析[J].信息与电脑,2019,0(15):39-40. 被引量：2
4张凤霞.大数据环境下基于云计算的图书馆用户信息挖掘技术研究[J].现代电子技术,2019,42(21):36-40. 被引量：5
5梁涛,李宗琪,姜文,井延伟.火电厂智能化远程管理云平台系统设计[J].中国测试,2020,46(2):103-109. 被引量：12
6李麟霞.基于多元混合准则模糊算法的高校教育信息推荐系统设计[J].现代电子技术,2020,43(4):97-99. 被引量：3
7康耀龙,张景安,冯丽露.基于约束满足的大数据聚类中心调度算法仿真[J].计算机仿真,2020,37(3):385-388. 被引量：9
8潘卫军,刘铠源,王润东,左青海.民航空管大数据处理平台架构研究[J].计算机应用与软件,2020,37(6):48-52. 被引量：8
9周斌,汪湧.基于大数据的配变电压异常影响因素分析方法及应用[J].电工技术,2020,0(7):143-145.
10徐建中,陈潜心,李冰洋.数据挖掘下建筑安全防护驱动因素检测仿真[J].计算机仿真,2020,37(6):430-433. 被引量：1

二级引证文献79

1赵鋆,艾远高,向强铭,夏国强,黄家志.适用于电流源型逆变器的SVPWAM调制策略及其损耗分析[J].电器与能效管理技术,2022(12):61-69. 被引量：2
2毕海波.SAS聚类算法在外商投资企业经营分析中的应用研究[J].金融科技时代,2020,28(3):41-46.
3陈国靖.基于云计算的Hadoop大数据平台挖掘算法及实现研究[J].信息与电脑,2020,32(6):44-46. 被引量：5
4祝艳京.电子证书数据挖掘技术的诉讼取证分析系统设计[J].单片机与嵌入式系统应用,2020,20(6):9-12. 被引量：3
5康耀龙,冯丽露,张景安.路况大数据分析平台的设计与实现[J].电子技术与软件工程,2020(6):200-201. 被引量：2
6王凯.大数据时代下的煤矿国企云会计应用[J].中小企业管理与科技,2020(7):157-158. 被引量：1
7吴云.大数据分析技术的图书馆信息检索系统设计与研究[J].现代电子技术,2020,43(19):167-170. 被引量：21
8聂慧.大数据环境下图书馆用户数据安全保护机制研究[J].江苏科技信息,2020,37(35):65-67. 被引量：2
9王洪权,赵青山,孙学峰.数据中台在煤矿重大灾害预警中的应用[J].山东煤炭科技,2021,39(2):179-181. 被引量：1
10慕慧娟,郑云林,塔依尔·斯拉甫力.智慧停车场在线计量云平台分析与设计研究[J].中国测试,2021,47(4):124-129. 被引量：6

1周书华,Howard E.Haber.终于看到希格斯玻色子衰变成底夸克[J].物理,2018,47(11):736-736.
2Gauthier Durieux,Jiayin Gu,Eleni Vryonidou,Cen Zhang.Probing top-quark couplings indirectly at Higgs factories[J].Chinese Physics C,2018,42(12):53-65. 被引量：1
3李昌利,张琳,樊棠怀.基于自适应主动学习与联合双边滤波的高光谱图像分类[J].计算机科学,2018,45(12):223-228. 被引量：2
4金海,张劲松,吴睿.一种基于抽样改进加权核K-means的大数据谱聚类算法[J].测绘通报,2018(11):78-82. 被引量：7
5李安颖,陈群,宋荷.离散粒子群优化算法实现MapReduce负载平衡[J].自动化仪表,2018,39(12):56-59. 被引量：1
6王明慧,曹杰,潘琪,邵雨琪,胡若霄.一种云存储中基于身份的代理数据完整性检测方案[J].物联网技术,2018,8(12):50-54. 被引量：4
7屈立成,高芬芬,柏超,李萌萌,赵明.雷达引导的视频联动监控模型及算法[J].计算机应用,2018,38(12):3625-3630. 被引量：10

计算机工程与设计

2018年第12期

浏览历史

内容加载中请稍等...

面向大数据挖掘的Hadoop框架K均值聚类算法被引量：22

参考文献4

二级参考文献111

共引文献121

同被引文献192

引证文献22

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

面向大数据挖掘的Hadoop框架K均值聚类算法 被引量：22

参考文献4

二级参考文献111

共引文献121

同被引文献192

引证文献22

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

面向大数据挖掘的Hadoop框架K均值聚类算法被引量：22