基于网格密度和局部敏感哈希函数的并行化聚类算法被引量：6

Partitioning-based clustering algorithm using grid density and locality sensitive hash function based on MapReduce

下载PDF

导出

摘要针对大数据背景下基于划分的聚类算法中存在初始中心敏感,节点间通信开销大以及集群效率低下等问题,提出了基于网格密度和局部敏感哈希函数的PBGDLSH-MR并行化聚类算法。首先,对初始数据集提出网格密度策略(GDS)获取初始中心点,有效避免了随机选取引起的初始中心敏感的问题;其次,提出基于局部敏感哈希函数的数据分区(DP-LSH)用于投射关联性较大的数据对象到同一子数据集中,得到map上的数据分区,并设计相似性度量公式(SI)对数据分区结果进行评价,从而降低了节点间的通信开销;接着设计自适应分组策略(AGS)处理数据分区中数据倾斜的问题,进而有效地提高了集群效率;最后,结合MapReduce计算模型并行挖掘簇中心,生成最终聚类结果。实验结果表明,PBGDLSH-MR算法的聚类效果更佳,同时在大数据环境下能有效地提高并行计算的效率。 Aiming at the problems of sensitivity of initial center,high communication overhead of nodes and low efficiency of cluster in big data clustering algorithm based on partitioning,this paper proposed a partitioning-based clustering algorithm using grid density and locality sensitive hash function based on MapReduce,named PBGDLSH-MR.Firstly,based on the initial dataset,it proposed the GDS(grid density strategy)to get the initial clustering center,which avoided the sensitivity of initial center caused by random selection of initial cluster center.Secondly,it proposed the DP-LSH(data partitioning based on locality sensitive hash functions)to map more closely related data objects into the same subdataset and get data partitions on the map.Meanwhile,it designed a formula SI(similarity improvement)to evaluate the data partitioning results,reduced the communication overhead between nodes.In addition,this paper designed an AGS(adaptive grouping strategy)to handle data skew in data partitions,which improved the cluster efficiency.Finally,based on MapReduce,it mined the cluster centers in parallel to gene-rate the final clustering results.The experimental results show that the PBGDLSH-MR has better clustering results and performs better parallelization in big data.

作者毛伊敏陶涛曹文梁 Mao Yimin;Tao Tao;Cao Wenliang(School of Information Engineering,Jiangxi University of Science&Technology,Ganzhou Jiangxi 341000,China;Dept.of Computer Engineering,Dongguan Polytechnic,Dongguan Guangdong 518172,China)

机构地区江西理工大学信息工程学院东莞职业技术学院计算机工程系

出处《计算机应用研究》 CSCD 北大核心 2021年第5期1422-1427,共6页 Application Research of Computers

基金国家重点研发计划资助项目(2018YFC1504705) 国家自然科学基金资助项目(41562019) 广东省普通高校特色创新(自然科学)资助项目(2019GKTSCX142,2017GKTSCX101)。

关键词大数据并行化聚类网格密度哈希函数 MAPREDUCE big data parallelize clustering grid density hash functions MapReduce

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：616
2宋杰,孙宗哲,毛克明,鲍玉斌,于戈.MapReduce大数据处理平台与算法研究进展[J].软件学报,2017,28(3):514-543. 被引量：96
3李斌,王劲松,黄玮.一种大数据环境下的新聚类算法[J].计算机科学,2015,42(12):247-250. 被引量：24
4赖向阳,宫秀军,韩来明.一种MapReduce架构下基于遗传算法的K-Medoids聚类[J].计算机科学,2017,44(3):23-26. 被引量：18
5阴爱英,吴运兵,朱敏琛,张莹.基于MapReduce框架下K-means的改进算法[J].计算机应用研究,2018,35(8):2295-2298. 被引量：11
6李媛媛,孙玉强,晁亚,刘阳.云环境下的高效K-Medoids并行算法[J].计算机测量与控制,2016,24(12):139-142. 被引量：2
7袁逸铭,刘宏志,李海生.基于密度峰值的改进K-Means文本聚类算法及其并行化[J].武汉大学学报（理学版）,2019,65(5):457-464. 被引量：19
8周华平,刘光宗,张贝贝.基于索引偏移的MapReduce聚类负载均衡策略[J].计算机科学,2018,45(5):303-309. 被引量：6
9Tieliang Gao,Bo Cheng,Junliang Chen,Ming Chen.Enhancing Collaborative Filtering via Topic Model Integrated Uniform Euclidean Distance[J].China Communications,2017,14(11):48-58. 被引量：1

二级参考文献92

1周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
2刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
3[OL].<http://hadoop.apache.org.>.
4WinterCorp: 2005 TopTen Program Summary. http:// www. wintercorp, com/WhitePapers/WC TopTenWP. pdf.
5TDWI Checklist Report: Big Data Analytics. http://tdwi. org/research/2010/08/Big-Data-Analytics, aspx.
6Chaudhuri S, Dayal U. An overview of data warehousing and OLAP technology. SIGMOD Rec, 1997,26(1): 65-74.
7Madden S, DeWitt D J, Stonebraker M. Database parallelism choices greatly impact scalability. DatabaseColumn Blog. http://www, databasecolumn, com/2007/10/database-parallelism-choices, html.
8Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters//Proceedings of the 6th Symposium on Operating System Design and Implementation (OSDI ' 04). San Francisco, California, USA, 2004: 137-150.
9DeWitt D J, Gerber R H, Graefe G, Heytens M L, Kumar K B, Muralikrishna M. GAMMA--A high performance dataflow database machine//Proceedings of the 12th International Conference on Very Large Data Bases (VLDB' 86). Kyoto, Japan, 1986:228-237.
10Fushimi S, Kitsuregawa M, Tanaka H. An overview of the system software of a parallel relational database machine// Proceedings of the 12th International Conference on Very Large DataBases(VLDB'86). Kyoto, Japan, 1986:209-219.

共引文献775

1张刘玲.会展行业发展现状及未来发展趋势[J].质量与市场,2023(12):31-33. 被引量：2
2李明建.试论大数据技术的图书馆特色馆藏文化建设[J].作家天地,2020(21):189-190.
3禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
4陈然.大数据时代下企业精准营销发展难题及破解[J].中国经贸导刊,2019,0(5Z):95-96. 被引量：4
5梅傲.数据治理的逻辑基础和实现路径[J].经济法论丛,2023(2):309-325. 被引量：1
6陈鹏.治理的算法和算法的治理[J].观察与思考,2020,0(1):95-104. 被引量：11
7张文华.大数据对体育教育的冲击[J].贵阳学院学报（自然科学版）,2014,9(2):47-51. 被引量：19
8李满意.大数据安全[J].保密科学技术,2012(9):71-72. 被引量：19
9陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：344
10陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18

同被引文献74

1韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
2张平,党选举,陈皓,杨文雷.基于熵特征优选分组聚类的相似重复记录检测[J].传感器与微系统,2011,30(11):135-137. 被引量：4
3邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72
4谢娟英,高红超,谢维信.K近邻优化的密度峰值快速搜索聚类算法[J].中国科学：信息科学,2016,46(2):258-280. 被引量：104
5谢娟英,屈亚楠.密度峰值优化初始中心的K-medoids聚类算法[J].计算机科学与探索,2016,10(2):230-247. 被引量：27
6朱蔚恒,印鉴,邓玉辉,龙舜,邱诗定.大数据环境下高维数据的快速重复检测方法[J].计算机研究与发展,2016,53(3):559-570. 被引量：12
7赖向阳,宫秀军,韩来明.一种MapReduce架构下基于遗传算法的K-Medoids聚类[J].计算机科学,2017,44(3):23-26. 被引量：18
8杜洪波,白阿珍,朱立军.基于改进的密度峰值算法的K-means算法[J].统计与决策,2018,0(18):20-24. 被引量：12
9苏兴华.非结构化生产信息的向量表示提取方法[J].中国管理信息化,2018,21(23):159-161. 被引量：2
10张元鸣,蒋建波,陆佳炜,徐俊,肖刚.面向MapReduce的迭代式数据均衡分区策略[J].计算机学报,2019,42(8):1873-1885. 被引量：13

引证文献6

1黄学雨,向驰,陶涛.基于MapReduce和改进密度峰值的划分聚类算法[J].计算机应用研究,2021,38(10):2988-2993. 被引量：7
2张平,余顺.基于K-modes聚类分组的大数据相似重复记录检测研究[J].安徽职业技术学院学报,2022,21(1):24-29. 被引量：1
3张玉立,张麦玲.私有区块链下个人信息隐私保护算法仿真[J].计算机仿真,2023,40(4):397-401. 被引量：1
4杨丽娜,刘长胜,刘璐璐.基于区块链技术的非结构化文本关键信息智能抽取模型[J].信息技术,2024,48(2):154-159.
5曹雨,李刚,金义,马路遥,宋永春,刘凯.基于局部敏感哈希算法的文档内容相似性判断算法[J].电子设计工程,2024,32(18):187-190.
6陈聪.超高带宽5G电力无线专网通信流量调度算法[J].自动化与仪器仪表,2024(9):73-77.

二级引证文献9

1宋鹏,葛洪伟,乔宇鑫.加权最近邻分配的局部间隙密度聚类[J].南京大学学报（自然科学版）,2022,58(5):827-835. 被引量：2
2秦梦洁,丁学利,王静.基于因子-聚类分析模型的中药材鉴别[J].阜阳职业技术学院学报,2022,33(1):77-80. 被引量：2
3唐磊,陈璇,王庆宇.基于Hough变换的企业财务重复数据批量剔除方法[J].河北北方学院学报（自然科学版）,2023,39(3):22-26.
4郑璐依,黄瑞章,任丽娜,白瑞娜,林川.关键语义信息补足的深度文本聚类算法[J].计算机应用研究,2023,40(6):1653-1659. 被引量：1
5王艺霖,肖媛媛,左鹏飞,杨博,刘悦霞,段宗涛.基于改进聚类算法的交通事故多发点识别方法[J].计算机应用研究,2023,40(10):2993-2999. 被引量：2
6郑帅,杨雪纯,海丹凤.基于改进密度峰值聚类算法的低占用率云调度容错控制模型研究[J].桂林航天工业学院学报,2023,28(3):400-405.
7黄新宇,高嵩,邱刚,谭笑,陈杰.基于MapReduce的并行化电网运行数据处理方法研究[J].电子设计工程,2024,32(4):98-102. 被引量：1
8茅炯.区域经济信息的边缘计算隐私保护研究[J].信息与电脑,2023,35(23):228-230.
9李媛媛.基于改进Noekeon算法的数据混合加密方案设计[J].电子设计工程,2024,32(21):23-27.

1胡亚红,王一洲,毛家发.基于PageRank和基准测试的异构集群节点性能评价算法研究[J].计算机工程与科学,2020,42(3):391-396. 被引量：3
2葛浙奉,王济伟,蒋从锋,张纪林,俞俊,林江彬,闫龙川,任祖杰,万健.混部集群资源利用分析[J].计算机学报,2020,43(6):1103-1122. 被引量：9
3安宁,江思源,唐晨,杨矫云.融合单纯形映射与熵加权的聚类方法[J].计算机工程与应用,2020,56(9):148-155. 被引量：4
4禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
5李晶,张滨.基于并行挖掘大数据的无损云取证模型仿真[J].计算机仿真,2021,38(2):9-12.
6张祖强(文/图).RTX 30系列 or RX 6000 系列?《我的世界》Windows 10正式版光追体验及性能测试[J].微型计算机,2021(4):77-81.
7李蓝航,丘森辉,肖丁维,黎亮佳,欧阳雪,罗玉玲.基于DNA序列和动态索引扩散的图像加密算法[J].广西师范大学学报（自然科学版）,2021,39(3):40-53. 被引量：3
8张敏灵,李宇峰.弱监督学习专题简介[J].中国科学：信息科学,2021,51(3):520-520.
9马丹,吴跃.基于全局分组策略的对抗训练在人体轮廓点回归中的应用模型[J].计算机应用研究,2021,38(5):1544-1549. 被引量：1
10张文涛,苑斌,张智鹏,崔斌.图嵌入算法的分布式优化与实现[J].软件学报,2021,32(3):636-649. 被引量：2

计算机应用研究

2021年第5期

浏览历史

内容加载中请稍等...

基于网格密度和局部敏感哈希函数的并行化聚类算法被引量：6

参考文献9

二级参考文献92

共引文献775

同被引文献74

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于网格密度和局部敏感哈希函数的并行化聚类算法 被引量：6

参考文献9

二级参考文献92

共引文献775

同被引文献74

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于网格密度和局部敏感哈希函数的并行化聚类算法被引量：6