基于深度学习的非结构化大数据密度聚类仿真

Deep Learning-Based Density Clustering Simulation of Unstructured Big Data

下载PDF

导出

摘要常规的非结构化大数据密度聚类方法耗时长,且易出现数据密度分配错误的情况,影响数据聚类精度。因此,提出一种基于深度学习的非结构化大数据快速密度聚类方法。采用数据密度函数求解每个非结构化大数据密度值,使用邻近搜索技术找出各簇最佳中心,选用Alex Net网络建立数据聚类学习框架,利用映射方式提取数据特征矢量,通过损失函数得出伪标签并作为反向传播依据。为了提升模型聚类速度及精度,引入小批量梯度下降优化聚类模型参数,实现非结构化大数据密度聚类。实验结果表明,所提方法能够使密度相似数据紧密、密度相差较大数据稀疏,令数据密度聚类效果良好。 Conventionally,traditional methods are time-consuming and prone to incorrect data density allocation,which affects the data clustering accuracy.Therefore,this paper proposed a fast density clustering method for nonstructural big data based on deep learning.Firstly,the data density function was used to calculate all density values of unstructured big data.Secondly,the proximity search technology was adopted to find the best center of each cluster.Then,the Alex Net network was used to construct a learning framework for data clustering.Meanwhile,data feature vectors were extracted by mapping.Thirdly,pseudo labels were obtained by loss function as a basis for backpropagation.In order to improve the clustering speed and accuracy of the model,small-lot gradient descent was used to optimize the model parameter,thus achieving the non-structural big data density clustering.Experimental results show that the proposed method can make the data with similar density integrate more closely with each other and make the data with large density differences sparse,so it has good data density clustering effect.

作者胡涛王中杰张连明陈晓锁 HU Tao;WANG Zhong-jie;ZHANG Lian-ming;CHEN Xiao-suo(Electric and Information Engineering College,Hunan Institute of Traffic Engineering,Hengyang Hunan 421001,China;College of Information Science and Engineering,Hunan Normal University,Changsha Hunan 410000,China)

机构地区湖南交通工程学院电气与信息工程学院湖南师范大学信息科学与工程学院

出处《计算机仿真》 2024年第5期501-505,共5页 Computer Simulation

基金湖南省教育厅教学改革研究项目:程序设计类课程(HNJG-2021-1275) 湖南省教育厅科学研究重点项目(22A0056) 基于图神经网络的工业物联网模型与路由优化研究(2023.01-2025.12)。

关键词深度学习非结构化大数据数据密度伪标签 Deep learning Non-structural big data Data density Pseudo label

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1朱泓睿,元国军,姚成吉,谭光明,王展,户忠哲,张晓扬,安学军.分布式深度学习训练网络综述[J].计算机研究与发展,2021,58(1):98-115. 被引量：16
2李铭,丁卫平,鞠恒荣,孙颖,秦廷桢,黄嘉爽.基于Spark的证据邻域粗糙并行分类高效算法[J].南京理工大学学报,2021,45(4):409-419. 被引量：5
3刘子巍,骆曦,李克,陈富强.基于k近邻的多尺度超球卷积神经网络学习[J].计算机工程,2022,48(11):111-119. 被引量：2
4苏常保,龚世才.一种基于卷积神经网络的谱聚类算法[J].安徽大学学报（自然科学版）,2022,46(5):20-26. 被引量：3
5代永杨,张清华,支学超.融合相对密度与近邻关系的密度峰值聚类算法[J].重庆邮电大学学报（自然科学版）,2021,33(5):791-805. 被引量：7
6吴欣蓬,汤新民,毛继志,郭鸿滨,管祥民.基于密度聚类与匹配算法的异常飞行行为挖掘[J].南京航空航天大学学报,2021,53(6):863-871. 被引量：4
7刘小康,张菁,张延迟.基于子簇融合和线性判别分析的密度峰值聚类算法[J].传感器与微系统,2021,40(12):133-136. 被引量：3
8张喜梅,解滨,徐童童,张春昊.基于反向K近邻和密度峰值初始化的加权Kmeans聚类入侵检测算法[J].南京理工大学学报,2023,47(1):56-65. 被引量：6
9徐鑫,曹原.基于加权直觉模糊兰氏距离的密度峰值聚类算法[J].陕西师范大学学报（自然科学版）,2023,51(1):101-110. 被引量：5
10马淑华,尤海荣,唐亮,何平.一种自适应的密度峰值聚类算法[J].东北大学学报（自然科学版）,2022,43(6):761-768. 被引量：6

二级参考文献49

1卿斯汉,蒋建春,马恒太,文伟平,刘雪飞.入侵检测技术研究综述[J].通信学报,2004,25(7):19-29. 被引量：234
2李洋.K-means聚类算法在入侵检测中的应用[J].计算机工程,2007,33(14):154-156. 被引量：23
3Xu Zeshui1,2 1. Coll. of Economics and Management, Southeast Univ., Nanjing 210096, P. R. China,2. Inst. of Sciences, PLA Univ. of Science and Technology, Nanjing 210007, P. R. China.Intuitionistic fuzzy hierarchical clustering algorithms[J].Journal of Systems Engineering and Electronics,2009,20(1):90-97. 被引量：6
4丁卫平,王建东,管致锦,施佺,陈森博.基于小生境完全属性-值空间树的属性序约简优化算法[J].南京理工大学学报,2012,36(1):37-42. 被引量：3
5王超,徐肖豪,王飞.基于航迹聚类的终端区进场程序管制适用性分析[J].南京航空航天大学学报,2013,45(1):130-139. 被引量：40
6何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：328
7王超,韩邦村,王飞.基于轨迹谱聚类的终端区盛行交通流识别方法[J].西南交通大学学报,2014,49(3):546-552. 被引量：28
8张钧波,李天瑞,潘毅,罗川,滕飞.云平台下基于粗糙集的并行增量知识更新算法[J].软件学报,2015,26(5):1064-1078. 被引量：11
9徐涛,李永祥,吕宗平.基于航迹点法向距离的航迹聚类研究[J].系统工程与电子技术,2015,37(9):2198-2204. 被引量：16
10梁吉业,钱宇华,李德玉,胡清华.大数据挖掘的粒计算理论与方法[J].中国科学：信息科学,2015,45(11):1355-1369. 被引量：96

共引文献67

1李智冈,吕莉,谭德坤,康平,樊棠怀.基于加权核密度估计与微簇合并的密度峰值聚类算法[J].信息与控制,2024,53(3):302-314.
2郭福洲.基于MPI并行计算方法的实践[J].科技资讯,2021,19(28):7-9.
3孙鉴,刘凇佐,武晓晓,巫思敏.基于Spark的并行模拟退火算法求解TSP[J].电子测量技术,2022,45(4):53-58. 被引量：9
4彭琨,丁小波,蔡茂贞,钟地秀,黎蕴玉.分布式图像解析系统的设计与研究[J].现代计算机,2022,28(11):31-34.
5李娟.基于Hadoop云平台的空间属性数据挖掘技术研究[J].南京理工大学学报,2022,46(4):419-426. 被引量：15
6付晓,张子闻,邓冰妍.基于策略融合的电网运行异常值检测方法[J].光学与光电技术,2022,20(4):160-165. 被引量：2
7李新春,詹德川.使用多分类器的分布式模型重用技术[J].计算机科学与探索,2022,16(10):2310-2319.
8郑岳,韩娟,杜丽洁,于丽梅,仝天,孙源.基于大数据分析的支撑智能催费的客户分群方法研究[J].电力大数据,2022,25(8):55-61. 被引量：3
9陈明,张丽文,王璐,袁娟,宋庆华,曾琴.基于大数据的用电特征嫌疑用户分析[J].电力大数据,2022,25(6):24-35. 被引量：1
10谢能勇.垃圾焚烧发电锅炉燃烧状态识别与主蒸汽温度预测方法[J].工业炉,2022,44(6):66-70. 被引量：1

1屈志坚,帅诚鹏,吴广龙,梁家敏,李迪.基于遗传优化聚类的GRU无损电力监测数据压缩[J].电力系统及其自动化学报,2024,36(4):1-8.
2王璐.一种基于自适应优化聚类的车辆检测方法研究[J].自动化技术与应用,2024,43(7):44-48.
3钟秋艳.论小学数学教研活动的创新与实践[J].中文科技期刊数据库（全文版）教育科学,2016(12):222-222. 被引量：1
4杨泽.融合PSO的K-means聚类算法在高校财务分析中的应用[J].信息与电脑,2024,36(8):22-24.
5祁富,陈丽敏.基于k-modes聚类算法的混洗差分隐私方法[J].牡丹江师范学院学报（自然科学版）,2024(2):6-13.
6麻华龙.高中数学解题教学中的分类讨论策略应用[J].中国科技经济新闻数据库教育,2019(2):108-108.
7郑泛舟.基于烟花算法的智慧城市物联网数据流聚类方法[J].成都工业学院学报,2024,27(3):50-54.
8张智伟,黄琛,杨武炳,杨金宝.海上风电场中的远程集成监控系统设计[J].电子技术（上海）,2024,53(4):56-57.
9王可栋,曲含章,马敏,杨子奕,康爱平.基于ResNet-MLP模型的车辆目标检测算法[J].青岛理工大学学报,2024,45(3):142-150.
10甄珍,刘昱鑫,陈斌,任海萍,刘亚芝.基于乌鸦搜索算法的医疗数据填补方法[J].现代仪器与医疗,2024,30(3):48-53.

计算机仿真

2024年第5期

浏览历史

内容加载中请稍等...

基于深度学习的非结构化大数据密度聚类仿真

参考文献13

二级参考文献49

共引文献67

相关作者

相关机构

相关主题

浏览历史