基于数据集压缩的聚类算法性能优化研究被引量：6

Research on optimization of clustering algorithm performance based on dataset compression

下载PDF

导出

摘要针对目前聚类算法对大数据集的聚类分析中存在时间花费过大的问题,提出了一种基于最近邻相似性的数据集压缩算法。通过将若干个相似性最近邻的数据点划分成一个数据簇并随机选择簇头构成新的数据集,大大缩减了数据的规模。然后分别采用K-means算法和AP算法对压缩后的数据集进行聚类分析。实验结果表明,压缩后的数据集与原始数据集的聚类分析相比,在保证聚类准确率基本一致的前提下,有效降低了聚类的花费时长,提高了算法的聚类性能,证明了该数据集压缩算法在聚类分析中的有效性和可靠性。 This paper proposed a data set compression algorithm based on nearest neighbor similarity to solve the problem that the clustering algorithm is too expensive in the large data clustering analysis.It greatly reduced the size of the data set by dividing several data points nearest to each other into a data cluster and forming new data set with randomly selecting cluster heads.Then it used the K-means algorithm and the AP algorithm to cluster the compressed datasets respectively.The experimental results show that compared with the original data set clustering analysis,the compressed dataset can reduce the time of clustering and improve the clustering performance of the algorithm in the case of the clustering accuracy is basically the same,which proves that the validity and reliability of data set compression algorithm in cluster analysis.

作者赵延龙滑楠 Zhao Yanlong;Hua Nan(College of Information&Navigation,Air Force Engineering University,Xi’an 710077,China)

机构地区空军工程大学信息与导航学院

出处《计算机应用研究》 CSCD 北大核心 2018年第5期1450-1453,共4页 Application Research of Computers

关键词聚类数据压缩聚类性能 clustering data compression clustering performance

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1LEE Sang-hyuk,YAN Sun,JEONG Yoon-su,SHIN Seung-soo.Similarity measure design for high dimensional data[J].Journal of Central South University,2014,21(9):3534-3540. 被引量：3
2杜辉,王宇平,董晓盼.采用万有引力定律自动确定类数的K均值算法[J].西安交通大学学报,2014,48(10):115-119. 被引量：6
3张蓉,钟艳.基于BIRCH算法的模糊集数据库挖掘算法[J].科技通报,2014,30(4):47-49. 被引量：7
4张晓倩,杨波,王琳,梁志锋.使用DBSCAN的FCM神经网络分类器[J].模式识别与人工智能,2016,29(2):185-192. 被引量：5
5江颉,王卓芳,陈铁明,朱陈晨,陈波.自适应AP聚类算法及其在入侵检测中的应用[J].通信学报,2015,36(11):118-126. 被引量：17
6周勇,卢晓伟,程春田.非规则流中高维数据流典型相关性分析并行计算方法[J].软件学报,2012,23(5):1053-1072. 被引量：5
7Xin-zheng XU,Shi-fei DING,Zhong-zhi SHI,Hong ZHU.Optimizing radial basis function neural network based on rough sets and affinity propagation clustering algorithm[J].Journal of Zhejiang University-Science C(Computers and Electronics),2012,13(2):131-138. 被引量：6
8牛东晓,王永利,马小勇.Optimization of support vector machine power load forecasting model based on data mining and Lyapunov exponents[J].Journal of Central South University,2010,17(2):406-412. 被引量：7
9计华,张化祥,孙晓燕.基于最近邻原则的半监督聚类算法[J].计算机工程与设计,2011,32(7):2455-2458. 被引量：7
10刘淑芬,孟冬雪,王晓燕.基于网格单元的DBSCAN算法[J].吉林大学学报（工学版）,2014,44(4):1135-1139. 被引量：24

二级参考文献125

1张海龙,王仁彪,聂俊,刘进忠.海量数据的网格启发信息密度聚类算法[J].吉林大学学报（工学版）,2011,41(S2):254-258. 被引量：2
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
4陈淑燕,王炜.基于Lyapunov指数的交通量混沌预测方法[J].土木工程学报,2004,37(9):96-99. 被引量：20
5陈燕俐,洪龙,金达文,朱梧槚.一种简单有效的基于密度的聚类分析算法[J].南京邮电学院学报（自然科学版）,2005,25(4):24-29. 被引量：8
6何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16
7王永利,徐宏炳,董逸生,钱江波,刘学军.基于低阶近似的多维数据流相关性分析[J].电子学报,2006,34(2):293-300. 被引量：12
8宿成建.中国股市价格和波动性的非线性行为实证研究[J].数学的实践与认识,2006,36(2):141-148. 被引量：4
9赵雪琴,宋利敏.一种新的聚类算法在入侵检测中的应用研究[J].信息安全与通信保密,2006,28(4):84-86. 被引量：5
10文梅,李海燕,伍楠,张春元,李礼.流体系结构抽象模型研究[J].计算机工程与科学,2006,28(7):123-126. 被引量：1

共引文献100

1吴定海,张培林,任国全,徐超,范红波.基于Bayes的超球分类器及在柴油机异常检测中的应用[J].机械工程学报,2011,47(6):22-26. 被引量：3
2杨淑霞,曹原,刘达,黄陈锋.RS-SVM forecasting model and power supply-demand forecast[J].Journal of Central South University,2011,18(6):2074-2079. 被引量：4
3邢艳,周勇.基于互近邻一致性的近邻传播算法[J].计算机应用研究,2012,29(7):2524-2526. 被引量：9
4李益国,沈炯,K.Y.Lee,刘西陲,费文哲.Data-driven nonlinear control of a solid oxide fuel cell system[J].Journal of Central South University,2012,19(7):1892-1901. 被引量：2
5张明,朱俊平,蔡骋.基于稀疏低秩分解的杂草种子配准[J].计算机工程与设计,2012,33(10):3959-3963.
6陆绍飞,王建新,荣辉桂,秦拯.Traffic-prediction-assisted dynamic power saving mechanism for IEEE 802.16e wireless MANs[J].Journal of Central South University,2013,20(6):1552-1558. 被引量：1
7李轶然,张春娜.基于成对约束的主动半监督聚类算法[J].计算机工程与设计,2013,34(8):2897-2902. 被引量：1
8郭晓鹏,杨淑霞,杨里.基于粗糙集降维和相关向量机的长期用电需求预测方法[J].中南大学学报（自然科学版）,2013,44(12):5133-5138. 被引量：2
9李国,韩学良,段钢.飞机噪声识别方法研究及FPGA固化实现[J].计算机工程与设计,2014,35(3):835-840.
10甘月松,陈秀宏,陈晓晖.一种AP算法的改进:M-AP聚类算法[J].计算机科学,2015,42(1):232-235. 被引量：17

同被引文献89

1赵莉华,赵茂林,夏炜,王仲.基于K-means和SOM混合算法的高压断路器操作机构状态评估[J].高压电器,2020,56(1):36-42. 被引量：8
2郭志民,马建伟,张小斐,万迪明,刘涌,袁秋实.面向三维可视化场景的电力大数据分析模型构建研究[J].电网与清洁能源,2019,35(6):46-51. 被引量：35
3黄腾飞,李帮义,熊季霞.基于小波方差分解的混沌时间序列噪声估计和阈值去噪[J].计算机应用,2013,33(3):890-895. 被引量：5
4宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935. 被引量：542
5陈东明,刘健,王冬琦,徐晓伟.基于MapReduce的分布式网络数据聚类算法[J].计算机工程,2013,39(7):76-82. 被引量：9
6郭力争,赵曙光,姜长远.云计算环境下基于关联量的数据部署与任务调度[J].计算机工程与科学,2013,35(8):1-7. 被引量：6
7张逸,杨洪耕,叶茂清.基于分布式文件系统的海量电能质量监测数据管理方案[J].电力系统自动化,2014,38(2):102-108. 被引量：43
8覃平.电力企业设备管理创新成果简介[J].科技与企业,2014(9):101-101. 被引量：2
9宋鸣程,贾立,叶灵芝.基于Spark的火电大数据挖掘方法的研究[J].控制工程,2018,25(12):2158-2165. 被引量：11
10申建建,曹瑞,苏承国,程春田,李秀峰,吴洋,周彬彬.水火风光多源发电调度系统大数据平台架构及关键技术[J].中国电机工程学报,2019,39(1):43-55. 被引量：54

引证文献6

1郑琳,张辉.云环境下基于群智能算法的大数据聚类挖掘技术[J].现代电子技术,2020,43(15):115-118. 被引量：11
2李炜,翁晓军,李洪云,张家海,夏铁新.大数据分析模型的输变电设备智能运维研究[J].信息技术,2021,45(7):54-58. 被引量：5
3杨中刚.新型节能用电信息智能采集系统设计[J].自动化仪表,2022,43(8):73-78. 被引量：1
4白雨佳,李靖,高升.基于最优K均值聚类算法的负荷大数据任务均衡调度研究[J].电力电容器与无功补偿,2022,43(6):85-91. 被引量：5
5徐晨,顾曦华,盛银波,金军.基于流量分析的XML嵌套数据流无损压缩算法[J].信息技术,2023,47(8):130-136. 被引量：1
6仝霞,解进军,李雪城,赵磊,芦昳娜.高精度非车载充电机检验数据价值挖掘研究[J].自动化仪表,2023,44(10):75-79.

二级引证文献23

1龙妤.基于大数据背景的数据挖掘技术算法研究[J].通信电源技术,2020,37(16):72-74.
2周娟.基于云计算的大数据挖掘体系构建研究[J].信息与电脑,2020,32(21):132-134.
3梁洪浩.基于大数据处理的现货计量自动化数据异常判定与处理[J].微型电脑应用,2021,37(9):205-208. 被引量：2
4韦鹏伟.变电运维技术中的智能化技术分析[J].技术与市场,2022,29(6):127-128. 被引量：3
5龚静,刘现芳.云计算中基于群体智能算法的大数据聚类挖掘[J].科技创新与生产力,2022(9):87-90. 被引量：1
6谭平,徐金美,蒋天煜,Tambominyi Eliasu,丁进.基于作业类型和优先级权重的容量调度算法[J].浙江科技学院学报,2022,34(5):444-451.
7马小明,刘永涛,陈晓楠.基于智能聚类的医院分类大数据自动存储方法[J].自动化技术与应用,2022,41(11):84-87. 被引量：1
8唐彬彬,叶丹,俞晓峰,梁强.机房主机设备定检信息自动获取的研究与应用[J].通信电源技术,2022,39(23):217-219.
9许文芝.面向大数据的数据处理与分析算法研究[J].信息与电脑,2022,34(22):106-108.
10姜姗,赵春霞,朱红磊.多媒体背景下思政教育资源高效挖掘方法研究[J].信息与电脑,2022,34(23):238-240.

1杨谊,喻德旷.OBE导向下的《网络程序》课程教学改革[J].中国教育信息化,2018,24(8):62-64. 被引量：1
2纪芳.点点归帆涌诗涛——欣读吴传麟同志的山水画[J].新闻与写作,1986(1).
3任秀江,王磊,周建毅,谢向辉.面向网络通信的高实时压缩引擎设计[J].计算机工程与科学,2018,40(4):594-601. 被引量：2
4杨兆坚,李学文.管波探测法在基桩完整性检测中的应用实例分析[J].广州建筑,2018,46(2):10-13. 被引量：5
5朱月霞,宋震,吴龙华.一种面向移动设备的矢量空间数据高效存储方法[J].国土资源信息化,2018(2):3-6.
6陈涛,陈学东,刘春娇,钱兵.裂解炉管初生碳化物分类及对高温持久性能影响[J].机械工程学报,2018,54(8):109-116. 被引量：6
7王焱,王卉蕾.改进的谱聚类算法在图像分割中的应用[J].测控技术,2018,37(4):11-15. 被引量：5
8陈元川,庞坚,石印玉,詹红生,曹月龙,高宁阳,李志强.膝骨关节炎膝痛分布及其与影像学特征的关系研究[J].中国中医骨伤科杂志,2018,26(5):39-43. 被引量：8
9宋清华,刘卫平,肖军,陈萍,杨洋,陈吉平.热塑性复合材料自动铺放工艺参数分析与优化[J].复合材料学报,2018,35(5):1149-1157. 被引量：13
10徐达宇,郁莹珺,冯海林,张旭尧.基于约束优化传播的改进大规模数据半监督式谱聚类算法[J].计算机应用研究,2018,35(5):1325-1330. 被引量：3

计算机应用研究

2018年第5期

浏览历史

内容加载中请稍等...

基于数据集压缩的聚类算法性能优化研究被引量：6

参考文献12

二级参考文献125

共引文献100

同被引文献89

引证文献6

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于数据集压缩的聚类算法性能优化研究 被引量：6

参考文献12

二级参考文献125

共引文献100

同被引文献89

引证文献6

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于数据集压缩的聚类算法性能优化研究被引量：6