密度分布函数在聚类算法中的应应用用被引量：8

Application of density distribution function in clustering algorithms

下载PDF

导出

摘要深入分析了传统的基于密度的聚类方法的特点和存在的问题及讨论了基于密度聚类算法研究现状,提出了一种改进的基于密度分布函数的聚类算法.使用K最近邻(KNN)的思想度量密度以寻找当前密度最大点,即中心点.并使用区域比例,将类从中心点开始扩展,每次扩展的同时引入半径比例因子以发现核心点.再从该核心点的KNN扩展类,直至密度下降到中心点密度的给定比率时结束.给出了数个算法实例并与基于网格的共享近邻聚类(GNN)算法在聚类准确率和效率上进行了试验比较,试验表明该算法极大降低了基于密度聚类算法对参数的敏感性、改善了对高维密度分布不均数据集的聚类效果、提高了聚类准确率和效率. Characteristics and disadvantages of traditional density-based clustering algorithms are deeply investigated; the present research status of density-based clustering algorithms is discussed; an improved clustering algorithm based on density distribution function is put forward. K nearest neighbor （KNN） is used to measure the density of each point; a local maximum density point is defined as the center point. By means of local scale, classification is extended from the center point. For each point there is a procedure to determine whether it is a core point by a radius scale factor. The classification is extended once again from the core point until the density descends to the given ratio of the density of the center point. Several algorithm examples are given and the algorithm is experimentally compared with the grid-shared nearest neighbor （GNN） clustering algorithm, on the clustering accuracy ratio and efficiency. The tests show that the improved algorithm greatly reduces the sensitivity of density-based clustering algorithms to parameters, improves the clustering effect of the high-dimensional data sets with uneven density distribution, and enhances the clustering accuracy and efficiency.

作者谭建豪章兢李伟雄

机构地区湖南大学电气与信息工程学院

出处《控制理论与应用》 EI CAS CSCD 北大核心 2011年第12期1791-1796,共6页 Control Theory & Applications

基金国家自然科学基金资助项目(60634020) 湖南省自然科学基金资助项目(08JJ3132) 中央高校基本科研业务费资助项目

关键词聚类算法 KNN GNN 密度分布函数 OPTICS DENCLUE 区域比例半径比例因子 clustering algorithms； KNN； GNN； density distribution function； OPTICS（ordering points to identify the clustering structure）； DENCLUE（density-based clustering）； local scale； radius scale factor

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献17

1陈燕,耿国华,郑建国.一种改进的基于密度的聚类算法[J].微机发展,2005,15(3):17-19. 被引量：13
2冯少荣,肖文俊.一种提高DBSCAN聚类算法质量的新方法[J].西安电子科技大学学报,2008,35(3):523-529. 被引量：13
3马帅,王腾蛟,唐世渭,杨冬青,高军.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):1089-1095. 被引量：108
4荣秋生,颜君彪,郭国强.基于DBSCAN聚类算法的研究与实现[J].计算机应用,2004,24(4):45-46. 被引量：77
5周妍,孔晓玲,张然.数据挖掘中聚类算法研究[J].福建电脑,2007,23(8):9-10. 被引量：1
6余小高,余小鹏.基于距离和密度的无监督聚类算法的研究[J].计算机应用与软件,2010,27(7):122-125. 被引量：5
7NASIBOV E N, ULUTAGAY G. Robustness of density-based clus- tering methods with various neighborhood relations[J]. Fuzzy Sets and Systems, 2009, 160(24): 3601 - 3615.
8AGRAWAL R, GEHRKE J, GUNOPULOS D, et al. Automatic sub- space clustering of high dimensional data for data mining applica- tions[C] 1/1998 ACM SIGMOD International Conference on Man- agement of Data Seattle, USA: ACE: 1998, 28(2): 94 - 105.
9WANG X F, HUANG D S. A novel density-based clustering frame- work by using level set method[J]. IEEE Transactions on Knowledge andData Engineering, 2009, 21(11): 1515 - 1531.
10BICICI E, YURET D. Locally scaled density based clustering[C] //The 8th International Conference on Adaptive and Natural Com- puting Algorithms. Berlin: Springer-Verlag, 2007:739 -748.

二级参考文献76

1荆丰伟,刘冀伟,王淑盛.改进的K-均值算法在岩相识别中的应用[J].微计算机信息,2004,20(7):41-42. 被引量：5
2姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：68
3修宇,王士同,吴锡生,胡德文.方向相似性聚类方法DSCM[J].计算机研究与发展,2006,43(8):1425-1431. 被引量：21
4[1]Han JW,Kamber M. Data Mining:Concepts and Techniques[D]. Simon Fraser University,2000.
5[2]Alsabti K,Ranka S,Singh V.An efficient k-means clustering algorithm[A]. IPPS-98,Proceedings of the First Workshop on High Performance Date Mining[C]. Orlando,Florida,USA,1998.
6[3]Ester M,Kriegel HP,Sander J,et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[A]. Proceedings 2nd International Conference on Knowledge Discovery and Data Mining[C]. Portland,OR,1996. 226-231.
7[4]Wang HX,Zaniolo C. Database System Extensions for Decision Support:the AXL Approach[A]. ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery[C]. 2000. 11-20.
8Alexander Hinneburg,Daniel A Keim.A General Approach to Clustering in Large Databases with Noise[J].Knowledge and Information Systems,2003(5):387-415.
9XiaoGao Yu,XiaoPeng Yu.The Research on an adaptive k-nearest neighbors classifier[C]//ICMLC.2006:1241-1246.
10Han Jiawei,Micheline Kamber.Data Mining-Concepts and Techniques[M].China Machine Press,Beijing,2004.

共引文献599

1宗长富,文龙,何磊.基于欧几里得聚类算法的三维激光雷达障碍物检测技术[J].吉林大学学报（工学版）,2020,50(1):107-113. 被引量：25
2吕佳,熊浩.一种新城市气温模式分类的聚类算法[J].数学的实践与认识,2007,37(8):55-60.
3刘嘉嘉,杜习英.一种新的基于密度的自适应取样聚类算法[J].电脑知识与技术（过刊）,2007(2):478-480.
4梁久祯.核函数参数优化的聚类算法[J].仪器仪表学报,2005,26(z1):678-680. 被引量：2
5鲜于建川,隽志才.基于遗传聚类算法的出行行为分析[J].计算机应用研究,2009,26(3):836-839.
6梁敏君,倪志伟,倪丽萍,杨葛钟啸.基于网格与分形维数的聚类算法[J].计算机应用,2009,29(3):830-832. 被引量：4
7李玉鑑.自适应K-均值聚类算法[J].计算机研究与发展,2007,44(z2):100-104. 被引量：5
8宋启祥,张明玉,张锏.基于核聚类的MRI和PET医学图像分割方法[J].宿州学院学报,2005,20(1):88-90. 被引量：1
9张海龙,王仁彪,聂俊,刘进忠.海量数据的网格启发信息密度聚类算法[J].吉林大学学报（工学版）,2011,41(S2):254-258. 被引量：2
10吴小涛,赵锋.基于遗传算法和梯度下降法的聚类新算法[J].科协论坛（下半月）,2009(4):61-62.

同被引文献86

1刘丽萍,王智,孙优贤.无线传感器网络部署及其覆盖问题研究[J].电子与信息学报,2006,28(9):1752-1757. 被引量：58
2徐雪松,刘凤玉.一种基于距离的再聚类的离群数据发现算法[J].计算机应用,2006,26(10):2398-2400. 被引量：4
3宋余庆,谢从华,朱玉全,李存华,陈健美,王立军.基于近似密度函数的医学图像聚类分析研究[J].计算机研究与发展,2006,43(11):1947-1952. 被引量：16
4徐雪松,张谓,宋东明,张宏,刘凤玉.基于核的PP主成分分析及其在离群聚类中的应用[J].计算机科学,2007,34(9):131-134. 被引量：1
5ANKERST M, BREUNING M, KRIEGEL H-P, et aL OPTICS: or- dering points to identify the clustering structure[ C]// Proceedings of 1999 ACM-SIGMOD International Conference on Management of Da- ta. New York: ACM, 1999:49-60.
6ESTER M, KRIEGEL H-P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise [C]// SIMOUDIS E, HAN J, FAYYAD U M, ed. KDD-96: Proceedings of the Second International Conference on Knowledge Discovery and Data Mining. [S.I.]: AAAI Press, 1996:226 -231.
7SANDER J , QIN XUEJIE , LU ZHIYONG , et al . Automatic extraction of clusters from hierarchical clustering representations [ C]//PAKDD 2003: Proceedings of the 7 th Pacfic-Asia Conference on Knowledge Discovery and Data Mining. Heidelberg: Springer- Verlag, 2003:75 - 87.
8KRIEGEL H-P, BRECHEISEN S, KRC)GER P, et al. Density- based data analysis mad similarity search[ C]// PETRUSHIN V A,KHAN L, ed. Multimedia Data Mining and Knowledge Discovery. Berlin: Springer, 2006:94 - 115.
9维基百科:移动平均[EB/OL].[2012-08-29].blip://zh.wikipedia.org/zh/%E7%A7%BB%E5%8B%95%E5%B9%B3%E5%9D%87.
10Signal smoothing 'algorithms[ EB/OL]. [ 2012- 07- 28]. http:// www. chem. uoa. gr/applets/appletsmooth/appl_smooth2, html.

引证文献8

1党秋月,陆月明.基于OPTICS可达图的自动识别簇方法[J].计算机应用,2012,32(A02):19-21. 被引量：7
2王霞,陈洁.基于机器学习的矿井三维空间无线传感器网络节点感知算法研究[J].科学技术与工程,2013,21(24):7244-7250. 被引量：1
3范敏,李泽明,石欣.一种基于区域中心点的聚类算法[J].计算机工程与科学,2014,36(9):1817-1822. 被引量：5
4陈晋音,何辉豪.基于密度和混合距离度量方法的混合属性数据聚类研究[J].控制理论与应用,2015,32(8):993-1002. 被引量：11
5李志伟.谱聚类算法学术论文研究与探讨[J].数字技术与应用,2016,34(7):124-124. 被引量：1
6夏火松,龙瑾,李芳,贺婷婷.基于高频关键词的离群点监测与异类知识研究——从文献分析视角[J].情报杂志,2017,36(5):181-186. 被引量：3
7陆高雕,刘敏.土石围堰表面变形监测数据自动聚类分析[J].北京测绘,2017,31(4):58-60. 被引量：1
8张继孔,刘艳.基于数据挖掘中聚类算法研究与应用[J].网络安全技术与应用,2023(12):39-41. 被引量：3

二级引证文献32

1李晓庆,唐昊,司加胜,苗刚中.面向混合属性数据集的改进半监督FCM聚类方法[J].自动化学报,2018,44(12):2259-2268. 被引量：8
2杨隆浩,傅仰耿,吴英杰.面向最佳决策结构的置信规则库结构学习方法[J].计算机科学与探索,2014,8(10):1216-1230. 被引量：4
3李霖,杨蕾.公众参与的兴趣点数据有效性效验方法[J].测绘科学,2015,40(7):98-103. 被引量：16
4吴彦博.谱聚类广义模型和典型算法探析[J].通讯世界,2016,22(12):296-296.
5张宇献,彭辉灯,王建辉.基于异构值差度量的SOM混合属性数据聚类算法[J].仪器仪表学报,2016,37(11):2555-2562. 被引量：5
6邓峰.多跳网络中分类属性数据模糊聚类仿真[J].计算机仿真,2017,34(1):292-295. 被引量：12
7魏姁妲,逄焕利.基于区域中心点的多层次数据集密度聚类算法[J].长春工业大学学报,2016,37(6):576-580. 被引量：1
8夏火松,龙瑾,李芳,贺婷婷.基于高频关键词的离群点监测与异类知识研究——从文献分析视角[J].情报杂志,2017,36(5):181-186. 被引量：3
9邹国锋,傅桂霞,高明亮,尹丽菊,王科俊.融合类别和结构信息的多尺度协同耦合度量学习方法[J].模式识别与人工智能,2017,30(6):499-508. 被引量：1
10段建民,王昶人,任璐,刘丹.基于多层激光雷达的可行驶区域信息提取算法[J].电子技术应用,2017,43(10):78-82. 被引量：9

1李伟雄,谭建豪,王贵山.基于区域比例的聚类方法[J].计算机工程与应用,2011,47(8):143-145. 被引量：2
2郭俊,桂卫华.基于网格聚类LS-SVM的铝电解生产过程极距软测量[J].控制与决策,2012,27(8):1261-1264. 被引量：5
3阳树洪,李春贵,夏冬雪.基于灰色神经网络的入侵检测系统研究[J].计算机工程与设计,2007,28(19):4622-4624. 被引量：5
4卢志茂,刘明华,刘晨.基于特征帧构建的运动目标检测方法[J].红外与激光工程,2012,41(7):1959-1963. 被引量：2
5严胡勇,傅剑宇,董建华,颜卓,李鸿,李广砥.基于IPSO-GNN的油田指标预测模型研究[J].科学技术与工程,2014,22(15):197-202. 被引量：2
6刘道建,陈亚波,毛丽萍.多维点集的特征正交投影分类模型[J].计算技术与自动化,2007,26(3):44-47.
7单世民,邓贵仕,何英昊.基于密度的微粒群优化混合聚类算法[J].计算机工程,2007,33(8):170-172. 被引量：1
8余小高,余小鹏.基于距离和密度的无监督聚类算法的研究[J].计算机应用与软件,2010,27(7):122-125. 被引量：5
9金永贤,钱雯雯,温兴辉.嵌入式实时系统的可生存性建模[J].微型机与应用,2014,33(2):63-65.
10美国开发出体积最小晶体管和密度最大的存储技术[J].稀土信息,2009,15(4):22-22.

控制理论与应用

2011年第12期

浏览历史

内容加载中请稍等...

密度分布函数在聚类算法中的应应用用被引量：8

参考文献17

二级参考文献76

共引文献599

同被引文献86

引证文献8

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

密度分布函数在聚类算法中的应应用用 被引量：8

参考文献17

二级参考文献76

共引文献599

同被引文献86

引证文献8

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

密度分布函数在聚类算法中的应应用用被引量：8