基于密度峰值的混合型数据聚类算法设计被引量：6

Design of mixed data clustering algorithm based on density peak

下载PDF

导出

摘要针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后利用CFSFDP算法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值(截断距离)及权值的选取问题:对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在三个实际混合型数据集上的测试发现:与传统k-prototypes算法相比,寻找密度峰值的聚类算法能有效提高聚类的精度。 Focusing on the issue that k-prototypes algorithm is incapable of identifying automatically the number of clusters and discovering clusters with arbitrary shape, a mixed data clustering algorithm based on searching for density peaks was proposed. Firstly, CFSFDP( Clustering by fast Search and Find of Density Peaks) clustering algorithm was extended to mixed datasets in which the distances between mixed data objects were calculated to determine the cluster centers by using CFSFDP algorithm, that is, the number of clusters was determined automatically. The rest points were then assigned to the cluster in order of their density from large to small. Secondly, the selection method of threshold and weight in the proposed algorithm was introduced. In the density formula, the threshold( cutoff distance) was extracted automatically by calculating potential entropy of data field; in the distance formula, the weight was defined through certain statistic which can measure clustering tendency of numeric datasets and categorical datasets. Finally, experimental results on three real mixed datasets show that compared with k-prototypes algorithm, the proposed algorithm can effectively improve the accuracy of clustering.

作者李晔陈奕延张淑芬

机构地区中国市场学会服务质量专业委员会河北省数据科学与应用重点实验室(华北理工大学)

出处《计算机应用》 CSCD 北大核心 2018年第2期483-490,496,共9页 journal of Computer Applications

基金河北省数据科学与应用重点实验室开放课题资助项目(20170320002).

关键词聚类分析混合型数据数据场聚类趋势密度峰值 cluster analysis mixed data data field clustering trendency density peak

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi.Clustering by Fast Search and Find of Density Peaks with Data Field[J].Chinese Journal of Electronics,2016,25(3):397-402. 被引量：62
2赵兴旺,梁吉业.一种基于信息熵的混合数据属性加权聚类算法[J].计算机研究与发展,2016,53(5):1018-1028. 被引量：43
3马春来,单洪,马涛.一种基于簇中心点自动选择策略的密度峰值聚类算法[J].计算机科学,2016,43(7):255-258. 被引量：47
4詹春霞,王荣波,黄孝喜,谌志群.基于改进CFSFDP算法的文本聚类方法及其应用[J].数据分析与知识发现,2017,1(4):94-99. 被引量：2
5蒋礼青,张明新,郑金龙,戴娇,尚赵伟.快速搜索与发现密度峰值聚类算法的优化研究[J].计算机应用研究,2016,33(11):3251-3254. 被引量：33
6陈宁,陈安,周龙骧.数值型和分类型混合数据的模糊K-Prototypes聚类算法(英文)[J].软件学报,2001,12(8):1107-1119. 被引量：47
7王宇,杨莉.模糊k-prototypes聚类算法的一种改进算法[J].大连理工大学学报,2003,43(6):849-852. 被引量：11
8孙浩军,高玉龙,闪光辉,袁婷.基于熵权法的混合属性聚类算法[J].汕头大学学报（自然科学版）,2013,28(4):58-65. 被引量：5

二级参考文献66

1陈孝新.熵权法在股票市场的应用[J].商业研究,2004(16):139-140. 被引量：9
2汪加才,朱艺华.模糊K-Prototypes算法中的加权指数研究[J].计算机应用,2005,25(2):348-351. 被引量：4
3HUANG Zhe-xue. Extensions to the k-means algorithm for clustering large data sets with categorical values [J]. Data Mining and Knowl Discovery, 1998, 2(1) :283-304.
4HUANG Zhe-xue. Clustering large data sets with mixed numeric and categorical values [A].Proceedings of the Fisrt Pacific-Asia Conference on Knowledge Discovery and Data Mining [C].Singapore: World Scientific, 1997. 21-34.
5HANJia—wei KAMBERM.Data Mining Concepts and Techniques[M].北京:高等教育出版社,2001..
6Huang Zhexue，IEEE Transactions Fuzzy Systems，1999年，7卷，4期，446页
7Huang Zhexue，Data Mining and Knowledge Discovery，1998年，2卷，283页
8Huang Zhexue，Proc the 1st Pacific Asia Conference on Knowledge Discovery and Data Mining，1997年，21页
9Han J Kamber M 范明孟小峰译.Data Mining Concepts and Techniques[M].北京:机械工业出版社,2001-08..
10BersonA SmithT Thur1ingK.构建面向CRM的数据挖掘应用[M].北京：人民邮电出版社,2001..

共引文献223

1孙伟鹏,吴锡生,孟斌.基于Spark并行的密度峰值聚类算法[J].计算机应用研究,2020,37(1):163-166. 被引量：2
2陆小莉,刘强,徐生霞.中国产业转型升级的空间分异与影响机制研究[J].经济问题探索,2021(2):135-144. 被引量：5
3汪加才,朱艺华.模糊K-Prototypes算法中的加权指数研究[J].计算机应用,2005,25(2):348-351. 被引量：4
4汪加才,文巨峰,陈奇,俞瑞钊.结构化模糊K-prototypes聚类算法[J].计算机科学,2005,32(5):155-158. 被引量：2
5张海燕,丁峰,姜丽红.基于模糊聚类的协同过滤推荐方法[J].计算机仿真,2005,22(8):144-147. 被引量：25
6王宇,杨莉.基于凝聚函数的混合属性数据聚类算法[J].大连理工大学学报,2006,46(3):446-448. 被引量：2
7赵宇,李兵,李秀,刘文煌,任守榘.混合属性数据聚类融合算法[J].清华大学学报（自然科学版）,2006,46(10):1673-1676. 被引量：9
8杨鑫华,于宽.基于密度半径自适应选择的K-均值聚类算法[J].大连交通大学学报,2007,28(1):41-44. 被引量：2
9靳忠伟,陈康民,闫伟,王桂华.一种短期电力负荷预测新方法的研究与应用[J].系统仿真学报,2007,19(20):4790-4793. 被引量：4
10陈利风,蒋充剑,程健庆.多平台数据链模拟器及其在通信试验中的应用[J].计算机仿真,2007,24(10):269-271.

同被引文献64

1褚娜,马利庄,王彦.聚类趋势问题的研究综述[J].计算机应用研究,2009,26(3):801-803. 被引量：6
2吴娇蓉,毕艳祥,傅博峰.基于郊区轨道交通站点分类的客流特征和换乘系统优先级分析[J].城市轨道交通研究,2007,10(11):23-28. 被引量：21
3高新波,裴继红,谢维信.基于统计检验指导的聚类分析方法[J].电子科学学刊,2000,22(1):6-12. 被引量：2
4龙瀛,张宇,崔承印.利用公交刷卡数据分析北京职住关系和通勤出行[J].地理学报,2012,67(10):1339-1352. 被引量：312
5孙谦,姚建刚,李欣然,孔强,胡锦泓,康童,徐振超.基于聚类趋势分析与逐步回归的电铁牵引负载负序源模型研究[J].中国电机工程学报,2012,32(34):120-128. 被引量：7
6马儒宁,王秀丽,丁军娣.多层核心集凝聚算法[J].软件学报,2013,24(3):490-506. 被引量：20
7胡娟,胡忆东,朱丽霞.基于“职住平衡”理念的武汉市空间发展探索[J].城市规划,2013,37(8):25-32. 被引量：34
8赖家文,彭显刚,王洪森,陈奕.霍普金斯统计在短期负荷预测中的应用探讨[J].广东电力,2013,26(8):89-93. 被引量：2
9段德罡,张凡.土地利用优化视角下的城市轨道站点分类研究——以西安地铁2号线为例[J].城市规划,2013,37(9):39-45. 被引量：74
10余丽洁,李岩,陈宽民.基于谱聚类的城市轨道站点分类方法[J].交通信息与安全,2014,32(1):122-125. 被引量：22

引证文献6

1陈奕延,李晔,李存金.一种基于密度峰值的针对模糊混合数据的聚类算法[J].计算机工程与科学,2020,42(2):317-324. 被引量：6
2陆春光,叶方彬,赵羚,姜驰,董伟.基于密度峰值聚类的电力大数据异常值检测算法[J].科学技术与工程,2020,20(2):654-658. 被引量：63
3樊仲欣.基于数据流的聚类趋势分析算法[J].计算机应用,2020,40(8):2248-2254. 被引量：6
4何云斌,董恒,万静.移动型数据与静态型数据的混合聚类算法[J].哈尔滨理工大学学报,2021,26(2):26-34. 被引量：2
5崔叙,喻冰洁,梁朋朋,王琳,张凌菲.基于“客流-用地”的城市轨道交通站点类型识别与空间再平衡研究——以成都市为例[J].现代城市研究,2021,36(7):68-79. 被引量：11
6张华,杨磊.基于密度梯度的滑动窗口数据流任意形状聚类[J].计算机仿真,2022,39(4):316-320. 被引量：1

二级引证文献89

1夏飞,张洁,张浩,陆剑峰.基于BIC准则和加权皮尔逊距离的居民负荷模式精细识别及预测[J].电子测量与仪器学报,2020,32(11):33-42. 被引量：16
2段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
3胡晶.基于MapReduce改进密度峰值大数据搜索研究[J].电子制作,2020,28(21):93-95.
4李志强,袁翔,陈佳.基于递阶融合模糊的电力数据特征映射研究[J].信息技术,2020,44(11):159-163. 被引量：6
5王方雨,刘文颖,陈鑫鑫,王维洲,行舟.基于惩罚变权的RDA同期线损数据质量评估模型[J].中国电力,2020,53(12):223-231. 被引量：7
6黄锦增,乡立,段炼.用于电力数据管理分析的负荷预测与异常检测[J].信息技术,2021,45(1):115-120. 被引量：11
7何高清,肖健.轴承尺寸检测数据的异常值检测与数据处理研究[J].机电工程,2021,38(2):198-203. 被引量：14
8郭飞,王波,王亮,史渊源,胡建军,马国武.基于海量运行数据挖掘的电网拓扑关系分析及应用[J].电力大数据,2021,24(2):85-92. 被引量：7
9高建民.基于密度峰值聚类的火电机组设备状态检修技术改进[J].电力设备管理,2021(4):73-75. 被引量：2
10李慧芳,钟新成,付晓丽.基于密度峰值聚类的大学生异常行为检测研究[J].电脑与电信,2021(3):26-29. 被引量：1

1颜鸿飞,彭争光,李蓉娟,陈练,王美玲,付善良,戴华,张帆.GC—TOF MS结合化学计量学用于安化黑茶的识别[J].食品与机械,2017,33(8):34-37. 被引量：16
2蔡耀伟.对R=U/I学生为什么老是出错?[J].物理教师,1988,21(2):11-12.
3程铃钫,杨天鹏,陈黎飞.不平衡数据的软子空间聚类算法[J].计算机应用,2017,37(10):2952-2957. 被引量：4
4陈静雯,马福民,张腾飞,曾永钢.基于最大粒的悲观邻域多粒度粗糙集规则获取算法[J].模式识别与人工智能,2017,30(11):1048-1056. 被引量：7
5吴振新,付鸿鹄,王玉菊,孔贝贝,陈子俊.长期保存系统数据存储管理策略研究与应用[J].图书馆杂志,2017,36(9):75-81. 被引量：4
6仇上正,张曦煌.一种改进的基于核密度估计的DPC算法[J].计算机应用与软件,2017,34(12):278-282. 被引量：2
7陈家萱,张根广,周双.均匀泥沙纵向相对暴露度的试验研究[J].人民黄河,2017,39(10):8-11. 被引量：4
8杨杰,尹振宇,黄宏伟,金银富,张冬梅.面向边界面模型的切面算法扩展[J].岩土力学,2017,38(12):3436-3444. 被引量：4
9Yin Zhong,Lan Zhang,Can Shao,Hong-Gang Luo.Superfluid response in heavy fermion superconductors[J].Frontiers of physics,2017,12(5):35-50.
10刘盛兰,郭强,杨新静,孙雪,赵大国,徐俊,陈卫昌.急性胰腺炎患者尿液代谢组学分析[J].中华胰腺病杂志,2017,17(6):380-385.

计算机应用

2018年第2期

浏览历史

内容加载中请稍等...

基于密度峰值的混合型数据聚类算法设计被引量：6

参考文献8

二级参考文献66

共引文献223

同被引文献64

引证文献6

二级引证文献89

相关作者

相关机构

相关主题

浏览历史

基于密度峰值的混合型数据聚类算法设计 被引量：6

参考文献8

二级参考文献66

共引文献223

同被引文献64

引证文献6

二级引证文献89

相关作者

相关机构

相关主题

浏览历史

基于密度峰值的混合型数据聚类算法设计被引量：6