基于相似度均值的分类数据层次聚类分析算法被引量：11

A Hierarchical Clustering Analysis Algorithm of Categorical Data Based on Mean of Similarity

下载PDF

导出

摘要层次聚类分析在数据挖掘与机器学习等领域是一种广泛使用的无监督学习技术,但是,由于层次聚类分析算法主要是依赖于人为设定的相似度阈值来实现聚类簇的合并或分裂,因此在没有任何先验知识时,难以设定相似度阈值。采用相似度均值以及边界数据对象分配策略,提出了一种基于相似度均值的分类数据层次聚类分析算法。该算法利用相似度均值刻画数据集中数据对象分布的集中趋势以及平稳相似性度量,作为层次聚类簇合并或分裂的重要依据,给出了一种相似度均值的计算公式,从而可以自动确定相似度阈值,解决了层次聚类分析中相似度阈值参数的人为设定问题;利用相似度均值,给出了一种边界数据对象的分配策略,有效提高了边界数据对象分配的准确性及聚类质量。在UCI与人工合成数据集上的实验验证了该算法具有良好的聚类性能和抗噪性,以及相似度均值的稳定性和有效性。 Hierarchical clustering analysis is a widely used unsupervised learning technology in the fields of data mining and machine learning.However,it is difficult to set the similarity threshold without any prior knowledge,since the hierarchical clustering analysis algorithm mainly relies on the similarity thresholds by artificial setting to realize the merging or splitting of clusters.Based on the mean of similarity and boundary data object allocation strategy,a hierarchical clustering analysis algorithm of categorical data using the mean of similarity is proposed.As an important basis for the merging or splitting of clusters in hierarchical clustering,the algorithm uses the steady similarity measure and the mean of similarity can capture the central tendency of the distribution of data objects in the data sets.A calculation formula of the mean of similarity is given,which can automatically determine the similarity threshold and solve the artificial setting of the similarity threshold parameters in the hierarchical clustering analysis.A boundary data object allocation strategy is presented by using the mean of similarity,which can effectively improve the accuracy of boundary data objects allocation and clustering quality.Experimental results validate the excellent clustering performance and anti-noise,as well as the stability and effectiveness of the algorithm’s mean of similarity on UCI and artificial data sets.

作者褚轲欣荀亚玲 CHU Ke-xin;XUN Ya-ling(School of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024,China)

机构地区太原科技大学计算机科学与技术学院

出处《计算机技术与发展》 2022年第11期154-163,共10页 Computer Technology and Development

基金国家自然科学基金项目(61602335) 山西省自然科学基金(201901D211302)。

关键词层次聚类分类数据相似度均值平稳相似性度量分配策略 hierarchical clustering categorical data mean of similarity steady similarity measure allocation strategy

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1冯浩哲,张鹏,徐欣楠,郝鹏翼,吴福理,吴健,陈为.面向3D CT影像处理的无监督推荐标注算法[J].计算机辅助设计与图形学学报,2019,31(2):183-189. 被引量：4
2张建朋,裴雨龙,刘聪,李邵梅,陈鸿昶.基于因子图模型的动态图半监督聚类算法[J].自动化学报,2020,46(4):670-680. 被引量：8
3聂瑶瑶,胡立华,张继福,张素兰.基于网格多密度的古建筑图像特征匹配方法[J].计算机辅助设计与图形学学报,2020,32(3):437-444. 被引量：9
4周晨曦,梁循,齐金山.基于约束动态更新的半监督层次聚类算法[J].自动化学报,2015,41(7):1253-1263. 被引量：20
5刘旭,易东云.基于局部相似性的复杂网络社区发现方法[J].自动化学报,2011,37(12):1520-1529. 被引量：40
6邱保志,张瑞霖,李向丽.基于残差分析的混合属性数据聚类算法[J].自动化学报,2020,46(7):1420-1432. 被引量：12
7庞宁,张继福,秦啸.一种基于多属性权重的分类数据子空间聚类算法[J].自动化学报,2018,44(3):517-532. 被引量：19

二级参考文献70

1Adamic L A, Glance N. The political blogosphere and the 2004 US election: divided they blog. In: Proceedings of the 3rd International Workshop on the Weblogging Ecosystem, New York, USA: ACM, 2005. 36-43.
2Jeong H, Mason S, Barabasi A L, Oltvai Z N. Lethality and centrality in protein networks. Nature, 2001, 411(6833): 41-42.
3Ahn Y Y, Bagrow J P, Lehmann S. Link communities reveal multiscale complexity in networks. Nature, 2011, 466(7307): 761-764.
4Gregory S. Fuzzy overlapping communities in networks. Journal of Statistical Mechanics: Theory and Experiment, 2011, 2:P02017.
5Newman M E J. The structure and function of complex networks. SIAM Review, 2003, 45(2): 167-256.
6Scheffer M. Complex systems: foreseeing tipping points. Nature, 2010, 467(7314): 411-412.
7Newman M E J. Networks: an Introduction. New York: Oxford University Press. 2010.
8Newman M E J. Scientific collaboration networks: I. network construction and fundamental results. Physical Review E, 2001, 64(1): 016131.
9Zeng J, Cheung W K, Li C H, Liu J M. Coauthor network topic models with application to expert finding. In: Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. Toronto, Canada: IEEE, 2010. 366-373.
10Guimera R, Danon L, Dfaz-Guilera A, Giralt F, Arenas A. Self-similar community structure in a network of human interactions. Physical Review E, 2003, 68(6): 065103.

共引文献103

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：13
2张建宁.基于改进动态图算法的软件保护技术[J].科技通报,2021,37(8):56-60. 被引量：1
3夏黎明.脑脓肿9例CT误诊原因分析[J].中国基层医药,2000,7(1):65-65.
4刘分,汤红波,葛国栋,杨森.基于移动网络位置信息的群体发现方法[J].计算机应用研究,2013,30(5):1471-1474. 被引量：3
5李本先,李孟军,方锦清,仰琎歆.恐怖组织网络的时空演化规律[J].自动化学报,2013,39(6):770-779. 被引量：8
6张新猛,蒋盛益.基于核心图增量聚类的复杂网络划分算法[J].自动化学报,2013,39(7):1117-1125. 被引量：9
7刘分,葛国栋,赵宇,刘冰洋.移动通信网络位置群体关联用户挖掘[J].计算机应用,2013,33(8):2100-2103. 被引量：3
8龚尚福,陈婉璐,贾澎涛.层次聚类社区发现算法的研究[J].计算机应用研究,2013,30(11):3216-3220. 被引量：21
9翁伟,朱顺痣,吴芸.结合局部相似性的模块密度法探测网络社区[J].福建师范大学学报（自然科学版）,2013,29(6):37-43.
10牛冬冬,陈鸿昶,金鑫,刘力雄.基于核心节点的复杂网络社区划分算法[J].计算机工程与设计,2013,34(12):4089-4093. 被引量：2

同被引文献119

1陈杨,李鑫,周婧瑜,杨庆伟,李洪源.连翘抗病毒有效部位(LC-4)体外抗呼吸道合胞病毒作用的研究[J].卫生研究,2009,38(6):733-735. 被引量：26
2曹洪欣.病毒性心肌炎的中医药治疗[J].中国中医药现代远程教育,2005,3(7):12-15. 被引量：37
3陈佐,谢赤,陈晖.基于小波聚类方法的股票收益率序列时间模式挖掘[J].系统工程,2005,23(11):102-107. 被引量：5
4岳佳,王士同.高斯混合模型聚类中EM算法及初始化的研究[J].微计算机信息,2006,22(11X):244-246. 被引量：51
5蔡小波,许大欣,戴全发.重力异常匹配导航的算法实现与仿真分析[J].大地测量与地球动力学,2007,27(3):60-63. 被引量：9
6张敏,袁辉.拉依达(PauTa)准则与异常值剔除[J].郑州工业大学学报,1997,18(1):84-88. 被引量：138
7戴全发,许大欣,蔡小波,王勇.重力异常匹配辅助导航解算模型的优化[J].大地测量与地球动力学,2007,27(4):31-34. 被引量：11
8林丽美,王智民,王金华,崔海峰,王维皓,夏伯候,张小光,宗桂珍,李建荣.金银花、连翘及银翘药对水煎剂的抗炎、解热作用研究[J].中国中药杂志,2008,33(4):473-475. 被引量：60
9刘蕊洁,张金波,刘锐.模糊c均值聚类算法[J].重庆工学院学报（自然科学版）,2008,22(2):139-141. 被引量：36
10李荣,丁建明,何初生.盖梁钢筋构造图自动绘图程序开发及应用[J].公路交通科技（应用技术版）,2007,3(3):141-145. 被引量：1

引证文献11

1牛越,温志浩.基于数据挖掘探讨中医药治疗病毒性心肌炎用药规律[J].中国中医药图书情报杂志,2023,47(3):58-63. 被引量：1
2牛晓宇,续延.基于节点相似性的复杂网络聚类特征层次布局算法[J].石河子科技,2023(3):67-69.
3李扬.基于遗传算法的复杂产品优化设计[J].自动化与仪器仪表,2023(7):91-95. 被引量：1
4张大兴,黄泽荣,尹星光,李贤靓,蔡冰子,刘嘉琳.基于电弧模型及相关性算法的电缆早期故障检测研究[J].现代电子技术,2023,46(18):97-103.
5孙永芝.基于RFID技术的图书馆图书自动分拣方法[J].信息与电脑,2023,35(11):77-79.
6王博琼.基于区块链技术的多源异构数据聚类分析方法[J].信息与电脑,2023,35(11):80-82. 被引量：2
7黄承宁,李莉,姜丽莉,徐平平.基于交互基函数的数据流聚类算法研究[J].计算机技术与发展,2024,34(3):28-34.
8谷俐娴.基于SVM的多维相似大数据分类系统设计[J].信息与电脑,2024,36(2):100-102.
9皮紫超,乔鹏燕,蒋敦洪,丁桂艳.基于K-means的BP神经网络模型的海域重力适配区研究[J].电脑迷,2023(7):22-24.
10郭凯生,李平毫.基于模板库动态适配的混凝土盖梁快速设计方法[J].山西建筑,2024,50(12):156-159.

二级引证文献4

1周璐,刘明怀.基于网络药理学探讨金银花治疗2019-nCoV感染合并心肌炎的作用机制[J].湖南中医杂志,2024,40(3):160-167. 被引量：1
2韩俊华,王奇,叶淑晴.基于GIS的排水井盖安全监控预警系统设计[J].智能城市,2024,10(4):65-67.
3张文建,余承昊.基于遗传算法的圆锥量规中轴线提取方法[J].上海计量测试,2024,51(2):43-45.
4陈聪,麦松彦,王露,张磊.异构平台数据交换的邮轮运营管理系统研发[J].江苏船舶,2024,41(4):8-10.

1门丽影,张涛,武舒佳,马百平,董悦生,常蕾,张瑶,徐平.定量蛋白质组学研究揭示知母可缓解2型糖尿病模型大鼠肝脏代谢异常[J].生物工程学报,2022,38(10):3888-3900. 被引量：2

计算机技术与发展

2022年第11期

浏览历史

内容加载中请稍等...

基于相似度均值的分类数据层次聚类分析算法被引量：11

参考文献7

二级参考文献70

共引文献103

同被引文献119

引证文献11

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于相似度均值的分类数据层次聚类分析算法 被引量：11

参考文献7

二级参考文献70

共引文献103

同被引文献119

引证文献11

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于相似度均值的分类数据层次聚类分析算法被引量：11