基于熵的混合属性聚类算法被引量：3

Entropy-based clustering algorithm for mixed attribute

下载PDF

导出

摘要为解决混合属性中数值属性与分类属性相似性度量的差异造成的聚类效果不佳问题,分析混合属性聚类相似性度量的问题,提出基于熵的混合属性聚类算法。引入熵离散化技术将数值属性离散化,仅使用二元化距离度量混合属性对象之间的相似性,在聚类过程中随机选取k个初始簇中心,将其它对象按照距离k个簇中心的最小距离划分到相应的簇中,选择每个簇中每个数据属性中频率最高的属性值形成新的簇中心继续划分对象,迭代此步当满足目标条件时停止,形成最终聚类。在UCI数据集上的实验结果验证了该算法的有效性。 To solve the problem of poor clustering effects caused by the difference between the similarity measures of numerical attribute and categorical attribute in mixed attribute,the problem of similarity measures of mixed attribute clusters was analyzed,and entropy-based clustering algorithm for mixed data was proposed.Entropy discretization technology was introduced to discretize numerical attributes and only binary distances were used to measure the similarity between mixed attribute objects.During the clustering process,k initial cluster centers were randomly selected,and other objects were divided into corresponding clusters according to the minimum distance from the k cluster centers.The most frequent attribute value of each data attribute in each cluster was selected to form a new cluster center and continue to divide objects.Iterating this step stopped when the target conditions were met to form the final cluster.Experimental results on the UCI dataset verify the effectiveness of the algorithm.

作者邱保志王志林 QIU Bao-zhi;WANG Zhi-lin(School of Information Engineering,Zhengzhou University,Zhengzhou 450001,China)

机构地区郑州大学信息工程学院

出处《计算机工程与设计》北大核心 2021年第4期957-962,共6页 Computer Engineering and Design

基金国家自然科学基金项目(61602154)。

关键词聚类混合属性熵离散化仅 clustering mixed attribute entropy discretization only

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1陈晋音,何辉豪.基于密度的聚类中心自动确定的混合属性数据聚类算法研究[J].自动化学报,2015,41(10):1798-1813. 被引量：39
2赵兴旺,梁吉业.一种基于信息熵的混合数据属性加权聚类算法[J].计算机研究与发展,2016,53(5):1018-1028. 被引量：43
3王洋,张桂珠.自动确定聚类中心的密度峰值算法[J].计算机工程与应用,2018,54(8):137-142. 被引量：37
4王志华,刘绍廷,罗齐.基于改进K-modes聚类的KNN分类算法[J].计算机工程与设计,2019,40(8):2228-2234. 被引量：23
5邱保志,张瑞霖,李向丽.基于残差分析的混合属性数据聚类算法[J].自动化学报,2020,46(7):1420-1432. 被引量：12
6李顺勇,张苗苗,曹付元.基于分类型矩阵对象数据的MD fuzzy k-modes聚类算法[J].计算机研究与发展,2019,56(6):1325-1337. 被引量：10
7安计勇,韩海英,侯效礼.一种改进的DBscan聚类算法[J].微电子学与计算机,2015,32(7):68-71. 被引量：13

二级参考文献69

1李杰,贾瑞玉,张璐璐.一个改进的基于DBSCAN的空间聚类算法研究[J].计算机技术与发展,2007,17(1):114-116. 被引量：13
2王翠茹,朵春红.一种改进的基于密度的DBSCAN聚类算法[J].广西师范大学学报（自然科学版）,2007,25(4):104-107. 被引量：4
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1076
4Chehreghani M H, Abolhassani H, Chehreghani M H. Improving density based methods for hierarchical clus- tering of Web pagesl-J~. Data and Knowledge Engi- neering, 2008,67 (1) .. 30-50.
5黄权,陆昌辉.数据之魅:基于开源工具的数据分析[M].北京:清华大学出版社,2012:313-314.
6Huang Z X. Extensions to the K-means algorithm for clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 1998, 2(3): 283-304.
7Jain A K, Dubes R C. Algorithms for Clustering Data. New Jersey: Prentice-Hall, 1988.
8Han J, Kamber M. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann, 2001.
9Chen W F, Feng G C. Spectral clustering: a semi-supervised approach. Neurocomputing, 2012, 77(1): 229-242.
10Zhang W, Yoshida T, Tang X J, Wang Q. Text clustering using frequent itemsets. Knowledge-Based Systems, 2010, 23(5): 379-388.

共引文献168

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：13
2段仲渊,罗钧韶,李强.基于浮动车的高速公路行程时间短时预测方法研究[J].交通与运输,2022,38(S01):108-111.
3岳金柱,王德来.对易县“两山”划分和“四荒”拍卖的思考[J].河北林果研究,2000,15(1):20-23. 被引量：3
4韦锦.廓坊日记[J].岁月,2000(7):34-36.
5李晓庆,唐昊,司加胜,苗刚中.面向混合属性数据集的改进半监督FCM聚类方法[J].自动化学报,2018,44(12):2259-2268. 被引量：8
6张莉曼,张向先,卢恒,张玲.知识直播平台付费用户群体画像研究[J].图书情报工作,2019,63(5):84-91. 被引量：22
7徐正国,郑辉,贺亮,姚佳奇.基于局部密度下降搜索的自适应聚类方法[J].计算机研究与发展,2016,53(8):1719-1728. 被引量：6
8褚睿鸿,王红军,杨燕,李天瑞.基于密度峰值的聚类集成[J].自动化学报,2016,42(9):1401-1412. 被引量：15
9梁吉业,钱宇华,李德玉,胡清华.面向大数据的粒计算理论与方法研究进展[J].大数据,2016,2(4):13-23. 被引量：16
10张宇献,彭辉灯,王建辉.基于异构值差度量的SOM混合属性数据聚类算法[J].仪器仪表学报,2016,37(11):2555-2562. 被引量：5

同被引文献39

1曹鸿猷,孙文.基于马氏距离及K最近邻算法的结构优化设计[J].武汉理工大学学报,2022,44(10):60-71. 被引量：2
2赵悦,穆志纯.基于委员会投票选择方法的主动学习的研究[J].太原理工大学学报,2006,37(4):469-472. 被引量：7
3马占欣,王新社,黄维通,陆玉昌.对最小置信度门限的置疑[J].计算机科学,2007,34(6):216-218. 被引量：5
4杨宇科,李昌国.基于最小置信度和评价分析的软件质量模糊综合评价改进方案[J].计算机应用,2009,29(9):2530-2533. 被引量：4
5吴海波,吴河勇,张阳,年静波.地震波阻抗反演方法之改进与三阶段、九步骤反演方法的初步实践[J].现代地质,2009,23(5):928-932. 被引量：9
6李庆忠.论地震约束反演的策略[J].石油地球物理勘探,1998,33(4):423-428. 被引量：132
7曹源,王妍,王文强,贺小伟.基于委员会查询和自步多样性学习的医学图像分割[J].西北大学学报（自然科学版）,2020,50(2):285-294. 被引量：2
8丁绍虎,谢记超,张鹏,普黎明,谷允捷.基于风险感知的关键虚拟网络功能动态迁移方法[J].通信学报,2020,41(4):102-113. 被引量：6
9周钢,郭福亮.最大化最小margin的抽样多样性集成学习方法研究[J].计算机应用与软件,2020,37(8):300-306. 被引量：2
10Punit Kumar,Atul Gupta.Active Learning Query Strategies for Classification,Regression,and Clustering:A Survey[J].Journal of Computer Science & Technology,2020,35(4):913-945. 被引量：5

引证文献3

1张卓,张上,项天旭,李梦思.基于改进TOPSIS的动态权重负载均衡算法[J].计算机工程与设计,2023,44(11):3222-3229. 被引量：2
2彭真,许辉群.基于主动学习的地震波阻抗标注实验分析[J].地球物理学进展,2023,38(6):2565-2575.
3董华松,连远锋.基于BayesShrink阈值估计的混合属性数据聚类优化仿真[J].计算机仿真,2024,41(5):460-464.

二级引证文献2

1伍新.Linux下基于SOMEIP的分布式服务系统设计与实现[J].信息技术与信息化,2024(4):85-88.
2高先周,郭敬东,何阳,李宏发,罗富财.高并发的数据安全能力微服务架构及调度算法[J].电子技术应用,2024,50(9):18-24. 被引量：1

1文振宇,郭雯瑾,冯爱民,李龙德,文世生.基于机器学习的智牙拔除后疗效预测及分析[J].中国口腔颌面外科杂志,2021,19(2):156-162.
2汪湖泉,陈懿珂.论推荐性标准实施的法治理念[J].标准科学,2021(2):14-18. 被引量：2

计算机工程与设计

2021年第4期

浏览历史

内容加载中请稍等...

基于熵的混合属性聚类算法被引量：3

参考文献7

二级参考文献69

共引文献168

同被引文献39

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于熵的混合属性聚类算法 被引量：3

参考文献7

二级参考文献69

共引文献168

同被引文献39

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于熵的混合属性聚类算法被引量：3