基于熵的K均值算法的改进被引量：2

Improving K-means Algorithm Based on Entropy

下载PDF

导出

摘要在高维数据中,K-means的相似度度量会遇到不同尺度、不同类型的数据等一些问题。本文提出了利用数据归一化预处理方法来改进K-means算法。在讨论一维数据初始中心点选取方法基础上,提出了基于熵的高维数据的初始中心点选取方法,通过对初始中心点选取方法的改进来减少K均值算法的迭代次数。实验结果表明,数据的归一化处理可以从根本上消除了数据类型的不一致对聚类的影响。 In high dimension data, calculating similarity of k-means meets some problems, such as different scale, different types and so on. This paper proposes data standardization and initial center selected method of one dimension data in k-means algorithm, this paper proposes initial center selected method which based on entropy. It will reduce iterative degree with initial center selected method.

作者陈森平陈启买

机构地区华南师范大学计算机学院

出处《广东技术师范学院学报》 2008年第9期27-29,40,共4页 Journal of Guangdong Polytechnic Normal University

关键词均值聚类熵中心点 k-means clustering entropy center

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1孙士保,秦克云.改进的k-平均聚类算法研究[J].计算机工程,2007,33(13):200-201. 被引量：50
2袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：153
3颜宏文,马瑞,晏弼成.基于信息熵构造判定树的数据挖掘算法的设计与实现[J].计算机工程与应用,2003,39(23):180-182. 被引量：13
4(美)Pang-NingTan,(美)MichaelSteinbach,(美)VipinKumar著,范明,范宏建等.数据挖掘导论[M]人民邮电出版社,2006.

二级参考文献22

1余建桥,张帆.基于数据场改进的PAM聚类算法[J].计算机科学,2005,32(1):165-167. 被引量：15
2S M Weiss,C A Kulikowski.Computer Systems That Learning:Classification and prediction Methods from statistics ,Neural Nets ,Machine Learning,and Expert Systems[M].San Mateo,CA:Morgan Kaufmann,1991.
3S K Murthy.Automatic construction of decision trees from data:A multidisciplinary survey[J].Data Mining and Knowledge Discovery,1998; 2: 345-389.
4J Gehrke,R Ramakrishnan,V Ganti.Rainforest:A framework for fast decision tree construction of large datasets[C].In:Pvoc 1998 Int Conf Very large Data Bases,New York,1998-08:416~427.
5MacQueen J.Some Methods for Classification and Analysis of Multivariate Observations[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability,1967.
6Wang Wei,Yang Jiong,Muntz R.STING:A Statistical Information Grid Approach to Spatial Data Mining[C]//Proc.of the 23rd International Conference on Very Large Data Bases,1997.
7Agrawal R,Gehrke J,Gunopulcs D.Automatic Subspace Clustering of High Dimensional Data for Data Mining Application[C]//Proc.of ACM SIGMOD Intconfon Management on Data,Seattle,WA,1998:94-205.
8Guha S,Rastogi R,Shim K.Cure:An Efficient Clustering Algorithm for Large Database[C]//Proc.of ACM-SIGMOND Int.Conf.Management on Data,Seattle,Washington,1998:73-84.
9Han Jiawei,Kamber M.Data Mining:Concepts and Techniques[M].San Francisco:Morgan Kaufmann Publishers,2000.
10Grabmeier J,Rudolph A.Techniques of Cluster Algorithms in Data Mining[J].Data Mining and Knowledge Discovery,2002,6(4):303.

共引文献210

1赵春丽,王延博,万润之,孙丽平.基于R语言探析中医药治疗哮喘发作期的用药规律[J].世界科学技术-中医药现代化,2023,25(3):1011-1019. 被引量：4
2段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
3颜宏文,马瑞,龙际珍,颜宏斌.数据挖掘中判定树算法SLIQ的设计与应用[J].计算机工程,2005,31(6):60-62. 被引量：7
4李楠,孙济庆.支持语义检索的知识检索模型[J].情报学报,2005,24(6):708-712. 被引量：12
5万源.一个基于SLIQ算法的模型及应用[J].信息技术,2005,29(12):60-62. 被引量：5
6李卫平.K-Means聚类算法研究[J].中国西部科技,2008,7(8):52-53. 被引量：11
7周丹,沈利迪.C4.5决策树构造算法应用研究[J].中国高新技术企业,2008(4):113-114. 被引量：3
8鲁婧婧,张晋昕,袁向东,骆福添,古萍,张熙,薛允莲.欧氏距离的加权处理对K-means法聚类效果的改进[J].中国医院统计,2008,15(1):9-12. 被引量：1
9高燕飞,陈俊杰,强彦.自适应数据库中基于特征向量的聚类算法的研究与改进[J].电脑开发与应用,2008,21(7):57-58.
10李江,孙立军.一种基于自由流车速的交通数据检验方法[J].交通运输系统工程与信息,2008,8(4):30-35. 被引量：4

同被引文献17

1张海涛,刘超英,田水.权重确定的主客观综合法[J].江汉大学学报（自然科学版）,2004,32(4):63-65. 被引量：26
2范斐斐,李振波,陈佳品.基于K均值分段的语音识别在微机器人控制系统中的应用[J].电子技术应用,2006,32(5):4-6. 被引量：2
3Steinley D.K-means clustering:A half-century synthesis[J].British Journal of Mathematical and Statistical Psychology,2006,5(9):1-34.
4Tsai C Y,Chiu C C.Developing a feature weight self-adjustment mechanism for a K-means clustering algorithm[J].Computational Statistics and Data Analysis,2008,52(10):4658-4672.
5Morariu D,Vintan L,Ttesp V.Evolutionary feature selection for text documents using the SVM[C]//Proceedings of the 3rd International Conference on Neural Networks and Pattern Recognition.Barcelona,2006.
6Rand W M.Objective criteria for the evaluation of clustering methods[J].Journal of the American Statistical Association,1971,66(336):846-850.
7Hubert L,Arable P.Comparing partitions[J].Journal of Classification,1985,2(1):193-218.
8Blaek C L,Mezr C J.UCI Repository of Machine Learning Databases[EB/OL].http://www.ics.uci.edu/~mlearn/MLRepository.html,2009-09-11.
9林永民,朱卫东.基尼指数在文本特征选择中的应用研究[J].计算机应用,2007,27(10):2584-2586. 被引量：5
10Macqueen J.Some Methods for Classification and Analy sis of Multi Variate Observations[C]//Proc.of,Berkeley Sympo sium on Mathematical Statistics and Probability,1967.

引证文献2

1上官廷华,冯荣耀,柳宏川.一种基于熵和均方差法综合赋权的K-means算法[J].计算机与现代化,2010(4):34-36. 被引量：9
2郭靖.对K-means聚类算法欧氏距离加权系数的研究[J].网络安全技术与应用,2016(10):74-75. 被引量：12

二级引证文献21

1陈奇宇.区域物流能力及其测度评价研究[J].山西财政税务专科学校学报,2013,15(4):59-67.
2郑录军,魏汝浩,王栋,田家玺.基于G1法和熵值法的人民银行IT应急能力评估模型及实证研究[J].信息网络安全,2015(11):84-89. 被引量：5
3丁晓琴,张德生.基于AHP和CRITIC综合赋权的K-means算法[J].计算机系统应用,2016,25(7):182-186. 被引量：16
4张睿,刘涛.缓倾斜厚矿体采矿方法优选及实践[J].有色金属（矿山部分）,2016,68(6):8-11. 被引量：7
5陈美招,黄婷,郑荣宝,李爽,唐晓莲.广州市旧村可改造潜力评价方法及应用[J].人力资源管理,2017(10):317-320.
6吉书瑶,吕红芳.无线传感器节点多特征组合加权K-means聚类算法[J].上海电机学院学报,2017,20(4):226-231. 被引量：1
7杨扬,许厚泽,常军.一种基于属性值变化程度定权的聚类算法[J].测绘科学,2018,43(5):1-4. 被引量：2
8刘庆珍,张晓燕,蔡金锭.基于降维技术与K-means聚类的油纸绝缘状态综合灰评估[J].电力系统保护与控制,2019,47(8):62-70. 被引量：25
9王景丽,刘轶伦,马昊翔,隆少秋,胡月明.开放大数据支持下的深圳市城市更新改造潜力评价[J].地域研究与开发,2019,38(3):72-77. 被引量：18
10颜子寒,张正军,王雅萍,金亚洲,严涛.基于加权马氏距离的改进深度嵌入聚类算法[J].计算机应用,2019,39(S02):122-126. 被引量：3

1王飞,秦小麟,刘亮,沈尧.基于数据流的k-近邻连接算法[J].计算机科学,2015,42(5):204-210. 被引量：3
2申晓.如何实现二维散列数组[J].电脑编程技巧与维护,2012(21):90-91.
3韦向远,杨辉华,谢谱模.基于CUDA的并行布谷鸟搜索算法设计与实现[J].计算机科学与探索,2014,8(6):665-673. 被引量：2
4杨明,陈玲玲,郑宝华.基于提升小波的字符识别特征提取[J].吉林化工学院学报,2012,29(11):97-99. 被引量：1
5樊永正.用一维数据结构建立轴承文件系统[J].轴承,1995(4):39-41. 被引量：1
6佘玉萍.基于中位数的双MAD的离群值检测方法[J].廊坊师范学院学报（自然科学版）,2016,16(2):25-27. 被引量：6
7卓晴,王文渊.基于方向信息的指纹图象分形压缩[J].清华大学学报（自然科学版）,1998,38(9):82-86. 被引量：1
8张跃进.一种新型的存贮结构——BD树[J].计算机工程与应用,1989,25(6):13-20.
9刘慧,靳瑞霞,闫林.一维与多维数据的双射函数转换法及应用[J].河南师范大学学报（自然科学版）,2010,38(3):48-50.
10彭良睿,李学明.一种基于树型结构的P2P系统高维数据检索方法[J].计算机应用研究,2015,32(3):842-845. 被引量：8

广东技术师范学院学报

2008年第9期

浏览历史

内容加载中请稍等...

基于熵的K均值算法的改进被引量：2

参考文献4

二级参考文献22

共引文献210

同被引文献17

引证文献2

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于熵的K均值算法的改进 被引量：2

参考文献4

二级参考文献22

共引文献210

同被引文献17

引证文献2

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于熵的K均值算法的改进被引量：2