摘要
在高维数据中,K-means的相似度度量会遇到不同尺度、不同类型的数据等一些问题。本文提出了利用数据归一化预处理方法来改进K-means算法。在讨论一维数据初始中心点选取方法基础上,提出了基于熵的高维数据的初始中心点选取方法,通过对初始中心点选取方法的改进来减少K均值算法的迭代次数。实验结果表明,数据的归一化处理可以从根本上消除了数据类型的不一致对聚类的影响。
In high dimension data, calculating similarity of k-means meets some problems, such as different scale, different types and so on. This paper proposes data standardization and initial center selected method of one dimension data in k-means algorithm, this paper proposes initial center selected method which based on entropy. It will reduce iterative degree with initial center selected method.
出处
《广东技术师范学院学报》
2008年第9期27-29,40,共4页
Journal of Guangdong Polytechnic Normal University
关键词
均值
聚类
熵
中心点
k-means
clustering
entropy
center