k均值聚类中的EM思想

The idea of EM implied in k-means clustering

下载PDF

导出

摘要在无监督学习中,k均值聚类以其快速简单的特点得到了广泛的应用。EM算法是针对缺失数据的一种统计学习方法。然而,k均值和EM这两种不同领域的算法在思想上却有着一致的地方。本文分析了k均值中蕴含的EM思想,指出了k均值中样本隶属度更新和类中心更新与EM算法中的E步和M步的等价性。最后,利用R语言矩阵化运算的特点,介绍在如何在R语言中高效地实现k均值聚类算法。 In unsupervised learning, k-means clustering is widely applied in many fields due to the fact that it is very simple and fast. EM algorithm is a statistical learning approach for missing data. Although these two methods are applied in different areas, they are similar in terms of some ideas. The principle of EM implied in k-means clustering is analyzed in this paper. The equality between the two steps in k-means （the update of membership and the update of prototypes） and the E and M steps in EM algorithms is pointed out.

作者马丽娜

机构地区西安财经学院行知学院信息系

出处《科技视界》 2015年第17期143-144,共2页 Science & Technology Vision

关键词 K均值 EM算法聚类分析 k-means EM algorithm Clustering analysis

分类号 O212.1 [理学—概率论与数理统计]

引文网络
相关文献

参考文献10

1任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值算法[J].计算机应用,2006,26(B06):73-75. 被引量：24
2王易偱,赵勋杰.基于K均值聚类分割彩色图像算法的改进[J].计算机应用与软件,2010,27(8):127-130. 被引量：36
3王兴伟,沈兰荪,卫保国,刘党辉.基于改进的k-均值聚类和数学形态学的彩色眼科图像病灶分割[J].中国生物医学工程学报,2002,21(5):443-448. 被引量：13
4杨建新,周献中,葛银茂.基于拉普拉斯图谱和K均值的多社团发现方法[J].计算机工程,2008,34(12):178-180. 被引量：9
5胡艳维,秦拯,张忠志.基于模拟退火与K均值聚类的入侵检测算法[J].计算机科学,2010,37(6):122-124. 被引量：35
6汤效琴,戴汝源.数据挖掘中聚类分析的技术方法[J].微计算机信息,2003,19(1):3-4. 被引量：87
7王爱平,张功营,刘方.EM算法研究与应用[J].计算机技术与发展,2009,19(9):108-110. 被引量：58
8傅德胜,周辰.基于密度的改进K均值算法及实现[J].计算机应用,2011,31(2):432-434. 被引量：76
9孔锐,张国宣,施泽生,郭立.基于核的K-均值聚类[J].计算机工程,2004,30(11):12-13. 被引量：46
10谢志伟,王志明.基于上下文约束的噪声模糊聚类算法[J].计算机工程与应用,2012,48(5):143-145. 被引量：2

二级参考文献63

1解(亻刍),汪小帆.复杂网络中的社团结构分析算法研究综述[J].复杂系统与复杂性科学,2005,2(3):1-12. 被引量：86
2李翊华,胡匡祜.细胞显微图像灰度梯度双阈值的快速分割[J].模式识别与人工智能,1995,8(4):357-362. 被引量：12
3王林,戴冠中.复杂网络中的社区发现——理论与应用[J].科技导报,2005,23(8):62-66. 被引量：50
4杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：191
5谷保平,许孝元,郭红艳.基于粒子群优化的k均值算法在网络入侵检测中的应用[J].计算机应用,2007,27(6):1368-1370. 被引量：24
6陆林花,王波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172. 被引量：26
7章毓晋.图像处理和分析[M].北京:清华大学出版社,1991..
8龚声蓉,刘存平,王强等.数字图象处理与分析[M]. 北京:清华大学出版社, 2006. 60-63
9孙大飞,Dempster A P, Laird N M, et al. Maximum likelihood from Incomplete data via the EM algorithm[J ]. Journal of the Royal Statistical Society, Series B, 1997,39(1) :1-38.
10Meng X L, Rubin D B. Recent Extension to the EM algorithm[M]. Bayesian Statistics 4. Oxford: Oxford University Press, 1992: 307 - 320.

共引文献374

1钱卓昊.数据驱动的属性值分类法及其在属性泛化中的应用[J].智能计算机与应用,2021,11(4):77-81.
2宋军英,崔益伟,李欣然,钟伟,邹鑫,李培强.基于欧氏动态时间弯曲距离与熵权法的负荷曲线聚类方法[J].电力系统自动化,2020(15):87-98. 被引量：33
3宁彬.基于数据挖掘的入侵检测系统研究[J].微计算机信息,2008,24(6):97-98. 被引量：10
4孙挺,王新社,耿国华,周明全.一个有效的彩色图像分割方法[J].微电子学与计算机,2009,26(3):232-235.
5秦亮,张文广,周绍磊,史贤俊.基于Parzen窗估计的核k-means聚类方法[J].计算机工程,2011,37(S1):217-219. 被引量：1
6林开颜,吴军辉,徐立鸿.彩色图像分割方法综述[J].中国图象图形学报（A辑）,2005,10(1):1-10. 被引量：322
7刘宝 ,官睿 .无悔选择[J].中国大学生就业,2005(12):29-30.
8虞绍.天府之国——成都[J].中国大学生就业,2005(12):44-46.
9“我很累!”——大学期间社会实践的得与失[J].中国大学生就业,2005(12):47-48.
10刘宇奇,陆一平,查建中,贾凌燕.矩形块划分的二维空间数据挖掘算法及其应用[J].北京交通大学学报,2005,29(4):107-110. 被引量：2

1崔文,吴耀华.基于K均值的改进遗传算法求解TSP[J].物流技术,2011,30(9):160-162. 被引量：2
2郭均鹏,陈颖,李汶华.一般分布区间型符号数据的K均值聚类方法[J].管理科学学报,2013,16(3):21-28. 被引量：11
3孔波,王红蔚.基于最小二乘法的无监督支持向量机[J].河南教育学院学报（自然科学版）,2014,23(4):17-19. 被引量：4
4Paulo Muniz de Avila,Roan Simoes da Silva,Luiz Angelo Valota Francisco,Rodrigo Palucci Pantoni,David Buzatto,Sergio Donizetti Zorzo.Comparing K-Means and Mean Shift Algorithms Performance Using Mahout in a Private Cloud Environment[J].通讯和计算机（中英文版）,2014,11(1):45-51.
5高尚,刘夫成.与k均值混合的支持向量机的个人信用评估[J].中南大学学报（自然科学版）,2013,44(S2):169-173. 被引量：8
6王敞,陈增强,袁著祉.基于遗传算法的K均值聚类分析[J].计算机科学,2003,30(2):163-164. 被引量：26
7何小海,吴小强,董洁,陶德元.基于聚类原理自动确定小波边缘检测阈值[J].四川大学学报（自然科学版）,1996,33(1):60-64.
8张博文,吴光强,黄焕军.基于迭代更新近似模型的车内噪声优化[J].计算力学学报,2016,33(1):33-38. 被引量：3
9崔建斌,姬安召,张科.确定最佳聚类数的二阶差分统计法[J].安徽大学学报（自然科学版）,2017,41(2):61-67. 被引量：1
10王新民,鲁德初.量化子空间分布隐马尔可夫模型的间接训练[J].孝感学院学报,2003,23(6):5-8. 被引量：3

科技视界

2015年第17期

浏览历史

内容加载中请稍等...

k均值聚类中的EM思想

参考文献10

二级参考文献63

共引文献374

相关作者

相关机构

相关主题

浏览历史