使用谱聚类算法解决文本聚类集成问题被引量：15

Spectral clustering algorithms for document cluster ensemble problem

下载PDF

导出

摘要采用2个不同的谱聚类算法解决文本聚类集成问题。为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度。分别从矩阵扰动理论和图上的随机游走的角度解释了2个算法的有效性。在真实文本集上的实验结果表明:提出的代数变换方法是有效的,该方法可以有效提高谱聚类算法的运行效率;该聚类集成谱算法比其他常见的聚类集成算法更优越、更高效,可以有效解决文本聚类集成问题。 Two spectral clustering algorithms were brought into document cluster ensemble problem.To make the algorithms extensible to large scale applications,the large scale matrix eigenvalue decomposition was avoided by solving the eigenvalue decomposition of two induced small matrixes,and thus computational complexity of the algorithms was effectively reduced.Experiments on real-world document sets show that the algebraic transformation method is feasible for it could effectively increase the efficiency of spectral algorithms;both of the proposed cluster ensemble spectral algorithms are more excellent and efficient than other common cluster ensemble techniques,and they provide a good way to solve document cluster ensemble problem.

作者徐森卢志茂顾国昌

机构地区哈尔滨工程大学模式识别与自然计算研究室盐城工学院信息工程学院

出处《通信学报》 EI CSCD 北大核心 2010年第6期58-66,共9页 Journal on Communications

基金国家自然科学基金资助项目(60603092 60903082 60975042) 高等学校博士学科点专项科研基金资助项目(20070217043)~~

关键词聚类集成文本聚类谱聚类矩阵扰动理论图上的随机游动 cluster ensemble document clustering spectral clustering matrix perturbation theory random walk on graph

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
2罗四维,赵连伟.基于谱图理论的流形学习算法[J].计算机研究与发展,2006,43(7):1173-1179. 被引量：76
3杨博,刘大有,LIU Jiming,金弟,马海宾.复杂网络聚类方法[J].软件学报,2009,20(1):54-66. 被引量：209
4TIAN Zheng,LI XiaoBin,JU YanWei.Spectral clustering based on matrix perturbation theory[J].Science in China(Series F),2007,50(1):63-81. 被引量：19
5罗会兰,孔繁胜,李一啸.聚类集成中的差异性度量研究[J].计算机学报,2007,30(8):1315-1324. 被引量：36

二级参考文献149

1张振跃,查宏远.线性低秩逼近与非线性降维[J].中国科学（A辑）,2005,35(3):273-285. 被引量：8
2唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
3杨剑,李伏欣,王珏.一种改进的局部切空间排列算法[J].软件学报,2005,16(9):1584-1590. 被引量：36
4Watts D J, Strogatz SH. Collective dynamics of Small-World networks. Nature, 1998,393(6638):440-442.
5Barabasi AL, Albert R. Emergence of scaling in random networks. Science, 1999,286(5439):509-512.
6Barabasi AL, Albert R, Jeong H, Bianconi G. Power-Law distribution of the World Wide Web. Science, 2000,287(5461):2115a.
7Albert R, Barabasi AL, Jeong H. The Internet's Achilles heel: Error and attack tolerance of complex networks. Nature, 2000, 406(2115):378-382.
8Girvan M, Newman MEJ. Community structure in social and biological networks. Proc. of the National Academy of Science, 2002,9(12):7821-7826.
9Guimera R, Amaral LAN. Functional cartography of complex metabolic networks. Nature, 2005,433(7028):895-900.
10Palla G, Derenyi I, Farkas I, Vicsek T. Uncovering the overlapping community structures of complex networks in nature and society. Nature, 2005,435(7043):814-818.

共引文献420

1张杰鑫,庞建民,张铮.拟态构造的Web服务器异构性量化方法[J].软件学报,2020,31(2):564-577. 被引量：10
2于雪莲,汪学刚,刘本永.基于KLLE和KNR的雷达目标一维像识别[J].现代雷达,2008,30(10):39-42. 被引量：2
3宋智玲.蚁群算法优化结点和聚类技术在复杂网络中发现社团的研究[J].实验室研究与探索,2010,29(7):79-82.
4王晓芳.基于边链接权重的局部社团探测算法[J].农业网络信息,2012(12):32-33.
5智源,行飞.复杂网络社区结构问题综述[J].阴山学刊（自然科学版）,2011,25(3):31-34. 被引量：2
6邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10
7LI XiaoBin,TIAN Zheng.Multiscale stochastic hierarchical image segmentation by spectral clustering[J].Science in China(Series F),2007,50(2):198-211. 被引量：14
8高琰,谷士文,唐琎,蔡自兴.一种基于互信息的模糊聚类集成算法[J].小型微型计算机系统,2007,28(6):1068-1071. 被引量：2
9李士进,朱跃龙,刘净.一种基于k-prototype的多层次聚类改进算法[J].河海大学学报（自然科学版）,2007,35(3):342-347. 被引量：1
10张莉,陈恭和.一种适合大规模数据集的特征选择方法[J].计算机工程,2007,33(4):184-186. 被引量：1

同被引文献184

1张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
2姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：68
3唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
4阳琳贇,王文渊.聚类融合方法综述[J].计算机应用研究,2005,22(12):8-10. 被引量：28
5罗娜,左万利,袁福宇,张靖波,张慧杰.Using ontology semantics to improve text documents clustering[J].Journal of Southeast University(English Edition),2006,22(3):370-374. 被引量：8
6邹远强,李国徽,赵梓屹.基于遗传和蚁群算法融合的聚类新方法[J].科学技术与工程,2006,6(23):4700-4704. 被引量：9
7TIAN Zheng,LI XiaoBin,JU YanWei.Spectral clustering based on matrix perturbation theory[J].Science in China(Series F),2007,50(1):63-81. 被引量：19
8傅华忠,茅剑.基于DBSCAN聚类算法的Web文本挖掘[J].科技信息,2007(1):55-56. 被引量：5
9蒋盛益.基于投票机制的融合聚类算法[J].小型微型计算机系统,2007,28(2):306-309. 被引量：7
10何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11

引证文献15

1刘丽敏,樊晓平,廖志芳.选择性聚类融合研究进展[J].计算机工程与应用,2012,48(10):1-5. 被引量：3
2徐森,周天,李先锋,曹瑞.结合K均值与Laplacian的聚类集成算法[J].计算机应用与软件,2012,29(10):69-70. 被引量：1
3吴健,崔志明,时玉杰,盛胜利,龚声蓉.基于局部密度构造相似矩阵的谱聚类算法[J].通信学报,2013,34(3):14-22. 被引量：14
4张永红,杨朋,李纯.一种基于余弦函数和矩阵变换的谱聚类算法[J].哈尔滨商业大学学报（自然科学版）,2013,29(3):336-340.
5张琦,卢志茂,徐森,刘晨,隋毅.基于相似度矩阵的谱聚类集成图像分割[J].传感器与微系统,2013,32(10):21-23. 被引量：4
6何力,曲仕茹.球极平面逆投影迭代谱聚类算法[J].控制与决策,2014,29(3):396-402.
7吴晓璇,倪志伟,倪丽萍,张琛.基于互信息和分形维数相结合的选择性聚类融合算法研究[J].模式识别与人工智能,2014,27(9):847-855. 被引量：1
8冯进玫,卢志茂,杨朋,张子红.基于局部占优度的彩色图像分割算法[J].华中科技大学学报（自然科学版）,2014,42(9):44-48. 被引量：2
9王贤明,谷琼,胡智文.基于R-Grams的文本聚类方法[J].计算机应用,2015,35(11):3130-3134. 被引量：1
10徐小龙,李永萍.一种基于MapReduce的知识聚类与统计机制[J].电子与信息学报,2016,38(1):202-208. 被引量：1

二级引证文献57

1刘丽敏,樊晓平,廖志芳.选择性聚类融合新方法研究[J].计算机应用研究,2012,29(11):4031-4034. 被引量：4
2张震,梁永全,张行林.动态复杂网络社区挖掘—选择性聚类融合算法[J].计算机与数字工程,2013,41(3):388-390. 被引量：2
3杨志,罗可.一种改进的基于粒子群的聚类算法[J].计算机应用研究,2014,31(9):2597-2599. 被引量：14
4杨志,罗可.一种改进的基于粒子群的粗糙K-medoids算法[J].计算机工程与应用,2014,50(20):110-114. 被引量：2
5李莉琼,刘漳辉,郭昆.基于灰关联分析的加权自适应谱聚类算法[J].广西大学学报（自然科学版）,2014,39(5):1066-1073.
6吴晓璇,倪志伟,倪丽萍.云计算环境下基于分形的聚类融合算法研究[J].计算机工程与应用,2015,51(14):1-6. 被引量：5
7杨威,朱福喜.基于聚类融合的标题文本聚类方法[J].计算机工程与应用,2015,51(15):129-133. 被引量：2
8陆进,郭跃飞.一种含噪音处理的K-means聚类算法[J].计算机应用与软件,2015,32(10):265-268. 被引量：5
9夏卓群,欧慧,李平,武志伟,戴傲.基于改进流形距离和人工蜂群的二阶段聚类算法[J].控制与决策,2016,31(3):410-416. 被引量：3
10党亚男,王芳,田建艳,谢徵.面向猪的姿态识别的特征优选方法研究[J].江苏农业科学,2016,44(3):448-451. 被引量：5

1李晓辉,刘志东.降维观测器系统的鲁棒容错控制[J].北京机械工业学院学报,2003,18(3):1-5. 被引量：1
2欧阳柳,徐进,龚小谨,刘济林.基于不确定性分析的视觉里程计优化[J].浙江大学学报（工学版）,2012,46(9):1572-1579.
3徐森,卢志茂,顾国昌.解决文本聚类集成问题的两个谱算法[J].自动化学报,2009,35(7):997-1002. 被引量：20
4黄晓斌,万建伟,王展.基于改进K-L变换的特征提取技术[J].国防科技大学学报,2005,27(1):84-88. 被引量：1
5李晓辉,刘志东.基于特征值估计的鲁棒容错控制系统设计[J].计算技术与自动化,2003,22(2):46-48.
6周启忠,谢永乐.模拟集成电路故障诊断与参数辨识的代数方法[J].四川大学学报（工程科学版）,2016,48(4):158-166. 被引量：2
7尚钦明.矩阵扰动分析方法及对三维重构误差分析的应用[J].中国电子商务,2014(2):74-74.
8李新叶,余晓晔.适用于复杂结构的多路谱聚类算法的改进[J].北京工业大学学报,2013,39(3):425-429. 被引量：1
9孙永强,胡振江,袁昕.基于代数变换的脉动阵列的综合[J].上海交通大学学报,1992,26(6):10-18.
10许丽,曾丹,张之江.结构光测量系统误差分析[J].光电工程,2008,35(10):26-31. 被引量：6

通信学报

2010年第6期

浏览历史

内容加载中请稍等...

使用谱聚类算法解决文本聚类集成问题被引量：15

参考文献5

二级参考文献149

共引文献420

同被引文献184

引证文献15

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

使用谱聚类算法解决文本聚类集成问题 被引量：15

参考文献5

二级参考文献149

共引文献420

同被引文献184

引证文献15

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

使用谱聚类算法解决文本聚类集成问题被引量：15