基于核函数的改进k-means文本聚类被引量：12

IMPROVED K-MEANS TEXT CLUSTERING BASED ON KERNEL FUNCTION

下载PDF

导出

摘要通过对传统k-means算法优缺点的研究分析,提出一种改进的k-means聚类算法。随机初始化k/2个簇心,划分最大的簇并删除空簇,在更新簇心的同时判断簇心位置的合理性;及时对簇心做出修改,使得最后聚类出的k个簇中不会出现空簇;使用高斯核函数作为测量向量之间距离的方法,提高聚类的准确性。基于此改进的k-means算法,使用在不同网站上采集的文章作为数据源,并利用TF-IDF以及Word2Vec技术对文本进行向量化处理,进而完成对文本的聚类任务。与传统的k-means文本聚类相比,不仅提高了聚类的准确性,而且改善了传统k-means算法结果可能会出现空簇的缺陷。 Through the research and analysis of the advantages and disadvantages of the traditional k-means algorithm, we proposed an improved k-means clustering algorithm. We randomly initialized k /2 cluster cores, and divided the largest cluster and deleted the empty clusters. The cluster core was updated to determine the rationality of the cluster center position. The cluster core was modified in time to make the empty clusters would not appear in the last k clusters. The Gaussian kernel function was used as the method to measure the distance between vectors, which greatly improved the accuracy of clustering. Based on this improved k-means algorithm, articles collected on different websites were used as data sources, and we used TF-IDF and Word2Vec technologies to preprocess the text, and completed the task of clustering text. Compared with traditional k-means text clustering, it not only improves the accuracy, but also corrects the defect of empty clusters in the results of traditional k-means algorithm.

作者张国锋吴国文 Zhang Guofeng;Wu Guowen(College of Computer Science and Technology, Donghua University, Shanghai 200050, China)

机构地区东华大学计算机科学与技术学院

出处《计算机应用与软件》北大核心 2019年第9期281-284,301,共5页 Computer Applications and Software

关键词 K-MEANS 高斯核函数 TF-IDF 文本聚类 k-means Gaussian kernel function TF-IDF Text clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1周丽杰,于伟海,郭成.基于改进的TF-IDF方法的文本相似度算法研究[J].泰山学院学报,2015,37(3):18-22. 被引量：10
2徐金宝.核函数在划分聚类中的应用与实现[J].电脑知识与技术,2013,9(9X):6185-6188. 被引量：3
3陈磊磊.不同距离测度的K-Means文本聚类研究[J].软件,2015,36(1):56-61. 被引量：39
4索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
5张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究,2007,24(5):166-168. 被引量：124
6周世兵,徐振源,唐旭清.K-means算法最佳聚类数确定方法[J].计算机应用,2010,30(8):1995-1998. 被引量：144
7吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：166

二级参考文献132

1钱锋,徐麟文.知识发现中的聚类分析及其应用[J].杭州师范大学学报（自然科学版）,2001,5(1):34-37. 被引量：16
2刘绍鹏,侯澍旻.一种基于分割的聚类算法用于振动信号解调(英文)[J].新型工业化,2013,2(10):8-15. 被引量：6
3胡晓敏.无线传感器网络Agent数据分流策略[J].新型工业化,2013,2(4):103-112. 被引量：18
4臧朝平,马双超.利用测试模态数据识别结构有限元模型误差源的一种新方法[J].新型工业化,2013,2(8):1-9. 被引量：7
5颜龙杰.基于近邻评分预测的协同过滤推荐算法[J].软件,2013,34(8):63-66. 被引量：14
6张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
7何彬彬,方涛,郭达志.基于不确定性的空间聚类[J].计算机科学,2004,31(11):196-198. 被引量：8
8王汉芝,刘振全.一种新的确定K-均值算法初始聚类中心的方法[J].天津科技大学学报,2005,20(4):76-79. 被引量：9
9李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
10刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65

共引文献498

1陈卫东,胡盛林.兼顾公平和效率原则的我国电力市场碳配额分配方案[J].煤炭经济研究,2020,40(1):15-21. 被引量：8
2左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
3王生昌,李良敏,杨立本,邱兆文.营运车辆驾驶人适宜性甄别检测评价系统研究[J].交通信息与安全,2013,31(1):65-69. 被引量：2
4黄仁,冯阿瑞.基于Ncut的自适应图像分割方法[J].土木建筑与环境工程,2013,35(S2):107-110. 被引量：2
5高燕飞,陈俊杰,强彦.自适应数据库中基于特征向量的聚类算法的研究与改进[J].电脑开发与应用,2008,21(7):57-58.
6李晶,陈俊杰,强彦.数据库负载自适应的体系结构设计[J].电脑开发与应用,2008,21(7):59-61. 被引量：1
7胡吉明,胡昌平.基于群体网络行为的用户聚合分析[J].情报杂志,2008,27(7):71-73. 被引量：4
8强彦,陈俊杰,高燕飞.自适应数据库中基于特征向量的聚类算法[J].计算机工程与应用,2008,44(27):162-164. 被引量：2
9强彦,李晶,陈俊杰.数据库负载自适应的体系结构研究[J].计算机应用研究,2008,25(11):3317-3319. 被引量：4
10花海洋,赵怀慈.聚类算法在银行客户细分中的应用[J].计算机工程,2008,34(24):37-39. 被引量：5

同被引文献127

1陈雪松,陈秀芳,毕波,唐锦萍.基于改进SURF的图像匹配算法[J].计算机系统应用,2020,29(12):222-227. 被引量：13
2任江涛,施潇潇,孙婧昊,黄焕宇,印鉴.一种改进的基于特征赋权的K均值聚类算法[J].计算机科学,2006,33(7):186-187. 被引量：10
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1074
4冯荣耀,上官廷华,柳宏川.一种基于均方差属性加权的K-means算法[J].信息技术,2010,34(3):55-57. 被引量：5
5黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：221
6徐森,卢志茂,顾国昌.结合K均值和非负矩阵分解集成文本聚类算法[J].吉林大学学报（工学版）,2011,41(4):1077-1082. 被引量：12
7杨济亭.基于动态BP神经网络的财务危机预警算法研究[J].信息技术,2013,37(2):96-100. 被引量：4
8李杨,郝志峰,温雯,谢光强.差分隐私保护k-means聚类方法研究[J].计算机科学,2013,40(3):287-290. 被引量：48
9胡超杰,章兢.一种采用克隆选择的免疫差分进化算法[J].计算机应用研究,2013,30(6):1640-1642. 被引量：5
10翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：108

引证文献12

1崔晴洋,梁小峰,倪静,李帅,张生,仲梁维.基于卫星装配工艺的短文本聚类研究[J].软件工程,2020,23(4):7-11. 被引量：2
2姜齐艳,王鲁平.基于数据挖掘与神经网络的财务异常数据监测分析算法[J].电子设计工程,2020,28(11):14-17. 被引量：9
3万珊,苟文博.基于改进K-means聚类的数据自动采集系统设计[J].自动化与仪器仪表,2020(10):108-112. 被引量：4
4傅承涛,谢佳璇,牛永洁.新闻类短文本聚类新方法的研究[J].延安大学学报（自然科学版）,2020,39(4):67-71. 被引量：3
5潘成胜,张斌,吕亚娜,杜秀丽,邱少明.改进灰狼优化算法的K-Means文本聚类[J].计算机工程与应用,2021,57(1):188-193. 被引量：15
6林丽,薛芳.基于逻辑回归函数的加权K-means聚类算法[J].集美大学学报（自然科学版）,2021,26(2):139-145. 被引量：8
7杨勇,陈强,曲福恒,刘俊杰,张磊.基于模拟划分的SP-k-means-+算法[J].吉林大学学报（工学版）,2021,51(5):1808-1816. 被引量：3
8周凯,唐瞾,胡志坚,严利雄,毕如玉,邓科,李煜磊.基于NSST图像融合的变电站开关状态识别[J].高压电器,2021,57(10):50-58. 被引量：7
9刘洪基.基于混沌PSO的大数据智能加权K均值聚类算法[J].计算机应用与软件,2022,39(4):311-319. 被引量：4
10金亦乔,章永祺,王博,王鑫轲,李昭祥.面向差分隐私保护的自适应谱聚类优化新算法[J].计算机应用与软件,2023,40(9):261-266.

二级引证文献54

1宋旭峰,蒋梦姣,周怡伶,吉俊杰,陆晓翔.面向设备开关图像识别的改进Faster R-CNN[J].计算机系统应用,2022,31(10):211-224.
2杨慕升,石志华.深入剖析C++Builder中的文件拷贝方法[J].电脑编程技巧与维护,2000(5):32-33.
3蔡畅.基于改进K-means的K近邻算法在电影推荐系统中的应用[J].电子技术与软件工程,2020(18):182-183. 被引量：1
4朱志斌,马游春.远程低功耗钢桥测温系统设计[J].电子测量技术,2020,43(23):154-158. 被引量：4
5吴鹃.面向对象软件的数据异常监测方法研究[J].自动化与仪器仪表,2021(3):61-64.
6姜玉婵,蔡岩.深度学习模型在医院财务预测中的应用[J].微型电脑应用,2021,37(4):49-52. 被引量：4
7张子豪,靳其兵.基于社会等级淘汰机制的GWO_PSO算法[J].南京理工大学学报,2021,45(2):164-170. 被引量：7
8赵志海.基于大数据技术精细化社会治理系统研究[J].粘接,2021(6):72-76.
9赵知劲,王安强,尚俊娜,王李军.基于灰狼算法的抗干扰跳频序列设计[J].信号处理,2021,37(6):1046-1054. 被引量：3
10王梦璐,李连忠.动态反向搜索更新位置的改进灰狼优化算法[J].计算机工程与应用,2021,57(18):86-96. 被引量：4

1黄东晋,纪浩,耿晓云,丁友东.基于文本矢量特征的电影评分预测模型[J].现代电影技术,2019(3):44-50. 被引量：2
2孙月驰,李冠.基于卷积神经网络嵌套模型的人群异常行为检测[J].计算机应用与软件,2019,36(3):196-201. 被引量：8
3关菁华,刘鑫,刁建华.基于词嵌入的微博谣言主题分类研究[J].软件导刊,2019,18(4):1-3. 被引量：1
4张宁,徐敏敏.基于TF-IDF混合算法的微博舆情分析研究与应用[J].中国战略新兴产业（理论版）,2019,0(22):0124-0124.
5张孜铭,刘向,曾培春.知识发现视角下的文献量化:荟萃分析框架[J].情报杂志,2019,38(9):150-157. 被引量：4
6谢浩然,卫巍,杨志辉,邓居智,葛坤朋.基于TF-IDF的新型广播电视节目协同推荐流程[J].计算机与现代化,2019,0(9):65-71. 被引量：6
7白玲玲,韩天鹏.关联规则在健康文本信息挖掘中的应用[J].阜阳师范学院学报（自然科学版）,2019,36(3):43-48. 被引量：2
8潘辉.基于极限学习机的自动化图书信息分类技术[J].现代电子技术,2019,42(17):183-186. 被引量：2
9龚科瑜,张一驰.基于TF-IDF的古籍文本内容特征提取方法[J].电子技术与软件工程,2019,0(17):130-131. 被引量：2
10鲍海燕.基于K-means算法的入侵检测系统研究[J].现代计算机,2019,0(23):9-13. 被引量：3

计算机应用与软件

2019年第9期

浏览历史

内容加载中请稍等...

基于核函数的改进k-means文本聚类被引量：12

参考文献7

二级参考文献132

共引文献498

同被引文献127

引证文献12

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

基于核函数的改进k-means文本聚类 被引量：12

参考文献7

二级参考文献132

共引文献498

同被引文献127

引证文献12

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

基于核函数的改进k-means文本聚类被引量：12