K-means算法中文文献聚类的Python实现被引量：6

Chinese Literature Clustering Research Based on Python K-means Algorithm

下载PDF

导出

摘要聚类是对文本信息进行有效组织、摘要和导航的重要手段。K-means算法是非常典型的基于距离的聚类算法,将其用于中文文献聚类,按照内容相似性把一组文献分成几个类并发现其中的隐形知识。本文通过实例,总结了基于Python语言的K-means算法用于中文文献聚类过程,通过CH指标、轮廓系数指标和SSE指标这三个评价指标选取K-means算法的初始聚类簇数,即最优k值的取值范围,然后分别按照基于关键词和基于摘要对文献进行聚类,并对聚类结果进行比较分析,从而得出基于摘要对中文文献进行聚类可以得到更好结果的结论,同一类别中的文献可以进行关键词聚类,从而进一步挖掘其中的隐形知识。 Clustering is an important means of effective organization, summarization and navigation of text information. The K-means algorithm is a very typical distance-based clustering algorithm. It is used for Chinese document clustering. According to the content similarity, a group of documents is divided into several categories and the invisible knowledge is found. In this paper, the K-means algorithm based on Python language is used to summarize the Chinese literature clustering process. The initial cluster cluster number of K-means algorithm is selected by three evaluation indexes: CH index, contour coefficient index and SSE index. The range of optimal k-values is then clustered according to keywords and based on abstracts, and the clustering results are compared and analyzed, so that the clustering of Chinese documents based on abstracts can get better results. In conclusion, the literature in the same category can be clustered by keywords to further explore the invisible knowledge.

作者赵谦益 ZHAO Qian-yi(Guizhou University of Finance and Economics School of Information, Guiyang, China)

机构地区贵州财经大学信息学院

出处《软件》 2019年第8期89-94,共6页 Software

关键词 K-MEANS算法文献聚类评价指标 K-means algorithm Literature clustering Evaluation index

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1李慧,刘东苏,任志纯.文献聚类技术及其评价函数[J].情报杂志,2004,23(7):17-18. 被引量：4
2陈磊磊.不同距离测度的K-Means文本聚类研究[J].软件,2015,36(1):56-61. 被引量：39
3申超波,王志海,孙艳歌.基于标签聚类的多标签分类算法[J].软件,2014,35(8):16-21. 被引量：10
4唐波.改进的K-means聚类算法及应用[J].软件,2012,33(3):100-104. 被引量：10
5章永来,周耀鉴.聚类算法综述[J].计算机应用,2019,39(7):1869-1882. 被引量：205
6田瑞,闫丹凤.针对特定主题的短文本向量化[J].软件,2012,33(11):202-205. 被引量：5
7袁爱领,齐伟,钱旭.基于流形正则化的支持向量机文本分类[J].软件,2013,34(2):65-68. 被引量：12
8姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008,34(18):39-41. 被引量：50
9郑世卓,崔晓燕.基于半监督LDA的文本分类应用研究[J].软件,2014,35(1):46-48. 被引量：10
10张彬.探讨人工智能在计算机网络技术中的应用[J].软件,2012,33(11):265-266. 被引量：68

二级参考文献89

1宋绍云.人工智能在计算机网络技术中的应用[J].玉溪师范学院学报,2001,17(2):105-108. 被引量：16
2刘绍鹏,侯澍旻.一种基于分割的聚类算法用于振动信号解调(英文)[J].新型工业化,2013,2(10):8-15. 被引量：6
3胡晓敏.无线传感器网络Agent数据分流策略[J].新型工业化,2013,2(4):103-112. 被引量：18
4臧朝平,马双超.利用测试模态数据识别结构有限元模型误差源的一种新方法[J].新型工业化,2013,2(8):1-9. 被引量：7
5颜龙杰.基于近邻评分预测的协同过滤推荐算法[J].软件,2013,34(8):63-66. 被引量：14
6杨世兴.煤矿监测监控系统的现状与发展[J].安防科技（安全经理人）,2004(5):39-41. 被引量：32
7刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
8陈雷,王延章.熵权法对融合网络服务质量效率保障研究[J].计算机工程与应用,2005,41(23):1-3. 被引量：3
9张凯斐.人工智能的应用领域及其未来展望[J].吕梁高等专科学校学报,2010,26(4):79-81. 被引量：41
10于海燕,陈晓江,冯健,房鼎益.Web文本内容过滤方法的研究[J].微电子学与计算机,2006,23(9):51-54. 被引量：9

共引文献389

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：13
2许文坚,高维新,程耀坤.基于钻石模型的广东省生猪产业竞争力评价分析[J].现代畜牧兽医,2022(12):56-62. 被引量：2
3刘振宇,丁宇祺.自然环境中被遮挡果实的识别方法研究[J].计算机应用研究,2020,37(S02):333-335. 被引量：6
4张仲宸,周浩,林波荣,李嘉麒,田昕,吴佳欣,陈帅元,黄莉.基于数据挖掘的办公建筑运行阶段碳排放分析[J].建筑节能,2020,48(11):1-6. 被引量：8
5汪磊.人工智能在计算机网络技术中的应用[J].电子技术（上海）,2021,50(11):31-33. 被引量：21
6刘天威.计算机网络安全与风险管理的案例分析[J].电子技术（上海）,2021,50(10):212-213. 被引量：5
7童绪军,陈涛.大数据与人工智能在计算机网络中的应用[J].电子技术（上海）,2021,50(10):192-193. 被引量：4
8谢佳.人工智能在计算机网络技术中的应用[J].电子技术（上海）,2020(9):164-165. 被引量：1
9薛丁文,李建中.基于KD树的k-means聚类算法优化[J].智能计算机与应用,2021,11(11):194-197. 被引量：6
10吕永波,杨静,万猛,任远,马继辉.基于Agent的Web知识发现模型及应用研究[J].中国软科学,2006(8):141-146. 被引量：2

同被引文献66

1王文荣,乔晓东,朱礼军.针对特定领域的新词发现和新技术发现[J].现代图书情报技术,2008(2):35-40. 被引量：7
2韩晓红,胡彧.K-means聚类算法的研究[J].太原理工大学学报,2009,40(3):236-239. 被引量：46
3左鹏飞,李桂景,周利英,常云芝,刘丽娜,王娟,金静峰.能量色散X射线荧光光谱法测定PVC塑料中铅、铬、汞、镉、溴含量的不确定度评定[J].计量与测试技术,2014,41(2):33-34. 被引量：5
4张海舰,吴韬,冯嘉宁,祝永杰,刘兆丽.废弃铝塑包装材料高效回收方法的研究[J].塑料工业,2014,42(7):114-117. 被引量：5
5姚长青,杜永萍.降维技术在专利文本聚类中的应用研究[J].情报学报,2014,33(5):491-497. 被引量：12
6侯荣涛,路郁,王琴,周彬.基于精细簇的K-Means文本聚类[J].计算机工程与设计,2015,36(7):1794-1799. 被引量：2
7黄世杰,张建波,应海松,蔡曹盛,李雪莲.X射线荧光光谱法测定废塑料表面涂层中8种元素的含量[J].理化检验（化学分册）,2016,52(1):33-36. 被引量：3
8蔡自兴.中国人工智能40年[J].科技导报,2016,34(15):12-32. 被引量：156
9张素洁,赵怀慈.最优聚类个数和初始聚类中心点选取算法研究[J].计算机应用研究,2017,34(6):1617-1620. 被引量：82
10姜红,务瑞杰,钟宇,满吉,杨敏男.X射线荧光光谱法检验塑料拖鞋样品[J].上海塑料,2017,45(3):13-17. 被引量：20

引证文献6

1王荻智,李建宏,施运梅.基于K-means的政府公文聚类方法[J].软件导刊,2020,19(6):201-204. 被引量：3
2万珊,苟文博.基于改进K-means聚类的数据自动采集系统设计[J].自动化与仪器仪表,2020(10):108-112. 被引量：4
3刘金坤,李春宇,吕航,李飞,姜红,满吉.基于K均值算法的X射线荧光光谱法检验药用铝塑包装片的研究[J].应用化工,2021,50(2):555-559. 被引量：6
4苏倸玉,李忠,朱婷,张伟.K-means++算法优化及其在地震前兆分析中的应用研究[J].智能计算机与应用,2021,11(5):205-208. 被引量：1
5万岩,张明辉,高锦萍.基于文本分析的中国人工智能相关政策研究[J].图书情报导刊,2021,6(12):54-63. 被引量：2
6李小红,刘梦丹,蒋俊.基于文本挖掘的在线医疗平台综合评价研究[J].应用数学进展,2023,12(3):1324-1339.

二级引证文献16

1尚珍宇(译),程可欣,简钰清,王志芳,王颖(译),周佳怡(译).社交媒体文本数据分析方法对比与适用性研究:以北京市城市公园感知为例[J].景观设计学（中英文）,2023,11(5):8-29. 被引量：1
2朱志斌,马游春.远程低功耗钢桥测温系统设计[J].电子测量技术,2020,43(23):154-158. 被引量：4
3赵志海.基于大数据技术精细化社会治理系统研究[J].粘接,2021(6):72-76.
4王飞飞,武新乾,卢跃静.建筑因素对环境温度的一元回归分析[J].居业,2021(11):139-141. 被引量：1
5张志丹,张帝,黄纯,邓威,唐海国,朱吉然.基于筛选电压数据的配电低压用户相别辨识方法[J].供用电,2022,39(1):58-64. 被引量：3
6韩宏福,姜红,王子琦,李卓容,屈音璇,段斌,刘峰.基于化学计量学对药品铝塑包装片的差分拉曼光谱分析[J].包装工程,2022,43(5):108-114. 被引量：4
7孙家政,刘津彤,张岚泽,姜红,曾文远,段斌,刘峰.基于改进支持向量机的药品包装纸盒快速鉴别研究[J].包装工程,2022,43(9):131-137. 被引量：3
8陈黎,盛秀婷,吴岩.区域产业协同视角下广深人工智能产业发展研究[J].科技管理研究,2022,42(19):199-206. 被引量：2
9陈争,李春宇,吕航,姜红,满吉.机器学习结合X射线荧光光谱的电缆线护套快速鉴别[J].应用激光,2022,42(10):146-155. 被引量：5
10金燕,刘文锦,毕崇武.健康超话意见领袖甄别方法及其对不同参与行为的引导作用[J].图书情报工作,2023,67(4):91-101. 被引量：2

1杜建国,杨忠,杨瑞景,韩叶祥,钱俊波.基于DBSCAN算法的电缆局部放电分类方法[J].通信电源技术,2017,34(6):173-176. 被引量：2
2张宗波,胡鑫煜,张书轶,李宏欣.基于语料库话语分析的科学知识图谱分析[J].现代语言学,2019,7(3):363-383. 被引量：1
3金之榆,王毛毛,史会磊.基于DBSCAN和改进K-means聚类算法的电力负荷聚类研究[J].东北电力技术,2019,40(6):10-14. 被引量：10
4段琪.数据挖掘中的聚类算法分析[J].信息与电脑,2019,0(15):39-40. 被引量：2
5金朝.基于k-means聚类的Bagging算法研究[J].光学与光电技术,2019,0(4):27-32. 被引量：5
6吴晨,王宏伟,王志强,袁昱纬,刘宇,程红,全吉成.基于局部保持的遥感场景零样本分类算法[J].光学学报,2019,39(7):337-348. 被引量：3
7注释体例[J].南亚东南亚研究,2019,0(4):156-158.
8荣垂田,李银银,王琰.中文关键短语自动提取方法研究[J].计算机科学与探索,2019,13(9):1481-1492. 被引量：3
9冯彩霞.农村儿童学前教育文献综述[J].文学教育,2019,0(24):92-93. 被引量：1
10陈星星,李瑞涛,廖军华,吴延科.基于协同过滤算法的电视用户个性化推荐[J].统计学与应用,2019,8(4):522-530.

软件

2019年第8期

浏览历史

内容加载中请稍等...

K-means算法中文文献聚类的Python实现被引量：6

参考文献10

二级参考文献89

共引文献389

同被引文献66

引证文献6

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

K-means算法中文文献聚类的Python实现 被引量：6

参考文献10

二级参考文献89

共引文献389

同被引文献66

引证文献6

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

K-means算法中文文献聚类的Python实现被引量：6