基于知识图谱的k-modes文本聚类研究被引量：1

Research on k-modes text clustering based on knowledge map

下载PDF

导出

摘要为了提高文本聚类的性能,采用k-modes算法进行文本聚类,并采用知识图谱进行样本预分析,以提高k-modes的文本聚类适用度。采用知识图谱进行样本预处理,对待聚类的文本进行知识图谱三元分析,并生成对应概念、实体和关系的样本集合;接着建立k-modes文本聚类模型,设定簇内节点至簇中心的距离值之和为目标函数,通过轮流固定隶属矩阵和聚类簇矩阵,不断求解目标函数的最小值直至目标函数值稳定,获得簇中心,最后根据簇中心及各节点到簇中心距离来确定聚类结果。实验表明,经过知识图谱分析之后,k-modes算法能够获得更优的纯度、标准互信息和F值性能,且聚类纯度的均方根误差(Root mean squared error,RMSE)值更低;和常用文本聚类算法相比,对于UCI集和新闻集,该文算法均表现出了更高的聚类准确率。 In order to improve the performance of text clustering,k-modes algorithm is used to cluster text,and knowledge map is used to analyze the sample to improve the applicability of k-modes.The knowledge map is used to preprocess the samples,and the clustering text is analyzed by three elements,and the corresponding concepts,entities and relationships are generated.The k-modes text clustering model is established,and the sum of distance between nodes and cluster centers is set as the target function.By rotating fixed membership matrix and cluster matrix,the minimum value of the objective function is continuously solved until the target function value is stable,and the cluster centers are obtained.The cluster results are determined according to the distance between the cluster center and the center of each node.The experiment shows that the k-modes algorithm can obtain better clustering purity,normalized mutual information and F value performance after knowledge map analysis,and the RMSE value of cluster purity is lower.Compared with the common text clustering algorithm,this algorithm for UCI set and news set shows higher clustering accuracy than usual.

作者高静王钢 Gao Jing;Wang Gang(School of Information and Mechatronics Engineering,Zhengzhou Business University,Gongyi 451200,China)

机构地区郑州商学院信息与机电工程学院

出处《南京理工大学学报》 CAS CSCD 北大核心 2022年第1期76-82,共7页 Journal of Nanjing University of Science and Technology

基金国家自然科学基金(61961010) 河南省教育厅高等学校重点科研项目(20B120003) 河南省教育厅项目(2020YB0403) 郑州商学院新工科创新融合团队项目(2021-CXTD-05)。

关键词文本聚类 k-modes算法知识图谱知识元聚类纯度 text clustering k-modes algorithm knowledge map knowledge element cluster purity

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1章永来,周耀鉴.聚类算法综述[J].计算机应用,2019,39(7):1869-1882. 被引量：207
2杨慧婷,杨文忠,殷亚博,许超英.基于深度信念网络的K-means聚类算法研究[J].现代电子技术,2019,42(8):145-150. 被引量：13
3谢娟英,丁丽娟.完全自适应的谱聚类算法[J].电子学报,2019,47(5):1000-1008. 被引量：23
4张志龙,李爱华,李楚为.基于密度峰值搜索聚类的超像素分割算法[J].计算机学报,2020,43(1):1-15. 被引量：21
5尹芳,宋垚,李骜.基于局部优化奇异值分解和K-means聚类的协同过滤算法[J].南京理工大学学报,2019,43(6):720-726. 被引量：15
6邹雪君,谢珺,任密蜂,续欣莹.基于全覆盖粒计算的K-medoids文本聚类算法[J].现代电子技术,2019,42(7):162-166. 被引量：3
7杨俊峰,尹光花.基于word2vec和CNN的短文本聚类研究[J].信息与电脑,2019,31(24):20-22. 被引量：4

二级参考文献28

1陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
2李道国,苗夺谦,张红云.粒度计算的理论、模型与方法[J].复旦学报（自然科学版）,2004,43(5):837-841. 被引量：41
3杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：191
4王玲,薄列峰,焦李成.密度敏感的谱聚类[J].电子学报,2007,35(8):1577-1581. 被引量：61
5杨博,刘大有,LIU Jiming,金弟,马海宾.复杂网络聚类方法[J].软件学报,2009,20(1):54-66. 被引量：212
6王娜,李霞.基于监督信息特性的主动半监督谱聚类算法[J].电子学报,2010,38(1):172-176. 被引量：34
7王千,王成,冯振元,叶金凤.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21-24. 被引量：306
8马箐,谢娟英.基于粒计算的K-medoids聚类算法[J].计算机应用,2012,32(7):1973-1977. 被引量：39
9章永来,史海波,尚文利,周晓锋,纪晓楠.面向乳腺癌辅助诊断的改进支持向量机方法[J].计算机应用研究,2013,30(8):2373-2376. 被引量：12
10余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：611

共引文献278

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：13
2许文坚,高维新,程耀坤.基于钻石模型的广东省生猪产业竞争力评价分析[J].现代畜牧兽医,2022(12):56-62. 被引量：3
3刘振宇,丁宇祺.自然环境中被遮挡果实的识别方法研究[J].计算机应用研究,2020,37(S02):333-335. 被引量：6
4张仲宸,周浩,林波荣,李嘉麒,田昕,吴佳欣,陈帅元,黄莉.基于数据挖掘的办公建筑运行阶段碳排放分析[J].建筑节能,2020,48(11):1-6. 被引量：11
5薛丁文,李建中.基于KD树的k-means聚类算法优化[J].智能计算机与应用,2021,11(11):194-197. 被引量：6
6远志.关于中医学跨世纪发展若干问题的思考[J].中医杂志,2000,41(1):5-6. 被引量：5
7王胜毅,蔄晓琨,于振,夏君.基于聚类的输电线路工程造价综合智能预测方法[J].山东电力技术,2019,46(5):12-16. 被引量：10
8徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
9任静,樊泽明,康萍.聚类算法在计量属性基准确定中的应用研究[J].电子设计工程,2019,27(16):83-87. 被引量：2
10赵谦益.K-means算法中文文献聚类的Python实现[J].软件,2019,40(8):89-94. 被引量：6

同被引文献13

1王飞,黄艺璠,汪鹏.基于多模态数据的肺癌专病库建设研究[J].中国数字医学,2021,16(12):85-88. 被引量：8
2唐斌,姚陆晨,姜胜耀.医院科研大数据平台的应用实践探索[J].中国数字医学,2021,16(11):104-108. 被引量：13
3孙凤英,于修义.临床专科术语标准化和电子病历结构化构建实践[J].中国病案,2018,19(12):6-8. 被引量：9
4罗旭,刘友江.医疗大数据研究现状及其临床应用[J].医学信息学杂志,2015,36(5):10-14. 被引量：65
5李伟,刘光明,张真发.基于MongoDB数据库的临床医疗大数据存储方案设计与优化[J].工业控制计算机,2016,29(1):121-123. 被引量：10
6俞高.基于医疗大数据的临床科研平台应用设计[J].中国数字医学,2016,11(9):15-17. 被引量：10
7彭红波,韩晟,王婷婷.基于Solr的电子病历全文检索系统的设计与实现[J].中国医疗设备,2019,34(3):102-105. 被引量：8
8董方杰,李岳峰,杨龙频,张黎黎,胡建平.我国卫生健康信息标准工作进展与展望[J].中国卫生信息管理杂志,2019,16(4):400-405. 被引量：39
9林琳,孙瑄,王韬,缪中荣,甘伟,牛明芳.基于前循环脑梗死神经血管介入专病库的临床科研一体化研究模式应用探讨[J].中国卒中杂志,2020,15(3):332-336. 被引量：8
10朱明宇.临床科研大数据平台研究[J].中国数字医学,2020,15(7):17-18. 被引量：6

引证文献1

1查君林,汪卓赟.医院科研大数据平台建设探索[J].齐齐哈尔医学院学报,2022,43(17):1659-1663. 被引量：3

二级引证文献3

1王奕,高宇.基于数据中台的数据管理体系探讨[J].中国数字医学,2023,18(1):23-27. 被引量：8
2陈燕燕,范向群,林浩,林曼君.福建省妇幼保健院多院区一体化管理的实践与思考[J].中国当代医药,2023,30(28):155-159. 被引量：1
3王占利.基于新时代教育评价下的中医妇科学科建设思考[J].中医药管理杂志,2024,32(6):222-224.

1刘雅萌,韩全芳.福利多元主义视域下我国医养结合养老政策路径研究[J].现代商贸工业,2021,42(28):55-57. 被引量：1
2刘月,许丽颖,王玉娇,于江波,杨立学.紫椴次生林枯立木与活立木数量及空间结构特征分析[J].北京林业大学学报,2020(6):68-79. 被引量：5
3王永刚,李靖,王文慧,曹传剑,王晓燕.基于和声搜索机制的特征选择与文本聚类分析[J].计算机工程与设计,2022,43(2):472-478.
4王贤明,潘佳玲,胡智文.AR-Grams:一种应用于网络舆情热点发现的文本聚类方法[J].中国传媒大学学报（自然科学版）,2021,28(5):59-65. 被引量：2
5陈育丹,高翠芳,沈莞蔷,殷萍.迭代直觉模糊K-modes算法[J].计算机应用,2022,42(2):375-381.
6高劲松,付家炜.基于知识元的文物图像资源细粒度知识表示方法研究[J].情报科学,2022,40(1):16-24. 被引量：11
7潘俊辉,王辉,张强,王浩畅.基于Hadoop平台的一种改进K-means文本聚类算法[J].微型电脑应用,2022,38(1):5-7. 被引量：4
8徐嘉杰,陈光宇,袁飞,代勇,张伟,张寒.基于IBBO和K-means++融合的多属性台区聚类研究[J].电气自动化,2022,44(1):44-46. 被引量：1
9徐绪堪,薛梦瑶,钱进.基于知识元语义描述模型的红色文化数字资源知识抽取研究[J].科技情报研究,2022,4(1):23-33. 被引量：9
10方璐.基于CiteSpace的国内初中英语教学研究回顾与展望[J].海外英语,2021(23):22-24.

南京理工大学学报

2022年第1期

浏览历史

内容加载中请稍等...

基于知识图谱的k-modes文本聚类研究被引量：1

参考文献7

二级参考文献28

共引文献278

同被引文献13

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于知识图谱的k-modes文本聚类研究 被引量：1

参考文献7

二级参考文献28

共引文献278

同被引文献13

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于知识图谱的k-modes文本聚类研究被引量：1