基于概念簇的文本分类算法被引量：2

Text Classification Algorithm Based on Concept Clusters

导出

摘要针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型SCVM(Semantic Concept Vector Model)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,提出基于概念簇的文本分类算法TCABCC(Text Classification Algorithm Based on the Concept of Clusters),通过改进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇。实验结果表明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高。 The traditional text classification algorithms has the problems of high - dimensional, rarefaction and ignoring the semantic correlation of keywords in the vector space model, and it easily leads to low efficiency and poor quality. Taking HowNet as knowledge repository, this paper develops the semantic concept vector model to represent text, merges synonyms and disambiguates polymerizes according to the concept of semantic and the context background. Then it proposes the text classification algorithm of TCABCC based on concept clusters by improving KNN, which uses concept clusters to present training samples of each category, makes similarity calculation based on text concept vector and category concept clusters. The experimental results show that the classifier constructed by this algorithm greatly improves the efficiency and performance than traditional KNN.

作者马甲林刘金岭金春霞

机构地区淮阴工学院计算机工程学院

出处《图书情报工作》 CSSCI 北大核心 2013年第15期132-136,82,共6页 Library and Information Service

基金江苏省教育厅高校哲学社会科学项目"网络资源个性化信息服务模式研究"(项目编号:2012SJD870001)研究成果之一

关键词文本分类语义概念向量概念簇 KNN 知网 text classification semantic concept vector concept cluster KNN HowNet

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1庞剑锋;卜东波;白硕.基于向量空间模型的文本自动分类系统的研究与实现[J]计算机应研究,2001(09).
2陈龙,范瑞霞,高琪.基于概念的文本表示模型[J].计算机工程与应用,2008,44(20):162-164. 被引量：16
3刘金岭.基于《现代汉语语义分类词典》的文本聚类方法[J].情报杂志,2010,29(11):170-173. 被引量：4
4Delgado M, Martin-Bautista M J, Sanchez D, et al. Mining text data: Special features and patterns [ C ]//Proceedings of ESF Exploratory Workshop on Pattern Detection and Discovery. London : Springer-Verlag,2002 : 140 - 153.
5Novovicova J, Malik A. Information- theoretic feature selection algorithms for text classification [ C] //Proceedings of IEEE International Joint Conference on Neural Networks. Washington, DC : IEEE Computer Society, 2005:3272 - 3277.
6熊忠阳,付玲玲,张玉芳.文本分类中基于概念映射的二次特征降维方法[J].计算机工程与应用,2012,48(1):166-169. 被引量：1
7刘海峰,张学仁,姚泽清,刘守生.基于类别选择的改进KNN文本分类[J].计算机科学,2009,36(11):213-216. 被引量：9
8刘金岭,冯万利,张永军.基于词汇链的中文短信主题语句抽取方法[J].计算机工程与应用,2012,48(7):132-134. 被引量：3
9刘金岭.基于降维的短信文本语义分类及主题提取[J].计算机工程与应用,2010,46(23):159-161. 被引量：18
10白秋产,金春霞,周海岩.概念向量文本聚类算法[J].计算机工程与应用,2011,47(35):155-157. 被引量：11

二级参考文献68

1徐建斌,施亚东.基于概念的文本自动分类研究的综述[J].福建电脑,2005,21(2):2-4. 被引量：3
2易高翔,程耕国.Web文本挖掘研究[J].武汉科技大学学报,2005,28(1):72-74. 被引量：5
3王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
4陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
5徐德智,郑春卉,K. Passi.基于SUMO的概念语义相似度研究[J].计算机应用,2006,26(1):180-183. 被引量：56
6赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量：11
7闫蓉,张蕾.一种新的汉语词义消歧方法[J].计算机技术与发展,2006,16(3):22-25. 被引量：3
8卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
9廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
10苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387

共引文献71

1刘俊杰,叶英豪,董立映.航空安全信息风险主题语义图谱构建[J].情报工程,2022,8(4):31-40.
2黄伟,刘海涛.汉语语体的计量特征在文本聚类中的应用[J].计算机工程与应用,2009,45(29):25-27. 被引量：35
3刘金岭.基于主题的中文短信文本分类研究[J].计算机工程,2010,36(4):30-32. 被引量：14
4刘金岭.基于语义密度的文本聚类研究[J].计算机工程,2010,36(5):81-83. 被引量：7
5李海燕,李生红,张月国.面向离散文本舆情分析的分聚类方案[J].信息安全与通信保密,2010,7(2):65-67. 被引量：3
6刘金岭.海量中文短信文本最佳聚类数研究[J].计算机工程,2010,36(8):66-68. 被引量：1
7刘金岭.基于语义的中文文本聚类最佳簇数研究[J].计算机工程与设计,2010,31(9):2034-2036.
8刘金岭,谈芸,李健普,袁娜.基于多因素的中文文本主题自动抽取方法[J].计算机技术与发展,2010,20(7):72-75. 被引量：3
9刘卫,刘金岭.基于《知网》的词语语义相似度改进及应用[J].福建电脑,2010,26(5):10-11. 被引量：1
10刘金岭.基于降维的短信文本语义分类及主题提取[J].计算机工程与应用,2010,46(23):159-161. 被引量：18

同被引文献46

1毕强,贾春华.论情报接受的基本规律[J].情报科学,1994,15(5):5-13. 被引量：3
2鲍钰.基于Web日志的个性化搜索引擎模型的发现[J].计算机应用研究,2009,26(5):1806-1809. 被引量：6
3滕广青,毕强.基于概念格的数字图书馆用户用法细分——数字图书馆用户使用方法的关联规则挖掘[J].现代图书情报技术,2010(3):8-12. 被引量：11
4张振亚,程红梅,张曙光.基于六度分离理论的机会发现场景构造方法[J].模式识别与人工智能,2011,24(3):332-339. 被引量：2
5吕成戍,王维国,丁永健.基于KNN-SVM的混合协同过滤推荐算法[J].计算机应用研究,2012,29(5):1707-1709. 被引量：11
6邱瑾,吴丹.协同信息检索用户行为研究方法综述[J].信息资源管理学报,2012,2(1):74-81. 被引量：11
7雷万保,程园,崔珞琨,汪杨.基于服务关联模型的云服务权重计算算法[J].信息化研究,2014,40(1):23-27. 被引量：1
8武澎,王恒山.基于特征向量中心性的社交信息超网络中重要节点的评判[J].情报理论与实践,2014,37(5):107-113. 被引量：24
9徐鸿雁.基于视频场景分析的背景音乐自动推荐方法[J].计算机应用,2014,34(A01):268-269. 被引量：3
10郭顺利,李秀霞.基于情境感知的移动图书馆用户信息需求模型构建[J].情报理论与实践,2014,37(8):64-68. 被引量：44

引证文献2

1毕达天,王福,许鹏程.基于VSM的移动图书馆用户画像及场景推荐[J].数据分析与知识发现,2018,2(9):100-108. 被引量：37
2王益成,王萍,张禹.基于向量空间模型的科技情报用户画像及场景化服务推送研究[J].现代情报,2020,40(2):3-10. 被引量：21

二级引证文献55

1郑彦宁,王益成,李会.面向政府激励场景的科技情报交互演化博弈与仿真研究[J].情报科学,2023,41(11):141-150. 被引量：1
2王福,于海涛.移动图书馆信息接受场景构建[J].国家图书馆学刊,2019,0(6):90-98. 被引量：6
3毕达天,王福.移动图书馆场景化信息接受过程的情感变化研究[J].图书情报工作,2019,63(6):20-28. 被引量：16
4王福,刘兴军.移动图书馆场景化信息接受思维及其应用研究[J].国家图书馆学刊,2019,28(3):45-53. 被引量：7
5王福,冯宏宇.移动图书馆场景化信息接受相关概念的新视域[J].现代情报,2019,39(7):3-8. 被引量：8
6王福,毕强.移动图书馆场景化信息接受优化路径及策略[J].图书情报工作,2019,63(17):51-59. 被引量：2
7徐海玲,张海涛,张枭慧,魏明珠.基于概念格的高校图书馆群体用户兴趣画像研究[J].情报科学,2019,37(9):153-158. 被引量：24
8王福,刘姝瑾.移动图书馆场景化信息接受博弈及其优化[J].图书情报工作,2019,63(23):13-20. 被引量：3
9王益成,王萍,张禹.基于向量空间模型的科技情报用户画像及场景化服务推送研究[J].现代情报,2020,40(2):3-10. 被引量：21
10王福.信息接受视域下的移动图书馆场景化营销剖析[J].图书情报知识,2020,0(1):24-31. 被引量：5

1查宗旬,王命延.基于任务和角色的工作流访问控制模型[J].计算机与现代化,2010(11):139-141. 被引量：1
2麦晋,董健全.基于语义查询的P2P路由模型研究[J].计算机工程与设计,2009,30(18):4146-4150.
3王琳,陈伟萍,封化民,方勇,杨鼎才.基于类别概念的特征选择方法[J].北京电子科技学院学报,2006,14(2):10-14. 被引量：1
4张瑜,苏晓路,刘世洪,李景,胡海燕.基于本体的农业科技信息用户建模系统设计与实现[J].现代图书情报技术,2009(11):34-39. 被引量：1
5梁艳华.计算机通信信息不可否认性[J].黑龙江科技信息,2012(18):95-95.
6张剑,李春平.基于WordNet概念向量空间模型的文本分类[J].计算机工程与应用,2006,42(4):174-178. 被引量：16
7白秋产,金春霞,周海岩.概念向量文本聚类算法[J].计算机工程与应用,2011,47(35):155-157. 被引量：11
8万富强,吴云芳.基于中文维基百科的词语语义相关度计算[J].中文信息学报,2013,27(6):31-37. 被引量：9
9曾超,吕钊,顾君忠.基于概念向量空间模型的电子邮件分类[J].计算机应用,2008,28(12):3248-3250.
10甘睿,印鉴.通过挖掘示例中的概念来解决多示例学习问题[J].计算机研究与发展,2011,48(S3):73-78. 被引量：3

图书情报工作

2013年第15期

浏览历史

内容加载中请稍等...

基于概念簇的文本分类算法被引量：2

参考文献12

二级参考文献68

共引文献71

同被引文献46

引证文献2

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

基于概念簇的文本分类算法 被引量：2

参考文献12

二级参考文献68

共引文献71

同被引文献46

引证文献2

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

基于概念簇的文本分类算法被引量：2