基于潜在语义分析和HS-SVM的文本分类模型研究被引量：9

Research on Text Categorization Model Based on Latent Semantic Analysis and HS-SVM

导出

摘要为了提高文本分类的准确性和效率,提出了一种基于潜在语义分析和超球支持向量机的文本分类模型。针对SVM对大规模文本分类时收敛速度较慢这一缺点,本文将超球支持向量机应用于文本分类,采用基于增量学习的超球支持向量机分类学习算法进行训练和分类。实验结果表明,超球支持向量机是一种解决SVM问题的有效方法,在文本分类应用中具有与SVM相当的精度,但是明显降低了模型复杂度和训练时间。 A text categorization model based on Latent Semantic Analysis and Hyper-sphere Support Vector Machine （HS-SVM） is proposed to improve the accuracy and efficiency of text categorization. As the convergence rate of using SVM to categorize the large-scale text is relatively slow,the Hyper-sphere Support Vector Machine is applied to text categorization and the Hyper-sphere Support Vector Machine Classification Learning Algorithm based on incremental learning is applied to training and categorization. Experiments show that the Hyper-sphere Support Vector Machine is an efficient solution to the SVM problem,and has the same accuracy as the SVM in the text categorization applications,but significantly reduces the complexity of the model and the training time.

作者张玉峰何超

机构地区武汉大学信息资源研究中心

出处《情报理论与实践》 CSSCI 北大核心 2010年第7期104-107,共4页 Information Studies:Theory & Application

基金教育部人文社会科学重点研究基地重大项目"基于智能信息处理的知识挖掘技术及应用研究"资助的成果之一项目编号:08JJD870225

关键词文本分类潜在语义分析支持向量机 text categorization latent semantic analysis support vector machine

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1SEBASTIANI F. Text categorization ; in alessandro zanasied, text mining and its application [ M ]. Southam-pton: WIT Press, 2005: 109-129.
2蒲筱哥.自动文本分类方法研究述评[J].情报科学,2008,26(3):469-475. 被引量：12
3DEERWETER S, DUNMAIS S T, FURNAS G W. Indexing by latent semantic analysis [ J]. Journal of the American Society for Information Science, 1990, 41 (6) : 391-407.
4SALTON Q, WANG A, YANG C S. A vector space model for automatic indexing [ J ]. Communication of the ACM, 1975, 18 (11): 613-620.
5王国勇,徐建锁.一种基于LSA和Kohonen网络的文本分类新方法[J].计算机应用,2004,24(2):53-55. 被引量：2
6LI Cheng-Hua. An efficient document categorization model based on LSA and BPNN [ C ]. Sixth International Conference on ALPIT, 2007: 9-14.
7李良俊,张斌,杨明.基于LSA降维的KNN文本分类算法[J].东北师大学报（自然科学版）,2007,39(2):33-36. 被引量：7
8王永智,滕至阳,王鹏,聂江涛.基于LSA和SVM的文本分类模型的研究[J].计算机工程与设计,2009,30(3):729-731. 被引量：10
9TSANG W, KOCSOR A, KWOK J T. Simpler core vector machines with enclosing balls [ C] //Proc of the 24^th Int'l Conf on Machine Learning, 2007: 12-18.
10卢祖友,桑永胜.基于球向量机的中文文本分类[J].计算机工程与科学,2008,30(12):82-84. 被引量：2

二级参考文献141

1付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
2曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
3秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
4刘云峰,齐欢,代建民.潜在语义分析在中文信息处理中的应用[J].计算机工程与应用,2005,41(3):91-93. 被引量：18
5李盼池,许少华.支持向量机在模式识别中的核函数特性分析[J].计算机工程与设计,2005,26(2):302-304. 被引量：98
6万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. 被引量：11
7唐发明,王仲东,陈绵云.支持向量机多类分类算法研究[J].控制与决策,2005,20(7):746-749. 被引量：90
8孔锐,张冰.一种快速支持向量机增量学习算法[J].控制与决策,2005,20(10):1129-1132. 被引量：31
9赵宇,奚宏生,王子磊,杨坚.基于在线SVM的多用户检测算法及仿真[J].系统仿真学报,2006,18(1):50-53. 被引量：9
10张剑飞,王辉,周颜军,王双成.基于局部优化具有连续变量的贝叶斯网络结构学习[J].东北师大学报（自然科学版）,2006,38(1):27-30. 被引量：5

共引文献196

1杜欣慧,张艳.神经网络和支持向量机在短期负荷预测中的应用[J].电气技术,2009,10(9):17-21. 被引量：2
2陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
3周艳飞,张绘芳,李霞,杨帆,丁程锋.基于高分辨遥感数据的胡杨与柽柳树冠提取[J].遥感技术与应用,2015,30(3):510-517. 被引量：17
4刘海峰.关于对网络时代下计算机审计的思考[J].贵州民族学院学报（哲学社会科学版）,2005(6):83-85.
5陈涛,谢阳群.基于支持向量机的外贸企业客户分类方法应用研究[J].情报科学,2006,24(7):1095-1099. 被引量：3
6林升梁,刘志.基于RBF核函数的支持向量机参数选择[J].浙江工业大学学报,2007,35(2):163-167. 被引量：143
7朱云涛,尹怡欣,杜军平.SVM增量算法及在旅游信息分类中的应用[J].计算机工程与设计,2007,28(3):700-702. 被引量：1
8何升,温兆麟.e-Learning中基于支持向量机的个性化学习资源推送[J].计算机工程与设计,2007,28(9):2120-2122. 被引量：3
9陈明晶.潜在语义分析方法在主观题评判中的应用[J].浙江科技学院学报,2007,19(2):93-96. 被引量：2
10孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6

同被引文献78

1胡于进,周小玲,凌玲,王学林.基于向量空间模型的贝叶斯文本分类方法[J].计算机与数字工程,2004,32(6):28-30. 被引量：7
2谢新洲,尹科强.竞争情报软件的分析与评价[J].情报学报,2004,23(6):736-745. 被引量：21
3蒲群莹.基于数据挖掘的竞争情报系统模型[J].情报杂志,2005,24(1):38-39. 被引量：28
4郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
5刘华富.支持向量机Mercer核的若干性质[J].北京联合大学学报,2005,19(1):45-46. 被引量：6
6张左之.Benchmarking：竞争情报的一种重要手段[J].情报理论与实践,1995,18(1):23-26. 被引量：27
7朱远平,戴汝为.基于SVM决策树的文本分类器[J].模式识别与人工智能,2005,18(4):412-416. 被引量：25
8毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：16
9吴金红,张玉峰,王翠波.面向主题的网络竞争情报采集系统[J].现代图书情报技术,2006(12):54-57. 被引量：18
10宋洁,曹青.企业主流竞争情报方法比较研究[J].情报科学,2007,25(2):183-187. 被引量：6

引证文献9

1张玉峰,何超.基于语义空间和SVM的竞争情报分类分析模型研究[J].情报杂志,2011,30(6):161-163. 被引量：1
2张玉峰,黄姮.融合文本自动分类的竞争情报定标比超分析模型研究[J].图书情报知识,2011,28(4):78-83. 被引量：1
3毕凌燕,王腾宇,左文明.基于概率模型的微博热点主题识别实证研究[J].情报理论与实践,2014,37(2):112-116. 被引量：9
4邵曦,陶凯云.基于音乐内容和歌词的音乐情感分类研究[J].计算机技术与发展,2015,25(8):184-187. 被引量：4
5韩开旭,任伟建.基于改进Fisher核函数的支持向量机在推特数据库情感分析中的应用[J].自动化技术与应用,2015,34(11):30-36. 被引量：4
6谭光兴,刘臻晖.基于SVM的局部潜在语义分析算法研究[J].计算机工程与科学,2016,38(1):177-182. 被引量：3
7陈珂,柯文德,刘美,张良均.一种基于多类别信息的局部潜在语义分析算法研究[J].南京邮电大学学报（自然科学版）,2016,36(1):119-124. 被引量：2
8吴勇,刘钰峰.基于相关度的局部潜在语义分析算法研究[J].控制工程,2017,24(8):1701-1706. 被引量：9
9何彬,李心宇,陈蓓蕾,夏盟,曾致中.基于属性关系深度挖掘的试题知识点标注模型[J].南京信息工程大学学报（自然科学版）,2019,11(6):727-734.

二级引证文献33

1王琳.主体参与扎实训练──第八册《基础训练7》教学设计[J].小学语文教学,2000(6):56-56.
2陈坤,韩立新.基于音频与歌词的音乐情感分类研究[J].电子测量技术,2018,41(22):15-20. 被引量：5
3徐童童.微博主题发现方法综述[J].内蒙古科技与经济,2015(19):81-83.
4田世海,吕德丽.改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警[J].数据分析与知识发现,2017,1(2):11-18. 被引量：7
5陈娟,高杉,邓胜利.社会化问答用户特征识别与行为动机分析——以“知乎”为例[J].情报科学,2017,35(5):69-74. 被引量：21
6杨波,卢嘉琦.基于竞争情报预警的企业技术创新风险影响因素分析[J].合肥工业大学学报（社会科学版）,2017,31(4):7-12. 被引量：3
7梁晓贺,田儒雅,吴蕾,张学福.基于超网络的微博舆情主题挖掘方法[J].情报理论与实践,2017,40(10):100-105. 被引量：20
8李惠富,陆光,景维鹏.文本分类中基于K-Sprinkling的特征提取方法[J].计算机工程,2017,43(12):141-146. 被引量：2
9高明柯,陈一民,张典华,吕圣卿,黄晨.基于证据理论融合的手势识别方法研究[J].计算机应用与软件,2018,35(1):191-194.
10魏勇.关联语义结合卷积神经网络的文本分类方法[J].控制工程,2018,25(2):367-370. 被引量：11

1邓擘,樊孝忠,杨立公.基于统计分布与集合论的文本分类方法[J].北京理工大学学报,2006,26(7):589-592. 被引量：2
2赵鹏.基于支持向量机的文本分类方法研究[J].齐齐哈尔大学学报（自然科学版）,2008,24(1):55-60.
3梁建,吕强,卫恒,林辉灿.基于智能算法的多机器人SLAM方法[J].中国科技信息,2016,0(23):21-22. 被引量：1
4张曦煌,须文波.基于增量学习的超球支持向量机设计[J].计算机工程与应用,2006,42(13):66-68. 被引量：2
5胡吉明,陈果.超球支持向量机文本分类方法改进[J].现代图书情报技术,2014(9):74-80. 被引量：3
6吕强,林辉灿,张洋,马建业.基于视觉的多机器人协作SLAM问题[J].科技导报,2015,33(23):110-115. 被引量：5
7刘爽,陈鹏,李锡祚.用于多类别分类的一种加权超球支持向量机算法[J].微电子学与计算机,2015,32(1):19-23.
8滕少华,陈海涛,张巍.基于超球支持向量机的多姿态协同人脸检测[J].计算机应用,2013,33(7):1988-1990. 被引量：3
9冯慧玲,常国权,孔娟.基于拉普拉斯分值和超球支持向量机的轴承故障诊断方法设计[J].计算机测量与控制,2015,23(4):1102-1105. 被引量：2
10戴书文.组合优化中启发式算法的研究分析[J].淮南职业技术学院学报,2005,5(1):72-74. 被引量：1

情报理论与实践

2010年第7期

浏览历史

内容加载中请稍等...

基于潜在语义分析和HS-SVM的文本分类模型研究被引量：9

参考文献18

二级参考文献141

共引文献196

同被引文献78

引证文献9

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于潜在语义分析和HS-SVM的文本分类模型研究 被引量：9

参考文献18

二级参考文献141

共引文献196

同被引文献78

引证文献9

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于潜在语义分析和HS-SVM的文本分类模型研究被引量：9