基于支持向量机的Web文本分类方法被引量：19

Web Document Classification Based on SVM

下载PDF

导出

摘要 Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型,并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。 Web document classification has been considered as a hot research area in data mining. SVM is an effective method for learning the classification knowledge from massive data, especially in the situation of high cost in getting labeled classical examples. In this paper, based on the analyses of features of Web documents, this paper does research the approach of classification in Vector Space Model and select of Kernel function. Furthermore, a Web page classification model and algorithm that is based on Decision Tree SVM is presented. The experiments show that it not only reduces the size of train set, but also has very high training efficiency. Its precision（90.11%）and recall （89.38%）are also very good.

作者牛强王志晓陈岱夏士雄

机构地区中国矿业大学计算机科学与技术学院

出处《微电子学与计算机》 CSCD 北大核心 2006年第9期102-104,共3页 Microelectronics & Computer

基金中国矿业大学青年科研基金项目(OD4490)

关键词支持向量机特征提取 WEB文本文本分类 Support vector machine, Feature selection, Web documents, Text classification

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1杜树新,吴铁军.模式识别中的支持向量机方法[J].浙江大学学报（工学版）,2003,37(5):521-527. 被引量：119
2朱明,王军,王俊普.Web网页识别中的特征选择问题研究[J].计算机工程,2000,26(8):35-37. 被引量：29
3庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
4张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量：2276
5马笑潇,黄席樾,柴毅.基于SVM的二叉树多类分类算法及其在故障诊断中的应用[J].控制与决策,2003,18(3):272-276. 被引量：78

二级参考文献35

1耿遵敏,宋孔杰,李兆前,张兴华,万德玉.关于柴油机振声特点及动态诊断方法的研究与讨论[J].内燃机学报,1995,13(2):140-147. 被引量：32
2黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
3鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
4卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
5马笑潇.智能故障诊断中的机器学习新理论及其应用[D].重庆:重庆大学,2002.
6VAPNIK V N. The nature of statistical learning [M].Berlin:Springer, 1995.
7VAPNIK V N. Statistical learning theory [M]. New York:John Wiley & Sons, 1998.
8SCHōLKOPH B, SMOLA A J, BARTLETT P L. New support vector algorithms[J]. Neural Computation.2000, 12(5):1207--1245.
9SUYKENS J A K, VANDEWALE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293--300.
10CHEW H-G, BOGNER R E, LIM C-C, Dual v-support vector machine with error rate and training size beasing[A]. Proceedings of 2001 IEEE Int Conf on Acoustics,Speech, and Signal Processing [C]. Salt Lake City,USA: IEEE, 2001. 1269--1272.

共引文献2755

1白岗岗,侯精明,史玉品,韩浩,郭凯华,李丙尧,付德宇.基于支持向量机的葫芦河流域径流变化的多因素贡献率分析[J].水土保持研究,2020,27(2):112-117. 被引量：2
2曾赟.第四种法学知识新形态——数据法学的研究定位[J].法制与社会发展,2023,29(1):41-59. 被引量：11
3乔丹,刘刚,杨执钧,钟韬,白雪.基于迁移学习的船舶目标识别[J].计算机应用研究,2020,37(S01):324-325. 被引量：1
4孟琮棠,赵银娣,向阳.基于卷积神经网络的遥感图像变化检测[J].现代测绘,2019,0(5):1-5. 被引量：3
5郑建柏,朱永利,张文浩.支持向量机多分类及其在变压器故障诊断中的应用[J].中国电力教育,2007(z2):399-400. 被引量：4
6田海军,门洪,郎世伟.基于LS-SVM的电厂过热汽温仿真研究[J].微计算机信息,2007,23(10):270-272. 被引量：2
7张磊,夏士雄,牛强.基于SVM二叉决策树方法的矿井提升机故障诊断[J].微计算机信息,2008,24(10):198-199. 被引量：4
8瞿伟廉,谭冬梅.基于小波分析和支持向量机的结构损伤识别[J].武汉理工大学学报,2008,30(2):80-82. 被引量：3
9郑树剑,刘冀伟,何积铨,韩旭.基于支持向量机的混凝土结构中钢筋腐蚀的判别[J].电子器件,2007,30(5):1935-1938.
10殷彬,方思行.脾虚证诊断的数学模型[J].暨南大学学报（自然科学与医学版）,2006,27(3):363-367. 被引量：4

同被引文献124

1王俊英,郭景峰,霍峥.中文文本分类系统的设计与实现[J].微电子学与计算机,2006,23(z1):262-265. 被引量：3
2李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
3孙建涛,郭崇慧,陆玉昌,石纯一.多项式核支持向量机文本分类器泛化性能分析[J].计算机研究与发展,2004,41(8):1321-1326. 被引量：16
4高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
5刘良斌,王小平.基于支持向量机和输出编码的文本分类器研究[J].计算机应用,2004,24(8):32-34. 被引量：8
6贺贤明,戴坚峰.一种新型文本自动分类系统的研究与实现[J].微电子学与计算机,2004,21(10):23-26. 被引量：6
7徐勋华,王继成.支撑向量机的多类分类方法[J].微电子学与计算机,2004,21(10):149-152. 被引量：27
8侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
9陈伏兵,张生亮,高秀梅,杨静宇.小样本情况下Fisher线性鉴别分析的理论及其验证[J].中国图象图形学报,2005,10(8):984-991. 被引量：17
10赵万磊,王永吉,张学杰,李娟.一种优化初始中心点的K平均文本聚类算法[J].计算机应用,2005,25(9):2037-2040. 被引量：6

引证文献19

1刘斌,张楠.基于LS-SVM的在线文本识别方法[J].微电子学与计算机,2009,26(3):192-194. 被引量：2
2侯琳,廖明涛,李金库.基于模糊K最近邻和证据理论的增量式超文本分类方法[J].微电子学与计算机,2009,26(3):200-202.
3郑伟,王锐.文本分类中特征提取方法的比较与研究[J].河北北方学院学报（自然科学版）,2007,23(6):51-54. 被引量：10
4贾可亮,樊孝忠,许进忠.基于KNN的汉语问句分类[J].微电子学与计算机,2008,25(1):156-158. 被引量：13
5张苗,张德贤.多类支持向量机在文本分类中的应用[J].计算机与现代化,2008(5):104-106. 被引量：2
6刘海峰,姚泽清,王元元,张述祖.一种基于散度差组合型文本特征降维方法[J].微电子学与计算机,2008,25(8):69-71. 被引量：2
7刘海峰,姚泽清,王元元,张述祖.一种基于散度差组合型文本特征降维方法[J].微电子学与计算机,2009,26(4):1-4.
8刘海峰,刘守生,姚泽清,张学仁.一种基于改进K-means聚类的文本特征选择模型[J].微电子学与计算机,2009,26(6):29-31. 被引量：2
9胡昌平,胡吉明.个性化服务中基于支持向量机的用户兴趣挖掘分析[J].情报学报,2009,28(4):543-547. 被引量：7
10刘海峰,陈琦,刘守生,苏展.一种基于数据偏斜的改进KNN文本分类[J].微电子学与计算机,2010,27(3):51-53. 被引量：3

二级引证文献104

1胡媛敏,张寿明.基于信息论的TF-IDF算法在文本分类中的应用研究[J].中国水运（下半月）,2021,21(12):31-33. 被引量：6
2洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的设计与实现[J].世界科学技术-中医药现代化,2023(6):1935-1941. 被引量：4
3吴思瑶,姜绍飞,傅大宝.基于支持向量机的结构损伤识别研究[J].海峡科学,2012(8):32-36. 被引量：1
4陈锦青,韩延杰.基于改进遗传算法的支持向量机预测模型研究[J].微型机与应用,2013,32(24):82-84. 被引量：2
5郑伟,周志强,马艳丽.一种基于粗糙集理论的特征选择方法[J].河北北方学院学报（自然科学版）,2009,25(1):56-59. 被引量：7
6刘海峰,刘守生,姚泽清,张学仁.一种基于改进K-means聚类的文本特征选择模型[J].微电子学与计算机,2009,26(6):29-31. 被引量：2
7谢骏,李玉阳,韩梅,范培勤.时间序列无缝拼接技术[J].微电子学与计算机,2009,26(12):41-42.
8郝建柏,陈贤富,黄双福,杨俊.一种基于模糊近邻标签传递的半监督分类算法[J].微电子学与计算机,2010,27(2):30-33. 被引量：6
9郭海,赵晶莹,苏飞.基于小波分析及KNN的民族文字分类方法[J].微电子学与计算机,2010,27(2):107-110. 被引量：1
10郭亚琴,王正群.一种改进的支持向量机BS-SVM[J].微电子学与计算机,2010,27(6):54-56. 被引量：7

1张苗,张德贤.多类支持向量机在文本分类中的应用[J].计算机与现代化,2008(5):104-106. 被引量：2
2张大炜,关健.基于决策树和支持向量机的居民工作状态预测分析[J].知识经济,2013(16):14-14.
3王晴晴,汪正东,黄衍法,赵小虎.基于节点优化的决策树支持向量机及在故障诊断中的应用[J].煤矿机械,2010,31(6):241-243. 被引量：3
4黄华.基于DT和SVM算法的科技文献分类研究[J].决策与信息,2015(35):118-118.
5陶洪峰,周超超,杨慧中.三电平逆变器的决策树SVM故障诊断[J].电子测量与仪器学报,2017,31(2):238-244. 被引量：11
6厉小润,赵光宙,赵辽英.决策树支持向量机多分类器设计的向量投影法[J].控制与决策,2008,23(7):745-750. 被引量：14
7陈海洋,滕彦国,王金生.改进的决策树支持向量机地下水水质评价[J].计算机应用,2011,31(3):848-850. 被引量：4
8王强,陈欢欢,王珽.一种基于多类支持向量机的故障诊断算法[J].电机与控制学报,2009,13(2):302-306. 被引量：16
9刁智华,赵春江,郭新宇,陆声链.一种新的基于平衡决策树的SVM多类分类算法[J].控制与决策,2011,26(1):149-152. 被引量：21
10柯铭铭,路平,田庆民.基于决策树SVM的某型无人机发射机故障诊断[J].信息技术,2012,36(2):76-78. 被引量：2

微电子学与计算机

2006年第9期

浏览历史

内容加载中请稍等...

基于支持向量机的Web文本分类方法被引量：19

参考文献5

二级参考文献35

共引文献2755

同被引文献124

引证文献19

二级引证文献104

相关作者

相关机构

相关主题

浏览历史

基于支持向量机的Web文本分类方法 被引量：19

参考文献5

二级参考文献35

共引文献2755

同被引文献124

引证文献19

二级引证文献104

相关作者

相关机构

相关主题

浏览历史

基于支持向量机的Web文本分类方法被引量：19