基于信息增益的文本特征权重改进算法被引量：9

Improved Algorithm of Text Feature Weighting Based on Information Gain

下载PDF

导出

摘要传统tf.idf算法中的idf函数只能从宏观上评价特征区分不同文档的能力,无法反映特征在训练集各文档以及各类别中分布比例上的差异对特征权重计算结果的影响,降低文本表示的准确性。针对以上问题,提出一种改进的特征权重计算方法tf.igt.igC。该方法从考察特征分布入手,通过引入信息论中信息增益的概念,实现对上述特征分布具体维度的综合考虑,克服传统公式存在的不足。实验结果表明,与tf.idf.ig和tf.idf.igc 2种特征权重计算方法相比,tf.igt.igC在计算特征权重时更加有效。 The idf function of traditional （f..idf algorithm can only evaluate the ability of features to discriminate different documents in a macroscopically way, which can not reflect the differences of distribution proportion for features in each document and each class of the whole training set, it reduces the accuracy of text representation. To solve the above problem, this paper proposes an improved feature weighting method called tfig,.igc. This method begins from analyzing the characteristics of feature distribution, through introducing the concept of information gain in the information theory, realizes the comprehensive consideration of the two specific dimensions of feature distributions, and overcomes the shortcomings of the traditional formula. Experimental results on the two open source corpus show that compared to other two feature weighting methods, tf.ig.igc is more effective in terms of calculating the feature weighting.

作者李凯齐刁兴春曹建军

机构地区解放军理工大学指挥自动化学院总参第六十三研究所

出处《计算机工程》 CAS CSCD 北大核心 2011年第1期16-18,21,共4页 Computer Engineering

基金中国博士后科学基金资助项目(20090461425) 江苏省博士后科研计划基金资助项目(0901014B)

关键词特征分布特征加权文本分类 feature distribution feature weighting text classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Sebastiani F. Machine Learning in Automated Text Categorization[J]. ACM Computing Surveys, 2002, 34(1): 1-47.
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
3台德艺,王俊.文本分类特征权重改进算法[J].计算机工程,2010,36(9):197-199. 被引量：26
4陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
5Mladenic D, Brank J, Grobelnik M, et al. Feature Selection Using Linear Classier Weights: Interaction with Classication Models[C]// Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: ACM Press, 2004: 234-241.
6鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
7张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161. 被引量：33

二级参考文献41

1宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
2唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
3王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
4李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
5李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
6Rocchio J.The SMART Retrieval System:Experiments in Automatic Document Processing[M].Englewood Cliffs,USA:Prentice-Hall,1971.
7Salton G,Buckley C.Term Weighting Approaches in Automatic Text Retrieval[J].Information Processing and Management,1988,24(5):513-523.
8Salton G.Developments in Automatic Text Retrieval[J].Science,1991,253(5023):974-979.
9Sebastiani F.Machine Learning in Automated Text Categoriza-tion[J].ACM Computing Surveys,2002,34(1):1-47.
10Shankar S,Karypis G.A Feature Weight Adjustment Algorithm for Document Categorization[C]//Proc.of KDD'00.New York,USA:ACM Press,2000.

共引文献618

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
4张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
5况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
6王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
7徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
8袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
9贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
10刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.

同被引文献74

1吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
2罗向阳,刘粉林,杨春芳,王道顺.基于最优小波包分解的图像隐写通用检测[J].中国科学：信息科学,2010,40(2):327-339. 被引量：5
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
4许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
5寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
6张丙奇.基于领域知识的个性化推荐算法研究[J].计算机工程,2005,31(21):7-9. 被引量：34
7任江涛,孙婧昊,黄焕宇,印鉴.一种基于信息增益及遗传算法的特征选择算法[J].计算机科学,2006,33(10):193-195. 被引量：18
8Magerman T,Looy B V,Song Xiaoyan.Exploring the Feasibility and Accuracy of Latent Semantic Analysis Based Text Mining Techniques to Detect Similarity Between Patent Documents and Scientific Publications[J].Scientometrics,2010,82(2):289-306.
9Shi Guoliang,Kong Yanqing.Advances in Theories and Applications of Text Mining[C]//Proc.of the 1st International Conference on Information Science and Engineering.[S.1.]:IEEE Press,2009:4167-4170.
10Xue Xiaobing,Zhou Zhihua.Distributional Features for Text Categorization[J].IEEE Transactions on Knowledge and Data Engineering,2009,21(3):428-442.

引证文献9

1赵航,杨天奇,赵小厦.基于特征噪声加权的特征权重算法改进[J].微型机与应用,2012,31(3):66-68.
2刘端阳,陆洋.一种有指导的文本特征加权改进算法[J].计算机工程,2012,38(8):128-130. 被引量：2
3徐勇,司凤山,吴延辉,陈建国,周善英.基于概念泛化的科技文献推荐算法[J].图书情报工作,2012,56(21):101-108. 被引量：3
4徐勇,陈建国,胡凌云,张林,周善英.基于泛化语义相似的科技文献混合推荐算法[J].情报理论与实践,2013,36(2):96-99. 被引量：1
5汪海涛,张卓,杨晓元,林志强.基于优化特征加权支持向量机的隐写分析方法[J].计算机应用研究,2013,30(7):2105-2107. 被引量：9
6龚静,胡平霞,李春媚.一种用于文本分类的特征项权值计算方法的研究[J].惠州学院学报,2013,33(6):78-81.
7胡雯雯,高俊波,施志伟,刘志远.基于词性特征的特征权重计算方法[J].计算机系统应用,2018,27(1):92-97. 被引量：1
8任世超,黄子良.基于二维信息增益加权的朴素贝叶斯分类算法[J].计算机系统应用,2019,28(6):135-140. 被引量：3
9赵博文,王灵矫,郭华.基于泊松分布的加权朴素贝叶斯文本分类算法[J].计算机工程,2020,46(4):91-96. 被引量：12

二级引证文献31

1郑俊浩.基于深度学习的乳腺癌MRI影像预处理[J].智能计算机与应用,2020,10(1):231-232. 被引量：1
2鲜研,潘峰,申军伟.基于特征融合的加权SVM音频隐写分析算法[J].网络安全技术与应用,2014(9):45-46.
3胡龙茂.中文文本分类技术比较研究[J].安庆师范学院学报（自然科学版）,2015,21(2):49-53. 被引量：3
4何凤英,钟尚平,肖玉麟.基于改进支持向量机的高维隐写盲检测方法[J].计算机工程,2015,41(6):121-125.
5赵夷平,毕强.关联数据在学术资源网相似文献发现中的应用研究[J].现代图书情报技术,2016(3):41-49. 被引量：5
6刘凯,彭维捷,杨学君.特征优化和模糊理论在变压器故障诊断中的应用[J].电力系统保护与控制,2016,44(15):54-60. 被引量：18
7徐欢潇,徐慧,雷丽婷.多特征分类识别算法融合的网络钓鱼识别技术[J].计算机应用研究,2017,34(4):1129-1132. 被引量：6
8徐嘉,张莉.基于分类特征选择的激光成像隐写算法研究[J].激光杂志,2017,38(5):154-158.
9李长生,吴辰文,梁靖涵,王伟.信息熵特征加权核函数的SVM数据分类方法[J].小型微型计算机系统,2017,38(7):1528-1532. 被引量：9
10耿立校,晋高杰,李亚函,孙卫忠,马士豪.基于改进内容过滤算法的高校图书馆文献资源个性化推荐研究[J].图书情报工作,2018,62(21):112-117. 被引量：22

1李阳铭,宋全军,刘海,葛运建.用于移动机器人导航的通用激光雷达特征提取[J].华中科技大学学报（自然科学版）,2013,41(S1):280-283. 被引量：4
2卢涵宇,王华军,柳锦宝,陈军,段英杰.基于Surfer的地学数据快速可视化研究及应用[J].广西大学学报（自然科学版）,2011,36(2):279-284. 被引量：8
3张吴波,史旅华.C语言程序中如何正确使用feof函数[J].现代计算机,2015,21(7):53-55.
4王亚英,张春慨,邵惠鹤.变论域知识约简算法[J].上海交通大学学报,2002,36(4):566-569. 被引量：6
5王晨曦,林耀进,刘景华,林梦雷.基于加权正域的特征选择算法[J].计算机科学与探索,2015,9(3):368-375. 被引量：1
6黄瑛.C语言教材中对feof函数的常见误解与误用[J].科教文汇,2012(13):61-61. 被引量：1
7舒小松,佟君伟.C语言中文件结束符、FEOF函数与文档编码的探讨[J].福建电脑,2016,32(12):162-162.
8张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161. 被引量：33
9李志义,王冕,赵鹏武.基于条件随机场模型的“评价特征-评价词”对抽取研究[J].情报学报,2017,36(4):411-421. 被引量：8
10梁里宁.一个基于VFP的DateDiff函数的实现[J].华南金融电脑,2005,13(10):76-77.

计算机工程

2011年第1期

浏览历史

内容加载中请稍等...

基于信息增益的文本特征权重改进算法被引量：9

参考文献7

二级参考文献41

共引文献618

同被引文献74

引证文献9

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于信息增益的文本特征权重改进算法 被引量：9

参考文献7

二级参考文献41

共引文献618

同被引文献74

引证文献9

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于信息增益的文本特征权重改进算法被引量：9