面向层次分类的文本特征选择方法被引量：2

Text Feature Selection Method for Hierarchical Classification

导出

摘要提出一种针对层次分类的文本特征选择方法.先给出类别层次相关度的概念,并利用分类树和训练数据在不同层次上的概率分布进行计算,进而得到分类树中不同类别的重要性.最后基于前面的计算结果,计算每个特征对类别的识别能力,并选择识别能力大的特征组成用于分类的特征集合.实验表明该方法在选取的特征质量以及在accuracy、F1和micro-Precision等分类测度上均优于传统方法. An approach of feature selection for hierarchical classification is proposed. Firstly, the concept of category hierarchical correlation degree is introduced and it is calculated according to the category tree and the probability distribution of training data on different levels. Then, the importance degrees of categories are computed according to hierarchical correlation degree. Finally, the discriminative abilities of features are calculated based on the previous computation and the features with the greater discriminative ability are chosen as the feature set for classification. Experimental results show that the proposed approach outperforms the traditional feature selection methods on both quality of the features selected and standard classification metrics in terms of accuracy, F1 and micro-precision.

作者祝翠玲马军张冬梅

机构地区山东大学计算机科学与技术学院山东经济学院信息管理学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2011年第1期103-110,共8页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.60970047) 山东省自然科学基金项目(No.Y2008G19) 山东省科技攻关项目(No.2007GG10001002 2008GG10001026)资助

关键词文本特征选择类别层次相关层次分类机器学习 Text Feature Selection, Category Hierarchical Correlation, Hierarchical Classification,Machine Learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83
2CUI Zifeng,XU Baowen,ZHANG Weifeng,XU Junling.A New Approach of Feature Selection for Text Categorization[J].Wuhan University Journal of Natural Sciences,2006,11(5):1335-1339. 被引量：6
3赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21

二级参考文献23

1赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
3Wang Qiang, Wang Xiaolong, Guan Yi. A Study of Semi - Discrete Matrix Decomposition for LSI in Automated Text Categorization[A]. In: First International Joint Conference on Natural Language Processing[C]. 2003: 302- 309.
4Chen Wenliang, Chang xingzhi et al. Automatic Word Clustering for Text Categorization Using Global Information[ A]. In: Asia Information Retrieval Symposium[ C]. 2004:1 -6.
5Board,C. L. C. E.. China Library Categorization (The 4th ed. )[M]. Beijing Library Press, Beijing, 1999.
6Vladimir N. Vapnik. The Nature of Statistical Learning Theary[ M]. Springer, New York, 1998.
7Duda,R O,Hart,P E,Stork,D G. Pattern Classification . 2000
8Dash M,Liu H.Feature selectionfor classification[].Interna-tional Journal of Intelligent data Analysis.1997
9Mendenhall,W,Beaver,R J,Beaver,B M. Introduction to Probability and Statistics . 2004
10Yang Y,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization. // Proceedings of the 14th International Conference on Machine Learning ( ICML) . July8-111997

共引文献101

1杨炳儒,邵阔义,宋泽锋,张克君.基于高性能特征选择函数的Web文档聚类算法[J].计算机应用研究,2009,26(2):631-633. 被引量：2
2陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68. 被引量：1
3ZHANG Weifeng,XU Baowen,CUI Zifeng,XU Lei.Research on Bayesian Network Based User's Interest Model[J].Wuhan University Journal of Natural Sciences,2007,12(5):809-813.
4LI Yanling,DAI Guanzhong,ZHU Yehang,QIN Sen.A High-Performance Extraction Method for Public Opinion on Internet[J].Wuhan University Journal of Natural Sciences,2007,12(5):902-906. 被引量：3
5原福永,于歌,崔春华.基于特征选择的网页分类方法研究[J].计算机工程与设计,2007,28(17):4282-4284. 被引量：3
6李艳玲,戴冠中,覃森.快速的文本倾向性分类方法(英文)[J].电子科技大学学报,2007,36(6):1232-1236. 被引量：2
7徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83
8吕震宇,林永民,赵爽,陈景年,朱卫东.基于类信息的文本特征选择与加权算法研究[J].计算机工程与应用,2008,44(20):145-147. 被引量：8
9陈思宝,胡郁,王仁华.一种结构受限的异方差线性判别分析[J].中文信息学报,2008,22(4):94-99.
10田启川,刘正光,李临生,屈耀红,李子良,刘喜荣.基于AdaBoost改善虹膜分类性能[J].系统仿真学报,2008,20(15):4045-4048.

同被引文献29

1潘文峰.[D].北京.中国科学院计算技术研究所,2004.7.
2Ducheneaut N, Watts L. In search of coherence : a review of e-mail re- search [ J ]. Human-Computer Interaction,2004 : 11 - 48.
3中国反垃圾邮件状况调查报告[DB/OL],2010-07-15.http://ww.isc.org.cn/zxzx/xhdt/listinfo一1775.html.
4Androutsopoulos I, Koutsias J, Chandrinos K V, et al. An evaluation of naive Bayesian anti-spam filtering[ C ]//Proceedings of the 1 l th Euro- pean Conference on Machine Learning. Barcelona, Spain : Springer-Ver- lagi2000:9 - 17.
5Can'eras X, Marquez L. Boosting trees for anti-spam e-mail filtering [ C ]//Proceedings of the 4th International Conference on Recent Ad- vances in Natural Language Processing,2001:58 -64.
6Nicholas T. Using adaboost and decision stumps to identify spam e-mail [ R]. Stanford University,2003.
7Yang Y M, Pedersen J O. A comparative study on feature selection in text categorization [ C ]. International Conference on Machine Learning Nashville Tennessee, USA, IMLS, 1997:412 - 420.
8王强,关毅,王晓龙.基于标题类别语义识别的文本分类算法研究[J].电子与信息学报,2007,29(12):2885-2890. 被引量：6
9Kim K,Chung B S,Choi Y R,et al.Semantic pattern tree kernels for short-text classification[C]//Proc of the 9th IEEE International Conference on Dependable:Autonomic and Secure Computing.[S.l.]:IEEE Press,2011:1250-1252.
10Kirange D K.Emotion classification of news headlines using SVM[J].Asian Journal of Computer Science & Information Technology,2013,2(5):104-106.

引证文献2

1白宁.基于特征选择融合的垃圾邮件过滤方法[J].计算机应用与软件,2014,31(4):31-34. 被引量：2
2葛文镇,刘柏嵩,王洋洋,赵福青.基于层级类别信息的标题自动分类研究[J].计算机应用研究,2016,33(7):2030-2033. 被引量：6

二级引证文献8

1张磊.文本分类及分类算法研究综述[J].电脑知识与技术,2016,12(12):225-226. 被引量：12
2高元,刘柏嵩.基于集成学习的标题分类算法研究[J].计算机应用研究,2017,34(4):1004-1007. 被引量：10
3李巧,周双娥,杨晶.模型融合在用户续购行为分析中的应用[J].小型微型计算机系统,2017,38(10):2231-2235. 被引量：2
4魏小锐.基于整体相似度的文档主题匹配研究[J].网络安全技术与应用,2018(3):44-46. 被引量：1
5段乃侠.基于多媒体图像技术的招贴信息自动分类方法研究[J].自动化与仪器仪表,2019,0(7):18-21. 被引量：1
6王珺.基于文本特征识别的电子档案自动归类系统研究[J].现代电子技术,2019,42(18):45-49. 被引量：5
7桑雪,何静,陈明.基于TF-IDF和LSI模型的网络舆情实时监测建模和应用[J].数学的实践与认识,2022,52(11):56-66. 被引量：3
8周长江,蔡榕,祝和明,王存超,郭晏.基于专利数据的电力标引信息挖掘技术研究[J].自动化技术与应用,2024,43(4):118-121.

1李建青.软件系统的数据设计及实现研究[J].电脑编程技巧与维护,2012(20):38-39. 被引量：2
2陆彦婷,陆建峰,杨静宇.层次分类方法综述[J].模式识别与人工智能,2013,26(12):1130-1139. 被引量：21
3郑伟,周志强,马艳丽.一种基于粗糙集理论的特征选择方法[J].河北北方学院学报（自然科学版）,2009,25(1):56-59. 被引量：7
4何力,贾焰,韩伟红,谭霜,陈志坤.大规模层次分类问题研究及其进展[J].计算机学报,2012,35(10):2101-2115. 被引量：14
5雷虎,樊泽明.引力搜索算法优化脉冲耦合网络的图像检索方法[J].湘潭大学自然科学学报,2016,38(1):86-89. 被引量：3
6孔锐,施泽生,郭立,张国宣.利用组合核函数提高核主分量分析的性能[J].中国图象图形学报（A辑）,2004,9(1):40-45. 被引量：22
7何力,丁兆云,贾焰,韩伟红.大规模层次分类中的候选类别搜索[J].计算机学报,2014,37(1):41-49. 被引量：19
8姚红革,杜亚勤.基于多模式多特征融合粒子滤波视频目标跟踪[J].西安工业大学学报,2012,32(11):886-890. 被引量：1
9李瑞远,洪亮,曾承.多层聚簇中基于协同过滤的跨类推荐算法[J].小型微型计算机系统,2017,38(4):657-663. 被引量：5
10张忠林,刘述昌,江粉桃.深层次分类中候选类别搜索算法[J].计算机应用,2017,37(3):635-639. 被引量：1

模式识别与人工智能

2011年第1期

浏览历史

内容加载中请稍等...

面向层次分类的文本特征选择方法被引量：2

参考文献3

二级参考文献23

共引文献101

同被引文献29

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

面向层次分类的文本特征选择方法 被引量：2

参考文献3

二级参考文献23

共引文献101

同被引文献29

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

面向层次分类的文本特征选择方法被引量：2