基于信息增益的文本特征选择方法被引量：31

Information-gain-based Text Feature Selection Method

下载PDF

导出

摘要在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。 Due to the maldistribution of class and feature,the classification performance of traditional information gain algorithm will decrease sharply.Considering that,a text feature selection method TDpIG based on the information gain was proposed.First of all,selected feature in dataset based on the class,which can reduce the effect of dataset imbalance on feature selection.Secondly,calculated information gain weight by using feature occurrence probability to decrease the interference of low frequency words to feature selection.At last,analysed the increasing information of each class by use of dispersion,filtering out the relative redundant features of high frequency words,further refining the selected feature applied increasing information,and getting the uniform and accurate subsets.The comparison experiment shows that the method has better classification performance.

作者任永功杨荣杰尹明飞马名威

机构地区辽宁师范大学计算机与信息技术学院

出处《计算机科学》 CSCD 北大核心 2012年第11期127-130,共4页 Computer Science

基金国家自然科学基金项目(60603047) 教育部留学回国人员科研启动基金资助项目辽宁省科技计划项目(2008216014) 辽宁省教育厅高等学校科研基金(L2010229) 大连市优秀青年科技人才基金(2008J23JH026)资助

关键词特征选择文本分类信息增益值冗余特征不平衡数据集 Feature selection Text classification Information gain Redundant feature Imbalanced dataset

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1Yang Yi-ming, Pedersen J O. A Comparative Study on feature selection in text categorization [C]//Proceedings of the 14th In- ternational Conference on Machine Learning (ICML ' 97). Nash- villr = Morgan Kaufmann Publishers, 1997 412-420.
2Ng H, Goh W, Low K. Feature selection, perceptron learning and a usability case study {or text categorization [C]//Procee- dings o{ the g0th ACM International Conference onResearch and Development in InformationRetrieval(SIGIR-97). 1997 : 67-73.
3Wang Bin,Jones G J F, Pan Wen-feng. Using online linear clas- sifiers to filter spam emails[J]. Pattern Analysis Applica- tions, 2006,9(4) : 339-351.
4杨玉珍,刘培玉,朱振方,邱烨.应用特征项分布信息的信息增益改进方法研究[J].山东大学学报（理学版）,2009,44(11):48-51. 被引量：14
5Zheng Zhachui, Wu Xiao-yun, Srihari R. Feature Selection for Text Categorization on Imbalaneed Data[J]. ACM SIGKDD Ex- plorations Newsletter, 2004(6) : 80-89.
6单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
7Xu Yan, Chen Lin. Term-frequency Based Feature Selection Methods for Text Categorization[C]//Proceedings of the 2010 Fourth International Conference on Genetic and Evolutionary Computing, Dec, 2010 : 280-283.
8Robertson S E, Walker S, Jones S, et al. Okapi at tree-3 [C]// Gaithersburg M D. Proceedings of the Third Text Retrieval Conference (TR[C-3). USA= the National Inst. of Stan- dardsTechnology(NIST) &Defense Advanced Research Pro- jects Agency(DARPA). 1994 :109-126.
9Hu Qing-hua, Yu Da-ren, Xie Zong-xia. Neighborhood classifiers [Z]. Scienc Edirect. Dec. 2006.

二级参考文献10

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
3YANG Yiming. A comparative study on feature selection in text categorization[ C/OL]// Proceedings of the Fourteenth International Conference on Machine Learning, 1997: 412-420. [2009-04-20], http://www. cs. cmu. edu/- yiming/papers. yy/icm197. ps. gz.
4G.Salton,C.Buckley.Term Weighting Approachesin Automatic Text Retrieval. Information Process-ing and Management . 1989
5zge Uncu,,IBurhan Türksen.A Novel Feature Se-lection Approach:Combining Feature Wrappers andFilters. Journal of Information Science . 2007
6Yiming Yang,Jan O Pedersen.A comparative study on feature selection in text categorization. Proceedings of the Fourteenth International Conference on Machine Learning(ICM’97) . 1997
7Robertson, S. E,Walker, S,Hancock-Beaulieu, M,Gatford, M.Okapi in TREC3. Proceedings of Text REtrieval Conference . 1994
8任克强,张国萍,赵光甫.基于相对文档频的平衡信息增益降维方法[J].江西理工大学学报,2008,29(5):68-71. 被引量：3
9李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
10秦进,陈笑蓉,汪维家,陆汝占.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-46. 被引量：73

共引文献36

1杨玉珍,刘培玉,姜沛佩.向量空间模型中结合句法的文本表示研究[J].计算机工程,2011,37(3):58-60. 被引量：6
2文翰,肖南峰.基于特征分布的半监督分类[J].北京工业大学学报,2012,38(1):75-80. 被引量：1
3赵静,刘培玉,许明英.邮件过滤中特征选择方法的性能评价与分析[J].计算机应用研究,2012,29(2):693-697. 被引量：7
4黄先珍,杨玉珍,刘培玉.信息过滤中基于统计与规则的关键词抽取研究[J].计算机工程,2012,38(2):57-59. 被引量：9
5苏丹,周明全,王学松,任玉芝.一种基于最少出现文档频的文本特征提取方法[J].计算机工程与应用,2012,48(10):164-166. 被引量：6
6郭亚维,刘晓霞.文本分类中信息增益特征选择方法的研究[J].计算机工程与应用,2012,48(27):119-122. 被引量：28
7柴加加,张德贤,耿瑞焕.基于TF-CA-CI算法的互信息特征选择改进研究[J].计算机应用与软件,2013,30(3):255-257. 被引量：3
8黄志艳.一种基于信息增益的特征选择方法[J].山东农业大学学报（自然科学版）,2013,44(2):252-256. 被引量：12
9成卫青,唐旋.一种基于改进互信息和信息熵的文本特征选择方法[J].南京邮电大学学报（自然科学版）,2013,33(5):63-68. 被引量：14
10秦胜君,卢志平.稀疏自动编码器在文本分类中的应用研究[J].科学技术与工程,2013,21(31):9422-9426. 被引量：17

同被引文献246

1刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
2单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
3罗森林,成华,顾毓清,张铁梅,曾平,陈峰.C4.5算法在2型糖尿病分类规则建立中的应用[J].计算机应用研究,2004,21(7):174-176. 被引量：15
4李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
5邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
6费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
7许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
8张殿业,金键,杨京帅.铁路运输安全理论与技术体系[J].中国铁道科学,2005,26(3):114-118. 被引量：34
9杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
10武方方,赵银亮,蒋泽飞.基于密度聚类的支持向量机分类算法[J].西安交通大学学报,2005,39(12):1319-1322. 被引量：11

引证文献31

1张继超,刘宁,宋伟东,李建飞.一种特征选择的全极化雷达影像分类方法[J].测绘科学,2022,47(6):127-134. 被引量：3
2马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
3袁力,陈阳,赵勇.面向TRIZ理论使用者的多标签专利分类[J].计算机科学,2013,40(11A):255-258. 被引量：7
4蒋宗礼,时福林.基于链接关系的网页分类优化算法[J].计算机与现代化,2014(5):14-17. 被引量：2
5石慧,贾代平,苗培.基于词频信息的改进信息增益文本特征选择算法[J].计算机应用,2014,34(11):3279-3282. 被引量：16
6赵靖,皮建勇.粗糙集属性约简在文本分类中的性能研究[J].微型机与应用,2015,34(21):81-84.
7高原,刘辉,樊孝忠,牛振东.基于代码库和特征匹配的函数名称推荐方法[J].软件学报,2015,26(12):3062-3074. 被引量：7
8姜芳,李国和,岳翔.基于语义的文档特征提取研究方法[J].计算机科学,2016,43(2):254-258. 被引量：10
9王杰,李德玉,王素格.面向非平衡文本情感分类的TSF特征选择方法[J].计算机科学,2016,43(10):206-210. 被引量：6
10张群,王红军,王伦文.基于词条属性聚类的文本特征选择算法[J].计算机应用研究,2017,34(2):369-372. 被引量：4

二级引证文献131

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：9
2李频.刊林:还看今朝——从第二届“百刊工程”和首届国家期刊奖(社科类)透视中国社科期刊现状[J].中国出版,2000(2):37-42. 被引量：2
3黄汉威.琴韵音响数码影音中心——AVR9928[J].实用影音技术,2000(3):18-19.
4李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
5邱宁佳,高鹏,王鹏,陶跃.基于改进信息增益的ACO-WNB分类算法研究[J].计算机仿真,2019,36(1):295-299. 被引量：6
6雷琴,陈晓霞.基于TRIZ理论的分散染料产品创新方法[J].纺织导报,2014(9):63-64. 被引量：3
7杨旭.浅议地理信息在供水行业中的应用[J].科技致富向导,2014,0(35):107-107.
8钟旭东,黄章进,顾乃杰,张旭.Web文本分类中的标签权重自动优化研究[J].小型微型计算机系统,2016,37(5):890-894. 被引量：4
9代文征,杨勇,蒋文娟.数据结构程序库建设[J].计算机教育,2016(6):70-71. 被引量：1
10马志程,顾凯成,杨鹏.基于文本分类的电企舆情识别方案设计与实现[J].电子设计工程,2017,25(3):28-31. 被引量：4

1黄志艳.一种基于信息增益的特征选择方法[J].山东农业大学学报（自然科学版）,2013,44(2):252-256. 被引量：12
2胡颖.基于信息增益的文本特征选择方法[J].计算机与数字工程,2013,41(3):460-462. 被引量：6
3郑志蕴,江国林,张行进,王振飞,李钝.基于多特征的热门微博预测算法研究[J].小型微型计算机系统,2017,38(3):494-498. 被引量：12
4刘新,刘任任.一种基于主题词表的快速中文文本分类技术[J].情报学报,2008,27(3):323-327. 被引量：1
5徐凯,周先琳.用户评论中的产品特征抽取方法研究[J].鄂州大学学报,2015,22(6):107-109.
6张明,王艳,李强.浅谈靶场数据挖掘中流数据的特征提取方法[J].通讯世界,2017,23(3):247-248. 被引量：1
7蔡龙飞.无线网络传感器应用分析综述[J].科技资讯,2006,4(19):88-89.
8杨玉珍,刘培玉,朱振方,邱烨.应用特征项分布信息的信息增益改进方法研究[J].山东大学学报（理学版）,2009,44(11):48-51. 被引量：14
9刘新,刘任任.一种基于逆向匹配算法的中文文本分类技术[J].计算机应用,2008,28(4):945-947. 被引量：3
10秦济瑞,吴刚,郑涛,石春.改进的状态反馈算法[J].电光与控制,2007,14(5):52-54.

计算机科学

2012年第11期

浏览历史

内容加载中请稍等...

基于信息增益的文本特征选择方法被引量：31

参考文献9

二级参考文献10

共引文献36

同被引文献246

引证文献31

二级引证文献131

相关作者

相关机构

相关主题

浏览历史

基于信息增益的文本特征选择方法 被引量：31

参考文献9

二级参考文献10

共引文献36

同被引文献246

引证文献31

二级引证文献131

相关作者

相关机构

相关主题

浏览历史

基于信息增益的文本特征选择方法被引量：31