基于优化文档频和信息量的特征选择方法被引量：2

Feature Selection Method Based on Optimal Document Frequency and Information Quantity

下载PDF

导出

摘要针对文本分类中几种典型的特征选择方法存在的不足,提出基于优化文档频和信息量的特征选择方法。该方法首先使用优化的文档频方法进行特征选择以降低文本向量的稀疏性,然后利用所提属性的约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明:该方法同3种经典特征选择方法相比,"互信息"和"统计量"以及"信息增益"都要好。 We firstly analyzed several classic feature selection methods and summarized their deficiencies, and then combined word frequency with document frequency and presented an optimal document frequency method, next, introduced rough sets and presented an attribute reduction algorithm based on information quantity, finally, combined the attribute reduction algorithm with the optimal document frequency method and proposed a comprehensive feature selection method. The comprehensive method firstly uses the optimal document frequency method to select feature to reduce the sparsity of feature spaces, and then uses the attribute reduction algorithm to eliminate redundancy, so can acquire the feature subset which are more representative. Experimental results show that the comprehensive method is better than mutual information, chi-square statistic and information gain which are three best conventional feature selection measures.

作者张韬朱颢东

机构地区中国科学院成都计算机应用研究所中国科学院研究生院

出处《济南大学学报（自然科学版）》 CAS 北大核心 2009年第4期363-367,共5页 Journal of University of Jinan(Science and Technology)

基金四川省科技计划(2008GZ0003) 国家重点基础研究发展规划(973-2004CB318003) 中国科学院知识创新工程重要方向资助(KJCX-YW-S02)

关键词特征选择词频文档频粗糙集信息量属性约简 feature selection word frequency document frequency rough set information quantity attribute reduction

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1M Delgado,M J Martin-Bautista,D.Sanchez and M.A.Vila.Mining text data:special features and patterns[C].London:In Proceedings of ESF Exploratory Workshop,2002:32-38.
2朱颢东,蔡乐才,刘忠英.一种改进的文本特征选择算法[J].现代电子技术,2008,31(8):97-99. 被引量：7
3Friedman N,Geiger D,Goldszmidt M.Bayesian Network Classifiers[J].Machine I earning,1997,29(2):131-163.
4张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
5周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
6胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
7叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
8LIANG JIYE,K S CHIN,DANG CHUANGYIN,et al.A new method for measuring uncertainty and fuzziness in rough set theory[J].International Journal of General Systems,2002,31 (4):331-342
9曾黄麟.智能计算[M].重庆:重庆大学出版社,2004..

二级参考文献33

1曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
3寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
4邹娟,周经野,邓成,刘玲.基于多重启发式规则的中文文本特征值提取方法[J].计算机工程与科学,2006,28(8):78-80. 被引量：3
5Yang Yiming, Pederson Jan O. A comparative study on feature selection in text categorization [A]. Proceedings of the 14th International Conference on Machine learning[C]. Bled: Morgan Kaufmann, 1997: 258-267.
6Liu Tao, Liu Shengping, Chen Zheng. An evaluation on feature selection for text clustering [A]. Proceedings of the 20th International Conference on Machine learning[C]. Washington DC:2003.
7Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization [A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.
8Y.Yang.Noise reduction in a statistical approach to text categorization[A].Proceedings of the 18th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR95)[C].Seattle:ACM Press,1995:256-263.
9Thorsten Joachims,Text Categorization with Support Vector Machines:Learning with Many Relevant Features[A],In:European Conferrence on Machine Learning (ECML)[C].Berlin:Springer,1998,137-142.
10HanJiawei MichelineKambe.数据挖掘概念与技术[M].北京：机械工业出版社,2001..

共引文献314

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3丁志刚,王小捷.一种基于类别意图的信息检索模型[J].郑州大学学报（理学版）,2009,41(1):59-63.
4蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
5黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
6尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
7王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
8常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
9翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
10苏宏升,李群湛.基于粗糙集理论和神经网络模型的变电站故障诊断方法[J].电网技术,2005,29(16):66-70. 被引量：28

同被引文献21

1胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
2温有奎,温浩,徐端颐,潘龙法.基于知识元语义网格平台的知识发现研究[J].计算机工程与应用,2006,42(4):4-6. 被引量：18
3丁军,李凡,冯嘉礼.一种快速属性约简算法[J].华中科技大学学报（自然科学版）,2006,34(8):40-42. 被引量：8
4张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
5刘洋,冯博琴,周江卫.一种改进的基于差别矩阵的属性约简算法[J].微电子学与计算机,2007,24(5):133-135. 被引量：9
6Delgado M, Martin-Bautista M J, Sanchez D, et al. Mining text data: special features and pattems[C].UK, London:Proceedings of ESF Exploratory Workshop,2002:32-38.
7曾黄麟.智能计算[M].重庆:重庆大学出版社,2004..
8王柯,朱启兵.一种基于差别矩阵的启发式属性约简算法[J].计算机工程与科学,2008,30(6):73-75. 被引量：13
9周创德,田卫东.基于约束函数的差别矩阵及其求核算法[J].计算机工程,2008,34(15):60-62. 被引量：9
10张振琳,黄明.改进的差别矩阵及其求核方法[J].大连交通大学学报,2008,29(4):79-82. 被引量：6

引证文献2

1朱颢东,周姝,钟勇.结合差别对象对集的综合性特征选择方法[J].计算机工程与设计,2010,31(3):622-625.
2武建光,苏云梅,于琦,贺培风.基于知识元的学术文献分类研究[J].情报理论与实践,2019,42(3):160-165. 被引量：8

二级引证文献8

1刘鸿飞,梅磊.雷达软件测试知识共享平台研究[J].电脑知识与技术,2019,15(6):50-52.
2雷兵,刘小,钟镇.基于题录信息的领域学术文献细粒度分类方法研究[J].图书情报工作,2021,65(14):128-137. 被引量：7
3高劲松,付家炜.基于知识元的文物图像资源细粒度知识表示方法研究[J].情报科学,2022,40(1):16-24. 被引量：11
4彭琰,孔令圆,郑汀华,马华.面向个性化学习的MOOC资源库系统开发[J].计算机时代,2022(3):73-76.
5王清.基于随机森林的图书馆馆藏文献自动分类方法[J].自动化技术与应用,2022,41(7):51-53. 被引量：3
6周笑盈.我国智慧图书馆体系下的知识资源建设:内涵、路径和策略分析[J].图书馆理论与实践,2022(6):84-91. 被引量：23
7刘泽,孙文娉,邵波.我国智慧图书馆理论研究与实践应用综述[J].图书情报工作,2023,67(13):4-13. 被引量：11
8陈帅朴,钱宇星,钱志强,刘政昊,张志剑.多重特征关联和图注意力网络融合的文献分类方法研究——以中文医学文献为例[J].情报学报,2024,43(4):470-490.

1马春华,朱颢东,钟勇.结合新型文档频和二进制可辨矩阵的特征选择[J].计算机应用,2009,29(8):2268-2271. 被引量：3
2刘三毛,朱文球,孙文静,王业祥.基于RGB-D单目视觉的室内场景三维重建[J].微型机与应用,2017,36(1):44-47. 被引量：5
3姚明海,赵连朋,刘维学.基于特征选择的Bagging分类算法研究[J].计算机技术与发展,2014,24(4):103-106. 被引量：8
4刘晓志,黄厚宽,尚文倩.带专业词库的特征选择[J].北京交通大学学报,2006,30(2):97-100. 被引量：4
5宋恩民,黄东山,马光志,肖强.评估子集类区分能力的特征选择方法[J].华中科技大学学报（自然科学版）,2011,39(2):1-5. 被引量：3
6唐亚娟,张德贤,杨琳.基于方差分析的χ~2统计特征选择改进算法研究[J].电脑知识与技术（过刊）,2015,21(4X):12-15.
7王成,郭飞,赖雄鸣,郑黎晓.典型代数统计的人脸特征提取融合[J].小型微型计算机系统,2014,35(7):1662-1666. 被引量：1
8朱颢东,钟勇.结合优化文档频和变精度粗糙集的特征选择方法[J].河南大学学报（自然科学版）,2009,39(5):515-520. 被引量：1
9朱颢东,周姝,钟勇.基于特征辨别能力和二进制可辨矩阵的特征选择[J].计算机应用与软件,2010,27(10):94-97.
10何凤英,钟尚平,杨健.基于四元数多特征并行融合的JPEG隐写检测[J].计算机应用,2013,33(3):663-666. 被引量：2

济南大学学报（自然科学版）

2009年第4期

浏览历史

内容加载中请稍等...

基于优化文档频和信息量的特征选择方法被引量：2

参考文献9

二级参考文献33

共引文献314

同被引文献21

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于优化文档频和信息量的特征选择方法 被引量：2

参考文献9

二级参考文献33

共引文献314

同被引文献21

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于优化文档频和信息量的特征选择方法被引量：2