基于索引项权重的文本特征选择方法被引量：4

Feature selection based on term weight for text categorization

下载PDF

导出

摘要为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法。该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交叉熵以及文本证据权。利用KNN分类器在Reuters-21578标准数据集上进行训练和测试。实验结果表明,该方法能够选出有效特征,提高文本分类的性能。 To improve the efficiency and effectiveness and reduce computational complexity for text categorization, text feature selection with term weight is prop6sed based on the classical method. This method not only used the numbers of documents in datasets, but also fully took the information of term weight into account in the text. Thus, new evaluation function is constructed. It works better than information gain, expected cross entropy and weight of evidence for text. Using K-Nearest neighbor classifier, Reuters-21578 is used as standard data collection. Experimental results show that the new method select good features and effectively improve the performance of text categorization.

作者王海鹃韩立新甄志龙

机构地区通化师范学院数学系河海大学计算机及信息工程学院通化师范学院计算机科学系

出处《计算机工程与设计》 CSCD 北大核心 2010年第5期1149-1151,共3页 Computer Engineering and Design

基金国家自然科学基金项目(60673186)

关键词文本分类特征选择索引项权重信息增益期望交叉熵文本证据权 text categorization feature selection term weight information gain expected cross entropy weight of evidence for text

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Fabrizio Sebastiani. Machine learning in automated text categorization [J]. ACM Computing Surveys, 2002,34 (1): 1-47.
2陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
3Shang Wenqian,Huang Houkuan,Zhu Haibin,et al.A novel feature selection algorithm for text categorization [J]. Expert Systems with Applications,2007,33(1):1-5.
4崔彩霞,王素格.基于类内频率的文本分类特征选择方法[J].计算机工程与设计,2007,28(17):4249-4251. 被引量：5
5张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
6Lewis D D. Reuters-21578 text categorization collection [EB/ OL].http://kdd.ics.uci.edu/databases/reuters21578.
7Porter M F.The Porter stemming algorithm[EB/OL].http://www. tartarus.org/-martin/PorterStemmer.
8寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
9刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
10Monica Rogati,Yang Y.High-performing feature selection for text classification[C].Proceedings of the Conference on Information and Knowledge Management, 2002: 659- 661.

二级参考文献33

1唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
2王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
3张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
4寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
6C. C. Aggrawal, P. S. Yu. Finding generalized projected clustersin high dimensional spaces. The SIGMOD'00, Dallas, 2000.
7M. Dash, H. Liu. Feature selection for clustering. The PAKDD-00, Kyoto, 2000.
8F. Sebastiani. Machine learning in automated text categorization.ACM Computin Surveys, 2002, 34(1): 1--47.
9Y. Yang, J. O. Pedersen. A comparative study on featureselection in text categorization. The ICML97, Nashville, 1997.
10M. Rogati, Y. Yang. High performance feature selection for text categorization. The CIKM-02, Mclean, 2002.

共引文献233

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
3赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
4况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
5李霞,蒋盛益,郭艾侠.基于聚类和信息熵的特征选择算法[J].郑州大学学报（理学版）,2009,41(1):77-80. 被引量：4
6徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
7刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
8姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
9李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
10陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29

同被引文献35

1单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
2张会娥,张智雄,林颖,李飒.基于RSS的科技信息聚合系统的设计和实现[J].现代图书情报技术,2005(7):60-63. 被引量：30
3毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
4彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
5Wang Tai-Yue,Chiang Huei-Min.One-against-one fuzzy sup- port vector machine classifier:An approach to text categoriza- tion[J].Expert Systems with Applications,2009,36(6):10030- 10034.
6Ko Youngjoong,Seo Jungyun.Text classification from unlabeled documents with bootstrapping and feature projection techniques [J].Information Processing and Management,2009,45(1):70-83.
7Lu Shing-Hwa, Chiang Ding-An,Keh Huan-Chao,et al.Chinese text classification by the Naive Bayes classifier and the associa- tive classifier with multiple confidence threshold values [J]. Knowledge-Based Systems,2010,23(6):598-604.
8Rajuzan Al,Besancon R.Text mining:Natural language techni- ques and text mining applications[D].Artificial Intelligence Labo- ratory, Computer Science Department,Swiss Federal Institute of Technology,2007:15-23.
9Chang Yu-Chuan,Chen Shyi-Ming,Liau Chum-Jung.Multilabel text categorization based on a new linear classifier learning method and a category-sensitive refinement method [J]. Expert Systems with Applications,2008,34(3): 1948-1953.
10Han Hyoungdong, Ko Youngjoong, Seo Jungyun.Using the re- vised EM algorithm to remove noisy data for improving the one- against-the-rest method in binary text classification[J].Informa- tion Processing and Management,2007,43(5): 1281-1293.

引证文献4

1杨云,吴亚男,李健.基于潜在特征词的文本相似度计算方法[J].计算机工程与设计,2011,32(2):572-575. 被引量：5
2肖慧,王立华,徐硕,陈孟婕.渔业科学数据智能RSS阅读器的设计研究[J].中国农学通报,2013,29(32):95-99. 被引量：1
3蔡镇,高健,秦晓军.基于改进CHI和带权ECE结合的特征选择方法[J].计算机应用研究,2019,36(10):2962-2964. 被引量：4
4郑丽香,凌亚东,陈泫文,李颖,刘馨阳.基于改进朴素贝叶斯方法的元器件分类技术[J].电子产品可靠性与环境试验,2020,38(1):49-53. 被引量：3

二级引证文献13

1梁昌勇,王倩倩,陆文星,丁勇.结合商品标题和描述的在线评论特征词选择方法研究[J].现代图书情报技术,2011(5):49-54. 被引量：4
2欧阳宁,罗艳.基于领域特征词加权的文本相似度计算[J].计算机工程与设计,2012,33(11):4338-4342. 被引量：2
3白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7
4逯万辉.基于深度学习的学术期刊选题同质化测度方法研究[J].情报资料工作,2017,38(5):105-112. 被引量：15
5贾永,谢飞,黄博成,宫健丽,曹丽英.基于物联网技术的智能阅读屏的设计与实现[J].现代信息科技,2017,1(4):45-46.
6凌亚东,李颖,陈泫文,丁春光.基于机器翻译的元器件产品型号规范技术研究[J].电子产品可靠性与环境试验,2020,38(3):24-28. 被引量：1
7文武,万玉辉,张许红,文志云.基于改进CHI和PCA的文本特征选择[J].计算机工程与科学,2021,43(9):1645-1652. 被引量：5
8李小燕.基于朴素贝叶斯的智能电子图书信息自动分类系统[J].自动化与仪器仪表,2022(3):26-30. 被引量：2
9李海,白锦,孙研,任嘉伟.基于修正小波变换插值-TAN的雷达降水粒子分类[J].系统工程与电子技术,2022,44(5):1527-1535. 被引量：1
10甄志龙,张居晓.卡方统计中基于KL散度的高维文本数据特征筛选[J].统计与决策,2022(17):43-46. 被引量：4

1张泉.信息检索中索引项权重的研究[J].科技广场,2008(1):38-39. 被引量：1
2王喆.文本分类中特征选择方法的研究与比较[J].内蒙古石油化工,2011,37(19):18-20.
3龚静,曾莉.用于文本分类的特征选择方法[J].湖南环境生物职业技术学院学报,2008,14(3):24-26. 被引量：2
4姚学礼.文本分类中的特征提取方法的研究[J].光盘技术,2009(6):15-16.
5洪亮.文本分类中特征选择方法研究及分析[J].科技广场,2009(7):35-37.
6宁慧,吕志龙.中文文本分类中特征选择方法的研究[J].电脑知识与技术,2007(11):774-776. 被引量：2
7雷景生.基于多层向量空间模型的Web信息检索方法[J].计算机应用,2004,24(4):26-27. 被引量：4
8李胜东,吕学强,魏震,施水才.基于两层阈值的话题/报道表示模型[J].华中科技大学学报（自然科学版）,2013,41(S2):117-120. 被引量：1
9雷景生,林冬雪,符浅浅.基于改进向量空间模型的Web信息检索技术研究[J].计算机工程,2005,31(1):14-16. 被引量：21
10赵俊生,苏依拉.多特征结合的中文垃圾邮件过滤特征选择方法研究[J].内蒙古工业大学学报（自然科学版）,2013,32(3):209-213.

计算机工程与设计

2010年第5期

浏览历史

内容加载中请稍等...

基于索引项权重的文本特征选择方法被引量：4

参考文献11

二级参考文献33

共引文献233

同被引文献35

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于索引项权重的文本特征选择方法 被引量：4

参考文献11

二级参考文献33

共引文献233

同被引文献35

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于索引项权重的文本特征选择方法被引量：4