基于关联特征的朴素贝叶斯文本分类器被引量：4

Naive Bayes Text Classifier Based on Association Features

下载PDF

导出

摘要单词的共同出现信息可以为文本分类做出贡献,但是,目前的文本分类研究中未能充分使用这一信息。文中提出了一种利用关联特征来提高朴素贝叶斯文本分类器性能的策略,给出了关联特征集的构造方法,设计并实现了冗余关联特征剔除算法和关联特征筛选算法,使得特征空间中的每个特征都具有较强的分类能力。实验证明,经处理后的关联特征集可以提高朴素贝叶斯文本分类器的性能。 The information of the co-occurrence of words can make contributions to automatic text classification. However, the current text classifiers fail to take full advantage of this information. We defined the association feature to describe this information. In order to make the association features to be good discriminators, we proposed the technology to create association feature set. Firstly, we set up the association feature by an apriori-like algorithm. Secondly, we proposed an algorithm to evaluate the discriminative ability of association features for pruning the redundant features. Thirdly, we proposed the feature selection algorithm, which is based on IG (information gain) algorithm, for further dimensionality reduction of the feature set. The experimental results on Reuters21578 dataset show that when association feature is applied, the Macro F1 of naive Bayes text classifier is enhanced to 83.5% from 72%. This result means that association features can be used to improve the performance of naive Bayes text classifier.

作者张阳张利军闫剑锋李战怀

机构地区西北工业大学计算机科学与工程系

出处《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第4期413-416,共4页 Journal of Northwestern Polytechnical University

基金国家自然科学基金 (60 0 73 0 55)资助

关键词朴素贝叶斯分类器关联特征特征筛选 . Algorithms Classification (of information) Data mining Discriminators Information analysis Performance

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1[1]McCallum A, Nigam K. A Comparison of Event Models for Naive Bayes Text Classification. AAAI-98 Workshop on Learning for Text Categorization, 1998
2[2]Meretakis D, Fragoudis Dimitris, Lu Hongjun, Likothanassis Spiros, Scalable Association-Based Text Classification. Proceedings of the 9th ACM Int Conf Information and Knowledge Management (CIKM'00), Washington, US, 2000, 5～11
3[3]Antonie M, Osmar R. Text Document Categorization by Feature Association. Proceedings of the IEEE International Conference on Data Mining (ICDM'2002), 2002, 3: 19～26
4[4]Deshpande Mukund, Karypis George. Using Conjunction of Attribute Values for Classification. Proceedings of the 11th ACM Int Conf Information and Knowledge Management (CIKM'02), 2002, 356～364
5[5]Lesh Neal, Mohammed J, Zaki Ogihara Mitsunori. Mining Features for Sequence Classification. Proceedings of 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 1999, 342～346
6[6]Mladenic D, Grobelnik M. Word Sequences as Features in Text-Learning. Proceedings of the 17th Electrotechnical and Computer Science Conference, Ljubljana, Slovenia: 1998, 145～148
7[7]Tan Chade-Meng, Wang Yuan-Fang, Lee Chan-Do. The Use of Bigrams to Enhance Text Categorization. Information Processing and Management, 2002, 38(4): 529～546

同被引文献50

1李专,王元珍.多关系关联规则挖掘中的隐私保护[J].华中科技大学学报（自然科学版）,2007,35(11):41-43. 被引量：2
2张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
3韩慧,毛锋,王文渊.数据挖掘中决策树算法的最新进展[J].计算机应用研究,2004,21(12):5-8. 被引量：47
4严亚兰,查先进.Web网页并行爬行研究[J].计算机应用研究,2005,22(4):226-228. 被引量：2
5钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
6朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：51
7刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
8杨晓春,刘向宇,王斌,于戈.支持多约束的K-匿名化方法[J].软件学报,2006,17(5):1222-1231. 被引量：60
9张鹏,童云海,唐世渭,杨冬青,马秀莉.一种有效的隐私保护关联规则挖掘方法[J].软件学报,2006,17(8):1764-1774. 被引量：53
10李旭升,郭耀煌.扩展的树增强朴素贝叶斯分类器[J].模式识别与人工智能,2006,19(4):469-474. 被引量：6

引证文献4

1卢山,姚翠友.网络舆情的影响力及应对策略的研究[J].电子商务,2011,12(1):49-49. 被引量：5
2蔡永泉,王玉栋.以特征值关联项改进贝叶斯分类器正确率[J].计算机应用与软件,2017,34(8):286-290. 被引量：3
3徐萌,王晓.微信舆情主动防御系统及监测算法[J].情报科学,2017,35(8):40-46. 被引量：2
4姜美.基于隐私保护的数据挖掘综述[J].电脑与电信,2017(8):31-35. 被引量：1

二级引证文献11

1马全恩,张娟.复杂网络上基于SIR模型的微信公众号传播机制研究[J].情报科学,2018,36(7):30-35. 被引量：9
2郭伟朝.新媒体时代网络舆情危机应对探析[J].传播力研究,2018,2(34):237-237. 被引量：1
3刘晓聃.新媒体时代下网络舆情发展特点分析[J].传播力研究,2019,0(2):250-250.
4张博.基于隐私保护的数据挖掘分析[J].信息通信,2018,31(11):171-174. 被引量：2
5董燕燕,李君,李琼.基于记忆回溯的网络舆情分析研究[J].信息与电脑（理论版）,2012(11):119-120.
6郭慧.贝叶斯分类算法分析与实现[J].山西电子技术,2018(3):30-31.
7叶志远,蒲强,谢科军,秦浩.基于云沙箱系统的未知威胁代码主动防御仿真[J].计算机仿真,2019,36(8):276-279. 被引量：2
8张扬武,李国和,王立梅,宗恒,赵晶明.一种基于PCA的文本特征混合选择方法[J].计算机应用与软件,2019,36(10):23-29. 被引量：9
9李晓云.基层政府网络舆情应对存在的问题及对策研究[J].新闻研究导刊,2019,10(23):186-187. 被引量：4
10吴亚娜,贾勇宏.校园网络舆情焦点事件的形成机制、影响与处理——以中关村二小校园欺凌事件为例[J].湖北经济学院学报（人文社会科学版）,2020,17(7):78-81. 被引量：2

1闫秋玲,王二暖.基于单词簇的朴素贝叶斯文本分类器[J].华北水利水电学院学报,2007,28(1):72-75.
2顾世山.充分使用FoxPro[J].软件世界,1995(8):41-42.
3邓建军,刘怀宇.如何充分使用FoxPro提供的色彩[J].计算机系统应用,1996,5(2):42-44.
4邵乐,于红,刘溪婧,綦孝姬,梁晓娜.基于朴素贝叶斯的渔业文本分类器研究[J].大连水产学院学报,2010,25(1):45-48. 被引量：2
5王宏霞.特征筛选和支持向量机的体育视频识别[J].现代电子技术,2017,40(9):32-35. 被引量：3
6孙力.浅谈校园网中安全技术的应用[J].甘肃科技,2009,25(9):20-22. 被引量：10
7熊志斌,朱剑锋,尹成国,伍振兴.基于KNN算法的文本分类器的设计与实现[J].电脑编程技巧与维护,2016(8):11-13. 被引量：1
8王洋,刘忠.贝叶斯算法实现文本分类器[J].大众科技,2011,13(2):18-20. 被引量：1
9高秀峰,胡昌振.基于ECA规则的入侵检测研究[J].计算机工程,2005,31(16):132-134. 被引量：3
10邓磊,吴健,马满福,胡正国.基于遗传规划的服务组合模型及实现[J].计算机应用,2006,26(7):1686-1688. 被引量：2

西北工业大学学报

2004年第4期

浏览历史

内容加载中请稍等...

基于关联特征的朴素贝叶斯文本分类器被引量：4

参考文献7

同被引文献50

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于关联特征的朴素贝叶斯文本分类器 被引量：4

参考文献7

同被引文献50

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于关联特征的朴素贝叶斯文本分类器被引量：4