改进的朴素贝叶斯算法在垃圾邮件过滤中的研究被引量：20

Study on an improved naive Bayes algorithm in spam filtering

下载PDF

导出

摘要提出了一种利用支持向量机改进的朴素贝叶斯算法——TSVM-NB算法。首先利用NB算法对样本集进行初次训练,利用支持向量机构造一个最优分类超平面,每个样本根据与其距离最近样本的类型是否相同进行取舍,这样既降低样本空间规模,又提高每个样本类别的独立性,最后再次用朴素贝叶斯算法训练样本集从而生成分类模型。仿真实验结果表明,该算法在样本空间进行取舍过程当中消除了冗余属性,可以快速得到分类特征子集,提高了垃圾邮件过滤的分类速度、召回率和正确率。 A method of improved support vector machine naive Bayes algorithm was proposed——TSVM-NB algorithm. First using NB algorithm to initial sample set, constructing an optimal classification by SVM, each sample according to its distance from the sample was the same type of recent choice, so as to reduce the size of the sample space, but also improve the independence of each sample the last category, again with naive Bayes algorithm training set to generate the classification model. Simulation results show that the algorithm selection process to eliminate the redundant attributes in the sample space, the classification feature subset can be got quickly and improve spam filtering classification speed, recall rate and accuracy of the same algorithm.

作者杨雷曹翠玲孙建国张立国 YANG Lei CAO Cui-ling SUN Jian-guo ZHANG Li-guo(College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China)

机构地区哈尔滨工程大学计算机科学与技术学院中国科学院信息工程研究所

出处《通信学报》 EI CSCD 北大核心 2017年第4期140-148,共9页 Journal on Communications

基金国家自然科学基金资助项目(No.61202455 No.61472096)~~

关键词邮件过滤朴素贝叶斯支持向量机修剪策略 spam filtering naive Bayes SVM trim strategy

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1王双成,杜瑞杰,刘颖.连续属性完全贝叶斯分类器的学习与优化[J].计算机学报,2012,35(10):2129-2138. 被引量：38

二级参考文献14

1Chow C K, Liu C N. Approximating discrete probability dis- tributions with dependence trees. IEEE Transactions on Information Theory, 1968, 14(3): 462-467.
2Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers. Machine Learning, 1997, 29(2-3): 131-161.
3Grossman D, Domingos P. Learning Bayesian network classiers by maximizing conditional likelihood//Proceedings of the 21th International Conference on Machine Learning, Alberta, Canada, 2004:361-368.
4Jing Y S, Pavlovie V, Rehg J M. Boosted Bayesian network classifiers. Machine Learning, 2008, 73(2): 155-184.
5Webb G I, Boughton J R, Zheng F et al. Learning by extrapolation from marginal to full-multivariate probability distributions: Decreasingly naive Bayesian classification. Machine Learning, 2012, 86(2): 233-272.
6John G H, Langley P. Estimating continuous distributions in Bayesian classifiers//Proeeedings of the 11th Conference on Uncertainty in Artificial Intelligence ( UAI 1995 ). San Mateo, USA, 1995:338-345.
7Perez A, Larranaga P, Inza I. Supervised classification with conditional Gaussian networks : Increasing the structure com- plexity from naive Bayes. International Journal of Approxi mate Reasoning, 2006, 43(1): 1-25.
8Perez A, Larranga P, Inza I. Bayesian classifiers based on kernel density estimation: Flexible classifiers. International Journal of Approximate Reasoning, 2009, 50(2): 341-362.
9Huang S C. Using Gaussian process based kernel classifiers for credit rating forecasting. Expert Systems with Applica- tions, 2011, 38(7): 8607-8611.
10Silverman B W. Using kernel density estimates to investigate multimodality. Journal of the Royal Statistical Society, 1981, 43(1): 97-99.

共引文献37

1任福,侯宛玥.面向机器阅读的地图名称注记类别识别方法[J].武汉大学学报（信息科学版）,2020,45(2):273-280. 被引量：9
2于江德,赵红丹,郑勃举,余正涛.基于中文人名用字特征的性别判定方法[J].山东大学学报（工学版）,2014,44(1):13-18. 被引量：2
3李文进,熊小峰,毛伊敏.基于改进朴素贝叶斯的区间不确定性数据分类方法[J].计算机应用,2014,34(11):3268-3272. 被引量：3
4冷翠平,王双成,杜瑞杰.基于三对角矩阵的完全贝叶斯分类器研究[J].计算机应用研究,2015,32(3):740-742. 被引量：1
5张晨阳,马志强,刘利民,常骏,李永利.Hadoop下基于粗糙集与贝叶斯的气象数据挖掘研究[J].计算机应用与软件,2015,32(4):72-76. 被引量：6
6姚衡,高瑞,王双成.基于贝叶斯网络分类器的财务信息失真识别研究[J].新会计,2015(6):37-40. 被引量：1
7王双成,高瑞,冷翠平.连续属性一阶贝叶斯衍生分类器学习与集成[J].模式识别与人工智能,2015,28(6):499-506.
8杜瑞杰,王双成,高瑞.基于高斯密度的一阶贝叶斯衍生分类器[J].计算机应用研究,2015,32(11):3242-3246. 被引量：1
9王双成,高瑞,杜瑞杰.约束高斯分类网研究[J].自动化学报,2015,41(12):2164-2176. 被引量：3
10姚宏亮,洪竞帆,王浩.深度计算的同辈群体股市态势预测算法[J].模式识别与人工智能,2016,29(1):54-62. 被引量：2

同被引文献111

1张柳艳,聂云峰,段生月,张贵昌.基于堆叠式降噪自编码器的中文垃圾邮件过滤[J].数学的实践与认识,2020,0(1):105-114. 被引量：3
2李惠娟,高峰,管晓宏,黄亮.基于贝叶斯神经网络的垃圾邮件过滤方法[J].微电子学与计算机,2005,22(4):107-111. 被引量：21
3刘青,何政.结合EM算法的朴素贝叶斯方法在中文网页分类上的应用[J].计算机工程与科学,2005,27(7):65-66. 被引量：4
4翟正德,李伟,王鹏.基于贝叶斯统计法的垃圾邮件过滤研究[J].山东理工大学学报（自然科学版）,2005,19(4):31-34. 被引量：1
5余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114. 被引量：117
6姬杨蓓蓓,张小宁,孙立军.基于贝叶斯决策树的交通事件持续时间预测[J].同济大学学报（自然科学版）,2008,36(3):319-324. 被引量：25
7张磊,李亚楠,王斌,李鹏,蒋在帆.网页搜索引擎查询日志的Session划分研究[J].中文信息学报,2009,23(2):54-61. 被引量：16
8齐浩亮,程晓龙,杨沐昀,何晓宁,李生,雷国华.高性能中文垃圾邮件过滤器[J].中文信息学报,2010,24(2):76-83. 被引量：7
9李斌.基于贝叶斯网络的垃圾邮件自动识别[J].现代计算机,2010,16(6):26-29. 被引量：1
10张亚萍,陈得宝,侯俊钦,杨一军.朴素贝叶斯分类算法的改进及应用[J].计算机工程与应用,2011,47(15):134-137. 被引量：19

引证文献20

1田琳,舒康安,黄远明,黄志生,孙谦,盛剑胜.发电商滥用市场力行为识别方法研究——基于朴素贝叶斯方法的分析[J].价格理论与实践,2021(5):43-48. 被引量：2
2孙玫,张森,聂培尧,聂秀山.基于朴素贝叶斯的网络查询日志session划分方法研究[J].南京大学学报（自然科学版）,2018,54(6):1132-1140. 被引量：4
3邱宁佳,高鹏,王鹏,陶跃.基于改进信息增益的ACO-WNB分类算法研究[J].计算机仿真,2019,36(1):295-299. 被引量：6
4黄雪华.决策树和贝叶斯分类算法在学生专业录取数据中的应用研究[J].湖南城市学院学报（自然科学版）,2017,26(4):64-67. 被引量：2
5杜云梅,刘东.朴素贝叶斯分类算法在大学生体质分析中的应用[J].体育学刊,2018,25(1):117-121. 被引量：8
6侯旭珂,杨宏伟,马方,赵丽娜.一种新的广义鲁棒主成分分析(GRPCA)算法研究及应用[J].北京化工大学学报（自然科学版）,2018,45(4):82-85. 被引量：3
7王琦,吴钟扬,黄陈蓉,潘磊.基于词嵌入与生成对抗网络的垃圾邮件分类算法[J].南京工程学院学报（自然科学版）,2018,16(3):20-27. 被引量：3
8刘凯.移动网络环境中不良信息智能过滤方法仿真[J].计算机仿真,2018,35(10):329-332. 被引量：3
9张培,纪鸿旭,李璐.基于朴素贝叶斯的中文垃圾邮件过滤[J].信息与电脑,2017,29(7):79-81. 被引量：1
10邱宁佳,李娜,胡小娟,王鹏,孙爽滋.基于粒子群优化的朴素贝叶斯改进算法[J].计算机工程,2018,44(11):27-32. 被引量：9

二级引证文献88

1王方勇.发电机转子反冲洗的新办法[J].安徽电力技术情报,2000(1):13-15.
2潘亮光,曾太.基于朴素贝叶斯的法律咨询文本分类方法[J].电脑编程技巧与维护,2018(8):59-61. 被引量：1
3黄雪华.基于Python的决策树算法在学生招生录取数据中的应用研究[J].电脑知识与技术,2018,14(10Z):16-17. 被引量：3
4刘云,易松.基于双参数最小二乘支持向量机(TPA-LSSVM)的风电时间序列预测模型的优化研究[J].北京化工大学学报（自然科学版）,2019,46(2):97-102. 被引量：3
5刘占波,闫实,王晓丽.基于朴素贝叶斯的高校教师工作量考核分类预测研究[J].软件,2019,40(3):55-59.
6陈宏,上官霞,郑钟,郑建宁,郑宏.基于营配数据融合的配电网运行状态评估的研究[J].国外电子测量技术,2019,38(4):111-115. 被引量：9
7徐志超,单剑锋.基于改进型协同过滤算法的研究[J].计算机技术与发展,2019,29(10):196-200. 被引量：5
8胡锦玲.基于用户登录页面中Session对象的应用分析[J].天工,2019,0(8):154-155. 被引量：1
9夏玲.基于PSO-决策树的银行风险监管系统研究[J].现代科学仪器,2019,0(4):177-180.
10杜雨菲,吴保国,陈玉玲.基于机器学习算法的广西桉树适宜性研究[J].浙江农林大学学报,2020,37(1):122-128. 被引量：4

1曹锐.一种改进的朴素贝叶斯算法在入侵检测中的应用[J].电脑开发与应用,2009,22(9):13-14. 被引量：2
2时雷,虎晓红,席磊.朴素贝叶斯分类算法及其应用研究[J].光盘技术,2008(11):54-54. 被引量：7
3陈晴阳.正视架构设计的重要作用[J].软件世界,2007(13):91-92. 被引量：3
4邓俊.浅谈制造业ERP系统软件架构[J].中国科技博览,2011(2X):219-220.
5周修考.基于朴素贝叶斯算法的中文垃圾邮件过滤器的设计与应用[J].兰州工业高等专科学校学报,2010,17(6):5-7.
6欧阳峥峥,丰洪才.朴素贝叶斯算法在反垃圾邮件系统中的应用[J].计算机安全,2008(4):32-33. 被引量：1
7詹毅.朴素贝叶斯算法和SVM算法在Web文本分类中的效率分析[J].成都大学学报（自然科学版）,2013,32(1):50-53. 被引量：8
8向顺灵.论训练样本集结构和稀疏表示分类算法的关系[J].电子测试,2016,27(3X):61-62.
9杨光祖,王国军.一种新的朴素贝叶斯属性选择算法[J].科学技术与工程,2009,9(4):978-980. 被引量：2
10罗泽碧.基本web数据挖掘中的聚类算法研究[J].知识经济,2011(10):100-101.

通信学报

2017年第4期

浏览历史

内容加载中请稍等...

改进的朴素贝叶斯算法在垃圾邮件过滤中的研究被引量：20

参考文献1

二级参考文献14

共引文献37

同被引文献111

引证文献20

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

改进的朴素贝叶斯算法在垃圾邮件过滤中的研究 被引量：20

参考文献1

二级参考文献14

共引文献37

同被引文献111

引证文献20

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

改进的朴素贝叶斯算法在垃圾邮件过滤中的研究被引量：20