基于朴素贝叶斯算法的垃圾邮件过滤研究被引量：16

Research on spam filtering based on NB algorithm

下载PDF

导出

摘要针对朴素贝叶斯(NB)算法在分类前期的训练阶段大量消耗系统和网络资源,严重影响分类效率的问题,提出使用树结构的思想,对NB算法中使用数组来维护训练样本中特征词出现的次数进行优化改进。针对NB算法在邮件样本属性个数较多时,分类效果较差的问题,对特征词条件概率进行开方处理,增加了系统对高频词汇的敏感度。实验结果表明:与NB算法相比,改进后的算法在训练时间、查准率、调和率等方面具有较好的效果,通过调整开方次数z值,来降低垃圾邮件的误判率,实验发现,当z值取到3时,各项分类性能指标都达到了一个比较理想的效果。 Aiming at the problem that naive Bayes(NB)algorithm consume a large amount of system and network resources in the early training stage,which seriously affects the classification efficiency,the idea of using tree structure is proposed.The array is used in the NB algorithm to maintain the feature words in the training samples.The number of occurrences is optimized for improvement.For the NB algorithm,when the number of mail sample attributes is large,the classification effect is poor,and the conditional probability of the feature words is taken as the rooting,which increases the sensitivity of the system to high-frequency vocabulary.The experimental results show that compared with the NB algorithm,the improved algorithm has better effects in training time,precision,reconciliation rate,etc.By adjusting the z value of the rooting times,the false positive of spam is reduced,the experiment found that when the z value is taken to 3,the classification performance indicators achieve a satisfactory effect.

作者王鹿李志伟朱成德李永久 WANG Lu;LI Zhiwei;ZHU Chengde;LI Yongjiu(School of Electronic and Electrical Engineering,Shanghai University of Engineering Science,Shanghai 201620,China;School of Materials Engineering,Shanghai University of Engineering Science,Shanghai 201620,China)

机构地区上海工程技术大学电子电气工程学院上海工程技术大学材料工程学院

出处《传感器与微系统》 CSCD 2020年第9期46-48,52,共4页 Transducer and Microsystem Technologies

基金国家自然科学基金资助项目(61705127) 上海市经济和信息化委员会产业转型升级发展专项资金产研合作专题项目(沪CXY-2016-009)。

关键词垃圾邮件训练时间树结构朴素贝叶斯(NB)算法敏感度 spam training time tree structure naive Bayes(NB)algorithm sensitivity

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1刘云龙,谢寿生,郑晓飞,边涛.基于深度学习的航空发动机传感器故障检测[J].传感器与微系统,2017,36(9):147-150. 被引量：11
2刘浩然,丁攀,郭长江,常金凤,崔静闯.基于贝叶斯算法的中文垃圾邮件过滤系统研究[J].通信学报,2018,39(12):151-159. 被引量：15
3王双成,杜瑞杰,刘颖.连续属性完全贝叶斯分类器的学习与优化[J].计算机学报,2012,35(10):2129-2138. 被引量：38
4樊路,钱雪忠,姚琳燕.基于K近邻的增量式聚类算法[J].传感器与微系统,2019,38(2):136-139. 被引量：5
5刘月峰,张亚斌,苑江浩.云环境下NB算法的垃圾邮件过滤研究[J].微电子学与计算机,2018,35(8):60-63. 被引量：4
6赵敬慧,魏振钢.改进的贝叶斯垃圾邮件过滤算法[J].计算机系统应用,2016,25(10):137-140. 被引量：2

二级参考文献57

1谢川,倪世宏,张宗麟.一种缺失飞行参数预处理的新方法[J].计算机仿真,2005,22(4):27-31. 被引量：9
2张铭锋,李云春,李巍.垃圾邮件过滤的贝叶斯方法综述[J].计算机应用研究,2005,22(8):14-19. 被引量：23
3王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
4魏桂英,郑玄轩.层次聚类方法的CURE算法研究[J].科技和产业,2005,5(11):22-24. 被引量：12
5李翔鹰,叶枫.一种基于多贝叶斯算法的垃圾邮件过滤方法[J].计算机工程与应用,2006,42(31):114-116. 被引量：7
6Chow C K, Liu C N. Approximating discrete probability dis- tributions with dependence trees. IEEE Transactions on Information Theory, 1968, 14(3): 462-467.
7Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers. Machine Learning, 1997, 29(2-3): 131-161.
8Grossman D, Domingos P. Learning Bayesian network classiers by maximizing conditional likelihood//Proceedings of the 21th International Conference on Machine Learning, Alberta, Canada, 2004:361-368.
9Jing Y S, Pavlovie V, Rehg J M. Boosted Bayesian network classifiers. Machine Learning, 2008, 73(2): 155-184.
10Webb G I, Boughton J R, Zheng F et al. Learning by extrapolation from marginal to full-multivariate probability distributions: Decreasingly naive Bayesian classification. Machine Learning, 2012, 86(2): 233-272.

共引文献68

1任福,侯宛玥.面向机器阅读的地图名称注记类别识别方法[J].武汉大学学报（信息科学版）,2020,45(2):273-280. 被引量：9
2蒋永丛.计算机信息安全技术研究综述[J].新一代信息技术,2022,5(6):126-128.
3于江德,赵红丹,郑勃举,余正涛.基于中文人名用字特征的性别判定方法[J].山东大学学报（工学版）,2014,44(1):13-18. 被引量：2
4李炜,宋威.基于深层自适应平衡自编码机的手写数字分类[J].传感器与微系统,2019,38(1):33-35. 被引量：2
5李文进,熊小峰,毛伊敏.基于改进朴素贝叶斯的区间不确定性数据分类方法[J].计算机应用,2014,34(11):3268-3272. 被引量：3
6冷翠平,王双成,杜瑞杰.基于三对角矩阵的完全贝叶斯分类器研究[J].计算机应用研究,2015,32(3):740-742. 被引量：1
7张晨阳,马志强,刘利民,常骏,李永利.Hadoop下基于粗糙集与贝叶斯的气象数据挖掘研究[J].计算机应用与软件,2015,32(4):72-76. 被引量：6
8姚衡,高瑞,王双成.基于贝叶斯网络分类器的财务信息失真识别研究[J].新会计,2015(6):37-40. 被引量：1
9王双成,高瑞,冷翠平.连续属性一阶贝叶斯衍生分类器学习与集成[J].模式识别与人工智能,2015,28(6):499-506.
10杜瑞杰,王双成,高瑞.基于高斯密度的一阶贝叶斯衍生分类器[J].计算机应用研究,2015,32(11):3242-3246. 被引量：1

同被引文献80

1武璇,李勃霏,刘懿瑶,高永香.基于hadoop的出行数据分析[J].计算机产品与流通,2020(9):152-152. 被引量：2
2常颖,常大俊,刁一凡.基于Hadoop集群下的数据分块与加密研究[J].计算机产品与流通,2020(9):111-111. 被引量：3
3孙皓晨.人工智能在网络运维优化中的应用探讨[J].计算机产品与流通,2020,0(3):34-34. 被引量：4
4陈蕾,程雨,张焕杰.中科大:邮件系统安全事件分析及应对[J].中国教育网络,2020(6):64-65. 被引量：1
5朱新玲,黎鹏.贝叶斯推断在抽样审计中的应用研究[J].统计教育,2005(12):50-52. 被引量：2
6陈志贤.垃圾邮件过滤技术研究综述[J].计算机应用研究,2009,26(5):1612-1615. 被引量：13
7饶丽丽,刘雄辉,张东站.基于特征相关的改进加权朴素贝叶斯分类算法[J].厦门大学学报（自然科学版）,2012,51(4):682-685. 被引量：30
8王旭.基于贝叶斯网络的审计风险管理模型构建[J].财会通讯（上）,2013(8):97-99. 被引量：3
9申超.反垃圾邮件新技术在新华网电子邮局中的应用研究[J].中国传媒科技,2013(8):58-61. 被引量：1
10王辉,陈泓予,刘淑芬.基于改进朴素贝叶斯算法的入侵检测系统[J].计算机科学,2014,41(4):111-115. 被引量：32

引证文献16

1李永红,汪盈,李腊全,赵志强.一种改进的特征选择算法在邮件过滤中的应用[J].计算机科学,2022,49(S02):740-744. 被引量：4
2韩勇.奋进中的天津609电缆有限公司[J].企业之友,2000(2):9-10.
3赵巧娥.能源监测系统的自动化实现[J].基础自动化,2000,7(1):32-34. 被引量：1
4刘芯溧.基于大数据分析的智能客服系统研究[J].自动化与仪器仪表,2021(3):139-142. 被引量：4
5王若凡.朴素贝叶斯算法在审计抽样中的应用研究[J].科技创新导报,2020,17(36):172-174.
6赵宇轩,胡怀湘.基于BiGRU-Attention-CNN模型的垃圾邮件检测方法[J].计算机与现代化,2021(4):122-126. 被引量：5
7杨斌.基于深度内容识别的邮件数据安全管控方法研究[J].科学大众（科技创新）,2021(6):84-85.
8孙杰.高斯朴素贝叶斯算法在大学生成绩预测中的应用研究[J].电脑知识与技术,2021,17(20):23-26. 被引量：4
9童俊,杨涛,汪俊.基于远程定位的光缆接头故障发现系统应用[J].粘接,2021,47(8):174-177. 被引量：2
10高盛轩,周传生.基于大数据的人工智能技术在计算机网络运维中的应用策略研究[J].网络安全技术与应用,2021(9):73-74. 被引量：15

二级引证文献42

1蒋晓肖,刘晓波,应越,虢华,杨帆.航天iLine EMS能源管理系统设计与实现[J].计算机测量与控制,2017,25(9):206-209.
2曾劲松.人工智能在文本情感分析中的应用探究[J].计算机与数字工程,2021,49(12):2606-2610.
3董玉姣.人工智能在计算机网络技术中的应用[J].中国管理信息化,2021,24(24):194-195. 被引量：8
4刘斌.人工智能在计算机网络技术中的应用[J].信息与电脑,2021,33(22):165-167. 被引量：1
5张力洪.人工智能技术在计算机网络技术中运用探究[J].电子制作,2022,30(2):93-94. 被引量：3
6陈子淮.大数据时代人工智能在计算机网络技术中的应用[J].电子质量,2022(2):62-65. 被引量：17
7张倩,杜丽肖.人工智能在计算机网络技术中的应用[J].无线互联科技,2022,19(6):112-113. 被引量：2
8黄妮妮.人工智能在计算机网络技术中的应用探讨[J].无线互联科技,2022,19(7):118-120. 被引量：1
9刘文星.浅析计算机网络运维管理要点及发展趋势[J].中国新通信,2022,24(7):93-95. 被引量：6
10陈钢,佘祥荣,陈健鹏.基于XLNet-BiGRU-Attention的行业分类方法[J].计算机技术与发展,2022,32(7):39-45.

1余蕾.为了这片希望的田野[J].江淮法治,2020(13):22-23.
2李艳,孙俊.基于Android的终端不良信息过滤研究[J].电脑编程技巧与维护,2020(7):52-54. 被引量：1
3张磊,顾婧.环保陶球处理采油污水的应用研究[J].中国给水排水,2020,36(9):101-104. 被引量：1
4孙肖依,刘华锋,景丽萍,于剑.基于列表级排序的深度生成推荐方法[J].计算机研究与发展,2020,57(8):1697-1706. 被引量：7
5滕雯.厚培文明助力城市治理现代化[J].群众,2020(15):53-54.
6胡又非.非处方药（OTC）能随便吃吗[J].长寿,2020,0(2):0021-0022.
7杨铁林,俞红彊.德行天下[J].健康忠告,2020(10):197-197.
8杨宝龙,史永革,李运美,董春辉.九三集团综合性改革实践[J].国企管理,2020(8):6-15.
9刘利娟.临床检验标本的正确采集与注意事项[J].健康忠告,2020(9):205-205.

传感器与微系统

2020年第9期

浏览历史

内容加载中请稍等...

基于朴素贝叶斯算法的垃圾邮件过滤研究被引量：16

参考文献6

二级参考文献57

共引文献68

同被引文献80

引证文献16

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于朴素贝叶斯算法的垃圾邮件过滤研究 被引量：16

参考文献6

二级参考文献57

共引文献68

同被引文献80

引证文献16

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于朴素贝叶斯算法的垃圾邮件过滤研究被引量：16