基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究被引量：27

Implementing Spam Filter by Improving Naive Bayesian Algorithm

下载PDF

导出

摘要基于朴素贝叶斯算法的垃圾邮件过滤器是目前比较高效、经济的垃圾邮件过滤技术之一,它已经广泛应用到垃圾邮件过滤领域。文章在对朴素贝叶斯过滤器分析的基础上,针对朴素贝叶斯算法的缺陷结合损失最小化的思想,并根据垃圾邮件的特性对朴素贝叶斯算法做了改进,提出了改进朴素贝叶斯算法,该算法能够通过调整k值,降低合法邮件被错判为垃圾邮件的概率,从而最大程度减少用户的损失。 Our aim is to decrease the probability under which the spam filter misjudges legal e-mail as spam by adjusting the k value of the naive Bayesian algorithm,thus minimizing Internet users＇ economic loss.Section 1 of the full paper analyzes the classification deficiencies of the naive Bayesian algorithm.Section 2 implements the spam filter by improving the naive Bayesian algorithm through obtaining the k value as shown in eq.（8）.Section 3 tested the spam filter by adjusting the k value of our improved Bayesian algorithm;the test results,presented in Table 2,and their comparison,given in Figs.1,2 and 3,show preliminarily that the spam filter that uses our improved Bayesian algorithm can increase the recall rate by 10% and the accuracy by 5%,thus effectively decreasing the probability of misjudging legal e-mails as spams.

作者郑炜沈文张英鹏

机构地区西北工业大学软件与微电子学院西安财经学院信息学院

出处《西北工业大学学报》 EI CAS CSCD 北大核心 2010年第4期622-627,共6页 Journal of Northwestern Polytechnical University

关键词概率朴素贝叶斯垃圾邮件过滤器 algorithms probability naive Bayesian algorithm spam filter

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1Zhang H. Exploring Conditions for the Optimality of Naive Bayes. International Journal of Pattern Recognition and Artificial Intelligence, 2005, 19(2) : 183 - 198.
2Vangelis Metsis,Ion Androutsopoulos, Georgios Paliouras. Spam Filtering with Naive Bayes Which Naive Bayes? CEAS 2006 Third Conference on Email and AntiSpam, 2006.
3Mehran Sahami, Susan Dumais, David Heckerman, Eric Horvitz. A Bayesian Approach to Filtering Junk E-Mail. AAAI Workshop, Madison, Wisconsin. 1998:55 - 62.
4Johan Hovold. Naive Bayes Spare Filtering Using Word-Position-Based Attributes. 2nd Conference on Email and Anti-Spare, Stanford, CA, 2005.
5Zhang I E, Zhu Jingbao, Yao Tianshun. An Evaluation of Statistical Spare Filtering Techniques. ACM Trans on Asian Language Information Processing, 2004, 3 (4) : 243 - 269.
6Aris Kosmopoulos, Georglos Paliouras, Ion Androutsopoulos. Adaptive Spare Filtering Using Only Naive Bayes Text Classifiers. CEAS 2008 Fifth Conference on Email and AntiSpam, 2008, Mountain View, California USA.

同被引文献219

1许玉龙,王忠义,吕雅丽,王林景,王昂,朱红磊,宋婷.中医药数据隐结构分析平台——孔明灯网络版[J].世界科学技术-中医药现代化,2020,22(7):2224-2232. 被引量：25
2李国明,汤文亮.反垃圾邮件技术及其最新展望[J].电脑知识与技术（过刊）,2007(16). 被引量：1
3邹磊,卢炎生,崔得暄,胡蓉.一种基于最小损失的垃圾邮件屏蔽算法[J].华中科技大学学报（自然科学版）,2005,33(z1):352-355. 被引量：2
4雷烨,姜子运.基于最小二乘支持向量机的机车轴承故障诊断[J].电气传动自动化,2009,31(6):14-16. 被引量：6
5崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
6王潇杨,陈南飞,张登科,王兴伟.图片型垃圾邮件过滤分析系统设计和实现[J].大连理工大学学报,2011,51(S1):69-72. 被引量：3
7詹川,卢显良,周旭,侯孟书,袁连海.基于贝叶斯公式的垃圾邮件过滤方法[J].计算机科学,2005,32(2):73-75. 被引量：11
8张明,袁益超,刘聿拯.生物质直接燃烧技术的发展研究[J].能源研究与信息,2005,21(1):15-20. 被引量：45
9张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
10马莉,柴乔林.基于Postfix的垃圾邮件过滤技术的实现[J].计算机工程与设计,2005,26(4):999-1001. 被引量：5

引证文献27

1赵春生,冯林,何志勇.基于DTRS模型的邮件过滤方法研究[J].计算机应用与软件,2013,30(5):152-154.
2计宏.改进贝叶斯垃圾邮件过滤技术的研究[J].计算机测量与控制,2013,21(8):2181-2184. 被引量：4
3陈凯星,陈建英.一种改进的基于朴素贝叶斯算法的垃圾短信过滤技术[J].福建电脑,2014,30(3):42-43. 被引量：1
4陈二恒,贺德强,刘建仁,向伟彬,周继续.基于小波包和贝叶斯分类的机车走行部滚动轴承故障诊断研究[J].铁道科学与工程学报,2015,12(3):636-642. 被引量：8
5陈铁军,靖丰年,段谊海.基于RSSI的贝叶斯垃圾邮件过滤算法[J].计算机工程与设计,2015,36(7):1790-1793.
6杜猛.反垃圾邮件技术分析和发展研究[J].电子技术与软件工程,2015(16):34-34. 被引量：1
7邓慧.基于关联规则的垃圾邮件分类模型[J].计算机应用与软件,2015,32(8):320-323. 被引量：1
8王辉,黄自威,刘淑芬.基于特征项区分度的加权朴素贝叶斯邮件过滤方法[J].计算机应用与软件,2015,32(10):67-71. 被引量：1
9赵文涛,孟令军,赵好好,王春春.朴素贝叶斯算法的改进与应用[J].测控技术,2016,35(2):143-147. 被引量：24
10路金泉,徐开勇,戴乐育.基于文本过滤的贝叶斯分类算法的改进[J].计算机与现代化,2016(9):100-103. 被引量：3

二级引证文献79

1王莹莹,陈宏举,杨旭光,孙钦,乔婷婷,张珂.基于决策树的水下控制模块液压系统故障诊断方法[J].船舶工程,2022,44(2):154-164. 被引量：7
2裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：16
3蔡永泉,晋月培,葛安生,赵凯.基于关联分类的中文短信分类[J].北京工业大学学报,2015,41(7):1020-1027. 被引量：4
4衷路生,刘庆雄,龚锦红,张永贤.基于Elastic Net-Decision Tree的垃圾邮件过滤研究[J].科学技术与工程,2015,35(32):59-64.
5陈兴华.发现在线公众地理信息变化的关键技术[J].地理空间信息,2015,13(6):38-39. 被引量：4
6向伟彬,贺德强,苗剑,刘建仁,陈桂平.基于车载检测的列车轮对踏面擦伤故障诊断研究[J].广西大学学报（自然科学版）,2016,41(2):434-442. 被引量：2
7陈弓.基于不平衡算法的恶意网络行为检测分析[J].信息技术与信息化,2016(8):121-125.
8赵敬慧,魏振钢.改进的贝叶斯垃圾邮件过滤算法[J].计算机系统应用,2016,25(10):137-140. 被引量：2
9王晨煜,管明辉,殷传涛,熊璋.基于Felder-Silverman学习风格模型的网络学习风格研究[J].重庆理工大学学报（自然科学）,2017,31(2):102-109. 被引量：17
10刘月峰,苑江浩,张晓琳.改进NB算法在垃圾邮件过滤技术中的研究[J].微电子学与计算机,2017,34(4):115-120. 被引量：6

1邵浩然,张亮,马范援.基于损失最小化的SVM多类网页分类算法[J].计算机应用与软件,2005,22(7):16-17.
2崔业勤,高建国.代价敏感的监督流形学习人脸识别方法[J].系统仿真学报,2016,28(5):1077-1085.
3马新华,王珏.无线传感器网络攻击研究[J].电脑开发与应用,2011,24(8):77-79.
4刘猛.一种基于云计算的高效数据挖掘框架研究[J].微型电脑应用,2015,31(6):15-19. 被引量：2
5许倩,程东年,程国振.一种半监督联合模型下的异常流量检测算法[J].小型微型计算机系统,2013,34(6):1242-1247. 被引量：2
6裴亚杰.Office预警（一）：找回丢失的Word文档[J].计算机应用文摘,2006(6):28-28.
7令狐新荣.多媒体网络负面信息分类方法研究与仿真[J].计算机仿真,2016,33(8):260-263. 被引量：3
8全面解析木马揭开木马隐藏的角落[J].计算机与网络,2009,35(24):30-32.
9和光磊.体育赛事危机预警机制的构建[J].黑龙江科技信息,2011(14):175-175. 被引量：1
10刘焱青,王钰,李济洪.基于组块3×2交叉验证t检验的模型选择算法[J].陕西科技大学学报（自然科学版）,2015,35(1):179-183. 被引量：2

西北工业大学学报

2010年第4期

浏览历史

内容加载中请稍等...

基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究被引量：27

参考文献6

同被引文献219

引证文献27

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究 被引量：27

参考文献6

同被引文献219

引证文献27

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

基于改进朴素贝叶斯算法的垃圾邮件过滤器的研究被引量：27