基于改进堆叠自动编码机的垃圾邮件分类被引量：7

Spam filtering based on modified stack auto-encoder

下载PDF

导出

摘要针对堆叠自动编码机（SA）容易产生过拟合而降低垃圾邮件分类精度的问题,提出了一种基于动态dropout的改进堆叠自动编码机方法。首先分析了垃圾邮件分类问题的特殊性,将dropout算法引入到堆叠自动编码机算法中;同时,根据传统dropout算法容易使部分节点长期处于熄火状态的缺陷,提出了一种动态dropout改进算法,使用动态函数将传统静态熄火率修改为随着迭代次数逐渐减小的动态熄火率;最后,利用动态dropout算法改进堆叠自动编码机的预训练模型。仿真结果表明,相比支持向量机（SVM）和反向传播（BP）神经网络,改进的堆叠自动编码机平均准确率达到了97.66%,各个数据集上马修斯系数都大于89%;与传统堆叠自动编码机相比,改进的堆叠自动编码机的马修斯系数在Error1-6数据集上分别提高了3.27%、1.68%、2.16%、1.51%、1.58%、1.07%。实验结果表明,基于动态dropout算法的改进堆叠自动编码机具有更高的分类精度和更好的稳定性。 Concerning the problem that Stack Auto-encoder（ SA） easily traps to overfitting, which may reduce the accuracy of spam classification, a modified SA method based on dynamic dropout was proposed. Firstly, the specificity of the spam classification was analyzed, and the dropout algorithm was employed in SA to handle overfitting. Then according to the fault of dropout algorithm that making some nodes be in the stall state for a long time, an improved algorithm of dropout was proposed. The static dropout rate was replaced by dynamic dropout rate which decreased with training steps using dynamic function. Finally, the dynamic dropout algorithm was used to improve the pretraining model of SA. The simulation results show that compared with Support Vector Machine（ SVM） and Back Propagation（ BP） neural network, the average accuracy of the modified SA is 97. 66%. And the Matthews correlation coefficient of every dataset is higher than 89%. Matthews correlation coefficient of the modified SA on every dataset is 3. 27%, 1. 68%, 2. 16%, 1. 51%, 1. 58% and 1. 07% higher than that of the conventional SA separately. The experimental results show that the modified SA using dynamic dropout has higher accuracy and better robustness.

作者沈承恩何军邓扬

机构地区四川大学计算机学院

出处《计算机应用》 CSCD 北大核心 2016年第1期158-162,193,共6页 journal of Computer Applications

基金国家科技重大专项(2015ZX01040101-002) 国家自然科学基金资助项目(91338107)~~

关键词深度学习堆叠自动编码机 DROPOUT 支持向量机垃圾邮件分类 deep learning Stack Auto-encoder（SA） dropout Support Vector Machine（SVM） spam classification

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献16

1CORMACK G V. Email spam filtering: a systematic review [J]. Foundations and trends in information retrieval, 2007, 1(4): 335-455.
2ALMEIDA T A, YAMAKAMI A. Advances in spam filtering techniques [M]// Computational Intelligence for Privacy and Security. Berlin: Springer, 2012: 199-214.
3CHOUHAN S. Behavior analysis of SVM based spam filtering using various kernel functions and data representations [J]. International journal of engineering research and technology, 2013, 2(9): 3029-3036.
4张艳秋,王蔚.利用遗传算法优化的支持向量机垃圾邮件分类[J].计算机应用,2009,29(10):2755-2757. 被引量：20
5PUNISKIS D, LAURUTIS R, DIRMEIKIS R. An artificial neural nets for spam E-mail recognition [J]. Electronics and electrical engineering, 2006, 69(5): 73-76.
6郭守团,徐志根.基于BP神经网络的垃圾邮件过滤器研究[J].计算机安全,2009(12):19-20. 被引量：3
7BENGIO Y. Learning deep architectures for AI [J]. Foundations and trends in machine learning, 2009, 2(1): 1-127.
8BENGIO Y, COURVILLE A, VINCENT P. Representation learning: a review and new perspectives [J]. Pattern analysis and machine intelligence, 2013, 35(8): 1798-1828.
9孙劲光,蒋金叶,孟祥福,李秀娟.深度置信网络在垃圾邮件过滤中的应用[J].计算机应用,2014,34(4):1122-1125. 被引量：14
10TZORTZIS G, LIKAS A. Deep belief networks for spam filtering [C]// ICTAI 2007: Proceedings of the 19th IEEE International Conference on Tools with Artificial Intelligence. Piscataway, NJ: IEEE, 2007: 306-309.

二级参考文献27

1王波,黄迪明.遗传神经网络在邮件过滤器中的应用[J].电子科技大学学报,2005,34(4):505-508. 被引量：9
2樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
3李钢,王蔚,张胜.支持向量机在脑电信号分类中的应用[J].计算机应用,2006,26(6):1431-1433. 被引量：19
4CERVANTES J, LI XIAO-OU, YU WEN. SVM classification for large data sets by considering models of classes distribution[ C]// Proceedings of the 2007 Sixth Mexican International Conference on Artificial Intelligence, Special Session. Washington, DC: IEEE Computer Society, 2007:51 - 60.
5NHUNG N P, PHUONG T M. An efficient method for filtering image-based spam[ C]//Proceedings of the 2007 IEEE International Conference on Research, Innovation and Vision for the Future. [ S. l. ] : IEEE Press, 2007:96 - 102.
6KIM D S, NGUYEN H-N. Genetic algorithm to improve SVM based network intrusion detection system[ C] // Proceedings of the 19th International Conference on Advanced Information Networking and Applications. Washington, DC: IEEE Computer Society, 2005:155 - 158.
7DRUCKER H, WU DONG-HUI, VAONICK V N. Support vector machines for spam categorization [ J]. IEEE Transactions on Neural Networks, 1999, 10(5): 1048 -54.
8VAPNIK V N. An overview of statistical learning theory [ J]. IEEE Transactions on Neural Network, 1999, 10(5) : 988 - 999.
9刘伍颖,王挺.一种多过滤器集成学习垃圾邮件过滤方法[C]//全国信息检索与内容安全学术会议论文集.苏州:[出版者不详],2007.
10王清翔,广凯,潘金贵.基于支持向量机的邮件过滤[J].计算机科学,2007,34(9):93-94. 被引量：5

共引文献34

1刘冬兰,孔德秋,常英贤,刘新,马雷,王睿.基于受限玻尔兹曼机的电力信息系统多源日志综合特征提取[J].计算机系统应用,2020,29(11):210-217. 被引量：1
2章雅娟,张虹.一种垃圾邮件协作过滤模型[J].南京师大学报（自然科学版）,2010,33(4):139-143. 被引量：1
3方莹.基于改进的Nave Bayes和BP神经网络的垃圾邮件过滤[J].兰州理工大学学报,2011,37(2):98-101. 被引量：1
4李庆诚,王聪,张金.邮件协议在资源交换中可行性的研究与实现[J].计算机工程与设计,2012,33(2):540-544. 被引量：2
5林冬茂.数据挖掘技术在垃圾邮件检测中的应用[J].计算机仿真,2012,29(2):120-123. 被引量：6
6刘鲭洁,陈桂明,刘小方,杨庆.基于遗传算法的SVM参数组合优化[J].计算机应用与软件,2012,29(4):94-96. 被引量：47
7闫嘉,田逢春,何庆华,冯敬伟,贾鹏飞,孙诚,樊澍.基于支持向量机和粒子群算法的电子鼻伤口感染检测[J].世界科技研究与发展,2012,34(2):261-264. 被引量：2
8孙凯,田国清,田宏,段文超,田洋,陈立军.基于IGA-SVM的汽轮机故障诊断研究[J].东北电力大学学报,2012,32(3):26-30. 被引量：4
9李松,顾巧论,高铁杠.信息嵌入位置自适应选择的鲁棒水印算法[J].计算机应用,2013,33(2):438-440. 被引量：4
10杨柳松,何光宇.基于改进粒子群优化的SVM故障诊断方法[J].计算机工程,2013,39(3):187-190. 被引量：13

同被引文献49

1王学军,赵琳琳,王爽.基于主动学习的视频对象提取方法[J].吉林大学学报（工学版）,2013,43(S1):51-54. 被引量：3
2车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
3庄成龙,钱龙华,周国栋.基于树核函数的实体语义关系抽取方法研究[J].中文信息学报,2009,23(1):3-8. 被引量：28
4刘伍颖,王挺.集成学习和主动学习相结合的个性化垃圾邮件过滤[J].计算机工程与科学,2011,33(9):34-41. 被引量：4
5丁文军,薛安荣.基于SVM的Web文本快速增量分类算法[J].计算机应用研究,2012,29(4):1275-1278. 被引量：6
6吴伟宁,刘扬,郭茂祖,刘晓燕.基于采样策略的主动学习算法研究进展[J].计算机研究与发展,2012,49(6):1162-1173. 被引量：33
7张传岩,洪晓光,彭朝晖,李庆忠.基于SVM和扩展条件随机场的Web实体活动抽取[J].软件学报,2012,23(10):2612-2627. 被引量：15
8焦斌亮,张可.基于SPE的无线传感器网络定位算法[J].小型微型计算机系统,2013,34(2):269-271. 被引量：8
9傅颖,郭晶云.基于动态时间规整的人体动作识别方法[J].电子测量技术,2014,37(3):69-72. 被引量：17
10陈文强,肖国强,林霄,邱开金.一种基于属性贝叶斯网络的行为识别模型[J].西南师范大学学报（自然科学版）,2014,39(3):7-11. 被引量：3

引证文献7

1陈斌,东一舟,毛明荣.基于增量学习算法的校园网垃圾邮件检测模型[J].计算机应用,2017,37(1):206-211. 被引量：1
2陈斌,东一舟,毛明荣.基于分类邮件代理MCP的垃圾邮件动态检测[J].南京师范大学学报（工程技术版）,2017,17(3):80-86.
3李枫林,柯佳.基于深度学习框架的实体关系抽取研究进展[J].情报科学,2018,36(3):169-176. 被引量：28
4刘任熊,田由辉,张朝龙.基于堆叠自动编码器的网络行为识别[J].合肥工业大学学报（自然科学版）,2019,42(2):189-194. 被引量：4
5宋旭,刘国英.基于自动编码机特征融合的图像行为识别算法[J].计算机工程与设计,2019,40(5):1477-1483. 被引量：1
6杨东海,林敏敏,张文杰,杨敬民.无监督混阶栈式稀疏自编码器的图像分类学习[J].计算机应用,2019,39(12):3420-3425. 被引量：5
7陈天龙,喻国平,姚磊岳.基于卷积与双向简单循环单元的文本分类模型[J].计算机工程与设计,2020,41(3):838-844. 被引量：2

二级引证文献41

1刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：26
2李华琴,余正涛,赖华,郭军军.基于案件描述注意力机制的刑事案件要素关系抽取[J].计算机应用研究,2020,37(S02):156-157.
3张海涛,王丹,徐海玲,孙思阳.基于卷积神经网络的微博舆情情感分类研究[J].情报学报,2018,37(7):695-702. 被引量：38
4李振,周东岱,王勇.“人工智能+”视域下的教育知识图谱:内涵、技术框架与应用研究[J].远程教育杂志,2019,37(4):42-53. 被引量：130
5周文烨,刘亮亮,张再跃.融合多层注意力机制与双向LSTM的语义关系抽取[J].软件导刊,2019,18(7):10-14. 被引量：3
6廖浚斌,周欣,何小海,王正勇,卿粼波.面向涉恐领域的知识图谱构建方法[J].信息技术与网络安全,2019,38(9):34-38. 被引量：4
7李浩,刘永坚,解庆,唐伶俐.基于多层次注意力机制的远程监督关系抽取模型[J].计算机科学,2019,46(10):252-257. 被引量：6
8杨丹,张梦,朱毅.基于深度学习的中文情感分析研究[J].电脑知识与技术,2019,15(7X):188-190. 被引量：1
9杨栩.基于神经网络的数字信号多分类识别方法[J].汽车实用技术,2019,0(21):56-58.
10张连峰,周红磊,王丹,张海涛.基于超网络理论的微博舆情关键节点挖掘[J].情报学报,2019,38(12):1286-1296. 被引量：34

1甘冬连,张永,刘博.基于MapReduce并行SVM的垃圾邮件分类[J].软件导刊,2016,15(6):10-12. 被引量：2
2韩敏,李秋锐.基于KNN算法的垃圾邮件过滤方法分析[J].计算机光盘软件与应用,2012,15(7):179-180. 被引量：2
3付锐.午餐托盘[J].智力（提高版）,2011(9):31-31.
4范晓杰,宣士斌,唐凤.基于Dropout卷积神经网络的行为识别[J].广西民族大学学报（自然科学版）,2017,23(1):76-82. 被引量：8
5姜枫,张丽红.基于随机Dropout卷积神经网络的人体行为识别方法研究[J].测试技术学报,2016,30(1):17-22. 被引量：9
6李艳涛,冯伟森.堆叠去噪自编码器在垃圾邮件过滤中的应用[J].计算机应用,2015,35(11):3256-3260. 被引量：13
7郑亚莉,王康.基于概率神经网络的垃圾邮件分类[J].计算机与现代化,2008(1):8-10. 被引量：9
8徐治国.基于朴素贝叶斯的垃圾邮件分类系统的设计[J].盐城工学院学报（自然科学版）,2008,21(2):47-50. 被引量：2
9苑强,李纳新.数字手写体的深度信念网络识别方法[J].工业技术创新,2016,3(5):921-924.
10陆青梅,尹四清.基于贝叶斯定理的垃圾邮件分类技术研究[J].信息技术,2008,32(2):118-120.

计算机应用

2016年第1期

浏览历史

内容加载中请稍等...

基于改进堆叠自动编码机的垃圾邮件分类被引量：7

参考文献16

二级参考文献27

共引文献34

同被引文献49

引证文献7

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于改进堆叠自动编码机的垃圾邮件分类 被引量：7

参考文献16

二级参考文献27

共引文献34

同被引文献49

引证文献7

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于改进堆叠自动编码机的垃圾邮件分类被引量：7