期刊文献+

邮件过滤系统中预处理方法的研究与实现 被引量:2

Research and Realization on Preprocessing Method for Spam Filtering System
下载PDF
导出
摘要 完成了邮件过滤系统中的预处理工作。实现了信息增益特征选择算法,通过实验对比,得出了PU系列语料库合适的特征维数。使用词频反文档频率公式计算了特征词的权重,通过算法把标准邮件集处理成了支持向量机算法可以直接处理的向量空间模型的形式。 The preprocessing method for spam filtering system is discussed.Information gain feature selection algorithm is realized.According to experimental results,the appropriate feature dimensions of PU serial corpus are given respectively.The weights of features are calculated by TF-IDF formula,and then the E-mail corpus is presented in vector space model which can be processed directly by the algorithm of support vector machine.
出处 《湖北汽车工业学院学报》 2007年第3期40-43,共4页 Journal of Hubei University Of Automotive Technology
关键词 邮件过滤 预处理 特征选择 spam filtering preprocessing feature selection
  • 相关文献

参考文献6

  • 1[1]I.Androutsopoulos.G.Paliouras.E.Michelakis.Learning to Filter Unsolicited Commercial E-Mail.Technical Report 2004.
  • 2朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001,27(2):15-17. 被引量:45
  • 3[3]Fabrizio Sebastiani.Machine Learning in Automated Text Categorization[J].ACM Computing Surverys,2002,34(1):1-47.
  • 4[4]Tom Mitchell.Machine Learning[M].McCraw Hill,1996.
  • 5[5]Y.Yang.A Comparative Study on Feature Selection in Text Categorization[C].Proceedings of the Fourteenth International Conference on Machine Learning,1997.
  • 6[6]I.Androutsopoulos,J.Koutsias,K.V.Chandrinos,G.Paliouras and C.D.Spropoulos.An Evaluation of Na(i)ve Bayesian AntiSpam Filtering.Proc.of the Workshop on Machine Learning in the New Information Age[C].11th European Conference on Machine Learning,2000.

二级参考文献7

  • 1邹涛.基于WWW的信息发现技术研究(博士学位论文)[M].南京:南京大学,1999..
  • 2邹涛,博士学位论文,1999年
  • 3Yang Y,Information Retrieval J,1999年
  • 4Yang Y,INRT J,1998年
  • 5吴立德,大规模中文文本处理,1997年,7页
  • 6陈世福,人工智能与知识工程,1997年,391页
  • 7Yang Y,ACM Transactions on Information Systems,1994年

共引文献44

同被引文献11

引证文献2

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部