基于TF＊IDF垃圾邮件过滤改进算法的研究被引量：2

Research of Improvement of TF＊IDF Algorithm Based on the Spam Filtering

下载PDF

导出

摘要传统TF＊IDF算法是计算文档关键字的权值的重要方法。分析了传统TF＊IDF算法在划分垃圾邮件和合法邮件时的缺点。即忽视了在一类文档中反复出现的单词，反复出现的单词往往最具有代表该类文档的特征，权重应该是比较高的。但这种情况，传统TF＊IDF算法计算出结果恰恰相反，权重偏低，达不到设计者的要求。故通过改进了传统TF＊IDF算法计算公式，来增加这些单词的权重。实验证明改进算法优于传统算法： Traditional TF＊IDF algorithm is important methods to calculate the weight of keywords in documents. Analyzing disadvantages of the traditional TF ＊ IDF algorithm division spam and lawful email. It has neglected the repeated words in a class of the document, the repeated words often represent features of the class of this document, weight of words should be higher. But this kind of situation , traditional TF＊IDF algorithm calculated results, on the contrary, low weight, and not reaching the requirement of designers. Through the improvement of traditional TF ＊ IDF algorithm, and to increase the weight of these words. Experiments prove the improved algorithm is superior to the traditional algorithm.

作者常凯 CHANG Kai （Hubei University of Technology, Wuhan 430068, China）

机构地区湖北工业大学

出处《电脑知识与技术》 2010年第9期6928-6930,共3页 Computer Knowledge and Technology

关键词 TF＊IDF 权重分类垃圾邮件 TF＊IDF weight classification spare

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1王涛.文本自动分类研究[J].图书馆学研究,2007(12):40-43. 被引量：2
2毕静.自动分类技术研究[J].电脑知识与技术,2009,5(2):1020-1021. 被引量：2
3张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
4周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：28
5崔彩霞,张朝霞.文本分类方法对比研究[J].太原师范学院学报（自然科学版）,2007,6(4):52-54. 被引量：5

二级参考文献37

1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
2卢致杰,徐维军.多范畴信息系统的自动分类方法研究[J].情报学报,2005,24(1):53-58. 被引量：1
3朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报（自然科学版）,2005,26(8):733-735. 被引量：12
4罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
5陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
6张剑,李春平.基于WordNet概念向量空间模型的文本分类[J].计算机工程与应用,2006,42(4):174-178. 被引量：16
7余俊英,王明文,盛俊.文本分类中的类别信息特征选择方法[J].山东大学学报（理学版）,2006,41(3):10-13. 被引量：5
8梁久祯,兰东俊.基于先验知识的网页特征压缩与线性分类器设计[C].第十二届全国神经计算学术大会讨论文集.北京:人民邮电出版社,2002:494-501.
9Rudolph G.Convergence Properties of Canonical Genetic Algorithms[J].IEEE Trans.on Neural Networks,1994,5(1):96-101.
10Yiming Y.An Evaluation of Statistic Approaches to Text Categorization[J].Information Retrieval,1999,1(1/2):69-90.

共引文献150

1田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
2李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：5
3王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796. 被引量：23
4熊忠阳,黎刚,陈小莉,陈伟.文本分类中词语权重计算方法的改进与应用[J].计算机工程与应用,2008,44(5):187-189. 被引量：28
5林永民,吕震宇,赵爽,朱卫东.文本特征加权方法TF·IDF的分析与改进[J].计算机工程与设计,2008,29(11):2923-2925. 被引量：10
6吕震宇,林永民,赵爽,陈景年,朱卫东.基于类信息的文本特征选择与加权算法研究[J].计算机工程与应用,2008,44(20):145-147. 被引量：8
7褚力,张世永.基于集成合并的文本特征提取方法[J].计算机应用与软件,2008,25(10):212-213. 被引量：1
8吕震宇,赵爽,林永民.kNN在文本分类中的应用研究[J].计算机与现代化,2008(11):69-72. 被引量：3
9朱振方,刘培玉,张洪军,王美方.基于退火遗传算法的网络信息过滤系统研究[J].计算机工程与设计,2009,30(2):419-422. 被引量：3
10郑军,王巍,杨武,杨永田.基于类间距离参数估计的文本聚类评价方法[J].计算机工程,2009,35(9):37-39. 被引量：6

同被引文献26

1苏新宁.图书馆、情报与文献学研究热点与趋势分析（2000—2004）——基于CSSCI的分析[J].情报学报,2007,26(3):373-383. 被引量：49
2Behm Alexander,Ji Shengyue,Li Chen,et al.Space-constrained gram-based indexing for efficient approximate string search[].ICDE.2009
3S. Ji,,G. Li,,C. Li,,J. Feng.Efficient Interactive Fuzzy Keyword Search[].Proceedings of the th international conference on World Wide Web.2009
4Li C,Lu J,Lu Y.Efficient merging and filtering algorithmsfor approximate string searches[].ICDE.
5S. Chaudhuri,V. Ganti,R. Kaushik.A Primitive Operator for Similarity Joins in Data Cleaning[].ICDE.2006
6Kukich K.Techniques for automatically correcting words in text[].ACM Computing Surveys.1992
7Wagner RA,Fischer MJ.The String-to-String Correction Problem[].The Journal of The American Medical Association.1974
8Wang J,Li G,Feng J.Fast-join:An efficient method forfuzzy token matching based string similarity join[].Proceed-ings of the ICDE.2011
9J. Wang,G. Li,J. Feng.Trie-join: Efficient trie-based string similarity joins with edit-distance constraints[].PVLDB.2010
10李长玲,翟雪梅.基于硕士学位论文的我国图书馆学与情报学研究热点分析[J].情报科学,2008,26(7):1056-1060. 被引量：28

引证文献2

1刘小慧,李长玲,冯志刚.基于改进的TF*IDF方法分析学科研究热点——以情报学为例[J].情报科学,2017,35(7):82-87. 被引量：11
2何晓明,洪亲,蔡坚勇,林鸿.基于n-gram中英文字符串分割算法实现[J].电脑知识与技术（过刊）,2012,18(8X):5530-5533. 被引量：2

二级引证文献13

1郝晋清,王珺.主题-时序视域下中国图书馆学会年会主题分布及演化分析[J].图书情报工作,2019,63(2):107-119. 被引量：7
2刘小慧,李长玲,崔斌,刘婷.基于闭合式非相关知识发现的潜在跨学科合作研究主题识别——以情报学与计算机科学为例[J].情报理论与实践,2017,40(9):71-76. 被引量：25
3刘小慧,李长玲,刘运梅,付希善.基于作者—核心关键词2-模网络的潜在跨学科合作组合识别——以图书情报学与计算机科学为例[J].情报理论与实践,2018,41(2):105-110. 被引量：16
4贾隆嘉,张邦佐.高校网络舆情安全中主题分类方法研究——以新浪微博数据为例[J].数据分析与知识发现,2018,2(7):55-62. 被引量：5
5马玉新,吴爱萍,李华,王方.中国企业技术创新政策演变过程——基于扎根理论与加权共词分析法[J].科学学与科学技术管理,2018,39(9):61-72. 被引量：18
6吴国辉.基于PHP的成绩快速输入系统的设计[J].计算机时代,2019,0(6):49-52.
7李吉祺,黄刚.提取关键字改进协同过滤算法的研究与应用[J].计算机技术与发展,2019,29(6):154-158.
8刘干,林杰豪,翟雯熠.基于中心词和LDA的微博热点话题发现研究[J].情报杂志,2021,40(5):143-148. 被引量：12
9荣国阳,李长玲,范晴晴,郭凤娇.主题热度加速度指数——学科研究热点识别新方法[J].图书情报工作,2021,65(20):59-67. 被引量：18
10李一平.基于TF-IDF矩阵方法的学科研究热点提取——以《现代情报》为例[J].甘肃科技纵横,2021,50(12):67-71.

1韩岳松,李宝敏.对基于本体的搜索中用户偏好库的算法研究[J].计算机技术与发展,2007,17(12):64-67.
2李宝敏,韩岳松.本体环境下用户偏好库的查询算法扩展[J].西安工业大学学报,2007,27(5):480-484. 被引量：2
3张文鹏,王兴.基于中文关键词提取的预案智能匹配方案[J].科学技术与工程,2012,20(21):5192-5197. 被引量：3
4钟敏娟,林亚平,陈治平.基于超链接和标记文本的信息检索算法[J].小型微型计算机系统,2004,25(7):1344-1347. 被引量：7
5钟敏娟,林亚平,陈治平.基于分类和关键词组抽取的信息检索算法[J].系统仿真学报,2004,16(5):1009-1012. 被引量：11

电脑知识与技术

2010年第9期

浏览历史

内容加载中请稍等...

基于TF＊IDF垃圾邮件过滤改进算法的研究被引量：2

参考文献5

二级参考文献37

共引文献150

同被引文献26

引证文献2

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于TF＊IDF垃圾邮件过滤改进算法的研究 被引量：2

参考文献5

二级参考文献37

共引文献150

同被引文献26

引证文献2

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于TF＊IDF垃圾邮件过滤改进算法的研究被引量：2