基于TFIDF文本特征加权方法的改进研究被引量：37

AN IMPROVED TEXT FEATURE WEIGHTING ALGORITHM BASED ON TFIDF

下载PDF

导出

摘要针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 Aiming at the problem that the document set is dealt with as a whole and the distribution of feature items among and in classes is not taken into full account when using traditional TFIDF method,an improved TFIDF method which is combined with information entropy is proposed.This method modifies the method of calculating weights of feature items of TFIDF by combining information entropies of feature items among and in classes,which overcomes the defect that the feature items that made less contribution to the categorisation would be given greater weight,thus is able to calculate weights of text feature items more efficiently.Experimental results show that the proposed method enhances recall and precision of text categorisation and is a more effective text feature weighting method.

作者张保富施化吉马素琴

机构地区江苏大学计算机科学与通信工程学院

出处《计算机应用与软件》 CSCD 2011年第2期17-20,共4页 Computer Applications and Software

基金国家自然科学基金项目(60841003) 国家火炬计划项目(2004EB33006)

关键词 TFIDF 文本分类特征加权向量空间模型 Term frequency-inverse document frequency（TFIDF） Text categorisation Feature weighting Vector space model

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83
2范焱,郑诚,王清毅,蔡庆生,刘洁.用Naive Bayes方法协调分类Web网页[J].软件学报,2001,12(9):1386-1392. 被引量：53
3Thorsten Joachims,Text Categorization with Support Vector Machines:Learning with Many Relevant Features[C]//European Conferrence on Machine Learning (ECML).Berlin:Springer,1998:137-142.
4Yang Y,Liu X.A re-examination of text categorization methods[C]//The 22th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,1999:42-49.
5Yang Yi-ming,Pederson Jan O.A comparative study on feature se-lection in text categorization[C]//Proceedings of the 14th International Conference on Machine learning,Bled:Morgan Kaufmann,1997:258-267.
6鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
7Zhou Yanan,Tang Jianbo,Wang Jiaqin.An improved TFIDF feature selection algorithm based on information entropy[C]//Proceedings of the 26th Chinese Control Conference,CCC 2007:312-315.
8李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
9Shouning Qu,Sujuan Wang,Yan Zou.Improvement of Text Feature Selection Method based on TFIDF[C]//International Seminar on Future Information Technology and Management Engineering.2008:79-81.
10Yang Chengcheng,He Xingshi.A text feature selection algorithm based on improved TFIDF[C]//Proceedings of the 2008 Chinese Conference on Pattern Recognition,CCPR 2008:416-419.

二级参考文献21

1赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
3D. D. Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: Proc. of the 10th European Conf. on Machine Learning. New York: Springer,1998, 4-15.
4Y. Yang, X. Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf. onResearch and Development in the Information Retrieval. NewYork: ACM Press, 1999.
5Y. Yang, C. G. Chute. An example based mapping method for text categorization and retrieval. ACM Trans. on Information Systems, 1994, 12(3): 252 -277.
6E. Wiener. A neural network approach to topic spotting. The 4th Annual Syrup. on Document Analysis and Information Retrieval,Las Vegas, NV, 1995.
7R. E. Schapire, Y. Singer. Improved boosting algorithms using confidence-rated predications. In: Proc. of the 11th Annual Conf.on Computational Learning Theory. New York: ACM Press,1998. 80--91.
8T. Joachims. Text categorization with support vector machines:Learning with many relevant features. In: Proc. of the 10th European Conf. on Machine Learning. New York: Springer,1998. 137-142.
9Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1 ( 1 ) : 76-- 88.
10R. Adwait. Maximum entropy models for natural language ambiguity resolution: [ Ph. D. dissertation ] . Pennsylvania:University of Pennsylvania, 1998.

共引文献342

1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
2周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
3张茂元,卢正鼎.基于特征选取及模糊学习的网页分类方法研究[J].小型微型计算机系统,2004,25(7):1397-1400. 被引量：4
4许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2
5胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
6刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
7钟茂生.WEB页面的模糊聚类[J].华东交通大学学报,2004,21(5):59-62. 被引量：2
8王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
9王丽侠,房福亭.分级聚类与平面划分结合方法在网页分类中的应用[J].计算机工程与应用,2004,40(35):139-141. 被引量：2
10陈文庆,李勤,姚伽华.基于最大熵模型的垃圾邮件过滤方法[J].网络安全技术与应用,2005(1):16-18. 被引量：1

同被引文献330

1钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
2郭庆琳,吴克河,吴慧芳,李存斌.基于文本聚类的多文档自动文摘研究[J].计算机研究与发展,2007,44(z2):140-144. 被引量：5
3崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
4王健,甘国辉.多维农业信息分类体系[J].农业工程学报,2004,20(4):152-156. 被引量：27
5宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
6郭小青,韩丽萍.中医症状诊断的意义探析[J].中医药学刊,2004,22(9):1758-1759. 被引量：12
7徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
8张云涛,龚玲,王永成.An improved TF-IDF approach for text classification[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2005,6(1):49-55. 被引量：5
9史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57. 被引量：36
10费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68

引证文献37

1席程成,李文化.基于精准农户信息的农业文本数据自动挖掘模型[J].热带农业科学,2011,31(9):87-89.
2王行恒,曹军,邓学,刘垚,高适.基于循环迭代算法改进的TFIDF方法及应用[J].计算机应用与软件,2012,29(11):305-308. 被引量：2
3路永和,何新宇.锐化高斯模板在文本特征项权重调整方法中的应用[J].现代图书情报技术,2012(12):39-44. 被引量：1
4成松松,艾丽蓉.基于平均词频的文本特征提取方法[J].计算机应用与软件,2013,30(10):243-245. 被引量：5
5覃世安,李法运.文本分类中TF-IDF方法的改进研究[J].现代图书情报技术,2013(10):27-30. 被引量：28
6邹永利,冯静娴,郑荟.学术文献的文体特征及其检索意义--计算机科学文献与相关新闻报道文体的比较研究[J].中国图书馆学报,2014,40(2):33-40. 被引量：9
7宋艳,何嘉,舒红平,郑皎凌,梁繁荣,任玉兰,文立玉.基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究[J].成都信息工程学院学报,2014,29(1):52-58. 被引量：4
8黄磊,伍雁鹏,朱群峰.关键词自动提取方法的研究与改进[J].计算机科学,2014,41(6):204-207. 被引量：22
9郑霖,徐德华.基于改进TFIDF算法的文本分类研究[J].计算机与现代化,2014(9):6-9. 被引量：27
10吉志薇.改进的TF-IDF算法在作品抄袭判定中的应用——以《梦里花落知多少》和《圈里圈外》为例[J].文教资料,2014(31):120-124. 被引量：1

二级引证文献266

1张海瑜,陈庆龙,张斯静,张子怡,杨帆,李鑫星.基于语义知识图谱的农业知识智能检索方法[J].农业机械学报,2021,52(S01):156-163. 被引量：13
2杨梦月,卫伟,陆慧娟,卢海峰.基于差分进化的中文情感分类集成算法研究[J].计量学报,2020,41(2):225-230. 被引量：2
3于伟杰,杨文忠,任秋如.基于全词BERT的集成用户画像方法[J].东北师大学报（自然科学版）,2022,54(4):87-92. 被引量：2
4马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
5董庆兴,李华阳,曹高辉,夏立新.基于深度学习的MOOC论坛探索型对话识别方法研究[J].图书情报工作,2019,63(5):92-99. 被引量：10
6马绪凯,丁晟春.复杂产品设计知识智能检索研究[J].现代图书情报技术,2014(9):44-50.
7杨波,丛晶,王乙红,杨光华,徐斌,王峰.内容分析法在完善患方投诉事由监测指标中的应用[J].中国医院管理,2015,35(2):53-55. 被引量：3
8叶培.最大熵在中医智能辨证的研究及其应用[J].计算机时代,2015(3):50-52. 被引量：6
9胡海斌.引入特征倾向性的高效网络文本数据挖掘[J].计算机仿真,2015,32(5):436-440. 被引量：6
10任玉兰,郭太品,陈亮,孙天晓,李皙子,梁繁荣.针灸临床循证决策信息化建设与应用[J].世界中医药,2015,10(4):477-481. 被引量：11

1杨倩倩,徐栋.TFIDF方法在英语句子相似度计算中的应用初探[J].电脑知识与技术（过刊）,2012,18(6X):4127-4128. 被引量：1
2鲍建樟,王周秀.基于FAQ的自动问答技术的实现[J].唐山师范学院学报,2006,28(5):79-80.
3李志龙,黄理灿,刘飘悦.基于GPU的文本特征选择与特征加权[J].工业控制计算机,2014,27(5):106-108. 被引量：1
4徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
5张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
6林霜梅,汪更生,陈弈秋.个性化推荐系统中的用户建模及特征选择[J].计算机工程,2007,33(17):196-198. 被引量：45
7秦兵,刘挺,王洋,郑实福,李生.基于常问问题集的中文问答系统研究[J].哈尔滨工业大学学报,2003,35(10):1179-1182. 被引量：96
8李敏,余正涛.结合概率型神经网络(PNN)和学习矢量量化(LVQ)算法的文本分类方法[J].计算机系统应用,2012,21(10):81-85. 被引量：2
9秦锋,赵彦军,程泽凯,陈奇明.基于词条数学期望的词条权重计算方法[J].计算机应用与软件,2011,28(4):177-179. 被引量：1
10靳小波,夏清国.基于ε-KLD的文本分类方法[J].计算机工程与应用,2005,41(16):172-174.

计算机应用与软件

2011年第2期

浏览历史

内容加载中请稍等...

基于TFIDF文本特征加权方法的改进研究被引量：37

参考文献10

二级参考文献21

共引文献342

同被引文献330

引证文献37

二级引证文献266

相关作者

相关机构

相关主题

浏览历史

基于TFIDF文本特征加权方法的改进研究 被引量：37

参考文献10

二级参考文献21

共引文献342

同被引文献330

引证文献37

二级引证文献266

相关作者

相关机构

相关主题

浏览历史

基于TFIDF文本特征加权方法的改进研究被引量：37