一种k-NN文本分类器的改进方法被引量：10

An Improved k-Nearest Neighbor Method in Automatic Text Categorization

下载PDF

导出

摘要自动文本分类是提高信息利用效率和质量的有效方法。训练文本分布的不均匀会对分类的效果产生负面影响，而在实际中，很难使训练文本的分布达到均匀。针对这一问题，提出了一种改进的k-NN文本分类方法。通过在英文和中文两个文本集的实验表明，改进后的方法不仅分类的准确性有了提高，而且表现出较好的稳定性。 Automatic text categorization is an effective method to increase efficiency and quality of information utilization. The uneven distribution in training set will affect categorization result negatively, while it is uneasy to get even distribution in training set in reality. To this problem, we present an optimized k-NN method and verified its effectiveness by the experiments on both English and Chinese text sets. The classification performance is promoted by the improvement of precision and stability.

作者巩军刘鲁

机构地区北京航空航天大学经济管理学院

出处《情报学报》 CSSCI 北大核心 2007年第1期56-59,共4页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金资助项目（No.70371004）

关键词文本分类信息检索 K-NN 算法 text classification, information retrieval, k-NN, algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Yang Yiming,Liu Xin.A re-examination of text categorization methods//Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval,1999:42-49.
2Thorsten Joachims.Text categorization with support vector machines:learning with many relevant features//Proceedings of the European Conference on Machine Learning,Berlin,1998:137-142.
3Ricardo Baeza-Yates,Berthier Ribeiro-Neto.Modern Information Retrieval.1999:27-30.
4Sebastiani F.Machine learning in automated text categorization.ACM Computing Surveys,2002,34(1):1-47.
5David D Lewis.Reuters-21578 Text Categorization Test Collection.[2005-12-21].http://www.daviddlewis.com/resources/testcollections/reuters21578/.
6Martin Porter.The Porter Stemming Algorithm.[2005-12-21].http://www.tartarus.org/-martin/PorterStemmer/.
7Yang Y,Pedersen J O.A comparative study on feature selection in text categorization.ICML,1997:412-420.
8唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
9Rijsbergen C V.Information Retrieval.London:Butterworths,1979.
10谭松波,王月粉..中文文本分类语料库-TanCorpV1.0..http://lcc.ict.ac.cn/-tansongbo/corpus1.php,,[2005-12-20]..

二级参考文献1

1李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78

共引文献26

1杨文忠,章兢,彭曙蓉.基于近似网页聚类的Web文本数据挖掘技术[J].长沙交通学院学报,2006,22(1):72-75. 被引量：1
2王金宝.基于增量学习和阈值优化的自适应信息过滤研究[J].计算机应用,2006,26(5):1099-1101.
3朱斐,刁红军,吕强.一种富文本分类方法的设计和实现[J].计算机应用与软件,2007,24(12):121-122. 被引量：2
4吕佳.文本分类中基于方差的改进特征提取算法[J].计算机工程与设计,2007,28(24):6039-6041. 被引量：5
5唐焕玲,林正奎,鲁明羽,邬俊.一种结合独立性模型与差异评估的Co-Training改进方案[J].计算机研究与发展,2008,45(11):1874-1881. 被引量：7
6孙挺,耿国华,周明全.一种有效的特征权重计算方法[J].郑州大学学报（理学版）,2008,40(4):48-51. 被引量：9
7罗勇.文本分类中改进的互信息特征选择方法研究[J].福建电脑,2009,25(4):82-83.
8吕佳.基于改进分类模型的文本分类系统实现[J].重庆师范大学学报（自然科学版）,2009,26(2):79-83. 被引量：3
9唐焕玲,林正奎,鲁明羽.基于差异性评估对Co-training文本分类算法的改进[J].电子学报,2008,36(B12):138-143. 被引量：4
10林正奎,唐焕玲,鲁明羽,王敬东.基于特征多视图提升Naive Bayesian的Boosting改进算法[J].北京交通大学学报,2009,33(6):70-75. 被引量：1

同被引文献86

1宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
2宋枫溪,程科,杨静宇,刘树海.最大散度差和大间距线性投影与支持向量机[J].自动化学报,2004,30(6):890-896. 被引量：58
3陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
4宋枫溪,刘树海,杨静宇,夏赛飞.最大散度差分类器及其在文本分类中的应用[J].计算机工程,2005,31(5):8-10. 被引量：8
5徐勇,杨静宇,金忠,娄震.一种基于核的快速非线性鉴别分析方法[J].计算机研究与发展,2005,42(3):367-374. 被引量：9
6张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
7陈伏兵,张生亮,高秀梅,杨静宇.小样本情况下Fisher线性鉴别分析的理论及其验证[J].中国图象图形学报,2005,10(8):984-991. 被引量：17
8张志佳,黄莎白,史泽林,王东署.基于线性投影的代数空间降维分析[J].计算机工程,2005,31(21):25-27. 被引量：6
9宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44
10陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79

引证文献10

1刘祥楼,张淼,刘得军,姜继玉.基于支持向量机的文本分类方法[J].大庆石油学院学报,2008,32(2):97-99. 被引量：3
2刘海峰,王元元,张学仁,刘守生.基于散度差准则的文本特征降维研究[J].计算机应用研究,2008,25(7):1971-1973. 被引量：5
3罗军,况夯.基于Boosting算法集成遗传模糊分类器的文本分类[J].计算机应用,2008,28(9):2386-2388. 被引量：1
4刘海峰,姚泽清,张述祖,王元元.文本分类中一种基于核的最大散度差特征抽取方法[J].计算机应用研究,2009,26(1):102-104.
5贾美英,杨炳儒,郑德权,陈庆轩.基于多重特征选择和多分类器融合的文本层次分类研究[J].计算机应用研究,2009,26(12):4467-4470. 被引量：1
6刘海峰,汪泽焱,姚泽清,刘守生.文本分类中一种基于密度的KNN改进方法[J].情报学报,2009,28(6):834-838. 被引量：4
7钟将,刘荣辉.一种改进的KNN文本分类[J].计算机工程与应用,2012,48(2):142-144. 被引量：27
8谭征,孙红霞,王立宏,潘庆先.中文评教文本分类模型的研究[J].烟台大学学报（自然科学与工程版）,2012,25(2):122-126. 被引量：5
9徐山,杜卫锋.不均衡训练集下短信过滤系统kNN方法的研究[J].计算机应用与软件,2013,30(11):84-86. 被引量：1
10马志程,顾凯成,杨鹏.基于文本分类的电企舆情识别方案设计与实现[J].电子设计工程,2017,25(3):28-31. 被引量：4

二级引证文献50

1林令娟,刘希玉.基于微粒群优化的快速K-近邻分类算法[J].山东科学,2009,22(1):13-16. 被引量：2
2刘海峰,王元元,姚泽清,张述祖.文本分类中基于散度差的线性特征抽取方法[J].计算机工程与设计,2009,30(7):1749-1752.
3陈长军,詹永照,文传军.支持向量描述鉴别分析及在人脸识别中的应用[J].计算机应用研究,2010,27(2):488-490. 被引量：7
4刘海峰,姚泽清,刘守生.一种基于核的正交化最大散度差文本特征抽取[J].情报学报,2010,29(5):847-852.
5李丽双,党延忠,李丹.基于修正SVM-KNN组合算法的汉语专有名词自动抽取[J].情报学报,2011,30(6):610-617. 被引量：2
6范少萍,郑春厚,王召兵.基于元样本稀疏表示分类器的文本资源分类[J].图书情报工作,2011,55(16):115-118. 被引量：3
7张瑞环.基于几何算法的支持向量机分类方法[J].重庆工商大学学报（自然科学版）,2011,28(5):453-457. 被引量：1
8范少萍,郑春厚,王娟.知识网格环境下文本分类模式构建[J].情报科学,2012,30(2):196-199.
9谭征,孙红霞,王立宏,潘庆先.中文评教文本分类模型的研究[J].烟台大学学报（自然科学与工程版）,2012,25(2):122-126. 被引量：5
10郭颂,马飞.文本分类中信息增益特征选择算法的改进[J].计算机应用与软件,2013,30(8):139-142. 被引量：14

1张美虎,张建明.基于粗糙集和遗传算法的文本分类研究[J].微计算机信息,2009(33):198-199. 被引量：1
2陈祎荻,秦玉平.基于机器学习的文本分类方法综述[J].渤海大学学报（自然科学版）,2010,31(2):201-205. 被引量：12
3崔彩霞,王素格.基于粗集的支持向量机文本分类方法研究[J].科技广场,2006(8):4-6. 被引量：1
4崔彩霞,张朝霞.文本分类方法对比研究[J].太原师范学院学报（自然科学版）,2007,6(4):52-54. 被引量：5
5闫秋玲,王二暖.基于单词簇的朴素贝叶斯文本分类器[J].华北水利水电学院学报,2007,28(1):72-75.
6樊瑜瑾,吴伟,王晓燕,汤俊峰.一个数据库管理系统的信息利用与数据共享[J].计算机应用,1997,17(1):50-52.
7王丁,运海红,张辉.文本自动分类系统的研究与实现[J].信息技术,2005,29(3):64-65.
8李雅林,张化祥,冯新营.一种新的基于半监督的多标记学习算法[J].山东大学学报（工学版）,2013,43(2):18-22.
9赵志滨,李斌阳,姚兰,于戈.一种基于过滤器的无线传感器网络复杂查询优化算法[J].东北大学学报（自然科学版）,2007,28(7):965-968. 被引量：3
10邵乐,于红,刘溪婧,綦孝姬,梁晓娜.基于朴素贝叶斯的渔业文本分类器研究[J].大连水产学院学报,2010,25(1):45-48. 被引量：2

情报学报

2007年第1期

浏览历史

内容加载中请稍等...

一种k-NN文本分类器的改进方法被引量：10

参考文献11

二级参考文献1

共引文献26

同被引文献86

引证文献10

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

一种k-NN文本分类器的改进方法 被引量：10

参考文献11

二级参考文献1

共引文献26

同被引文献86

引证文献10

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

一种k-NN文本分类器的改进方法被引量：10