一种采用聚类技术改进的KNN文本分类方法被引量：33

An Improved KNN Text Categorization Algorithm by Adopting Cluster Technology

导出

摘要 KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中心文档,并用这些中心文档代替原始样本建立分类模型,这样就减少了需要进行相似计算的文档数,从而达到提高分类速度的目的.实验表明,以分类准确率、召回率和F-score为评价指标,文中方法在与经典KNN算法相当的情况下,分类速度得到较大提高. k-Nearest Neighbor （KNN） algorithm has the advantage of high accuracy and stability. But the time complexity of KNN is directly proportional to the sample size, its classification speed is low and it is problematic to be put into practice in large-scale information processing. An improved KNN text categorization algorithm is proposed which classifies faster than the traditional KNN does. Firstly, some similar sample documents are combined into a center document through adopting automatic text clustering technology. Then, a large number of original samples are replaced with the small amount of sample cluster centers. Therefore, the calculation amount of KNN is reduced greatly and the classification is speeded up. The experimental results show that the time complexity of the proposed algorithm is decreased by one order of magnitude and its accuracy is approximately equal to those of the SVM and traditional KNN.

作者张孝飞黄河燕

机构地区中国科学院计算机语言信息工程研究中心

出处《模式识别与人工智能》 EI CSCD 北大核心 2009年第6期936-940,共5页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.60672149) 国家863计划项目(No.2006AA010109)资助

关键词 k-最近邻(KNN) 文本分类文本聚类聚类中心自然语言处理 k-Nearest Neighbor （KNN）, Text Categorization, Text Clustering, Cluster Center,Natural Language Processing （NLP）

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Lewis D D. Naive Bayes at Forty: The Independence Assumption in Information Retrieval // Proc of the lOth European Conference on Machine Learning. Chemnitz, Germany, 1998 : 4 - 15.
2Cohen W W, Singer Y. Context-Sensitive Learning Methods for Text Categorization// Proc of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Zurich, Switzerland, 1996 : 307 - 315.
3Joaehims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features//Proc of the 10th European Conference on Machine Learning. Chemnitz, Germany, 1998: 137 - 142.
4Nigam K, Lafferty J, McCallum A. Using Maximum Entropy for Text Classification//Proc of the Workshop on Machine Learning for Information Filtering. Stockholm, Sweden, 1999 : 61 - 67.
5Yang Yiming, Liu Xin. A Re-Examination of Text Categorization Methods// Proc of the 22nd Annual International ACM SIGIR Conference on Research and Development in the Information Retrieval. Berkeley, USA, 1999:42-49.
6Sebastiani F. Machine Learning in Automated Text Categorization. ACM Computing Surveys, 2002, 34 ( 1 ) :1- 47.
7李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
8胡燕,吴虎子,钟珞.基于改进的kNN算法的中文网页自动分类方法研究[J].武汉大学学报（工学版）,2007,40(4):141-144. 被引量：20
9王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
10代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228

二级参考文献38

1王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
2胡燕,吴虎子,钟珞.中文文本分类中基于词性的特征提取方法研究[J].武汉理工大学学报,2007,29(4):132-135. 被引量：26
3黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
4[1]D D Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: The 10th European Conf on Machine Learning(ECML98), New York: Springer-Verlag, 1998. 4～15
5[2]Y Yang, X Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval, New York: ACM Press, 1999
6[3]Y Yang, C G Chute. An example-based mapping method for text categorization and retrieval. ACM Trans on Information Systems, 1994, 12(3): 252～277
7[4]E Wiener. A neural network approach to topic spotting. The 4th Annual Symp on Document Analysis and Information Retrieval (SDAIR 95), Las Vegas, NV, 1995
8[5]R E Schapire, Y Singer. Improved boosting algorithms using confidence-rated predications. In: Proc of the 11th Annual Conf on Computational Learning Theory. Madison: ACM Press, 1998. 80～91
9[6]T Joachims. Text categorization with support vector machines: Learning with many relevant features. In: The 10th European Conf on Machine Learning (ECML-98). Berlin: Springer, 1998. 137～142
10[7]S O Belkasim, M Shridhar, M Ahmadi. Pattern classification using an efficient KNNR. Pattern Recognition Letter, 1992, 25(10): 1269～1273

共引文献354

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
4郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：14
5张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
6张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
9陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2
10李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96

同被引文献363

1刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
2梁吉业,李超伟,魏巍.基于Rough Sets的特征选择研究进展[J].山西大学学报（自然科学版）,2012,35(2):211-218. 被引量：2
3单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
4李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
5陈雪峰,曾伟生,熊泽彬,张敏.国家森林资源连续清查的新进展——关于国家森林资源连续清查技术规定的修订[J].林业资源管理,2004(5):40-45. 被引量：19
6党永峰.遥感技术在森林资源连续清查中的应用——以利用遥感技术分析森林植被、地类的动态变化为例[J].林业资源管理,2004(6):63-65. 被引量：4
7胡清华,谢宗霞,于达仁.基于粗糙集加权的文本分类方法研究[J].情报学报,2005,24(1):59-63. 被引量：11
8王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
9钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
10张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98

引证文献33

1周靖,刘晋胜.特征联合熵的一种改进K近邻分类算法[J].计算机应用,2011,31(7):1785-1788. 被引量：8
2刘海峰,庞秀梅,张学仁.一种聚类模式下基于密度的改进KNN算法[J].微电子学与计算机,2011,28(7):125-127. 被引量：5
3陈军,邱保印.基于TM遥感影像的诸暨市森林资源监测[J].林业资源管理,2011(6):104-109. 被引量：2
4冯进玫,卢志茂,陈纯锴.一种基于均值更新的分类模型[J].计算机系统应用,2012,21(8):123-126. 被引量：1
5余鹰,苗夺谦,刘财辉,王磊.基于变精度粗糙集的KNN分类改进算法[J].模式识别与人工智能,2012,25(4):617-623. 被引量：32
6胡元,石冰.基于区域划分的kNN文本快速分类算法研究[J].计算机科学,2012,39(10):182-186. 被引量：23
7奉国和,吴敬学.KNN分类算法改进研究进展[J].图书情报工作,2012,56(21):97-100. 被引量：29
8周靖.平均互信息和类别区分性修剪规则的KNN算法[J].计算机应用,2013,33(2):558-562.
9王进,金理雄,孙开伟.基于演化超网络的中文文本分类方法[J].江苏大学学报（自然科学版）,2013,34(2):196-201. 被引量：13
10丁泽亚,张全.利用概念知识的文本分类[J].应用科学学报,2013,31(2):197-203. 被引量：3

二级引证文献246

1李宁,王克文,武宏亮,冯周,刘鹏,李雨生.渗透率测井评价:现状及发展方向[J].石油科学通报,2023,8(4):432-444. 被引量：3
2高晓苑,高文佳,王欣宇,朱垚,丁海雁,杨涛,胡孔法.基于医案文本的名老中医诊疗知识图谱构建方法及应用[J].世界科学技术-中医药现代化,2023,25(9):2967-2974. 被引量：1
3蒲天骄,乔骥,韩笑,张国宾,王新迎.人工智能技术在电力设备运维检修中的研究及应用[J].高电压技术,2020,46(2):369-383. 被引量：217
4周靖.平均互信息和类别区分性修剪规则的KNN算法[J].计算机应用,2013,33(2):558-562.
5苟和平,景永霞,冯百明,李勇.基于DBSCAN聚类的改进KNN文本分类算法[J].科学技术与工程,2013,21(1):219-222. 被引量：5
6苟和平,景永霞,冯百明,李勇.基于密度的KNN分类器样本裁剪算法[J].佳木斯大学学报（自然科学版）,2013,31(2):242-244. 被引量：2
7叶明全,胡学钢,胡东辉,吴信东.基于属性值分类的多层次粗糙集模型[J].模式识别与人工智能,2013,26(5):481-491. 被引量：9
8杨伟,林元乖,郑泽龙,卢利明.无线通信技术在森林资源信息采集系统中的应用[J].中南林业科技大学学报,2013,33(7):86-90. 被引量：2
9林啟锋,蒙祖强,陈秋莲,陈智敏.结合语义和文本特征位串的高效KNN算法[J].计算机工程与设计,2013,34(7):2417-2421. 被引量：1
10陈雪云,郭躬德,陈黎飞,卢伟胜.GwMKnn:针对类属性数据加权的MKnn算法[J].计算机系统应用,2013,22(8):103-108. 被引量：1

1鲁婷,王浩,姚宏亮.一种基于中心文档的KNN中文文本分类算法[J].计算机工程与应用,2011,47(2):127-130. 被引量：17
2叶勇.2011/08 Plus 多人写文章一键合并另有妙招[J].电脑爱好者,2011(16):22-22.
3于林娜.合并多个Word文档我有捷径[J].电脑爱好者（普及版）,2008,0(12):61-61.
4潘敏,王明文,王晓庆,揭安全.基于簇特征的文本增量聚类研究[J].江西师范大学学报（自然科学版）,2014,38(1):95-101. 被引量：2
5李贵林,杨禹琪,高星,廖明宏.企业搜索引擎个性化表示与结果排序算法研究[J].计算机研究与发展,2014,51(1):206-214. 被引量：7
6甄志龙,韩立新,陆佃龙.基于模糊关系的文本分类特征选择方法[J].情报学报,2008,27(6):851-856. 被引量：1
7金希茜,孟志青.中文文本相似度在商业网络中的应用[J].商场现代化,2009(29):38-39.
8胡文江,高永兵,张健,樊瑞民.集中式P2P环境下有效的Top-K查询[J].计算机技术与发展,2009,19(5):93-95.
9王昌红.三招搞定Word2003的文档合并[J].电脑知识与技术（经验技巧）,2013(2):38-39.
10朱全开.人多力量大文档合并一点通[J].软件指南,2005(6):40-41.

模式识别与人工智能

2009年第6期

浏览历史

内容加载中请稍等...

一种采用聚类技术改进的KNN文本分类方法被引量：33

参考文献13

二级参考文献38

共引文献354

同被引文献363

引证文献33

二级引证文献246

相关作者

相关机构

相关主题

浏览历史

一种采用聚类技术改进的KNN文本分类方法 被引量：33

参考文献13

二级参考文献38

共引文献354

同被引文献363

引证文献33

二级引证文献246

相关作者

相关机构

相关主题

浏览历史

一种采用聚类技术改进的KNN文本分类方法被引量：33