基于Spark框架的高效KNN中文文本分类算法被引量：19

Highly efficient Chinese text classification algorithm of KNN based on Spark framework

下载PDF

导出

摘要针对K-最近邻（KNN）分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题，提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-medoids聚类算法对训练集进行两次裁剪；然后在分类过程中迭代K值获得分类结果，并在计算过程中结合Spark计算框架对数据进行分区迭代实现并行化。实验结果表明，在不同数据集中传统尽最近邻算法、基于K-medoids的群最近邻算法所耗费时间是所提Spark框架下的B最近邻算法的3．92-31．90倍，所提算法具有较高的计算效率，相较于Hadoop平台有较好的加速比，可有效地对大数据进行分类处理。 The time complexity of K-Nearest Neighbor（KNN） classification algorithm is proportional to the number of training samples, which needs a large number of computation, and the bottleneck of slow processing exists in traditional architecture under the big data background. In order to solve the problems, a highly efficient algorithm of KNN based on Spark framework and clustering was proposed. Firstly, the training set was cut twice by the optimized K-medoids algorithm through introducing constriction factor. Then the K was iterated constantly in the process of classification and the classification result was obtained. And the data was partitioned and iterated to realize parallelization combining the Spark framework in the calculation. The experimental results show that, the classification time of the traditional KNN algorithm and the KNN algorithm based on K-medoids is 3.92 -31,90 times of the proposed algorithm in different datasets. The proposed algorithm has high computational efficiency and better speedup ratio than KNN based on Hadoop platform, and it can effectively classify the big data.

作者于苹苹倪建成姚彬修李淋淋曹博

机构地区曲阜师范大学信息科学与工程学院曲阜师范大学软件学院

出处《计算机应用》 CSCD 北大核心 2016年第12期3292-3297,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61402258) 山东省本科高校教学改革研究项目(2015M102) 校级教学改革研究项目(jg05021*)~~

关键词 K-最近邻聚类收缩因子 K-medoids SPARK 并行化计算 K-Nearest Neighbor（KNN） clustering constriction factor K-medoids Spark parallel computing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
2夏宁霞,苏一丹,覃希.一种高效的K-medoids聚类算法[J].计算机应用研究,2010,27(12):4517-4519. 被引量：47
3罗贤锋,祝胜林,陈泽健,袁玉强.基于K-Medoids聚类的改进KNN文本分类算法[J].计算机工程与设计,2014,35(11):3864-3867. 被引量：25

二级参考文献26

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3HAN Jia-wei,KAMBER M.数据挖掘概念与技术[M].2版.北京:机械工业出版社,2008:263-266.
4CHEN Xin-quan,PENG Hong,HU Jing-song.K-medoids substitution clustering method and a new clustering validity index method[C] //Proc of the 6th World Congress on Intelligent Control and Automation.2006:5896-5900.
5HE Zeng-you.Farthest-point heuristic based initialization methods for K-modes clustering[EB/OL].(2006-10-10).http://arxiv.org/ftp/cs/papers/0610/0610043.pdf.
6PARK H S,JUN C H.A simple and fast algorithm for K-medoids clustering[J].Expert Systems with Applications,2009,36(2):3336-3341.
7PARDESHI B,TOSHNIWAL D.Improved K-medoids clustering based on cluster validity index and object density[C] //Proc of the 2nd IEEE International Advance Computing Conference.2010:379-384.
8GAO Dan-yang,YANG Bing-ru.An improved K-medoids clustering algorithm[C] //Proc of the 2nd International Conference on Computer and Automation Engineering(ICCAE).2010:132-135.
9BARIONI C N M,RAZENTE H L,TRAINA A J M,et al.Accelerating K-medoid-based algorithms through metric access methods[J].The Journal of Systems and Software,2008,81(3):343-355.
10PARTYKA J,KHAN L,THURAISINGHAM B.Semantic schema matching without shared instances[C] //Proc of IEEE International Conference on Semantic Computing.2009:297-302.

共引文献454

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
4王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
9李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4
10伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7

同被引文献154

1伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
2宋明,刘宗田.基于数据交叠分区的并行DBSCAN算法[J].计算机应用研究,2004,21(7):17-20. 被引量：9
3黄文奇,吕志鹏.求解蛋白质折叠问题的拟人算法:对PERM的改进[J].科学通报,2004,49(17):1801-1804. 被引量：7
4李乡儒,吴福朝,胡占义.均值漂移算法的收敛性[J].软件学报,2005,16(3):365-374. 被引量：88
5张铭锋,李云春,李巍.垃圾邮件过滤的贝叶斯方法综述[J].计算机应用研究,2005,22(8):14-19. 被引量：23
6何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16
7肖雪,何中市.基于向量空间模型的中文文本层次分类方法研究[J].计算机应用,2006,26(5):1125-1126. 被引量：12
8陈矛,黄文奇,吕志鹏.求解HP模型蛋白质折叠问题的改进PERM算法[J].计算机研究与发展,2007,44(9):1456-1461. 被引量：7
9苏玉珍,热希.林业病虫害防治工作中的问题及对策[J].内蒙古林业调查设计,2007,30(6):71-72. 被引量：23
10刘海峰,王元元,刘守生.一种组合型中文文本分类特征选择方法[J].广西师范大学学报（自然科学版）,2007,25(4):208-211. 被引量：9

引证文献19

1于洁.基于Spark和DN-gram模型的定义抽取研究[J].北京信息科技大学学报（自然科学版）,2017,32(4):64-68. 被引量：2
2宋华,闫会峰.面向云环境的蛋白质折叠模拟计算并行化算法[J].科学技术与工程,2018,18(5):258-263. 被引量：1
3宁建飞.基于spark框架的DBSCAN文本聚类算法[J].汕头大学学报（自然科学版）,2018,33(2):73-80. 被引量：2
4孙广婷,李丹,周唯唯,张俊杰,牛萌,邹佳旭.云计算下Spark并行Apriori算法林业病虫害防治研究[J].森林工程,2018,34(4):45-51. 被引量：4
5刘月峰,张亚斌,苑江浩.云环境下NB算法的垃圾邮件过滤研究[J].微电子学与计算机,2018,35(8):60-63. 被引量：4
6冯新扬,沈建京.一种基于Yarn云计算平台与NMF的大数据聚类算法[J].信息网络安全,2018(8):43-49. 被引量：4
7程东生,范广璐,俞雯静,伍飞,曾伟波.基于极限学习机的中文文本分类方法[J].重庆理工大学学报（自然科学）,2018,32(8):156-164. 被引量：5
8刘鹏.基于Spark机器学习实现医疗保险关联频繁模式的欺诈行为挖掘技术探讨[J].中国数字医学,2019,14(5):15-18. 被引量：3
9邓小燕,徐胜超.基于Yarn云平台的生物基因多序列比对并行算法[J].基因组学与应用生物学,2019,38(7):3009-3015. 被引量：3
10杨玉,张远夏.Spark on Yarn模式的电信大数据处理平台[J].福建电脑,2019,35(3):34-38. 被引量：6

二级引证文献58

1张建盛,牟健君.基于云原生的东西向流量攻击检测方案研究[J].信息网络安全,2020(S01):115-118.
2蒋永丛.计算机信息安全技术研究综述[J].新一代信息技术,2022,5(6):126-128.
3周教生.基于物联网的数据中心智能监控系统[J].工业仪表与自动化装置,2018(2):105-108. 被引量：1
4章又文,邢艳秋.基于极限学习机的单木枝叶点云分类[J].安徽农业科学,2019,47(5):237-240.
5田春岐,李静,王伟,张礼庆.一种基于机器学习的Spark容器集群性能提升方法[J].信息网络安全,2019(4):11-19. 被引量：2
6李芝茹,李全罡,樊冬温,张北航,张福娟,曲哲,王俊.气象因素变化与虫害发生的灰色关联分析[J].森林工程,2019,35(4):51-57. 被引量：3
7刘云,黄荣乘.基于指数分布族的类特定文本分类算法[J].重庆邮电大学学报（自然科学版）,2019,31(5):694-701. 被引量：2
8如先姑力·阿布都热西提,亚森·艾则孜,郭文强.维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法[J].计算机应用研究,2019,36(11):3410-3414. 被引量：5
9武红敢,王成波,常原飞.松材线虫病死松树云服务管理的探究[J].林业资源管理,2019(5):68-75. 被引量：6
10李凯军,李兆宇.钢铁企业云计算平台研究及应用[J].电脑知识与技术,2019,15(10X):76-77. 被引量：1

1杨博.分布式网络环境中基于Hadoop的矩阵乘法算法研究[J].信息通信,2016,29(4):18-19.
2赵宏挺.浅谈基于CUDA的NLM图像去噪算法[J].吉林省教育学院学报（中旬）,2013,29(10):147-148.
3吝小红.多核处理器下并行程序设计探析[J].福建电脑,2015,31(1):101-101.
4王会颖,倪志伟,吴昊.求解多维背包问题的MapReduce蚁群优化算法[J].计算机工程,2013,39(4):248-253. 被引量：10
5冯新营,计华,张化祥.基于聚类优化的RBF神经网络多标记学习算法[J].山东大学学报（理学版）,2012,47(5):63-67. 被引量：2
6王峰,杨建俊,张天爵,许淑艳.不同操作平台上的MCNP并行化计算[J].中国原子能科学研究院年报,2009(1):67-67.
7曹晓霞.基于聚类优化的模糊OLAP查询技术研究[J].杭州电子科技大学学报（自然科学版）,2013,33(1):48-51.
8徐小良,陈金奎,吴优.基于聚类优化的Web服务发现方法[J].计算机工程,2011,37(9):68-70. 被引量：9
9邵秀丽,刘一伟,耿梅洁,韩健斌.检测僵尸网络的贝叶斯算法的MapReduce并行化实现[J].智能系统学报,2014,9(1):26-33. 被引量：1
10冯百明.一种可高度并行化计算的图形膨胀算法[J].计算机工程与应用,1998,34(10):28-29.

计算机应用

2016年第12期

浏览历史

内容加载中请稍等...

基于Spark框架的高效KNN中文文本分类算法被引量：19

参考文献3

二级参考文献26

共引文献454

同被引文献154

引证文献19

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

基于Spark框架的高效KNN中文文本分类算法 被引量：19

参考文献3

二级参考文献26

共引文献454

同被引文献154

引证文献19

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

基于Spark框架的高效KNN中文文本分类算法被引量：19