Parallel naive Bayes algorithm for large-scale Chinese text classification based on spark 被引量：22

面向大规模中文文本分类的朴素贝叶斯并行Spark算法（英文）

下载PDF

导出

摘要 The sharp increase of the amount of Internet Chinese text data has significantly prolonged the processing time of classification on these data.In order to solve this problem,this paper proposes and implements a parallel naive Bayes algorithm(PNBA)for Chinese text classification based on Spark,a parallel memory computing platform for big data.This algorithm has implemented parallel operation throughout the entire training and prediction process of naive Bayes classifier mainly by adopting the programming model of resilient distributed datasets(RDD).For comparison,a PNBA based on Hadoop is also implemented.The test results show that in the same computing environment and for the same text sets,the Spark PNBA is obviously superior to the Hadoop PNBA in terms of key indicators such as speedup ratio and scalability.Therefore,Spark-based parallel algorithms can better meet the requirement of large-scale Chinese text data mining. 针对互联网中中文文本数据量激增使得对其作分类运算的处理时间显著延长的问题,提出并实现了一种基于内存计算模型Spark的并行朴素贝叶斯中文文本分类算法,主要利用弹性分布数据集编程模型,实现了朴素贝叶斯分类器训练过程和预测过程的全程并行化算法。为便于比较,同时实现了基于Hadoop-MapReduce的并行朴素贝叶斯版本。实验结果表明,在相同计算环境下,对同一数据量的中文文本集,基于Spark的朴素贝叶斯中文文本分类并行化算法在加速比、扩展性等主要指标上明显优于基于Hadoop的实现,因此能更好地满足大规模中文文本数据挖掘的要求。

作者 LIU Peng ZHAO Hui-han TENG Jia-yu YANG Yan-yan LIU Ya-feng ZHU Zong-wei 刘鹏;赵慧含;滕家雨;仰彦妍;刘亚峰;朱宗卫

机构地区 Internet of Things Perception Mine Research Centre National and Local Joint Engineering Laboratory of Internet Application Technology on Mine School of Information and Control Engineering Communication Division Suzhou Institute of University of Science and Technology of China

出处《Journal of Central South University》 SCIE EI CAS CSCD 2019年第1期1-12,共12页 中南大学学报（英文版）

基金 Project(KC18071)supported by the Application Foundation Research Program of Xuzhou,China Projects(2017YFC0804401,2017YFC0804409)supported by the National Key R&D Program of China

关键词 Chinese text classification naive Bayes SPARK HADOOP resilient distributed dataset PARALLELIZATION 中文文本分类朴素贝叶斯 Spark Hadoop 弹性分布式数据集并行化

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1刘鹏,滕家雨,丁恩杰,孟磊.基于Spark的大规模文本k-means并行聚类算法[J].中文信息学报,2017,31(4):145-153. 被引量：14
2刘志强,顾荣,袁春风,黄宜华.基于SparkR的分类算法并行化研究[J].计算机科学与探索,2015,9(11):1281-1294. 被引量：14

二级参考文献30

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
3赵念强,鞠时光.网格计算及网格体系结构研究综述[J].计算机工程与设计,2006,27(5):728-730. 被引量：25
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
5石晶,胡明,戴国忠.基于小世界模型的中文文本主题分析[J].中文信息学报,2007,21(3):69-75. 被引量：9
6何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11
7Dean J,Ghemawat S.Map Reduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
8Zaharia M,Chowdhury M,Das T,et al.Resilient distributed datasets:a fault-tolerant abstraction for in-memory cluster computing[C]//Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation,San Jose,USA,Apr 25-27,2012.Berkeley,CA,USA:USENIX Association,2012.
9The R Foundation.The R project for statistical computing[EB/OL].[2014-10-06].http://www.r-project.org/.
10Amplab-extras.Spark R(R frontend for Spark)[EB/OL].[2014-09-25].http://amplab-extras.github.io/Spark R-pkg/.

共引文献26

1李坤,刘鹏,吕雅洁,张国鹏,黄宜华.基于Spark的LIBSVM参数优选并行化算法[J].南京大学学报（自然科学版）,2016,52(2):343-352. 被引量：21
2何美斌,胡精英.基于SparkR的大数据分析平台设计[J].电子技术与软件工程,2016(21):184-184. 被引量：2
3李帅,吴斌,杜修明,陈玉峰.基于Spark的BIRCH算法并行化的设计与实现[J].计算机工程与科学,2017,39(1):35-41. 被引量：11
4曹耀辉.基于Spark平台的电商推荐系统的设计分析[J].自动化与仪器仪表,2017(7):100-103. 被引量：3
5庄荣,李玲娟.基于Spark的CVFDT分类算法并行化研究[J].计算机技术与发展,2018,28(6):35-38. 被引量：3
6张睿敏,张琪淼,杜叔强,贾桂霞.大数据环境下基于Spark的Bayes分类算法研究[J].工业仪表与自动化装置,2018(3):116-118. 被引量：2
7张利娟,仇建伟,杜登崇,王鑫.基于Spark和PSO算法的军事物流配送路径优化问题研究[J].计算机与现代化,2018(11):65-68. 被引量：3
8刘斌,何进荣,耿耀君,王最.并行机器学习算法基础体系前沿进展综述[J].计算机工程与应用,2017,53(11):31-38. 被引量：10
9刘鹏,王学奎,黄宜华,孟磊,丁恩杰.基于Spark的极限学习机算法并行化研究[J].计算机科学,2017,44(12):33-37. 被引量：6
10谭旭杰,邓长寿,吴志健,彭虎,朱鹊桥.云环境下求解大规模优化问题的协同差分进化算法[J].智能系统学报,2018,13(2):243-253. 被引量：1

同被引文献169

1洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的设计与实现[J].世界科学技术-中医药现代化,2023(6):1935-1941. 被引量：4
2李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
3张秋颖,傅洛伊,王新兵.基于BERT-BiLSTM-CRF的学者主页信息抽取[J].计算机应用研究,2020,37(S01):47-49. 被引量：14
4张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
6唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
7张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161. 被引量：33
8徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：389
9康进峰,王国营,梁春迎,谭晓贞.用于色情网页过滤中的KNN算法改进[J].计算机安全,2009(9):17-19. 被引量：1
10王志,夏士雄,牛强,李连习.基于本体的矿井电机故障知识库构建[J].计算机工程,2010,36(10):270-272. 被引量：13

引证文献22

1崔晓晖,师栋瑜,陈志泊,许福.基于Spark框架XGBoost的林业文本并行分类方法研究[J].农业机械学报,2019,50(6):280-287. 被引量：11
2付强,裴佩,丁永刚.基于因子分解机的灰色产业服务网页过滤方法[J].软件导刊,2019,18(9):150-153. 被引量：1
3金宁,赵春江,吴华瑞,缪祎晟,李思,杨宝祝.基于BiGRU_MulCNN的农业问答问句分类技术研究[J].农业机械学报,2020,51(5):199-206. 被引量：22
4王梅,李东旭.基于改进VGG-16和朴素贝叶斯的手写数字识别[J].现代电子技术,2020,43(12):176-181. 被引量：11
5王栖榕,黄樟灿.基于颜色特征的画家艺术风格提取方法[J].计算机应用,2020,40(6):1818-1823. 被引量：3
6赵文涛,任行学.融合标签信息和时间效应的矩阵分解推荐算法[J].信息与控制,2020,49(4):472-477. 被引量：15
7陈德意,张宏怡,刘彩玲,张光斌.基于关键词策略和CNN的中文文本有害信息分类[J].集美大学学报（自然科学版）,2020,25(5):392-400.
8刘洁,王铮,王辉.基于IMI-WNB算法的垃圾邮件过滤技术研究[J].计算机工程,2020,46(12):299-304. 被引量：3
9孙德华,孙晨.一种面向财务文本分类的TF-IDF改进算法[J].现代信息科技,2020,4(18):107-111.
10刘鹏,叶帅,舒雅,鹿晓龙,刘明明.煤矿安全知识图谱构建及智能查询方法研究[J].中文信息学报,2020,34(11):49-59. 被引量：27

二级引证文献151

1陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
2李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
3冯建英,苏允汇,龚劭齐,王智,穆维松.基于集成学习的农业生产技术效率评价方法[J].农业机械学报,2021,52(S01):148-155. 被引量：6
4邵泽强,刘书奇,陆文龙,周锐,陈春宇.基于Citespace的矿山生态修复的文献计量分析[J].环境工程,2023,41(S02):707-711. 被引量：1
5陶全桧,安俊秀,陈宏松.基于跨模态融合ERNIE的多模态情感分析研究[J].成都信息工程大学学报,2022,37(5):501-507. 被引量：2
6任文军,张进,张庆龙,解国爱.鄂尔多斯盆地中的断层相关褶皱及其分布[J].江苏地质,2000,24(1):18-22. 被引量：5
7张登和.冶炼废渣开发利用前景探讨[J].江苏地质,2000,24(1):55-58. 被引量：8
8吕春.统计规律性的计算机模拟演示[J].工科物理,2000,10(4):46-51.
9柳阳,郭红钰.融合BERT语义特征的社区矫正方案推荐技术[J].电子设计工程,2020,28(6):1-5.
10魏立飞,张杨熙,尹峰,黄庆彬.基于XGBoost特征选取和迭加权相关权重矩阵的高分五号遥感影像变化检测[J].湖北大学学报（自然科学版）,2020,42(4):398-403. 被引量：1

1熊洋,王圣淳,田金松,张耀允.基于区块链和共享货车理念的货运组织[J].神州,2018,0(23):225-225.
2熊健,邹东兴.集成学习在样本不平衡垃圾短信识别上的应用[J].广州大学学报（自然科学版）,2018,17(5):1-7. 被引量：1
3舟水一泽.墨绿色的夜——森林中的酒店[J].财富生活,2019,0(2):54-63.
4赵彦锋,李豪杰,陈杰,孙志英,梁思源.基于土壤变异解释力的几种土壤制图方法的对比研究——以南阳市1m土体土壤有机碳密度制图为例[J].土壤学报,2018,55(1):43-53. 被引量：6
5吴吉斌,王箭.垂直分布数据集上的安全Skyline查询算法[J].计算技术与自动化,2018,37(4):67-71.
6袁玲,汪慧,梁静.Stratonovich型随机微分方程的三阶隐式型随机Runge-Kutta算法[J].西昌学院学报（自然科学版）,2018,32(4):51-53.
7先梦瑜.基于TCSDG的民航旅客行为偏好模型的建立与仿真[J].电子设计工程,2018,26(21):62-66. 被引量：2
8程秀峰,范晓莹,杨金庆.一种融合了基于朴素贝叶斯算法与情境感知的协同推荐系统——以大学图书馆实体图书推荐为例[J].现代情报,2019,39(2):57-65. 被引量：29
9刘云,黄荣乘.最大判别特征选择算法在文本分类的优化研究[J].四川大学学报（自然科学版）,2019,56(1):65-70. 被引量：8
10庞延军,杨永华,胡成华,陆军,郑康乐.从RAPD看肿节少穗竹的分类地位问题初探[J].南京大学学报（自然科学版）,1998,34(5):531-535. 被引量：10

Journal of Central South University

2019年第1期

浏览历史

内容加载中请稍等...