Spark框架下利用分布式NBC的大数据文本分类方法被引量：6

Text classification of big data using distributed NBC under Spark framework

下载PDF

导出

摘要针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。 Aiming at the challenges faced by the existing big data-oriented computing framework in the study of extensible machine learning,this paper proposed a distributed naive Bayesian text classification method based on MapReduce and Apache Spark framework. This method explored the Bayesian network classifier by studying the adaptability of MapReduce and Apache Spark frameworks,and studied the existing computing framework for big data. First,it divided the training sample data set into m classes based on the naive Bayes text classification model. In the training phase,it used the output of the previous MapReduce as the input of the next MapReduce,and used four MapReduce jobs to derive the model. This design process made full use of the parallel advantages of MapReduce. Finally,when the classifier was tested,it obtained the value of the class label which the maximum value belonged. Experiments in the Newgroup’s dataset show the proposed method achieves more than99% of the results on all five types of news data sets,and is all higher than the comparison algorithms,which prove the accuracy of the method.

作者臧艳辉赵雪章席运江 Zang Yanhui;Zhao Xuezhang;Xi Yunjiang(Foshan Polytechnic,Foshan Guangdong 528137,China;South China University of Technology,Guangzhou 510641,China)

机构地区佛山职业技术学院华南理工大学

出处《计算机应用研究》 CSCD 北大核心 2019年第12期3705-3708,3712,共5页 Application Research of Computers

基金国家自然科学基金资助项目(71371077) 佛山市科技计划项目(2015AB004241)

关键词文本分类 MAPREDUCE Spark框架分布式朴素贝叶斯分类器机器学习 text classification MapReduce Spark framework distributed naive Bayesian classifier(NBC) machine learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1池云仙,赵书良,罗燕,赵骏鹏,高琳,李超.基于特征隶属度的文本分类相似性度量方法[J].计算机科学,2017,44(11):289-296. 被引量：2
2王卓,陈群,李战怀,潘巍,尤立.基于增量式分区策略的MapReduce数据均衡方法[J].计算机学报,2016,39(1):19-35. 被引量：25
3徐德智,刘扬,Sarfraz Ahmed.基于Hadoop的RDF数据存储及查询优化[J].计算机应用研究,2017,34(2):477-480. 被引量：15
4齐芳,冯昕,徐其江.基于人工鱼群优化的直推式支持向量机分类算法[J].计算机应用与软件,2013,30(3):294-296. 被引量：7
5顾玉萍,程龙生.基于MTS-AdaBoost的不平衡数据分类研究[J].计算机应用研究,2018,35(2):346-348. 被引量：10
6党红恩,赵尔平,刘炜,雒伟群.利用数据变换与并行运算的闭频繁项集挖掘方法[J].湘潭大学自然科学学报,2018,40(1):119-122. 被引量：12
7黄廷辉,王玉良,汪振,崔更申.基于Spark的分布式交通流数据预测系统[J].计算机应用研究,2018,35(2):405-409. 被引量：19
8张继福,李永红,秦啸,荀亚玲.基于MapReduce与相关子空间的局部离群数据挖掘算法[J].软件学报,2015,26(5):1079-1095. 被引量：41

二级参考文献50

1周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
2谢纪刚,裘正定,韩彦俊,莫莉.上市公司财务困境预测模型比较研究[J].系统工程理论与实践,2005,25(9):29-35. 被引量：14
3张晓利,贺国光.基于主成分分析和组合神经网络的短时交通流预测方法[J].系统工程理论与实践,2007,27(8):167-171. 被引量：26
4王黎明,张卓.基于iceberg概念格并置集成的闭频繁项集挖掘算法[J].计算机研究与发展,2007,44(7):1184-1190. 被引量：25
5Cortes C, Vapnik V. Support vector networks [ J ]. Machine Learning, 1995,20:273 - 297.
6Vapnik V. The Nature of Statistical Learning Theory [ J ]. New York : Springer-Verlag, 1995.
7Gammerman A, Vapnik V, Vowk V. Learning by transduction [ C ]// Proceedings of the 14th Conference on Uncertainty in Artificial Intelli- gence. Wisconsin, 1998 : 148 - 156.
8Blake C, Keogh E, Merz C J. UCI repository of machine learning data- bases[ EB/OL]. Department of Information and Computer Science, U- niversity of California, Irvine, CA, 1998. http ://www. ics. uci. edu/ mleam/MLRepository, html.
9Lang K. Newsweeder:Learning to filter net news [ C ]//Proceedings of the Twelfth International Conference on Machine Learning,1995,331 -339.
10Joachims T. Transductive inference for text classification using support vector machines[ C ]//Proceedings of the 16th International Conference on Machine Learning (ICML). San Francisco:Morgan Kaufmann Pub- lishers, 1999:200 - 209.

共引文献121

1李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
2黄玲,陈智铨,黄修志.活血化淤中药保胎10例观察[J].实用中医药杂志,2000,16(2):10-10. 被引量：2
3刘青普.矢量图形到位映像数据转换的方法与实例[J].电脑编程技巧与维护,2000(5):10-13.
4潘淼鑫,林甲祥,陈崇成,叶晓燕.基于C-SOM和Spark的并行空间离群挖掘方法及应用[J].地球信息科学学报,2019,21(1):128-136. 被引量：4
5张志强,刁琦,张太红.基于SVM、TSVM与ELM的图像检索算法对比研究[J].智能计算机与应用,2015,5(3):12-15.
6孙彬.计算机物流服务的约简与优势发现[J].物流技术,2015,34(13):262-265.
7刘竹松,陈洁.考虑数据不确定性的非均匀挖掘算法[J].华侨大学学报（自然科学版）,2016,37(3):308-311. 被引量：2
8任艳.微信息大数据粗糙集的近似约简[J].沈阳工业大学学报,2016,38(3):309-313. 被引量：4
9吴冰冰,哈力旦.阿布都热依木,阿丽亚.艾尔肯,何燕.人工鱼群优化的维吾尔文文本特征选择方法[J].河南科技大学学报（自然科学版）,2016,37(6):46-50. 被引量：1
10卞琛,于炯,修位蓉,英昌甜,钱育蓉.基于迭代填充的内存计算框架分区映射算法[J].计算机应用,2017,37(3):647-653. 被引量：5

同被引文献73

1何敏,武德安,吴磊.基于MapReduce的平均多项朴素贝叶斯文本分类[J].计算机应用研究,2016,33(1):115-117. 被引量：5
2刘张,李坚,王超,蔡世民,唐明,黄琦,陈照辉.基于复杂城市道路网络的交通拥堵预测模型[J].电子科技大学学报,2016,45(1):17-25. 被引量：13
3韦清波,何兆成,郑喜双,陈昶佳,杨敬锋.考虑多因素的城市道路交通拥堵指数预测研究[J].交通运输系统工程与信息,2017,17(1):74-81. 被引量：31
4赵高长,王欣,张仲华,韩苗,魏嵬.基于MWST+T-K2结构学习算法的贝叶斯分类器[J].复旦学报（自然科学版）,2017,56(1):48-56. 被引量：6
5姚洁,朱响斌,宋新方,李广龙,邱慧玲.基于节点排序的贝叶斯网络结构学习算法[J].计算机工程,2017,34(5):317-321. 被引量：7
6程山英.交通拥堵汽车流量准确预测仿真研究[J].计算机仿真,2017,34(10):123-126. 被引量：4
7王波,王怀彬,张超.基于MapReduce的频繁模式挖掘算法的优化[J].天津理工大学学报,2018,34(1):6-11. 被引量：4
8刘彬,王海羽,孙美婷,刘浩然,刘永记,张春兰.一种通过节点序寻优进行贝叶斯网络结构学习的算法[J].电子与信息学报,2018,40(5):1234-1241. 被引量：15
9顾荣,王善永,郭晨,袁春风,黄宜华.基于Spark的大规模语义规则后向链推理系统[J].中文信息学报,2018,32(3):120-134. 被引量：6
10陈忠辉,凌献尧,冯心欣,郑海峰,徐艺文.基于模糊C均值聚类和随机森林的短时交通状态预测方法[J].电子与信息学报,2018,40(8):1879-1886. 被引量：30

引证文献6

1白小曼,冯永祥,李雷孝,张利平,马志强,王永生,王慧.针对城市道路拥堵的优化随机森林预测模型[J].科学技术与工程,2021,21(26):11205-11211. 被引量：11
2徐苗,王慧玲,梁义,綦小龙.基于v-结构和邻居集的启发式贝叶斯网络结构学习方法[J].计算机应用研究,2022,39(2):442-446. 被引量：4
3江奇峰.基于MapReduce的分布式云计算数据挖掘方法[J].景德镇学院学报,2021,36(6):106-108. 被引量：1
4耿新青,王正欧.基于增量式模糊聚类算法的文本挖掘[J].南京理工大学学报,2022,46(5):579-585. 被引量：4
5张倩,吴琼,时庆涛.基于粒度神经网络的大数据标签分类算法研究[J].计算机仿真,2023,40(4):286-289.
6韩璐,陈威宇,张斐,何建锋,苏怀振.差异化需求下的非关系型分布式报送信息大数据分类方法[J].电信科学,2023,39(6):114-121. 被引量：3

二级引证文献23

1庄燕.轴承故障的全视角特征提取与模式诊断方法[J].机电工程,2022,39(3):344-349. 被引量：1
2王森,蔡小莉,鲍云飞,詹邦成.基于NPP/VIIRS夜间灯光图像的GDP智能预测模型研究[J].科学技术与工程,2022,22(8):3191-3201. 被引量：8
3吴苹,钟仪华,雍雪,张茜.数据挖掘方法在汽油辛烷值损失计算中的应用[J].科学技术与工程,2022,22(10):4046-4054.
4范艳红,费丹雄,仇琦玮,夏学智,范雯雯.乡村振兴下改进贝叶斯在农业智能电网故障检测中的应用[J].自动化与仪器仪表,2023(3):107-110. 被引量：1
5陈海洋,尚珊珊,任智芳,刘静,张静.基于改进蚁狮优化的贝叶斯网络结构学习算法[J].空军工程大学学报,2023,24(2):104-111. 被引量：5
6周丽,路雪鹏,尚娇,李亚坤.随机存储下多人拣选系统拥堵率研究[J].科学技术与工程,2023,23(14):5875-5886.
7秦绯.面向拥堵筛查决策应用的物联网云平台模型[J].山西交通科技,2023(3):132-134.
8龚晓岚,于孝美.实时交通大数据分析和可视化地理信息平台研究[J].贵州警察学院学报,2023,35(4):77-83.
9田佳,王德勇,师文喜.基于集合经验模态分解和随机森林的短时交通流预测[J].科学技术与工程,2023,23(29):12612-12619.
10同军红.基于B-CNN模型的非平衡大数据智能分类方法研究[J].信息与电脑,2023,35(15):162-164. 被引量：2

1谢志炜,冯鸿怀,许锐埼,李慧夫.电力基建施工问题文本分类研究[J].现代信息科技,2019,3(17):17-19. 被引量：1
2王浩铭.基于句式内容表的电网安全隐患文本分类方法[J].信息通信,2019,0(9):105-106. 被引量：1
3陈小刚.天·天邑·天民:墨家天下治道及当代价值[J].商丘职业技术学院学报,2019,18(5):6-13.
4熊炜.建筑工程造价预结算审核的方法分析[J].区域治理,2019,0(5):146-146.
5路军,王梓耀,余涛.基于朴素贝叶斯和D-S证据理论的多时空数据融合[J].电气技术,2019,20(11):27-32. 被引量：9
6Junko Honda,Hisashi Matsuoka,Chieko Hirose,Taeko Nagao,Takahiro Yoshida,Masako Takahashi,Issei Imoto,Mitsunori Sasa.Early Results of Omitting Completion Axillary Lymph Node Dissection in Sentinel Lymph Node Metastasis-Positive Breast Cancer Patients[J].Advances in Breast Cancer Research,2013,2(4):126-132. 被引量：1
7祁小军,兰海翔,卢涵宇,丁蕾锭,薛安琪.贝叶斯、KNN和SVM算法在新闻文本分类中的对比研究[J].电脑知识与技术,2019,15(9):220-222. 被引量：10
8薛金成,姜迪,吴建德.基于LSTM-A深度学习的专利文本分类研究[J].通信技术,2019,52(12):2888-2892. 被引量：5
9刘云,黄荣乘.基于指数分布族的类特定文本分类算法[J].重庆邮电大学学报（自然科学版）,2019,31(5):694-701. 被引量：2
10NARENDRASINH B Gohil,VDEVYAS Dwivedi.FLBS: Fuzzy lion Bayes system for intrusion detection in wireless communication network[J].Journal of Central South University,2019,26(11):3017-3033.

计算机应用研究

2019年第12期

浏览历史

内容加载中请稍等...

Spark框架下利用分布式NBC的大数据文本分类方法被引量：6

参考文献8

二级参考文献50

共引文献121

同被引文献73

引证文献6

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

Spark框架下利用分布式NBC的大数据文本分类方法 被引量：6

参考文献8

二级参考文献50

共引文献121

同被引文献73

引证文献6

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

Spark框架下利用分布式NBC的大数据文本分类方法被引量：6