MapReduce框架下的朴素贝叶斯算法并行化研究被引量：9

Parallelization of Naive Bayes Algorithm Under MapReduce Framwork

下载PDF

导出

摘要研究朴素贝叶斯算法MapReduce的并行实现方法,针对传统单点串行算法在面对大规模数据或者参与分类的属性较多时效率低甚至无力承载大规模运算,以及难以满足人们处理海量数据的需求等问题,本文在朴素贝叶斯基本理论和MapReduce框架的基础上,提出了一种基于MapReduce的高效、廉价的并行化方法.通过实验表明这种方法在面对大规模数据时能有效提高算法的效率,满足人们处理海量数据的需求. This article focused on the realization of the parallelization of Naive Bayes. When it comes to large-scal data or multi-attributes, the traditional singal node algorithm has a low efficiency, or even is unable to host large-scale computing. All of these make the traditional algorithm cannot fit the need to deal with massive data. Therefore, based on the basic theory of Naive Bayes and the framework of MapReduce, this paper proposed a parallelization method of Naive Bayes, which is efficient and cheap.At the end, it is proved by experiments that this method can effectively improve the efficiency of the algorithm so as to meet the need of peoople to deal with massive data.

作者幸莉仙黄慧连

机构地区华北电力大学大学经济管理系

出处《计算机系统应用》 2013年第2期108-111,共4页 Computer Systems & Applications

关键词朴素贝叶斯 MAPREDUCE 并行化云计算 Naive Bayes MapReduce parallelization cloud computing

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1廖芹,郝志峰,陈志宏.数据挖掘与数学建模.北京:国防工业出版社,2010.292-300.
2陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1312
3刘鹏,黄宜华,陈卫卫.实战Hadoop-开启通向云计算的捷径.北京:电子工业出版社,2011.
4余楚礼,肖迎元,尹波.一种基于Hadoop的并行关联规则算法[J].天津理工大学学报,2011,27(1):25-28. 被引量：13
5张圣.一种基于云计算的关联规则Apriori算法[J].通信技术,2011,44(6):141-143. 被引量：25
6Isard M, Budiu M, Yu Y, et al. Dryad:Distributed data-parallel programs from sequential building blocks.Proe.of the 2nd European Conf.on ComputcrSystems(EuroSys),2007,59-72.

二级参考文献45

1Sims K. IBM introduces ready-to-use cloud computing collaboration services get clients started with cloud computing. 2007. http://www-03.ibm.com/press/us/en/pressrelease/22613.wss
2Boss G, Malladi P, Quan D, Legregni L, Hall H. Cloud computing. IBM White Paper, 2007. http://download.boulder.ibm.com/ ibmdl/pub/software/dw/wes/hipods/Cloud_computing_wp_final_8Oct.pdf
3Zhang YX, Zhou YZ. 4VP+: A novel meta OS approach for streaming programs in ubiquitous computing. In: Proc. of IEEE the 21st Int'l Conf. on Advanced Information Networking and Applications (AINA 2007). Los Alamitos: IEEE Computer Society, 2007. 394-403.
4Zhang YX, Zhou YZ. Transparent Computing: A new paradigm for pervasive computing. In: Ma JH, Jin H, Yang LT, Tsai JJP, eds. Proc. of the 3rd Int'l Conf. on Ubiquitous Intelligence and Computing (UIC 2006). Berlin, Heidelberg: Springer-Verlag, 2006. 1-11.
5Barroso LA, Dean J, Holzle U. Web search for a planet: The Google cluster architecture. IEEE Micro, 2003,23(2):22-28.
6Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine. Computer Networks, 1998,30(1-7): 107-117.
7Ghemawat S, Gobioff H, Leung ST. The Google file system. In: Proc. of the 19th ACM Symp. on Operating Systems Principles. New York: ACM Press, 2003.29-43.
8Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. In: Proc. of the 6th Symp. on Operating System Design and Implementation. Berkeley: USENIX Association, 2004. 137-150.
9Burrows M. The chubby lock service for loosely-coupled distributed systems. In: Proc. of the 7th USENIX Symp. on Operating Systems Design and Implementation. Berkeley: USENIX Association, 2006. 335-350.
10Chang F, Dean J, Ghemawat S, Hsieh WC, Wallach DA, Burrows M, Chandra T, Fikes A, Gruber RE. Bigtable: A distributed storage system for structured data. In: Proc. of the 7th USENIX Symp. on Operating Systems Design and Implementation. Berkeley: USENIX Association, 2006. 205-218.

共引文献1345

1查伟,孙燕琼,郑继平.基于云测试架构的FIVP解决方案[J].铁路技术创新,2021(S01):82-86.
2林少伟.人工智能法律主体资格实现路径:以商事主体为视角[J].中国政法大学学报,2021(3):165-177. 被引量：6
3胡祖林,肇杰.云计算下的网盘安全[J].计算机产品与流通,2020,0(1):164-164.
4张盛,任伟,王玉,黄金明,陈旭彤.基于Web的重力异常正演建模工具[J].地质论评,2023,69(S01):595-597.
5赵文韬.基于5G技术的黑龙江云计算产业发展[J].电子技术（上海）,2020,49(9):186-187.
6Longfei He,Mei Xue,Bin Gu.Internet-of-things enabled supply chain planning and coordination with big data services:Certain theoretic implications[J].Journal of Management Science and Engineering,2020,5(1):1-22. 被引量：6
7吴劲松,陈孚.云计算发展及应用研究[J].广西通信技术,2011(2):9-13. 被引量：5
8黄纬,温志萍,程初.云计算中基于K-均值聚类的虚拟机调度算法研究[J].南京理工大学学报,2013,37(6):807-812. 被引量：17
9孙凌宇,欧阳春娟,冷明,刘昌鑫,夏洁武.云计算与高等教育管理信息服务系统构建[J].山西财经大学学报,2012,34(S1). 被引量：9
10王荣荣.云计算技术基础上数字图书馆云服务平台的实现[J].河北北方学院学报（社会科学版）,2013,29(4):72-74. 被引量：2

同被引文献113

1朱雪彤,王永利.移动社交网络中用户上下文的自动识别与共享[J].南京理工大学学报,2013,37(4):500-505. 被引量：4
2ZHEN Bin WU Xihong LIU Zhimin CHI Huisheng (Center for Information Science, Peking University Beijing 100871).An enhanced relative spectral processing of speech[J].Chinese Journal of Acoustics,2002,21(1):86-96. 被引量：2
3王萍,刘颖,王汉芝,刘环珠.基于格点场数据的沙尘暴双预报模型[J].天津大学学报,2006,39(3):329-333. 被引量：4
4潘志方.基于朴素贝叶斯学习的电子商务网站客户兴趣分类的应用研究[J].计算机科学,2007,34(6):214-215. 被引量：4
5李国杰.大数据研究的科学价值.中国计算机学会通讯,2012,8(9):8—15.
6Ghemawat S, Gobioff H, Leung ST. The Google file system. ACM SIGOPS Operating Systems Review. ACM. 2003, 37(5): 29-43.
7Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Communications of the ACM, 2008, 51(1): 107-113.
8Chang F, Dean J, Ghemawat S, et al. Bigtable: A distributed storage system for structured data. Proc. of the 7th USENIX Symp. on Operating Systems Design and Implementation. 2006. 205-218.
9TomWhite著.周敏奇,王晓玲,金澈清等译.Hadoop权威指南(第二版).北京:清华大学出版社,2011.
10Shvachko K, Kuang H, Radia S, et al. The Hadoop distributed file system. Mass Storage Systems and Technologies (MSST). 2010 IEEE 26th Symposium on. IEEE. 2010. 1-10.

引证文献9

1应毅,刘亚军.MapReduce并行计算技术发展综述[J].计算机系统应用,2014,23(4):1-6. 被引量：18
2李志义,沈之锐,义梅练.贝叶斯分类算法在社交网站信息过滤中的应用分析[J].图书情报工作,2014,58(13):100-106. 被引量：5
3张晨阳,马志强,刘利民,常骏,李永利.Hadoop下基于粗糙集与贝叶斯的气象数据挖掘研究[J].计算机应用与软件,2015,32(4):72-76. 被引量：6
4李永生,曾沁,杨玉红,陈晋.基于大数据技术的气象算法并行化研究[J].计算机技术与发展,2016,26(9):47-49. 被引量：7
5贺红燕.基于大数据的智能电网关键技术研究[J].电源技术,2016,40(8):1713-1714. 被引量：29
6黄刚,李正杰.基于Hadoop平台的SVM_WNB分类算法的研究[J].计算机应用研究,2016,33(11):3215-3218. 被引量：5
7张宸,韩夏.大数据环境下基于SVM-WNB的网络舆情分类研究[J].统计与决策,2017,33(14):45-48. 被引量：17
8宋欣霞,金卫.应用并行化K-means优化算法探究中医治疗高血压用药规律[J].医学信息学杂志,2017,38(6):71-76. 被引量：3
9王能辉.云计算环境下图书馆位置感知服务研究[J].计算机与数字工程,2019,47(4):778-784.

二级引证文献90

1邢文杰.优化企业集团联合舰队[J].中外管理导报,2000(3):37-38.
2陈凤娟.基于MapReduce的关联规则挖掘[J].电脑与电信,2014(8):59-60.
3周国军.一种基于MapReduce的关联规则挖掘算法[J].玉林师范学院学报,2014,35(5):128-134. 被引量：1
4陈文竹,陈岳林,蔡晓东,华娜.基于并行框架的鲁棒自适应前景检测算法[J].计算机系统应用,2015,24(4):153-158.
5李金忠,汤鹏杰,夏洁武,谭云兰.迭代式MapReduce研究进展[J].计算机工程与应用,2015,51(12):123-132. 被引量：2
6何东之,张吉沣,赵鹏飞.不确定性传播算法的MapReduce并行化实现[J].山东大学学报（工学版）,2015,45(5):22-28. 被引量：1
7何广才,周根宝.基于MapReduce的改进蚁群算法在TSP中的应用[J].内蒙古农业大学学报（自然科学版）,2015,36(5):125-132. 被引量：5
8谭黔林,莫春娟.基于MapReduce的海量文件检索方法研究[J].河池学院学报,2016,36(2):101-105. 被引量：1
9邵国强,介龙梅,蒋庆丰.贝叶斯方法在红酒分类中的应用研究[J].智能计算机与应用,2016,6(3):29-31. 被引量：1
10徐宏博,赵文涛,孟令军.一种基于MapReduce的改进文本输入方式的并行分词方法研究[J].电脑知识与技术,2016,0(8):171-175.

1张巍,张功萱,王永利,张永平,朱昭萌.基于CUDA的SVM算法并行化研究[J].计算机科学,2013,40(4):69-72. 被引量：6
2杨杰明,吴启龙,曲朝阳,杨烁,阚中峰,高冶.MapReduce框架下基于抽样的分布式K-Means聚类算法[J].吉林大学学报（理学版）,2017,55(1):109-115. 被引量：6
3杨健兵.MapReduce框架下改进Apriori算法的研究[J].长春大学学报,2016,26(12):40-43. 被引量：2
4曹锐.一种改进的朴素贝叶斯算法在入侵检测中的应用[J].电脑开发与应用,2009,22(9):13-14. 被引量：2
5孙兴文.并行算法设计及编程基本方法[J].零陵学院学报（教育科学版）,2004,2(4):182-184. 被引量：1
6王博文.Hadoop环境下协同过滤算法的实现[J].科学中国人,2015(9Z):41-42.
7时雷,虎晓红,席磊.朴素贝叶斯分类算法及其应用研究[J].光盘技术,2008(11):54-54. 被引量：7
8《魔兽世界》门槛过高，台湾地区无力代理[J].计算机应用文摘,2004(13):126-126.
9李红,小曼.QQ陌生人攻防战[J].网友世界,2007(22):57-58.
10解读Win8之任务管理器[J].计算机应用文摘,2012(16):19-19.

计算机系统应用

2013年第2期

浏览历史

内容加载中请稍等...

MapReduce框架下的朴素贝叶斯算法并行化研究被引量：9

参考文献6

二级参考文献45

共引文献1345

同被引文献113

引证文献9

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

MapReduce框架下的朴素贝叶斯算法并行化研究 被引量：9

参考文献6

二级参考文献45

共引文献1345

同被引文献113

引证文献9

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

MapReduce框架下的朴素贝叶斯算法并行化研究被引量：9