MapReduce中数据倾斜解决方法的研究被引量：3

Research on Handling Data Skew in MapReduce

下载PDF

导出

摘要随着移动互联网和物联网的飞速发展,数据规模呈爆炸性增长态势,人们已经进入大数据时代。MapReduce是一种分布式计算框架,具备海量数据处理的能力,已成为大数据领域研究的热点。但是MapReduce的性能严重依赖于数据的分布,当数据存在倾斜时,MapReduce默认的Hash划分无法保证Reduce阶段节点负载平衡,负载重的节点会影响作业的最终完成时间。为解决这一问题,利用了抽样的方法。在用户作业执行前运行一个MapReduce作业进行并行抽样,抽样获得key的频次分布后结合数据本地性实现负载均衡的数据分配策略。搭建了实验平台,在实验平台上测试WordCount实例。实验结果表明,采用抽样方法实现的数据划分策略性能要优于MapReduce默认的哈希划分方法,结合了数据本地性的抽样划分方法的效果要优于没有考虑数据本地性的抽样划分方法。 With the rapid development of mobile Intemet and the Internet of Things, the data size explosively grows, and people have been in the era of big data. As a distributed computing framework, MapReduce has the ability of processing massive data and becomes a focus in big data. But the performance of MapReduce depends on the distribution of data. The Hash partition function defaulted by MapReduce can＇ t guarantee load balancing when data is skewed. The time of job is affected by the node which has more data to process. In order to solve the problem, sampling is used. It does a MapReduce job to sample before dealing with user＇ s job in this paper. After learning the distribution of key,load balance of data partition is achieved using data locality. The example of WordCount is tested in experimental plat- form. Results show that data partition using sample is better than Hash partition, and taking data locality is much better than that using sample but no data locality.

作者王刚李盛恩

机构地区山东建筑大学计算机科学与技术学院

出处《计算机技术与发展》 2016年第9期201-204,共4页 Computer Technology and Development

基金国家自然科学基金资助项目(61170052)

关键词大数据 MAPREDUCE 负载均衡抽样 big data MapReduce load balancing sampling

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献13

1Dean J, Ghemawat S. MapReduee : simplified data orocessing on large clusters[ J]. Communications of the ACM ,2008,51 (1) :107-113.
2Kwon Y C, Balazinska M, Howe B, et al. Skewtune : mitigating skew in MapReduce applications [ C ]//Proceedirgs of the 2012 ACM SIGMOD international conference on management of data. [ s. l. ] :ACM ,2012:25-36.
3Ibrahim S, Jin H, Lu L, et al. Handling partitioning skew in MapReduce using LEEN [ J ]. Peer-to-Peer Networking and Applications,2013,6(4) :409-424.
4Ramakrishnan S R, Swart G, Urmanov A. Balancing reducer skew in MapReduce workloads using progressive sampling [C]//Proceedings of the third ACM symposium on cloud computing. [ s. l. ] :ACM ,2012.
5Xu Y,Zou P,Qu W,et al. Sampling-based partitioning in Ma- pReduce for skewed data [ C ]//ChinaGrid annual conference. [s. l. ] :IEEE,2012:1-8.
6韩蕾,孙徐湛,吴志川,陈立军.MapReduce上基于抽样的数据划分最优化研究[J].计算机研究与发展,2013,50(S2):77-84. 被引量：13
7周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
8宛婉,周国祥.Hadoop平台的海量数据并行随机抽样[J].计算机工程与应用,2014,50(20):115-118. 被引量：11
9万聪,王翠荣,王聪,贾朔.MapReduce模型中reduce阶段负载均衡分区算法研究[J].小型微型计算机系统,2015,36(2):240-243. 被引量：10
10傅杰,都志辉.一种周期性MapReduce作业的负载均衡策略[J].计算机科学,2013,40(3):38-40. 被引量：15

二级参考文献109

1周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
2秦如新,陈静,冯一宁.一种新的关联规则抽样算法[J].中国农业大学学报,2007,12(3):85-88. 被引量：6
3Leavitt N. Is Cloud Computing Really Ready for Prime Time? [J]. IEEE Computer Society Press, 2009,42 ( 1 ) :15 20.
4Armbrust M, Fox A, Grith R, et al. Above the clouds:A Berkeley View of Cloud Computing[R]. UCB/EECS-2009-28. Berkeley, USA:Electrical Engineering and Computer Sciences, University of California at Berkeley, 2009.
5Vaquero L, Rodero-Marino L, Caceres J, et al. A break in the clouds: towards a cloud definition [J]. SIGCOMM Computer Communication Review, 2009,39 ( 1 ) : 50-55.
6Lenk A,Klems M, Nimis J, et al. What' s inside the Cloud? An Architectural Map of the Cloud Landscape[C]//Proceedings of the 2009 ICSE Workshop on Software Engineering Challenges of Cloud Computing. 2009 : 23-31.
7Amazon Web Services[EB/OL]. http://aws, amazon, corn/.
8Hadoop[EB/OL]. http://hadoop, apache, org/core.
9Dean J, Ghemawat S. MapReduce: Simplied data processing on large clusters[C]//Proceedings of the 6th Symposium on Operating Systems Design and Implementation. San Francisco, CA, 2004,11(18):137-150.
10Hbase[EB/OL]. http://hadoop, apache, org/hbase/.

共引文献482

1周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
2董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
3涂小强,陈海莲.浅谈云计算及其发展现状[J].科技广场,2011(3):234-237. 被引量：4
4曹咏春,刘小君.云测试综述[J].现代计算机,2011,17(19):25-29. 被引量：5
5郑丹青.云计算环境下中小企业信息化建设策略[J].长春工业大学学报,2011,32(5):438-442. 被引量：19
6李俊华.云计算支持下的真实感3D虚拟网络教室开发研究[J].现代教育技术,2011,21(11):87-90. 被引量：2
7刘林东,邬依林.基于云计算的USBKey身份认证技术研究[J].广东第二师范学院学报,2011,31(5):78-84. 被引量：8
8李秀娟.从专利保护规则看多方参与云计算专利[J].电子知识产权,2011(12):49-53. 被引量：4
9白丽瑞,李彤,谢仲文,宋琛.基于成本利润Petri网的应用云计费模式分析[J].电信科学,2012,28(1):58-62.
10吴俊,徐溟.公有云服务计费模式比较研究[J].电信科学,2012,28(1):127-132. 被引量：12

同被引文献4

1李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：111
2李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：187
3陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35. 被引量：118
4王卓,陈群,李战怀,潘巍,尤立.基于增量式分区策略的MapReduce数据均衡方法[J].计算机学报,2016,39(1):19-35. 被引量：24

引证文献3

1李天卓,魏宾宾,杨超,杨新凯.大数据处理平台性能优化探究[J].电信快报（网络与通信）,2018(10):22-27.
2周渭博,钟勇,王阳.MapReduce模型中基于直方图的数据均衡算法[J].西北工业大学学报,2018,36(3):480-486. 被引量：5
3侯震梅,杨玉莹.分布式数据流数据倾斜均衡方法研究[J].长春大学学报,2020,30(10):11-20. 被引量：3

二级引证文献8

1马宏伟,吴少杰,曹现刚,徐博远,张鑫媛.煤矿综采设备运行状态大数据清洗建模[J].工矿自动化,2018,44(11):80-83. 被引量：13
2杨正理,史文,陈海霞.稀疏度拟合的自适应图像并行压缩感知算法[J].计算机辅助设计与图形学学报,2019,31(8):1376-1381. 被引量：2
3张强,张学文.利用布隆滤波二次拆分的数据倾斜处理算法[J].计算机工程与设计,2021,42(2):475-481.
4杜鹃,张卓,曹建春.利用快速无偏分层图抽样算法的MapReduce负载平衡方法[J].计算机应用与软件,2021,38(11):288-294. 被引量：2
5胡利军,杨豪,姚浩立.市级气象数据级双活系统设计与实现[J].计算机技术与发展,2021,31(12):110-115.
6张露,尚艳玲.基于数据分区的云计算高维数据均衡分流[J].济南大学学报（自然科学版）,2022,36(1):74-79. 被引量：5
7闫琳.基于动态环境建模与智能感知的实训方法研究[J].电子设计工程,2022,30(15):16-19.
8陈海英,陈华.基于分布式数据流聚类的成绩层次化评估方法[J].保定学院学报,2024,37(4):105-110.

1赵葆华,王于同.快速局域网下分布式查询处理数据划分策略的研究[J].计算机工程与应用,2000,36(4):133-136. 被引量：2
2唐云凯.物联网传感器信息数据分配策略研究[J].世界有色金属,2015,40(9):133-134.
3郑宇,周广声.分布式数据库中数据分配策略及实例研究[J].计算机工程与应用,1997,33(12):1-4. 被引量：6
4王意洁,胡守仁.并行面向对象数据库中的数据放置(英文)[J].国防科技大学学报,1999,21(5):79-82.
5曹旭,张云华.Hadoop平台下计算模型中调度策略的研究[J].计算机应用与软件,2013,30(9):208-210. 被引量：5
6郑宇,周广声.分布式数据库中数据分配策略及费用分析研究[J].上海海运学院学报,1997,18(2):47-51.
7陈若飞,姜文红.Hadoop作业调度本地性的研究与优化[J].软件,2015,36(2):64-68. 被引量：5
8张红.浅谈面向物联网传感器信息的数据分配策略[J].科技资讯,2016,14(26):18-18. 被引量：2
9吴梅梅,韩晓霞,张齐.计算机免疫系统中Apriori算法的应用及其改进策略[J].河北软件职业技术学院学报,2008,10(2):56-59.
10孙瑞琦,杨杰,高瞻,贺志强.一种提高虚拟化Hadoop系统数据本地性的资源调度方法[J].计算机研究与发展,2014,51(S2):189-198. 被引量：5

计算机技术与发展

2016年第9期

浏览历史

内容加载中请稍等...

MapReduce中数据倾斜解决方法的研究被引量：3

参考文献13

二级参考文献109

共引文献482

同被引文献4

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

MapReduce中数据倾斜解决方法的研究 被引量：3

参考文献13

二级参考文献109

共引文献482

同被引文献4

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

MapReduce中数据倾斜解决方法的研究被引量：3