MapReduce中shuffle优化与重构被引量：8

Optimization and reconstruction shuffle in MapReduce

下载PDF

导出

摘要详细介绍了MapReduce编程框架,具体分析了MapReduce中shuffle阶段流程。分别从Map端数据压缩、重构远程数据拷贝传输协议、Reduce端内存分配优化三方面来优化和重构Shuffle。最后通过搭建Hadoop集群,运用MapReduce分布式算法测试实验数据。实验结果证明优化重构后的shuffle能显著提高MapReduce计算性能。 We describe the MapReduce programming framework in detail,and analyze the shuffle-stage process.Shuffle in MapReduce is optimized and reconstructed through the following three measures：compressing the output of the Map end,reconstructing the protocol used to copy the data form the Map end to the Reduce end,and optimizing memory allocation on the Reduce end.Finally,through building a Hadoop cluster,the experimental data are tested using the MapReduce distributed algorithm.Experimental results show that the MapReduce computing performance improves significantly after optimizing the reconstructed shuffle.

作者彭辅权金苍宏吴明晖应晶

机构地区浙江大学计算机学院浙江大学城市学院

出处《中国科技论文》 CAS 北大核心 2012年第4期241-245,共5页 China Sciencepaper

基金清华-腾讯互联网创新技术联合实验室资助项目(2011-8)

关键词云计算 HADOOP MAPREDUCE SHUFFLE cloud computing Hadoop MapReduce shuffle

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1Ming-Yee Iu,Willy Zweanepoel. HadoopToSQL: a MapReduce query optimizer[A].France:Paris,2010.251-264.

同被引文献43

1李盛恩,王珊.封闭数据立方体技术研究[J].软件学报,2004,15(8):1165-1171. 被引量：25
2蒋占四,陈立平,罗年猛.最近邻实例检索相似度分析[J].计算机集成制造系统,2007,13(6):1165-1168. 被引量：65
3WHITE T.Hadoop:the definitive guide[M].California:O'Reilly Media,2012.
4DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
5BORTHAKUR D.HDFS architecture guide[DB/OL].Hadoop apache project.(2008-02-14).[2013-04-22].http://hadoop.apache.org/common/docs/current/hdfsdesign.pdf.
6CONDIE T,CONWAY N,ALVARO P,et al.MapReduce online[C].Proceedings of the 7th USENIX Conference on Networked Systems Design and Implementation,2010:21-21.
7WhiteT.Hadoop权威指南[M].周敏奇,王晓玲,金澈清,等,译.第2版.北京:清华大学出版社,2011.
8Shvachko K, Kuang H, Radia S, et al. The hadoop distributed file system[ C]//Proc of 2010 IEEE 26th symposium on mass storage systems and technologies. [ s. 1. ] : IEEE ,2010 : 1 - 10.
9Ghemawat S, Gobioff H, Leung S T. The Google file system [C]//Proc of ACM symposium on operating systems princi- ple. New York : ACM ,2003:29-43.
10Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters [ J ]. Communications of the ACM, 2008,51 (1):107-113.

引证文献8

1张乐.基于单元集群的MapReduce中节点失效的改进[J].微型机与应用,2013,32(16):81-84. 被引量：1
2高莉莎,刘正涛,应毅.基于应用程序的MapReduce性能优化[J].计算机技术与发展,2015,25(7):96-99. 被引量：4
3李春青,李海生,梁婷婷,赵凯.大数据环境下最小单调约束闭包Hadoop并行关联规则[J].中国科技论文,2015,10(20):2356-2361. 被引量：2
4赵虎,覃永震,左开伟.故障诊断算法在MapReduce中的优化实现[J].计算机测量与控制,2016,24(11):45-47.
5熊倩,张,郭明,徐婕.MapReduce Shuffle性能改进[J].计算机应用,2017,37(A01):58-62. 被引量：5
6侯伟凡,樊玮,张宇翔.改进的Spark Shuffle内存分配算法[J].计算机应用,2017,37(12):3401-3405. 被引量：1
7张正凡,都仪敏.商立方体分布式查询研究[J].软件导刊,2018,17(11):37-39.
8汪世伟,陈新房,杨丽佳.MapReduce与Spark的Shuffle过程比较——以词频统计为例[J].电脑与电信,2023(12):29-32.

二级引证文献13

1胡欢欢.新常态下仪器设备经济供给侧配送中心自动选择技术研究[J].自动化与仪器仪表,2018,0(12):62-64.
2苏锡杰.云计算安全研究[J].硅谷,2014,7(17):52-53.
3杨新湦,王倩,刘俊,张宝成.大数据时代下的航班延误组合预测[J].中国科技论文,2016,11(19):2205-2208. 被引量：10
4王康,陈海光,李东静.基于Hive的性能优化研究[J].上海师范大学学报（自然科学版）,2017,46(4):527-534. 被引量：7
5冯兴杰,刘芳.基于Hadoop的ADS-B数据解析与存储方法[J].航天控制,2017,35(5):80-86.
6侯伟凡,樊玮,张宇翔.改进的Spark Shuffle内存分配算法[J].计算机应用,2017,37(12):3401-3405. 被引量：1
7苗立志,刁继尧,娄冲,崔进东.基于Spark和随机森林的乳腺癌风险预测分析[J].计算机技术与发展,2019,29(8):142-146. 被引量：12
8Suzhen Wang,Shanshan Geng,Zhanfeng Zhang,Anshan Ye,Keming Chen,Zhaosheng Xu,Huimin Luo,Gangshan Wu,Lina Xu,Ning Cao.A Dynamic Memory Allocation Optimization Mechanism Based on Spark[J].Computers, Materials & Continua,2019(8):739-757. 被引量：2
9孟陆,金永.基于分布式的玻璃缺陷检测技术研究及性能优化[J].计算机测量与控制,2019,27(12):47-51. 被引量：2
10马亚铭,陶利民,刘子琦.基于Hadoop的电商大数据平台性能调优[J].软件导刊,2020,19(5):186-189. 被引量：1

1刘伟,刘宏韬,胡志刚.代码缺陷与代码味道的自动探测与优化研究[J].计算机应用研究,2014,31(1):170-176. 被引量：5
2周健,张永平,张功萱.基于海量物联网数据的压缩感知及其并行处理[J].微电子学与计算机,2012,29(11):116-119. 被引量：3
3何文华,李学俭.基于共享数据中心的高校学生事务业务流程再造研究[J].计算机应用与软件,2011,28(7):216-218. 被引量：6
4杨立林.面向软件人才培养的硬件课程知识体系优化重构研究[J].福建电脑,2014,30(6):53-55.
5樊建朋,朱雪平,徐延勇,柴宝东.地空导弹的分配优化[J].兵工自动化,2006,25(11):15-16.
6刘强,谭光宇,李兆坤,刘广军,石晶合.基于VC++的三维复杂槽型铣刀片应力场模糊综合评判[J].工具技术,2006,40(4):25-28.
7晏斌,郭方方.基于蚁群算法的多Agent任务分配[J].成组技术与生产现代化,2009,26(4):40-43.
8杨帆,郝建春.基于改进广义成本函数的可靠性分配优化[J].火力与指挥控制,2013,38(6):125-127. 被引量：2
9崔少华.论计算机通信网络容量和流量的分配优化[J].电子技术与软件工程,2013(11):16-16.
10张兆庆,乔如良.PORT：并行优化重构工具集[J].计算机学报,1994,17(12):908-921. 被引量：1

中国科技论文

2012年第4期

浏览历史

内容加载中请稍等...

MapReduce中shuffle优化与重构被引量：8

参考文献1

同被引文献43

引证文献8

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

MapReduce中shuffle优化与重构 被引量：8

参考文献1

同被引文献43

引证文献8

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

MapReduce中shuffle优化与重构被引量：8