基于MapReduce的数据倾斜连接算法被引量：7

Join Algorithm in Skewed Datasets Based on MapReduce

下载PDF

导出

摘要连接操作是大规模数据集在数据分析应用中最常用的操作,针对MapReduce自身不能有效地处理数据倾斜情况下的连接操作,提出了基于MapReduce的频次分类连接算法。根据数据在连接数据集中出现的频率将整个数据集分为3类,对倾斜数据利用分区算法和广播算法实现数据重分布,以消除数据倾斜的影响;对非倾斜数据采用Hash算法实现数据重分布。重分布后的数据在单节点内即可完成数据连接操作,避免了MapReduce框架下连接操作的跨节点传输代价;同时有效地均衡了MapReduce各节点的任务负载,从而提高了数据倾斜状态下连接操作的效率。通过与传统连接算法的对比,证明了所提算法的有效性和实用性。 Join operation is the most common operation in data analysis applications with large-scale datasets, and Map- Reduce can not support join operation perfectly in handling data skew problem. MapReduce frequecncy classified join al- gorithm was proposed, and datasets were classified into three categories according to the appeared data frequency. Data redistribution applying partitioning algorithm and broadcast algorithms eliminate the impact of skewed data. And data redistribution is realized by using hash algorithm for the non-skew data. Join operation can be completed in a single node,avoiding the cost of communications across the nodes under the MapReduce for the redistributed data,and balan- cing the workload of each node effectively, thereby improves the efficiency of join operations in skewed data. The effec- tiveness and practicality of the algorithms are proved by the comparison with traditional algorithms.

作者梁俊杰何利民

机构地区湖北大学计算机与信息工程学院

出处《计算机科学》 CSCD 北大核心 2016年第9期27-31,共5页 Computer Science

基金湖北省自然科学基金重点项目(2015CFA067 2013CFA115) 湖北省教育厅科研项目计划(D20151001) 武汉市科技攻关计划项目(2013012401010851)资助

关键词数据倾斜 MAPREDUCE 连接算法负载均衡 Data skew, MapReduce,Join algorithm, Load balancing

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1Dean J,Ghemawat S. MapReduce:Simplified data processing on large clusters [J]. Communications of the ACM, 2008, 51 (1): 107-113.
2YongChul K,Magdalena B,Bill H,et al. A Study of Skew in MapReduce Applications[C]//Open Cirrus Summit. 2011.
3Viswanath P, Yannis E I. Estimation of Query-Eesult Distribu- tion and its Application in Parallel-Join Load Balancing[C]// Proceedings of the 22nd VLDB Conference (PVLDB). UMum- bai(Bombay), India, 1996 : 448-459.
4陈勇旭,陈梦杰,刘雪冰,宋杰.基于MapReduce的连接聚集查询算法研究[J].计算机研究与发展,2013,50(S1):306-311. 被引量：7
5宋杰,李甜甜,朱志良,鲍玉斌,于戈.MapReduce连接查询的I/O代价研究[J].软件学报,2015,26(6):1438-1456. 被引量：9
6Slagter K, Hsu C H, Chung Y C, et al. Smart Join: a network- aware multiway join for MapReduce[J]. Cluster Computing, 2014,17 (3) : 629-641.
7Hassan M A H, Bamha M. Towards Scalability and Data Skew Handling in GroupBy-Joins using MapReduce Model[J]. Proce- dia Computer Science, 2015,51 (1) : 70-79.
8Yu X,Pekka K, et al. Handling Data Skew in Parallel Joins in Shared-Nothing Systems [C] // SIGMOD 08. Vancouver, BC, Canada, 2008 : 1043-1052.
9Fariha A, Stratis D V, Salman N. SAND Join --A skew handling join algorithm for Google' s MapReduce framework[C]//IEEE 14th International Multitopic Conference(INMIC). Karachi,Pa- kistan,2011:498-509.
10David J D,Jeffrey F N,Donovan A S,et al. Practical Skew Han- dling in Parallel Joins[C]//Proceedings of the 18th VLDB Con- ference (VLDB). Vancouver, British Columbia, Canada, 1992 : 27-40.

二级参考文献32

1Big data: Science in the petabyte era. 2014. http://www.nature.com/nature/joumal/v455/n7209/edsumm/eO80904-Ol.html.
2Directorate for Computer & Information Science & Engineering. 2014. http://www.nsf.gov/funding/pgmsumm.jsp?pims_id= 503324&org=IIS2014,2,18.
3Ghemawat S, Gobioff H, Leung ST. The Google file system. In: Scott ML, Peterson LL, eds. Proc. of the 19th ACM Symp. on Operating Systems Principles. BoltonLanding: ACM Press, 2003.29-43. [doi: 10.1145/945445.945450].
4HadoopTM distributed file system. 2014. http://hadoop.apache.org/docs/stablel/hdfs_design.html.
5Dean J, Ghemawat S. Mapreduce: Simplified data processing on large clusters, Communication of the ACM, 2008,51 (I): 107-I 13. [doi: 10.1145/1327452.1327492].
6Blanas S, Patel JM, Ercegovac V, Rao J, Shekita EJ, Tian YY. A comparison of join algorithms for log processing in MapReduce. In: Elmagarmid AK, Agrawal D, eds. Proc. of the ACM SIGMOD Int'l Conf. on Management of Data. Indianapolis: ACM Press, 2010.975-986. [doi: 10.1145/1807167.1807273].
7Luo G. Efficient join in Hadoop. Technical Report, NC 27705, Durham: Duke University.
8Hadoop MapReduce. 2014. http://hadoop.apache.org/docs/stablel/mapred_tutorial.html.
9Yang H, Dasdan A, Hsiao RL, Parker DS. Map-Reduce-Merge: Simplified relational data processing on large clusters. In: Chan CY, Ooi BC, Zhou AY, eds. Proc. of the ACM SIGMOD Int'l Conf. on Management of Data. Beijing: ACM Press, 2007. 1029-1040. [doi: 10.1145/1247480.1247602].
10Ranger C, Raghuraman R, Penmetsa A, Bradski G, Kozyrakis C. Evaluating Mapreduce for multi-core and multiproeessor systems. In: Proc. of the 13st Int'l Conf. on High-Performance Computer Architecture (HPCA-13 2007). Phoenix: IEEE Computer Society, 2007.13-24. [doi: 10.1109/HPCA.2007.346181].

共引文献24

1刘寒梅,韩宏莹.基于反馈调度的MapReduce负载均衡分区算法研究[J].信息通信,2015,28(10):41-42. 被引量：1
2李素若.基于MapReduce分布式连接算法优化技术研究[J].铜陵学院学报,2015,14(5):107-109.
3王卓,陈群,李战怀,潘巍,尤立.基于增量式分区策略的MapReduce数据均衡方法[J].计算机学报,2016,39(1):19-35. 被引量：25
4黄向东,郑亮帆,邱明明,张金瑞,王建民.支持时序数据聚合函数的索引[J].清华大学学报（自然科学版）,2016,56(3):229-236. 被引量：3
5刘越,李锦涛,虎嵩林.基于代价估计的Hive多维索引分割策略选择算法[J].计算机研究与发展,2016,53(4):798-810. 被引量：4
6王刚,李盛恩.MapReduce中数据倾斜解决方法的研究[J].计算机技术与发展,2016,26(9):201-204. 被引量：3
7徐德智,刘扬,Sarfraz Ahmed.基于Hadoop的RDF数据存储及查询优化[J].计算机应用研究,2017,34(2):477-480. 被引量：15
8付仲良,赵星源,王楠,杨元维.面向并行空间连接的两轮映射数据划分方法[J].浙江大学学报（工学版）,2017,51(1):212-224. 被引量：1
9黄海.一种改进的数据库查询二叉树启发式算法[J].赤峰学院学报（自然科学版）,2017,33(3):38-39.
10杨钊,蓝贵文,陈骐,吴聪聪,张强.基于积极算法的WFS空间连接查询优化研究[J].小型微型计算机系统,2017,38(7):1549-1553. 被引量：1

同被引文献28

1阎逸飞,王智立,邱雪松,王嘉潞.Spark环境下基于数据倾斜模型的Shuffle分区优化方案[J].北京邮电大学学报,2020(2):116-121. 被引量：2
2韩蕾,孙徐湛,吴志川,陈立军.MapReduce上基于抽样的数据划分最优化研究[J].计算机研究与发展,2013,50(S2):77-84. 被引量：13
3王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：616
4傅杰,都志辉.一种周期性MapReduce作业的负载均衡策略[J].计算机科学,2013,40(3):38-40. 被引量：15
5刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报（工学版）,2014,48(6):957-972. 被引量：478
6程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：741
7翟红敏,刘国华,赵威,刘源源,翟红坤.MapReduce中连接负载均衡优化研究[J].计算机工程与科学,2014,36(10):1860-1865. 被引量：4
8万聪,王翠荣,王聪,贾朔.MapReduce模型中reduce阶段负载均衡分区算法研究[J].小型微型计算机系统,2015,36(2):240-243. 被引量：10
9高宇飞,曹仰杰,陶永才,石磊.MapReduce计算模型下基于虚拟分区的数据倾斜处理方法[J].小型微型计算机系统,2015,36(8):1706-1710. 被引量：5
10李航晨,秦小麟,沈尧.数据本地性感知的MapReduce负载均衡策略[J].计算机科学,2015,42(10):50-56. 被引量：4

引证文献7

1陈军.分布式平台等值连接优化技术分析[J].现代计算机,2018,24(5):90-92.
2郑钤,向军.一种基于负载代价的MapReduce等值连接优化算法[J].湖北民族学院学报（自然科学版）,2018,36(3):342-347.
3张元鸣,蒋建波,陆佳炜,徐俊,肖刚.面向MapReduce的迭代式数据均衡分区策略[J].计算机学报,2019,42(8):1873-1885. 被引量：14
4张占峰,王文礼,耿珊珊,贾芝婷.Spark数据倾斜问题研究[J].河北省科学院学报,2020,37(1):1-7. 被引量：3
5杜鹃,张卓,曹建春.利用快速无偏分层图抽样算法的MapReduce负载平衡方法[J].计算机应用与软件,2021,38(11):288-294. 被引量：2
6杨迪,赵家伟,王鹏,赵建平.面向负载均衡的动态均衡分区策略[J].计算机应用与软件,2024,41(8):46-52.
7何玉林,吴东彤,Philippe Fournier-Viger,黄哲学.基于优先填补策略的Spark数据均衡分区方法[J].电子学报,2024,52(10):3322-3335.

二级引证文献19

1张占峰,王文礼,耿珊珊,贾芝婷.Spark数据倾斜问题研究[J].河北省科学院学报,2020,37(1):1-7. 被引量：3
2黄伟建,贾孟玉,黄亮.并行随机抽样贪心算法分区的MapReduce负载均衡研究[J].现代电子技术,2020,43(16):170-173. 被引量：3
3高雯雯.数据驱动科技情报智慧服务方案研究[J].情报科学,2020,38(8):134-140. 被引量：8
4张国华,叶苗,陆霞,吉晓香,梁德鸿.基于线程与分布式排序对比实验的设计与研究[J].实验技术与管理,2020,37(8):186-188. 被引量：1
5钟章生,陈世炉,陈志龙.利用并行惯性权重OOL-FA的大数据分类[J].计算机工程与设计,2020,41(10):2818-2824. 被引量：1
6龚健虎,张跃进.深度AWB结合改进DIT的高效大数据分类[J].计算机工程与设计,2021,42(2):468-474. 被引量：4
7张国华,叶苗,王自然,周婷婷.大数据Hadoop框架核心技术对比与实现[J].实验室研究与探索,2021,40(2):145-148. 被引量：9
8杨彦彬,干祯辉.Spark环境下SQL优化的方法[J].数字通信世界,2021(7):13-14. 被引量：2
9黄学雨,向驰,陶涛.基于MapReduce和改进密度峰值的划分聚类算法[J].计算机应用研究,2021,38(10):2988-2993. 被引量：7
10段瑞永.基于DCMM的集团级全域数据管理与共享平台研究与应用[J].电力大数据,2021,24(8):68-75. 被引量：4

1刘德强.基于计算机网络系统的数据分析应用研究[J].信息系统工程,2016,29(12):16-16.
2刘静.基于计算机网络系统的数据分析应用研究[J].信息系统工程,2016,29(10):37-37.
3董春丽,赵荣彩,韩林,张亚.支持数据重分布通信的计算和数据分解算法[J].计算机工程,2007,33(10):41-43.
4刘杰,迟利华,胡庆丰,李晓梅.基于消息传递的数据交错重分布负载平衡技术[J].计算机工程与设计,2005,26(2):312-314.
5陈悦,冯雷.大数据时代下的我校学生成绩数据分析应用[J].课程教育研究（学法教法研究）,2017,0(2):17-18.
6周素青.基于GNS3的IPv6校园网络的组网设计与仿真实现[J].电脑知识与技术,2014,0(12):8140-8142. 被引量：3
7曾荣华.Oracle数据分发技术[J].计算机光盘软件与应用,2012,15(20):165-165. 被引量：1
8陆贵荣,何宝祥,孟煜.多变量同时检测新方法的研究[J].传感器与微系统,2008,27(7):47-49. 被引量：6
9丁玺润,陈梅,李晖.面向容器的云平台数据重分布策略研究[J].微型机与应用,2016,35(5):26-29. 被引量：1
10邬贺铨：未来五年物联网的数据分析市场将年增30%[J].河南科技,2016,35(9):5-5.

计算机科学

2016年第9期

浏览历史

内容加载中请稍等...

基于MapReduce的数据倾斜连接算法被引量：7

参考文献14

二级参考文献32

共引文献24

同被引文献28

引证文献7

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的数据倾斜连接算法 被引量：7

参考文献14

二级参考文献32

共引文献24

同被引文献28

引证文献7

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的数据倾斜连接算法被引量：7