一种适用于Hadoop MapReduce环境的数据预取方法被引量：5

Prefetching method for Hadoop MapReduce environments

下载PDF

导出

摘要为解决由Reduce任务引起的远程数据访问延时和资源竞争导致的系统性能问题,提出了一种基于预调度的数据预取方法.该方法通过预取数据来隐藏由Reduce任务引起的远程数据访问延时,通过控制与Reduce任务相关的资源分配来减少由其引起的资源竞争.此方法已在Hadoop-0.20.2中实现.实验结果表明,与缺省的Hadoop MapReduce及Hadoop Online Prototype相比,该方法可将系统性能提高10%以上. Due to the data dependency and the special task execution mode in MapReduce environments, reduce tasks always cause massive remote data access delay and unnecessary resource competition, which degrades the system performance. To solve the performance problem, we propose a pre-fetching method based on pre-scheduling. The method hides the remote data access delay by pre-fetching, and controls the resource competition by adjusting resource allocation of reduce tasks. The method is implemented in Hadoop-0. 20. 2. The experimental results show that the method improves the system performance by more than 10 %, compared with default Hadoop MapReduce and Hadoop Online Prototype.

作者张霄宏雒芬贾宗璞沈记全

机构地区中国科学院深圳先进技术研究院河南理工大学计算机科学与技术学院河南理工大学现代教育中心

出处《西安电子科技大学学报》 EI CAS CSCD 北大核心 2014年第2期191-196,共6页 Journal of Xidian University

基金国家自然科学基金资助项目(51274088) 河南省教育厅资助项目(ITE12103) 河南理工大学博士基金资助项目(B2012-099) 河南理工大学矿山信息化省级重点实验室资助项目(KY2012-05)

关键词 MAPREDUCE 分布式计算预取调度 MapReduce distributed computing pre-fetching scheduling

分类号 TP316.4 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1Gantz J,Reinsel D.The Digital Universe Decade-are You Ready?[DB/OL].[2012-12-26].http://www.emc.com/collateral/demos/microsite s/idc-digi-taluniverse/iview.htm.
2Dean J,Ghemawat S.Mapreduce:Simplified Data Processing on Large Custers[J].Communications of the ACM,2008,51(1):107-113.
3Ghemawat S,Gobioff H,Leung S.The Google File System[C]//Proceedings of the 19th ACM Symposium on Operating Systems Principles.New York:ACM,2003:29-43.
4The Apache Software Foundation.Welcome to Hadoop Mapreduce![DB/OL].[2012-12-26].http://hadoop.apache.org/mapreduce/.
5Menon A.Big Data @ Facebook[C]//Proceedings of Workshop on Management of Big Data Systems.New York:ACM,2012:31-32.
6Lattanzi S,Moseley B,Suri S,et al.Filtering:a Method for Solving Graph Problems in MapReduce[C]//Proceedings of the 23rd ACM Symposium on Parallelism in Algorithms and Architectures.New York:ACM,2011:85-94.
7Shao B,Wang H,Xiao Y.Managing and Mining Large Graphs:Systems and Implementations[C]//Proceedings of the ACM SIGMOD International Conference on Management of Data.NewYork:ACM,2012:589-592.
8Chen Y,Alspaugh S,Katz R.Interactive Analytical Processing in Big Data Systems:a Cross-industry Study of MapReduce Workloads[C]//Proceedings of the VLDB Endowment:5.NewYork:ACM,2012:1802-1813.
9Seo S,Jang I,Woo K,et al.HPMR:Prefetching and Pre-shuffling in Shared Mapreduce Computation Environment[C]//Proceedings of IEEE International Conference on Cluster Computing.Piscataway:IEEE,2009:1-8(528917).
10Ibrahim S,Jin H,Lu L,et al.Leen:Locality/Fairness-aware Key Partitioning for Mapreduce in the Cloud[C]//Proceedings of the IEEE International Conference on Cloud Computing Technology and Science.Piscataway:IEEE,2010:17-24.

同被引文献38

1周玉林,郑建秀.快速排序的改进算法[J].上饶师范学院学报,2001,21(6):11-15. 被引量：8
2闫鹤,李小勇,胡鹏,刘海涛.分布式文件系统的流式数据预读[J].计算机研究与发展,2012,49(S1):252-256. 被引量：1
3Jehan-Francois Paris,Ahmed Amer,Darrell D.E.Long.A stochastic approach to file access prediction[].Proceedings of the international workshop on Storage network architecture and parallel I/Os.2003
4He Yuan,Liu Yun-hao.Supporting VCRin peer-to-peer video-on-demand[].ICNP.2007
5Kroeger TM,Long DDE.Design and implementation of a predictive file prefetching algorithm[].Procof the General Track:USENIX Annual Technical Conf.2001
6G. A. S. Whittle,J.-F. P aris,A. Amer,D. D. E. Long,R. Burns."Using multiplepredictors to improve the accuracy of file access predictions,"[].Proceedings of thethIEEE/th NASA Goddard Conference on Mass Storage Systems and Technologies.2003
7H Lei,D Duchamp.An analysis approach to file pre-fetching[].Proc of the USENIX annual technical Conf.1997
8欧国东,张民选.一种基于线程的数据预取方法[J].计算机工程与科学,2008,30(1):119-122. 被引量：3
9彭亚锋,巢强国,葛宇,张华燕,周耀斌,冯俊.我国食品安全现状与贸易对策研究[J].国外电子测量技术,2009,28(8):74-76. 被引量：5
10胡洁云,欧杰,李柏林.预报微生物学在食品安全风险评估中的作用[J].微生物学通报,2009,36(9):1397-1403. 被引量：30

引证文献5

1王海洋,王宁,朱专专,王璐.基于人脸识别的智能大数据处理系统的研究[J].科技创新与应用,2017,7(15):49-49. 被引量：2
2富春岩,葛茂松,张立铭,李微娜,赵佳彬.一种准实时MapReduce调度算法的改进与实现[J].电脑知识与技术,2016,12(5X):3-4. 被引量：2
3田世海,魏志强.基于PML结构文件的MapReduce算法优化[J].计算机应用研究,2016,33(9):2660-2663.
4孔越峰.基于大数据和智能识别的食品安全预警研究[J].电子测量技术,2020,43(12):26-31. 被引量：5
5杨洪章,张军伟,许鲁,刘振军.基于pNFS的小文件间数据预读机制研究[J].计算机研究与发展,2014,51(S1):57-66. 被引量：1

二级引证文献10

1刘智英.大数据技术下食品安全检验检测评估体系构建[J].中国测试,2021,47(S01):64-66. 被引量：9
2刘硕山.论人脸识别对铁路客运的影响[J].科技创新与应用,2017,7(31):41-42. 被引量：2
3刘晓春.基于人脸识别的大数据分析技战法[J].通讯世界,2019,26(7):85-86. 被引量：1
4葛茂松,富春岩,支援,李微娜,周虹.一种优化的并行数据流调度算法[J].电脑知识与技术,2019,15(8):3-4. 被引量：1
5葛茂松,王永利,张立铭,赵佳彬,于占龙,张国忠.基于MapReduce的并行数据流调度策略[J].电脑知识与技术,2019,15(9Z):11-12. 被引量：1
6周若男.基于大数据的油气生产数据智能化分析与预警[J].信息系统工程,2021,34(5):33-35.
7王俊彦,卢金星,吴强,陈清华.基于人工智能和大数据的食品溯源数据采集真实性识别方法探讨[J].信息系统工程,2021,34(7):23-26. 被引量：3
8刘亦帆,杨杏,张敬.基于大数据技术的食品安全综合管理[J].IT经理世界,2022,25(9):89-92.
9王淑君,王琦琦,向祥龙,李俊琦,于石成,胡国清,宁佩珊,成佩霞.信息技术在突发公共卫生事件风险防范化解中的应用[J].实用预防医学,2023,30(6):761-764. 被引量：2
10张鹏,任晓瑞,杨琼,王冬,胡宁.分布式嵌入式文件系统的设计[J].航空计算技术,2023,53(6):100-104.

1狄晓娇.企业级Hadoop平台实现的相关技术[J].中国新通信,2016,18(4):89-90. 被引量：1
2董世晓.云计算开源先锋Hadoop——第四届Hadoop中国云计算大会纪实[J].程序员,2010(10):36-37.
3屠卫.基于Google的云计算技术[J].成组技术与生产现代化,2015,32(4):44-52.
4韩英杰,石磊.Web预取随机Petri网建模研究[J].福建电脑,2005(7):6-6.
5谢振华,程江涛,耿昌茂,周德云.自适应模糊控制几个基本问题的研究进展[J].电光与控制,2000,7(2):18-25. 被引量：5
6卫琳,姚青山.Web缓存与预取一体化模型研究[J].郑州经济管理干部学院学报,2007,22(2):86-89.
7张霄宏,孙江峰,赵文涛.基于PUSH机制的任务调度方法[J].中南大学学报（自然科学版）,2016,47(7):2334-2340.
8大数据Hadoop不能简单划等号[J].网络运维与管理,2014(11):10-10.
9张宏巍,张文娟.控制局域网中媒体访问延时研究与网络优化设计[J].东北师大学报（自然科学版）,2014,46(4):61-65. 被引量：2
10李远方,邓世昆,闻玉彪,韩月阳.Hadoop-MapReduce下的PageRank矩阵分块算法[J].计算机技术与发展,2011,21(8):6-9. 被引量：13

西安电子科技大学学报

2014年第2期

浏览历史

内容加载中请稍等...

一种适用于Hadoop MapReduce环境的数据预取方法被引量：5

参考文献13

同被引文献38

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种适用于Hadoop MapReduce环境的数据预取方法 被引量：5

参考文献13

同被引文献38

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种适用于Hadoop MapReduce环境的数据预取方法被引量：5