面向大数据处理框架的JVM优化技术综述被引量：6

Survey on JVM Optimization for Big Data Processing Frameworks

下载PDF

导出

摘要当前,以Hadoop、Spark为代表的大数据处理框架,已经在学术界和工业界被广泛应用于大规模数据的处理和分析.这些大数据处理框架采用分布式架构,使用Java、Scala等面向对象语言编写,在集群节点上以Java虚拟机(JVM)为运行时环境执行计算任务,因此依赖JVM的自动内存管理机制来分配和回收数据对象.然而,当前的JVM并不是针对大数据处理框架的计算特征设计的,在实际运行大数据应用时经常出现垃圾回收(GC)时间长、数据对象序列化和反序列化开销大等问题.在一些大数据场景下,JVM的垃圾回收耗时甚至超过应用整体运行时间的50%,已经成为大数据处理框架的性能瓶颈和优化热点.对近年来相关领域的研究成果进行了系统性综述:(1)总结了大数据应用在JVM中运行时性能下降的原因;(2)总结了现有面向大数据处理框架的JVM优化技术,对相关优化技术进行了层次划分,并分析比较了各种方法的优化效果、适用范围、使用负担等优缺点;(3)探讨了JVM未来的优化方向,有助于进一步提升大数据处理框架的性能. Nowadays,the big data processing frameworks such as Hadoop and Spark have been widely used for data processing and analysis in industry and academia.These big data processing frameworks adopt the distributed architecture,generally developed in objectoriented languages like Java and Scala.These frameworks take Java virtual machine(JVM)as the runtime environment on cluster nodes to execute computing tasks,i.e.,relying on JVM’s automatic memory management mechanism to allocate and reclaim data objects.However,current JVMs are not designed for the big data processing frameworks,leading to many problems such as long garbage collection(GC)time and high cost of data serialization and deserialization.As reported by users and researchers,GC time can take even more than 50%of the overall application execution time in some cases.Therefore,JVM memory management problem has become the performance bottleneck of the big data processing frameworks.This study systematically reviews the recent JVM optimization research work for big data processing frameworks.The contributions include the following three outcomes.First,the root causes of the performance degradation of big data applications when executed in JVM are summarized.Second,the existing JVM optimization techniques are summarized for big data processing frameworks.These methods are also classified into categories,the advantages and disadvantages of each are compared and analyzed,including the method’s optimization effects,application scopes,and burdens on users.Finally,some future JVM optimization directions are proposed,which will help the performance improvement of big data processing frameworks.

作者汪钇丞曾鸿斌许利杰王伟魏峻黄涛 WANG Yi-Cheng;ZENG Hong-Bin;XU Li-Jie;WANG Wei;WEI Jun;HUANG Tao(State Key Laboratory of Computer Science(Institute of Software,Chinese Academy of Sciences),Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China;Nanjing Institute of Software Technology,Nanjing 211135,China)

机构地区计算机科学国家重点实验室(中国科学院软件研究所) 中国科学院大学中科南京软件技术研究院

出处《软件学报》 EI CSCD 北大核心 2023年第1期463-488,共26页 Journal of Software

基金国家重点研发计划(2017YFB1001804) 国家自然科学基金(61802377) 中国科学院青年创新促进会。

关键词大数据系统 JAVA虚拟机分布式系统自动内存管理 big data system Java virtual machine(JVM) distributed system automatic memory management

分类号 TP316 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1丁梦苏,陈世敏.轻量级大数据运算系统Helius[J].计算机应用,2017,37(2):305-310. 被引量：1
2程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：741
3张雄,陆路,石宣化.分布式数据处理系统内存对象管理问题分析[J].中兴通讯技术,2016,22(2):19-22. 被引量：2
4嵇智源,潘巍.面向大数据的内存数据管理研究现状与展望[J].计算机工程与设计,2014,35(10):3499-3506. 被引量：11
5罗乐,刘轶,钱德沛.内存计算技术研究综述[J].软件学报,2016,27(8):2147-2167. 被引量：32
6胡振宇,石宣化,柯志祥,金海,王斐.基于程序分析的大数据应用内存预估方法[J].中国科学：信息科学,2020,50(8):1178-1196. 被引量：6

二级参考文献232

1梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
2董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
3Dean J, Ghemawat S. MapReduce: A flexible data processing tool [J]. Commun. ACM, 2010, 53 (1): 72-77.
4Abadi D. Consistency tradeoffs in modern distributed database system design: CAP is only part of the story[J]. Computer, 2012, 45 (2): 37-42.
5Isard M, Budiu M, Yu Y, et al. Dryad: Distributed data- parallel programs from sequential building blocks [C] //Pro- ceedings of ACM SIGOPS/EuroSys European Conference on Computer Systems, 2007: 59-72.
6Condie T, Conway N, Alvaro P, et al. MapReduce online [C] //Proceedings of USENIX Conference on Networked Sys- tems Design and Implementation, 2010.
7Li B, Mazur E, Diao Y, et al. A platform for scalable one- pass analytics using MapReduce[C] //Proceedings of ACM SIGMOD International Conference on Management of Data, 2011: 985-996.
8Rao S, Ramakrishnan R, Silberstein A, et al. Sailfish: A framework for large scale data processing [C] //Proceedings of ACM Symposium on Cloud Computing, 2012: 1-14.
9Rasmussen A, Lam VT, Conley M, et al. Themis: An I/O- efficient MapReduce [C] //Proceedings of ACM Symposium on Cloud Computing, 2012: 1-14.
10Peng D, Dabek F. Large-scale incremental processing using distributed transactions and notifications [C] //Proceedings of the USENIX Conference on Operating Systems Design and Im- plementation, 2010: 1-15.

共引文献785

1郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
2刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.
3吕明元,苗效东.大数据能促进中国制造业结构优化吗?[J].云南财经大学学报,2020,0(3):31-42. 被引量：29
4师洪波,郭红梅,岳婷,钱力,黄定余,常志军.基于分布式大数据技术的科学计量模块化分析平台构建研究[J].数据分析与知识发现,2020,4(2):231-238. 被引量：3
5李振泉,张丁涌,周长敬,王兴武,安学先,高华,孙东,刘文聪,闫恩祥,李红强,孙秀玲,杨文辉,张腾,梁莹,王增光.集输系统能耗定量化预测大数据模型应用研究[J].当代化工,2020(12):2818-2821. 被引量：2
6王立娜,唐川,徐婧.未来芯片技术发展态势分析[J].世界科技研究与发展,2020,42(1):47-56. 被引量：5
7蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：89
8施珠妹.从经验驱动到数据驱动——逮捕社会危险性评估模式的逻辑转换[J].人权研究（辑刊）,2023(1):400-422.
9韩旭,罗登昌.长江堤防工程大数据基本特征及应用策略[J].人民长江,2020(S01):262-264. 被引量：4
10庞景安.大数据时代:思维变革、产业转型与数据科学兴起[J].情报学进展,2016(1):186-218.

同被引文献59

1周华英.基于AI深度学习的车辆识别智能管理系统[J].电子测试,2022,36(24):76-78. 被引量：1
2滕艳霞.浅谈数字科普的发展[J].科普研究,2011,6(S1):82-85. 被引量：2
3张鹏飞,钱敏.Java垃圾回收新算法刍探[J].微型机与应用,2011,30(2):15-17. 被引量：1
4胡义东,仲伟俊.高新技术企业技术创新绩效影响因素的实证研究[J].中国科技论坛,2011(4):80-85. 被引量：63
5Brad Brown,Michael Chui,James Manyika.“海量数据”的挑战与机遇[J].金融电子化,2012(6):40-44. 被引量：2
6戴小勇,成力为.研发投入强度对企业绩效影响的门槛效应研究[J].科学学研究,2013,31(11):1708-1716. 被引量：178
7王娜,刘玲,高云丽.黑龙江垦区农业数字科普网络信息系统平台的设计[J].湖北农业科学,2013,52(22):5585-5587. 被引量：2
8卢光辉,孙世新.分布存储系统上一种新的并行调度算法[J].计算机研究与发展,2001,38(2):223-227. 被引量：5
9朱乃平,朱丽,孔玉生,沈阳.技术创新投入、社会责任承担对财务绩效的协同影响研究[J].会计研究,2014(2):57-63. 被引量：325
10宋宝燕,王俊陆,王妍.基于范德蒙码的HDFS优化存储策略研究[J].计算机学报,2015,38(9):1825-1837. 被引量：18

引证文献6

1赵卓峰,陈元,梅宇生.面向数据湖存取性能优化的数据并行处理技术研究[J].北方工业大学学报,2024,36(3):1-10.
2成海民,付桂琴,贾俊妹,刘瑜珊.数字科技馆智能管理系统设计[J].现代电子技术,2023,46(22):165-169.
3吴庆祥,凌俊.广东电信防诈系统集群优化方案研究[J].广东通信技术,2023,43(11):6-10.
4贾春香,张伟,郝婷.fsQCA组态视角下数据资产信息表外披露对企业价值影响机制研究[J].科技与经济,2024,37(1):96-100.
5陶迎松.云计算环境下基于X-means优化聚类的海量多源异构数据分类[J].北部湾大学学报,2024,39(2):40-46. 被引量：1
6耿耀.计算机数据信息处理中大数据技术的应用研究[J].科技资讯,2024,22(20):26-28.

二级引证文献1

1高谨.基于深度强化学习的网格排序聚类算法[J].信息技术与信息化,2024(8):103-106.

1徐献圣,张震.一种基于嵌入式脚本实现的NB-IoT内存优化通信方案设计[J].电脑知识与技术,2021,17(25):51-52. 被引量：1
2孟令爽,康宁,宫宸,李树华.生物多样性水平对心理健康与福祉的影响系统性综述[J].中国园林,2022,38(11):82-87. 被引量：4
3李欣,陆东哲,周萍,张懿中,李昂,王晓熙,吴朝晖,薛迪.干细胞临床使用有效性和安全性及其对监管的启示[J].上海预防医学,2022,34(11):1165-1169.
4曾祥权,李倩倩,姜微波,杨倩,奚宇,李学杰,李岩,惠博文,李健.香蕉单宁的提取、结构及功能研究进展[J].食品科学,2022,43(23):326-335. 被引量：2
5徐燕玲.穴位敷贴防治慢性支气管炎临床研究进展[J].现代中医药,2023,43(1):14-18. 被引量：3
6李瑞.成都市PM_(2.5)、PM_(10)变化特征及其与气象因素的关系[J].大气与环境光学学报,2023,18(1):47-58. 被引量：3
7郭阳阳,文雯.气候变化对建筑能耗影响研究进展[J].建筑经济,2022,43(S02):343-348. 被引量：3
8许佳隽,刘黄鑫,侯爱香.辣椒素与肠道菌群作用的研究进展[J].农产品加工,2022(23):81-86. 被引量：5
9侯逸飞,李嘉诚,胡誉缤,刘学渊.高原环境对汽油机性能影响及改进措施[J].内燃机与配件,2023(1):74-76. 被引量：1
10巴鑫,陈哲,涂胜豪.乌头汤治疗类风湿关节炎的研究进展[J].医药导报,2023,42(2):173-177. 被引量：5

软件学报

2023年第1期

浏览历史

内容加载中请稍等...

面向大数据处理框架的JVM优化技术综述被引量：6

参考文献6

二级参考文献232

共引文献785

同被引文献59

引证文献6

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向大数据处理框架的JVM优化技术综述 被引量：6

参考文献6

二级参考文献232

共引文献785

同被引文献59

引证文献6

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向大数据处理框架的JVM优化技术综述被引量：6