基于遗传算法的Spark中间结果数据迁移策略被引量：1

Spark Intermediate Result Data Migration Strategy Based on Genetic Algorithm

下载PDF

导出

摘要 Spark是大数据内存计算系统的典型代表,通过内存缓存数据加速迭代型、交互型大数据应用的运行。基于时间窗口的数据分析是一类典型的大数据迭代型应用。基于Spark平台运行时间窗口数据分析应用,存在中间结果数据放置不均的问题,造成应用执行效率降低。针对上述问题,提出基于遗传算法的Spark中间结果数据迁移策略,通过考虑中间结果数据迁移时机、迁移数据规模,并使用遗传算法优化选取迁移数据放置位置,提高时间窗口应用执行效率。实验结果表明,在既有Spark平台中,采用该迁移策略可使时间窗口应用执行时间最大减少28.45%,平均减少21.59%。 Spark is a typical representative of big data memory computing system.It accelerates the operation of iterative,interactive and other big data applications through the memory-based data cache.Data analysis based on time window is a typical big data iterative application.Data analysis application based on Spark platform's runtime window has the problem of uneven placement of intermediate result data,which reduces the efficiency of application execution.To solve the above problems,this paper proposes Spark intermediate results data migration strategy based on genetic algorithm.By considering the migration timing and data scale of intermediate results data,and using genetic algorithm to optimize the selection of the location of migrated data,the execution efficiency of time window application is improved.Experiments show that on the existing Spark platform,by using the proposed intermediate results data migration strategy,it can reduce the maximum execution time of time window applications by 28.45%and the average by 21.59%.

作者梁毅陈金栋苏超毕临风 LIANG Yi;CHEN Jin-dong;SU Chao;BI Ling-feng(Computer Academy,Beijing University of Technology,Beijing 100124,China)

机构地区北京工业大学计算机学院

出处《软件导刊》 2020年第4期89-92,共4页 Software Guide

基金国家自然科学基金项目(91646201,91546111) 国家重点研发计划项目(2017YFC0803300)。

关键词 SPARK 中间结果数据数据迁移 Spark intermediate data data migration

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2393
2程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：741
3李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1606
4卞琛,于炯,英昌甜,修位蓉.并行计算框架Spark的自适应缓存管理策略[J].电子学报,2017,45(2):278-284. 被引量：19
5孙其博,刘杰,黎羴,范春晓,孙娟娟.物联网:概念、架构与关键技术研究综述[J].北京邮电大学学报,2010,33(3):1-9. 被引量：1089
6张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233. 被引量：379

二级参考文献227

1宋国杰,唐世渭,杨冬青,王腾蛟.数据流中异常模式的提取与趋势监测[J].计算机研究与发展,2004,41(10):1754-1759. 被引量：19
2梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
3马华东,陶丹.多媒体传感器网络及其研究进展[J].软件学报,2006,17(9):2013-2028. 被引量：186
4董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
5温家宝.2010年政府工作报告[EB/OL].http://www.China.com.cn/polily/txt/2010-03/15/content_19612372.htm.
6Autol D Labs homepage, http://www. autoidlabs. org/.
7International Telecommunication Union, Internet Reports 2005 : The Internet of things[ R]. Geneva: ITU ,2005.
8Commission of the European communities, COM (2009) 278 final. Internet of things-an action plan for Europe, Brussels [EB/OL]. ( 2009-06-18 ) [ 2010-05-12 ]. http://ee. europa. eu/information _ society/policy/rfid/doeuments/commiot2009. pdf.
9韩国信息通信.韩国计划至2012年构建“物联网”基础设施[EB/OL].(2009-12-04)[2010-05-18].http://www.e114.net/news/17/a450913.html.
10European Research Projects on the Internet of Things (CERP-IoT) Strategic Research Agenda (SRA). Internet of things--strategic research roadmap [EB/OL ] (2009-09-15) [ 2010-05-12 ]. http ://ec. europa. eu/information society/policy/rfid/documents/in_cerp. pdf.

共引文献5760

1万瑞霖,杨言鑫(指导).大数据环境下的市场营销方式改革发展新方向[J].中外企业家,2020,0(16):83-83. 被引量：8
2韩莹莹,钟专,褚月娇,康春阳,李东霓,王志佳,刘晓阳,张白羽.基于大数据智能化背景下神经病学实践教学体系构建的探索[J].中国实验诊断学,2023,27(8):1006-1009.
3李坪.大数据赋权正当性证成[J].中山大学法律评论,2020(1):3-21. 被引量：1
4孙昊鹏.大数据在新冠肺炎疫情中的应用和缺失[J].郑州师范教育,2020,9(3):91-96. 被引量：1
5王璟.大数据时代背景下西安市大数据商业应用模式研究[J].质量与市场,2021(10):171-172. 被引量：2
6闫妍.刍议大数据时代背景下全面预算管理对提升项目储备精益化管理水平的价值[J].质量与市场,2020,0(1):19-21. 被引量：7
7熊华.提高领导艺术的路径探析[J].作家天地,2020(17):191-191.
8叶青.违法立案的检察监督机制研究[J].国家检察官学院学报,2024,32(1):53-68. 被引量：2
9郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
10刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.

同被引文献15

1黄天恩,郭庆来,孙宏斌,赵乃岩,王彬,郭文鑫.模型-数据混合驱动的电网安全特征选择和知识发现关键技术与工程应用[J].电力系统自动化,2019,43(1):95-101. 被引量：54
2方睿,董树锋,唐坤杰,朱承治,裴湉,宋永华.基于最大测点正常率与GPU并行加速的不良数据辨识方法[J].电力系统自动化,2019,0(16):86-94. 被引量：13
3卢利娟,余从容,梁东贵,张伟政.基于并行随机森林的审计大数据疑点预测[J].计算机与数字工程,2019,47(1):174-179. 被引量：6
4纪连恩,陈宗艳,黄凯鸿,赵妮,孔雨萌.基于工况划分的大规模电厂机组控制数据可视化探索[J].计算机辅助设计与图形学学报,2019,31(2):229-240. 被引量：9
5江佳伟,符芳诚,邵蓥侠,崔斌.面向高维特征和多分类的分布式梯度提升树[J].软件学报,2019,30(3):784-798. 被引量：13
6秦东明,喻剑,张波,赵勤.基于分布式无共享架构的海量数据并行查询平台[J].计算机科学,2019,46(4):44-49. 被引量：9
7杨鹏,申洪涛,陶鹏,冯波,张洋瑞,王立斌.云平台下时间序列数据并行化排列熵特征提取方法[J].电力自动化设备,2019,39(4):217-223. 被引量：20
8李春晓,李艳红.并行计算视域下大数据挖掘技术及其在锅炉性能升级中的应用实践[J].工业加热,2019,48(2):30-32. 被引量：2
9杨志淳,周任飞,沈煜,杨帆,雷杨,严方彬.基于并行化大数据流及迁移学习的配电变压器故障在线辨识–诊断模型[J].高电压技术,2019,45(6):1697-1706. 被引量：34
10高腾飞,刘勇琰,汤云波,张垒,陈丹.面向时间序列大数据海量并行贝叶斯因子化分析方法[J].计算机研究与发展,2019,56(7):1567-1577. 被引量：9

引证文献1

1黄伟,王小波,乔蓓蓓.基于混合云架构的电厂运行数据并行迁移系统[J].电子设计工程,2023,31(2):126-129. 被引量：1

二级引证文献1

1王静,高中华.风电场监控系统异步协同数据迁移方法[J].东方电气评论,2024,38(4):38-40.

1陆敏.PON业务端口敏捷迁移的探讨[J].通信企业管理,2020(4):78-80.
2余海涛.一种高效的持久性内存管理系统设计[J].无线互联科技,2019,16(20):47-49. 被引量：1
3尼珍.农田水利节水灌溉技术问题分析[J].中国航班,2020(4):140-140.
4程军.初中物理概念中的变式与迁移策略探析[J].中学生数理化（教与学）,2020,0(4):95-95. 被引量：1
5吕少伟,张东胜.以大学生创业为核心的新型职业农民培育模式研究——宝鸡地区新型职业农民培育的探索[J].时代农机,2020,47(2):124-125. 被引量：1
6卢明,赵书杰,刘振声,杨晓辉,李哲,宋礼斌.基于灰色投影优化随机森林算法的输电线路舞动预警方法[J].电测与仪表,2020,57(9):45-51. 被引量：6
7程瑞芳,宁亚锋.基于BIM技术的《钢结构详图深化设计》课程教学改革研究探索[J].科技风,2020(15):41-41.
8李芳安,何韧娜,杨生智,杨国华,张亭,王金凤,宋贤刚.财务机器人探索应用[J].创新世界周刊,2019(11):84-89. 被引量：1
9王翔,柯飂挺,任佳.样本重构多尺度孪生卷积网络的化工过程故障检测[J].仪器仪表学报,2019,40(11):181-188. 被引量：5
10杨博,张能,李善平,夏鑫.智能代码补全研究综述[J].软件学报,2020,31(5):1435-1453. 被引量：8

软件导刊

2020年第4期

浏览历史

内容加载中请稍等...

基于遗传算法的Spark中间结果数据迁移策略被引量：1

参考文献6

二级参考文献227

共引文献5760

同被引文献15

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于遗传算法的Spark中间结果数据迁移策略 被引量：1

参考文献6

二级参考文献227

共引文献5760

同被引文献15

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于遗传算法的Spark中间结果数据迁移策略被引量：1