面向Flink迭代计算的高效容错处理技术被引量：7

Efficient Fault-Tolerant Processing Technology for Flink Iterative Computing

下载PDF

导出

摘要迭代计算是相同逻辑的重复执行,在各种机器学习和数据挖掘方法中被广泛使用.在大数据的处理与分析领域中,分布式迭代计算更是当前的热点研究问题之一.容错机制是分布式系统高可用性的必要保证.现有分布式系统的容错机制虽然在高可用性上表现良好,但忽略了面向迭代计算的容错效率问题.本文针对批流混合大数据计算系统Apache Flink的迭代容错效率问题,进行了系统的研究.执行流处理任务时,Flink采用“分布式快照”的检查点机制来完成容错.对于海量数据的迭代分析,检查点增加了不必要的延迟.执行批处理任务时,Flink采用从头执行任务的方式来实现容错,该方式虽然实现简单,但带来了很大的时间开销.针对以上问题,本文首先提出了一种基于补偿函数的乐观迭代容错机制.该容错机制在迭代任务发生故障时采用乐观补偿的思想恢复任务,在迭代执行过程中不采用任何额外的容错手段(不会引入额外的容错开销),采用用户自定义的补偿函数收集健康节点上的迭代数据,并结合初始的迭代数据对故障节点上丢失的分区数据进行恢复,继续执行至迭代收敛状态,保证了迭代任务的高效顺利执行.由于乐观迭代容错机制并不保证得到的结果与无故障执行得到的结果完全一致,因此针对精度要求较高的迭代任务,本文结合Flink系统的迭代数据流模型,进一步提出一种基于头尾检查点悲观迭代容错机制.与传统的阻塞检查点(阻塞下游操作符)的工作方式不同,该容错机制以非阻塞的方式编写检查点,充分结合Flink迭代数据流的特点,将可变数据集的检查点注入迭代流本身.通过设计迭代感知,简化了系统架构,降低了检查点成本和故障恢复时间.本文基于Flink系统,在大量的真实数据集和模拟数据集上,从增量迭代和全量迭代两方面对提出的两种容错机制进行了全面的实验研究,验证了本文提出的迭代容错优化技术的高效性.实验结果证实,本文基于Flink系统提出的乐观容错机制和悲观容错机制在计算效率上均优于现有的分布式迭代容错机制.前者在全量迭代计算任务中运行时间最高可提升22.8%,在增量迭代计算任务中最高可提升33.8%;后者在全量迭代任务中最高可节省15.3%的时间开销,在增量迭代任务中最高可节省18.5%的时间开销. Iterative calculation is the repeated execution of the same logic and is widely used in various machine learning and data mining methods.In the field of big data processing and analysis,distributed iterative computing is one of the current hot research issues.Fault tolerance is a necessary guarantee for high availability of distributed systems.Although the fault tolerance mechanism of existing distributed systems performs well in high availability,it ignores the problem of fault tolerance efficiency for iterative computing.This paper systematically studies the iterative fault-tolerant efficiency of batch-flow hybrid big data computing system Apache Flink.When performing stream processing tasks,Flink uses a“distributed snapshot”checkpoint mechanism to complete fault tolerance.For iterative analysis of massive data,checkpoints add unnecessary delay.When performing batch processing tasks,Flink uses the task execution method from the beginning to achieve fault tolerance.Although this method is simple to implement,it brings a lot of time overhead.In view of the above problems,this paper first proposes an optimistic iterative fault tolerance mechanism based on compensation functions.This fault-tolerant mechanism uses optimistic compensation to recover tasks when iterative tasks fail.It does not use any additional fault-tolerant methods(it does not introduce additional fault-tolerant overhead)during iterative execution,and uses user-defined compensation functions to collect healthy nodes.Iterative data,combined with the initial iterative data,recovers the lost partition data on the failed node,and continues execution to the iterative convergence state,ensuring the efficient and smooth execution of the iterative task.Because the optimistic iterative fault tolerance mechanism does not guarantee that the results obtained are completely consistent with the results obtained by fault-free execution,for the iteration tasks with higher accuracy requirements,this paper combines the iterative data flow model of the Flink system to further propose a head-to-tail checkpoint.Pessimistic iterative fault tolerance mechanism.Unlike traditional blocking checkpoints(blocking downstream operators),this fault-tolerant mechanism writes checkpoints in a non-blocking manner,fully combines the characteristics of Flink iterative data flow,and injects variable data set checkpoints into the iterative flow itself.By designing iterative awareness,the system architecture is simplified,and checkpoint costs and failure recovery times are reduced.This paper is based on the Flink system.On a large number of real data sets and simulated data sets,a comprehensive experimental study of the two proposed fault tolerance mechanisms from the aspects of incremental iteration and full iteration is conducted,and the effectiveness of the proposed iterative fault tolerance optimization technology is verified.Efficiency.The experimental results confirm that the optimistic and pessimistic fault-tolerant mechanisms proposed in this paper based on the Flink system are superior to the existing distributed iterative fault-tolerant mechanisms in terms of computational efficiency.The former can increase the running time by up to 22.8%in full iterative computing tasks and up to 33.8%in incremental iterative computing tasks;the latter can save up to 15.3%of the time overhead in full iterative tasks,and in incremental iterative tasks Saves up to 18.5%of time.

作者郭文鹏赵宇海王国仁韦刘国 GUO Wen-Peng;ZHAO Yu-Hai;WANG Guo-Ren;WEI Liu-Guo(School of Computer Science and Engineering,Northeastern University,Shenyang 110169;School of Computer Science and Technology,Beijing Institute of Technology University,Beijing 100081)

机构地区东北大学计算机科学与工程学院北京理工大学计算机学院

出处《计算机学报》 EI CSCD 北大核心 2020年第11期2101-2118,共18页 Chinese Journal of Computers

基金科技部重点研发项目“云计算和大数据”重点专项项目(2018YFB1004402) 国家自然科学基金(61772124)资助.

关键词分布式迭代计算 Apache Flink 乐观容错悲观容错检查点 distributed iterative calculation Apache Flink optimistic fault tolerance pessimistic fault tolerance checkpoint

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1王燕,杨宁,周志明,李松.分布式日志恢复系统实现[J].电脑编程技巧与维护,2015(15):33-34. 被引量：1
2赵娟,程国钟.基于Hadoop、Storm、Samza、Spark及Flink大数据处理框架的比较研究[J].信息系统工程,2017,30(6):117-117. 被引量：12
3王茜,王均波.一种改进的协同过滤推荐算法[J].计算机科学,2010,37(6):226-228. 被引量：42
4周江,王伟平,孟丹,马灿,古晓艳,蒋杰.面向大数据分析的分布式文件系统关键技术[J].计算机研究与发展,2014,51(2):382-394. 被引量：75
5文梅,李宏亮,张春元,范金鹏,吴涛,王志英.分布式实时系统中前向恢复技术的研究与实践[J].计算机工程与科学,1999,21(5):28-31. 被引量：1

二级参考文献47

1冯幼乐,朱六璋.CEPH动态元数据管理方法分析与改进[J].电子技术（上海）,2010(9):1-3. 被引量：6
2来纯云,冯丽芳.ICU护士估测气管导管气囊压准确性的研究[J].解放军护理杂志,2004,21(6):23-24. 被引量：20
3熊劲,范志华,马捷,唐荣锋,李晖,孟丹.DCFS2的元数据一致性策略[J].计算机研究与发展,2005,42(6):1019-1027. 被引量：11
4赵智,冯卓楠.改进的基于相关相似性的协同过滤推荐算法[J].长春工业大学学报,2006,27(4):354-358. 被引量：2
5金士尧.关于MSC小巨机总体技术的几个问题[J].计算机工程与科学,1997,19(1):20-26. 被引量：4
6鄢喜爱,杨金民,张波云,常卫东.基于代理的3PC分布式事务提交协议[J].计算机工程,2007,33(6):69-71. 被引量：5
7郑先荣,曹先彬.线性逐步遗忘协同过滤算法的研究[J].计算机工程,2007,33(6):72-73. 被引量：25
8Gong Songiie, Cheng Guanghua. Mining User Interest Change for Improving Collaborative Filtering[C]//Intelligent Information Technology Application 2008. Second International Symposium. Volume 3. Dec. 2008:24-27.
9Xia Weiwei, He Liang, Ren Lei, et al. A new collaborative filtering approach utilizing item's popularity[C]//Industrial Engineering and Engineering Management. IEEE International Conference, Dec. 2008 : 1480-1484.
10Su Xiaoyuan, Khoshgoftaar T M, Greiner R. A Collaborative Filtering Algorithm Based on Variance Analysis of Attributes- Value Preference [C] // IEEE/WlC/ACM International Conference. Volume 1, Dec. 2008 : 633-639.

共引文献126

1蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：89
2陶俊,张宁.基于用户兴趣分类的协同过滤推荐算法[J].计算机系统应用,2011,20(5):55-59. 被引量：17
3陈志敏,李志强.基于用户特征和项目属性的协同过滤推荐算法[J].计算机应用,2011,31(7):1748-1750. 被引量：28
4陈志敏,姜艺.综合项目评分和属性的个性化推荐算法[J].微电子学与计算机,2011,28(9):186-189. 被引量：5
5李克潮,黎晓.个性化图书推荐研究[J].图书馆学研究（应用版）,2011(10):65-69. 被引量：14
6布红艳,王国胤,董振兴.邮件系统中的兴趣漂移混合模型[J].计算机工程与设计,2011,32(12):4026-4029. 被引量：5
7刘东辉,彭德巍,张晖.一种基于时间加权和用户特征的协同过滤算法[J].武汉理工大学学报,2012,34(5):144-148. 被引量：12
8李克潮,梁正友.基于多特征的个性化图书推荐算法[J].计算机工程,2012,38(11):34-37. 被引量：26
9阴江烽.面向科研学术对象服务的个性化图书推荐系统研究[J].探求,2012(4):116-120.
10陈冬林,纪巧芬,陈玲,吴钟.一种新的数字家庭个性化服务推荐方法[J].武汉理工大学学报（信息与管理工程版）,2013,35(3):331-335.

同被引文献40

1周江,王伟平,孟丹,马灿,古晓艳,蒋杰.面向大数据分析的分布式文件系统关键技术[J].计算机研究与发展,2014,51(2):382-394. 被引量：75
2孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：313
3韩德志,陈旭光,雷雨馨,戴永涛,张肖.基于Spark Streaming的实时数据分析系统及其应用[J].计算机应用,2017,37(5):1263-1269. 被引量：30
4关晨涛.2022年北京冬奥会背景下“三亿人参与冰雪运动”目标的实现[J].冰雪运动,2017,39(3):5-8. 被引量：83
5陆世鹏.基于Spark Streaming的海量日志实时处理系统的设计[J].电子产品可靠性与环境试验,2017,35(5):71-76. 被引量：7
6任彦冰,李兴华,刘海,程庆丰,马建峰.基于区块链的分布式物联网信任管理方法研究[J].计算机研究与发展,2018,55(7):1462-1478. 被引量：36
7冯娟娟,辜丽川,饶海笛,史先章,焦俊,王超,陈卫.基于客户画像和GBDT算法的客户价值预测方法[J].洛阳理工学院学报（自然科学版）,2018,28(3):51-56. 被引量：5
8盛念祖,李芳,李晓风,赵赫,周桐.基于区块链智能合约的物联网数据资产化方法[J].浙江大学学报（工学版）,2018,52(11):2150-2158. 被引量：33
9李梓杨,于炯,卞琛,张译天,蒲勇霖,王跃飞,鲁亮.基于流网络的Flink平台弹性资源调度策略[J].通信学报,2019,40(8):85-101. 被引量：15
10钱付兰,李建红,赵姝,张燕平.基于深度混合模型评分推荐[J].南京航空航天大学学报,2019,51(5):592-598. 被引量：7

引证文献7

1梁方玮,薛涛.面向物流服务的海量日志实时流处理平台[J].计算机系统应用,2021,30(10):68-75. 被引量：2
2刘广轩,黄山,胡佳丽,段晓东.面向Flink流处理框架的主动备份容错优化[J].浙江大学学报（工学版）,2022,56(2):297-305. 被引量：1
3卢宝嘉,颜晓凤.基于实时计算的高速公路“两客一危”监测及预警平台研究[J].西部交通科技,2022(10):179-181.
4陈洪健,季健,洪帅,钱叶.基于ClickHouse的版本化数据迁移方法[J].计算机应用,2022,42(S02):105-110. 被引量：3
5林峰.一种基于区块链和流计算的物联网平台方案[J].龙岩学院学报,2023,41(2):24-30.
6王英杰,李梓杨,于炯,陈鹏程.基于禁忌搜索的流式计算平台负载均衡策略[J].计算机应用研究,2023,40(12):3701-3705.
7梅巧玲,郝晓培,杨立鹏,易超.基于实时流处理的自适应冰雪爱好者旅客群体划分模型研究[J].铁道运输与经济,2024,46(4):27-33.

二级引证文献6

1郑雪原.城市级公共安全视频图像智能分析平台系统架构设计实践[J].电子技术与软件工程,2023(7):208-211. 被引量：1
2刘潇,季英凯.基于Flink的电子疾病档案数据处理模型设计与实现[J].无线互联科技,2023,20(16):52-56.
3肖嘉丽,蔡玲嘉,黄玉昆,吴伟忠,钟敏.基于深度强化学习的数字电网数据安全迁移研究[J].信息与电脑,2024,36(2):195-197.
4冯泽.面向实时计算的大数据处理框架性能优化[J].微型计算机,2024(5):64-66.
5白铁男,谭海波,金石声,唐维尧,郭茜,刘国强,廖婷婷.基于手机APP的贵州气象综合监控系统的设计与实现[J].气象科技,2024,52(3):347-355.
6季健,洪帅,陈洪健,钱叶,刘传耀.京东零售基于ClickHouse的增量刷岗方法[J].计算机应用,2024,44(S01):199-203.

1魏鑫燏,黄俊,杨晓飞,彭俊杰.基于线特征的单目SLAM中的迭代数据关联算法[J].计算机应用研究,2020,37(1):57-61. 被引量：3
2钱小红.基于果蝇算法的物联网感知层故障节点定位方法[J].信息与电脑,2020,32(17):65-67.
3张凌选.节线法在某地锚式悬索桥主缆线形计算中的应用[J].工程技术研究,2020,5(16):31-34.
4李倩.综合康复护理措施对老年慢性阻塞性肺疾病患者肺功能的影响[J].饮食科学（下半月）,2020(6):0117-0117.
5程冉冉,张生晖.基于AnyLogic的我校校园行人流研究[J].华北科技学院学报,2020,17(4):116-121. 被引量：1
6周玉婷,韦泽训,曲春梅.基于并行子网的塑料光纤通信故障识别模型[J].塑料科技,2020,48(9):103-106. 被引量：3
7陈泽,赵为光,杨莹.含电-冷-热能量流模型的优化运行研究[J].电力学报,2020,35(4):313-318. 被引量：1
8陈可佳,陈利明,吴桐.多层网络社区发现研究综述[J].计算机科学与探索,2020,14(11):1801-1812. 被引量：11
9刘锦辉,虞江华,黄辰辰,白雨桐.基于快速真空断路器技术的发电机出口断路器装置[J].宁夏电力,2020(5):29-33. 被引量：1
10方木欢.港澳青年创业扶持政策实施的多源流分析[J].当代青年研究,2020(6):58-63. 被引量：6

计算机学报

2020年第11期

浏览历史

内容加载中请稍等...

面向Flink迭代计算的高效容错处理技术被引量：7

参考文献5

二级参考文献47

共引文献126

同被引文献40

引证文献7

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

面向Flink迭代计算的高效容错处理技术 被引量：7

参考文献5

二级参考文献47

共引文献126

同被引文献40

引证文献7

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

面向Flink迭代计算的高效容错处理技术被引量：7