一种基于分布式存储系统中多节点修复的节点选择算法被引量：11

Node Selection Algorithm During Multi-Nodes Repair Progress in Distributed Storage System

下载PDF

导出

摘要在分布式存储系统中,如何优化失效数据的修复时间以保证系统的高可靠性,已引起了人们的广泛关注.近几年的研究发现修复过程中不同的节点选择机制对数据的再生时间产生很大的影响,已有工作提出了单节点失效场景下的节点选择SPSN(select provider select newcomer)算法,系统中往往存在多个节点同时修复的情况,此时,SPSN算法巨大的时空开销使得数据的再生时间不再最优.对已有真实系统的失效数据及原因进行统计;基于已有算法特点和修复模型,提出了具有更优的多节点选择B-WSJ(bandwidth based weak and strong judgement)算法.为了更好地描述算法,对带宽中节点的关系进行分类,算法利用节点关系分别实现了修复模型中目标节点的浅度和深度判断,并加入一定的预处理和剪枝策略,最终快速选择出具有较优带宽的节点集合.为了评估B-WSJ算法性能,使用Waxman算法产生网络拓扑,依据FTA(failure trace archive)网站所给的真实系统的节点失效模型进行多次实验,仿真结果表明:B-WSJ算法使得节点修复性能得到了很大的提升. In distributed storage systems,how to optimize the regeneration time of lost data so as to keep high reliability has attracted attention increasingly.Recent researches reveal that node selection mechanism during repair progress has great impact on regeneration time.SPSN（select provider select newcomer）algorithm has put forward by some studies,which suits the scenario of single node failure well.However,it is very common to repair many modes at the same time in actual system.In this scenario,SPSN algorithm will no longer be optimal taking large time and space consumption into consideration.By analyzing the data failure trace of real distributed file system,we propose a node selection algorithm B-WSJ（bandwidth based weak and strong judgement）based on the existing algorithms and repairing model with the characteristic of parallelism which is suitable for multi-failure scenario.In order to describe the algorithm better,we firstly define several concepts of noderelationship on a link.Secondly we use these concepts to realize the weak and strong judgment of target node with pre-process and pruning strategy added.Finally,the nodes with better bandwidth will be chosen.To evaluate the performance of NS algorithm,we use Waxman algorithm to generate network topology and do many experiments with node failure models in real system provided by FTA（failure trace archive）.The experimental results show the performance of B-WSJ algorithm can be improved greatly compared with the existing algorithms.

作者刘佩蒋梓逸曹袖 Liu Pei;Jiang Ziyi;Cao Xiu(School of Computer Science and Technology,Fudan University,Shanghai 201203;Engineering Research Center of Cyber Security Auditing and Monitoring（Fudan University）,Ministry of Education,Shanghai 200433)

机构地区复旦大学计算机科学与技术学院网络信息安全审计与监控教育部工程研究中心(复旦大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2018年第7期1557-1568,共12页 Journal of Computer Research and Development

关键词分布式存储系统数据修复再生时间多节点失效节点选择 distributed storage system data repair regeneration time multi node failure node selection

分类号 TP333 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1罗象宏,舒继武.存储系统中的纠删码研究综述[J].计算机研究与发展,2012,49(1):1-11. 被引量：93
2王意洁,孙伟东,周松,裴晓强,李小勇.云计算环境下的分布存储关键技术[J].软件学报,2012,23(4):962-986. 被引量：279
3卫东升,李钧,王新.分布式存储中精确修复最小带宽再生码的性能研究[J].计算机研究与发展,2014,51(8):1671-1680. 被引量：3
4齐凤林,宫庆媛,周扬帆,王新.分布式存储再生码数据修复的节点选择方案[J].计算机研究与发展,2015,52(S2):68-74. 被引量：5

二级参考文献63

1Layman P, Varian H R. How much information 2003? [EB/OL]. [2010 10-18]. http://www2, sims. berkeley. edu/research/proiects/how-mueh-info-2003.
2Pinheiro E, Weber W D, Barroso L A. Failure trends in a large disk drive population [C] //Proc of the 5th USENIX Conf on File and Storage Technologies. Berkeley, CA: USENIX Association, 2007 : 17-28.
3Schroeder B, Gibson G A. Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you? [C] //Proc of the 5th USENIX Conf on File and Storage Technologies. Berkeley, CA: USENIX Association, 2007: 1-16.
4Bairavasundaram L N, Goodson G R, Pasupathy S, et al. An analysis of latent sector errors in disk drives [C]//Proc of 2007 ACM SIGMETRICS Int Conf on Measurement and Modeling of Computer Systems. New York: ACM, 200: 289-300.
5Hafner J M, Deenadhayalan V, Rao K, et al. Matrix methods for lost data reconstruction in erasure codes [C] // Proc of the 4th USENIX Conf on File and Storage Technologies. Berkeley, CA: USENIX Association, 2005: 183-196.
6Hafner J M, Deenadhayalan V, Kanungo T, et al. Performance metrics for erasure codes in storage systems, RJ 10321 [R]. San Jose, [A] IBM Research, 2004.
7Li M, Shu J, Zheng W. GRID Codes: Strip based erasure codes with high fault tolerance for storage systems [J].ACM Transon Storage, 2009, 4(4): 1-22.
8Blaum M, Brady J, Bruek J, et al. EVENODD: An efficient scheme for tolerating double disk failures in RAID architectures [J].IEEE Trans on Computer, 1995, 44 (2) 192-202.
9Corbett P, English B, Goel A, et al. Row-diagonal redundant for double disk failure correction [C] //Proc of the 3rd USENIX Conf on File and Storage Technologies. Berkeley, CA: USENIX Association, 2004:2-15.
10Xu L, Bruck J. X-code: MDS array codes with optimal encoding[J]. IEEE Trans on Information Theory, 1999, 45 (1) : 272-276.

共引文献362

1敖日格乐.关于云存储的关键技术分析[J].计算机产品与流通,2020,0(1):163-163. 被引量：1
2谢丽霞,汪子荧.一种在线集群异常作业预测方法[J].北京邮电大学学报,2019,42(5):62-68.
3许方亮,王意洁,裴晓强.NTar:基于网络拓扑的纠删码树型修复方法[J].计算机研究与发展,2013,50(S2):37-44. 被引量：3
4黄显霞,李挥,张宇蒙,侯韩旭,周泰,郭涵,张华宇.基于二元再生码的大数据存储系统研究[J].计算机研究与发展,2013,50(S2):54-63. 被引量：1
5饶庆云,丁晶晶,苏乐乐,谷永权,夏良晖,胡中南.基于云计算的分布式切图服务设计与实现[J].测绘与空间地理信息,2013,36(S1):29-35. 被引量：6
6万武南,索望,陈运,王拓.基于X-RDP阵列码的一种数据分布策略[J].通信学报,2013,34(S1):67-75. 被引量：2
7杨进,王亮明,唐德玉.RS纠删码在电子健康档案云存储中的应用[J].广东药学院学报,2012,28(4):448-450.
8许维龙,张彦,朱洪亮,辛阳.基于HDFS的数据备份系统的设计与实现[J].信息网络安全,2012(10):59-63. 被引量：2
9张太华,何二宝,孙超.基于知识的云制造的研究现状[J].现代机械,2012(5):1-5. 被引量：5
10张胜伟.云存储中副本冗余技术的研究[J].无线互联科技,2012,9(9):33-34. 被引量：4

同被引文献52

1谭子军,何连跃.分布式存储系统中用户磁盘空间分配策略[J].计算机工程,2010,36(9):44-46. 被引量：6
2罗象宏,舒继武.存储系统中的纠删码研究综述[J].计算机研究与发展,2012,49(1):1-11. 被引量：93
3黄倩,王柳苏,谢显中.基于干扰对齐的高效云存储方法研究综述[J].计算机应用研究,2013,30(4):977-980. 被引量：3
4孙伟东,王意洁,裴晓强.Tree-Structured Parallel Regeneration for Multiple Data Losses in Distributed Storage Systems Based on Erasure Codes[J].China Communications,2013,10(4):113-125. 被引量：5
5Hao Jie,Lu Yanbo,Liu Xinji,Xia Shutao.DESIGN OF EXACT REGENERATING HIERARCHICAL CODE FOR DISTRIBUTED STORAGE SYSTEM[J].Journal of Electronics(China),2013,30(3):290-298. 被引量：1
6吴晓玲,邱珍珍.基于云存储架构的分布式大数据安全容错存储算法[J].中国电子科学研究院学报,2018,13(6):720-724. 被引量：20
7李晨卉.应用于分布式存储系统的准循环再生码构造方案[J].计算机工程,2015,41(3):81-87. 被引量：4
8王意洁,许方亮,裴晓强.分布式存储中的纠删码容错技术研究[J].计算机学报,2017,40(1):236-255. 被引量：55
9崔勇,宋健,缪葱葱,唐俊.移动云计算研究进展与趋势[J].计算机学报,2017,40(2):273-295. 被引量：93
10管官,林焰,纪卓尚.基于知识的船体结构快速设计及优化[J].船舶力学,2017,21(4):472-483. 被引量：16

引证文献11

1李直.对遏制发票违章行为的几点看法[J].财贸论坛,2000(2):42-43.
2孙黎,苏宇,张弛,张涛.分布式存储系统中的纠删码容错方法研究[J].计算机工程,2019,45(11):74-80. 被引量：6
3余春雷,王静,王秘,刘艳,刘向阳.图因子分解的部分重复码构造[J].中国科技论文,2019,14(11):1260-1264. 被引量：6
4张科星.基于物联网的传感器失效节点空洞修复方法研究[J].山西大同大学学报（自然科学版）,2020,36(2):10-13.
5田俊峰,杨万贺,庞亚南,张俊涛.基于共享图和部分复制策略的分布式存储因果一致性模型[J].通信学报,2020,41(5):48-58. 被引量：3
6田俊峰,王彦骉.一种基于HashGraph的NoSQL型分布式存储因果一致性模型[J].计算机研究与发展,2020,57(12):2703-2716. 被引量：4
7张景明,洪周真言,方舟,程清,张吉.混合属性大数据的分类存储系统设计[J].电子设计工程,2021,29(2):190-193. 被引量：1
8徐家冰,朱浩辰,杨丽.一种基于纠删码的多节点失效修复算法[J].计算机与现代化,2021(3):18-23. 被引量：2
9郑杰辉.分布式存储系统的节点修复技术研究[J].太原学院学报（自然科学版）,2021,39(1):48-52. 被引量：2
10徐鹏,孟宇龙,朱群,侍守创,龚玉婷.信息知识库中的数据可用性恢复策略[J].国防科技大学学报,2021,43(6):102-107. 被引量：2

二级引证文献29

1孟令顺,崔军文.青藏高原北缘重力场特征与深部地壳构造[J].长春科技大学学报,2000,30(2):180-184. 被引量：5
2邵家勇.计算机中分布式存储技术的有效应用措施探讨[J].数码世界,2019,0(2):52-52. 被引量：2
3张红军,王豫鑫,杨万里,祁永钊,李登明.基于大数据的数据挖掘中容错技术研究[J].电脑知识与技术,2020,16(9):16-18. 被引量：3
4周悦,李贵洋,江小玉,李慧,韩鸿宇.一种基于分布式存储系统的Piggyback码[J].小型微型计算机系统,2020,41(5):1091-1097. 被引量：5
5张鑫楠,沈克勤,孙伟,何亚锦.基于Harary图生成树的部分重复码构造[J].计算机系统应用,2021,30(4):241-246.
6李彩萍,姜文平.一种内存库与物理库用户资料一致性稽核方法[J].电子制作,2021,29(6):62-64.
7何亚锦,孙伟,沈克勤,张鑫楠,刘向阳.局部修复码的最优构造[J].计算机技术与发展,2021,31(4):112-117.
8李振.基于云计算分布式存储架构与容错技术的研究[J].网络安全技术与应用,2022(1):64-65. 被引量：4
9张骞.面向电子数字文献保存的元数据存储系统设计[J].电子设计工程,2022,30(7):26-29. 被引量：1
10曹熙.基于一致性哈希算法的电力企业分布式数据存储研究[J].长江信息通信,2022,35(6):147-149. 被引量：4

1倪光南.实兵对抗促进大数据可持续发展--对贵阳大数据与网络安全攻防演练的点评[J].信息安全研究,2018,4(5):410-411. 被引量：2
2杜娟娜,穆仕博.可靠性增长在某型空空导弹的应用研究[J].电子质量,2018(5):14-16.
3马永涛,唐有朋,刘伟伟.室内定位中基于EFIM和距离协作的节点选择算法[J].传感技术学报,2018,31(8):1228-1234. 被引量：1
4陈芳妮.船舶无线通信网络传输节点选择算法优化[J].舰船科学技术,2018,40(7X):121-123. 被引量：2
5崔海波,常永芳.壳聚糖仿生合成纳米复合材料及其生态环境修复性能的研究[J].西部皮革,2018,40(8):4-4.
6邹吉庆,刘梦婕.福山区党建工作与社会组织发展互促共进[J].中国社会组织,2018,0(14):29-30.
7王丽萍,李丹,许锐伟,吴雪茜.专性菌系对石油烃污染土壤的修复性能[J].中国环境科学,2018,38(4):1417-1423. 被引量：9
8方威,马玉杰.数据分级存储技术在融媒体生产中的应用[J].现代电视技术,2018(5):144-147.
9杨弃.美国互联网档案馆建设[J].档案与建设,2018,1(4):24-26. 被引量：5
10崔馨月,孙静宇.改进的Eclat算法研究与应用[J].计算机工程与设计,2018,39(4):1059-1063. 被引量：8

计算机研究与发展

2018年第7期

浏览历史

内容加载中请稍等...

一种基于分布式存储系统中多节点修复的节点选择算法被引量：11

参考文献4

二级参考文献63

共引文献362

同被引文献52

引证文献11

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

一种基于分布式存储系统中多节点修复的节点选择算法 被引量：11

参考文献4

二级参考文献63

共引文献362

同被引文献52

引证文献11

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

一种基于分布式存储系统中多节点修复的节点选择算法被引量：11