大数据分析平台——从扩展性优先到性能优先被引量：5

Big Data Analytic Platforms: Changing the Priority from Scalability to Performance

下载PDF

导出

摘要认为现有以Map Reduce/Spark等为代表的大数据处理平台在解决大数据问题的挑战问题方面过多考虑了容错性,忽视了性能。大数据分析系统的一个重要的发展方向就是兼顾性能和容错性,而图计算系统在数据模型上较好地考虑了性能和容错能力的平衡,是未来的重要发展方向。 Existing big data analytic platforms, such as Map Reduce and Spark, focus on scalability and fault tolerance at the expense of performance. We discuss the connections between performance and fault tolerance and show they are not mutually exclusive. Distributed graph processing systems are promising because they make a better tradeoff between performance and fault tolerance with mutable data models.

作者郑纬民陈文光

机构地区清华大学计算机科学与技术系

出处《中兴通讯技术》 2016年第2期11-13,共3页 ZTE Technology Journal

基金国家重点基础研究发展("973")计划(2014CB340402) 国家自然科学基金(61525202)

关键词大数据分布与并行处理并行编程容错可扩展性 big data distributed and parallel processing parallel programming fault tolerance scalability

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1DEAN,JEFFREY,SANJAY G.Map Reduce:Simplified Data Processing on Large Clusters[J].Communications of the ACM,2008,51(1):107-113.DOI:10.1145/1327452.1327492.
2ZAHARIA M,CHOWDHURY M,DAS T,et al.Resilient Distributed Datasets:A FaultTolerant Abstraction for In-Memory Cluster Computing[C]//Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation.USA:USENIX Association,2012:15-28.
3THUSOO A,SARMA S J,JAIN N,et al.Hive:A Warehousing Solution over a Map-Reduce Framework[J].Proceedings of the VLDB Endowment,2009,2(2):1626-1629.DOI:10.14778/1687553.1687609.
4GROPP W,LUSK E,DOSS N,et al."A HighPerformance,Portable Implementation of the MPI Message Passing Interface Standard[J].Parallel Computing,1996,22(6):789-828.DOI:10.1016/0167-8191(96)00024-5.
5BU Y,HOWE B,BALAZINSKA M,et al.Ha Loop:Efficient Iterative Data Processing on Large Clusters[J].Proceedings of the VLDB Endowment,2010,3(1):285-296.DOI:10.14778/1920841.1920881.
6EKANAYAKE,JALIYA.Twister:A Runtime for Iterative Mapreduce[C]//Proceedings of the 19th ACM International Symposium on High Performance Distributed Computing.USA:ACM,2010:810-818.
7FRANK M,MICHAEL I,MURRAY D G.Scalability!But at what COST[C]//5th Workshop on Hot Topics in Operating Systems(Hot OS XV).USA:USENIX Association,2015.
8KWAK,HAEWOON.What is Twitter,A Social Network or A News Media?[C]/Proceedings of the 19th International Conference on World Wide Web.USA:ACM,2010:591-600.
9MALEWICZ,GRZEGORZ.Pregel:A System for Large-Scale Graph[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of Data.USA:ACM,2010:135-146.
10LOW,YU C.Distributed Graph Lab:A Framework for Machine Learning and Data Mining in the Cloud[J].Proceedings of the VLDB Endowment,2012,5(8):716-727.

同被引文献23

1谢超.大数据下的数据分析平台架构[J].程序员,2011(8):55-58. 被引量：3
2亓开元,赵卓峰,房俊,马强.针对高速数据流的大规模数据实时处理方法[J].计算机学报,2012,35(3):477-490. 被引量：95
3李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1606
4李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：260
5王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：714
6顾君忠.大数据与大数据分析[J].软件产业与工程,2013(4):17-21. 被引量：53
7朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014,31(2):10-19. 被引量：291
8孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：313
9黄哲学,陈小军,李俊杰,王强.面向服务的大数据分析平台解决方案[J].科技促进发展,2014,10(1):52-59. 被引量：15
10程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：741

引证文献5

1肖源,郝杰,刘莹,王涛.信息分析视角下的大数据分析平台构架研究[J].情报科学,2016,34(9):83-89. 被引量：15
2孙雪娟.基于信息分析视角下的大数据分析平台构架研究[J].信息通信,2017,30(11):96-98. 被引量：1
3刘铎,杨涓,谭玉娟.边缘存储的发展现状与挑战[J].中兴通讯技术,2019,25(3):15-22. 被引量：8
4张世瑛.大数据平台基础能力和性能诊断分析[J].区域治理,2019,0(29):54-56. 被引量：1
5杨小玲.大数据分析平台建设与应用研究[J].信息与电脑,2020,32(9):36-37.

二级引证文献24

1黄炳文.基于数据分析平台的展会信息创新模式展望[J].电子技术（上海）,2021,50(7):89-91.
2周秀芳.开源大数据平台架构设计研究[J].延安职业技术学院学报,2017,31(3):103-105.
3李佳,王宏起,李玥,孙亮.大数据时代区域创新服务平台间科技资源共享行为的演化博弈研究[J].情报科学,2018,36(1):38-44. 被引量：21
4宋维维,夏绍模,李赞.基于SPARK大数据处理平台的图书馆智慧服务探索与实践[J].情报科学,2018,36(6):45-49. 被引量：20
5张华,吴岳忠.信息设计背景下的包装大数据可视化研究[J].湖南工业大学学报（社会科学版）,2018,23(5):7-14. 被引量：7
6沈贵庆.大数据分析在高校智慧教育中的应用研究[J].现代电子技术,2019,42(4):97-100. 被引量：31
7赵杨晨.信息分析视角下的大数据分析平台构架研究[J].现代信息科技,2019,3(7):160-161. 被引量：4
8朱华巍,徐岚.信息分析视角下的大数据分析平台构架研究[J].数码世界,2019,0(11):88-88.
9黄晓辉,余文涛.数据处理教学科研云的建设与应用[J].实验科学与技术,2019,17(6):147-151.
10刘天畅,周思佳.基于Storm的大数据疫情信息平台建设研究——以新冠肺炎为例[J].图书情报导刊,2020,5(5):35-42. 被引量：3

1惠普发布全新工作站技术提升协作和虚拟化应用[J].CAD/CAM与制造业信息化,2014(8):4-4.
2沈斌,欧策.可视化软件中的“伟大的挑战”问题[J].电子计算机,1994(2):31-35.
3吴吉义,沈千里,章剑林,沈忠华,平玲娣.云计算:从云安全到可信云[J].计算机研究与发展,2011,48(S1):229-233. 被引量：54
4陈登祥.浅谈网络经济给财务管理带来新的挑战[J].科技创业家,2013(11).
5张国林.移动自组织网络中基于朋友网络的概率资源查找机制[J].江西师范大学学报（自然科学版）,2015,39(6):647-651.
6丁宁,刘富星.电子商务中的计算机应用技术:数据挖掘[J].广西质量监督导报,2009(5):55-56.
7王国胤.大数据的多粒度智能认知分析与决策[J].重庆理工大学学报（自然科学）,2016,30(8):4-4. 被引量：1
8潘晓,肖珍,孟小峰.位置隐私研究综述[J].计算机科学与探索,2007,1(3):268-281. 被引量：65
9惠普推出多款桌面云终端新品和全新工作站技术[J].金融电子化,2014,0(8):94-94.
10肖望.文件共享服务技术实施方案探讨[J].科技经济导刊,2016(33):26-27. 被引量：1

中兴通讯技术

2016年第2期

浏览历史

内容加载中请稍等...

大数据分析平台——从扩展性优先到性能优先被引量：5

参考文献13

同被引文献23

引证文献5

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

大数据分析平台——从扩展性优先到性能优先 被引量：5

参考文献13

同被引文献23

引证文献5

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

大数据分析平台——从扩展性优先到性能优先被引量：5