大数据分析——RDBMS与MapReduce的竞争与共生被引量：386

Big Data Analysis—Competition and Symbiosis of RDBMS and MapReduce

下载PDF

导出

摘要在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce的优秀思想改造自身,而以MapReduce为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置. In many areas such as science, simulation, Internet, and e-commerce, the volume of data to be analyzed grows rapidly. Parallel techniques which could be expanded cost-effectively should be invented to deal with the big data. Relational data management technique has gone through a history of nearly 40 years. Now it encounters the tough obstacle of scalability, which relational techniques can not handle large data easily. In the mean time, none relational techniques, such as MapReduce as a typical representation, emerge as a new force, and expand their application from Web search to territories that used to be occupied by relational database systems. They confront relational technique with high availability, high scalability and massive parallel processing capability. Relational technique community, after losing the big deal of Web search, begins to learn from MapReduce. MapReduce also borrows valuable ideas from relational technique community to improve performance. Relational technique and MapReduce compete with each other, and learn from each other; new data analysis platform and new data analysis eco-system are emerging. Finally the two camps of techniques will find their right places in the new eco-system of big data analysis.

作者覃雄派王会举杜小勇王珊

机构地区教育部数据工程与知识工程重点实验室(中国人民大学) 中国人民大学信息学院

出处《软件学报》 EI CSCD 北大核心 2012年第1期32-45,共14页 Journal of Software

基金国家自然科学基金(61070054 60873017 61170013) 核高基重大科技专项(2010ZX01042-001-002 2010ZX 01042-002-002-03) 中央高校基本科研业务费专项资金(10XNI018)

关键词大数据深度分析关系数据管理技术 MAPREDUCE big data deep analysis relational data management technique MapReduce

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献82

1Zhou AY. Data intensive computing-challenges of data management techniques. Communications of CCF, 2009,5(7):50-53 (in Chinese with English abstract).
2Cohen J, Dolan B, Dunlap M, Hellerstein JM, Welton C. MAD skills: New analysis practices for big data. PVLDB, 2009,2(2): 1481-1492.
3Schroeder B, Gibson GA. Understanding failures in petascale computers. Journal of Physics: Conf. Series, 2007,78(1):1-11. [doi: 10.1088/1742-6596/78/1/012022].
4Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. In: Brewer E, Chen P, eds. Proc. of the OSDI. California: USENIX Association, 2004. 137-150. [doi: 10.1145/1327452.1327492].
5Pavlo A, Paulson E, Rasin A, Abadi DJ, Dew:itt DJ, Madden S, Stonebraker M. A comparison of approaches to large-scale data analysis. In: Cetintemel U, Zdonik SB, Kossmann D, Tatbul N, eds. Proc. of the SIGMOD. Rhode Island: ACM Press, 2009. 165-178. [doi: 10.1145/1559845.1559865].
6Chu CT, Kim SK, Lin YA, Yu YY, Bradski G, Ng AY, Olukotun K. Map-Reduce for machine learning on multicore. In: Scholkopf B, Platt JC, Hoffman T, eds. Proe. of the NIPS. "Vancouver: MIT Press, 2006. 281-288. [doi: 10.1234/12345678].
7Wang CK, Wang JM, Lin XM, Wang W, Wang HX, Li HS, Tian WP, Xu J, Li R. MapDupReducer: Detecting near duplicates over massive datasets. In: EImagarmid AK, Agrawal D, eds. Proc. of the SIGMOD. Indiana" ACM Press, 2010. 1119-1122. [doi: 10.1145/1807167.1807296].
8Liu C, Guo F, Faloutsos C. BBM: Bayesian browsing model from petabyte-scale data. In: Elder JF IV, Fogelman-Souli6 F, Flach PA, Zaki MJ, eds. Proc. of the KDD. Paris: ACM Press, 2009. 537-546. [doi: 10.1145/1557019.1557081].
9Panda B, Herbach JS, Basu S, Bayardo ILl. PLANET: Massively parallel learning of tree ensembles with MapReduce. PVLDB, 2009,2(2):1426-1437.
10Lin J, Schatz M. Design patterns for efficient graph algorithms in MapReduce. In: Rao B, Krishnapuram B, Tomkins A, Yang Q, eds. Proc. of the KDD. Washington: ACM Press, 2010.78-85. [doi: 10.1145/1830252.1830263].

同被引文献3534

1张玉洁.国家所有:数据资源权属的中国方案与制度展开[J].政治与法律,2020(8):15-26. 被引量：73
2杨建华,钱奇.海量数据处理中的内存数据库应用[J].信息周刊,2018,0(6):218-218. 被引量：1
3肖珑,张春红,廖三三.数字图书馆门户的构建与服务[J].大学图书馆学报,2007,25(4):41-48. 被引量：39
4唐伍中,胡金初.以太无源光网络及其在校园网中的应用[J].计算机应用,2003,23(z1):234-235. 被引量：2
5唐俊奇.多处理机工作池方式负载平衡技术在机器人的应用[J].计算机系统应用,2008,17(11):82-86. 被引量：4
6刘丙军,陈晓宏.基于协同学原理的流域水资源合理配置模型和方法[J].水利学报,2009,39(1):60-66. 被引量：31
7贺新春,李兴拼,刘卫林.水资源系统多目标综合评估模型与方法[J].水利学报,2009,39(9):1033-1039. 被引量：5
8曾志,刘仁义,李先涛,张丰,包卫正.一种基于分块的遥感影像并行处理机制[J].浙江大学学报（理学版）,2012,39(2):225-230. 被引量：15
9朱会霞,王福林,索瑞霞.物联网在中国现代农业中的应用[J].中国农学通报,2011,27(2):310-314. 被引量：83
10于鸿飞,秦勇,王子洋,刘瑜,梁平.城市轨道交通应急处置辅助决策系统的研究[J].交通信息与安全,2013,31(5):163-168. 被引量：6

引证文献386

1郑智泉,杨楠.智能革命下数据驱动的智慧图书馆建设分析[J].智能计算机与应用,2020(8):183-185.
2谢月锋,董现垒,陈卉,王燕,刘志成.利用网络痕迹信息即时预测儿童腹泻流行趋势[J].医学信息（医学与计算机应用）,2016,29(29):1-4.
3董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
4邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10
5马宾.一种改进的并行K_近邻网络舆情分类算法研究[J].微电子学与计算机,2015,32(6):62-66. 被引量：1
6樊伟红,李晨晖,张兴旺,秦晓珠,郭自宽.图书馆需要怎样的“大数据”[J].图书馆杂志,2012,31(11):63-68. 被引量：238
7于薇.“大数据”背景下的信息处理技术分析与研究[J].数字图书馆论坛,2012(11):6-11. 被引量：3
8向剑平,乔少杰,胡剑.WMB*:一种提高大数据上软件执行效率改进算法[J].内江师范学院学报,2012,27(12):24-28. 被引量：4
9徐翔,邹复民,廖律超,朱铨.基于GemFire的海量数据计算性能实验分析[J].计算机应用,2013,33(1):226-229. 被引量：5
10黄晓斌,钟辉新.大数据时代企业竞争情报研究的创新与发展[J].图书与情报,2012(6):9-14. 被引量：120

二级引证文献6028

1崔治忠.坚持三个有机统一:构建智慧党建的路径探究[J].中共云南省委党校学报,2021,22(2):61-69. 被引量：2
2刘晓宁.基于大数据的电力企业物资管理模式优化探讨[J].中外企业家,2019,0(35):24-24. 被引量：2
3魏祥健.大数据驱动的审计与纪检监察协同监督模式构建[J].中国审计评论,2021(2):60-73. 被引量：2
4李坪.大数据赋权正当性证成[J].中山大学法律评论,2020(1):3-21. 被引量：1
5冯梅.卷烟真伪鉴别检验数据在烟草行业高质量发展中的应用研究[J].质量与市场,2021(12):34-36. 被引量：4
6董婷敏.大数据对传统会计的影响及其对策研究[J].质量与市场,2021(1):43-44.
7秦绍鑫,李莹.地理信息系统在政府应急管理中的创新应用研究——以Z市D区应急指挥中心为例[J].中国应急管理科学,2023(1):59-69.
8杨佳,丁宗广.应急管理科技支撑研究综述[J].中国应急管理科学,2021(1):63-75.
9吴会彩.河北省交通运输新型基础设施规划平台总体架构研究[J].运输经理世界,2023(33):55-57. 被引量：1
10杨加宇,唐洲,石珂,佘卓明,王浦安.公路交通调查数据管理及分析应用[J].运输经理世界,2022(4):45-47. 被引量：1

1王伟.大数据分析——RDBMS与MapReduce的竞争与共生漫谈[J].计算机光盘软件与应用,2013,16(7):55-56. 被引量：6
2袁磊,赵俊三,李红波.物联网空间数据仓库框架体系及关键技术分析[J].地理信息世界,2013,20(1):58-62. 被引量：14
3知名不具.神出鬼没的任务栏[J].计算机应用文摘,2007(11X):29-29.
4张永谦,栗海玉.时态数据在关系数据库中的实现[J].郑州轻工业学院学报（自然科学版）,2003,18(3):66-68. 被引量：2
5郭朝鹏,王智,韩峰,张一川,宋杰.HaoLap:基于Hadoop的海量数据OLAP系统[J].计算机研究与发展,2013,50(S1):378-383. 被引量：5
6蔡建宇.面向服务的流程优化研究[J].信息通信,2013,26(3):44-45.
7涂振宇,曾爱民,樊棠怀.一类遗传-禁忌搜索算法的电网规划问题研究[J].中国农村水利水电,2008(12):137-139.
8龚育昌,丁卫群.KD_SQL查询的优化转换方法[J].小型微型计算机系统,1997,18(8):43-48.
9张永谦,刘辉,黄力.关系数据库中时态数据的实现方法[J].成组技术与生产现代化,2003,20(3):56-59. 被引量：3
10谢东,伍锦群,陈新波.非一致性关系数据管理研究综述[J].小型微型计算机系统,2012,33(12):2631-2635.

软件学报

2012年第1期

浏览历史

内容加载中请稍等...

大数据分析——RDBMS与MapReduce的竞争与共生被引量：386

参考文献82

同被引文献3534

引证文献386

二级引证文献6028

相关作者

相关机构

相关主题

浏览历史

大数据分析——RDBMS与MapReduce的竞争与共生 被引量：386

参考文献82

同被引文献3534

引证文献386

二级引证文献6028

相关作者

相关机构

相关主题

浏览历史

大数据分析——RDBMS与MapReduce的竞争与共生被引量：386