基于Spark/Shark的电力用采大数据OLAP分析系统被引量：5

Spark/Shark-based OLAP system for smart grid applications

下载PDF

导出

摘要用电信息大数据上的OLAP查询涉及数据量大,具有多表连接操作频繁、SQL结构复杂等特点,传统关系型数据库面对该类应用,表现出可扩展性弱、数据写入吞吐量低与查询效率低等问题.为此设计了一套基于Spark/Shark的电力大数据OLAP分析系统,该系统采用分布式文件系统HDFS保存电力用电信息采集系统的大数据,通过Shark进行前端SQL解析,Spark进行查询计算;然而,原生Shark只支持粗粒度分区,不支持细粒度的索引技术,难以高效地过滤无关数据,影响了查询性能.为克服这一不足,该系统设计了一种基于前缀树的细粒度索引结构TrieIndex,并通过数据重组技术优化了数据在HDFS的分布,提升了Shark的数据过滤能力以及用电信息大数据OLAP分析的性能.真实用电信息采集系统数据与查询的实验结果表明,该系统比关系型数据库的写入速度提升了12倍,比原生Shark的查询效率提升了10倍以上. The OLAP queries on electricity consumption information in Smart Grid have some prominent features： huge amounts of data, involving multiple tables in a joint operation, complex SQL structure, etc. Faced with this kind of applications, traditional RDBMS always leads to poor scalability, low write throughput, and unacceptable query performance, etc. A Spark/Shark-Based OLAP system for electricity consumption information in smart grid was designed. The system used distributed file system HDFS for data storage, and makes use of Shark to parse the SQL queries and Spark to execute them. However, fine-grained index, which hmclers turmer unioltovc~ ＂t ~ t----- Shark does not support Trie tree based fine-grained index technique TrieIndex and data re-organization overcome this limitation, a ts with real electrmlty scheme for better query performance was proposed. The experiment resul consumption information data and query show that the write throughput of the system is 12 times faster than that of RDBMS, and the query efficiency of the system is 10 times greater than that of original Shark.

作者王亚玲刘越洪建光崔蔚李彦虎苏伊鹏黄高攀张明明刘万涛

机构地区国网信息通信产业集团有限公司中国科学院计算技术研究所国网浙江省电力公司国网江苏省电力公司信息通信分公司

出处《中国科学技术大学学报》 CAS CSCD 北大核心 2016年第1期66-75,共10页 JUSTC

基金国家电网公司科技项目(SGJSXT00YWJS1400072)资助

关键词 SPARK OLAP 电力大数据索引前缀树 Spark OLAP power big data index Trie tree

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1Apache Hadoop. Welcome to apache hadoop[EB/OL]. https://hadoop, apache, org/.
2Spark. Lightning fast cluster computing[EB/OL]. https ://spark. apache, org/.
3ZahariaM, Chowdhury M, Franklin M J, et al. Spark: Cluster computing with working sets [C]// Proceedings of the 2nd USENIX Conference on Hot Tropics in Cloud Computing. Boston, USA: USENIX, 2010: 10-14.
4Xin R S, Rosen J, Zaharia M, et al. Shark: SQL and rich analytics at scale[C]// Proceedings of the ACM SIGMOD International Conference on Management ofData. New York, USA: ACM Press, 2013..13-24.
5Abouzeid A, Bajda-Pawlikowski K, Abadi D, et al. HadoopDB.. An architectural hybrid of MapReduce and DBMS technologies for analytical workloads [J ]. Proceedings of the VLDB Endowment, 2009, 2 (1) .. 922-933.
6Jiang D W, Ooi B C, Shi L, et al. The performance of MapReduce: An in-depth study[J]. Proceedings of the VLDB Endowment, 2010, 3(1-2): 472-483.
7Dittrich J, Quian6-Ruiz J A, Jindal A, et al. Hadoop + +.. Making a yellow elephant run like a cheetah (without it even noticing) [J]. Proceedings of the VLDB Endowment, 2010, 3(1-2).. 515-529.
8Ehabakh M Y, Ozcan F, Sismanis Y, et al. Eagle- eyed elephant.- Split-oriented indexing in Hadoop[C]// Proceedings of the 16th International Conference on Extending Database Technology. Genoa, Italy: ACM Press, 2013: 89-100.
9Liu Y, Hu S L, Rabl T, et al. DGFIndex for smart grid.. Enhancing hive with a cost-effectivemultidimensional range irldex[C]// 40th International Conference on VLDB. Hangzhou, China.. ACM Press, 2014:1496 1507.
10彭小圣,邓迪元,程时杰,文劲宇,李朝晖,牛林.面向智能电网应用的电力大数据关键技术[J].中国电机工程学报,2015,35(3):503-511. 被引量：526

二级参考文献17

1曹一家,陈晓刚,孙可.基于复杂网络理论的大型电力系统脆弱线路辨识[J].电力自动化设备,2006,26(12):1-5. 被引量：219
2张文亮,刘壮志,王明俊,杨旭升.智能电网的研究进展及发展趋势[J].电网技术,2009,33(13):1-11. 被引量：628
3陈启买,刘海,贺超波,彭利宁.实时监控数据图形展示与历史回放关键技术研究[J].电脑编程技巧与维护,2009(22):95-98. 被引量：3
4郭崇军,洪峰,陈金富,李勇,徐友平,奚江惠,汪剑波.可视化技术在电力系统中的应用探讨[J].水电能源科学,2011,29(2):146-149. 被引量：18
5罗军舟,金嘉晖,宋爱波,东方.云计算:体系架构与关键技术[J].通信学报,2011,32(7):3-21. 被引量：826
6饶威,丁坚勇,路庆凯.智能电网云计算平台构建[J].华东电力,2011,39(9):1493-1496. 被引量：29
7王先兵,张学东,何涛,詹涛,刘玲,张荣.三维虚拟变电站数字可视化管理与监控系统[J].武汉大学学报（工学版）,2011,44(6):786-791. 被引量：21
8李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1606
9孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2393
10姚宏宇.大数据与云计算[J].信息技术与标准化,2013(5):21-22. 被引量：9

共引文献525

1陈伟根,张知先,李剑,蔚超,陈庆.电气设备状态参量智能传感技术[J].中国电机工程学报,2020,40(S01):323-342. 被引量：41
2宋旭峰,蒋梦姣,周怡伶,吉俊杰,陆晓翔.面向设备开关图像识别的改进Faster R-CNN[J].计算机系统应用,2022,31(10):211-224.
3张铃珠.基于因子分析的配变运行状态评估[J].中国新技术新产品,2020(15):1-4. 被引量：1
4蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：88
5梁洪勇,周辉,刘学,桂晓芳.配网自动化技术在油田电网的推广应用研究[J].中国设备工程,2021(S01):111-114. 被引量：2
6韩水保,汤卫东,张令涛,周联友,于宏文.支撑大电网调控系统无差别浏览的人机云终端及关键技术[J].电网技术,2020,44(2):420-428. 被引量：5
7李佳意,董万鹏,任梦,张吉超,弓成美琪.新时代计算机智能制造模式的研究进展[J].智能计算机与应用,2021,11(3):98-105. 被引量：1
8史景坚,周文涛,张宁,陈桥,刘金涛,曹振博,陈懿,宋航,刘友波.含储能系统的配电网电压调节深度强化学习算法[J].电力建设,2020,41(3):71-78. 被引量：10
9吴俊宏,张印,李莎,王付金.基于LSTM算法的线路故障智能诊断方法研究[J].大电机技术,2023(S02):62-67. 被引量：3
10李旭辉,徐玉生.电力大数据高速存储及检索关键技术研究[J].中国科技纵横,2018,0(3):38-39.

同被引文献38

1徐健,张智雄,吴振新.实体关系抽取的技术方法综述[J].现代图书情报技术,2008(8):18-23. 被引量：54
2郑金龙,朱亚玲,李华.基于MVC模式与J2EE架构的项目申报与评审系统设计与实现[J].兰州工业高等专科学校学报,2010,17(1):16-19. 被引量：3
3聂宏展,聂耸,乔怡,吕盼.基于主成分分析法的输电网规划方案综合决策[J].电网技术,2010,34(6):134-138. 被引量：100
4张延松,肖艳芹,王珊,陈红.主存OLAP系统中what-if查询处理策略[J].软件学报,2010,21(10):2494-2512. 被引量：3
5梁平,苏发,董永东,陆军.基于OLAP技术的发电集团战略决策分析系统[J].华东电力,2010,38(10):1604-1606. 被引量：2
6严进军.物联网发展与设备管理[J].中国设备工程,2011(4):3-5. 被引量：3
7王佼,丁莉.500KV架空输电线路工程造价主要影响因素分析[J].东北电力大学学报,2012,32(5):9-11. 被引量：18
8罗毅,李昱龙.基于熵权法和灰色关联分析法的输电网规划方案综合决策[J].电网技术,2013,37(1):77-81. 被引量：223
9何勇,聂鹏程,刘飞.农业物联网与传感仪器研究进展[J].农业机械学报,2013,44(10):216-226. 被引量：150
10宫宇,吕金壮.大数据挖掘分析在电力设备状态评估中的应用[J].南方电网技术,2014,8(6):74-77. 被引量：50

引证文献5

1邓楚然,江疆,杨秋勇,陈灏生,黄树满.基于大数据的电力多维度分析系统设计[J].微型电脑应用,2020,36(2):106-108. 被引量：3
2杨晓欢,单娅辉,解丹,李晓东.面向文摘的中药方剂与疾病关系抽取[J].世界科学技术-中医药现代化,2017,19(7):1167-1172. 被引量：3
3黄静.110 kV及以下输变电工程设计智能化评审管理平台研究[J].现代电子技术,2018,41(4):112-115. 被引量：6
4王熙,温继文.基于OLAP的智能水产物联网设备故障分析系统研究[J].农业技术与装备,2017(12):87-89. 被引量：2
5刘昕林,邓巍,黄萍,刘睿臻.基于Hadoop和Spark的可扩展性大数据分析系统设计[J].自动化与仪器仪表,2020,0(3):132-136. 被引量：12

二级引证文献26

1尹小妹,田国祥,王天一,耿辉,贺海蓉,张勇,吕军.python爬虫获取天气数据与儿童肺部疾病门诊就诊率相关性分析[J].中国循证心血管医学杂志,2019,11(9):1047-1049. 被引量：3
2贡宪东.新时期农业水利经济发展中财务管理的价值[J].农村科学实验,2019,0(29):17-18.
3胡劲松,胡君慧,官澜,朱承治.基于三维设计的自动辅助评审系统开发[J].微型电脑应用,2020,36(1):18-21. 被引量：1
4殷铭.110kV输变电工程施工管理过程研究[J].建材与装饰,2020,0(10):139-140. 被引量：1
5田迎,单娅辉,王时绘.基于知识图谱的抑郁症自动问答系统研究[J].湖北大学学报（自然科学版）,2020,42(5):587-591. 被引量：9
6宁武,黄海遵,林兴志.太阳能光伏系统内河船用电态势监测与应用优化[J].船电技术,2020,40(10):9-13.
7李国文,周翔,王波.110kV及以上输变电工程设计智能化评审管理平台研究[J].中国管理信息化,2021,24(8):107-108. 被引量：4
8尹旭熙.基于Hadoop和Spark的可扩展性化工类大数据分析系统设计[J].粘接,2021(6):81-83. 被引量：1
9胡少波.基于大数据的政府治理现代化特征指标神经系统模型构建[J].电子设计工程,2021,29(13):120-123.
10曾子玲,张华敏,于彤,刘思鸿,张磊,高宏杰,陈广坤,佟琳.知识图谱及其关键技术在中医药领域的研究与应用综述[J].世界科学技术-中医药现代化,2022,24(2):780-788. 被引量：22

1贺宁.蚁群算法在数据库查询中的应用[J].山西电子技术,2008(1):71-72. 被引量：2
2孙及园,林锦贤.对Web网页的查询及信息提取[J].福州大学学报（自然科学版）,2000,28(3):93-97. 被引量：3
3罗盛章.基于SOA的虚拟视图数据集成方法设计[J].哈尔滨职业技术学院学报,2010(4):115-116.
4吕焕群,翁将锋.基于WEB的大型Oracle应用系统性能优化方法研究[J].计算机应用与软件,2012,29(5):184-187. 被引量：4
5陈昕,牛建强,陈维兴.基于小波方法的数据流查询计算研究与应用[J].计算机工程与应用,2006,42(23):158-160.
6王晓辉,解建仓,李建勋,马增辉.利用数据库查询语句获得GML的实现方式[J].情报杂志,2006,25(3):2-4.
7李晓龙,谭景信.跨数据库持久层框架的研究与实现[J].计算机工程与设计,2011,32(11):3729-3733. 被引量：1
8曾珍珍.基于SQL智能解析的代码生成引擎[J].软件导刊,2011,10(3):159-161.
9崔娜.面向数据库性能的SQL语句解析与翻译[J].现代电子技术,2016,39(11):99-102. 被引量：5
10唐建,徐罡,许舒人.一种数据级安全访问控制方案[J].计算机系统应用,2013,22(9):81-85. 被引量：3

中国科学技术大学学报

2016年第1期

浏览历史

内容加载中请稍等...

基于Spark/Shark的电力用采大数据OLAP分析系统被引量：5

参考文献13

二级参考文献17

共引文献525

同被引文献38

引证文献5

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于Spark/Shark的电力用采大数据OLAP分析系统 被引量：5

参考文献13

二级参考文献17

共引文献525

同被引文献38

引证文献5

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于Spark/Shark的电力用采大数据OLAP分析系统被引量：5