基于多维度特征融合的云工作流任务执行时间预测方法被引量：3

Multi-dimensional Feature Fusion-based Runtime Prediction Approach for Cloud Workflow Tasks

下载PDF

导出

摘要任务执行时间估计是云数据中心环境下工作流调度的前提.针对现有工作流任务执行时间预测方法缺乏类别型和数值型数据特征的有效提取问题,提出了基于多维度特征融合的预测方法.首先,通过构建具有注意力机制的堆叠残差循环网络,将类别型数据从高维稀疏的特征空间映射到低维稠密的特征空间,以增强类别型数据的解析能力,有效提取类别型特征;其次,采用极限梯度提升算法对数值型数据进行离散化编码,通过对稠密空间的输入向量进行稀疏化处理,提高了数值型特征的非线性表达能力;在此基础上,设计多维异质特征融合策略,将所提取的类别型、数值型特征与样本的原始输入特征进行融合,建立基于多维融合特征的预测模型,实现了云工作流任务执行时间的精准预测;最后,在真实云数据中心集群数据集上进行了仿真实验.实验结果表明,相对于已有的基准算法,该方法具有较高的预测精度,可用于大数据驱动的云工作流任务执行时间预测. Task runtime estimation is a prerequisite for workflow scheduling in cloud data centers.However,the existing runtime prediction methods for workflow activities fail to effectively extract categorical and numerical features.In this paper,we propose a multi-dimensional feature fusion-based runtime prediction approach for workflow tasks.Firstly,we construct a stacked residual recurrent neural network with an attention mechanism for mapping categorical data from high-dimensional sparse space to low-dimensional dense space so as to enlarge its capability of parsing categorical data for categorical feature extraction.Secondly,extreme gradient boosting is introduced to discretize the numerical data and enhance the nonlinear representation capability for numerical features through sparsely processing the input vectors within dense space.Thirdly,we design a heterogeneous multi-dimensional feature fusion strategy,and then blend the extracted features with original inputs to mine comprehensive knowledge for runtime prediction.Finally,based on the resulting multi-dimensional fused features,a prediction model is developed to fully utilize these features as well as its corresponding hidden knowledge and then to forecast the runtimes accurately for cloud workflow tasks.To verify the effectiveness and superiority of the proposed method,we conduct extensive experiments on a cluster dataset from a real cloud data center.The experimental results show that,our approach outperforms the existing algorithms and can be applied in big data-driven runtime prediction for workflow activities in the cloud.

作者李慧芳黄姜杭徐光浩夏元清 LI Hui-Fang;HUANG Jiang-Hang;XU Guang-Hao;XIA Yuan-Qing(Key Laboratory of Intelligent Control and Decision of Complex Systems,Beijing Institute of Technology,Beijing 100081)

机构地区北京理工大学复杂系统智能控制与决策国家重点实验室

出处《自动化学报》 EI CAS CSCD 北大核心 2023年第1期67-78,共12页 Acta Automatica Sinica

基金国家重点研发计划(2018YFB1003700) 国家自然科学基金(61836001)资助。

关键词云数据中心工作流集成学习特征融合执行时间预测 Cloud data centers workflows ensemble learning feature fusion execution time prediction

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1许伦凡,熊敏,肖永浩.基于调度历史数据在线预测作业执行时间[J].计算机应用研究,2020,37(3):763-767. 被引量：3
2郑婷婷,陈洁璇,许洋,余阳,潘茂林.业务流程中一种个性化的任务完成时间预测方法[J].计算机集成制造系统,2019,25(4):993-1000. 被引量：8
3夏元清,闫策,王笑京,宋向辉.智能交通信息物理融合云控制系统[J].自动化学报,2019,45(1):132-142. 被引量：43
4范苍宁,刘鹏,肖婷,赵巍,唐降龙.深度域适应综述:一般情况与复杂情况[J].自动化学报,2021,47(3):515-548. 被引量：34
5伍章俊,刘晓,倪志伟.基于混沌时间序列的云工作流活动运行时间预测模型[J].计算机集成制造系统,2013,19(8):1920-1927. 被引量：2
6郑顾平,王秋萍.基于参数变化的云应用程序执行时间预估方法[J].计算机工程与应用,2017,53(11):95-99. 被引量：3
7李帅标,赵海燕,陈庆奎,曹健.基于Stacking策略的过程剩余执行时间预测[J].小型微型计算机系统,2019,40(12):2481-2486. 被引量：5
8赵文迪,陈德旺,卓永强,黄允浒.深度神经模糊系统算法及其回归应用[J].自动化学报,2020,46(11):2350-2358. 被引量：8

二级参考文献56

1陈铿,韩伯棠.混沌时间序列分析中的相空间重构技术综述[J].计算机科学,2005,32(4):67-70. 被引量：86
2刘涵,刘丁,李琦.基于支持向量机的混沌时间序列非线性预测[J].系统工程理论与实践,2005,25(9):94-99. 被引量：46
3胡明华,汤铭端.基于分布函数的程序执行时间的静态预估[J].计算机工程与设计,2006,27(16):3045-3047. 被引量：3
4蒋凡,张辉,谈刚.TTCN-3编译器符号表的设计和实现[J].计算机工程与科学,2007,29(10):124-127. 被引量：2
5NADEEM F,FAHRINGER T.Predicting the execution time of grid workflow applications through local learning[C]//Proceedings of the Conference on High Performance Computing Networking,Storage and Analysis.New York,N.Y.,USA:ACM,2009:1-12.
6SMITH W,FOSTER I,TAYLOR V.Predicting application run times with historical information[J].Journal of Parallel and Distributed Computing,2004,64(9):1007-1016.
7JIANG B,WENG C L,DU J,et al.A QoS-aware and faulttolerant workflow composition for grid[C]// Proceedings of the 7th International Conference on Grid and Cooperative Computing.Washington,D.C.,USA:IEEE Computer Society,2008:510-516.
8MARTINEZ A,ALFARO F J,SANCHEZ J L,et al.A new cost-effective technique for QoS support in clusters[J].IEEE Transactions on Parallel and Distributed Systems,2007,18(12):1714-1726.
9LIU X,CHEN J J,LIU K,et al.Forecasting duration intervals of scientific workflow activities based on time-series patterns[C]//Proceedings of the 4th International Conference on Science.Washington,D.C.,USA:IEEE Computer Society,2008:23-30.
10PRODAN R,FAHRINGER T.Overhead analysis of scientific workflows in grid environments[J].IEEE Transactions on Parallel and Distributed Systems,2008,19(3):378-393.

共引文献98

1顾航,詹德佑.车联网视频交换系统的测试平台研究[J].中国计量大学学报,2020,31(2):208-214. 被引量：1
2夏元清,王晁,高润泽,詹玉峰,孙中奇,戴荔,翟弟华.云网边端协同云控制研究进展及挑战[J].信息与控制,2024,53(3):273-286.
3龙云霄,刘金兴,杨治利,袁尔会,夏俊凤.智慧高速公路伴随式信息交互策略[J].公路交通科技,2022,39(S02):161-167.
4卢立阳,朱丽丽,刘楠,刘博.基于云边端协同的高速公路云控系统能力验证研究[J].公路交通科技,2022,39(S01):154-160. 被引量：1
5方伯芃,孙林夫.面向QoS与成本感知的云工作流调度优化[J].计算机集成制造系统,2018,24(2):331-348. 被引量：6
6余学锋,刘辉,翟巧丽.虚拟仪器软件执行时间测试与评估方法[J].电子测量技术,2019,42(18):123-126.
7王荣巍,何锋,周璇,鲁俊,李二帅.面向无人机蜂群的航电云多层任务调度模型[J].航空学报,2019,40(11):216-227. 被引量：7
8邹晓明,荣美,蒋成龙.人工智能在智慧高速中的应用探索[J].企业科技与发展,2020,0(2):120-122. 被引量：1
9陈龙,杜江,伍仕红,宋弦,姚刚.基于指令执行时间预测的优化调度指挥网络交互系统[J].电工技术,2020,0(7):150-151.
10孙显强,崔鹏,李增润,高林郁,刘基宏,薛元.环锭纺纱集成化智能控制系统构建及其应用[J].纺织导报,2020(7):49-53. 被引量：3

同被引文献33

1张鹏,武刚,任柯光.增量式块主成分分析的焊缝图像特征提取算法[J].光电子．激光,2022,33(8):851-857. 被引量：1
2申航杰,琚生根,孙界平.基于模糊聚类和支持向量回归的成绩预测[J].华东师范大学学报（自然科学版）,2019(5):66-73. 被引量：10
3陈曦,梅广,张金金,许维胜.融合知识图谱和协同过滤的学生成绩预测方法[J].计算机应用,2020,40(2):595-601. 被引量：29
4童钊,邓小妹,陈洪剑,梅晶,叶锋.云环境下基于强化学习的多目标任务调度算法[J].小型微型计算机系统,2020,41(2):285-290. 被引量：20
5Xibin DONG,Zhiwen YU,Wenming CAO,Yifan SHI,Qianli MA.A survey on ensemble learning[J].Frontiers of Computer Science,2020,14(2):241-258. 被引量：48
6张娣,陆建峰.基于双目图像与跨级特征引导的语义分割模型[J].计算机工程,2020,46(10):275-281. 被引量：3
7熊宁,朱文广,钟士元,舒娇,李伟伟,王光.基于非线性映射与核主成分分析的区域配电网综合评价方法[J].现代电力,2020,37(5):463-469. 被引量：17
8李旻,何婷婷.基于随机数三角阵映射的高维大数据二分聚类初始中心高效鲁棒生成算法[J].电子与信息学报,2021,43(4):948-955. 被引量：7
9张阳,鲁鸣鸣,郑一基,李海峰.基于图自编码器模型的学生成绩预测[J].计算机工程与应用,2021,57(13):251-257. 被引量：5
10张豪,张华熊.基于EDA的中文语义相似度数据集增强方法[J].软件,2021,42(5):125-127. 被引量：2

引证文献3

1王晓勇,胡胜利.基于改进SMOTE算法和Ensemble模型的学习结果预测方法[J].中北大学学报（自然科学版）,2024,45(3):257-264. 被引量：1
2刘鲲鹏,宫立华,汪莉.基于多任务特征融合算法的电力大数据增量式自组织映射方法[J].微型电脑应用,2024,40(6):101-104.
3唐诗咏,索鸿飞,杨健伟,陆海,赵轲.云计算环境中基于改进粒子群优化的任务调度算法[J].电子设计工程,2024,32(20):6-10.

二级引证文献1

1张翠平.MVC框架音乐视频远程教学系统建构研究[J].信息技术,2024,48(9):129-134.

1谭晓,孙全明,曲志坚.基于多模态特征融合的个性化视频推荐方法[J].智能计算机与应用,2020,10(12):209-213. 被引量：2
2潘纪奎,董心仪,王子健,卢政昊,孙福权.云中截止时间动态分配的工作流调度成本优化算法[J].计算机应用研究,2023,40(1):172-177. 被引量：1
3杨国亮,邹俊峰,李世聪,温钧林.基于U型稠密特征融合的皮肤病灶分割[J].中国医学物理学杂志,2022,39(4):442-447. 被引量：1
4严佳豪,张明珠,杨中国,高晶,王桂玲,赵卓峰.基于Seq2Seq模型的工作流动态调度多目标进化算法[J].郑州大学学报（理学版）,2023,55(1):35-41.
5邱舒婷,张志国,刘学.基于1553B总线消息的时序码识别系统的设计与实现[J].电子技术与软件工程,2022(22):220-223.
6钟永新,赵煜,赵伟,史文祥,陈乐.基于5G信令的质差小区定位方法研究[J].江苏通信,2022,38(6):24-28. 被引量：1
7王晶,高帅,郭亮,汪云.基于多尺度特征融合的U-Net网络高分影像不透水面提取研究[J].遥感技术与应用,2022,37(4):811-819. 被引量：6

自动化学报

2023年第1期

浏览历史

内容加载中请稍等...

基于多维度特征融合的云工作流任务执行时间预测方法被引量：3

参考文献8

二级参考文献56

共引文献98

同被引文献33

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多维度特征融合的云工作流任务执行时间预测方法 被引量：3

参考文献8

二级参考文献56

共引文献98

同被引文献33

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多维度特征融合的云工作流任务执行时间预测方法被引量：3