高效训练百万亿参数预训练模型的系统挑战和对策被引量：5

Challenges and Measures for Efficient Training of Trillion-Parameter Pre-Trained Models

下载PDF

导出

摘要随着预训练模型规模的急剧增长,训练此类模型需要海量的计算和存储能力。为此,本工作在新一代国产高性能计算机上训练了一个174万亿参数的超大规模预训练模型,模型参数量可与人脑中的突触数量相媲美。重点讨论在训练这一超大规模预训练模型中遇到的几个关键系统挑战:如何选取高效并行策略,如何进行高效数据存储,如何选取合适的数据精度,以及如何实现动态负载均衡,并总结了针对上述挑战的一些解决方法。 As the size of pre-trained artificial intelligence models grows dramatically each year,training such models requires massive com⁃puting and memory capabilities.To this end,an unprecedentedly large-scale pre-trained model with 174 trillion parameters on an entire su⁃percomputer is proposed,which rivals the number of synapses in a human brain.The key challenges encountered in such large-scale model training,including deciding efficient parallel strategy,performing efficient data storage,deciding appropriate data precision,and dy⁃namic load balancing are proposed.Then the solutions to the above challenges are summarized.

作者马子轩翟季冬韩文弢陈文光郑纬民 MA Zixuan;ZHAI Jidong;HAN Wentao;CHEN Wenguang;ZHENG Weimin(Tsinghua University,Beijing 100083,China)

机构地区清华大学计算机科学与技术系清华大学计算机系

出处《中兴通讯技术》 2022年第2期51-58,共8页 ZTE Technology Journal

关键词人工智能超级计算机混合专家异构系统 artificial intelligence supercomputer mixture of experts heterogeneous architecture

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP338.4 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1Haohuan FU,Junfeng LIAO,Jinzhe YANG,Lanning WANG,Zhenya SONG,Xiaomeng HUANG,Chao YANG,Wei XUE,Fangfang LIU,Fangli QIAO,Wei ZHAO,Xunqiang YIN,Chaofeng HOU,Chenglong ZHANG,Wei GE,Jian ZHANG,Yangang WANG,Chunbo ZHOU,Guangwen YANG.The Sunway TaihuLight supercomputer： system and applications[J].Science China(Information Sciences),2016,59(7):109-124. 被引量：62

二级参考文献2

1Xiangke LIAO,Liquan XIAO,Canqun YANG,Yutong LU.MilkyWay-2 supercomputer： system and application[J].Frontiers of Computer Science,2014,8(3):345-356. 被引量：34
2郑方,李宏亮,吕晖,过锋,许晓红,谢向辉.Cooperative Computing Techniques for a Deeply Fused and Heterogeneous Many-Core Processor Architecture[J].Journal of Computer Science & Technology,2015,30(1):145-162. 被引量：13

共引文献61

1仇宾,孙曼曼,崔素丽.基于剪枝优化的多变邻域节能调度算法[J].应用科学学报,2022,40(2):349-360. 被引量：1
2秦昆,周扬,黄静,刘娟,喻雪松,高牧寒,刘东海,高谢庆.地球系统模式理论与技术研究综述[J].华南地理学报,2023(1):36-50.
3侯超峰,高国贤,徐骥.纳米材料制备及物性测量的虚拟过程工程初探[J].计算机与应用化学,2016,33(9):1003-1007. 被引量：2
4赵美婷,刘轶,刘锐,宋凯达,钱德沛.基于申威众核处理器的HOG特征提取算法并行加速[J].计算机工程与科学,2017,39(4):611-618. 被引量：5
5许汉君,刘林龙,杨海涛,缪雪龙.燃烧室几何CFD自动优化程序开发[J].现代车用动力,2017(2):1-4.
6张毅,何卫锋.基于Fat-tree的高性能互联网络性能优化与分析[J].微电子学与计算机,2018,35(8):36-41. 被引量：1
7傅游,王坦,郭强,高希然.“神威·太湖之光”上Tend_lin并行优化[J].山东科技大学学报（自然科学版）,2019,38(2):90-99. 被引量：3
8魏敏,王彬,何香,孙俊,姜小成,肖洒,张莉,徐金秀.BCCAGCM模式在神威·太湖之光系统的优化[J].应用气象学报,2019,30(4):502-512. 被引量：4
9张淼,周宇,陈建海,何钦铭,徐顺,宫明.LQCD Dslash在神威·太湖之光上的研究分析与MPI实现[J].计算机科学与探索,2019,13(10):1664-1676. 被引量：3
10何晓斌,蒋金虎.面向大数据异构系统的神威并行存储系统[J].大数据,2020,6(4):30-39. 被引量：2

同被引文献29

1杨智明,乔立岩,彭喜元.基于改进SMOTE的不平衡数据挖掘方法研究[J].电子学报,2007,35(B12):22-26. 被引量：31
2曾志强,吴群,廖备水,高济.一种基于核SMOTE的非平衡数据集分类方法[J].电子学报,2009,37(11):2489-2495. 被引量：49
3邢长征,赵全颖,王星,王伟.基于鲁棒高斯混合模型的加速EM算法研究[J].计算机应用研究,2017,34(4):1042-1046. 被引量：7
4史天运,刘军,李平,马小宁.铁路大数据平台总体方案及关键技术研究[J].铁路计算机应用,2016,25(9):1-6. 被引量：127
5黄哲学,何玉林,魏丞昊,张晓亮.大数据随机样本划分模型及相关分析计算技术[J].数据采集与处理,2019,34(3):373-385. 被引量：16
6张晓栋,马小宁,李平,武威.人工智能在我国铁路的应用与发展研究[J].中国铁路,2019(11):32-38. 被引量：18
7Fenghua Li,Hui Li,Ben Niu,Jinjun Chen.Privacy Computing: Concept, Computing Framework, and Future Development Trends[J].Engineering,2019,5(6):1179-1192. 被引量：25
8Howard H.YANG,ZHAO Zhongyuan,Tony Q.S.QUEK.Enabling Intelligence at Network Edge: An Overview of Federated Learning[J].ZTE Communications,2020,18(2):2-10. 被引量：4
9SHI Wenqi,SUN Yuxuan,HUANG Xiufeng,ZHOU Sheng,NIU Zhisheng.Scheduling Policies for Federated Learning in Wireless Networks: An Overview[J].ZTE Communications,2020,18(2):11-19. 被引量：2
10YANG Kai,ZHOU Yong,YANG Zhanpeng,SHI Yuanming.Communication-Efficient Edge AI Inference over Wireless Networks[J].ZTE Communications,2020,18(2):31-39. 被引量：2

引证文献5

1韩炳涛,刘涛,唐波.深度学习的10年回顾与展望[J].中兴通讯技术,2022,28(6):75-84. 被引量：2
2史天运,侯博,李国华,代明睿,杨涛存.铁路人工智能平台设计及关键技术研究[J].铁路计算机应用,2023,32(8):9-16. 被引量：3
3何玉林,陈佳琪,徐贺鹏,黄哲学,尹剑飞.基于数据生成模型的仿真样本点插补方法[J].系统仿真学报,2023,35(9):1948-1964.
4朱炫鹏,姚海东,刘隽,熊先奎.大语言模型算法演进综述[J].中兴通讯技术,2024,30(2):9-20. 被引量：1
5孙祥,程远.云智一体算力中心运营服务研究[J].IT经理世界,2024(7):24-26.

二级引证文献6

1刘新阳,晁沛荫,李婷宇.集成电路产业技术发展趋势探讨[J].中兴通讯技术,2023,29(6):66-70. 被引量：2
2李子林,刘庆猛,李雪山.基于Transformer模型的轨道交通机器翻译系统设计[J].铁路计算机应用,2024,33(4):54-58.
3田海东,张明政,常锐,童贤慧.大模型训练技术综述[J].中兴通讯技术,2024,30(2):21-28. 被引量：2
4栾昊立,王晓东,杨锐,郝建宇,赵铭浩,尹祖新,王丽琼.AI智算发展对高速光模块的应用需求研究[J].邮电设计技术,2024(6):7-11.
5史天运,侯博,李国华,代明睿.基于改进DINO的铁路接触网异物检测方法[J].中国铁道科学,2024,45(4):158-167.
6史天运,李新琴,代明睿,史维峰,李国华,杜文然.铁路自然语言大模型关键技术研究及应用展望[J].中国铁路,2024(7):7-14.

1南箕.理想的飞行汽车[J].问天少年,2022(5):24-27.
2张建勋,卞宏志,黄明祥,洪谊东,林垒城,张少乾.500kV GIS盆式绝缘子沿面微小颗粒放电研究[J].科技通报,2022,38(3):31-36.
3《计算物理》征稿简则[J].计算物理,2022,39(1).
4梁建英.制药企业物料管理要点探讨[J].大众标准化,2022(3):19-21. 被引量：1
5程厚之,张丽凤,梁祚仁,廖素婵,李艳丽,黄俊杰.五味子乙素对慢性铝中毒大鼠海马突触超微结构的影响[J].中国临床药理学杂志,2022,38(7):648-651. 被引量：3
6窦子铮,姚铮,陆明泉.无线电区域定位系统的分布式空间基准自主建立技术[J].电子学报,2022,50(4):841-848.

中兴通讯技术

2022年第2期

浏览历史

内容加载中请稍等...

高效训练百万亿参数预训练模型的系统挑战和对策被引量：5

参考文献1

二级参考文献2

共引文献61

同被引文献29

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

高效训练百万亿参数预训练模型的系统挑战和对策 被引量：5

参考文献1

二级参考文献2

共引文献61

同被引文献29

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

高效训练百万亿参数预训练模型的系统挑战和对策被引量：5