面向龙芯3B1500体系结构的DGEMM函数优化被引量：3

Optimization of DGEMM Function for Loongson3B1500 Architecture

下载PDF

导出

摘要双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现矩阵乘法的向量化运算,同时针对矩阵乘法中各矩阵的访存特点设计合理分块策略,并运用3B1500的cache锁机制将重复利用率高的分块锁在cache中以减少cache缺失,最后针对矩阵A和B的预取时间大于计算时间这一问题,设计了一种新的矩阵预取算法.该预取算法通过增大核心计算的计算量,将矩阵A和B的预取时间全部掩藏在计算中,并且通过ld指令与$0寄存器的配合使用来实现对C矩阵的预取.优化后的DGEMM函数无论在单线程和多线程时的性能都达到了理论峰值的80%以上. DGEMM function is the most important of Level3 functions in BLAS and completes the multiplication of two double-precision matrixes. In this paper,we optimize DGEMM on Loongson3B1500. Using the reserved physical memory and larger page,we can reduce probabilities which the memory page is swapped in and out of physical memory and TLB miss; Utilize Loongson two 128-bit instructions of vector fetching and vector multiplication to realize vector computing of matrix multiplication; Design reasonable partition strategy according to the characteristics of the memory access of each matrix in matrix multiplication,and let the high repeat block in to locked cache with the using of cache locking mechanism on Loongson3B1500 to reduce the cache missing; Design the new prefetching algorithm for the original prefetching time of matrix A and B is greater of its calculate time,by expanding the amount of core calculating to hide the pre-fetching time of A and B in computing time,and use ld instruction and register $ 0 to pre-fetch matrix C.About all,the optimized DGEMM function has get more than 80% of theoretical performance in both one thread and multi-threads.

作者刘刚张恒毛睿陆克中

机构地区深圳大学计算机与软件学院国家高性能计算中心深圳分中心

出处《小型微型计算机系统》 CSCD 北大核心 2014年第7期1523-1527,共5页 Journal of Chinese Computer Systems

基金国家"八六三"高技术研究发展计划项目(2012AA01A30904)资助广东省院士工作站建设项目(2012B090500020)资助

关键词龙芯3B1500处理器 BLAS DGEMM 矩阵乘法数据预取 Loongson3B1500 processor BLAS DGEMM matrix multiplication data prefetching

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1顾乃杰,李凯,陈国良,吴超.基于龙芯2F体系结构的BLAS库优化[J].中国科学技术大学学报,2008,38(7):854-859. 被引量：13
2何颂颂,顾乃杰,朱海涛,刘燕君.面向龙芯3A体系结构的BLAS库优化[J].小型微型计算机系统,2012,33(3):571-575. 被引量：8
3朱海涛,陈云霁,钱诚,王玲,胡伟武.基于向量扩展多核处理器的矩阵乘法算法优化研究[J].中国科学技术大学学报,2011,41(2):173-182. 被引量：4

二级参考文献27

1Vangal S R, Howard J, Ruhl G, et al. An 80-tile sub- 100-W teraFLOPS processor in 65-nm CMOS [J]. IEEE Journal of Solid-State Circuits, 2008, 43(1) : 29- 41.
2Kahle J A, Day M N, Hofstee H P, et al. Introduction to the cell multiprocessor[J]. IBM Journal of Research and Development, 2005, 49 (4/5) 589-604:.
3Kapasi U, Dally W J, Rixner S, et al. The imagine stream processor [C]// Proceedings of the 2002 International Confernce on Computer Design. Freiburg, Germany: IEEE Press, 2002: 282-288.
4Waingold E, Taylor M, Sarkar V, et al. Baring it all to software., raw maehines[J]. IEEE Computer, 1997, 30(9) : 86-93.
5Sankaralingam K, Nagarajan R, McDonald R, et al. Distributed microarchitectural protocols in the TRIPS prototype processor [C]// Proceedings of the 39th Annual IEEE/ACM International Symposium on Microarchitecture. Washington, USA: IEEE Computer Society, 2006: 480-491.
6Gunnels J A, Henry G M, van de Geijn R A. A family of high performance matrix multiplication algorithms [C]// Proceedings of the International Conference on Computational Science - Part I. London, UK: Springer, 2001: 51-60.
7Goto K. van de Geijn R A. On reducing TLB misses in matrix multiplication[R]. CS-TR-02-55, Department of Computer Scienees, The University of Texas at Austin, 2002.
8Goto K. van de Geijn R A. Anatomy of high- performance matrix multiplication [ J ]. ACM Transactions on Mathematical Software, 2008, 34(3): Article 12(1-25).
9Gunnels J, Lin C, Morrow G, et al. A flexible class of parallel matrix multiplication algorithms [C]// First Merged International Parallel Processing Symposium and Symposium on Parallel and Distributed Processing. Washington, USA: IEEE Computer Society, 1998, 12: 110-116.
10Marker B, van Zee F G, Goto K, et al. Toward sealable matrix multiply on multithreaded architectures [C]// Proceedings of the 13th International European Conference on Parallel and Distributed Computing. Rennes, France: ACM Press, 2007: 748-757.

共引文献19

1张俊霞,李春生,张焕杰.KD-50-I-E:一台增强型高性能计算机[J].中国科学技术大学学报,2009,39(8):894-896. 被引量：5
2李晖,李凯,吴俊敏,孙广中,陈国良.KD-50-I中的无盘启动技术、文件系统架构及BLAS库优化[J].小型微型计算机系统,2009,30(10):2085-2089.
3李毅,何颂颂,李恺.多核龙芯3A上二级BLAS库的优化[J].计算机系统应用,2011,20(1):163-167. 被引量：8
4陈国良,蔡晔,罗秋明.国产个人高性能计算机系统研制[J].深圳大学学报（理工版）,2011,28(6):471-477. 被引量：4
5陈强,何颂颂,王坤.龙芯3A上复数矩阵乘法的多线程优化[J].电子技术（上海）,2011,38(12):1-3. 被引量：1
6何颂颂,顾乃杰,朱海涛,刘燕君.面向龙芯3A体系结构的BLAS库优化[J].小型微型计算机系统,2012,33(3):571-575. 被引量：8
7张斌,顾乃杰,何颂颂,刘斌斌.基于龙芯3A的LAPACK函数优化[J].计算机系统应用,2012,21(11):63-67.
8蔡晔,刘刚,毛睿,罗秋明,陈国良.KD-90普及型个人高性能计算机系统设计与性能优化[J].深圳大学学报（理工版）,2013,30(2):138-143. 被引量：8
9刘斌斌,顾乃杰,任开新,张杰.LAPACK线性方程求解函数在龙芯3A上的并行化[J].小型微型计算机系统,2014,35(5):1085-1089. 被引量：1
10刘刚,张恒,张滇,毛睿.基于龙芯3B处理器的Linpack优化实现[J].深圳大学学报（理工版）,2014,31(3):286-292. 被引量：3

同被引文献7

1朱海涛,陈云霁,钱诚,王玲,胡伟武.基于向量扩展多核处理器的矩阵乘法算法优化研究[J].中国科学技术大学学报,2011,41(2):173-182. 被引量：4
2高伟,赵荣彩,韩林,庞建民,丁锐.SIMD自动向量化编译优化概述[J].软件学报,2015,26(6):1265-1284. 被引量：30
3沈俊忠,肖涛,乔寓然,杨乾明,文梅.一种支持优化分块策略的矩阵乘加速器设计[J].计算机工程与科学,2016,38(9):1748-1754. 被引量：4
4龙卓群,王晓瑜,王昌明.基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算[J].自动化与仪表,2017,32(7):16-21. 被引量：3
5杨飞,马昱春,侯金,徐宁.基于MPSoC并行调度的矩阵乘法加速算法研究[J].计算机科学,2017,44(8):36-41. 被引量：4
6赵捷,李颖颖,赵荣彩.基于多面体模型的编译“黑魔法”[J].软件学报,2018,29(8):2371-2396. 被引量：12
7刘仲,田希.面向多核向量处理器的矩阵乘法向量化方法[J].计算机学报,2018,41(10):2251-2264. 被引量：9

引证文献3

1刘余福,郎文辉,贾光帅.HXDSP平台上矩阵乘法的实现与性能分析[J].计算机工程,2019,45(4):25-29. 被引量：4
2段苓丽,郎文辉,刘余福,贾光帅.HXDSP上IDCT变换的数据压缩式向量化设计及实现[J].合肥工业大学学报（自然科学版）,2020,43(4):474-479. 被引量：4
3王博漾,庞建民,徐金龙,赵捷,陶小涵,朱雨.基于多面体模型的矩阵乘法向量代码生成[J].计算机科学,2022,49(10):44-51. 被引量：2

二级引证文献9

1叶鸿,顾乃杰,林传文,张孝慈,陈瑞.一种基于HXDSP的移位器查找表技术[J].北京航空航天大学学报,2019,45(10):2044-2050. 被引量：1
2张露维,顾荣斌,李静,李科心.FSD:增量压缩中局部特征表决的快速相似性检测[J].小型微型计算机系统,2021,42(5):977-983. 被引量：1
3赵泊宁.通信网络数据自适应快速压缩算法[J].长江信息通信,2023,36(2):54-56.
4蔺丽华,张美春,王佳仪,李敏,门浩.基于BWDSP1042的复数矩阵向量乘的优化与实现[J].计算机应用与软件,2023,40(3):298-301.
5李国帆.云软件生命周期模型选择方法研究与启示[J].科技创新与生产力,2023(3):18-23.
6吴海燕.一种解决魂芯HX1041并口与限制区域数据传输的方法[J].单片机与嵌入式系统应用,2023,23(8):57-58.
7李宪广.基于空间频率分析的激光全息三维建筑构建模型[J].激光杂志,2023,44(8):236-242. 被引量：1
8别红玲,周波.障碍物环境下机械臂避障轨迹检测研究[J].机械设计与制造工程,2023,52(11):43-48.
9张翠翠,卢锐轩,孙佳丽,洪德华.基于时间窗口聚类的电力时序数据压缩研究[J].电子设计工程,2024,32(14):91-94.

1吴琳,王建生.基于访问数据模式的Cache缺失预测模型[J].航空计算技术,2015,45(1):121-126.
2梁娟娟,任开新,郭利财,刘燕君.GPU上的矩阵乘法的设计与实现[J].计算机系统应用,2011,20(1):178-181. 被引量：7
3黄海峰.Sun扩大高性能计算领先优势[J].通信世界,2009(44).
4ViVi,陈晓珊.“真芯可鉴四核无双” K10处理器全球首发[J].数码先锋,2007,0(10):59-59.
5敖琪,蔡嵩松,王剑.基于硬件cache锁机制的Java虚拟机即时编译器优化[J].计算机研究与发展,2012,49(S1):185-190. 被引量：3
6李鹏飞.基于模块化的嵌入式软件设计研究[J].电子世界,2013(11):120-121. 被引量：1
7李海舟.计算机房安全防范措施综观[J].电脑知识与技术（过刊）,2013,19(2X):1004-1005.
8汪维华,汪维清,李灵.基于XML的Web模型研究[J].重庆文理学院学报（自然科学版）,2006,5(4):16-19. 被引量：2
9曹靓姝,王志龙,李得天,张建勇.基于数据库管理的数据采集系统的设计与实现[J].计算机技术与发展,2014,24(4):162-165. 被引量：5
10朱静.Pro／E中钣金件主要壁生成方法及应用[J].现代电子工程,2007(4):78-79.

小型微型计算机系统

2014年第7期

浏览历史

内容加载中请稍等...

面向龙芯3B1500体系结构的DGEMM函数优化被引量：3

参考文献3

二级参考文献27

共引文献19

同被引文献7

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

面向龙芯3B1500体系结构的DGEMM函数优化 被引量：3

参考文献3

二级参考文献27

共引文献19

同被引文献7

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

面向龙芯3B1500体系结构的DGEMM函数优化被引量：3