基于GPU的混合精度平方根共轭梯度算法被引量：6

Mixed precision CGS algorithm based on GPU

下载PDF

导出

摘要针对当前基于GPU的数值算法具有双精度数据性能低下的缺陷。提出了一种适于GPU统一计算架构Fermi-CUDA的混合精度平方根共轭梯度算法用以求解稀疏线性方程组。该算法采用单精度内迭代与双精度外迭代结合的方法,以充分利用GPU体系结构下单精度高性能和双精度高精度的优点。整个算法的计算部分完全在GPU端进行,减少了CPU和GPU之间的数据通信。实现了基于GPU的平方根共轭梯度法、Jacobi迭代法和Gauss-Seidel迭代法,分析它们作为内迭代算子对算法收敛性的影响。实验表明,该算法获得了与全双精度数据处理等同的计算精度,比GPU全双精度在浮点性能上提升近一倍,相对于CPU全双精度串行算法,最大加速比达到70以上。 GPU-based numerical algorithms have the shortcoming of low performance for double precision. We suggest a mixed precision conjugate gradient squared algorithm suitable for the GPU of Fermi-CUDA to solve sparse linear equations. The scheme uses a combination of single-precision inner iteration and double-precision outer iteration to take the advantages of efficient single-precision operation and accurate double-precision operation under the GPU structure. The calculation of the algorithm is implemented entirely on the GPU, which reduces the data transfer between CPU and GPU. Conjugate gradient squared algorithm, Jacobi iteration method and Gauss-Seidel iteration method based on GPU are implemented; and as inner iteration operators, their influence on the convergence of the whole process is analyzed. Experiments indicate that the mixed precision scheme maintains the native double-precision accuracy of data processing. At the same time, the floating point accuracy is improved by a factor of 2 compared with that using double-precision alone, and the maximum speedup ratio reaches to more than 70.

作者李熙铭欧阳丹彤白洪涛

机构地区吉林大学计算机科学与技术学院吉林大学符号计算与知识工程教育部重点实验室吉林大学公共计算机教学与研究中心吉林大学地球探测科学与技术学院

出处《仪器仪表学报》 EI CAS CSCD 北大核心 2012年第1期97-104,共8页 Chinese Journal of Scientific Instrument

基金国家自然科学基金(60973089 60873148 60773097 61003101) 吉林省科技发展计划项目基金(201101039 20101501 20100185 20090108 20080107) 欧盟合作项目(155776-EM-1-2009-1-IT-ERAMUNDUS-ECW-L12) 国家教育部博士点专项基金(20100061110031) 吉林大学符号计算与知识工程教育部重点实验室开放项目(93K-17-2011-K01 93K-17-2009-K05) 吉林大学科学前沿与交叉学科创新项目(201103134)资助

关键词线性方程组平方根共轭梯度算法内外迭代子混合精度图形处理器 linear equations CGS algorithm inner and outer iteration mixed precision graphics processing unit

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献18

1SONNEVELD P. CGS, a fast Lanczos-type solver for nonsymmetric linear systems [ J ]. Sci. Stat Comput. , 1989,10 : 36-52.
2YOUSEF S. Iterative methods for sparse linear systems [M]. Boston: PWS, 1996.
3蔡大用,陈玉荣.用不完全LU分解预处理的不精确潮流计算方法[J].电力系统自动化,2002,26(8):11-14. 被引量：32
4李晓梅,吴建平.Krylov子空间方法及其并行计算[J].计算机科学,2005,32(1):19-20. 被引量：20
5黄海宏,赵哲源,何晋.具备主动维护功能的分布式电池管理系统的研究[J].电子测量与仪器学报,2010,24(3):283-288. 被引量：10
6王刚,乔纯捷,王跃科.基于时钟同步的分布式实时系统监控[J].电子测量与仪器学报,2010,24(3):274-278. 被引量：27
7LIU W G, SCHMIDT B, VOSS G, et al. Molecular dy- namics simulations on commodity GPUs with CUDA[ C]. Lecture Notes in Computer Science, High Performance Computing-HIiPC, 2007.
8BELLEMAN R, BEDORF J, PORTEGIES-ZWART S F. High performance direct gravitational N-body simulations on graphics processing units II: An implementation in CUDA[J]. New Astronomy, 2008,13(2) :103-112.
9ANDERSON J, LORENZ C D, TRAVESSET A. General purpose molecular dynamics simulations fully implemen- ted on graphics processing units[J]. Journal of computa- tional physics, 2008,227 (10) :5342-5359.
10陈孝良,程晓斌,叶青华,李晓东.基于GPU的多通道倍频程并行算法研究[J].仪器仪表学报,2010,31(7):1674-1680. 被引量：12

二级参考文献126

1吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
2刘君强,孙晓莹,王勋,潘云鹤.挖掘最大频繁模式的新方法[J].计算机学报,2004,27(10):1328-1334. 被引量：15
3吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
4黄国华,施玉川,杨宏.光伏电站免维护蓄电池的维护分析[J].太阳能学报,2004,25(6):785-788. 被引量：11
5黄海宏,王海欣.开关电源在电力系统的应用[J].电力建设,2005,26(1):14-16. 被引量：7
6李鹏,郑喜凤,丁铁夫.TMS320C6000系列DSPs外接FLASH引导方式的实现[J].长春理工大学学报（自然科学版）,2004,27(4):52-54. 被引量：5
7汪卫,周皓峰,袁晴晴,楼宇波,施伯乐.基于图论的频繁模式挖掘[J].计算机研究与发展,2005,42(2):230-235. 被引量：17
8黄云水,冯玉光.IEEE1588精密时钟同步分析[J].国外电子测量技术,2005,24(9):9-12. 被引量：48
9陈慧玲.延长独立光伏电站蓄电池使用寿命的措施探讨[J].蓄电池,2005,42(3):106-107. 被引量：4
10刘树彬,郭建华,张艳丽,赵龙,安琪.高精度数据驱动型TDC在高能物理实验中应用的研究[J].核技术,2006,29(1):72-76. 被引量：12

共引文献238

1欧阳敏,刘守伟,隋波.OBN采集数据双基准面波动方程偏移研究[J].石油地球物理勘探,2022,57(S01):83-88.
2吴涵,廉西猛,孙成禹,芮拥军,蔡瑞乾,邓小凡.叠前深度偏移地震记录直接模拟方法[J].石油地球物理勘探,2020(4):747-753. 被引量：3
3郑浩,赵晋泉,门锟,尹建华,洪潮.基于自适应预处理的改进CPF-GMRES算法[J].电网与清洁能源,2015,31(2):28-32.
4Wu Ruichan Wei Jianing.Preconditioned method in parallel computation[J].Journal of Systems Engineering and Electronics,2006,17(1):220-222.
5李晓梅,吴建平.稀疏线性方程组不完全分解预条件方法[J].计算机工程与科学,2006,28(8):59-62. 被引量：7
6漆志鹏,江慎铭.Krylov子空间算法研究[J].南昌航空工业学院学报,2006,20(2):1-4.
7胡博,周家启,刘洋,陈炜骏.基于预条件处理GMRES的不精确牛顿法潮流计算[J].电工技术学报,2007,22(2):98-104. 被引量：16
8林济铿,仝新宇,李杨春,郑卫洪.基于预处理共轭梯度法的电力系统机电暂态仿真[J].电工技术学报,2008,23(5):93-99. 被引量：2
9丁明,张晋波,汪兴强.提高预处理共轭梯度法计算大型电网潮流时并行性能的方法[J].电网技术,2008,32(13):15-19. 被引量：13
10汪芳宗,何一帆,叶婧.基于稀疏近似逆预处理的牛顿-广义极小残余潮流计算方法[J].电网技术,2008,32(14):50-53. 被引量：14

同被引文献51

1金巍巍,陶文铨,何雅玲.代数方程求解方法收敛速度比较及对算法健壮性的影响[J].西安交通大学学报,2005,39(9):966-970. 被引量：6
2张恩泽,彭树生,何小祥,陈如山.超松弛迭代-双共轭梯度在三维电磁问题有限元分析中的应用[J].淮阴师范学院学报（自然科学版）,2005,4(4):292-295. 被引量：4
3蒋长锦.科学计算与C程序集[M].中国水利水电出版社,2010.
4COOTES T,TAYLOR C, COOPER D. et al. Active shape models-Their training and application [ J ]. Computation Vision Image Understanding, 1995,61:35-59.
5BRECHBULER C, GERIG G, KUBLER O. Parameterization of closed surfaces for 3-D shape description [ J ]. Computation Vision Image Understanding, 1995,61:154-170.
6YU P, GRANT P E, QI Y, et al. Cortical surface shape analysis based on spherical wavelets [ J ]. IEEE Transaction on Medical Imaging,2007,26:582-97.
7NAIN D, HAKER S, BOBICK A, et al. Muhiscale 3-D shape representation and segmentation using spherical wavelets [ J ]. IEEE Transaction on Medical Imaging, 2007.26:598-618.
8YU P, YEO B T T, GRANT P E, et al. Cortical folding development study based on over-complete spherical wavelets [ C ]. In Proceedings of the Workshop on Mathematical Methods in Biomedical Image Analysis, International Conference on Computer Vision,2007.
9YEO B T T, OU W Q, GOLLAND P. On the construction of invertible filter banks on the 2-Sphere[ J]. IEEE Transaction on Image Processing,2008,17 ( 3 ) :283- 300.
10YEO B T T, YU P, GRATF P E, et al. Shape analysis with overcomplete spherical wavelet[ C ]. In Proceedings of the International Conference on Medical Image Computing and computer Assisted Intervention (MICCI) ,2008.

引证文献6

1连远锋,赵琰,何晖光,吴发林.基于GPU加速的并行脑皮层重建算法研究[J].仪器仪表学报,2013,34(4):866-872. 被引量：5
2连远锋,赵剡,何晖光.自适应耦合变分模型及其GPU实现[J].仪器仪表学报,2013,34(11):2520-2525. 被引量：1
3周正,孙丽萍,姜滨.基于控制体积有限元方法的木材干燥过程含水率分布模型[J].东北林业大学学报,2014,42(4):124-126. 被引量：1
4彭土有.基于GPU-CUDA的共轭斜量法实现及性能对比[J].计算机时代,2014(4):4-6. 被引量：1
5吴素芹,於建华,李先锋.改进的混合共轭梯度法求解无约束优化算法[J].计算机工程与设计,2017,38(8):2155-2160. 被引量：2
6刘强,李佳峻.基于GPU的并行拟牛顿神经网络训练算法设计[J].河海大学学报（自然科学版）,2018,46(5):458-463.

二级引证文献10

1孙辉,张建华,韩松伟,宋玉龙.基于正交小波变换的海面目标快速检测[J].仪器仪表学报,2015,36(S01):68-72. 被引量：1
2丁大虎.异或逻辑GPU算法的性能分析与优化[J].电子测量技术,2014,37(3):47-50.
3汤媛媛,周海芳,方民权,申小龙.基于GPU的高光谱遥感影像数据处理[J].信息安全与技术,2015,6(4):46-51. 被引量：4
4王睿,陈春晓,刘高,阚星星.基于自适应包围盒划分的体绘制加速方法研究[J].仪器仪表学报,2014,35(11):2560-2566. 被引量：5
5许晓臣,董明利,王君,孙鹏,燕必希.基于CUDA的动态视觉测量像面特征点中心快速定位算法[J].计算机工程与科学,2014,36(12):2378-2385. 被引量：5
6董明利,许晓臣,王君,孙鹏,燕必希.大尺寸动态视觉测量系统的并行加速[J].光学精密工程,2015,23(10):2909-2918. 被引量：3
7单乳霞,秦斌,王欣.基于有限差分的回转干燥窑模型仿真研究[J].电工技术,2019,0(10):152-154.
8谷国太,肖汉.求解线性方程组的GPU并行算法[J].河南水利与南水北调,2019,48(10):70-72. 被引量：1
9高前明.一种充分下降的共轭梯度法及其收敛性[J].淮阴师范学院学报（自然科学版）,2021,20(3):212-216.
10余赈,马建芬.基于共轭梯度法改进的正交匹配追踪语音增强算法[J].武汉理工大学学报,2021,43(8):97-104.

1王平,任荣,付蔚,谭刚.基于Hibernate数据性能优化方法的研究[J].广东通信技术,2013,33(8):61-66.
2夏芳,陈虹,曹立强,沈卫超.利用位图索引加速大规模科学数据按需访问[J].计算机研究与发展,2011,48(S1):94-99. 被引量：4
3陈剑,龚发根.一种优化分布式文件系统的文件合并策略[J].计算机应用,2011,31(A02):161-163. 被引量：6
4贾迅,胡向东,尹飞.申威处理器硬件数据预取技术的实现[J].计算机工程与科学,2015,37(11):2013-2017. 被引量：6
5firefox.告别3D游戏:显卡迈向通用计算[J].个人电脑,2007,13(6):169-173.
6杜衡吉,徐昆良.Jacobi和Gauss-Seidel迭代法求解线性方程组的分析及应用[J].曲靖师范学院学报,2011,30(3):46-50. 被引量：4
7吴玫华.在GPU上实现Jacobi迭代法的分析与设计[J].电子设计工程,2012,20(10):28-30. 被引量：1
8蓝鹏,张贵仓.基于Bézier混合的数字图像隐藏[J].计算机安全,2011(3):36-38.
9董蕾,黄方,卜栓栓,冯杰,周纪.基于CUDA的压缩感知重构算法并行化研究[J].信息技术,2016,40(4):32-36. 被引量：1
10李杏梅,陈亮,杨敏.结合空间约束的贝叶斯模型遥感图像谱解混合[J].电子技术（上海）,2016,43(11):66-69.

仪器仪表学报

2012年第1期

浏览历史

内容加载中请稍等...

基于GPU的混合精度平方根共轭梯度算法被引量：6

参考文献18

二级参考文献126

共引文献238

同被引文献51

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于GPU的混合精度平方根共轭梯度算法 被引量：6

参考文献18

二级参考文献126

共引文献238

同被引文献51

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于GPU的混合精度平方根共轭梯度算法被引量：6