期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
多GPU系统非一致存储访问优化:研究进展与展望
1
作者 李晨 刘畅 +1 位作者 葛一漩 郭阳 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1783-1800,共18页
随着晶体管缩小速度的减缓,单GPU(Graphics Processing Units)的性能提升已经变得越来越具有挑战性,因此,多GPU系统成为了提高GPU系统性能的主要手段.然而,由于片外物理设计的制约,多GPU系统中处理器间的带宽不均衡导致了非一致存储访问... 随着晶体管缩小速度的减缓,单GPU(Graphics Processing Units)的性能提升已经变得越来越具有挑战性,因此,多GPU系统成为了提高GPU系统性能的主要手段.然而,由于片外物理设计的制约,多GPU系统中处理器间的带宽不均衡导致了非一致存储访问(Non-Uniform Memory Access,NUMA)问题,严重影响多GPU系统的性能.为了减少非一致存储访问所导致的性能损失,本文首先分析了非一致存储访问出现的原因,并对现有的非一致存储访问解决方案进行了对比.针对不同维度的非一致存储访问,本文从减少远程访问流量和提升远程访问性能两个方向出发,对非一致存储访问的优化方案进行了总结.最后,结合这些方案的优缺点,提出了未来多GPU系统非一致存储访问优化的发展方向. 展开更多
关键词 多gpu系统 非一致存储访问 gpu访存
下载PDF
多GPU系统的高速互联技术与拓扑发展现状研究 被引量:2
2
作者 崔晨 吴迪 +1 位作者 陶业荣 赵艳丽 《航空兵器》 CSCD 北大核心 2024年第1期23-31,共9页
多GPU系统通过横向扩展实现性能提升,以满足人工智能日趋复杂的算法和持续激增的数据所带来的不断增长的计算需求。对于多GPU系统而言,处理器间的互联带宽以及系统的拓扑是决定系统性能的关键因素。在传统的基于PCIe的多GPU系统中,PCIe... 多GPU系统通过横向扩展实现性能提升,以满足人工智能日趋复杂的算法和持续激增的数据所带来的不断增长的计算需求。对于多GPU系统而言,处理器间的互联带宽以及系统的拓扑是决定系统性能的关键因素。在传统的基于PCIe的多GPU系统中,PCIe带宽是限制系统性能的瓶颈。当前,面向GPU的高速互联技术成为解决多GPU系统带宽限制问题的有效方法。本文首先介绍了传统多GPU系统所采用的PCIe互联技术及其典型拓扑,然后以Nvidia NVLink、AMD Infinity Fabric Link、Intel X^(e) Link、壁仞科技BLink为例,对国内外代表性GPU厂商的面向GPU的高速互联技术及其拓扑进行了梳理分析,最后讨论了关于互联技术的研究启示。 展开更多
关键词 多gpu系统 高速互联技术 拓扑 互联带宽 数据中心
下载PDF
基于多GPU数值框架的流域地表径流过程数值模拟
3
作者 冯新政 张大伟 +1 位作者 徐海卿 鞠琴 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期48-55,共8页
与传统概念性水文模型相比,二维水动力模型可提供更丰富的流域地表水力要素信息,但是计算耗时太长的问题限制其推广应用,提升二维水动力模型的计算效率成为当前数字孪生流域建设工作中的关键技术难题之一。采用基于Godunov格式的有限体... 与传统概念性水文模型相比,二维水动力模型可提供更丰富的流域地表水力要素信息,但是计算耗时太长的问题限制其推广应用,提升二维水动力模型的计算效率成为当前数字孪生流域建设工作中的关键技术难题之一。采用基于Godunov格式的有限体积法离散完整二维浅水方程组建立模型,通过消息传递接口(message passing interface,MPI)与统一计算设备架构(compute unified device architecture,CUDA)相结合的技术实现了基于多图形处理器(graphics processing unit,GPU)的高性能加速计算,采用理想算例和真实流域算例验证模型具有较好的数值计算精度,其中,理想算例中洪峰的相对误差为0.011%,真实流域算例中洪峰的相对误差为2.98%。选取宝盖寺流域为研究对象,分析不同单元分辨率下模型的加速效果,结果表明:在5、2、1 m分辨率下,使用8张GPU卡计算获得的加速比分别为1.58、3.92、5.77,单元分辨率越高,即单元数越多,多GPU卡的加速效果越明显。基于多GPU的水动力模型加速潜力巨大,可为数字孪生流域建设提供有力技术支撑。 展开更多
关键词 水动力模型 地表径流 多gpu Godunov格式 加速比
下载PDF
面向大图子图匹配的多GPU编程模型 被引量:2
4
作者 李岑浩 崔鹏杰 +1 位作者 袁野 王国仁 《计算机科学与探索》 CSCD 北大核心 2023年第7期1576-1585,共10页
子图匹配是复杂网络中进行数据挖掘的重要手段。近年来,基于图形处理器(GPU)的子图匹配算法已展现明显的速度优势。然而,由于大图数据的规模宏大以及子图匹配的大量中间结果,单块GPU的内存容量很快成为了处理大图子图匹配算法的主要瓶... 子图匹配是复杂网络中进行数据挖掘的重要手段。近年来,基于图形处理器(GPU)的子图匹配算法已展现明显的速度优势。然而,由于大图数据的规模宏大以及子图匹配的大量中间结果,单块GPU的内存容量很快成为了处理大图子图匹配算法的主要瓶颈。因此,提出了一种面向大图子图匹配的多GPU编程模型。首先,提出了基于多GPU的子图匹配算法框架,实现了子图匹配算法在多GPU上的协同操作,解决了GPU大图子图匹配的图规模问题。其次,采用了一种基于查询图的动态调节技术来处理跨分区子图集,解决了图划分导致的跨分区子图匹配难题。最后,结合GPU单指令多线程(SIMT)架构特性,提出一种优先级调度策略保证GPU的内部负载均衡,并设计了共享内存的流水线机制优化多核并发的缓存争用。实验表明,多GPU编程模型能够在数十亿级别的数据集上得到正确的匹配结果,与最新的基于GPU的解决方案相比,该算法框架能够获得1.2~2.6倍的加速比。 展开更多
关键词 图分析 多gpu 大图子图匹配 优先级调度 并行编程模型
下载PDF
列车-轨道-地基土耦合系统三维随机振动的多GPU并行计算方法
5
作者 朱志辉 杨啸 +2 位作者 李昊 徐海坤 邹有 《Journal of Central South University》 SCIE EI CAS CSCD 2023年第5期1722-1736,共15页
针对列车-轨道-地基土耦合系统随机计算效率低的问题,本文提出了基于多GPU的列车-轨道-地基土随机振动方程的高效并行计算方法。基于OpenMP-CUDA混编技术将虚拟激励法不同频点下的多个线性方程组求解任务分配给多个GPU并行执行;在每块GP... 针对列车-轨道-地基土耦合系统随机计算效率低的问题,本文提出了基于多GPU的列车-轨道-地基土随机振动方程的高效并行计算方法。基于OpenMP-CUDA混编技术将虚拟激励法不同频点下的多个线性方程组求解任务分配给多个GPU并行执行;在每块GPU上,采用基于CUDA的预处理共轭梯度法(PCG)并行求解对称正定的等效静力平衡方程。针对耦合系统等效刚度矩阵的稀疏特性,采用行压缩(CSR)格式存储大型稀疏矩阵以节省内存空间。最终通过MATLAB-CUDA混合平台开发并行计算程序,解决了随机振动分析中多个线性方程组串行求解效率低的难题。数值算例表明,基于四GPU节点的多GPU并行算法和单GPU加速PCG算法的计算效率是串行多点同步算法(MPSA)计算效率的22.59倍和3.75倍。 展开更多
关键词 随机振动 并行计算 多gpu 三维有限元法 列车-轨道-地基土耦合模型
下载PDF
基于CUDA的多GPU加速SART迭代重建算法 被引量:7
6
作者 雷德川 陈浩 +3 位作者 王远 张成鑫 陈云斌 胡栋材 《强激光与粒子束》 EI CAS CSCD 北大核心 2013年第9期2418-2422,共5页
为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步... 为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步提高重建速度。 展开更多
关键词 计算机断层成像 统一计算机架构 SART 多gpu
下载PDF
多GPU协同三维叠前逆时偏移方法研究与应用 被引量:7
7
作者 唐祥功 匡斌 +4 位作者 杜继修 孟祥宾 隋志强 单联瑜 王华忠 《石油地球物理勘探》 EI CSCD 北大核心 2013年第6期910-914,1016+849,共5页
为满足精细勘探对地震成像的要求,野外地震采集单炮数据的规模持续增大,基于单GPU的逆时偏移策略不再满足需要。为此,本文在地震数据区域分解基础上,研究并形成了多GPU协同快速计算方法,实现了任意规模三维地震数据的叠前逆时偏移成像... 为满足精细勘探对地震成像的要求,野外地震采集单炮数据的规模持续增大,基于单GPU的逆时偏移策略不再满足需要。为此,本文在地震数据区域分解基础上,研究并形成了多GPU协同快速计算方法,实现了任意规模三维地震数据的叠前逆时偏移成像。数值试验表明,多块GPU卡协同叠前逆时偏移算法的整体效率较高,达到工业化应用的水平。对中国西部多块三维实际地震资料的处理表明,该方法不仅成像精度高,且计算效率也高。 展开更多
关键词 三维叠前逆时偏移 大规模单炮数据 数据区域分解 多gpu协同计算
下载PDF
简化混合域全波形反演多GPU加速策略 被引量:6
8
作者 桂生 刘洪 张玉洁 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2017年第2期665-677,共13页
全波形反演利用地震记录中的振幅、走时和相位等信息,通过拟合实际地震记录和计算波场来定量提取地下介质的弹性参数,进而为勘探地震成像、速度建模以及大尺度构造演化分析等提供可靠依据.但全波形反演计算量巨大,特别是应用于三维大区... 全波形反演利用地震记录中的振幅、走时和相位等信息,通过拟合实际地震记录和计算波场来定量提取地下介质的弹性参数,进而为勘探地震成像、速度建模以及大尺度构造演化分析等提供可靠依据.但全波形反演计算量巨大,特别是应用于三维大区块叠前数据时,生产成本仍然很高.本文介绍并比较了时间域和频率域的全波形反演方法,综合两者的优点,最终采用混合域的反演算法,并且在此基础上做了进一步的简化以提高计算效率.针对全波形反演方法应用于大规模叠前数据时易陷入局部极小值的问题,我们提出对模型数据进行分割,同时在数个小模型内进行梯度搜索,然后对比各个局域的梯度,最终找出合适的全局下降方向,以克服局部极小的隐患.该方法能够充分利用GPU的硬件特性.在GPU环境下实现本文所提出的简化混合域全波形反演算法.数值计算实例体现出新方法具有良好的计算效率、反演精度和算法可扩展性. 展开更多
关键词 全波形反演 混合域 三维模型 大规模 多gpu并行
下载PDF
基于多GPU的格子Boltzmann法对槽道湍流的直接数值模拟 被引量:3
9
作者 许丁 陈刚 +1 位作者 王娴 李跃明 《应用数学和力学》 CSCD 北大核心 2013年第9期956-964,共9页
采用多GPU并行的格子Boltzmann方法(lattice Boltzmann method,LBM)对充分发展的槽道湍流进行了直接数值模拟.GPU(graphic processing unit)的数据并行单指令多线程(single-instruction multiple-thread,SIMT)特征与LBM完美的并行性相匹... 采用多GPU并行的格子Boltzmann方法(lattice Boltzmann method,LBM)对充分发展的槽道湍流进行了直接数值模拟.GPU(graphic processing unit)的数据并行单指令多线程(single-instruction multiple-thread,SIMT)特征与LBM完美的并行性相匹配,使得LBM求解器在GPU上运行获得了极高的性能,亦使得大规模DNS(direct numerical simulation)在桌面级计算机上进行成为可能.采用8个GPU,网格数目达到6.7×107,全场网格尺寸Δ+=1.41.模拟3×106个时间步长,用时仅24 h.另外,直接模拟结果无论是在平均流速或湍流统计量上均与Moser等的结果吻合得很好,这也证实了二阶精度的格子Boltzmann法直接模拟湍流的能力与有效性. 展开更多
关键词 格子Boltzmann法 多gpu并行 槽道湍流 直接数值模拟(DNS)
下载PDF
CPU+多GPU异构协同计算的体系结构研究 被引量:3
10
作者 李龙飞 贺占庄 徐丹妮 《微电子学与计算机》 CSCD 北大核心 2014年第3期98-101,共4页
以CUDA架构为例,对传统的CPU+单GPU架构进行了分析,提出了一种CPU+多GPU异构协同计算的系统方案,对关键的CPU对多GPU的管理及多GPU间数据通信等问题做了重点讨论,从理论上进行了可行性分析,并提出了相应的优化方法.
关键词 图形处理器 统一计算设备架构 多gpu 异构协同计算
下载PDF
基于多GPU集群的编程框架 被引量:3
11
作者 王刚 唐杰 武港山 《计算机技术与发展》 2014年第1期9-13,共5页
现如今,GPU作为一种低功耗高性能图形处理器单元,被广泛应用于高度并行化的应用程序中。其线程和内存的层次结构在诸多成功的多线程应用和科学研究中表现出巨大的优势。为了简化多GPU集群的编程模式以及更好地利用GPU的计算性能,设计并... 现如今,GPU作为一种低功耗高性能图形处理器单元,被广泛应用于高度并行化的应用程序中。其线程和内存的层次结构在诸多成功的多线程应用和科学研究中表现出巨大的优势。为了简化多GPU集群的编程模式以及更好地利用GPU的计算性能,设计并实现了一个新的基于多GPU的MapReduce并行编程框架。使用了并行虚拟文件系统(PVFS)来存储数据,考虑了动态的负载平衡和GPU相关的权重要素以达到优化系统的效率、透明性以及系统的可伸缩性的目的。在文中,将演示使用该编程模式解决地质应用的一个典型的偏移应用-叠前时间偏移(PKTM),并给出实验结果。 展开更多
关键词 多gpu集群 MAPREDUCE 地震偏移 负载平衡
下载PDF
多核与多GPU系统下的一种矩阵三角分解并行算法 被引量:1
12
作者 吴荣腾 《闽江学院学报》 2016年第5期65-71,共7页
矩阵三角分解是一个在科学与工程计算中经常使用且计算量巨大的问题.为能充分利用多核与多GPU系统的计算资源,设计开发了并行异构系统的分块矩阵并行分解算法.该算法根据多核与多GPU的性能,对矩阵进行分块,确保并行粒度与负载平衡;应用... 矩阵三角分解是一个在科学与工程计算中经常使用且计算量巨大的问题.为能充分利用多核与多GPU系统的计算资源,设计开发了并行异构系统的分块矩阵并行分解算法.该算法根据多核与多GPU的性能,对矩阵进行分块,确保并行粒度与负载平衡;应用静态列块分配方法减少了通信开销并保持了代码的简洁性. 展开更多
关键词 多核 多gpu LU分解 CHOLESKY分解
下载PDF
基于异构多GPU的锥束CT图像重建研究
13
作者 丛鹏 王秉欣 《原子能科学技术》 EI CAS CSCD 北大核心 2013年第11期2161-2165,共5页
针对锥束CT图像重建系统中GPU型号不一致问题,提出了基于异构多GPU的重建模型。该模型基于FDK算法进行重建,采用了按计算能力进行任务分配的方法,确保各GPU计算平衡。采用数据流分解的方法,实现了海量数据的图像重建。给出了该重建模型... 针对锥束CT图像重建系统中GPU型号不一致问题,提出了基于异构多GPU的重建模型。该模型基于FDK算法进行重建,采用了按计算能力进行任务分配的方法,确保各GPU计算平衡。采用数据流分解的方法,实现了海量数据的图像重建。给出了该重建模型基于CUDA的实现方法,包括采用流管理和异步函数来实现多GPU并行计算以及滤波和反投影核函数的流程设计。利用高精度工业CT系统进行模型的实验验证。结果表明:所建立的重建模型正确有效,能充分发挥系统中异构多GPU的计算能力,执行效率高。 展开更多
关键词 异构多gpu 锥束CT 图像重建
下载PDF
基于虚拟化的多GPU深度神经网络训练框架 被引量:10
14
作者 杨志刚 吴俊敏 +1 位作者 徐恒 尹燕 《计算机工程》 CAS CSCD 北大核心 2018年第2期68-74,83,共8页
针对深度神经网络在分布式多机多GPU上的加速训练问题,提出一种基于虚拟化的远程多GPU调用的实现方法。利用远程GPU调用部署的分布式GPU集群改进传统一对一的虚拟化技术,同时改变深度神经网络在分布式多GPU训练过程中的参数交换的位置,... 针对深度神经网络在分布式多机多GPU上的加速训练问题,提出一种基于虚拟化的远程多GPU调用的实现方法。利用远程GPU调用部署的分布式GPU集群改进传统一对一的虚拟化技术,同时改变深度神经网络在分布式多GPU训练过程中的参数交换的位置,达到两者兼容的目的。该方法利用分布式环境中的远程GPU资源实现深度神经网络的加速训练,且达到单机多GPU和多机多GPU在CUDA编程模式上的统一。以手写数字识别为例,利用通用网络环境中深度神经网络的多机多GPU数据并行的训练进行实验,结果验证了该方法的有效性和可行性。 展开更多
关键词 虚拟化 深度神经网络 分布式 多机多gpu 数据并行 手写数字识别
下载PDF
量子线路模拟器QuEST在多GPU平台上的性能优化 被引量:1
15
作者 张亮 常旭 +1 位作者 秦志楷 沈立 《计算机工程与科学》 CSCD 北大核心 2021年第1期17-23,共7页
在当前量子计算的研究中,量子线路模拟器作为重要的研究工具,一直受到研究者们的高度重视。QuEST是一款开源的通用量子线路模拟器,能在单个CPU结点、多个CPU结点和单个GPU等多种测试平台上灵活运行。量子线路模拟固有的并行性使其非常... 在当前量子计算的研究中,量子线路模拟器作为重要的研究工具,一直受到研究者们的高度重视。QuEST是一款开源的通用量子线路模拟器,能在单个CPU结点、多个CPU结点和单个GPU等多种测试平台上灵活运行。量子线路模拟固有的并行性使其非常适合在GPU上运行,并能获得较大的性能加速。但是其缺点在于所消耗的内存空间巨大,单个GPU受显存容量限制,无法模拟具有更多量子位的量子系统。设计并实现了多GPU版本的QuEST模拟器,解决了单个GPU显存不足的问题,能够使用多个GPU模拟更多的量子位。而且,与单CPU版本相比可获得7~9倍的性能加速,与多CPU版本相比可获得3倍的性能加速。 展开更多
关键词 量子计算 量子线路模拟器 QUEST 多gpu 显存
下载PDF
多GPU异构模型实现放射治疗中卷积/积分算法的快速计算
16
作者 赖佳路 宋莹 +2 位作者 周莉 白雪 侯氢 《核技术》 CAS CSCD 北大核心 2021年第12期20-26,共7页
卷积/积分(Convolution/Superposition,CS)算法是精度仅次于蒙特卡罗(Monte Carlo,MC)的光子线剂量计算算法。该算法的计算速度远远快于蒙特卡罗算法,但仍不能完全满足临床放射治疗要求。借助单颗图形显卡GPU(Tesla C1060)对CS算法进行... 卷积/积分(Convolution/Superposition,CS)算法是精度仅次于蒙特卡罗(Monte Carlo,MC)的光子线剂量计算算法。该算法的计算速度远远快于蒙特卡罗算法,但仍不能完全满足临床放射治疗要求。借助单颗图形显卡GPU(Tesla C1060)对CS算法进行加速后,与传统的CPU串行计算相比,计算速度可以提高60倍,单野计算时间达到1 min左右,能适用于简单的三维适形计划(3DCRT),但无法满足调强放射治疗计划(Intensity Modulated Radiation Therapy,IMRT)的速度要求。本文通过设计"CPU+多GPU"异构模型加速方案,探讨使用不同GPU个数的加速情况。结果表明:CS算法加速倍数与GPU使用个数并非呈线性关系,通过合理选择GPU的使用数量和程序代码优化可达到相关计算的速度要求;基于中高端的Tesla C2015 GPU,采用"CPU+7个GPU"模型的CS算法,单野计算时间缩减到9 s,与单用CPU相比能提高207倍,可满足临床调强计划设计要求。 展开更多
关键词 卷积/积分算法 多gpu 剂量计算
原文传递
多GPU系统虚实地址转换架构研究
17
作者 魏金晖 李晨 鲁建壮 《计算机工程与科学》 CSCD 北大核心 2021年第2期228-234,共7页
近年来,随着大数据的发展,GPU应用的数据集规模急剧增加,这对GPU的处理能力提出了挑战。由于摩尔定律即将达到极限,提升单一GPU的性能变得越发困难,而多GPU系统通过提升GPU处理器级的并行性,成为应对该挑战的一种解决方案。GPU制造商对... 近年来,随着大数据的发展,GPU应用的数据集规模急剧增加,这对GPU的处理能力提出了挑战。由于摩尔定律即将达到极限,提升单一GPU的性能变得越发困难,而多GPU系统通过提升GPU处理器级的并行性,成为应对该挑战的一种解决方案。GPU制造商对内存虚拟化的支持进一步简化了多GPU系统的编程,提升了资源利用率。内存虚拟化需要地址转换的支持,而地址转换的开销对系统性能具有重要影响。研究了多GPU系统中2种常见的地址转换架构,即分布式地址转换架构和集中式地址转换架构,通过模拟实验对2种架构进行了深度分析和比较,在此基础上提出了优化地址转换设计的建议。 展开更多
关键词 多gpu系统 内存虚拟化 地址转换架构
下载PDF
基于Gadgetron平台的多GPU分布式磁共振图像重建 被引量:1
18
作者 徐嘉文 徐健 +2 位作者 周晓东 张聪 陈群 《波谱学杂志》 CAS CSCD 北大核心 2018年第3期303-317,共15页
为了满足磁共振成像(MRI)临床扫描的需求,磁共振图像重建算法的开发一直在不断进行.目前广泛使用的算法实现方式是利用中央处理器(CPU)对磁共振扫描数据进行数学变换得到图像,随着算法复杂度的提升,计算性能问题逐渐显露.利用CPU在大数... 为了满足磁共振成像(MRI)临床扫描的需求,磁共振图像重建算法的开发一直在不断进行.目前广泛使用的算法实现方式是利用中央处理器(CPU)对磁共振扫描数据进行数学变换得到图像,随着算法复杂度的提升,计算性能问题逐渐显露.利用CPU在大数据量下执行复杂算法时,计算并行性的缺失以及运算中产生的海量数据的存储负荷会导致计算变得极为缓慢,使得一些算法因为重建时间过长,在临床上面临难以推广的问题,也制约了基础研究中新算法的研发.本文设计并实现了一种新的重建算法执行方式,利用Gadgetron磁共振软件重建平台在多核CPU基础上搭载多块图形处理器(GPU),将磁共振图像重建以分布式并行计算方式实现,并以重建耗时较长的3D径向数据采集Stack of Star(SOS)的图像重建为实例,展示这种重建的实现方法能以相对低廉的硬件成本极大提升重建的速度. 展开更多
关键词 磁共振图像重建 Gadgetron 多gpu 分布式并行计算 3D磁共振成像
下载PDF
龙格库塔间断有限元方法求解二维欧拉方程的多GPU加速实现
19
作者 周星宇 刘铁钢 《流体动力学》 2018年第2期15-22,共8页
为解决龙格库塔间断有限元方法(RKDG)求解流场耗时的问题,本文应用二维NACA0012翼型作为测试算例,使用多GPU加速求解。将流程网格按照GPU个数进行剖分,每个GPU计算一个网格区域。各计算节点上设置核函数的线程数等于流场网格数,节点间... 为解决龙格库塔间断有限元方法(RKDG)求解流场耗时的问题,本文应用二维NACA0012翼型作为测试算例,使用多GPU加速求解。将流程网格按照GPU个数进行剖分,每个GPU计算一个网格区域。各计算节点上设置核函数的线程数等于流场网格数,节点间的数据通信使用MPI (Message Passing Interface)。通信过程中采用CUDA流和MPI非阻塞操作以覆盖数据的传输和计算,减少通信代价。结果表明,与CPU串行程序相比,1个、2个、4个GPU上分别获得了33倍、59倍和108倍的加速比。 展开更多
关键词 RKDG 多gpu MPI MULTI gpuS
下载PDF
多GPU并行技术在雷达信号处理中的应用 被引量:1
20
作者 栾厚斌 王玫 《电子技术与软件工程》 2018年第1期71-71,共1页
为了缩短雷达信号处理时间,开展了多GPU并行技术在雷达信号处理中的实验验证,结果表明,基于多GPU并行处理技术的雷达信号处理时间远小于基于CPU的处理时间,也明显小于单GPU的雷达信号处理方案。
关键词 多gpu 雷达信号 并行计算
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部