期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
Programming for scientific computing on peta-scale heterogeneous parallel systems 被引量:1
1
作者 杨灿群 吴强 +2 位作者 唐滔 王锋 薛京灵 《Journal of Central South University》 SCIE EI CAS 2013年第5期1189-1203,共15页
Peta-scale high-perfomlance computing systems are increasingly built with heterogeneous CPU and GPU nodes to achieve higher power efficiency and computation throughput. While providing unprecedented capabilities to co... Peta-scale high-perfomlance computing systems are increasingly built with heterogeneous CPU and GPU nodes to achieve higher power efficiency and computation throughput. While providing unprecedented capabilities to conduct computational experiments of historic significance, these systems are presently difficult to program. The users, who are domain experts rather than computer experts, prefer to use programming models closer to their domains (e.g., physics and biology) rather than MPI and OpenME This has led the development of domain-specific programming that provides domain-specific programming interfaces but abstracts away some performance-critical architecture details. Based on experience in designing large-scale computing systems, a hybrid programming framework for scientific computing on heterogeneous architectures is proposed in this work. Its design philosophy is to provide a collaborative mechanism for domain experts and computer experts so that both domain-specific knowledge and performance-critical architecture details can be adequately exploited. Two real-world scientific applications have been evaluated on TH-IA, a peta-scale CPU-GPU heterogeneous system that is currently the 5th fastest supercomputer in the world. The experimental results show that the proposed framework is well suited for developing large-scale scientific computing applications on peta-scale heterogeneous CPU/GPU systems. 展开更多
关键词 heterogeneous parallel system programming framework scientific computing gpu computing molecular dynamic
下载PDF
面向GPU异构并行系统的多任务流编程模型 被引量:11
2
作者 董小社 刘超 +2 位作者 王恩东 刘袁 张兴军 《计算机学报》 EI CSCD 北大核心 2014年第7期1638-1646,共9页
传统并行编程模型和框架不能有效利用和发挥GPU异构并行系统特点,应用开发难度大,性能优化困难,文中采用混合编程模型思想,建立了一种以协处理器为中心的GPU计算核心与CPU控制相融合的多任务流编程模型.模型将并行任务与CUDA流相结合,... 传统并行编程模型和框架不能有效利用和发挥GPU异构并行系统特点,应用开发难度大,性能优化困难,文中采用混合编程模型思想,建立了一种以协处理器为中心的GPU计算核心与CPU控制相融合的多任务流编程模型.模型将并行任务与CUDA流相结合,利用系统硬件并行性特点实现程序任务级和数据级并行;采用任务间消息通信和任务内数据共享通信方式,既保证对传统并行应用的继承又降低了不同存储空间给应用开发带来的复杂性和难度.基于该编程模型实现了一个运行时支持系统原型,测试结果表明可保证高效的数据通信,且能充分利用系统计算能力,提高了应用程序运行效率. 展开更多
关键词 gpu 异构并行 编程模型
下载PDF
面向国产异构众核系统的Parallel C语言设计与实现 被引量:10
3
作者 何王全 刘勇 +2 位作者 方燕飞 魏迪 漆锋滨 《软件学报》 EI CSCD 北大核心 2017年第4期764-785,共22页
异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、... 异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、提升并行程序的性能都具有重要的意义.提出统一架构的多模式并行编程模型,包括异构融合的加速运算模型和按同构方式编程的自主运算模型,根据编程模型设计了Parallel C语言,能够有效地描述国产众核系统的异构并行性.与其他众核系统上MPI+X的使用模式相比,编程和系统优化都具有全局视角,在多级局部性描述、单边消息、兼容已有多核应用等方面具有特色;基于Open64构建了Parallel C编译系统,全面支持加速运算模型和自主运算模型,提出并实现了数据布局与自动DMA、编译指导的线程代理和拓扑位置感知的集合通信等优化.Micro Benchmark和实际应用在神威太湖之光计算机系统上的测试数据结果表明:Parallel C语言和编译系统具有良好的性能和可扩展性,能够有效支撑大型应用. 展开更多
关键词 异构众核 编程模型 并行语言 parallel C 编译器 消息传递
下载PDF
CPU/GPU异构混合并行的栅格数据空间分析研究——以地形因子计算为例 被引量:9
4
作者 卢敏 王金茵 +2 位作者 卢刚 陶伟东 王结臣 《计算机工程与应用》 CSCD 北大核心 2017年第1期172-177,共6页
海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的... 海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的设备间任务划分,进行CPU与GPU异构混合的并行技术改良研究。实验结果表明,基于相同的单机硬件环境,与多核共享内存模型或众核流处理器的单一计算平台并行方案相比,CPU/GPU异构混合并行计算方法对于栅格数据分析具有更好的加速效果。 展开更多
关键词 GIS栅格数据分析 共享内存模型 流处理器模型 CPU/gpu异构混合并行
下载PDF
梯级水库短期优化调度模型的精细化与GPU并行实现 被引量:14
5
作者 纪昌明 马皓宇 +2 位作者 吴嘉杰 俞洪杰 彭杨 《水利学报》 EI CSCD 北大核心 2019年第5期535-546,共12页
目前制约梯级水库短期优化调度在实际工程中应用的主要瓶颈有:所构建的优化模型存在不合理的简化策略,所选择的求解算法无法保证解的质量以及模型的计算时间远超规定时长。为解决上述问题,本文首先构建精细至水电站各机组工作特性的优... 目前制约梯级水库短期优化调度在实际工程中应用的主要瓶颈有:所构建的优化模型存在不合理的简化策略,所选择的求解算法无法保证解的质量以及模型的计算时间远超规定时长。为解决上述问题,本文首先构建精细至水电站各机组工作特性的优化调度模型,接着通过二重嵌套动态规划(DP)计算给定模拟精度下的高质量解,并针对算法固有的'维数灾'问题,一方面通过数据压缩与数据库技术降低程序的内存占用量,另一方面将GPU并行加速技术首次引入水库调度领域,通过OpenACC实现算法的GPU并行以减少计算时间。最后通过潘口、小漩梯级水库日优化调度的实例研究与对比分析得出:精细模型较传统模型能更好地贴合电站的实际工况,提高梯级系统的发电效益;内存占用缩减策略的引入能有效降低算法的空间复杂度;GPU并行较传统的CPU并行能大幅提升算法的求解速度。由此为短期优化调度的理论发展与算法'维数灾'的处理提供借鉴。 展开更多
关键词 精细化模型 嵌套动态规划 gpu并行 短期优化调度 维数灾
下载PDF
面向通用计算GPU集群的任务自动分配系统 被引量:2
6
作者 胡新明 盛冲冲 +1 位作者 李佳佳 吴百锋 《计算机工程》 CAS CSCD 2014年第3期103-107,119,共6页
当前GPU集群的主流编程模型是MPI与CUDA的松散耦合,采用这种编程模型进行编程,存在编程复杂度大、程序的可移植性差、执行效率低等问题。为此,提出一种面向通用计算GPU集群的任务自动分配系统StreamMAP。对编译器进行改造,以编译制导的... 当前GPU集群的主流编程模型是MPI与CUDA的松散耦合,采用这种编程模型进行编程,存在编程复杂度大、程序的可移植性差、执行效率低等问题。为此,提出一种面向通用计算GPU集群的任务自动分配系统StreamMAP。对编译器进行改造,以编译制导的方式提供集群任务的计算资源需求,通过运行时系统动态地发现、建立并维护系统资源拓扑,设计一种较为契合GPU集群应用特征的任务分配策略。实验结果表明,StreamMAP系统能降低集群应用程序的编程复杂度,使之较为高效地利用GPU集群的计算资源,且程序的可移植性和可扩展性也得到了保证。 展开更多
关键词 gpu集群 异构 编程模型 任务分配 可移植性 可扩展性
下载PDF
海洋环流数值模式POP的GPU并行优化 被引量:3
7
作者 郭松 窦勇 雷元武 《计算机工程与科学》 CSCD 北大核心 2012年第8期147-153,共7页
POP是一种全球海洋环流模式,广泛应用于海洋研究和气候预测。但是,随着模式分辨率的提高,POP对计算能力的需求呈几何级数增长,从而限制了POP模式的发展。本文在分析POP原理和特征的基础上,采用CUDA Fortran编程模型将POP模式移植到GPU... POP是一种全球海洋环流模式,广泛应用于海洋研究和气候预测。但是,随着模式分辨率的提高,POP对计算能力的需求呈几何级数增长,从而限制了POP模式的发展。本文在分析POP原理和特征的基础上,采用CUDA Fortran编程模型将POP模式移植到GPU平台上,并采用了网格块间并行和网格块内并行相结合的多层次并行实现全局存储器合并访问,减少局部存储器的使用,利用寄存器提高数据重用度和增大GPU端代码以减少CPU与GPU间的通信等优化策略。实验结果表明,与运行在Intel Xeon X56756核处理器上的串行程序和6进程并行程序相比,GPUPOP可以分别获得8.47倍和1.5倍的加速效果。 展开更多
关键词 CUDA gpu POP模式 gpuPOP CUDA FORTRAN
下载PDF
一种异构多核系统动态调度协处理器设计
8
作者 曾树铭 倪伟 《合肥工业大学学报(自然科学版)》 北大核心 2025年第2期185-195,共11页
为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理... 为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理、任务自动映射、通讯任务乱序执行等机制。实验结果表明,该动态调度协处理器不仅能够实现任务级乱序执行等基本设计目标,还具有极低的调度开销,相较于基于动态记分牌算法的调度器,运行多个子孔径距离压缩算法的时间降低达17.13%。研究结果证明文章设计的动态调度协处理器能够有效优化目标场景下的任务调度效果。 展开更多
关键词 动态调度 硬件调度器 异构多核系统 任务级并行 编程模型 片上缓存 片上网络
下载PDF
面向节点异构GPU集群的编程框架 被引量:3
9
作者 盛冲冲 胡新明 +1 位作者 李佳佳 吴百锋 《计算机工程》 CAS CSCD 北大核心 2015年第2期292-297,共6页
基于异构GPU集群的主流编程方法是MPI与CUDA的混合编程或者其简单变形。因为对底层的集群架构不透明,程序员对GPU集群采用MPI与CUDA编写应用程序时需要人为考虑硬件计算资源,复杂度高、可移植性差。为此,基于数据流模型设计和实现面向... 基于异构GPU集群的主流编程方法是MPI与CUDA的混合编程或者其简单变形。因为对底层的集群架构不透明,程序员对GPU集群采用MPI与CUDA编写应用程序时需要人为考虑硬件计算资源,复杂度高、可移植性差。为此,基于数据流模型设计和实现面向节点异构GPU集群体系结构的新型编程框架分布式并行编程框架(DISPAR)。DISPAR框架包含2个子系统:(1)代码转换系统Stream CC,是DISPAR源代码到MPI+CUDA代码的自动转换器。(2)任务分配系统Stream MAP,具有自动发现异构计算资源和任务自动映射功能的运行时系统。实验结果表明,该框架有效简化了GPU集群应用程序的编写,可高效地利用异构GPU集群的计算资源,且程序不依赖于硬件平台,可移植性较好。 展开更多
关键词 gpu集群 异构 分布式并行编程框架 代码转换 任务分配 可移植性
下载PDF
Programming bare-metal accelerators with heterogeneous threading models:a case study of Matrix-3000 被引量:1
10
作者 Jianbin FANG Peng ZHANG +4 位作者 Chun HUANG Tao TANG Kai LU Ruibo WANG Zheng WANG 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2023年第4期509-520,共12页
As the hardware industry moves toward using specialized heterogeneous many-core processors to avoid the effects of the power wall,software developers are finding it hard to deal with the complexity of these systems.In... As the hardware industry moves toward using specialized heterogeneous many-core processors to avoid the effects of the power wall,software developers are finding it hard to deal with the complexity of these systems.In this paper,we share our experience of developing a programming model and its supporting compiler and libraries for Matrix-3000,which is designed for next-generation exascale supercomputers but has a complex memory hierarchy and processor organization.To assist its software development,we have developed a software stack from scratch that includes a low-level programming interface and a high-level OpenCL compiler.Our low-level programming model offers native programming support for using the bare-metal accelerators of Matrix-3000,while the high-level model allows programmers to use the OpenCL programming standard.We detail our design choices and highlight the lessons learned from developing system software to enable the programming of bare-metal accelerators.Our programming models have been deployed in the production environment of an exascale prototype system. 展开更多
关键词 heterogeneous computing parallel programming models programMABILITY COMPILERS Runtime systems
原文传递
CPU+GPU异构体系混合编程模式研究 被引量:2
11
作者 翟金亭 高希然 《信息记录材料》 2016年第4期31-32,共2页
近年来,使用CPU单一模式进行并行计算已不适用,随着GPU其超高的计算性能和性能功耗比,CPU+GPU协同异构体系下的并行计算模式广泛应用。在并行计算领域、高性能计算领域、超级计算领域都有非常重要的作用。文章提出了使用CPU+GPU异构体系... 近年来,使用CPU单一模式进行并行计算已不适用,随着GPU其超高的计算性能和性能功耗比,CPU+GPU协同异构体系下的并行计算模式广泛应用。在并行计算领域、高性能计算领域、超级计算领域都有非常重要的作用。文章提出了使用CPU+GPU异构体系,在该体系结构下进行设计并行程序,使用一种并行编程模型,来提高程序的性能。 展开更多
关键词 CPU+gpu 异构体系结构 混合编程模型 并行计算
下载PDF
异构并行编程模型研究与进展 被引量:13
12
作者 刘颖 吕方 +3 位作者 王蕾 陈莉 崔慧敏 冯晓兵 《软件学报》 EI CSCD 北大核心 2014年第7期1459-1475,共17页
近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已被广泛使用和研究.从异构并行编程接口与编译/运行时支持系统两个角度总结了异构并行编程模型最新的研究成果,它们为异构架构和上层应用带来的技术挑... 近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已被广泛使用和研究.从异构并行编程接口与编译/运行时支持系统两个角度总结了异构并行编程模型最新的研究成果,它们为异构架构和上层应用带来的技术挑战提供了相应的解决方案.最后,结合目前的研究现状以及异构系统的发展,提出了异构并行编程模型的未来方向. 展开更多
关键词 异构并行编程模型 异构系统 gpu 编程接口 编译 运行时系统
下载PDF
一种支持多种访存技术的CBEA片上多核MPI并行编程模型 被引量:6
13
作者 冯国富 董小社 +2 位作者 胡冰 王旭昊 王恩东 《计算机学报》 EI CSCD 北大核心 2008年第11期1965-1974,共10页
现有的CBEA(Cell Broadband Engine Architecture)编程模型多侧重于支持类似于流处理的“批量访存”(Bulk Data Transfer)应用,传统非规则访存应用性能较低.文中基于Cell架构提出了一种同时支持“批量访存”与非规则访存应用的MPI... 现有的CBEA(Cell Broadband Engine Architecture)编程模型多侧重于支持类似于流处理的“批量访存”(Bulk Data Transfer)应用,传统非规则访存应用性能较低.文中基于Cell架构提出了一种同时支持“批量访存”与非规则访存应用的MPI并行编程模型,将通信分解在PPE(PowerPC Processing Element)上,拓宽模型的适用范围;在统一访存接口下,通过运行时访存剖分信息指导选择和优化访存以提高计算效率.实验结果表明,文中提出的编程模型支持多种访存模式并具有很好的并行加速比,可获得较同类相关技术30%-50%左右的性能提升. 展开更多
关键词 异构多核 CBE架构 并行编程模型 MPI 访存技术 剖分优化
下载PDF
基于异构模式的云计算关键技术研究 被引量:2
14
作者 张庆科 杨波 +1 位作者 王琳 陈贞翔 《山东科学》 CAS 2011年第5期56-62,共7页
结合云计算中Map/Reduce分布式编程技术引入了基于CPU-GPU异构混合并行编程模式,给出了该并行编程模式的原理和实现过程。该模式通过采用CUDA多线程并行机制提高了大规模数据处理的效率。文中对比分析了云计算中两种典型的分布式存储系... 结合云计算中Map/Reduce分布式编程技术引入了基于CPU-GPU异构混合并行编程模式,给出了该并行编程模式的原理和实现过程。该模式通过采用CUDA多线程并行机制提高了大规模数据处理的效率。文中对比分析了云计算中两种典型的分布式存储系统GFS和HDFS,最后从宏观角度阐释了云计算虚拟化技术的三层部署架构和基本类型。 展开更多
关键词 云计算 图形处理器(gpu) CUDA 并行编程模型 分布式存储 虚拟化
下载PDF
JPI:基于纯Java语言的异构并行处理支持平台 被引量:6
15
作者 叶靖波 陆鑫达 《计算机学报》 EI CSCD 北大核心 2000年第7期726-731,共6页
针对使用 Parallel Virtual Machine(PVM)和 Message Passing Interface(MPI)软件包开发的并行程序在异构环境中无法实现无缝移植的问题 ,提出了 Java Parallel Interface(JPI)软件包的解决方案 .该软件包用纯 Java语言实现了类似于 PVM... 针对使用 Parallel Virtual Machine(PVM)和 Message Passing Interface(MPI)软件包开发的并行程序在异构环境中无法实现无缝移植的问题 ,提出了 Java Parallel Interface(JPI)软件包的解决方案 .该软件包用纯 Java语言实现了类似于 PVM和 MPI所提供的任务调度、通信和全局归约操作等方面的功能 .基于 JPI的并行程序的运行和性能测试表明 ,JPI不仅解决了并行程序在异构环境中的无缝移植问题 ,并且能够为包括网络密集型在内的并行程序提供有效的开发、运行支持 . 展开更多
关键词 异构并行处理 纯Java语言 并行程序 测试
下载PDF
基于多核与众核结构的并行编程模型研究 被引量:1
16
作者 王文义 王晗 《中原工学院学报》 CAS 2014年第3期52-56,共5页
针对并行计算机不同的数据存储方式,分析对比了基于多核和众核体系结构的共享存储并行编程模型和分布式存储并行编程模型,以CUDA和OpenCL为例介绍了基于异构计算机系统的并行编程模型,指出基于异构平台的混合编程在今后的大规模并行应... 针对并行计算机不同的数据存储方式,分析对比了基于多核和众核体系结构的共享存储并行编程模型和分布式存储并行编程模型,以CUDA和OpenCL为例介绍了基于异构计算机系统的并行编程模型,指出基于异构平台的混合编程在今后的大规模并行应用中必将成为主流。 展开更多
关键词 多核 众核 并行编程模型 混合编程 异构编程
下载PDF
UPPA:面向异构众核系统的统一并行编程架构 被引量:5
17
作者 吴树森 董小社 +2 位作者 王宇菲 王龙翔 朱正东 《计算机学报》 EI CSCD 北大核心 2020年第6期990-1009,共20页
主流异构并行编程方法如CUDA和OpenCL,其编程抽象层次低,编程接口靠近底层,无法为用户屏蔽底层硬件和运行时细节,导致编程逻辑复杂,编程困难易错.同时应用性能绑定于底层运行时环境,在硬件架构变化时需要根据硬件特征进行针对性改动和优... 主流异构并行编程方法如CUDA和OpenCL,其编程抽象层次低,编程接口靠近底层,无法为用户屏蔽底层硬件和运行时细节,导致编程逻辑复杂,编程困难易错.同时应用性能绑定于底层运行时环境,在硬件架构变化时需要根据硬件特征进行针对性改动和优化,无法保证上层应用的统一.为了简化异构并行编程,提高编程效率,实现上层应用的统一和跨平台,本文提出了一种面向异构众核系统的高层统一并行编程架构UPPA(Unified Parallel Programming Architecture).架构中首先提出了数据关联计算编程模型,实现了不同层级不同模式并行性的统一描述,简化了异构并行编程逻辑,提供了高层统一的并行编程抽象;继而设计了数据关联计算描述语言为用户提供简便易用的统一编程接口,通过高层语义结构保留了应用的并行特征,可以指导编译和运行时系统实现向不同硬件架构的自动映射,保证了上层应用的统一,并采用C语言兼容的语法提供针对高层语义结构的语言扩展,保证编程接口的易学易用;最后提供了基于OpenCL的编译和运行时原型系统,以OpenCL为中间语言实现了高层应用在不同异构系统上的执行,提供了良好的跨平台特性.我们使用数据关联计算描述语言对Parboil和Rodinia测试集中的多个测试用例进行了重构,并在NVIDIA GPU和Intel MIC两种异构平台上进行了验证测试.每个测试用例重构的代码量与测试集提供的串行代码相当,仅为测试集OpenCL代码的13%~64%,有效地降低了异构编程的工作量.在编译和运行时系统的支持下,重构代码无需改动就可以在两种平台上执行.相比于人工编写且经过优化的测试集OpenCL代码,重构代码在GPU和MIC两种平台下分别能够达到其性能的91%~100%和76%~98%,这表明了本文方法的有效性和编译与运行时系统的高效. 展开更多
关键词 异构并行编程 数据关联计算 并行编程模型 统一编程架构 OPENCL
下载PDF
一种可扩展异构并行核外高阶矩量法 被引量:3
18
作者 左胜 陈岩 +2 位作者 张玉 赵勋旺 林中朝 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2017年第1期146-151,共6页
为了实现异构并行矩量法可跨节点,研究了CPU/GPU与CPU/MIC分布式异构平台上矩量法并行编程模型.利用图形处理器通用编程标准CUDA中提供的CONTEXT技术及集成众核中环境变量的概念,提出了一种适用于CPU/GPU与CPU/MIC的通用异构并行编程模... 为了实现异构并行矩量法可跨节点,研究了CPU/GPU与CPU/MIC分布式异构平台上矩量法并行编程模型.利用图形处理器通用编程标准CUDA中提供的CONTEXT技术及集成众核中环境变量的概念,提出了一种适用于CPU/GPU与CPU/MIC的通用异构并行编程模型,满足了异构并行矩量法可跨节点对静态负载均衡的要求.数值结果表明,基于该并行编程模型设计的异构并行矩量法程序,可获得理想的加速比并具有良好的可扩展性. 展开更多
关键词 矩量法 异构平台 并行编程模型 可扩展性
下载PDF
基于高性能计算的雷达信号处理研究综述 被引量:14
19
作者 耿昭谦 朱虎明 +2 位作者 李旭明 陈梅青 杨贵鹏 《电子科技》 2021年第9期1-6,共6页
随着软件定义雷达技术的发展和信号处理算法日趋复杂,以多核处理器和图形处理器等为代表的高性能计算技术在雷达系统中得到了更多的应用。文中重点介绍了高性能计算硬件系统最新的技术进展,对比分析了并行计算软件框架CUDA、OpenCL、Ope... 随着软件定义雷达技术的发展和信号处理算法日趋复杂,以多核处理器和图形处理器等为代表的高性能计算技术在雷达系统中得到了更多的应用。文中重点介绍了高性能计算硬件系统最新的技术进展,对比分析了并行计算软件框架CUDA、OpenCL、OpenMP、MPI和Pthread的技术特点,并利用多线程流水线技术设计了基于CPU的并行雷达信号处理算法,探讨了高性能计算在雷达信号处理中的应用技术发展趋势。 展开更多
关键词 雷达信号处理 高性能计算 并行计算 图形处理器 加速器 并行编程模型 开放计算语言 流水线
下载PDF
用数据驱动的编程模型并行多重网格应用 被引量:2
20
作者 郭杰 高希然 +2 位作者 陈莉 傅游 刘颖 《计算机科学》 CSCD 北大核心 2020年第8期32-40,共9页
多重网格是数值计算领域中一种加速迭代收敛的重要技术,被广泛应用。近年来,大规模并行计算系统向多核化、异构众核化发展,多重网格应用也亟须适应新的并行计算平台。文中采用一种数据驱动的任务并行语言AceMesh将遗产的NAS MG程序移植... 多重网格是数值计算领域中一种加速迭代收敛的重要技术,被广泛应用。近年来,大规模并行计算系统向多核化、异构众核化发展,多重网格应用也亟须适应新的并行计算平台。文中采用一种数据驱动的任务并行语言AceMesh将遗产的NAS MG程序移植到“天河二号”和“神威·太湖之光”两种不同架构的国产超算平台上,展示了使用该语言对计算循环、通信代码的任务并行方法,验证了AceMesh语言的跨平台性能可移植性。文中定性地分析了该应用的任务图特征和计算-通信重叠的特点,并分别在两个并行计算平台上将其与现有编程模型MPI/OpenMP和MPI/OpenACC进行性能对比,分析了AceMesh任务图并行程序对访存性能和通信-计算重叠的优化效果。实验数据表明,相比传统的并行编程方法,AceMesh在“神威·太湖之光”和“天河二号”平台上分别最高获得了1.19X和1.85X的性能加速。最后,针对该应用在不同网格层的通信特点以及通信序列化导致大量通信不能隐藏的问题,提出了未来的研究方向。 展开更多
关键词 多重网格 MPI遗产应用 数据驱动的任务并行编程模型 异构众核 计算-通信重叠
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部