期刊文献+
共找到76篇文章
< 1 2 4 >
每页显示 20 50 100
科学计算应用程序单核指令级优化研究 被引量:4
1
作者 罗红兵 张晓霞 +1 位作者 王伟 武林平 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1263-1269,共7页
尽管高性能计算机性能提升越来越快,但科学计算应用程序获得同步的性能提升是很困难的.提高科学计算应用程序的执行性能,需要依照高性能计算机体系结构的特点进行针对性的优化,其中单核指令级优化是科学计算应用程序性能优化的重要方面... 尽管高性能计算机性能提升越来越快,但科学计算应用程序获得同步的性能提升是很困难的.提高科学计算应用程序的执行性能,需要依照高性能计算机体系结构的特点进行针对性的优化,其中单核指令级优化是科学计算应用程序性能优化的重要方面之一.以基于JASMIN(J adaptive structured meshes applications infrastructure)框架实现的Euler程序为例,探讨了科学计算应用程序在Intel Xeon微处理器平台上的具体性能问题和指令级并行性能优化方法,并较大幅度地优化了Euler程序的单核性能.程序优化后,二维和三维两个物理模型计算的总运行时间比优化前减少了21%~34%,核心模块Gas1dapproxy的执行时间缩短了50%以上.性能优化实验表明:流水线效率已成为影响科学计算类实际应用程序计算效率的重要因素,需要通过降低计算语句的依赖度、减少长延迟计算数量等方法予以改进. 展开更多
关键词 性能分析 性能优化 XEON 指令级优化 科学计算程序
下载PDF
基于面向对象的粒子类模拟并行计算研究 被引量:6
2
作者 曹小林 张爱清 莫则尧 《计算机研究与发展》 EI CSCD 北大核心 2007年第10期1647-1651,共5页
针对经典分子动力学和PIC方法等粒子类模拟方法具有粒子动态移动、粒子计算局部性好等共性,首先,提出了粒子量数据片对象.该对象是单网格片上的一团粒子,其中网格片是包含多个网格单元的矩形区域.然后,设计了并行算法,包括对象之间的粒... 针对经典分子动力学和PIC方法等粒子类模拟方法具有粒子动态移动、粒子计算局部性好等共性,首先,提出了粒子量数据片对象.该对象是单网格片上的一团粒子,其中网格片是包含多个网格单元的矩形区域.然后,设计了并行算法,包括对象之间的粒子迁移和数据交换以及动态负载平衡.最后,在JASMIN框架上具体实现,进而开发了并行经典分子动力学程序和并行PIC程序.在64个处理器上实测表明,并行PIC程序模拟包含3百万个网格、2千万个粒子的复杂物理模型时,获得了80%的并行效率. 展开更多
关键词 面向对象 粒子类模拟方法 粒子量数据片 动态负载平衡
下载PDF
多介质辐射流体力学数值模拟中的并行计算研究 被引量:9
3
作者 莫则尧 张爱清 +1 位作者 曹小林 左风丽 《自然科学进展》 北大核心 2006年第3期287-292,共6页
多介质辐射流体力学是传统的计算挑战性应用问题,对大规模并行计算机有强烈需求.近年来,在万亿次并行机的512个处理器上,对该类应用中的多介质Euler流体力学方程、辐射扩散方程、粒子输运方程、以及这些方程之间的耦合连接,开展了有效... 多介质辐射流体力学是传统的计算挑战性应用问题,对大规模并行计算机有强烈需求.近年来,在万亿次并行机的512个处理器上,对该类应用中的多介质Euler流体力学方程、辐射扩散方程、粒子输运方程、以及这些方程之间的耦合连接,开展了有效的并行数值模拟.作为连接数值模拟和并行计算机的桥梁,并行计算也得到了快速发展.文中综述了并行计算,尤其是并行算法和并行实现关键技术方面的重要进展.通过这些算法和技术,可以看出作者是如何组织和完成这些万亿次并行数值模拟应用的. 展开更多
关键词 并行计算 数值模拟 多介质辐射流体力学 粒子输运
下载PDF
剖析高性能存储系统中的存储区域网络
4
作者 夏芳 陈虹 +1 位作者 宋磊 张侠 《计算机工程与设计》 CSCD 北大核心 2005年第7期1740-1743,共4页
高性能存储系统(HighPerformanceStorageSystem,简称HPSS)是专门为高性能计算机环境设计、管理和访问超大规模数据的层次化并行存储系统,可以在高性能计算机、磁盘、网络磁盘阵列、磁带库之间迁移大型的数据对象,支持高效的串、并行输入... 高性能存储系统(HighPerformanceStorageSystem,简称HPSS)是专门为高性能计算机环境设计、管理和访问超大规模数据的层次化并行存储系统,可以在高性能计算机、磁盘、网络磁盘阵列、磁带库之间迁移大型的数据对象,支持高效的串、并行输入/输出及远程数据并行传输,数据传输速度只受底层计算机、网络和存储设备的限制。对HPSS以网络为中心体系结构进行了深入的研究与剖析,描述了目前存储区域网络(SAN)技术在HPSS中的应用情况,得出有助于构建高性能计算环境存储系统的看法和结论。 展开更多
关键词 高性能存储系统 存储区域网络 层次存储
下载PDF
短距离作用势分子动力学并行计算研究
5
作者 曹小林 莫则尧 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第z1期5-7,共3页
针对传统短距离作用势中链表存储数据结构所导致的非规则数据访问问题,提出了块-单元紧凑存储数据结构的解决方法.设计并实现了一个集成以上数据结构、基于实测的高维动态负载平衡方法的短距离作用势分子动力学并行软件.该软件已应用于... 针对传统短距离作用势中链表存储数据结构所导致的非规则数据访问问题,提出了块-单元紧凑存储数据结构的解决方法.设计并实现了一个集成以上数据结构、基于实测的高维动态负载平衡方法的短距离作用势分子动力学并行软件.该软件已应用于高温高压微喷射模拟和液晶相模拟两个领域,可以在几百个处理机上模拟包含1×106~1×108个粒子的二维和三维问题,其中程序的并行效率在80%以上.与传统存储数据结构方法相比,本方法提高执行性能5%,其性能约为所用处理机峰值性能的15%以上. 展开更多
关键词 分子动力学 块-单元紧凑存储数据结构 并行软件
下载PDF
基于“块-单元”数据结构的分子动力学并行计算 被引量:14
6
作者 曹小林 莫则尧 +1 位作者 张景琳 陈其峰 《计算物理》 CSCD 北大核心 2004年第5期377-385,共9页
 开发了一种基于"块-单元"数据结构的可扩展并行算法,以实现大规模、非均匀分子动力学模拟.它采用空间填充曲线将三维区域分解转换为一维负载平衡问题,然后用基于实测的多层均权法求解,以保持处理机间负载均衡.在一个MPP并...  开发了一种基于"块-单元"数据结构的可扩展并行算法,以实现大规模、非均匀分子动力学模拟.它采用空间填充曲线将三维区域分解转换为一维负载平衡问题,然后用基于实测的多层均权法求解,以保持处理机间负载均衡.在一个MPP并行机的500个CPU上,模拟包含2 1×108个粒子的三维金属微喷射模型,该算法获得了420倍的加速比. 展开更多
关键词 数据结构 可扩展 并行计算 CPU 负载均衡 加速比 并行算法 一维 分子动力学模拟 求解
下载PDF
JADLib-科学计算数据高层I/O软件库 被引量:6
7
作者 夏芳 陈虹 +1 位作者 宋磊 沈卫超 《计算机工程与科学》 CSCD 北大核心 2009年第A01期227-230,285,共5页
JADLib是为满足大规模复杂结构数据的存储与共享需求而研制的科学数据I/O软件库。其目标是设计并实现管理科学计算网格数据的数据存储模型,支持多种复杂结构数据的表示与操作,应用程序接口直观、易掌握,文件格式统一、可直接可视化,提... JADLib是为满足大规模复杂结构数据的存储与共享需求而研制的科学数据I/O软件库。其目标是设计并实现管理科学计算网格数据的数据存储模型,支持多种复杂结构数据的表示与操作,应用程序接口直观、易掌握,文件格式统一、可直接可视化,提供并行I/O、数居子集访问、压缩存储等高性能存储机制,支持多类科学计算程序跨平台使用,目前已应用到惯性约束聚变、高功率微波、计算流体力学、材料科学等多个研究领域中。实际应用表明,JADLib对于解决数值模拟软件数据存储及后处理分析所面临的I/O效率与组织管理问题具有很好的应用效果。 展开更多
关键词 科学计算 数据管理 数据存储 数据共享
下载PDF
科学计算双路并行I/O优化方法 被引量:2
8
作者 曹立强 莫则尧 +2 位作者 沈卫超 夏芳 陈军 《计算机学报》 EI CSCD 北大核心 2015年第5期1035-1043,共9页
科学计算数据集由数据和元数据组成.一般条件下,数据的尺寸较大,元数据尺寸较小.传统的高性能计算机并行文件系统可以高效率地读写大块连续数据,但是无法高效率地读写大量较小块的元数据.一旦大块数据和小块元数据两类读写特征混杂在一... 科学计算数据集由数据和元数据组成.一般条件下,数据的尺寸较大,元数据尺寸较小.传统的高性能计算机并行文件系统可以高效率地读写大块连续数据,但是无法高效率地读写大量较小块的元数据.一旦大块数据和小块元数据两类读写特征混杂在一起,元数据将较严重地干扰并行I/O,造成性能的下降.为此,文中提出数据与元数据分治的双路并行I/O方法.该方法在高层I/O库中建立内存文件系统与并行文件系统两级存储,在存储资源之间并行迁移科学计算元数据.一方面降低较频繁读写元数据的I/O延迟,另一方面改变科学计算数据的存储特征与存储模式,从而提高科学计算应用、尤其是数据分析与可视化等读入密集型应用的I/O效率.测试表明,双路并行I/O方法可提高写性能8%~13%,提高读性能89%到1.01倍. 展开更多
关键词 并行I/O 高层I/O库 性能优化 数据格式 双路并行I/O
下载PDF
有向图并行计算中一种新的结点调度算法 被引量:6
9
作者 张爱清 莫则尧 《计算机学报》 EI CSCD 北大核心 2009年第11期2178-2186,共9页
在基于有向图的并行计算中,给定图剖分后,如何设计结点调度方案使得并行执行时间最短,是典型的NP完全问题.针对此问题,文中提出一种新的基于顺逆交替迭代技术的启发式调度算法,并给出该算法的并行实现.严格的理论推导证明,新算法在一定... 在基于有向图的并行计算中,给定图剖分后,如何设计结点调度方案使得并行执行时间最短,是典型的NP完全问题.针对此问题,文中提出一种新的基于顺逆交替迭代技术的启发式调度算法,并给出该算法的并行实现.严格的理论推导证明,新算法在一定的假设条件下,从任何初始调度方案出发,均可以单调收敛.在数百个处理器上的并行数值实验表明,与常用的调度算法相比,新算法可在付出很少的开销代价下显著提高整体并行效率. 展开更多
关键词 有向图 并行计算 结点调度算法 顺逆交替迭代技术
下载PDF
大规模并行计算机作业调度评价 被引量:3
10
作者 罗红兵 张晓霞 魏勇 《计算机工程与应用》 CSCD 北大核心 2006年第10期79-83,共5页
大规模并行计算机的作业调度直接关系到其计算能力的发挥,因而相应的研究具有十分重要的意义。论文通过对国外现有作业调度评价体系的研究,建立了更能反映并行作业特点的作业调度策略评价体系,在此基础上设计并实现了一个作业模拟调度... 大规模并行计算机的作业调度直接关系到其计算能力的发挥,因而相应的研究具有十分重要的意义。论文通过对国外现有作业调度评价体系的研究,建立了更能反映并行作业特点的作业调度策略评价体系,在此基础上设计并实现了一个作业模拟调度环境。模拟调度环境采用事件驱动的工作模式,支持FCFS、大作业优先、小作业优先、长作业优先、短作业优先、GANG等调度策略。模拟测试结果表明,GANG调度策略优于所有测试的空间共享调度策略;同时在空间共享调度策略中,短作业优先策略和大作业优先策略具有较好的性能。 展开更多
关键词 大规模并行计算机 作业调度 调度评价
下载PDF
基于R的并行统计计算 被引量:2
11
作者 宋磊 尹俊平 陈虹 《计算机科学》 CSCD 北大核心 2013年第3期95-99,共5页
随着统计分析中数据规模和复杂性的不断增加,高性能计算也开始在金融、经济和管理等统计计算主导的领域中发挥重要的作用。将对基于R的统计分析中并行计算技术的发展现状和最新进展做一个综述,重点从用户的角度考察R在不同体系结构计算... 随着统计分析中数据规模和复杂性的不断增加,高性能计算也开始在金融、经济和管理等统计计算主导的领域中发挥重要的作用。将对基于R的统计分析中并行计算技术的发展现状和最新进展做一个综述,重点从用户的角度考察R在不同体系结构计算平台上并行统计计算的实现。一个人造和真实应用的测试表明了其应用效果。 展开更多
关键词 R 统计分析 高性能计算 并行统计计算
下载PDF
MPI集合通信性能可扩展性研究与分析 被引量:4
12
作者 罗红兵 张晓霞 《计算机科学与探索》 CSCD 北大核心 2017年第2期252-261,共10页
集合通信性能是影响并行程序并行效率的重要因素之一,但对于大规模并行计算机上不同类别集合通信的评测和理论分析仍较为缺乏,许多应用程序的通信模块设计和使用不合理。基于某国产并行机平台,利用IMB测试程序,对各典型MPI(message pass... 集合通信性能是影响并行程序并行效率的重要因素之一,但对于大规模并行计算机上不同类别集合通信的评测和理论分析仍较为缺乏,许多应用程序的通信模块设计和使用不合理。基于某国产并行机平台,利用IMB测试程序,对各典型MPI(message passing interface)集合通信性能进行了分析,并基于现有通信模型和算法进行理论拟合。结果显示:不同类别的MPI集合通信操作的性能差异很大,并且许多集合通信的性能在超大规模下与理论差距很大。一方面反映出现有理论和模型的不足;另一方面也体现出,无论是集合通信的优化,还是基于集合通信的特征进行应用程序的通信模块设计,仍然大有可为。 展开更多
关键词 集合通信 通信性能 可扩展性
下载PDF
面向大规模科学计算的可视分析模式 被引量:1
13
作者 王弘堃 肖丽 +2 位作者 邵京云 廖丽 艾志玮 《计算机工程与科学》 CSCD 北大核心 2012年第8期142-146,共5页
可视分析是大规模科学计算重要的辅助工具,面对不断增长的计算规模,需要高分辨率显示来提高可视化结果的可信度。合理配置可视化硬件系统,建立拥有独立研究、团队讨论、专家会诊模式的协调可视分析环境,结合具有对比、查询和多变量分析... 可视分析是大规模科学计算重要的辅助工具,面对不断增长的计算规模,需要高分辨率显示来提高可视化结果的可信度。合理配置可视化硬件系统,建立拥有独立研究、团队讨论、专家会诊模式的协调可视分析环境,结合具有对比、查询和多变量分析能力的并行分布可视分析软件平台,为大规模科学计算提供有效的辅助分析环境,提高研究效率。 展开更多
关键词 可视分析 大屏幕投影 科学计算
下载PDF
热传导方程三层并行差分格式初始条件的计算 被引量:1
14
作者 左风丽 崔霞 袁光伟 《计算物理》 EI CSCD 北大核心 2011年第4期488-492,共5页
给出二维热传导问题的三层差分格式初始条件的一种显式计算方法,对于由此形成的内边界预估校正三层并行差分算法,证明稳定性和收敛性定理.并行数值试验表明,方法稳定,且与通常采用隐式格式计算初始条件的方法相比,易于程序实现;与已有... 给出二维热传导问题的三层差分格式初始条件的一种显式计算方法,对于由此形成的内边界预估校正三层并行差分算法,证明稳定性和收敛性定理.并行数值试验表明,方法稳定,且与通常采用隐式格式计算初始条件的方法相比,易于程序实现;与已有的扰动算法相比,能大幅度减小误差. 展开更多
关键词 三层差分格式 初始条件 稳定显式计算方法
下载PDF
适合于分布式并行计算的一种并行广义乘积型双共轭残差方法(英文) 被引量:1
15
作者 左宪禹 谷同祥 +1 位作者 莫则尧 刘兴平 《应用数学与计算数学学报》 2013年第2期246-259,共14页
针对求解大型稀疏非对称线性方程组,提出适合于分布式并行环境的一种并行广义乘积型双共轭残差(GPBiCR)方法(简记为PGPBiCR方法).通过重构GPBiCR方法,新方法将原方法中的三个全局同步点降低到了一个,且内积所需的通讯时间可与向量校正... 针对求解大型稀疏非对称线性方程组,提出适合于分布式并行环境的一种并行广义乘积型双共轭残差(GPBiCR)方法(简记为PGPBiCR方法).通过重构GPBiCR方法,新方法将原方法中的三个全局同步点降低到了一个,且内积所需的通讯时间可与向量校正的计算时间有效地重叠.代价仅是稍微增加了一些计算量,而相比于全局通讯时间的降低,这是可以忽略不计的.性能和等效率分析表明,PGPBiCR方法比GPBiCR方法具有更好的并行性和可扩展性,其中可扩展性可改进3倍,而并行通讯性能可改进66.7%.数值试验得到了与理论分析相吻合的结果. 展开更多
关键词 稀疏非对称线性方程组 并行广义乘积型双共轭残差方法 KRYLOV子空间方法 全局通讯 分布式并行环境
下载PDF
超级计算机作业运行稳定性分析
16
作者 罗红兵 曹小林 +2 位作者 曹立强 武林平 莫则尧 《计算机工程与科学》 CSCD 北大核心 2009年第11期91-93,105,共4页
通过作业日志分析和考核实验方式,对超级计算机并行作业运行稳定性进行了分析。日志分析结果表明,并行作业运行的稳定性会随作业执行时间的增长、作业使用CPU数的增多而下降;当并行作业的计算量达到105CPU小时量级,超过20%的作业会因系... 通过作业日志分析和考核实验方式,对超级计算机并行作业运行稳定性进行了分析。日志分析结果表明,并行作业运行的稳定性会随作业执行时间的增长、作业使用CPU数的增多而下降;当并行作业的计算量达到105CPU小时量级,超过20%的作业会因系统故障而中止。考核实验结果表明,使用数千CPU的并行作业很容易受到多种因素的干扰而中止,很难持续运行超过24小时。最后给出了有关超级计算机稳定性改进、系统管理使用和并行程序研制的几点建议。 展开更多
关键词 超级计算机 并行作业 稳定性
下载PDF
Alltoall通信性能模型研究
17
作者 罗红兵 张晓霞 魏勇 《计算机科学与探索》 CSCD 北大核心 2018年第4期559-566,共8页
Alltoall是一种重要的MPI(message passing interface)集合通信类别,是影响许多并行程序并行效率的重要因素。但对于大规模并行计算机上Alltoall集合通信的评测和理论分析仍较为缺乏,导致许多应用程序的通信模块设计和使用不合理。首先... Alltoall是一种重要的MPI(message passing interface)集合通信类别,是影响许多并行程序并行效率的重要因素。但对于大规模并行计算机上Alltoall集合通信的评测和理论分析仍较为缺乏,导致许多应用程序的通信模块设计和使用不合理。首先,开展了MPI基本通信性能的测试和分析,发现随着MPI进程数的增加,其性能波动也增加,而这种波动源自网络竞争。为此,在传统的Alltoall性能评估模型中引入了网络竞争因素,新模型不仅考虑传统的通信带宽和通信延迟参数,还考虑了通信竞争因素。某国产并行机平台上的测试结果显示:引入网络竞争模型的新Alltoall性能评估模型可以较为准确地预估Alltoall性能,体现出网络竞争开销对Alltoall性能的影响。 展开更多
关键词 集合通信 通信性能 Alltoall
下载PDF
基于硬件事件的并行程序指令级性能模型与应用
18
作者 罗红兵 武林平 《计算机工程与科学》 CSCD 北大核心 2013年第11期175-181,共7页
当前,应用程序持续运行性能与高性能计算机峰值性能的差距有扩大的趋势,许多实际应用程序的性能通常只能达到机器峰值性能的5%~10%,甚至更低,如何优化并行应用成为高性能计算领域关注的焦点.从如何利用硬件事件进行程序指令级优化入... 当前,应用程序持续运行性能与高性能计算机峰值性能的差距有扩大的趋势,许多实际应用程序的性能通常只能达到机器峰值性能的5%~10%,甚至更低,如何优化并行应用成为高性能计算领域关注的焦点.从如何利用硬件事件进行程序指令级优化入手,提出一种基于硬件事件的性能模型,揭示出程序性能与程序特征、微处理器特征的关系.基于该性能模型,在Intel Xeon微处理器平台上对Euler等程序进行优化,gas1dapproxy等性能热点模块的执行时间可以缩短12%~61%.性能优化实验表明:使用该性能模型可以降低用户进行指令级并行性能优化的难度,指导用户选择正确的性能优化方向. 展开更多
关键词 性能分析 性能优化 性能模型 指令级并行
下载PDF
有向图并行计算中的多目标剖分算法 被引量:3
19
作者 金光浩 莫则尧 《计算机学报》 EI CSCD 北大核心 2005年第12期2045-2051,共7页
在以离散网格为基础的某些数值模拟中,网格间的数据依赖关系可以抽象为有向图.如何剖分这些有向图成多个子图,将各子图对应的数值模拟任务映射到不同的处理机,是该类数值模拟并行计算的基础.剖分算法中,需要综合考虑连通性、并行度、负... 在以离散网格为基础的某些数值模拟中,网格间的数据依赖关系可以抽象为有向图.如何剖分这些有向图成多个子图,将各子图对应的数值模拟任务映射到不同的处理机,是该类数值模拟并行计算的基础.剖分算法中,需要综合考虑连通性、并行度、负载平衡、通信开销四个目标.文章在传统有向图剖分算法的基础上,提出了一个权衡这四个目标的有向图多目标剖分区域分解算法.应用于二维非结构网格上的柱对称中子输运并行计算中,通量扫描并行算法在该区域剖分算法上获得的并行效率比原来的无向图区域剖分算法高50%以上. 展开更多
关键词 有向图 图剖分 并行计算
下载PDF
地下水流模拟参数估值的并行计算 被引量:1
20
作者 刘兴伟 程汤培 邵景力 《计算机工程与设计》 北大核心 2016年第1期189-194,共6页
为解决大规模地下水流数值模拟参数估值计算时间过长的问题,基于粗粒度任务分解方法,采用消息传递接口(message passing interface,MPI)实现地下水流模拟程序MODFLOW中参数估值灵敏度分析部分的并行。利用多个分区规模的模型验证并行... 为解决大规模地下水流数值模拟参数估值计算时间过长的问题,基于粗粒度任务分解方法,采用消息传递接口(message passing interface,MPI)实现地下水流模拟程序MODFLOW中参数估值灵敏度分析部分的并行。利用多个分区规模的模型验证并行程序的正确性和有效性,对不同参数规模下的加速比情况进行分析,分析结果表明,对16个参数问题进行参数估值,并行程序在1~16个进程下得到了1.74~8.32的加速比,在8进程下取得了5.91的超线性加速,有效提高了地下水流数值模拟参数估值计算速度。 展开更多
关键词 并行计算 消息传递接口 加速比 参数估值 地下水流模拟程序 地下水数值模拟
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部