期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
一种片上众核结构共享Cache动态隐式隔离机制研究 被引量:3
1
作者 宋风龙 刘志勇 +2 位作者 范东睿 张军超 余磊 《计算机学报》 EI CSCD 北大核心 2009年第10期1896-1904,共9页
访存带宽是限制众核处理器性能提升的关键,将片上最后一级Cache设计为所有处理器核共享是必要的.在共享Cache中隔离放置冲突的数据,是提高共享Cache性能的关键.文中提出了缓存块链接的硬件方法,用于隔离共享Cache中不同线程之间的数据.... 访存带宽是限制众核处理器性能提升的关键,将片上最后一级Cache设计为所有处理器核共享是必要的.在共享Cache中隔离放置冲突的数据,是提高共享Cache性能的关键.文中提出了缓存块链接的硬件方法,用于隔离共享Cache中不同线程之间的数据.文中基于时钟精准的片上众核结构模拟器,使用Splash2程序组和生物信息学中的任务,对所提机制进行了评估.实验结果表明,与传统共享Cache相比,使用缓存块链接机制时,使得共享Cache的冲突性缺失率降低约20%,而使得IPC平均提高了约10%. 展开更多
关键词 众核 共享CACHE 数据冲突 资源隔离 容量划分
下载PDF
网格cache获取资源副本的优化策略 被引量:3
2
作者 宋风龙 刘方爱 《计算机工程与应用》 CSCD 北大核心 2005年第22期124-126,163,共4页
网格中资源能力的不均衡和异构特性会给系统造成瓶颈,引起客户端延迟,为了提高网格的性能,在网格中引入了cache技术,有效地缓解了这一问题。在cache中没有检索到需要的文件时,网格的SRM如何从网格中以一个最快、最有效的方式来获取一个... 网格中资源能力的不均衡和异构特性会给系统造成瓶颈,引起客户端延迟,为了提高网格的性能,在网格中引入了cache技术,有效地缓解了这一问题。在cache中没有检索到需要的文件时,网格的SRM如何从网格中以一个最快、最有效的方式来获取一个该对象的副本,并将其置于本地的cache中,是一个迫切需要研究的问题。该文在引入经济学模型的基础上,运用遗传算法,给出了该问题的一个有效解决策略,经过初步分析,该算法可以达到满意的结果。 展开更多
关键词 网格 CACHE 资源副本 遗传算法 SRM 经济模型
下载PDF
基于遗传算法的资源结点选择策略 被引量:3
3
作者 宋风龙 刘方爱 《微机发展》 2005年第10期62-64,67,共4页
网格系统中由于采用资源备份策略,资源存在多个副本。用户请求资源时,如何从拥有相同资源的多个结点中选择一部分结点获取资源,达到以相同的代价获得最优质的服务,是一个迫切需要研究的问题。文中综合用户和资源拥有者双方的利益因素,... 网格系统中由于采用资源备份策略,资源存在多个副本。用户请求资源时,如何从拥有相同资源的多个结点中选择一部分结点获取资源,达到以相同的代价获得最优质的服务,是一个迫切需要研究的问题。文中综合用户和资源拥有者双方的利益因素,将该问题归结为一个多目标规划问题,并提出了资源动态复制的图模型,进而运用遗传算法,提出了解决该问题的策略,分析显示该算法可以达到满意的结果。 展开更多
关键词 网格 遗传算法 资源管理 资源请求 资源分配
下载PDF
基于经济的网格cache接受策略研究
4
作者 宋风龙 刘方爱 《计算机应用》 CSCD 北大核心 2005年第12期2919-2920,2930,共3页
为了减少客户端延迟,又满足本地代理总效益最大的要求,在网格cache的接受策略中引入经济模型,对其进行基于经济的优化,以市场经济的方式计算缓存某资源带来的效益变化,解决其中的利益冲突,模拟实验证明了其有效性。
关键词 网格 CACHE 接受策略 经济模型
下载PDF
众核处理器片上同步机制和评估方法研究 被引量:10
5
作者 徐卫志 宋风龙 +3 位作者 刘志勇 范东睿 余磊 张帅 《计算机学报》 EI CSCD 北大核心 2010年第10期1777-1787,共11页
同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制... 同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMDOpteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间. 展开更多
关键词 片上众核处理器 同步 硬件支持 量化评估 微程序
下载PDF
多核结构片上网络性能-能耗分析及优化方法 被引量:11
6
作者 张帅 宋风龙 +2 位作者 王栋 刘志勇 范东睿 《计算机学报》 EI CSCD 北大核心 2013年第5期988-1003,共16页
文中探讨了片上网络在执行真实并行程序时的能耗和性能关系,并提出了一种能耗/性能优化方法.首先,文中提出了一种精确的性能-能耗模型,在性能和能耗模型中同时划分出与频率相关和与频率无关的因素,并分析其对性能和能耗的影响;其次,在性... 文中探讨了片上网络在执行真实并行程序时的能耗和性能关系,并提出了一种能耗/性能优化方法.首先,文中提出了一种精确的性能-能耗模型,在性能和能耗模型中同时划分出与频率相关和与频率无关的因素,并分析其对性能和能耗的影响;其次,在性能-能耗模型中建立并行开销、片外访存开销与片上网络规模(节点数)、频率之间的关系,同时引入了并行度、通信模型等与应用相关的因素,使该模型能够同时表达软硬件特性;第三,文中提出了一种基于该性能-能耗模型的性能-能耗优化方法,通过采集程序的通信模型、访存消息数量等数据选择适当的频率和网络节点数来获得片上网络能耗最低值或处理器性能最大值.最后,文中采用8个PARSEC并行程序验证前述模型的准确性并评价性能-能耗优化方法,结果显示文中性能-能耗模型相比传统模型更加精确吻合实验测量结果,性能-能耗优化方法也有效适用于不同种类的并行程序. 展开更多
关键词 多核 片上网络 高能效 能耗优化
下载PDF
BDSim:面向大数据应用的组件化高可配并行模拟框架 被引量:5
7
作者 李文明 叶笑春 +5 位作者 张洋 宋风龙 王达 唐士斌 范东睿 谢向辉 《计算机学报》 EI CSCD 北大核心 2015年第10期1959-1975,共17页
大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用.然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现在模拟速度慢、配置过程复杂以及可扩展性差等方面.为了解决... 大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用.然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现在模拟速度慢、配置过程复杂以及可扩展性差等方面.为了解决此问题,评估面向大数据应用的高通量众核体系结构的性能与功耗,该文提出了面向大数据应用的并行模拟框架——BDSim.该框架基于组件化思想,将功能组件与框架服务单元组成并行功能单元,并可根据负载情况,自由配置组件与框架服务单元之间的映射关系.为了提高组件之间的通信和同步效率,该文提出了一种非阻塞无锁通信优化方法,和一种CMB保守同步算法的优化算法——NMTRT-CMB同步算法.模拟不同并发规模的基于2D-Mesh网络的众核系统的实验结果表明,与基于锁的并行通信方法相比,框架采用的非阻塞无锁通信优化方法可以提高并行模拟速度约10%,该算法与CMB同步算法相比,NMTRT-CMB同步算法可以减少空消息数量达90%以上. 展开更多
关键词 组件化并行模拟框架 并行离散事件模拟 非阻塞无锁通信 CMB算法 高可配 大数据
下载PDF
硬件结构支持的基于同步的高速缓存一致性协议 被引量:7
8
作者 黄河 刘磊 +1 位作者 宋风龙 马啸宇 《计算机学报》 EI CSCD 北大核心 2009年第8期1618-1630,共13页
共享存储系统中如何高效地实现高速缓存一致性是体系结构设计面临的一个关键问题和难点问题.已有的基于目录的协议存在难于实现、验证复杂和存储空间开销大等问题.面向片上众核处理器,文中提出一种由硬件结构支持、基于同步的高速缓存... 共享存储系统中如何高效地实现高速缓存一致性是体系结构设计面临的一个关键问题和难点问题.已有的基于目录的协议存在难于实现、验证复杂和存储空间开销大等问题.面向片上众核处理器,文中提出一种由硬件结构支持、基于同步的高速缓存一致性协议.该方案不使用目录,而是通过使用bloom-filter表示一致性信息,并在并行程序中的同步点维护高速缓存一致性.与现有的基于目录的高速缓存一致性协议相比,该方案可以降低目录协议的实现、验证复杂度.用SPLASH-2测试程序集评估表明,基于同步的协议可以获得与基于目录的协议相当的性能. 展开更多
关键词 高速缓存一致性 存储一致性模型 多核处理器 共享存储系统
下载PDF
众核处理器中使用写掩码实现混合写回/写穿透策略 被引量:5
9
作者 林伟 叶笑春 +1 位作者 宋风龙 张浩 《计算机学报》 EI CSCD 北大核心 2008年第11期1918-1928,共11页
高速缓存采用写回策略,能极大地节省对片上网络和访存带宽的消耗,这对于片上众核(大于16核)的结构尤为重要.与通常多核系统中基于目录/总线的写无效或写更新协议不同,文中给出了片上实现域一致性存储模型和基于硬件锁的缓存一致性协... 高速缓存采用写回策略,能极大地节省对片上网络和访存带宽的消耗,这对于片上众核(大于16核)的结构尤为重要.与通常多核系统中基于目录/总线的写无效或写更新协议不同,文中给出了片上实现域一致性存储模型和基于硬件锁的缓存一致性协议的方案并提出了在L1高速缓存保存写掩码的方法,用以记录本地更新缓存块的字节位置,解决了写回策略下伪共享带来的缓存一致性问题.文中还进一步提出两种优化掩码存储空间开销的新方法:通过设定程序中较少出现的、长度为1-3字节的写指令为写穿透,在L1中每4字节设置一位写掩码,将写掩码的芯片面积开销压缩到字节粒度的27.9%;设计项数为L1缓存块总数12.5%的多路写掩码缓存,在不损失性能的情况下,将面积开销压缩到字节粒度的17.7%.搭建的众核平台Godson-T采用域一致性存储模型,使用写掩码实现混合写回/写穿透缓存策略(临界区内写穿透,临界区外写回).实验使用splash2的3个程序和2个生物计算程序进行评估.结果表明,相对于完全写穿透,混合写回策略在32和64线程的配置下普遍获得24%以上的性能提升,性能略优于完全写回,并且采用两种优化空间开销的新方法后性能无损失. 展开更多
关键词 众核 写掩码 写掩码缓存 域一致性 伪共享 写无效 写更新
下载PDF
LU分解在众核结构仿真器上的指令级调度研究 被引量:5
10
作者 余磊 刘志勇 +1 位作者 宋风龙 叶笑春 《系统仿真学报》 CAS CSCD 北大核心 2011年第12期2603-2610,共8页
随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了... 随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。 展开更多
关键词 计算机体系结构 众核 加速比 指令级并行 LU分解
原文传递
提升稀疏目录缓存一致性系统性能的方法 被引量:3
11
作者 张轮凯 宋风龙 +2 位作者 王达 范东睿 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2014年第9期1955-1970,共16页
稀疏目录技术在缓存一致性非一致存储访问(cache coherent non-uniform memory access,ccNUMA)系统中有广泛应用.但是,稀疏目录技术的一个主要缺陷在于目录项替换在目录热点存在的情况下会严重降低系统的性能.针对此问题,研究如何提升... 稀疏目录技术在缓存一致性非一致存储访问(cache coherent non-uniform memory access,ccNUMA)系统中有广泛应用.但是,稀疏目录技术的一个主要缺陷在于目录项替换在目录热点存在的情况下会严重降低系统的性能.针对此问题,研究如何提升稀疏目录性能.首先,从定性和定量的角度对主流的稀疏目录替换算法进行了分析,并且发现最为原始的最久未使用(least-recent-used,LRU)算法的性能实际上要优于一些近期提出的目录替换算法,如最少共享者(least-sharer-count,LSC)算法.其次,将victim cache的思想应用到稀疏目录上,提出了victim目录(victim directory),该技术在主稀疏目录模块上加入了一个小的全相联二级目录存储.最后,提出了选择性victim目录(selective victim directory)技术,使得victim目录选择性地仅存储有用的目录项,从而进一步减少了目录替换的数量.选择性victim目录通过向所有节点的cache发出探查消息(probe messages),从而选择性地存储较为有用的目录项.实验证明,选择性victim目录取得了比简单victim目录更好的性能;而且在仅增加了1KB左右的硬件开销的代价下,选择性victim目录节省了35.7%的程序运行时间. 展开更多
关键词 ccNUMA系统 稀疏目录 替换算法 victim目录 选择性victim目录
下载PDF
H.264去块滤波算法在众核结构上的并行优化 被引量:2
12
作者 范灵俊 颜成钢 +2 位作者 宋风龙 马宜科 范东睿 《小型微型计算机系统》 CSCD 北大核心 2011年第11期2263-2267,共5页
在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种... 在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升. 展开更多
关键词 H.264 去块滤波 Godson-T众核 并行优化
下载PDF
一种针对片上众核结构共享末级缓存的改进的LFU替换算法 被引量:5
13
作者 张轮凯 宋风龙 王达 《计算机应用与软件》 CSCD 北大核心 2013年第1期1-6,10,共7页
为了得到更高的吞吐率和性能功耗比,众核处理器摒弃了复杂的乱序处理器核,而在芯片内集成了大量的轻量级顺序处理器核。为了更好地支持核间数据共享,并减少访问片外存储器带来的开销,众核处理器往往采用共享的末级缓存LLC(Last LevelCac... 为了得到更高的吞吐率和性能功耗比,众核处理器摒弃了复杂的乱序处理器核,而在芯片内集成了大量的轻量级顺序处理器核。为了更好地支持核间数据共享,并减少访问片外存储器带来的开销,众核处理器往往采用共享的末级缓存LLC(Last LevelCache)。因为需要对为数众多相对独立的访问请求作出响应,因此相对于传统多核处理器的末级片内缓存,众核处理器的末级片内缓存更容易产生抖动现象。传统的最久未使用LRU(Least Recent Used)高速缓存替换策略在这种情况下往往无能为力,而几种最新提出的高速缓存替换策略也见效甚微。基于传统的最不经常使用LFU(Least Frequent Used)替换算法,提出一种改进的高速缓存替换算法。相对于LFU替换算法,该算法获取信息的粒度更粗,并且可以掌握更加全局的信息,而这些优势使得该算法更适合作为众核处理器末级片内缓存的替换算法。实验结果表明,在一个64核的众核处理器上,该替换算法可以有效地缓解末级片内缓存的抖动现象,同时该算法实现需要的硬件开销很小。 展开更多
关键词 众核处理器 末级缓存 替换算法
下载PDF
基于全局同步逻辑时间的访存依赖约减方法 被引量:1
14
作者 唐士斌 宋风龙 +2 位作者 张帅 范东睿 刘志勇 《计算机学报》 EI CSCD 北大核心 2014年第7期1487-1499,共13页
并发执行的并行多线程程序执行过程中,不同的访存顺序会得到不同的执行结果.由于再次执行时,难以重现首次执行时的错误,导致并行程序的调试非常困难.确定性重放是解决该问题的一种方法,目的是通过记录并行程序执行过程中的不确定性事件... 并发执行的并行多线程程序执行过程中,不同的访存顺序会得到不同的执行结果.由于再次执行时,难以重现首次执行时的错误,导致并行程序的调试非常困难.确定性重放是解决该问题的一种方法,目的是通过记录并行程序执行过程中的不确定性事件,然后利用记录的事件重现出程序的原始执行.然而,已有的确定性重放方法会产生大量的记录日志,如何减小记录日志是确定性重放领域的研究热点,在实际应用中也是非常具有挑战性的问题.为了减小记录日志的开销,文中提出了一种基于逻辑时间的访存依赖约减方法,并在支持松弛存储一致性模型的处理器上提出具体的实现技术,该方法利用了访存依赖对应的逻辑时间之间的序关系进行约减.通过模拟评估所提出方法的性能和可扩展性.其中,在8核模拟平台上,通过Splash2测试程序进行评估,结果显示所提出的记录方法平均日志开销为0.11Bytes/Kilo-Instruction,与目前最好的访存依赖约减方法Timetraveler相比提高了75%;通过4核、8核和16核平台的评估结果,表明所提出约减方法具有较好的可扩展性. 展开更多
关键词 多核 并行程序 确定性重放 访存冲突
下载PDF
众核结构上分块LU分解算法的研究
15
作者 余磊 刘志勇 +3 位作者 马宜科 宋风龙 徐卫志 叶笑春 《高技术通讯》 CAS CSCD 北大核心 2011年第3期248-253,共6页
针对科学计算中的经典程序LU分解进行了深入研究。在仔细分析Lu分解算法的基础上,提出了一个理想加速比模型,实现了基于比特翻转异或(BRX)的算法,进而提出了一个动态绝对均衡策略(DABP)算法。为了评估2Dscatter算法、BRX算法和D... 针对科学计算中的经典程序LU分解进行了深入研究。在仔细分析Lu分解算法的基础上,提出了一个理想加速比模型,实现了基于比特翻转异或(BRX)的算法,进而提出了一个动态绝对均衡策略(DABP)算法。为了评估2Dscatter算法、BRX算法和DABP算法3种负载均衡算法的效果,提出了两种负载均衡评估函数,并用这两个函数验证了DABP算法的有效性。在众核结构Godson-T上仿真了3种算法,试验结果表明,在使用64个处理器核的情况下,DABP算法加速比达到46,是3个算法中性能最好的。 展开更多
关键词 计算机体系结构 众核 加速比 负载均衡 LU分解
下载PDF
基于硬件辅助的用户态并行程序记录方法
16
作者 唐士斌 宋风龙 +2 位作者 王达 李文明 刘志勇 《小型微型计算机系统》 CSCD 北大核心 2012年第10期2243-2248,共6页
程序调试工作的首要基础是错误可重现,然而并行程序执行过程存在天然的不确定性,尤其在多核处理器上,如何重现并行程序的错误是一个巨大的挑战.现有的方法或记录整个系统的状态或需要细粒度插桩,存在可用性差与运行时开销大等问题.本文... 程序调试工作的首要基础是错误可重现,然而并行程序执行过程存在天然的不确定性,尤其在多核处理器上,如何重现并行程序的错误是一个巨大的挑战.现有的方法或记录整个系统的状态或需要细粒度插桩,存在可用性差与运行时开销大等问题.本文首次提出一种基于硬件辅助的面向用户态并行程序的轻量级记录与重放方法,该方法通过软件协助来记录信号、系统调用与操作系统调度相关的序关系;利用硬件记录访存冲突,同时在记录过程中采用基于目录的方法来压缩日志存储.通过在16核模拟平台上评估,本文提出的方法不仅方便了用户态并行程序调试,同时减少了81%的存储日志开销. 展开更多
关键词 多核 并行程序 确定性重放 访存冲突
下载PDF
细粒度并行归一化部分失真运动估计
17
作者 袁竞杰 张清毅 +1 位作者 马宜科 宋风龙 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2013年第6期813-818,共6页
移动视频编码应用对实时性要求越来越高,传统编码器中使用的串行运动估计算法难以满足实时编码要求.本文并行化移动编码中典型的运动估计算法———归一化部分失真搜索.采用比帧和宏块更小的候选块作为并行粒度,保持归一化部分失真快速... 移动视频编码应用对实时性要求越来越高,传统编码器中使用的串行运动估计算法难以满足实时编码要求.本文并行化移动编码中典型的运动估计算法———归一化部分失真搜索.采用比帧和宏块更小的候选块作为并行粒度,保持归一化部分失真快速排除非最佳候选块优势,同时充分利用多核计算资源.4核CPU平台上实验结果表明,相比串行算法,该并行算法在计算量增加不超过1.2%的前提下,实现了3.88至3.96的加速比. 展开更多
关键词 视频编码 运动估计 部分失真搜索 并行计算
下载PDF
Godson-T:An Efficient Many-Core Architecture for Parallel Program Executions 被引量:11
18
作者 范东睿 袁楠 +9 位作者 张军超 周永彬 林伟 宋风龙 叶笑春 黄河 余磊 龙国平 张浩 刘磊 《Journal of Computer Science & Technology》 SCIE EI CSCD 2009年第6期1061-1073,共13页
Moore's law will grant computer architects ever more transistors for the foreseeable future, and the challenge is how to use them to deliver efficient performance and flexible programmability. We propose a many-core ... Moore's law will grant computer architects ever more transistors for the foreseeable future, and the challenge is how to use them to deliver efficient performance and flexible programmability. We propose a many-core architecture, Godson- T, to attack this challenge. On the one hand, Godson-T features a region-based cache coherence protocol, asynchronous data transfer agents and hardware-supported synchronization mechanisms, to provide full potential for the high efficiency of the on-chip resource utilization. On the other hand, Godson-T features a highly efficient runtime system, a Pthreadslike programming model, and versatile parallel libraries, which make this many-core design flexibly programmable. This hardware/software cooperating design methodology bridges the high-end computing with mass programmers. Experimental evaluations are conducted on a cycle-accurate simulator of Godson-T. The results show that the proposed architecture has good scalability, fast synchronization, high computational efficiency, and flexible programmability. 展开更多
关键词 MANY-CORE parallel computing multithread data communication thread synchronization runtime system
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部