期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
众核体系结构对Cilk语言的硬件支持及评测研究 被引量:7
1
作者 龙国平 张军超 范东睿 《计算机学报》 EI CSCD 北大核心 2008年第11期1975-1985,共11页
如何编程众核体系结构是当前一个亟待解决的问题.研究可扩展的硬件机制支持Cilk编程模型的目的是在良好的编程性和可扩展硬件实现之间达到平衡.Cilk语言是C的精简扩展,程序员编写Cilk程序时和串行编程近似,且不需关心调度、负载均衡和... 如何编程众核体系结构是当前一个亟待解决的问题.研究可扩展的硬件机制支持Cilk编程模型的目的是在良好的编程性和可扩展硬件实现之间达到平衡.Cilk语言是C的精简扩展,程序员编写Cilk程序时和串行编程近似,且不需关心调度、负载均衡和局部性等系统底层相关的问题.文中以域一致性存储模型为基础,主要工作包括两方面:首先针对域一致性模型编程性不好的缺点提出一种以数据为中心维护高速缓存一致性的方法;其次提出实现DAG Consistency的缓存一致性协议,并在此基础上支持Cilk编程模型.实验结果表明,当处理器核数目较少(<16)时所有测试程序都能获得比较好的性能加速,并且指出了众核情况下(>16)难以获得理想加速效果的两个根本原因:静态路由导致片上网络带宽利用不均衡以及有限的访存带宽. 展开更多
关键词 众核体系结构 Cilk 域一致性 编程模型 存储模型
下载PDF
LU分解在众核结构仿真器上的指令级调度研究 被引量:5
2
作者 余磊 刘志勇 +1 位作者 宋风龙 叶笑春 《系统仿真学报》 CAS CSCD 北大核心 2011年第12期2603-2610,共8页
随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了... 随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。 展开更多
关键词 计算机体系结构 众核 加速比 指令级并行 LU分解
原文传递
LU分解在Godson-Tv1众核体系结构上的并行化研究 被引量:2
3
作者 龙国平 范东睿 《计算机学报》 EI CSCD 北大核心 2009年第11期2157-2167,共11页
随着集成电路工艺的发展,众核体系结构成为人们日益关注的计算平台.LU分解是科学和工程计算中被广泛使用的核心算法之一,尽管在传统的并行体系结构上已有大量的并行化研究工作,但是结合新型众核体系结构特征的工作还不多.文章从负载均... 随着集成电路工艺的发展,众核体系结构成为人们日益关注的计算平台.LU分解是科学和工程计算中被广泛使用的核心算法之一,尽管在传统的并行体系结构上已有大量的并行化研究工作,但是结合新型众核体系结构特征的工作还不多.文章从负载均衡、延迟容忍和性能分析模型3个方面系统研究了LU分解在众核体系结构上的并行化问题.该文的贡献在于:首先,针对二维卷帘负载分配方案难以达到良好负载均衡的缺点,提出一种新的"之"字形分配方案,实验表明不经任何优化的情况下性能比前者提高20%,优化后达到了40%;其次,提出了一个性能加速比的分析模型,并用实验定量研究了实测性能加速比和理论值之间的差距,发现在合理利用片上存储优化访存延迟,并恰当选择矩阵分块参数的情况下,实测加速效果能比较接近理论值;通过实验还证明实测性能难以达到理论预测值的两个主要原因:访存带宽有限和片上网络的资源竞争. 展开更多
关键词 众核体系结构 LU分解 并行化 延迟容忍 性能模型
下载PDF
众核结构上分块LU分解算法的研究
4
作者 余磊 刘志勇 +3 位作者 马宜科 宋风龙 徐卫志 叶笑春 《高技术通讯》 CAS CSCD 北大核心 2011年第3期248-253,共6页
针对科学计算中的经典程序LU分解进行了深入研究。在仔细分析Lu分解算法的基础上,提出了一个理想加速比模型,实现了基于比特翻转异或(BRX)的算法,进而提出了一个动态绝对均衡策略(DABP)算法。为了评估2Dscatter算法、BRX算法和D... 针对科学计算中的经典程序LU分解进行了深入研究。在仔细分析Lu分解算法的基础上,提出了一个理想加速比模型,实现了基于比特翻转异或(BRX)的算法,进而提出了一个动态绝对均衡策略(DABP)算法。为了评估2Dscatter算法、BRX算法和DABP算法3种负载均衡算法的效果,提出了两种负载均衡评估函数,并用这两个函数验证了DABP算法的有效性。在众核结构Godson-T上仿真了3种算法,试验结果表明,在使用64个处理器核的情况下,DABP算法加速比达到46,是3个算法中性能最好的。 展开更多
关键词 计算机体系结构 众核 加速比 负载均衡 LU分解
下载PDF
Xmesh:一个mesh-like片上网络拓扑结构 被引量:17
5
作者 朱晓静 胡伟武 +1 位作者 马可 章隆兵 《软件学报》 EI CSCD 北大核心 2007年第9期2194-2204,共11页
针对片上网络(network on chip,简称NoC)的节点数量少、距离近、物理实现复杂度受到限制的特点,提出了一种新的Xmesh拓扑结构,并为该结构提出了XM路由算法.该结构在经典的mesh结构的基础上添加了两个对角线型的回边,缩短了节点间的距离... 针对片上网络(network on chip,简称NoC)的节点数量少、距离近、物理实现复杂度受到限制的特点,提出了一种新的Xmesh拓扑结构,并为该结构提出了XM路由算法.该结构在经典的mesh结构的基础上添加了两个对角线型的回边,缩短了节点间的距离,而且路由计算的复杂性不高,实现的复杂度基本没有增加.将Xmesh与经典的Mesh和Torus结构进行了理论分析比较,同时,在Popnet模拟器上基于均衡负载和热点负载两种负载模式进行性能比较.模拟结果表明,Xmesh平均延时不到Mesh结构的70%.对于均衡负载,当网络规模较小时,Xmesh的延时比Torus的更小;对于热点负载,当热点距离网络中心或者对角线比较近时,Xmesh的延时比Torus的小10%~30%.反之,其延时比Torus的大10%~30%.总的来说,Xmesh的性能与Torus比较接近,但其物理实现更为简单,Xmesh比Mesh结构的性能更好. 展开更多
关键词 拓扑 路由算法 性能分析 负载模式 片上网络
下载PDF
众核处理器片上同步机制和评估方法研究 被引量:10
6
作者 徐卫志 宋风龙 +3 位作者 刘志勇 范东睿 余磊 张帅 《计算机学报》 EI CSCD 北大核心 2010年第10期1777-1787,共11页
同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制... 同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMDOpteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间. 展开更多
关键词 片上众核处理器 同步 硬件支持 量化评估 微程序
下载PDF
基于软硬件的协同支持在众核上对1-DFFT算法的优化研究 被引量:9
7
作者 周永彬 张军超 +1 位作者 张帅 张浩 《计算机学报》 EI CSCD 北大核心 2008年第11期2005-2014,共10页
随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算... 随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算法和体系结构设计者共同面临的挑战.文中在众核处理器Godson-T平台上对1-D FFT算法进行了优化和评估,在节省几乎三分之一L2 Cache存储开销的情况下,通过隐藏矩阵转置,计算与通信重叠等优化策略,使得优化后的1-D FFT算法达到3倍以上的性能提升.并通过片上网络拥塞状况的实验分析,发现对于像FFT这样访存带宽受限的应用,增加L2 Cache的访问带宽,可以缓解因为爆发式读写带给片上网络和L2 Cache的压力,进一步提高程序的性能和扩展性. 展开更多
关键词 众核 Godson-T 快速傅立叶变换 计算与通信重叠
下载PDF
片上多处理器中延迟和容量权衡的cache结构 被引量:3
8
作者 肖俊华 冯子军 章隆兵 《计算机研究与发展》 EI CSCD 北大核心 2009年第1期167-175,共9页
片上多处理器中二级cache的设计面临着延迟和容量不能同时满足的矛盾,私有结构有较小的命中延迟但是减少了cache的有效容量,共享结构能增加cache的有效容量但是有较长的命中延迟.提出了一种适用于CMP的cache结构——延迟和容量权衡的ca... 片上多处理器中二级cache的设计面临着延迟和容量不能同时满足的矛盾,私有结构有较小的命中延迟但是减少了cache的有效容量,共享结构能增加cache的有效容量但是有较长的命中延迟.提出了一种适用于CMP的cache结构——延迟和容量权衡的cache结构(TCLC).该结构是一种混合私有结构和共享结构的设计,核心思想是动态识别cache块的共享类型,根据不同共享类型分别对其进行优化,对私有cache块采用迁移的优化策略,对共享只读cache块采用复制的优化策略,对共享读写cache块采用中心放置的优化策略,以期达到访问延迟接近私有结构,有效容量接近共享结构的目的,从而缓解线延迟的影响,减少平均内存访问延迟.全系统模拟的实验结果表明,采用TCLC结构,相对于私有结构性能平均提高13.7%,相对于共享结构性能平均提高12%. 展开更多
关键词 片上多处理器 TCLC 二级CACHE 复制 迁移 中心放置
下载PDF
H.264去块滤波算法在众核结构上的并行优化 被引量:2
9
作者 范灵俊 颜成钢 +2 位作者 宋风龙 马宜科 范东睿 《小型微型计算机系统》 CSCD 北大核心 2011年第11期2263-2267,共5页
在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种... 在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升. 展开更多
关键词 H.264 去块滤波 Godson-T众核 并行优化
下载PDF
低功耗测试研究进展 被引量:2
10
作者 方芳 王伟 +2 位作者 王杰 陈田 杨年宏 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第6期769-773,785,共6页
随着CMOS器件进入纳米时代,测试时产生的功耗大大超过系统正常工作时的功耗,测试功耗已成为影响芯片设计的重要因素,芯片测试时的低功耗技术也已经成为当前学术界和工业界的一个研究热点。文章首先介绍了低功耗测试技术的基本概念,分析... 随着CMOS器件进入纳米时代,测试时产生的功耗大大超过系统正常工作时的功耗,测试功耗已成为影响芯片设计的重要因素,芯片测试时的低功耗技术也已经成为当前学术界和工业界的一个研究热点。文章首先介绍了低功耗测试技术的基本概念,分析测试中的静态功耗和动态功耗;其次,分类介绍目前常用的测试功耗控制技术;然后,对研究热点的变化和技术发展的趋势做出说明。 展开更多
关键词 测试功耗 低功耗 芯片设计
下载PDF
混合体系结构中有状态硬件加速器的优化 被引量:2
11
作者 马宜科 常晓涛 +1 位作者 范东睿 刘志勇 《计算机学报》 EI CSCD 北大核心 2011年第7期1314-1322,共9页
在诸多计算领域中,硬件加速器可以代替通用处理器上执行的软件完成专用功能,达到提高性能和降低功耗的目的.网络应用中,许多硬件加速器是无状态的,这就需要一个网络流的全部数据包到达后才能被处理.有状态加速器则可以确保每个数据包到... 在诸多计算领域中,硬件加速器可以代替通用处理器上执行的软件完成专用功能,达到提高性能和降低功耗的目的.网络应用中,许多硬件加速器是无状态的,这就需要一个网络流的全部数据包到达后才能被处理.有状态加速器则可以确保每个数据包到达后即可被处理,因而具有更好的性能和灵活性.由于网络流的并发性,有状态加速器需要维护众多并发网络流的状态,并在需要时进行硬件状态切换,从而增加了加速器的性能开销.该文基于请求队列提出对不同网络流的请求进行动态重排序的方法,其中请求所在的队列可以在片上也可以在片外,从而有效减少加速器的状态切换次数.对多种流行的有状态加速器进行的实验结果表明,该方法可以有效降低加速器的平均响应时间并提高吞吐率.实验结果表明:与传统的FIFO设计对比,解压缩加速器的吞吐率最大提高了26.7%,响应时间最大减少了50%. 展开更多
关键词 硬件加速 混合体系结构 有状态加速器
下载PDF
数字电路测试压缩方法研究(英文) 被引量:3
12
作者 韩银和 李晓维 《中国科学院研究生院学报》 CAS CSCD 2007年第6期847-857,共11页
测试压缩可以在没有故障覆盖率损失的情况下,极大地降低测试时间和测试数据量,弥补了测试设备和芯片制造能力提升之间的差距,受到学术界和工业界的广泛关注.测试数据分为测试激励和测试响应2种,测试压缩也对应分为测试激励压缩和测试响... 测试压缩可以在没有故障覆盖率损失的情况下,极大地降低测试时间和测试数据量,弥补了测试设备和芯片制造能力提升之间的差距,受到学术界和工业界的广泛关注.测试数据分为测试激励和测试响应2种,测试压缩也对应分为测试激励压缩和测试响应压缩2个方面.本文针对这2方面分别展开了研究.主要贡献包含:(1)提出了一种Variable-Tail编码.Variable-Tail是一种变长-变长的编码,对于X位密度比较高的测试向量能够取得更高的测试压缩率.实验数据表明,如结合测试向量排序算法,则使用Variable-Tail编码可以取得很接近于编码压缩理论上界的压缩效果(平均差距在1.26 %左右) ,同时还可以减少20 %的测试功耗.(2)提出了一种并行芯核外壳设计方法.研究发现了测试向量中存在着扫描切片重叠和部分重叠现象.当多个扫描切片重叠时,它们仅需要装载一次,这样就可以大大减少测试时间和测试数据量.实验结果表明,使用并行外壳设计,测试时间可以减少到原来的2/3 ,测试功耗可以减少到原来的1/15 .(3)提出了3X测试压缩结构.3X测试压缩结构包含了3个主要技术:X-Config激励压缩、X-Balance测试产生和X-Tolerant响应压缩.X-Config激励压缩提出了一个周期可重构的MUX网络.X-Balance测试产生综合考虑了动态压缩、测试数据压缩和扫描设计等因素,产生测试向量.它使用了回溯消除算法和基于确定位概率密度的扫描链设计算法,减少测试向量体积.X-Tolerant响应压缩提出了一种单输出的基于卷积编码的压缩电路.该压缩电路只需要一个数据,因此总能保证最大的压缩率.同时为了提高对X位的容忍能力,还提出了一个多权重的基本校验矩阵生成算法. 展开更多
关键词 系统芯片 测试激励压缩 测试响应压缩 扫描设计 自动测试向量生成(ATPG) 不关心位 未知位 卷积编码
下载PDF
Xen虚拟化环境中镜像文件的访问直接映射研究 被引量:1
13
作者 杨亚军 高云伟 《高技术通讯》 CAS CSCD 北大核心 2012年第5期483-489,共7页
针对虚拟化环境中镜像文件模式虚拟块设备因繁琐的访问映射过程而造成的性能低下问题,提出了一种Xen虚拟化环境中镜像文件的访问直接映射机制,而且提出了在此机制下面向镜像文件模式的虚拟块设备到物理块设备的访问直接映射算法。根... 针对虚拟化环境中镜像文件模式虚拟块设备因繁琐的访问映射过程而造成的性能低下问题,提出了一种Xen虚拟化环境中镜像文件的访问直接映射机制,而且提出了在此机制下面向镜像文件模式的虚拟块设备到物理块设备的访问直接映射算法。根据此算法,实现了虚拟块设备和物理块设备之间的访问直接映射,该机制简化了镜像文件模式虚拟块设备I/O访问过程中繁琐的访问映射过程,有效地提高了镜像文件的I/O性能。试验表明,相对于传统的镜像文件,这样的访问直接映射可使镜像文件的I/O性能提高28%. 展开更多
关键词 虚拟化 镜像文件 文件块号 物理块号 直接映射
下载PDF
带类型恢复的编译器源源翻译技术 被引量:7
14
作者 米伟 李玉祥 +2 位作者 陈莉 冯晓兵 张兆庆 《计算机研究与发展》 EI CSCD 北大核心 2010年第7期1145-1155,共11页
源源翻译是使编译器的分析和优化可重定向的一种重要方式.它被广泛用来支持并行语言扩展或者各种体系结构无关的优化,并且可以帮助程序员进行正确性或者性能的调试.在多核/众核时代,程序分析和优化倾向于让用户更多地参与,这种平台无关... 源源翻译是使编译器的分析和优化可重定向的一种重要方式.它被广泛用来支持并行语言扩展或者各种体系结构无关的优化,并且可以帮助程序员进行正确性或者性能的调试.在多核/众核时代,程序分析和优化倾向于让用户更多地参与,这种平台无关而且用户友好的代码生成方式也越来越受到欢迎.在简单的编译器中添加源源翻译的支持很容易,但在实现了复杂的程序分析和激进的优化的编译器中,却很少有编译器提供健壮的源源翻译支持.优化对程序结构的改变是造成翻译困难的首要原因.结合大量出错实例对优化给源源翻译带来的困难进行分析,提出了一套基于类型恢复的翻译技术,并在Open64编译器中实现了这种方法.通过supertest和spec2000测试集的测试,验证了这种方法对源源翻译的健壮性有很大改善.该方法的实现模块集成在源源翻译器内,与编译器各种分析优化模块独立,所以该方法容易移植到其他编译器中. 展开更多
关键词 编译器 源源翻译 可重定向 中间表示 类型不一致 类型恢复
下载PDF
PartitionSim:一个面向众核结构的并行模拟器 被引量:2
15
作者 焦帅 徐卫志 +2 位作者 唐士斌 范东睿 孙凝晖 《计算机学报》 EI CSCD 北大核心 2011年第11期2084-2092,共9页
该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方... 该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方法将目标结构分割成两部分:交互部分和非交互部分.当模拟交互部分时,主机线程严格同步,维持时序精确.当模拟非交互部分时,主机线程通过异步运行,提高模拟速度,并且产生较小的时序损失.文中所述工作在一个16核的SMP机器上用PartitionSim模拟了千核规模的Godson-T众核结构.实验结果显示,PartitionSim展示出良好的加速比,达到最高25MIPS的模拟速度,时序损失平均值为0.92%. 展开更多
关键词 并行模拟 众核 Godson-T 时序分割
下载PDF
指导cache静态划分的程序性能profiling优化技术 被引量:3
16
作者 贾耀仓 武成岗 张兆庆 《计算机研究与发展》 EI CSCD 北大核心 2012年第1期93-102,共10页
对于共享cache的多核处理器,如何管理好各个核对cache的利用,对于充分发挥多核处理器性能是很关键的问题.目前采用的cache替换方法程序间会出现性能干扰,cache静态划分技术则是通过为同时运行的程序分配不同的空间来解决性能干扰问题.... 对于共享cache的多核处理器,如何管理好各个核对cache的利用,对于充分发挥多核处理器性能是很关键的问题.目前采用的cache替换方法程序间会出现性能干扰,cache静态划分技术则是通过为同时运行的程序分配不同的空间来解决性能干扰问题.为了给程序分配合适大小的cache空间,需要对程序进行性能profiling,即事先多遍运行收集程序在各种cache容量下的性能数据,这种性能profiling方法开销巨大,影响实用.为了解决性能profiling需要多遍运行程序的问题,提出了只需单遍运行的程序性能profiling优化技术.该技术利用在线的phase分析技术识别程序的运行阶段,避免对相同阶段的重复profiling;同时分析程序各phase的性能同cache容量变化的关系趋势,对于性能不敏感的容量变化则不进行profiling,降低开销.在程序运行结束后通过程序各phase在cache各种容量下的性能来估计程序在各容量下的整体性能,以指导cache静态划分.实验表明,该技术的开销仅为7%,而该方法指导的cache划分比未划分时有8%的性能改进,同多遍运行的程序性能profiling指导的cache划分性能相比仅有1%的下降. 展开更多
关键词 多核 CACHE划分 页着色 性能profiling phase分析
下载PDF
全局部分重复计算划分 被引量:2
17
作者 王轶然 陈莉 +1 位作者 冯晓兵 张兆庆 《计算机研究与发展》 EI CSCD 北大核心 2006年第12期2158-2165,共8页
并行化编译器常常采用拥有者计算规则来进行计算划分,为了提高性能和可扩展性,后来引入了部分重复计算划分的概念·这是一种针对并行程序节点间局部性的重要优化方法·以前的部分重复计算划分局限于一个循环套的范围,因此新提... 并行化编译器常常采用拥有者计算规则来进行计算划分,为了提高性能和可扩展性,后来引入了部分重复计算划分的概念·这是一种针对并行程序节点间局部性的重要优化方法·以前的部分重复计算划分局限于一个循环套的范围,因此新提出了全局部分重复计算划分的问题,给出一个简化的性能模型和一个基于整数线性规划的全局部分重复计算划分框架·实验结果表明,其结果显著优于局限于单个循环套的部分重复计算划分,比以前提出的启发式方法有更好的适应性· 展开更多
关键词 并行化编译器 分布式主存系统 部分重复计算划分 数据并行
下载PDF
基于交易级建模的ATA控制器功能验证方法研究
18
作者 李潮激 张珩 沈海华 《计算机工程与设计》 CSCD 北大核心 2008年第2期261-263,273,共4页
交易级建模技术适用于构建大规模电路系统的功能验证平台。结合C++天生的类继承机制和SystemC的接口通道机制,基于该建模技术的ATA控制器验证平台成功实现了随机化的交易级验证,降低了设计模块间通信的复杂度,结构上具有良好的可扩展性... 交易级建模技术适用于构建大规模电路系统的功能验证平台。结合C++天生的类继承机制和SystemC的接口通道机制,基于该建模技术的ATA控制器验证平台成功实现了随机化的交易级验证,降低了设计模块间通信的复杂度,结构上具有良好的可扩展性和可重用性。着重阐述该验证平台中抽象通道与适配器的通用设计方法,提出了一种基于面向对象技术的创新的验证平台设计模式,并分析了交易级建模和RTL建模之间的区别以及交易级建模技术在提高验证效率上的优势。 展开更多
关键词 交易级建模 功能验证 设计模式 重用性 覆盖率
下载PDF
一个面向虚拟网络拓扑发现系统的设计与实现
19
作者 徐东 孙毓忠 刘金刚 《微计算机信息》 2010年第9期123-125,共3页
伴随当前虚拟化技术的成熟及应用,很多企业和单位开始尝试应用虚拟化技术,因此,对部门内部虚拟网络高效管理的需求变得尤为突出,而网络拓扑信息又是网络管理的先决条件,在对目前网络拓扑自动发现技术深入分析研究的基础上,本文设计并实... 伴随当前虚拟化技术的成熟及应用,很多企业和单位开始尝试应用虚拟化技术,因此,对部门内部虚拟网络高效管理的需求变得尤为突出,而网络拓扑信息又是网络管理的先决条件,在对目前网络拓扑自动发现技术深入分析研究的基础上,本文设计并实现了一个面向虚拟网络的物理拓扑自动发现系统,它综合了多种拓扑发现机制和技术的优势,具有设计复杂度低,发现拓扑结构快速和完整的特点。 展开更多
关键词 虚拟网络 路由表 拓扑发现
下载PDF
基于SimpleScalar的龙芯CPU模拟器Sim-Godson 被引量:25
20
作者 张福新 章隆兵 胡伟武 《计算机学报》 EI CSCD 北大核心 2007年第1期68-73,共6页
现代高性能通用处理器的设计越来越复杂,模拟器在处理器设计中所起的作用越来越大.龙芯2号是中国科学院计算技术研究所研制的高性能通用处理器.最早开发的龙芯2号的模拟器ICT-Godson是信号级模拟器,它模拟了处理器的所有细节,十分准确,... 现代高性能通用处理器的设计越来越复杂,模拟器在处理器设计中所起的作用越来越大.龙芯2号是中国科学院计算技术研究所研制的高性能通用处理器.最早开发的龙芯2号的模拟器ICT-Godson是信号级模拟器,它模拟了处理器的所有细节,十分准确,但速度和灵活性有较大限制.文章基于SimpleScalar工具集,设计并实现了龙芯2号的模拟器Sim-Godson.Sim-Godson具有高速度和高灵活性的优点,且准确性也很高.在3.0GHz的Pentium4微机上,Sim-Godson速度约为500K指令/s.大部份测试程序在Sim-Godson上的IPC(Instruction PerCycle)与ICT-Godson相差不到5%,达到了很高的准确性.Sim-Godson在龙芯2号的性能分析工作中发挥了重要作用. 展开更多
关键词 模拟器 龙芯2号处理器 SIMPLESCALAR 通用处理器 高性能处理器
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部