随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了...随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。展开更多
针对片上网络(network on chip,简称NoC)的节点数量少、距离近、物理实现复杂度受到限制的特点,提出了一种新的Xmesh拓扑结构,并为该结构提出了XM路由算法.该结构在经典的mesh结构的基础上添加了两个对角线型的回边,缩短了节点间的距离...针对片上网络(network on chip,简称NoC)的节点数量少、距离近、物理实现复杂度受到限制的特点,提出了一种新的Xmesh拓扑结构,并为该结构提出了XM路由算法.该结构在经典的mesh结构的基础上添加了两个对角线型的回边,缩短了节点间的距离,而且路由计算的复杂性不高,实现的复杂度基本没有增加.将Xmesh与经典的Mesh和Torus结构进行了理论分析比较,同时,在Popnet模拟器上基于均衡负载和热点负载两种负载模式进行性能比较.模拟结果表明,Xmesh平均延时不到Mesh结构的70%.对于均衡负载,当网络规模较小时,Xmesh的延时比Torus的更小;对于热点负载,当热点距离网络中心或者对角线比较近时,Xmesh的延时比Torus的小10%~30%.反之,其延时比Torus的大10%~30%.总的来说,Xmesh的性能与Torus比较接近,但其物理实现更为简单,Xmesh比Mesh结构的性能更好.展开更多
文摘随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。
基金Supported by the National Natural Foundation of China for Distinguished Young Scholars under Grant No.60325205(国家杰出青年基金)the National Natural Science Foundation of China under Grant No.60673146(国家自然科学基金)+6 种基金the National High-Tech Research and Development Plan of China under Grant Nos.2005AA1100102005AAl19020(国家高技术研究发展计划(863))the National Basic Research Program of China under Grant No.2005CB321600(国家重点基础研究发展计划(973))the Natural Science Foundation of Beijing of China under Grant No.4072024(北京市自然科学基金)Knowledge Innovation Program of the Institute of Computing Technologythe Chinese Academy of Sciences under Grant Nos.2005624020066012(中国科学院计算技术研究所知识创新课题)
文摘针对片上网络(network on chip,简称NoC)的节点数量少、距离近、物理实现复杂度受到限制的特点,提出了一种新的Xmesh拓扑结构,并为该结构提出了XM路由算法.该结构在经典的mesh结构的基础上添加了两个对角线型的回边,缩短了节点间的距离,而且路由计算的复杂性不高,实现的复杂度基本没有增加.将Xmesh与经典的Mesh和Torus结构进行了理论分析比较,同时,在Popnet模拟器上基于均衡负载和热点负载两种负载模式进行性能比较.模拟结果表明,Xmesh平均延时不到Mesh结构的70%.对于均衡负载,当网络规模较小时,Xmesh的延时比Torus的更小;对于热点负载,当热点距离网络中心或者对角线比较近时,Xmesh的延时比Torus的小10%~30%.反之,其延时比Torus的大10%~30%.总的来说,Xmesh的性能与Torus比较接近,但其物理实现更为简单,Xmesh比Mesh结构的性能更好.
基金supported by Hi-Tech Research and Development Program of China(2007AA01Z109)the National Natural Science Foundation of China(60633060)by the National Basic Research Program of China (973)(2005CB321604)