LU分解在众核结构仿真器上的指令级调度研究被引量：5

Study on Instruction Scheduling of LU Decomposition on Many-core Architecture Simulator

导出

摘要随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。 With the development of the technology of integrated circuit,many-core architecture has become the research focus.The task level parallelism improves the performance of applications on many-core architecture.However,the instruction level parallelism is still the important issue that computer architectures designer must handle.The float efficiency and speedup were formalized and the necessity of instruction level scheduling was verified.The pipeline in the core was analyzed in details and the general problems of pipeline were pointed out.The instruction scheduling and software pipeline method were proposed.For the LU decomposition in Splash2,with the hardware support,the method on Scratched Pad Memory was simulated.The experiments show that the speedup can achieve 4 when the matrix is 512×512 and the number of threads is 64.

作者余磊刘志勇宋风龙叶笑春

机构地区中国科学院计算技术研究所中国科学院研究生院

出处《系统仿真学报》 CAS CSCD 北大核心 2011年第12期2603-2610,共8页 Journal of System Simulation

基金国家“九七三”重点基础研究发展规划项目(2005CB321600) 国家自然科学基金重点项目(60736012) 国家自然科学基金(61070025) 国家“八六三”高技术研究发展计划项目基金(2009AA01Z103) 国家杰出青年科学基金(60925009) 国际合作欧盟MULTICUBE项目(FP7-216693) 北京市自然科学基金(4092044)

关键词计算机体系结构众核加速比指令级并行 LU分解 computer architecture many-core speedup instruction level parallelism LU decomposition

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献25

1Bousias K, Hasasneh N, Jesshope C. Instruction Level Parallelism through Microthreading~A Scalable Approach to Chip Multiprocessors [J]. The Computer Journal (S0010-4620), 2006, 49(2): 211-233.
2Chang M, Lai F. Efficient Exploitation of Instruction-Level Parallelism for Superscalar Processors by the Conjugate Register File Scheme [J]. IEEE Transactions on Computers (S0018-9340), 1996, 45(3): 278-293.
3Zhong H, Mehrara M. Uncovering Hidden Loop Level Parallelism in Sequential Applications [C]//The 14th International Symposium on High-Performance Computer Architecture (HPCA) (S1530-0897), Salt Lake City, USA. USA: IEEE Press, 2008: 290-301.
4Gschwind M. The Cell Broadband Engine: Exploiting multiple levels of parallelism in a chip multiprocessor [J]. International Journal of Parallel Programming (S0885-7458), 2007, 35(3): 233-262.
5Yu A. The future of microprocessors [J]. IEEE Micro (S0272-1732), 1996, 16(6): 46-53.
6Asanovic K, Bodik R, Catanzaro B C. The Landscape of Parallel Computing Research: A View from Berkeley [EB/OL]. (2006-12-18) [2009-12-03]. www.eecs.berkeley, edu/Pubs/TechRpts/2006/EECS- 2006- 183. html.
7Woo S C, Ohara M, Torrie E, et al. The SPLASH-2 Programs: Characterization and Methodological Considerations [C]// Proceedings of the 22nd International Symposium on Computer Architecture (S1063-6897), Santa Margherita Ligure, Italy. USA: IEEE Press, June 1995: 24-36.
8Venetis I E, Gao G R. Optimizing the LU Benchmark for the Cyclops-64 Architecture [R]. USA: CAPSL Technical Memo 75, University o f Delaware, 2007:3 - 10.
9Petitet A, Whaley R C, Dongarra J, et al. HPL - A Portable Implementation of the High-Performance Linpack Benchmark for Distributed-Memory Computers [EB/OL]. (2008-9-10) [2009-12-03]. http://www.netlib.org/benchmark/hpl.
10Yeager K. The MIPS R10000 Superscalar Microprocessor [J]. IEEE Micro (S0272-t732), 1996, 16(2): 28-41.

二级参考文献80

1周喜明,吴悦,杨洪斌.面向对象的离散事件仿真核的设计和实现[J].计算机工程,2004,30(16):82-84. 被引量：1
2王雷,王旭,李巍.计算机仿真系统生成工具SIMS的设计与实现[J].系统仿真学报,2005,17(6):1392-1395. 被引量：2
3张纯,毛菁霞,张如鸿,吴百锋,彭澄廉,陈泽文,孙晓光.基于图形硬件加速的体绘制关键技术综述[J].计算机工程与设计,2005,26(7):1732-1734. 被引量：5
4王志刚,周学海,李曦,杨君.xpTools:代码压缩系统定制环境[J].小型微型计算机系统,2006,27(7):1250-1253. 被引量：1
5余洁,李曦,周学海,王志刚.可重定向的周期精确模拟器生成环境研究[J].小型微型计算机系统,2007,28(1):166-171. 被引量：2
6Wentzlaff D, Griffin P, Hoffmann H, Bao L, Edwards B, Ramey C, Mattina M, Miao C C, Brown J F, Agarwal A. On-chip interconnection architecture of the Tile processor. IEEE Micro, 2007, 27(5): 15-31
7Tan G, Fan D, Zhang J, Russo A, Gao G R. Experience on optimizing irregular computation for memory hierarchy in manycore architecture//Proceedings of the ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming. Salt Lake City, Utah, USA, 2008: 279-280
8Long G P, Fan D R, Zhang J C, Song F L, Yuan N, Lin W. A performance model of dense matrix operations on manycore architectures//Proceedings of the European Conference on Parallel and Distributed Computing. 2008:120-129
9Lamport L. How to make a multiprocessor computer that correctly executes multiprocess programs. IEEE Transactions on Computers, 1979, 28(9): 690-691
10Adve S V, Gharachorloo K. Shared memory consistency models: A tutorial. IEEE Computer, 1996, 29(12): 66-76

共引文献17

1梅魁志,李国辉,张斌.一种面向写穿透Cache的写合并设计及验证[J].西安交通大学学报,2010,44(4):1-4. 被引量：2
2叶笑春,林伟,范东睿,张浩.蛋白质序列比对算法在众核结构上的并行优化[J].软件学报,2010,21(12):3094-3105. 被引量：3
3余磊,刘志勇,马宜科,宋风龙,徐卫志,叶笑春.众核结构上分块LU分解算法的研究[J].高技术通讯,2011,21(3):248-253.
4曹仰杰,杨海兵,钱德沛,伍卫国.多核编程模型运行时环境的自适应性研究[J].西安交通大学学报,2011,45(6):130-134. 被引量：3
5张保,曹海军,董小社,李丹,胡雷钧.面向图形处理器重叠通信与计算的数据划分方法[J].西安交通大学学报,2011,45(4):1-5. 被引量：5
6曹仰杰,钱德沛,伍卫国,董小社.众核处理器系统核资源动态分组的自适应调度算法[J].软件学报,2012,23(2):240-252. 被引量：14
7王蕾,崔慧敏,陈莉,冯晓兵.任务并行编程模型研究与进展[J].软件学报,2013,24(1):77-90. 被引量：29
8马潇,高立宁,刘腾飞,金烨.基于Cache优化的大点数FFT在TS201上的实现[J].电子与信息学报,2013,35(7):1774-1778. 被引量：8
9周琰.Godson-T缓存一致性协议的Murphi建模和验证[J].计算机系统应用,2013,22(10):124-128. 被引量：3
10刘培林,张晟,李锋.数据采集系统中信号滤波分析方法的优化[J].计算机工程与设计,2013,34(11):4051-4056. 被引量：2

同被引文献57

1黄安文,高军,张民选.多核处理器非一致Cache体系结构延迟优化技术研究综述[J].计算机研究与发展,2012,49(S1):118-124. 被引量：4
2李浩,谢伦国.片上多处理器末级Cache优化技术研究[J].计算机研究与发展,2012,49(S1):172-179. 被引量：5
3贺红,朱大铭,马绍汉.用神经网络求解时间依赖网络最短路径问题的新算法(英文)[J].复旦学报（自然科学版）,2004,43(5):714-716. 被引量：3
4李军,王继业,熊熊,许厚泽.东北亚地区GPS观测数据质量检测和分析[J].武汉大学学报（信息科学版）,2006,31(3):209-212. 被引量：66
5成英燕,程鹏飞,顾旦生,秘金钟.天文大地网与GPS2000网联合平差数据处理方法[J].武汉大学学报（信息科学版）,2007,32(2):148-151. 被引量：13
6周伟明.多核计算与程序设计[M].武汉:华中科技大学出版社,2008.
7GE M, GENDT G, DICK G. A New Data Processing Strategy for Huge GNSS Global Networks[J]. Journal of Geodesy, 2006, 82:199 -203.
8BLEWITT G. Fixed Point Theorems of GPS Carrier Phase Ambiguity Resolution and Their Application to Massive Network Processing: Ambizap[J]. Journal of Geophysical Research, 2008, 113(B12) : 410-416.
9BOOMKAMP H. Global GPS Reference Frame Solutions of Unlimited Size[J]. Advances in Space Research, 2010, 46: 136-143.
10DACH R, HUGENTOBLER U, FRIDEZ P, et al. User Manual of the Bernese GPS Software Version 5. 0[M]. Bern: Stampfli Publications AG Press, 2008: 1-5.

引证文献5

1崔阳,吕志平,陈正生,王宇谱,吕浩.多核环境下的GNSS网平差数据并行处理研究[J].测绘学报,2013,42(5):661-667. 被引量：13
2陈正生,吕志平,崔阳,吕浩.基于BPE的GNSS数据并行快速解算[J].大地测量与地球动力学,2013,33(5):79-82. 被引量：11
3许瑾晨,郭绍忠,黄永忠,王磊.面向异构众核从核的数学函数库访存优化方法[J].计算机科学,2014,41(6):12-17. 被引量：6
4陈家瑞,朱文兴.一种用于并行电路仿真的电路划分算法[J].福州大学学报（自然科学版）,2014,42(4):531-536. 被引量：1
5吕浩,张友阳,吕志平,崔阳,李中全,周海涛.基于Bernese非差的GNSS大网分布式解算[J].测绘科学技术学报,2015,32(5):469-472. 被引量：3

二级引证文献31

1李林阳,吕志平,陈正生,樊黎晖.海量连续运行参考站网数据云存储模型[J].导航定位学报,2014,2(3):64-70. 被引量：8
2陈正生,吕志平,崔阳,王宇谱.大规模GNSS数据的分布式处理与实现[J].武汉大学学报（信息科学版）,2015,40(3):384-389. 被引量：15
3崔阳,吕志平,张友阳,李林阳.大型高精度GNSS基线向量网并行抗差估计[J].测绘学报,2015,44(5):495-502. 被引量：5
4郭东晓,党金涛,李建文,王世忠.iGMAS全球电离层延迟模型及并行计算策略[J].测绘科学技术学报,2015,32(4):357-360. 被引量：9
5郑二龙,伍吉仓,毕元,徐克科.基于GAMIT高精度数据处理及精度分析[J].工程勘察,2015,43(11):55-58. 被引量：3
6李林阳,张友阳,李滨,倪祖斌,周海涛.海量GNSS数据分布式存储与计算方法[J].导航定位学报,2015,3(4):62-68. 被引量：1
7朱李忠,赵忠海,张洪文.基于BERNESE和GAMIT/GLOBK的联合数据处理探讨[J].测绘与空间地理信息,2016,39(1):76-78. 被引量：3
8鲁洋为,王振杰.Bernese 5.0软件下的精密单点定位精度分析[J].测绘通报,2016(2):22-25. 被引量：4
9崔阳,陈正生,吕志平,李林阳,周海涛.非差模式的GNSS数据并行解算设计及实现[J].测绘科学技术学报,2015,32(6):565-569. 被引量：7
10朱李忠,赵忠海,郝宪国.基于BERNESE全球网联合平差分析东北区域速度场[J].地理信息世界,2016,23(3):123-126. 被引量：1

1高永青,丁树江,杨宏亮,袁林英.论Delphi中的线程处理[J].山东电子,2000(2):10-11.
2朱才玺.三种线程池比较[J].科技风,2009(3X):109-110.
3惠普黑幻系列高性能电脑带你争霸新世界[J].数字生活,2010(10):19-19.
4李刚健.基于IP网络远程监控系统的设计与实现[J].微计算机信息,2010(14):57-59. 被引量：2
5张迎平,高国贤,陆一峰,朱登明,王兆其.基于区间树硬件加速索引的Marching Cubes算法[J].计算机辅助设计与图形学学报,2012,24(7):871-878. 被引量：11
6余磊,刘志勇,马宜科,宋风龙,徐卫志,叶笑春.众核结构上分块LU分解算法的研究[J].高技术通讯,2011,21(3):248-253.
7常见Error Msg的处理[J].铁路计算机应用,2007,16(7):58-58.
8Sun造出Niagra处理器芯片[J].计算机研究与发展,2004,41(12).
9Autodesk推出Maya 8[J].大众软件,2006(17):14-15.
10David Hill.为Windows应用创建简单的异步调用模式[J].MSDN开发精选,2005(6):61-62.

系统仿真学报

2011年第12期

浏览历史

内容加载中请稍等...

LU分解在众核结构仿真器上的指令级调度研究被引量：5

参考文献25

二级参考文献80

共引文献17

同被引文献57

引证文献5

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

LU分解在众核结构仿真器上的指令级调度研究 被引量：5

参考文献25

二级参考文献80

共引文献17

同被引文献57

引证文献5

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

LU分解在众核结构仿真器上的指令级调度研究被引量：5