期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
HL-TLS:支持热点的线程级猜测编译实现
1
作者 金跃 李春强 +1 位作者 尚云海 卢永江 《计算机工程》 CAS CSCD 北大核心 2015年第11期77-83,共7页
猜测并行化编译,即线程级猜测(TLS)编译,可将原来顺序运行的程序并行化。但由于猜测数据的不确定性引起的数据管理开销过大,以及猜测线程失败引起的线程回滚开销,使得并行后的执行性能较低。针对上述问题,提出一种HL-TLS并行化编译优化... 猜测并行化编译,即线程级猜测(TLS)编译,可将原来顺序运行的程序并行化。但由于猜测数据的不确定性引起的数据管理开销过大,以及猜测线程失败引起的线程回滚开销,使得并行后的执行性能较低。针对上述问题,提出一种HL-TLS并行化编译优化框架。HL-TLS能有效地标记并行化的循环体为热点循环体,采用对最高层次热点循环体进行更激进的并行化的方式提高性能,而对非热点循环体采用保守的顺序执行以减少开销。实验结果表明,使用HL-TLS编译优化框架,实验程序的执行效率可以提高20%。 展开更多
关键词 并行计算 多线程 猜测执行 线程级猜测并行 热点循环 动态转换执行机制
下载PDF
基于性能预测的推测多线程循环选择方法 被引量:7
2
作者 刘斌 赵银亮 +4 位作者 韩博 李玉祥 吉烁 冯博琴 武万杰 《电子与信息学报》 EI CSCD 北大核心 2014年第11期2768-2774,共7页
线程级推测(Thread-Level Speculation,TLS)是多核上一种加速串行程序的线程级自动并行化技术。循环具有规则的结构并在运行时占有大量的执行时间,因此循环是挖掘并行性的理想对象。然而,选择哪些循环并行才能提高程序的加速比是一个很... 线程级推测(Thread-Level Speculation,TLS)是多核上一种加速串行程序的线程级自动并行化技术。循环具有规则的结构并在运行时占有大量的执行时间,因此循环是挖掘并行性的理想对象。然而,选择哪些循环并行才能提高程序的加速比是一个很难决定的问题。为了解决该问题,该文提出一种基于性能预测的循环选择方法。基于输入训练集获取程序预执行的剖析信息,同时结合各种推测因素,构建了循环结构的性能预测模型。预测结果定量评估了循环推测并行的加速比并决定该循环在运行时是否适合并行。实验结果表明,该文提出的方法能有效地预测循环并行时所蕴含的并行性,并依据预测结果准确地选择具有并行收益的循环推测并行,最终Olden基准测试集加速比性能平均提升了12.34%。 展开更多
关键词 并行处理 线程级推测 循环选择 性能预测
下载PDF
选择性循环的并行方法 被引量:1
3
作者 吴悦 雷超付 杨洪斌 《计算机工程》 CAS CSCD 北大核心 2010年第9期35-37,40,共4页
针对含有大量循环的串行程序存在的问题,提出一种基于线程级前瞻技术的循环选择方案。该方案对循环进行最优选择后建立一个可并行运行的循环集。对于该集合中的循环,选择并行效率高的代码段作并行处理,以加快串行程序运行速度。实验表明... 针对含有大量循环的串行程序存在的问题,提出一种基于线程级前瞻技术的循环选择方案。该方案对循环进行最优选择后建立一个可并行运行的循环集。对于该集合中的循环,选择并行效率高的代码段作并行处理,以加快串行程序运行速度。实验表明,相对于一般的简单内部循环或外部循环并行方法,该方案使9种基准代码的加速比平均上升23.8%,从而提高串行程序并行运行的效率。 展开更多
关键词 线程级前瞻 循环选择 并行运行 单片多核处理器
下载PDF
多核平台上的线程级猜测执行综述 被引量:1
4
作者 郭辉 王琼 +1 位作者 沈立 王志英 《计算机科学》 CSCD 北大核心 2014年第1期16-21,共6页
多核体系结构的发展,使人们可以以猜测的方式挖掘应用中的粗粒度并行,线程级猜测执行(TLS)就是其中的典型代表。它的最大优点是编程模型非常简洁——程序员只需标识出那些可以猜测执行的代码段即可,运行时系统或硬件负责确保猜测线程之... 多核体系结构的发展,使人们可以以猜测的方式挖掘应用中的粗粒度并行,线程级猜测执行(TLS)就是其中的典型代表。它的最大优点是编程模型非常简洁——程序员只需标识出那些可以猜测执行的代码段即可,运行时系统或硬件负责确保猜测线程之间的数据相关不被破坏。全面分析了现有的TLS技术,总结了当前TLS面临的挑战和未来的主要发展趋势。主要贡献包括:1)按照猜测变量的生命周期提出了一种新的TLS技术分类方法,并比较了各种已有方法的优缺点;2)根据猜测变量的生命周期,归纳了支持TLS的多核平台的设计空间,提出了探索该设计空间的若干方法;3)指出了TLS技术当前面临的挑战和未来的发展趋势。 展开更多
关键词 多核 体系结构 线程级前瞻 猜测变量
下载PDF
支持线程级猜测的存储体系结构设计 被引量:2
5
作者 赖鑫 刘聪 王志英 《计算机工程》 CAS CSCD 2012年第24期228-234,共7页
在线程级猜测中进行数据依赖相关检测时,存在Cache一致性协议无法容忍线程切换引起的Cache块替换等问题。为此,通过分析推测线程数据管理模型,结合推测线程切概率低的特点,提出一种分布-共享式恢复缓冲区结构。该结构在进行Cache一致性... 在线程级猜测中进行数据依赖相关检测时,存在Cache一致性协议无法容忍线程切换引起的Cache块替换等问题。为此,通过分析推测线程数据管理模型,结合推测线程切概率低的特点,提出一种分布-共享式恢复缓冲区结构。该结构在进行Cache一致性检验时结合作废向量和版本优先级寄存器进行数据依赖检测,利用L2 Cache进行推测数据缓冲和恢复以支持推测线程切换。修改SESC模拟器以验证和评估该存储体系结构。实验结果表明,在保持模拟器理想加速比的情况下,该存储体系结构可以较好地支持推测线程切换。 展开更多
关键词 线程级猜测 CACHE一致性协议 存储系统设计 缓冲区恢复 作废向量 版本优先级寄存器
下载PDF
TACLeBench中内核程序循环级推测并行性分析
6
作者 孟慧玲 王耀彬 +3 位作者 李凌 杨洋 王欣夷 刘志勤 《计算机应用》 CSCD 北大核心 2021年第9期2652-2657,共6页
线程级推测(TLS)技术可挖掘程序并行执行潜能,提高多核资源利用率,但目前TACLeBench的内核基准仍未在TLS并行化中得到有效分析。针对该问题设计了循环级推测执行的剖析方案和剖析工具。选取7个代表性的TACLeBench内核基准程序,首先对程... 线程级推测(TLS)技术可挖掘程序并行执行潜能,提高多核资源利用率,但目前TACLeBench的内核基准仍未在TLS并行化中得到有效分析。针对该问题设计了循环级推测执行的剖析方案和剖析工具。选取7个代表性的TACLeBench内核基准程序,首先对程序进行初始化分析,选取程序热点片段插入循环标识;其次对这些片段进行交叉编译,记录程序推测线程与内存地址相关数据,剖析其循环级最大潜在并行性;最后综合探讨程序运行时的特征(线程粒度、可并行化覆盖率、依赖特征)以及源码对加速比的影响。实验结果表明:1)该类程序适合采用TLS加速,与串行执行结果相比,循环结构的推测执行下的大部分程序的加速比在2以上,其中最高加速比达到20.79;2)利用TLS加速TACLeBench内核程序时,多数应用可有效利用4核到16核的计算资源。 展开更多
关键词 线程级推测 多核 并行 TACLeBench 内核基准
下载PDF
HPEC中子程序级推测并行性分析
7
作者 王欣夷 王耀彬 +3 位作者 李凌 杨洋 卜得庆 刘志勤 《计算机工程》 CAS CSCD 北大核心 2020年第8期210-215,222,共7页
线程级推测(TLS)技术的有效运用可提高多核芯片的硬件资源利用率,其已在多种串行应用的自动并行化工作中取得了较好效果,但目前缺乏对HPEC应用子程序级线程推测方面的有效分析。针对该问题,设计子程序级推测的剖析机制及核心数据结构,选... 线程级推测(TLS)技术的有效运用可提高多核芯片的硬件资源利用率,其已在多种串行应用的自动并行化工作中取得了较好效果,但目前缺乏对HPEC应用子程序级线程推测方面的有效分析。针对该问题,设计子程序级推测的剖析机制及核心数据结构,选取HPEC中7个具有代表性的程序,挖掘其子程序级的最大潜在并行性,并结合线程粒度、并行覆盖率、子程序调用次数、数据依赖及源码,对程序的加速比进行分析。实验结果表明,fdfir、svd、db和ga程序的加速比在2.23~11.31,tdfir程序的加速效果最好,加速比达到221.78,对于包含多次非重度数据依赖子程序调用的应用,更适合采用子程序级TLS技术测试其并行性。 展开更多
关键词 线程级推测 多核芯片 HPEC基准套件 数据依赖 动态剖析
下载PDF
A Static Greedy and Dynamic Adaptive Thread Spawning Approach for Loop-Level Parallelism 被引量:1
8
作者 李美蓉 赵银亮 +1 位作者 陶悠 王启明 《Journal of Computer Science & Technology》 SCIE EI CSCD 2014年第6期962-975,共14页
Thread-level speculation becomes more attractive for the exploitation of thread-level parallelism from irregular sequential applications. But it is common for speculative threads to fail to reach the expected parallel... Thread-level speculation becomes more attractive for the exploitation of thread-level parallelism from irregular sequential applications. But it is common for speculative threads to fail to reach the expected parallel performance. The reason is that the performance of speculative threads is extremely complicated by the fact that it not only suffers from the imprecision of compiler-directed performance estimation due to ambiguous control and data dependences, but also depends on the underlying hardware configuration and program behaviors. Thus, this paper proposes a statically greedy and dynamically adaptive approach for loop-level speculation to dynamically determine the best loop level at runtime. It relies on the compiler to select and optimize all loop candidates greedily, which are then proceeded on the cost-benefit analysis of different loop nesting levels for the determination of the order of loop speculation. Under the runtime loop execution prediction, we dynamically schedule and update the order of loop speculation, and ensure the best loop level to be always parallelized. Two different policies are also examined to maximize overall performance. Compared with traditional static loop selection techniques, our approach (:an achieve comparable or better performance. 展开更多
关键词 thread-level speculation loop performance prediction dynamic loop selection
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部