BOOM处理器采用的Store指令回查策略虽然解决了访存指令乱序执行引发的数据冲突问题,但是该策略会导致流水线的大量冲刷,降低了处理器的性能。对此,提出了一种访存指令的相关性预测方法。该方法取消了Load指令访存前的查询操作,增加了L...BOOM处理器采用的Store指令回查策略虽然解决了访存指令乱序执行引发的数据冲突问题,但是该策略会导致流水线的大量冲刷,降低了处理器的性能。对此,提出了一种访存指令的相关性预测方法。该方法取消了Load指令访存前的查询操作,增加了Load指令相关性预测表,只有预测为无相关性的Load指令才可以乱序执行。这种方法在保证程序逻辑正确的前提下避免了大量冲刷流水线。测试程序采用SPEC CPU 2006下的7个子程序,实验结果表明,改进后的处理器执行程序的性能平均提升了3.5%。展开更多
数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种...数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。展开更多
文摘BOOM处理器采用的Store指令回查策略虽然解决了访存指令乱序执行引发的数据冲突问题,但是该策略会导致流水线的大量冲刷,降低了处理器的性能。对此,提出了一种访存指令的相关性预测方法。该方法取消了Load指令访存前的查询操作,增加了Load指令相关性预测表,只有预测为无相关性的Load指令才可以乱序执行。这种方法在保证程序逻辑正确的前提下避免了大量冲刷流水线。测试程序采用SPEC CPU 2006下的7个子程序,实验结果表明,改进后的处理器执行程序的性能平均提升了3.5%。
文摘数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。