期刊文献+
共找到209篇文章
< 1 2 11 >
每页显示 20 50 100
面向DCU的LDS访存向量化优化 被引量:1
1
作者 杨思驰 赵荣彩 +1 位作者 韩林 王洪生 《计算机工程》 CAS CSCD 北大核心 2024年第2期206-213,共8页
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问... 在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。 展开更多
关键词 深度计算器 本地数据共享 访存向量化 访存特征 bank冲突
下载PDF
基于内存保护键值的细粒度访存监控
2
作者 王睿伯 吴振伟 +3 位作者 张文喆 邬会军 张于舒晴 卢凯 《计算机工程与科学》 CSCD 北大核心 2024年第1期21-27,共7页
基于内存保护键值硬件扩展,提出了一种轻量化且细粒度的页保护机制。突破了传统页保护方法仅支持页粒度访存监控的技术局限,实现了能够拦截每个访存操作的细粒度页保护机制。充分利用内存保护键值提供的用户态线程局部页访问权限控制,... 基于内存保护键值硬件扩展,提出了一种轻量化且细粒度的页保护机制。突破了传统页保护方法仅支持页粒度访存监控的技术局限,实现了能够拦截每个访存操作的细粒度页保护机制。充分利用内存保护键值提供的用户态线程局部页访问权限控制,性能开销相比传统页保护的降低了30%以上。通过融合细粒度页保护与编译插桩,弥补了传统编译插桩方法无法覆盖程序中不可重编译部分的局限性。 展开更多
关键词 访存监控 保护键值 页保护 编译插桩
下载PDF
一种用于软件预取的访存轨迹采样算法
3
作者 刘大兴 顾乃杰 +2 位作者 黄章进 苏俊杰 齐东升 《计算机工程》 CAS CSCD 北大核心 2024年第10期362-369,共8页
软件预取作为提升数据存取性能的一种重要技术,得到了广泛的关注和应用。在软件预取的研究中,往往需要使用访存轨迹分析结合采样算法来筛选出存在缓存未命中的访存指令作为预取目标。然而,传统的迸发采样算法无法区分不同类型的轨迹信息... 软件预取作为提升数据存取性能的一种重要技术,得到了广泛的关注和应用。在软件预取的研究中,往往需要使用访存轨迹分析结合采样算法来筛选出存在缓存未命中的访存指令作为预取目标。然而,传统的迸发采样算法无法区分不同类型的轨迹信息,且容易遗漏访问次数较少的指令。针对以上问题,提出一种基于单遍聚类和分层采样的访存轨迹采样算法。首先提取访存轨迹信息特征;然后利用单遍聚类方法并依据特征相似程度进行访存信息聚类;最后以聚类为基础进行分层采样,根据缓存未命中率对轨迹中不同的部分合理分配注意力来调整采样比,有效缓解了规模较小类别的采样遗漏情况。实验结果显示,在选择的8个测试程序上,相比于传统迸发采样算法,所提算法可平均多覆盖15.70%的缓存未命中指令,基于所提算法的预取平均可额外减少20.76%的缓存未命中数和3.51%的程序运行时间。 展开更多
关键词 分层采样 访存轨迹 软件预取 迸发采样 单遍聚类
下载PDF
基于BOOM处理器的访存逻辑优化
4
作者 周蔺宁 刘杰 +3 位作者 李洪奎 付浩东 刘红海 肖浩 《计算机工程与科学》 CSCD 北大核心 2024年第8期1390-1394,共5页
BOOM处理器采用的Store指令回查策略虽然解决了访存指令乱序执行引发的数据冲突问题,但是该策略会导致流水线的大量冲刷,降低了处理器的性能。对此,提出了一种访存指令的相关性预测方法。该方法取消了Load指令访存前的查询操作,增加了L... BOOM处理器采用的Store指令回查策略虽然解决了访存指令乱序执行引发的数据冲突问题,但是该策略会导致流水线的大量冲刷,降低了处理器的性能。对此,提出了一种访存指令的相关性预测方法。该方法取消了Load指令访存前的查询操作,增加了Load指令相关性预测表,只有预测为无相关性的Load指令才可以乱序执行。这种方法在保证程序逻辑正确的前提下避免了大量冲刷流水线。测试程序采用SPEC CPU 2006下的7个子程序,实验结果表明,改进后的处理器执行程序的性能平均提升了3.5%。 展开更多
关键词 乱序执行 访存指令 相关性预测
下载PDF
多级缓存数据预取处理器访存性能测试方法
5
作者 钟伟军 田晨燕 《信息技术与标准化》 2023年第6期25-29,共5页
针对处理器内存访问性能测试缺少对多级缓存数据预取优化而导致测试数据不能真实反映实际性能的问题,分析了多级缓存数据预取优化技术及其对内存访问带宽的影响。提出了一种针对多级缓存处理器的访存性能优化测试方法,该方法充分利用缓... 针对处理器内存访问性能测试缺少对多级缓存数据预取优化而导致测试数据不能真实反映实际性能的问题,分析了多级缓存数据预取优化技术及其对内存访问带宽的影响。提出了一种针对多级缓存处理器的访存性能优化测试方法,该方法充分利用缓存数据预取机制,并避免处理器核间资源竞争,实现访存性能提升。实验数据表明,采用该方法可以得到符合硬件实际访存性能的数据,为准确评估高性能处理器的访存能力提供支持。 展开更多
关键词 多级缓 数据预取 访存性能 处理器 访存带宽
下载PDF
基于层间融合的神经网络访存密集型层加速 被引量:2
6
作者 杨灿 王重熙 章隆兵 《高技术通讯》 CAS 2023年第8期823-835,共13页
近年来,随着深度神经网络在各领域的广泛应用,针对不同的应用场景,都需要对神经网络模型进行训练以获得更优的参数,于是对训练速度的需求不断提升。然而,现有的研究通常只关注了计算密集型层的加速,忽略了访存密集型层的加速。访存密集... 近年来,随着深度神经网络在各领域的广泛应用,针对不同的应用场景,都需要对神经网络模型进行训练以获得更优的参数,于是对训练速度的需求不断提升。然而,现有的研究通常只关注了计算密集型层的加速,忽略了访存密集型层的加速。访存密集型层的操作主要由访存带宽决定执行效率,单独提升运算速度对性能影响不大。本文从执行顺序的角度出发,提出了将访存密集型层与其前后的计算密集型层融合为一个新层执行的方式,将访存密集型层的操作作为对融合新层中输入数据的前处理或输出数据的后处理进行,大幅减少了访存密集型层在训练过程中对片外内存的访问,提升了性能;并针对该融合执行方案,设计实现了一个面向训练的加速器,采用了暂存前处理结果、后处理操作与计算密集型层操作并行执行的优化策略,进一步提升了融合新层的训练性能。实验结果显示,在面积增加6.4%、功耗增加10.3%的开销下,训练的前向阶段、反向阶段的性能分别实现了67.7%、77.6%的提升。 展开更多
关键词 神经网络 训练 加速器 卷积神经网络(CNN) 访存密集型层 批归一化(BN)层
下载PDF
基于RISC-V直接访存的SM4加密单元的设计
7
作者 王堃 夏宏 《移动信息》 2023年第6期245-249,共5页
为适应信息安全对网络加密数据吞吐率日益增长的要求,基于我国自主设计的首个商用加密算法SM4,本文在开源的RISC-V处理器中,设计了一个具有直接访存功能的SM4加脱密单元,并对RISC-V的指令集进行了扩展,扩展的指令可直接调用SM4单元。这... 为适应信息安全对网络加密数据吞吐率日益增长的要求,基于我国自主设计的首个商用加密算法SM4,本文在开源的RISC-V处理器中,设计了一个具有直接访存功能的SM4加脱密单元,并对RISC-V的指令集进行了扩展,扩展的指令可直接调用SM4单元。这种方法不仅通过硬件实现了SM4加脱密算法,同时有效减少了SM4单元在加解密过程中使用取数和存数指令访存的频率,大幅度提高了数据加密的速度。为了解决CPU访存与SM4单元访存的冲突,设计中采用了流水线互锁方案,并使用Modelsim进行了仿真验证。在300MHz的时钟频率下,加解密4kB数据需要10500个时钟周期,吞吐率达到了914.28Mbit/s。 展开更多
关键词 SM4 RISC-V 指令扩展 直接访存
下载PDF
NUMA架构内多个节点间访存延时平衡的内存分配策略 被引量:4
8
作者 李慧娟 栾钟治 +2 位作者 王辉 杨海龙 钱德沛 《计算机学报》 EI CSCD 北大核心 2017年第9期2111-2126,共16页
随着多核架构的发展和普及,NUMA多核架构凭借其本地访存低延时的优势,被各大商业数据中心以及科学计算集群广泛采用.NUMA架构通过增加多个内存控制器,缓解了多核架构下对同一个内存控制器的争用问题,但同时也增加了内存管理的负担.Linu... 随着多核架构的发展和普及,NUMA多核架构凭借其本地访存低延时的优势,被各大商业数据中心以及科学计算集群广泛采用.NUMA架构通过增加多个内存控制器,缓解了多核架构下对同一个内存控制器的争用问题,但同时也增加了内存管理的负担.Linux的系统开发者为了实现充分利用NUMA本地访存低延时的特点,在为进程分配内存时,选择进程当前正在运行的NUMA节点作为分配内存的目标节点.这种分配会导致进/线程之间共享内存的不公平.例如,一个在当前本地节点被分配很多内存的进程,可能被调度到远端节点运行,这样会导致进程的性能波动.针对这一问题,该文设计了一种保证NUMA架构内各内存节点间访存延时平衡的内存分配策略,并在Linux系统中实现和验证.延时的获取方法依赖平台,但是系统内核的策略是通用的.实验结果表明,与Linux默认的内存分配策略相比,进/线程间的不公平性平均降低了16%(最多34%),并且各进/线程的性能没有较大抖动. 展开更多
关键词 NUMA架构 分配策略 访存延时 访存延时感知 访存延时平衡
下载PDF
一种监测函数语义信息访存地址序列的方法 被引量:1
9
作者 陈荔城 崔泽汉 +3 位作者 包云岗 陈明宇 沈林峰 梁祺 《计算机研究与发展》 EI CSCD 北大核心 2013年第5期1100-1109,共10页
准确地获取应用程序在真实系统上运行的访存地址序列(traces)是进行内存系统调度及结构优化的基础.HMTT是自主研发的软硬件结合的内存监测分析系统,能够实时获取完整的全系统访存traces.但是得到的traces与应用程序上层事件之间存在语... 准确地获取应用程序在真实系统上运行的访存地址序列(traces)是进行内存系统调度及结构优化的基础.HMTT是自主研发的软硬件结合的内存监测分析系统,能够实时获取完整的全系统访存traces.但是得到的traces与应用程序上层事件之间存在语义鸿沟问题,比如上层函数执行流与访存traces的同步问题.针对该问题提出了一种软硬件结合获取包含函数级别语义信息访存traces的方法,软件方面通过二进制插桩的方式,直接修改内存中的进程映像,在目标函数的入口及出口各插入标记tag访存指令,进而能够被HMTT卡监测并识别.采用二进制插桩不需要程序的源代码,不需要对程序重新编译链接,而且引入的运行开销很小.实验表明采用软硬件结合的方式能够有效地获取包含函数级别语义信息的访存traces,对于SPECCPU2006中的访存密集型程序引入的性能开销只是原程序的62%,而使用Pin工具的纯软件方式获取访存traces将导致至少10.4倍的性能开销. 展开更多
关键词 HMTT 访存traces 函数级别语义鸿沟 二进制插桩 ELF tag访存
下载PDF
可重构密码流处理器片外流访存系统的设计
10
作者 朱玉飞 戴紫彬 +3 位作者 徐进辉 丁琦 王寿成 李功丽 《微电子学与计算机》 CSCD 北大核心 2016年第9期78-83,共6页
针对可重构密码流处理器和片外存储器之间存在的"访存瓶颈"问题,设计了该处理器的可重构片外流访存系统,它采用多数据通道流水并行化传输结构和利用突发传输方式的流访存调度策略,优化了对外存访问的效率,提高了密码处理器的... 针对可重构密码流处理器和片外存储器之间存在的"访存瓶颈"问题,设计了该处理器的可重构片外流访存系统,它采用多数据通道流水并行化传输结构和利用突发传输方式的流访存调度策略,优化了对外存访问的效率,提高了密码处理器的性能.实验结果表明,相比于常见的密码处理器访存方式,其访存效率最高可提升近5.9倍. 展开更多
关键词 片外流访存系统 可重构 访存瓶颈 多数据通道流水并行化传输 访存调度策略 密码流处理器
下载PDF
程序向量化中非规则访存问题研究 被引量:2
11
作者 徐金龙 赵荣彩 +1 位作者 刘鹏 李晓亮 《计算机工程》 CAS CSCD 北大核心 2015年第12期86-90,共5页
现有的程序向量化方法通常仅支持连续访存模式,而不支持非连续的内存访问。为实现更多程序的向量并行,提出一种向量化非规则访存处理方法。对访存特征进行检测分类,针对不同特征给出对应的向量化方案,同时设计收益分析方法,以保证向量... 现有的程序向量化方法通常仅支持连续访存模式,而不支持非连续的内存访问。为实现更多程序的向量并行,提出一种向量化非规则访存处理方法。对访存特征进行检测分类,针对不同特征给出对应的向量化方案,同时设计收益分析方法,以保证向量化的有效性。实验结果表明,该方法可有效提高向量化能力,实现复杂访存形式的程序向量化。 展开更多
关键词 非连续访存 向量化 访存特征 数据重组 数组访存
下载PDF
多核片上系统全局主动访存优化研究
12
作者 李鹏 曾露 +1 位作者 王焕东 章隆兵 《高技术通讯》 EI CAS 北大核心 2019年第3期203-212,共10页
本文提出了一种多核片上系统(MPSoC)全局主动访存调度优化方法(GPMS)来提升系统的访存性能。该方法利用IP(intellectual property)核的访存局部性和延迟容忍度,通过限制访存冲突的IP核使其在一个调度窗口内分别连续访问内存,从而减少访... 本文提出了一种多核片上系统(MPSoC)全局主动访存调度优化方法(GPMS)来提升系统的访存性能。该方法利用IP(intellectual property)核的访存局部性和延迟容忍度,通过限制访存冲突的IP核使其在一个调度窗口内分别连续访问内存,从而减少访存冲突次数,同时不存在访存冲突的IP核在调度窗口内一直保持内存的使用权,从而可以充分发挥内存控制器端访存队列调度的自由度和DRAM的bank级并行性。实验结果表明,当IP核间访存冲突严重时,该方法相比访存队列调度方式可以提升1到2倍的访存带宽。 展开更多
关键词 多核片上系统(MPSoC) 访存调度 访存局部性 延迟容忍度 服务质量
下载PDF
基于指令流访存模式预测的缓存替换策略 被引量:3
13
作者 王玉庆 杨秋松 李明树 《计算机研究与发展》 EI CSCD 北大核心 2022年第1期31-46,共16页
传统的缓存替换策略主要基于经验主义,近年来研究者们使用预测技术推测访存行为,提高缓存替换的准确性,预测技术的应用是当前缓存替换策略研究的热点.由于访存行为自身的复杂性,直接在缓存系统中预测访存行为是困难的,要面对很大的不确... 传统的缓存替换策略主要基于经验主义,近年来研究者们使用预测技术推测访存行为,提高缓存替换的准确性,预测技术的应用是当前缓存替换策略研究的热点.由于访存行为自身的复杂性,直接在缓存系统中预测访存行为是困难的,要面对很大的不确定性.当前已有的研究为了解决该问题,使用越来越复杂的预测算法来分析访存行为之间的关联.然而这种方式并未真正减小不确定性,同时现有的缓存替换策略很难避免乱序执行和缓存预取对访存行为分析过程的干扰.为了解决以上问题,提出了一种新的预测缓存访问序列的方法IFAPP(instruction flow access pattern prediction),根据分支预测技术推测程序指令流,定位指令流中的访存指令,进而对其中访存指令的行为逐一进行预测.通过访存序列计算每个替换候选项的重用距离,将重用距离最远的候选项踢出.该方法可以避免乱序执行和缓存预取的干扰,预测对象是行为简单的独立访存指令,减少预测过程中所面对的不确定性.实验结果表明,该算法在一级数据缓存上比LRU算法平均减少3.2%的缓存缺失.相比经典的基于缓存预测的BRRIP和BIP算法,该算法在一级数据缓存上分别减少12.3%和14.4%的缓存缺失. 展开更多
关键词 分支预测 替换策略 提前预测 访存序列预测 访存模式
下载PDF
利用数据预取机制降低块执行模型的访存延迟 被引量:2
14
作者 从明 安虹 +1 位作者 张军 任永青 《小型微型计算机系统》 CSCD 北大核心 2010年第8期1692-1696,共5页
块执行模型通过将串行程序划分成一系列可并行执行的指令块来挖掘应用中潜在的指令级并行性.访存延迟是阻碍块执行模型提高指令级并行性的主要因素之一,而数据预取技术在传统执行模型中可有效降低访存延迟,对块执行模型也同样具有较强... 块执行模型通过将串行程序划分成一系列可并行执行的指令块来挖掘应用中潜在的指令级并行性.访存延迟是阻碍块执行模型提高指令级并行性的主要因素之一,而数据预取技术在传统执行模型中可有效降低访存延迟,对块执行模型也同样具有较强的适应性.本文分析了在块执行模型中引入数据预取机制的可行性,并从cache命中率、访存指令的延迟等方面验证了数据预取在块执行模型中的作用,仿真结果表明数据预取可有效降低块执行模型中的访存延迟. 展开更多
关键词 数据预取 块执行模型 分片式处理器 访存延迟 访存命中率
下载PDF
嵌入式处理器中访存部件的低功耗设计研究 被引量:11
15
作者 黄海林 范东睿 +1 位作者 许彤 唐志敏 《计算机学报》 EI CSCD 北大核心 2006年第5期815-821,共7页
以“龙芯1号”处理器为研究对象,探讨了嵌入式处理器中访存部件的低功耗设计方法.通过对访存部件的结构、功耗以及关键路径进行分析,利用局部性原理,提出一种根据虚拟地址历史记录进行判断的方法,可以显著减少TLB和Cache对RAM块的访问次... 以“龙芯1号”处理器为研究对象,探讨了嵌入式处理器中访存部件的低功耗设计方法.通过对访存部件的结构、功耗以及关键路径进行分析,利用局部性原理,提出一种根据虚拟地址历史记录进行判断的方法,可以显著减少TLB和Cache对RAM块的访问次数,使得TLB部件功耗平均降低了28.1%,Cache部件功耗平均降低了54.3%,处理器总功耗平均降低了23.2%,而关键路径延时反而减少,处理器性能略有提高. 展开更多
关键词 访存部件 TLB CACHE 低功耗 龙芯1号
下载PDF
面向Cell宽带引擎架构的异构多核访存技术 被引量:10
16
作者 冯国富 董小社 +1 位作者 丁彦飞 王旭昊 《西安交通大学学报》 EI CAS CSCD 北大核心 2009年第2期1-5,共5页
针对Cell宽带引擎架构(CBEA)多核高性能处理器要求软件显式地对分层存储结构进行管理,带来架构的可编程性及性能等问题,提出了一种基于CBEA的异构多核访存技术.将CBEA访存分为批量访存和按需访存;通过合理部署数据缓冲区来减小批... 针对Cell宽带引擎架构(CBEA)多核高性能处理器要求软件显式地对分层存储结构进行管理,带来架构的可编程性及性能等问题,提出了一种基于CBEA的异构多核访存技术.将CBEA访存分为批量访存和按需访存;通过合理部署数据缓冲区来减小批量访存计算中的片内访存开销,利用支持粗粒度访问的软件管理cache及数据预取来降低按需访存的片外访存开销;以访存接口库的方式来改善软件的可编程性.实验结果表明,所提技术的访存接口库在批量访存方式下的性能比ALF和CellSs提高了30%~50%,按需访存中软件管理cache性能比CBE软件开发工具包提高了20%~30%,4路数据预取访存比单路缓存的性能提高约50%. 展开更多
关键词 异构多核 访存技术 分层储结构 Cell宽带引擎架构
下载PDF
一种支持多种访存技术的CBEA片上多核MPI并行编程模型 被引量:6
17
作者 冯国富 董小社 +2 位作者 胡冰 王旭昊 王恩东 《计算机学报》 EI CSCD 北大核心 2008年第11期1965-1974,共10页
现有的CBEA(Cell Broadband Engine Architecture)编程模型多侧重于支持类似于流处理的“批量访存”(Bulk Data Transfer)应用,传统非规则访存应用性能较低.文中基于Cell架构提出了一种同时支持“批量访存”与非规则访存应用的MPI... 现有的CBEA(Cell Broadband Engine Architecture)编程模型多侧重于支持类似于流处理的“批量访存”(Bulk Data Transfer)应用,传统非规则访存应用性能较低.文中基于Cell架构提出了一种同时支持“批量访存”与非规则访存应用的MPI并行编程模型,将通信分解在PPE(PowerPC Processing Element)上,拓宽模型的适用范围;在统一访存接口下,通过运行时访存剖分信息指导选择和优化访存以提高计算效率.实验结果表明,文中提出的编程模型支持多种访存模式并具有很好的并行加速比,可获得较同类相关技术30%-50%左右的性能提升. 展开更多
关键词 异构多核 CBE架构 并行编程模型 MPI 访存技术 剖分优化
下载PDF
通用处理器的高带宽访存流水线研究 被引量:6
18
作者 张浩 林伟 +2 位作者 周永彬 叶笑春 范东睿 《计算机学报》 EI CSCD 北大核心 2009年第1期142-151,共10页
存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的... 存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的最有效途径,但增加带宽意味着增加访存通路的硬件逻辑复杂度,势必会增加访存通路的功耗.文中的工作立足于分析程序固有的访存特性,探索高带宽访存流水线的设计和优化空间,分析程序访存行为的规律性,并根据这些规律性给出高带宽访存流水线的低复杂度、低延迟、低功耗解决方案.文中的工作大大简化了高带宽访存流水线的设计,降低了关键路径的时延和功耗,被用于指导Godsonx处理器的访存设计.在处理器整体面积增加1.7%的情况下,将访存流水线的带宽提高了一倍,处理器的整体性能平均提高了8.6%. 展开更多
关键词 高带宽 访存流水 高速缓 TLB
下载PDF
面向异构众核从核的数学函数库访存优化方法 被引量:6
19
作者 许瑾晨 郭绍忠 +1 位作者 黄永忠 王磊 《计算机科学》 CSCD 北大核心 2014年第6期12-17,共6页
数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种... 数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。 展开更多
关键词 异构众核 数学函数库 访存优化 指令调度 局部数据储空间
下载PDF
基于程序访存模式的低功耗存储技术 被引量:6
20
作者 章铁飞 陈天洲 吴剑钟 《软件学报》 EI CSCD 北大核心 2014年第2期254-266,共13页
与不断提升的计算能力相适应,移动手持设备上的存储系统结构越来越复杂,容量越来越大.这种趋势导致存储系统,主要是片上缓存和主存,在系统总能耗的占比中不断攀升.在当前手持设备多由电池驱动并且电池容量十分有限的情况下,存储系统的... 与不断提升的计算能力相适应,移动手持设备上的存储系统结构越来越复杂,容量越来越大.这种趋势导致存储系统,主要是片上缓存和主存,在系统总能耗的占比中不断攀升.在当前手持设备多由电池驱动并且电池容量十分有限的情况下,存储系统的低功耗设计就显得十分重要.虽然现有的存储器件提供了一定的硬件节能支持,但是只有与应用程序的访存行为的规律相结合,才能充分发挥硬件的节能潜力.对现有的各种低功耗存储技术进行了梳理和总结,给出程序的访存模式的概念,归纳出访存模式在3个方面的内涵,并进一步详细介绍了程序的访存模式在片上缓存和主存低功耗技术中的应用.最后,展望未来结合访存模式进行低功耗存储系统研发的可能方向. 展开更多
关键词 低功耗 片上缓 程序的访存模式
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部