期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
可重构存储器无地址冲突的访问机理及“比特标识”方法研究
1
作者 杨金林 杨海钢 《电子与信息学报》 EI CSCD 北大核心 2011年第3期723-728,共6页
该文着重分析了可重构双端口存储器读写冲突产生的机理,揭示了存储器在可重构条件下地址冲突的依存关系、数据读出映射和路由关系。为实现可重构存储器在无地址冲突下的高性能自由访问,提出了"比特标识"方法,在发生冲突时缓... 该文着重分析了可重构双端口存储器读写冲突产生的机理,揭示了存储器在可重构条件下地址冲突的依存关系、数据读出映射和路由关系。为实现可重构存储器在无地址冲突下的高性能自由访问,提出了"比特标识"方法,在发生冲突时缓存一个写入操作,并对数据位的每一比特增加标识位,标识位控制缓存数据向存储核的写入和向存储器外的读出。在0.13μm和0.18μm主流工艺下的实验结果表明,和其它设计方法比较,面积下降约11%,度提升约21%。采用该方法实现的可重构存储器嵌入到国产百万门级FPGA器件,经测试,达到了无冲突的效果。 展开更多
关键词 FPGA 可重构存储 无冲突访问 比特标识
下载PDF
一种面向能耗的可重构片上统一存储架构 被引量:1
2
作者 凌明 张阳 +2 位作者 梅晨 武建平 王欢 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第6期1137-1145,共9页
研究了一种新型的针对指令的可重构片上统一存储器架构,能通过配置信息动态地实现Cache和SPM的相互转换,并设计了一套基于Cache相变行为图的动态配置管理算法.为了满足程序执行不同阶段对片上存储资源的需求,对程序的执行特征进行研究... 研究了一种新型的针对指令的可重构片上统一存储器架构,能通过配置信息动态地实现Cache和SPM的相互转换,并设计了一套基于Cache相变行为图的动态配置管理算法.为了满足程序执行不同阶段对片上存储资源的需求,对程序的执行特征进行研究并采用了一种基于程序跳转块的程序阶段动态监测与预测技术.通过对程序阶段的预测实现配置信息的快速上下文切换,缩短了重构时间.实验结果表明,采用该优化策略,使用4 kB的架构对程序指令段进行优化,与4 kB四路组关联的Cache相比,在保证系统性能的前提下,系统能耗平均降低15.98%,最高能耗降低34.03%. 展开更多
关键词 可重构片上统一存储 SPM动态布局 能耗优化
下载PDF
基于程序段的可重构cache与处理器低能耗算法
3
作者 彭蔓蔓 李仁发 +1 位作者 彭方 王宇明 《计算机应用研究》 CSCD 北大核心 2008年第9期2692-2696,共5页
运用可重构cache和动态电压缩放技术,为处理器及其cache提出了一种基于程序段的自适应低能耗算法PBLEA(phase-based lowenergy algorithm)。该算法使用建立在指令工作集签名基础上的程序段监测状态机来判断程序段是否发生变化,并作出ca... 运用可重构cache和动态电压缩放技术,为处理器及其cache提出了一种基于程序段的自适应低能耗算法PBLEA(phase-based lowenergy algorithm)。该算法使用建立在指令工作集签名基础上的程序段监测状态机来判断程序段是否发生变化,并作出cache容量及CPU电压和频率的调整决定。在程序段内,使用容量调整状态机和通过计算频率缩放因子β来先后对cache容量及CPU电压和频率进行调整。在Sim-panalyzer模拟器上完成了该算法的实现。通过对MiBench测试程序集的测试表明:与传统的cache和CPU相比较,该算法使系统能耗平均节省了49.1%,而平均性能损失为8.7%。 展开更多
关键词 可重构高速缓冲存储 动态电压缩放 自适应算法 运行程序段 低能耗
下载PDF
面向数据Cache的片上存储动态优化
4
作者 徐涛 《测控技术》 CSCD 2016年第11期70-76,共7页
提出一种数据Cache片上可重构存储系统,将程序不同阶段利用率低的数据Cache配置为SPM(scratch-pad memory),将访问频繁/冲突严重的数据页映射到SPM,动态降低能耗。在数据Cache要求提高时,再将SPM配置为Cache,提高Cache命中率。利用程序... 提出一种数据Cache片上可重构存储系统,将程序不同阶段利用率低的数据Cache配置为SPM(scratch-pad memory),将访问频繁/冲突严重的数据页映射到SPM,动态降低能耗。在数据Cache要求提高时,再将SPM配置为Cache,提高Cache命中率。利用程序基本块向量法监测、区分程序不同阶段,建立数据Cache数学模型,基于程序运行阶段和时间域分割的Cache相变图统计数据页使用情况,决定放入SPM的数据页。仿真实验结果显示,采用所提出的片上可重构存储系统后,8KB4、16KB4和32KB4路关联Cache,平均能耗分别降低10.15%、11.35%和12.45%,系统性能明显提升。 展开更多
关键词 数据高速缓存 便笺式存储 可重构存储 低功耗
下载PDF
Efficient and flexible memory architecture to alleviate data and context bandwidth bottlenecks of coarse-grained reconfigurable arrays 被引量:2
5
作者 YANG Chen LIU Lei Bo +1 位作者 YIN Shou Yi WEI Shao Jun 《Science China(Physics,Mechanics & Astronomy)》 SCIE EI CAS 2014年第12期2214-2227,共14页
The computational capability of a coarse-grained reconfigurable array(CGRA)can be significantly restrained due to data and context memory bandwidth bottlenecks.Traditionally,two methods have been used to resolve this ... The computational capability of a coarse-grained reconfigurable array(CGRA)can be significantly restrained due to data and context memory bandwidth bottlenecks.Traditionally,two methods have been used to resolve this problem.One method loads the context into the CGRA at run time.This method occupies very small on-chip memory but induces very large latency,which leads to low computational efficiency.The other method adopts a multi-context structure.This method loads the context into the on-chip context memory at the boot phase.Broadcasting the pointer of a set of contexts changes the hardware configuration on a cycle-by-cycle basis.The size of the context memory induces a large area overhead in multi-context structures,which results in major restrictions on application complexity.This paper proposes a Predictable Context Cache(PCC)architecture to address the above context issues by buffering the context inside a CGRA.In this architecture,context is dynamically transferred into the CGRA.Utilizing a PCC significantly reduces the on-chip context memory and the complexity of the applications running on the CGRA is no longer restricted by the size of the on-chip context memory.Data preloading is the most frequently used approach to hide input data latency and speed up the data transmission process for the data bandwidth issue.Rather than fundamentally reducing the amount of input data,the transferred data and computations are processed in parallel.However,the data preloading method cannot work efficiently because data transmission becomes the critical path as the reconfigurable array scale increases.This paper also presents a Hierarchical Data Memory(HDM)architecture as a solution to the efficiency problem.In this architecture,high internal bandwidth is provided to buffer both reused input data and intermediate data.The HDM architecture relieves the external memory from the data transfer burden so that the performance is significantly improved.As a result of using PCC and HDM,experiments running mainstream video decoding programs achieved performance improvements of 13.57%–19.48%when there was a reasonable memory size.Therefore,1080p@35.7fps for H.264high profile video decoding can be achieved on PCC and HDM architecture when utilizing a 200 MHz working frequency.Further,the size of the on-chip context memory no longer restricted complex applications,which were efficiently executed on the PCC and HDM architecture. 展开更多
关键词 memory architecture CGRA context cache cache prefetch data memory
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部