期刊文献+
共找到68篇文章
< 1 2 4 >
每页显示 20 50 100
面向稀疏卷积神经网络的CGRA加速器研究 被引量:1
1
作者 谭龙 严明玉 +3 位作者 吴欣欣 李文明 吴海彬 范东睿 《高技术通讯》 CAS 北大核心 2024年第2期173-186,共14页
本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。Dy... 本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。DyCNN使用基于数据感知的指令动态过滤机制来滤除各计算单元中由于稀疏CNN中权值静态稀疏性和激活值动态稀疏性产生的大量无效计算和访存指令,使它们能像执行稠密网络一样高效复用一组指令。此外DyCNN利用基于负载感知的动静结合负载调度策略解决了稀疏导致的负载不均衡问题。实验结果表明,DyCNN运行稀疏CNN与运行密集CNN相比实现了平均1.69倍性能提升和3.04倍能效提升,比先进的GPU(cuSPARSE)和Cambricon-X上的解决方案分别实现了2.78倍、1.48倍性能提升和35.62倍、1.17倍能效提升。 展开更多
关键词 稀疏卷积神经网络(CNN) 专用加速结构 粗粒度可重构架构(CGRA) 动态指令过滤 动态负载调度
下载PDF
面向低精度神经网络的数据流体系结构优化 被引量:1
2
作者 范志华 吴欣欣 +4 位作者 李文明 曹华伟 安学军 叶笑春 范东睿 《计算机研究与发展》 EI CSCD 北大核心 2023年第1期43-58,共16页
数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问... 数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问题:1)传统数据流架构的计算部件数据通路与低精度数据不匹配,无法体现低精度神经网络的性能和能效优势;2)向量化并行计算的低精度数据在片上存储中要求顺序排列,然而它在片外存储层次中是分散排列的,使得数据的加载和写回操作变得复杂,传统数据流架构的访存部件无法高效支持这种复杂的访存模式;3)传统数据流架构中使用双缓冲机制掩盖数据的传输延迟,但是,当传输低精度数据时,传输带宽的利用率显著降低,导致计算延迟无法掩盖数据传输延迟,双缓冲机制面临失效风险,进而影响数据流架构的性能和能效.为解决这3个问题,设计了面向低精度神经网络的数据流加速器DPU_Q.首先,设计了灵活可重构的计算单元,根据指令的精度标志位动态重构数据通路,一方面能高效灵活地支持多种低精度数据运算,另一方面能进一步提高计算并行性和吞吐量.另外,为解决低精度神经网络复杂的访存模式,设计了Scatter引擎,该引擎将在低层次或者片外存储中地址空间离散分布的低精度数据进行拼接、预处理,以满足高层次或者片上存储对数据排列的格式要求.同时,Scatter引擎能有效解决传输低精度数据时带宽利用率低的问题,解决了双缓冲机制失效的问题.最后,从软件方面提出了基于数据流执行模式的低精度神经网络映射算法,兼顾负载均衡的同时能对权重、激活值数据进行充分复用,减少了访存和数据流图节点间的数据传输开销.实验表明,相比于同精度的GPU(Titan Xp)、数据流架构(Eyeriss)和低精度神经网络加速器(BitFusion),DPU_Q分别获得3.18倍、6.05倍、1.52倍的性能提升和4.49倍、1.6倍、1.13倍的能效提升. 展开更多
关键词 数据流架构 低精度神经网络 量化 可重构架构 直接内存访问
下载PDF
嵌入式处理器TLB设计方法研究 被引量:4
3
作者 范东睿 黄海林 唐志敏 《计算机学报》 EI CSCD 北大核心 2006年第1期73-80,共8页
以处理器的TLB(Translation Look-aside Buffer)部件为研究对象,探讨嵌入式处理器TLB部件的高能效设计方法.用龙芯1号这款有代表性的真实处理器为设计模型,通过对功耗、面积、关键路径和性能等多方面的试验分析,提出了新颖的TLB低功耗... 以处理器的TLB(Translation Look-aside Buffer)部件为研究对象,探讨嵌入式处理器TLB部件的高能效设计方法.用龙芯1号这款有代表性的真实处理器为设计模型,通过对功耗、面积、关键路径和性能等多方面的试验分析,提出了新颖的TLB低功耗设计方法.在经过改进后的TLB设计中,TLB部件的RAM部分的面积减少了50%,功耗降低了92.7%,整个TLB部件的面积减少了23.7%,功耗降低了28.5%,而电路延迟几乎没有增加,处理器的性能也没有受到影响.这充分说明改进方案是非常实用而有效的. 展开更多
关键词 TLB 低功耗 龙芯 RAM 延迟 面积
下载PDF
众核处理器片上同步机制和评估方法研究 被引量:10
4
作者 徐卫志 宋风龙 +3 位作者 刘志勇 范东睿 余磊 张帅 《计算机学报》 EI CSCD 北大核心 2010年第10期1777-1787,共11页
同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制... 同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMDOpteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间. 展开更多
关键词 片上众核处理器 同步 硬件支持 量化评估 微程序
下载PDF
多核结构片上网络性能-能耗分析及优化方法 被引量:11
5
作者 张帅 宋风龙 +2 位作者 王栋 刘志勇 范东睿 《计算机学报》 EI CSCD 北大核心 2013年第5期988-1003,共16页
文中探讨了片上网络在执行真实并行程序时的能耗和性能关系,并提出了一种能耗/性能优化方法.首先,文中提出了一种精确的性能-能耗模型,在性能和能耗模型中同时划分出与频率相关和与频率无关的因素,并分析其对性能和能耗的影响;其次,在性... 文中探讨了片上网络在执行真实并行程序时的能耗和性能关系,并提出了一种能耗/性能优化方法.首先,文中提出了一种精确的性能-能耗模型,在性能和能耗模型中同时划分出与频率相关和与频率无关的因素,并分析其对性能和能耗的影响;其次,在性能-能耗模型中建立并行开销、片外访存开销与片上网络规模(节点数)、频率之间的关系,同时引入了并行度、通信模型等与应用相关的因素,使该模型能够同时表达软硬件特性;第三,文中提出了一种基于该性能-能耗模型的性能-能耗优化方法,通过采集程序的通信模型、访存消息数量等数据选择适当的频率和网络节点数来获得片上网络能耗最低值或处理器性能最大值.最后,文中采用8个PARSEC并行程序验证前述模型的准确性并评价性能-能耗优化方法,结果显示文中性能-能耗模型相比传统模型更加精确吻合实验测量结果,性能-能耗优化方法也有效适用于不同种类的并行程序. 展开更多
关键词 多核 片上网络 高能效 能耗优化
下载PDF
嵌入式处理器在片调试功能的设计与实现 被引量:9
6
作者 黄海林 范东睿 +4 位作者 许彤 朱鹏飞 郑保建 曹非 陈亮 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2006年第7期1005-1010,共6页
以龙芯1号处理器为研究对象,探讨了嵌入式处理器中在片调试功能的设计实现方法.通过扩充IEEEP1149.1协议的JTAG测试访问端口(TAP),并在处理器内部增加控制模块,实现了软件调试断点、调试中断、硬件断点以及单步执行等多种在片调试功能.... 以龙芯1号处理器为研究对象,探讨了嵌入式处理器中在片调试功能的设计实现方法.通过扩充IEEEP1149.1协议的JTAG测试访问端口(TAP),并在处理器内部增加控制模块,实现了软件调试断点、调试中断、硬件断点以及单步执行等多种在片调试功能.调试主机只需要通过一根JTAG调试电缆就可以访问目标处理器内部寄存器等各种资源,并控制目标处理器的运行过程,实现了处理器的在片调试功能,大大地方便了软件开发与系统调试. 展开更多
关键词 在片调试 IEEE P1149.1 JTAG 龙芯1号处理器
下载PDF
嵌入式处理器中访存部件的低功耗设计研究 被引量:11
7
作者 黄海林 范东睿 +1 位作者 许彤 唐志敏 《计算机学报》 EI CSCD 北大核心 2006年第5期815-821,共7页
以“龙芯1号”处理器为研究对象,探讨了嵌入式处理器中访存部件的低功耗设计方法.通过对访存部件的结构、功耗以及关键路径进行分析,利用局部性原理,提出一种根据虚拟地址历史记录进行判断的方法,可以显著减少TLB和Cache对RAM块的访问次... 以“龙芯1号”处理器为研究对象,探讨了嵌入式处理器中访存部件的低功耗设计方法.通过对访存部件的结构、功耗以及关键路径进行分析,利用局部性原理,提出一种根据虚拟地址历史记录进行判断的方法,可以显著减少TLB和Cache对RAM块的访问次数,使得TLB部件功耗平均降低了28.1%,Cache部件功耗平均降低了54.3%,处理器总功耗平均降低了23.2%,而关键路径延时反而减少,处理器性能略有提高. 展开更多
关键词 访存部件 TLB CACHE 低功耗 龙芯1号
下载PDF
多核系统共享内存资源分配和管理研究 被引量:12
8
作者 高珂 陈荔城 +1 位作者 范东睿 刘志勇 《计算机学报》 EI CSCD 北大核心 2015年第5期1020-1034,共15页
对于共享内存资源的多核系统来说,分配和管理有限的内存资源是一个非常重要且具有挑战性的问题.随着处理器核数的快速增长,不同线程间的访存请求对系统中共享内存的竞争也愈发激烈,由此导致的对系统性能和系统公平性的影响也更加显著.... 对于共享内存资源的多核系统来说,分配和管理有限的内存资源是一个非常重要且具有挑战性的问题.随着处理器核数的快速增长,不同线程间的访存请求对系统中共享内存的竞争也愈发激烈,由此导致的对系统性能和系统公平性的影响也更加显著.为了缓解这一问题,除了增加可用共享资源外,公平高效地管理和利用共享内存资源至关重要.在各类共享资源中,对系统性能影响最大的是共享Cache和DRAM.文中将这两级共享内存资源的分配和管理研究归结为三个重要方面,包括共享缓存分区、访存请求调度以及地址映射优化,并从优化系统吞吐率和公平性方面分析总结了一系列共享缓存分区策略,从缓解多线程对DRAM的竞争和相互干扰方面分析概括了一系列访存调度算法和地址映射策略.最后对共享内存资源未来的研究和发展做了总结和展望. 展开更多
关键词 多核系统 共享缓存 缓存分区 动态随机存储器 访存调度 地址映射
下载PDF
一种面向科学计算的数据流优化方法 被引量:9
9
作者 申小伟 叶笑春 +7 位作者 王达 张浩 王飞 谭旭 张志敏 范东睿 唐志敏 孙凝晖 《计算机学报》 EI CSCD 北大核心 2017年第9期2181-2196,共16页
传统数据流结构通过多上下文来隐藏指令等待源操作数的延迟,然而这种隐藏方式只能部分提高数据流处理器执行单元的利用率.在面向例如Stencil、FFT和矩阵乘法等典型科学应用时,传统数据流结构的执行单元利用率仍然较低.科学计算中的核心... 传统数据流结构通过多上下文来隐藏指令等待源操作数的延迟,然而这种隐藏方式只能部分提高数据流处理器执行单元的利用率.在面向例如Stencil、FFT和矩阵乘法等典型科学应用时,传统数据流结构的执行单元利用率仍然较低.科学计算中的核心程序一般是对不同数据进行相同的操作,而且这些操作可以并行执行,数据之间没有直接依赖关系.传统数据流结构是面向通用计算的,通常采用循环来实现对不同数据的相同操作.在这些循环中,迭代是按照顺序依次执行的,这导致了传统数据流结构没有利用科学计算的并行性来提高性能.所以传统数据流结构在处理这些规则的科学应用时没有协调好数据流计算模式和科学计算特征,而数据流计算是非常适合科学计算这种类型的规则计算.基于科学计算的这些特征,该文提出了一种面向科学计算的数据流结构优化方法:循环流水优化方法.循环流水优化方法利用科学计算的分块和并行处理特征,对传统数据流结构中的上下文控制逻辑进行了改进,将科学计算中的循环采用硬件自迭代的方式实现,并将上下文切换逻辑进行了流水化,使数据流结构中的上下文以流水线方式进入执行单元阵列,从而提高计算单元的利用率.面对这种循环流水优化后的数据流结构,传统数据流结构上的指令映射算法不再适用.通过分析循环流水优化后的结构特征,该文进一步提出了一种改进的指令映射算法:LBC(Load Balance Centric)指令映射算法.LBC算法按照深度优先顺序依次映射数据流图中的所有指令,对每条指令分别计算执行单元阵列中所有位置的代价,取最小代价的位置作为最佳映射位置.LBC算法以执行单元负载均衡为核心,同时将定点指令和浮点指令分开处理,保证执行单元上的定点部件和浮点部件的负载均衡.每当映射一条指令时,LBC算法采用相邻节点传输延迟与已经映射的该类型指令数量的乘积作为负载代价,来实现计算部件的负载均衡.另外,LBC算法将网络拥堵也作为指令映射的影响因素.LBC算法将节点与所有父节点的距离之和作为传输代价,使指令间传输消息的路径最短,从而减小片上网络消息传递的跳数.实验结果表明,在处理典型科学应用时,相比于传统数据流结构,循环流水的优化方法将数据流结构的性能平均提高了4.6%.相比于传统指令映射算法SPDI和SPS,在循环流水优化后的数据流结构上,LBC指令映射算法将性能分别平均提升了182.6%和158.1%. 展开更多
关键词 指令映射 数据流 循环流水 科学计算处理器 高性能计算
下载PDF
BDSim:面向大数据应用的组件化高可配并行模拟框架 被引量:5
10
作者 李文明 叶笑春 +5 位作者 张洋 宋风龙 王达 唐士斌 范东睿 谢向辉 《计算机学报》 EI CSCD 北大核心 2015年第10期1959-1975,共17页
大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用.然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现在模拟速度慢、配置过程复杂以及可扩展性差等方面.为了解决... 大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用.然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现在模拟速度慢、配置过程复杂以及可扩展性差等方面.为了解决此问题,评估面向大数据应用的高通量众核体系结构的性能与功耗,该文提出了面向大数据应用的并行模拟框架——BDSim.该框架基于组件化思想,将功能组件与框架服务单元组成并行功能单元,并可根据负载情况,自由配置组件与框架服务单元之间的映射关系.为了提高组件之间的通信和同步效率,该文提出了一种非阻塞无锁通信优化方法,和一种CMB保守同步算法的优化算法——NMTRT-CMB同步算法.模拟不同并发规模的基于2D-Mesh网络的众核系统的实验结果表明,与基于锁的并行通信方法相比,框架采用的非阻塞无锁通信优化方法可以提高并行模拟速度约10%,该算法与CMB同步算法相比,NMTRT-CMB同步算法可以减少空消息数量达90%以上. 展开更多
关键词 组件化并行模拟框架 并行离散事件模拟 非阻塞无锁通信 CMB算法 高可配 大数据
下载PDF
通用处理器的高带宽访存流水线研究 被引量:6
11
作者 张浩 林伟 +2 位作者 周永彬 叶笑春 范东睿 《计算机学报》 EI CSCD 北大核心 2009年第1期142-151,共10页
存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的... 存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的最有效途径,但增加带宽意味着增加访存通路的硬件逻辑复杂度,势必会增加访存通路的功耗.文中的工作立足于分析程序固有的访存特性,探索高带宽访存流水线的设计和优化空间,分析程序访存行为的规律性,并根据这些规律性给出高带宽访存流水线的低复杂度、低延迟、低功耗解决方案.文中的工作大大简化了高带宽访存流水线的设计,降低了关键路径的时延和功耗,被用于指导Godsonx处理器的访存设计.在处理器整体面积增加1.7%的情况下,将访存流水线的带宽提高了一倍,处理器的整体性能平均提高了8.6%. 展开更多
关键词 高带宽 访存流水 高速缓存 TLB
下载PDF
VMM中Guest OS非陷入系统调用指令截获与识别 被引量:6
12
作者 熊海泉 刘志勇 +2 位作者 徐卫志 唐士斌 范东睿 《计算机研究与发展》 EI CSCD 北大核心 2014年第10期2348-2359,共12页
针对虚拟化环境下Guest OS某些特定指令行为不会产生陷入从而在虚拟机管理器(virtual machine monitor,VMM)中无法对其进行监控处理的问题,提出通过改变非陷入指令正常运行条件,使其执行非法产生系统异常陷入VMM的思想;据此就x86架构下G... 针对虚拟化环境下Guest OS某些特定指令行为不会产生陷入从而在虚拟机管理器(virtual machine monitor,VMM)中无法对其进行监控处理的问题,提出通过改变非陷入指令正常运行条件,使其执行非法产生系统异常陷入VMM的思想;据此就x86架构下Guest OS中3种非陷入系统调用指令在VMM中的截获与识别进行研究:其中基于int和sysenter指令的系统调用通过使其产生通用保护(general protection,GP)错系统异常而陷入,基于syscall指令的系统调用则通过使其产生UD(undefined)未定义指令系统异常而陷入,之后VMM依据虚拟处理器上下文现场信息对其进行识别;基于Qemu&Kvm实现的原型系统表明:上述方法能成功截获并识别出Guest OS中所有3种系统调用行为,正常情况下其性能开销也在可接受的范围之内,如在unixbench的shell测试用例中,其性能开销比在1.900~2.608之间.与现有方法相比,它们都是以体系结构自身规范为基础,因此具有无需修改Guest OS、跨平台透明的优势. 展开更多
关键词 客户操作系统 虚拟机管理器 虚拟化 非陷入指令 系统调用
下载PDF
一种片上众核结构共享Cache动态隐式隔离机制研究 被引量:3
13
作者 宋风龙 刘志勇 +2 位作者 范东睿 张军超 余磊 《计算机学报》 EI CSCD 北大核心 2009年第10期1896-1904,共9页
访存带宽是限制众核处理器性能提升的关键,将片上最后一级Cache设计为所有处理器核共享是必要的.在共享Cache中隔离放置冲突的数据,是提高共享Cache性能的关键.文中提出了缓存块链接的硬件方法,用于隔离共享Cache中不同线程之间的数据.... 访存带宽是限制众核处理器性能提升的关键,将片上最后一级Cache设计为所有处理器核共享是必要的.在共享Cache中隔离放置冲突的数据,是提高共享Cache性能的关键.文中提出了缓存块链接的硬件方法,用于隔离共享Cache中不同线程之间的数据.文中基于时钟精准的片上众核结构模拟器,使用Splash2程序组和生物信息学中的任务,对所提机制进行了评估.实验结果表明,与传统共享Cache相比,使用缓存块链接机制时,使得共享Cache的冲突性缺失率降低约20%,而使得IPC平均提高了约10%. 展开更多
关键词 众核 共享CACHE 数据冲突 资源隔离 容量划分
下载PDF
众核体系结构对Cilk语言的硬件支持及评测研究 被引量:7
14
作者 龙国平 张军超 范东睿 《计算机学报》 EI CSCD 北大核心 2008年第11期1975-1985,共11页
如何编程众核体系结构是当前一个亟待解决的问题.研究可扩展的硬件机制支持Cilk编程模型的目的是在良好的编程性和可扩展硬件实现之间达到平衡.Cilk语言是C的精简扩展,程序员编写Cilk程序时和串行编程近似,且不需关心调度、负载均衡和... 如何编程众核体系结构是当前一个亟待解决的问题.研究可扩展的硬件机制支持Cilk编程模型的目的是在良好的编程性和可扩展硬件实现之间达到平衡.Cilk语言是C的精简扩展,程序员编写Cilk程序时和串行编程近似,且不需关心调度、负载均衡和局部性等系统底层相关的问题.文中以域一致性存储模型为基础,主要工作包括两方面:首先针对域一致性模型编程性不好的缺点提出一种以数据为中心维护高速缓存一致性的方法;其次提出实现DAG Consistency的缓存一致性协议,并在此基础上支持Cilk编程模型.实验结果表明,当处理器核数目较少(<16)时所有测试程序都能获得比较好的性能加速,并且指出了众核情况下(>16)难以获得理想加速效果的两个根本原因:静态路由导致片上网络带宽利用不均衡以及有限的访存带宽. 展开更多
关键词 众核体系结构 Cilk 域一致性 编程模型 存储模型
下载PDF
提升稀疏目录缓存一致性系统性能的方法 被引量:3
15
作者 张轮凯 宋风龙 +2 位作者 王达 范东睿 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2014年第9期1955-1970,共16页
稀疏目录技术在缓存一致性非一致存储访问(cache coherent non-uniform memory access,ccNUMA)系统中有广泛应用.但是,稀疏目录技术的一个主要缺陷在于目录项替换在目录热点存在的情况下会严重降低系统的性能.针对此问题,研究如何提升... 稀疏目录技术在缓存一致性非一致存储访问(cache coherent non-uniform memory access,ccNUMA)系统中有广泛应用.但是,稀疏目录技术的一个主要缺陷在于目录项替换在目录热点存在的情况下会严重降低系统的性能.针对此问题,研究如何提升稀疏目录性能.首先,从定性和定量的角度对主流的稀疏目录替换算法进行了分析,并且发现最为原始的最久未使用(least-recent-used,LRU)算法的性能实际上要优于一些近期提出的目录替换算法,如最少共享者(least-sharer-count,LSC)算法.其次,将victim cache的思想应用到稀疏目录上,提出了victim目录(victim directory),该技术在主稀疏目录模块上加入了一个小的全相联二级目录存储.最后,提出了选择性victim目录(selective victim directory)技术,使得victim目录选择性地仅存储有用的目录项,从而进一步减少了目录替换的数量.选择性victim目录通过向所有节点的cache发出探查消息(probe messages),从而选择性地存储较为有用的目录项.实验证明,选择性victim目录取得了比简单victim目录更好的性能;而且在仅增加了1KB左右的硬件开销的代价下,选择性victim目录节省了35.7%的程序运行时间. 展开更多
关键词 ccNUMA系统 稀疏目录 替换算法 victim目录 选择性victim目录
下载PDF
蛋白质序列比对算法在众核结构上的并行优化 被引量:3
16
作者 叶笑春 林伟 +1 位作者 范东睿 张浩 《软件学报》 EI CSCD 北大核心 2010年第12期3094-3105,共12页
在生物信息学中,蛋白质序列比对是最为重要的算法之一,生物技术的发展使得已知的序列库变得越来越庞大,这类算法本身又具有计算密集型的特点,这导致进行序列比对所消耗的时间也越来越长,目前的单核或者数量较少的多核系统均已经难以满... 在生物信息学中,蛋白质序列比对是最为重要的算法之一,生物技术的发展使得已知的序列库变得越来越庞大,这类算法本身又具有计算密集型的特点,这导致进行序列比对所消耗的时间也越来越长,目前的单核或者数量较少的多核系统均已经难以满足对计算速度的要求.Godson-T是一个包含诸多创新结构的众核平台,在该系统上实现了对一种蛋白质序列比对算法的并行化,并且结合蛋白质比对算法以及Godson-T结构的特征,针对同步开销、存储访问竞争以及负载均衡3个方面对算法进行了细致的优化,最终并行部分整体也获得了更优的、接近线性的加速比,并且实际性能远远优于基于AMD Opteron处理器的工作站平台. 展开更多
关键词 序列比对算法 众核 并行 优化
下载PDF
嵌入式处理器在片调试功能的验证 被引量:2
17
作者 许彤 王朋宇 +4 位作者 黄海林 范东睿 朱鹏飞 郑保建 曹非 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2007年第4期502-507,共6页
以龙芯1号处理器为研究对象,探讨了基于JTAG的处理器在片调试功能的验证方法.根据在片调试的结构特征建立了功能覆盖率模型,并以访存模式为基准分步建立虚拟验证原型.整个验证将定向功能测试和指令集随机测试有机地结合起来,迅速定位了... 以龙芯1号处理器为研究对象,探讨了基于JTAG的处理器在片调试功能的验证方法.根据在片调试的结构特征建立了功能覆盖率模型,并以访存模式为基准分步建立虚拟验证原型.整个验证将定向功能测试和指令集随机测试有机地结合起来,迅速定位了设计中多个难以发现的错误.最终验证的功能覆盖率达到100%,FPGA原型经长时间运行无误. 展开更多
关键词 在片调试 覆盖率模型 虚拟验证原型 定向功能测试 随机测试 龙芯1号处理器
下载PDF
众核处理器片上网络的层次化全局自适应路由机制 被引量:2
18
作者 张洋 王达 +4 位作者 叶笑春 朱亚涛 范东睿 李宏亮 谢向辉 《计算机研究与发展》 EI CSCD 北大核心 2016年第6期1211-1220,共10页
Mesh和环拓扑结构以其实现简单、易于扩展的特点成为众核处理器片上网络应用最为广泛的拓扑结构.应用于Mesh结构中的健忘型路由算法在网络流量较大时影响片上网络的负载均衡,表现在降低吞吐量和增大数据包延迟.自适应算法中的本地自适... Mesh和环拓扑结构以其实现简单、易于扩展的特点成为众核处理器片上网络应用最为广泛的拓扑结构.应用于Mesh结构中的健忘型路由算法在网络流量较大时影响片上网络的负载均衡,表现在降低吞吐量和增大数据包延迟.自适应算法中的本地自适应算法和区域自适应算法均存在不同程度的短视现象,不适合大规模的Mesh结构,而目前全局自适应算法又由于路由计算量大而速度缓慢.提出一种新的层次化全局自适应路由机制,包括一个全局拥塞信息传播网络Roof-Mesh和一个层次化全局自适应路由算法(global hierarchical adaptive routing algorithm,GHARA).通过全局拥塞信息传播网络得到拥塞信息,GHARA采用全网分区逐级计算路由的方式,减少了全局路由的计算步骤,从而减少了平均数据包延迟、提升了饱和带宽.实验结果表明GHARA表现优于其他区域和全局自适应路由算法.在人工注入通信模式下,8×8 Mesh平均饱和带宽比全局自适应算法GCA提高10.7%,16×16Mesh平均饱和带宽比全局自适应算法GCA提高14.7%.在运行真实测试程序集SPLASH-2模式下,数据包延迟最高比GCA提高40%,平均提升14%. 展开更多
关键词 众核处理器 片上网络 负载均衡 全局拥塞信息传播网络 层次化全局自适应路由算法 Roof-Mesh
下载PDF
针对组相联缓存的无效缓存路访问混合过滤机制研究 被引量:2
19
作者 范灵俊 徐远超 +2 位作者 施巍松 范东睿 娄杰 《计算机学报》 EI CSCD 北大核心 2013年第4期799-808,共10页
近年来,功耗成为处理器设计领域的关键问题之一.传统应对功耗的方法如DVFS(Dynamic VoltageFrequency Scaling)目前遭遇了收益递减律.随着多核/众核处理器的普及化,片上缓存占有了越来越多的CPU芯片面积和功耗.针对降低功耗的问题,文中... 近年来,功耗成为处理器设计领域的关键问题之一.传统应对功耗的方法如DVFS(Dynamic VoltageFrequency Scaling)目前遭遇了收益递减律.随着多核/众核处理器的普及化,片上缓存占有了越来越多的CPU芯片面积和功耗.针对降低功耗的问题,文中提出了通过过滤不必要的缓存路访问来降低缓存动态功耗的方法.该方法包括采用无效访问过滤器(Invalid Filter)来消除对含无效数据块的缓存路的访问;采用指令数据访问过滤器(I/D Filter)来消除对与访问类型(指令或数据)不匹配的数据块所在的缓存路的访问;以及采用tag低位过滤器(Tag-2Filter)来消除对tag低位不匹配的数据块所在的缓存路的访问.文中提出将以上3种方法合并,称为Invalid+I/D+Tag-2Filter,以期取得更好的效果.通过分析和实验验证了3种方法的有效性和互补性.同时,实验也表明,与Invalid+I/D Filter相比,Invalid+I/D+Tag-2Filter在64KB 4路组相联缓存上可以取得19.6%~47.8%(平均34.3%)的效果提升,在128KB 8路组相联缓存上可以取得19.6%~55.2%(平均39.2%)的效果提升;与Invalid+Tag-2Filter相比,Invalid+I/D+Tag-2Filter在64KB 4路组相联缓存上可以取得16.1%~27.7%(平均16.6%)的效果提升,在128KB 8路组相联缓存上可以取得6.9%~44.4%(平均25.0%)的效果提升. 展开更多
关键词 组相联缓存 动态功耗 无效访问过滤器 访问类型过滤器 tag低位过滤器
下载PDF
H.264去块滤波算法在众核结构上的并行优化 被引量:2
20
作者 范灵俊 颜成钢 +2 位作者 宋风龙 马宜科 范东睿 《小型微型计算机系统》 CSCD 北大核心 2011年第11期2263-2267,共5页
在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种... 在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升. 展开更多
关键词 H.264 去块滤波 Godson-T众核 并行优化
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部