期刊文献+
共找到79篇文章
< 1 2 4 >
每页显示 20 50 100
基于单指令多数据流技术的视频信息处理优化
1
作者 王恒 《煤炭技术》 CAS 北大核心 2012年第11期180-182,共3页
文章以H.264编码为例,首先对单指令多数据指令系统进行了简单介绍,并在该技术基础之上,分别从H.264整数离散余弦变换、量化以及运动估计等方面分析和探讨了依托于单指令多数据流技术的视频信息处理的优化方式,与之前的程序编码技术相比... 文章以H.264编码为例,首先对单指令多数据指令系统进行了简单介绍,并在该技术基础之上,分别从H.264整数离散余弦变换、量化以及运动估计等方面分析和探讨了依托于单指令多数据流技术的视频信息处理的优化方式,与之前的程序编码技术相比较而言,经过优化处理的程序编码速率提升了数倍。 展开更多
关键词 单指令多数据流技术 视频信息处理 优化 整数离散余弦变换
原文传递
基于单指令多数据流扩展的光线投射算法优化
2
作者 邹云鹏 齐季 康雁 《生物医学工程学杂志》 CAS CSCD 北大核心 2012年第2期212-216,共5页
光线投射算法是目前医学图像可视化领域应用范围最广、成像效果最好的算法之一。由于大量的采样、梯度、光照和混合计算,所以该算法的运算开销也比较大。单指令多数据流扩展(SSE)指令集支持向量计算可以很好的支持光线投射算法的特性,... 光线投射算法是目前医学图像可视化领域应用范围最广、成像效果最好的算法之一。由于大量的采样、梯度、光照和混合计算,所以该算法的运算开销也比较大。单指令多数据流扩展(SSE)指令集支持向量计算可以很好的支持光线投射算法的特性,通过将梯度、光照和混合计算向量化,不仅可以明显提升算法的执行效率,而且可以绘制出高质量的可视化结果。 展开更多
关键词 医学图像可视化 光线投射 优化 单指令多数据流扩展
原文传递
x86处理器向量条件访存指令安全脆弱性分析
3
作者 李丹萍 朱子元 +1 位作者 史岗 孟丹 《计算机学报》 EI CAS CSCD 北大核心 2024年第3期525-543,共19页
单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化... 单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化处理的需求不断提高,这使得SIMD技术愈发重要.为了支持SIMD技术,Intel和AMD等x86处理器厂商从1996年开始在其处理器中陆续引入了MMX(MultiMedia Extensions)、SSE(Streaming SIMD Extensions)、AVX(Advanced Vector eXtensions)等SIMD指令集扩展.通过调用SIMD指令,程序员能够无需理解SIMD技术的硬件层实现细节就方便地使用它的功能.然而,随着熔断、幽灵等处理器硬件漏洞的发现,人们逐渐认识到并行优化技术是一柄双刃剑,它在提高性能的同时也能带来安全风险.本文聚焦于x86 SIMD指令集扩展中的VMASKMOV指令,对它的安全脆弱性进行了分析.本文的主要贡献如下:(1)利用时间戳计数器等技术对VMASKMOV指令进行了微架构逆向工程,首次发现VMASKMOV指令与内存页管理和CPU Fill Buffer等安全风险的相关性;(2)披露了一个新的处理器漏洞EvilMask,它广泛存在于Intel和AMD处理器上,并提出了3个EvilMask攻击原语:VMASKMOVL+Time(MAP)、VMASKMOVS+Time(XD)和VMASKMOVL+MDS,可用于实施去地址空间布局随机化攻击和进程数据窃取攻击;(3)给出了2个EvilMask概念验证示例(Proof-of-Concept,PoC)验证了EvilMask对真实世界的信息安全危害;(4)讨论了针对EvilMask的防御方案,指出最根本的解决方法是在硬件层面上重新实现VMASKMOV指令,并给出了初步的实现方案. 展开更多
关键词 处理器安全 单指令多数据流(SIMD) 微体系结构侧信道攻击 VMASKMOV指令 地址空间布局随机化(ASLR)
下载PDF
基于申威SIMD指令的H.264编码优化
4
作者 黄朴 刘世巍 +1 位作者 张昊 王聪 《现代电子技术》 北大核心 2024年第6期49-54,共6页
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIM... 国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIMD指令系统,提出一种基于申威架构的SIMD指令集H.264编码优化方法。结合申威处理器的并行结构特点,利用申威适配的Perf、Top指令等系统性能分析工具,采集两种主流视频分辨率下与编码性能强相关的高频热点函数,详细分析其程序并行化可行性,采用手工嵌入申威SIMD和访存扩展等汇编指令进行细粒度优化。实验结果表明,该方法在申威架构下的H.264平均编码性能提升了约30%。相应工作成果已推送到申威社区,增强了基于申威处理器的国产计算机在桌面多媒体应用领域的工作体验。 展开更多
关键词 单指令多数据流 H.264标准 申威处理器 热点函数 程序并行化 细粒度
下载PDF
基于指令级并行的倒排索引压缩算法 被引量:7
5
作者 闫宏飞 张旭东 +2 位作者 单栋栋 毛先领 赵鑫 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期995-1004,共10页
文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在... 文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17%.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能. 展开更多
关键词 单指令多数据流 倒排索引 压缩 整数编码 信息检索
下载PDF
面向申威众核处理器的规则处理优化技术
6
作者 张振东 王彤 刘鹏 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期66-85,共20页
高性能口令恢复系统是申威众核处理器的重要应用场景之一,规则处理是主流口令恢复工具中被广泛应用的一种口令生成方式.现有相关研究工作缺少对规则处理算法的优化,导致申威处理器上基于规则的口令生成速度成为口令恢复系统的性能瓶颈.... 高性能口令恢复系统是申威众核处理器的重要应用场景之一,规则处理是主流口令恢复工具中被广泛应用的一种口令生成方式.现有相关研究工作缺少对规则处理算法的优化,导致申威处理器上基于规则的口令生成速度成为口令恢复系统的性能瓶颈.通过分析规则处理算法的多层次可并行性,提出了面向申威众核处理器的线程级、数据级优化方案.在线程级优化方案中,探索了规则处理算法的最优任务映射方式,设计了主从核任务分配机制、从核缓冲区配比优化机制、负载均衡机制、变长规则存储机制等技术以提高并行效率;在数据级优化方案中,分析了规则处理算法中规则函数的计算模式,并通过申威SIMD指令集对规则函数进行向量优化以提高执行效率.在SW26010处理器上的实验结果表明,上述优化方案有效解除了规则处理的性能瓶颈,使规则模式下的口令恢复速度提升了30~101倍. 展开更多
关键词 申威众核处理器 口令恢复 规则处理 异构计算 单指令多数据流
下载PDF
使用游程编码和SIMD指令集的快速图像融合 被引量:1
7
作者 赵毅力 徐丹 +1 位作者 钱文华 张雁 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2016年第4期624-632,共9页
图像融合是图像拼接中的一个重要步骤,用于生成无缝的融合图像.针对当前高分辨率图像融合算法速度较慢的问题,提出一种基于多频带的快速图像融合方法.首先通过进行2遍距离变换生成一幅接缝图像,并根据这幅接缝图像生成每一幅输入图像的... 图像融合是图像拼接中的一个重要步骤,用于生成无缝的融合图像.针对当前高分辨率图像融合算法速度较慢的问题,提出一种基于多频带的快速图像融合方法.首先通过进行2遍距离变换生成一幅接缝图像,并根据这幅接缝图像生成每一幅输入图像的蒙版图像,这个过程与输入图像的次序无关,并且具有良好的可扩展性;其次使用游程编码对蒙版图像进行压缩编码,生成每一幅蒙版图像的高斯金字塔,并利用SIMD指令集生成输入图像的拉普拉斯金字塔;最后使用SIMD指令集完成拉普拉斯金字塔重构,得到一幅无缝的融合图像.在实验中对2组数据集进行测试,结果表明该方法能够高效地合成高质量的融合图像.与已有的图像融合方法相比,文中方法运行速度更快、内存使用较少、具有更好的并行性,更适合于目前的多核处理器架构. 展开更多
关键词 图像拼接 接缝处理 多频带融合 游程编码 单指令多数据流
下载PDF
基于SSE指令的大内存快速拷贝 被引量:1
8
作者 钱昌松 刘志刚 刘代志 《计算机应用研究》 CSCD 北大核心 2005年第2期113-114,120,共3页
在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各... 在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各内存拷贝函数拷贝速度与拷贝内存量之间的对应关系。 展开更多
关键词 单指令多数据流扩展指令 内存拷贝 MMX 代码优化
下载PDF
海量STAP数据的脉冲压缩快速实现
9
作者 任磊 王永良 +1 位作者 母其勇 陈辉 《数据采集与处理》 CSCD 北大核心 2008年第3期342-346,共5页
在空时二维自适应处理系统中对海量数据作脉压处理耗时颇大。本文基于单片数字信号处理器(DSP)从数据级和指令级两个方面进行优化,通过合理调度处理器资源并利用片内并行技术,快速实现了对海量数据的脉冲压缩优化处理。以空时二维自适... 在空时二维自适应处理系统中对海量数据作脉压处理耗时颇大。本文基于单片数字信号处理器(DSP)从数据级和指令级两个方面进行优化,通过合理调度处理器资源并利用片内并行技术,快速实现了对海量数据的脉冲压缩优化处理。以空时二维自适应处理(STAP)系统中单景四重频数据为分析对象,比较了采用商业库优化方法和本文方法优化后的两种情况。实验结果证明,在处理时间上取得了1.801的加速比,误差控制在10-5量级,1 024点脉压处理时间为50.456μs,验证了本文方法的有效性。 展开更多
关键词 脉冲压缩 海量数据 单指令多数据流(SIMD) 超长指令字(VLIW) TS201
下载PDF
多核架构下的数据处理算法优化策略综述 被引量:7
10
作者 陈伟 杜凌霞 陈红 《计算机科学与探索》 CSCD 2011年第12期1057-1075,共19页
多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法... 多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法的执行性能。以优化程序局部性、减少cache访问冲突、提高线程并行度、充分利用单指令多数据流(single instruction multipledata,SIMD)并行和带宽优化等几方面为出发点,归纳和分析了多核处理器上数据处理算法的相关优化策略,并对多核算法进行了总结评述。最后阐述了该领域亟待解决的诸多问题,展望了未来的研究发展方向。 展开更多
关键词 多核 单芯片多处理器(CMP) 数据级别并行(DLP) 线程级别并行(TLP) 单指令多数据流(SIMD)
下载PDF
面向DSP的超字并行指令分析和冗余优化算法 被引量:1
11
作者 索维毅 赵荣彩 +1 位作者 姚远 刘鹏 《计算机应用》 CSCD 北大核心 2012年第12期3303-3307,共5页
如今单指令多数据流(SIMD)技术在数字信号处理器(DSP)上得到了广泛的应用,现有的向量化编译器大多都实现了自动向量化的功能,但是编译器并不适合支持DSP为特征的SIMD自动向量化,主要由于DSP复杂的指令集、特有的寻址模型,以及依赖关系... 如今单指令多数据流(SIMD)技术在数字信号处理器(DSP)上得到了广泛的应用,现有的向量化编译器大多都实现了自动向量化的功能,但是编译器并不适合支持DSP为特征的SIMD自动向量化,主要由于DSP复杂的指令集、特有的寻址模型,以及依赖关系或者数据非对齐等原因而导致向量化效率不高。为了解决此问题,在基于Open64的超字并行(SLP)自动向量化编译系统后端,对SLP自动向量化中的指令分析和冗余优化算法进行了添加和改进,生成更加高效的向量化源程序。实验结果表明,该优化方法能有效提高DSP性能并降低功耗。 展开更多
关键词 单指令多数据流 数字信号处理器 自动向量化 冗余优化 Open64
下载PDF
基于全局数据重组的循环倾斜优化
12
作者 陈华军 王琦 +1 位作者 洪超 方萌 《计算机与现代化》 2017年第6期45-49,共5页
循环倾斜是程序优化中一种循环变换的手段,它改变空间迭代形式,将循环存在的跨迭代的并行用传统的并行标识出来,使得循环可以并行执行。但是循环倾斜后,并行执行的数据在内存中是离散的,而且每次迭代执行的次数是不一致的。为了更有效... 循环倾斜是程序优化中一种循环变换的手段,它改变空间迭代形式,将循环存在的跨迭代的并行用传统的并行标识出来,使得循环可以并行执行。但是循环倾斜后,并行执行的数据在内存中是离散的,而且每次迭代执行的次数是不一致的。为了更有效地利用SIMD,本文提出一种基于全局数据重组的循环倾斜优化方法。首先分析循环倾斜优化,针对数据离散的问题实现全局数据重组,改善数据局部性,循环易于向量化操作;针对迭代执行次数不一致问题,实现非满载向量操作,使尾循环得以向量执行。最后选择wavefront程序进行测试,优化后,程序计算可以获得平均10.73倍的加速效果。 展开更多
关键词 单指令多数据流 循环倾斜 数据重组 非满载向量化
下载PDF
基于媒体指令的二维DCT快速计算 被引量:2
13
作者 于倩 邵洋 +2 位作者 张铁军 王东辉 李伟 《计算机工程》 CAS CSCD 北大核心 2007年第12期25-27,共3页
二维DCT变换是视频编码协议H.264和MPEG系列标准的主要运算之一。传统的处理器中的运算无法满足视频编/解码的实时性要求。针对二维DCT变换,该文提出了和媒体指令相适应的数据结构和计算方法,最大限度地利用媒体指令的运算能力,在软件... 二维DCT变换是视频编码协议H.264和MPEG系列标准的主要运算之一。传统的处理器中的运算无法满足视频编/解码的实时性要求。针对二维DCT变换,该文提出了和媒体指令相适应的数据结构和计算方法,最大限度地利用媒体指令的运算能力,在软件设计时避免了数据相关带来的性能下降。实验证明这种快速计算的实现方法能够满足视频应用的实时要求,为编译器设计提供了具有实用性的参考。 展开更多
关键词 媒体指令 单指令多数据流 DCT
下载PDF
高性能可重构DSP处理器的数据通路设计 被引量:1
14
作者 韩亮 李莺 +1 位作者 张馨 陈杰 《电子科技大学学报》 EI CAS CSCD 北大核心 2005年第2期194-197,共4页
介绍了高性能定点可重构DSP处理器的数据通路设计。该数据通路以功能强大的16位定点计算单元为基础,搭建起高速16位数据处理平台;并能以单指令流多数据流的方式灵活支持多维向量运算;通过重构的方法有效地支持了32位数据处理。
关键词 数字信号处理 数据通路 可重构 单指令多数据流 并行处理
下载PDF
AMD新一代SIMD指令集剖析
15
作者 Mik 《微型计算机》 2011年第21期119-124,共6页
对处理器来说指令集是赋予硬件活力的催化剂,就像灵魂之于肉体。因此.AMD与Intel在指令集研发的斗争上从来没有停息过,只是随着AMD的推土机微架构逐渐浮出水面.x86领域的SIMD(Single Instruction Multiple Data单指令多数据流)指... 对处理器来说指令集是赋予硬件活力的催化剂,就像灵魂之于肉体。因此.AMD与Intel在指令集研发的斗争上从来没有停息过,只是随着AMD的推土机微架构逐渐浮出水面.x86领域的SIMD(Single Instruction Multiple Data单指令多数据流)指令之争将暂时告一段落。据现有消息来看推土机架构的指令集规格比Sandy Bridge乃至后续的Ivy Bridge都要完整。这不禁让人好奇,以XOP、FMA4等为代表的AMD新一代指令集到底有何特点和优势.能有如此的前瞻性。 展开更多
关键词 指令 AMD SIMD Multiple BRIDGE 单指令多数据流 INTEL 微架构
下载PDF
面向国产高性能众核处理器的编程模型
16
作者 陈虎 周鹏灵 《计算机应用》 CSCD 北大核心 2023年第11期3517-3526,共10页
在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一... 在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一方面基于消息队列机制开发国产高性能众核处理器的线程级并行机制;另一方面基于单指令多数据流(SIMD)编程模型开发从核上的数据级并行性。首先,对国产高性能众核处理器体系结构进行抽象;其次,设计模型的消息队列机制,并为程序员提供一套异构并行编程接口,如系统参数接口、从核线程控制接口、消息队列接口、SIMD抽象接口;最后,在上述基础上形成全新的高性能计算软件开发模型和方法,方便用户开发基于国产高性能众核处理器的并行计算软件。性能传输测试结果表明,在国产众核处理器上,当启动核数较少时,所提模型的传输带宽普遍达到了峰值直接内存访问(DMA)带宽的90%;当启动的核数较多时,消息队列模型的传输带宽普遍达到了峰值DMA带宽的70%。在矩阵乘法实验中,与系统原语传输矩阵并计算的性能相比,所提模型的性能达到前者的90%;在口令猜测系统中,所提模型的代码性能与直接使用最底层的接口开发的代码性能基本持平。所提通用编程模型和支撑框架使高性能计算(HPC)软件开发更简易,并且具有更好的可移植性,可为促进国产自主HPC软件研发提供帮助。 展开更多
关键词 国产众核处理器 单指令多数据流 并行编程模型 SW26010 消息队列模型
下载PDF
AES算法的SIMD指令集扩展方法与实现
17
作者 卢仕听 王帅 +1 位作者 韩军 曾晓洋 《计算机工程》 CAS CSCD 北大核心 2011年第6期121-123,共3页
基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件... 基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件代价相对较小,且具有编程灵活性。 展开更多
关键词 单指令多数据流 高等加密标准 指令集扩展
下载PDF
基于FT-M7002的复数域行向量矩阵乘法移植与优化
18
作者 莫尚丰 周振芬 +3 位作者 胡勇华 徐敏敏 毛春献 袁钰迪 《计算机科学》 CSCD 北大核心 2023年第S02期827-832,共6页
FT-M7002是我国自主研发的高性能DSP,具有强大的向量处理能力。为有效地发挥它的性能优势,亟待优化移植面向FT-M7002的高效VSIP函数库。复数域行向量矩阵乘法是VSIP库中频繁使用的算法,在数字通信、图像处理等应用领域中大量使用。文中... FT-M7002是我国自主研发的高性能DSP,具有强大的向量处理能力。为有效地发挥它的性能优势,亟待优化移植面向FT-M7002的高效VSIP函数库。复数域行向量矩阵乘法是VSIP库中频繁使用的算法,在数字通信、图像处理等应用领域中大量使用。文中在FT-M7002 DSP上研究优化复数域行向量矩阵乘法算法,通过改变计算矩阵列向量为计算矩阵行向量、向量化、循环展开和软件流水等手段提升算法性能。测试结果表明:优化后的向量C算法相比VSIP库函数获得了6.2~20.6的加速比,汇编优化算法相比向量C算法获得了3.4~14.3的加速比,加速效果明显。 展开更多
关键词 矩阵乘法 数字信号处理器 单指令多数据流 VSIPL
下载PDF
POF交换机查表预处理性能优化方法
19
作者 凌致远 陈晓 宋磊 《网络新媒体技术》 2023年第6期21-27,共7页
协议无感知转发技术的出现使软件定义网络数据面的可编程能力和可扩展性得到了进一步增强,已有的工作聚焦于匹配动作表的查询优化,包括查表算法的优化和整体流程的加速等。但在基于多级匹配动作表设计的数据包转发流水线中,查表前数据... 协议无感知转发技术的出现使软件定义网络数据面的可编程能力和可扩展性得到了进一步增强,已有的工作聚焦于匹配动作表的查询优化,包括查表算法的优化和整体流程的加速等。但在基于多级匹配动作表设计的数据包转发流水线中,查表前数据包匹配域字段的提取工作会消耗较多的时间,在匹配域复杂的场景下甚至与查表时间相当,这成为了降低交换机转发延迟的瓶颈。为了解决上述问题,我们在POF软件交换机中使用单指令多数据流技术对查表预处理阶段的查表关键字提取流程进行加速。实验结果表明,加速方案使交换机的平均转发延迟降低了12%-38%。 展开更多
关键词 软件定义网络 协议无感知转发 单指令多数据流 查表预处理 高性能转发
下载PDF
一种高效的面向基2 FFT算法的SIMD并行存储结构 被引量:4
20
作者 陈海燕 杨超 +1 位作者 刘胜 刘仲 《电子学报》 EI CAS CSCD 北大核心 2016年第2期241-246,共6页
随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fo... 随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fourier Transform)并行算法面临的访存问题,采用简单的部分地址异或逻辑完成SIMD并行访存地址转换,实现了FFT运算的无冲突SIMD并行访存;提出了几种带特殊混洗模式的向量访存指令,可完全消除SIMD结构下基2FFT运算时需要的额外混洗指令操作.最后将其应用于某16路SIMD数字信号处理器YHFT-Matrix2中向量存储器VM的优化设计.测试结果表明,采用该SIMD并行存储结构优化的VM以增加18%的硬件开销实现了FFT运算全流水无冲突并行访存和100%并行访存带宽利用率;相比优化前的设计,不同点数FFT运算可获得1.32~2.66的加速比. 展开更多
关键词 快速傅里叶变换 单指令多数据流 低位交叉 并行存储 访问冲突 数据混洗
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部