期刊文献+
共找到224篇文章
< 1 2 12 >
每页显示 20 50 100
基于OpenCL的多标靶加速定位方法
1
作者 王瑾瑜 罗剑波 《软件工程》 2024年第8期57-61,共5页
针对现有人工标靶定位方法精度不高且效率低的问题,提出一种基于ICP(Iterrative Closest Point)的定位标靶中心算法,并在所提出的定位方法的实现上进行加速,对检测到的二维边缘点集在CPU中建立VP-tree(Vantage Point Tree)数据结构后,... 针对现有人工标靶定位方法精度不高且效率低的问题,提出一种基于ICP(Iterrative Closest Point)的定位标靶中心算法,并在所提出的定位方法的实现上进行加速,对检测到的二维边缘点集在CPU中建立VP-tree(Vantage Point Tree)数据结构后,传入图形处理器(Graphics Processing Unit,GPU)缓冲区中,使用全称为开放计算语言(Open Computing Language,OpenCL)框架并行计算,并且使下一时刻的边缘点云继承上一时刻的刚性变换矩阵,减少迭代次数并加快收敛速度,实现实时定位。经实验验证,本文算法在1.6 m的视场范围,定位精度约为0.0819 pixel,平均绝对误差约为0.0261 mm。实验结果验证了该方法具有可行性且算法有效。 展开更多
关键词 标靶定位 opencl 迭代最近点 GPU
下载PDF
基于OpenCL的驾驶监控系统自调优化研究
2
作者 刘创 李智 《电子制作》 2024年第7期62-67,共6页
高性能异构计算在视频大数据处理中的研究应用意义重大,如何高效地发挥计算平台的性能问题亟待解决,本文以汽车智能化的驾驶员监控系统应用为背景,针对深度学习视频识别分析实时性要求高,异构计算平台错综复杂等问题,从基于OpenCL异构... 高性能异构计算在视频大数据处理中的研究应用意义重大,如何高效地发挥计算平台的性能问题亟待解决,本文以汽车智能化的驾驶员监控系统应用为背景,针对深度学习视频识别分析实时性要求高,异构计算平台错综复杂等问题,从基于OpenCL异构框架并行计算和模型自调优化两个方面深入研究,通过利用OpenCL在异构并行计算中的架构优势,进行编程性能模型的设计和自调算法优化,有效地避免了接触底层设备来设计和实现高并行计算的传统方法。对照实验结果表明,引入YOLOv3算法的OpenCL异构计算平台相对于GPU并行加速比能达到1.46,进一步通过TVM优化部署加速比突破到了1.6,研究结果表明,该方法解决了跨多种平台代码重构与性能自调优的难题,对汽车智能化驾驶员监控系统的高性能需求提供了理论研究。 展开更多
关键词 opencl 自调模型 算法优化 优化编译器
下载PDF
基于异构平台的图像中值滤波的OpenCL加速算法 被引量:1
3
作者 肖诗洋 王镭 +1 位作者 杜莹 肖汉 《河北大学学报(自然科学版)》 CAS 北大核心 2024年第1期92-103,共12页
图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,... 图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 展开更多
关键词 中值滤波 椒盐噪声 图形处理器 开放式计算语言 并行算法
下载PDF
基于图神经网络的OpenCL程序自动优化启发式方法 被引量:2
4
作者 叶贵鑫 张宇翔 +2 位作者 张成 赵佳棋 王焕廷 《计算机研究与发展》 EI CSCD 北大核心 2023年第5期1121-1135,共15页
物联网的发展与普及促使计算机异构架构迅速发展,开放运算语言(open computing language,OpenCL)作为首个跨平台异构并行计算框架,具有标准化、可移植性等优点,但因不同平台下软硬件的复杂性和多样性,使OpenCL在性能上的移植性存在一定... 物联网的发展与普及促使计算机异构架构迅速发展,开放运算语言(open computing language,OpenCL)作为首个跨平台异构并行计算框架,具有标准化、可移植性等优点,但因不同平台下软硬件的复杂性和多样性,使OpenCL在性能上的移植性存在一定的缺陷.现有的方法通过深度学习构建优化模型来提高程序运行效率,但所构建的预测模型仅考虑代码的顺序依赖关系,忽略了语法语义信息,导致代码优化效果不明显.为解决上述问题,提出了一种基于多关系图神经网络的OpenCL程序自动优化启发式方法.该方法首先把OpenCL代码转换成多关系代码图,能够提取代码的深度结构与语法语义特征;然后利用改进后的图神经网络模型,将构建的代码图编码为高维的特征向量;最后使用决策网络完成任务预测.为验证方法的有效性,分别在异构设备映射和线程粗化因子预测2个任务上进行实验评估.结果表明,在异构设备映射任务中,最优设备预测准确率能够达到88.7%,相较于现有最先进的方法,加速比可提高7.6%;在线程粗化任务中,加速比相较于现有最优的方法可提高5.2%. 展开更多
关键词 启发式优化 图网络 opencl 深度学习 异构设备
下载PDF
基于OpenCL的AES算法并行化研究 被引量:2
5
作者 王阳 《自动化应用》 2023年第14期241-244,247,共5页
军用电子信息系统网络化带来的数据交互需使用安全传输技术保证交互过程的安全性。传统的加密方式带来的传输时延影响了系统的实时性,本文研究基于OpenCL的AES算法并行化技术,为安全传输提供快速加密的技术支撑。通过对AES算法并行化的... 军用电子信息系统网络化带来的数据交互需使用安全传输技术保证交互过程的安全性。传统的加密方式带来的传输时延影响了系统的实时性,本文研究基于OpenCL的AES算法并行化技术,为安全传输提供快速加密的技术支撑。通过对AES算法并行化的研究分析,设计T盒取代原有的S盒替换、行位移、列混合的数据块加密操作。通过多粒度加密方式对比、内存分配对比实验找出最优化的存储策略和并行粒度,使得优化后的AES算法在同等硬件环境下取得了最大3.74的加速比,能适用于安全传输且满足系统实时性的需求。 展开更多
关键词 opencl 安全传输 AES算法 并行化
下载PDF
CPU-GPU MPSoC中使用寿命驱动的OpenCL应用调度方法
6
作者 曹坤 龙赛琴 李哲涛 《计算机研究与发展》 EI CSCD 北大核心 2023年第5期976-991,共16页
近年来,集成CPU和GPU的多处理器片上系统(multiprocessor system-on-chips,MPSoC),凭借兼顾GPU核心的并行计算能力和CPU核心的通用计算能力,已经广泛应用于工业控制、汽车电子、智慧医疗等领域.为了充分发挥CPU-GPU MPSoC的性能,开放计... 近年来,集成CPU和GPU的多处理器片上系统(multiprocessor system-on-chips,MPSoC),凭借兼顾GPU核心的并行计算能力和CPU核心的通用计算能力,已经广泛应用于工业控制、汽车电子、智慧医疗等领域.为了充分发挥CPU-GPU MPSoC的性能,开放计算语言(open computing language,OpenCL)逐渐成为一种主流的应用程序编写标准.然而,在将OpenCL应用部署到CPU-GPU MPSoC的过程中,现有研究工作大多忽略了对芯片温度和使用寿命的管理,导致处理器核心在执行应用时超过了峰值温度,甚至永久性故障的提前发生,无法保证OpenCL应用的长久稳定运行.为了弥补上述缺点,提出了一种包含静态和动态应用调度技术的方法.静态应用调度技术是基于改进交叉熵策略,将OpenCL应用的特性充分考虑在内,有效提高了OpenCL应用设计点的寻优效率.动态应用调度技术是基于反馈控制策略,克服了传统方案中无法有效应对系统运行时新到应用的缺陷,能够最小化新到应用的平均延迟.实验表明,所提方法可以将应用的平均延迟降低34.58%,同时满足温度、能耗、使用寿命的约束. 展开更多
关键词 CPU-GPU多处理器片上系统 延迟 寿命 opencl应用 调度 温度
下载PDF
基于OpenCL的腐蚀膨胀算法的并行优化
7
作者 王文善 张维忠 李强 《青岛大学学报(工程技术版)》 CAS 2023年第4期22-26,共5页
传统腐蚀膨胀串行算法存在大量冗余计算且耗时长等问题,本文提出基于OpenCL的腐蚀膨胀并行算法,利用GPU通用计算的特性和串行算法的像素无关性,对所有像素点同时计算,针对特定结构元素对算法进行改进,通过划分新结构元素的方式消除冗余... 传统腐蚀膨胀串行算法存在大量冗余计算且耗时长等问题,本文提出基于OpenCL的腐蚀膨胀并行算法,利用GPU通用计算的特性和串行算法的像素无关性,对所有像素点同时计算,针对特定结构元素对算法进行改进,通过划分新结构元素的方式消除冗余计算,提高计算效率。合理划分工作组并对2种算法进行内存优化,通过OpenCL内存的特性进行合理的内存分配。实验结果表明,该算法大幅提高了计算效率,随着图像大小和结构元素大小的增大,加速比增大。该算法提供了一种高效的腐蚀膨胀并行算法,在处理大型图像时节省大量的计算时间,提高了计算效率和性能,对于需要频繁进行图像处理的任务(如计算机视觉、图像分析等)具有重要意义。 展开更多
关键词 腐蚀 膨胀 opencl 并行算法
下载PDF
基于OpenCL的HMAC-SHA256算法优化与实现
8
作者 郑博文 聂一 柴志雷 《计算机与数字工程》 2023年第11期2483-2489,共7页
HMAC算法作为主流消息认证算法之一,面临着以纯软件方式运行速度慢,以传统的FPGA硬件实现方式更新维护困难的问题。针对上述问题,设计了HMAC-SHA256算法的定制计算架构并基于OpenCL以高层次描述方式进行了实现。具体包括计算路径优化、... HMAC算法作为主流消息认证算法之一,面临着以纯软件方式运行速度慢,以传统的FPGA硬件实现方式更新维护困难的问题。针对上述问题,设计了HMAC-SHA256算法的定制计算架构并基于OpenCL以高层次描述方式进行了实现。具体包括计算路径优化、存储结构与查找表优化、HMAC-SHA256全流水结构设计。基于OpenCL的计算任务分组优化、数据存储优化、数据通道矢量化等手段实现了HMAC-SHA256算法的FPGA定制计算架构。实验结果表明:在Intel Stratix 10 FPGA平台上,所实现的HMAC-SHA256吞吐率达到174.236Gbps,与Intel Core I7-10700 CPU相比,性能提升了656%,能效提升了1514%;与NVIDIA GTX 1650 SUPER GPU相比,性能提升了14%,能效提升了288%。 展开更多
关键词 FPGA SHA-256 HMAC-SHA256 opencl 硬件加速
下载PDF
基于OpenCL的SAR影像快速浏览方法研究
9
作者 孙祥杰 朱亮 余同欢 《电子质量》 2023年第3期24-30,共7页
在分析了SAR影像数据的结构特点、OpenCL的计算架构和影像缩放算法的适用方式的基础上,提出了基于OpenCL的SAR影像快速浏览方法。使用OpenCL异构并行技术加速最邻近插值、双线性插值和双三次插值3种常用的影像缩放算法,并进行全方位的... 在分析了SAR影像数据的结构特点、OpenCL的计算架构和影像缩放算法的适用方式的基础上,提出了基于OpenCL的SAR影像快速浏览方法。使用OpenCL异构并行技术加速最邻近插值、双线性插值和双三次插值3种常用的影像缩放算法,并进行全方位的测试评估实验。研究结果显示系统在OpenCL优化的最优配置下能够显著地提高系统内存应用效率和加快SAR影像缩放过程中的加载速度,大幅度地提升影像缩放算法的效率,其实时性和影像表现可以完全满足对于大数据量SAR影像的浏览要求。 展开更多
关键词 合成孔径雷达 海量数据 opencl 异构并行 快速浏览方法
下载PDF
基于OpenCL的拉普拉斯图像增强算法优化研究 被引量:19
10
作者 贾海鹏 张云泉 +2 位作者 龙国平 徐建良 李焱 《计算机科学》 CSCD 北大核心 2012年第5期271-277,共7页
OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同... OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同GPU平台底层硬件架构的基础上,从Global Memory的访存效率、GPU计算资源的有效利用率及其硬件资源的限制等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响;并在此基础上实现了基于OpenCL的拉普拉斯图像增强算法。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD和NVIDIA GPU上都取得了3.7~136.1倍、平均56.7倍的性能加速,优化后的kernel比NVIDIA NPP库中相应函数也取得了12.3%~346.7%、平均143.1%的性能提升,验证了提出的优化方法的有效性和性能可移植性。 展开更多
关键词 opencl 通用计算 拉普拉斯算法 跨平台
下载PDF
基于OpenCL的Viola-Jones人脸检测算法性能优化研究 被引量:13
11
作者 贾海鹏 张云泉 +1 位作者 袁良 李士刚 《计算机学报》 EI CSCD 北大核心 2016年第9期1775-1789,共15页
Viola-Jones人脸检测算法是最为成功的可实用的人脸检测算法之一.然而,随着该算法所在领域数据处理规模的不断扩大,现有算法的性能已经越来越无法满足日益增长的交互性与实时性要求.使用GPU计算平台提升该算法性能,以满足日益增长的实... Viola-Jones人脸检测算法是最为成功的可实用的人脸检测算法之一.然而,随着该算法所在领域数据处理规模的不断扩大,现有算法的性能已经越来越无法满足日益增长的交互性与实时性要求.使用GPU计算平台提升该算法性能,以满足日益增长的实时性要求已经成为研究热点.然而,该算法在对GPU的实现和优化中,存在线程间负载不均衡的非规则特性,如果仅使用传统的优化方法,则难以在GPU计算平台上达到较高性能.针对此种情况,该文构建了针对此类算法的并行优化框架,通过Uberkernel、粗粒度并行、Persistent Thread、线程与数据的动态映射、全局及本地队列等优化方法的应用,突破了负载不均衡非规则特性导致的性能瓶颈,大幅提高了人脸检测算法在GPU计算平台上的性能.同时,该文通过对不同GPU计算平台关键性能参数的定义、抽取和传递,实现了该算法在不同GPU计算平台间的性能移植.实验结果表明,与OpenCV2.4中经过高度优化的CPU版本在Intel Xeon X5550CPU上的性能相比,优化后的算法在AMD HD7970和NVIDIA GTX680两个不同GPU计算平台上分别达到了11.24-20.27和9.24-17.62倍的加速比,不仅实现了高性能,而且实现了在不同GPU计算平台间的性能移植. 展开更多
关键词 opencl 负载不均衡 任务队列 线程与任务动态映射 性能移植
下载PDF
异构平台上基于OpenCL的FFT实现与优化 被引量:8
12
作者 李焱 张云泉 +1 位作者 王可 赵美超 《计算机科学》 CSCD 北大核心 2011年第8期284-286,296,共4页
快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程... 快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程环境。首先,在异构平台Cell和GPU上使用OpenCL实现了基于2的幂一维FFT,并对其进行了测试和分析,在Cell平台上当数据规模适中时它能够达到SDK性能的65%,当数据规模继续增大时,相对性能有所降低。此外,针对Nvidia Fermi平台,手工调优了小因子的FFT,使其性能接近于CUFFT的140%。 展开更多
关键词 FFT opencl Cell CUDA GPU 快速傅立叶变换
下载PDF
基于OpenCL的异构系统并行编程 被引量:23
13
作者 詹云 赵新灿 谭同德 《计算机工程与设计》 CSCD 北大核心 2012年第11期4191-4195,4293,共6页
针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算... 针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算统一设备架构CUDA(compute unified device architecture)及其它通用计算技术进行对比。对比结果表明,OpenCL能够充分发挥异构处理平台上各种处理器的性能潜力,充分合理地分配任务,为进行大规模并行计算提供了新的强有力的工具。 展开更多
关键词 异构处理器 通用计算 开放计算语言(opencl) 性能优化 计算统一设备架构(CUDA)
下载PDF
面向OpenCL模型的GPU性能优化 被引量:21
14
作者 陈钢 吴百锋 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第4期571-581,共11页
GPU的高性价比吸引了越来越多的通用计算.为充分发挥异构处理平台下GPU的通用计算能力,提出面向OpenCL模型的性能优化方法.该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配;通过检测存储访问模式... GPU的高性价比吸引了越来越多的通用计算.为充分发挥异构处理平台下GPU的通用计算能力,提出面向OpenCL模型的性能优化方法.该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配;通过检测存储访问模式发掘可向量化的存储访问实例,利用数据空间变换对存储访问模式进行转换,进而使用向量数据类型提高片外存储器的带宽利用率;通过检测程序中的数据重用,根据数据的访问属性和OpenCL存储模型的特性实现快速存储器的有效分配与优化,提高了片上存储器的使用效率.采用文中方法对6个测试程序进行实验的结果表明,程序的性能提高了1.6~8.4倍,证实了其有效性. 展开更多
关键词 opencl GPU 性能优化 异构处理 通用计算 多面体表示
下载PDF
基于OpenCL的图像积分图算法优化研究 被引量:6
15
作者 贾海鹏 张云泉 徐建良 《计算机科学》 CSCD 北大核心 2013年第2期1-7,共7页
图像积分图算法在快速特征检测中有着广泛的应用,通过GPU对其进行性能加速有着重要的现实意义。然而由于GPU硬件架构的复杂性和不同硬件体系架构间的差异性,完成图像积分图算法在GPU上的优化,进而实现不同GPU平台间的性能移植是一件非... 图像积分图算法在快速特征检测中有着广泛的应用,通过GPU对其进行性能加速有着重要的现实意义。然而由于GPU硬件架构的复杂性和不同硬件体系架构间的差异性,完成图像积分图算法在GPU上的优化,进而实现不同GPU平台间的性能移植是一件非常困难的工作。在分析不同GPU平台底层硬件架构的基础上,从片外访存带宽利用率、计算资源利用率和数据本地化等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响。并在此基础上实现了基于OpenCL的图像积分图算法。实验结果表明,优化后的算法在AMD和NVIDIA GPU上分别取得了11.26和12.38倍的性能加速,优化后的GPU kernel比NVIDIA NPP库中的相应函数也分别取得了55.01%和65.17%的性能提升。验证了提出的优化方法的有效性和性能可移植性。 展开更多
关键词 opencl GPU 图像积分图算法 跨平台
下载PDF
面向OpenCL架构的大规模生物序列比对 被引量:2
16
作者 陈钢 韦刚 +2 位作者 李国波 裴颂文 吴百锋 《小型微型计算机系统》 CSCD 北大核心 2012年第2期392-398,共7页
为提高生物序列比对算法的性能和效率,提出一种异构处理平台下可移植的大规模生物序列比对算法及其优化方法.通过改变原有Smith-Waterman算法的计算流程和数据依赖关系,增加序列比对的并行性;通过改变存储器布局后使用向量数据类型,提... 为提高生物序列比对算法的性能和效率,提出一种异构处理平台下可移植的大规模生物序列比对算法及其优化方法.通过改变原有Smith-Waterman算法的计算流程和数据依赖关系,增加序列比对的并行性;通过改变存储器布局后使用向量数据类型,提高全局存储器的带宽利用率;通过增加偏移量改变存储器模块的映射方式,避免模块访问冲突,提高局部存储器的使用效率.实验结果表明,优化后的生物序列比对性能提升了近100倍. 展开更多
关键词 opencl GPU 生物序列比对 SMITH-WATERMAN算法
下载PDF
OpenCL加速的基于虚拟节点法的柔性体实时切割仿真 被引量:2
17
作者 贾世宇 潘振宽 张维忠 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2014年第10期1852-1859,共8页
为了提高柔性体变形仿真运行速度并且解决切割对变形计算稳定性的负面影响,提出了能与GPU加速的变形算法协同运作的基于虚拟节点法的柔性体实时切割仿真方法.柔性体模型由真实四面体网格嵌入虚拟四面体网格中构成,前者用于碰撞处理和图... 为了提高柔性体变形仿真运行速度并且解决切割对变形计算稳定性的负面影响,提出了能与GPU加速的变形算法协同运作的基于虚拟节点法的柔性体实时切割仿真方法.柔性体模型由真实四面体网格嵌入虚拟四面体网格中构成,前者用于碰撞处理和图形渲染,而后者则用于变形计算.切割算法首先分裂真实四面体网格;然后复制包含超过一块真实四面体连通碎片的虚拟四面体,每个复制品包含一块真实四面体碎片;再根据真实四面体之间的连接关系更新虚拟四面体之间的连接关系;最后更新真实四面体网格与虚拟四面体网格之间的镶嵌关系.为了确保仿真系统不被限制在NVIDIA公司的GPU上,GPU加速使用OpenCL实现.仿真测试结果表明,该方法可以在任意多次切割情况下保持变形计算稳定不发散,并且在NVIDIA公司和AMD公司的GPU上都可以正确运行. 展开更多
关键词 柔性体 实时变形 实时切割仿真 虚拟节点法 GPU加速 opencl
下载PDF
基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算 被引量:3
18
作者 龙卓群 王晓瑜 王昌明 《自动化与仪表》 2017年第7期16-21,33,共7页
为提高大矩阵乘的并行计算效率和计算精度,该文提出一种基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算方法。首先,引入DCT预测编码技术,并利用其二维数据的DCT变换值及其逆变换的二维表达式,对未编码数据的预测来消除邻近数据间在... 为提高大矩阵乘的并行计算效率和计算精度,该文提出一种基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算方法。首先,引入DCT预测编码技术,并利用其二维数据的DCT变换值及其逆变换的二维表达式,对未编码数据的预测来消除邻近数据间在时间域以及空间域上的相关性,以达到对数据进行压缩的目的;其次,基于Epiphany进行OpenCL的并行变换编码处理流程设计,实现矩阵乘的并行化计算;最后,通过在常用编程模型和大矩阵乘法上的试验,显示所提方法具有更高的计算效率和精度,验证了所提并行计算方法的性能优势。 展开更多
关键词 DCT预测编码 Epiphany架构 opencl模型 矩阵乘法 并行计算
下载PDF
基于OpenCL的Prewitt算法的并行实现 被引量:5
19
作者 马歌 肖汉 《现代电子技术》 2014年第20期103-106,共4页
Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作... Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作。针对上述问题,提出了一种基于OpenCL异构框架的Prewitt图像边缘检测并行算法。实验结果表明,该并行算法比CPU上的串行算法运行速度快,加速比可达30倍,有效地提高了大规模数据处理的效率,可移植性好,具有较高的应用价值。 展开更多
关键词 opencl 异构框架 边缘检测 Prewitt算法 并行实现
下载PDF
基于OpenCL并行流动影响三维共晶生长多相场模拟 被引量:1
20
作者 朱昶胜 金显 +1 位作者 冯力 肖荣振 《兰州理工大学学报》 CAS 北大核心 2019年第1期11-17,共7页
基于KKSO三维多元合金共晶多相场模型,研究了OpenCL+GPU软硬件体系结构的高性能计算方法,以CBr_4-C_2Cl_6为例,分别在AMD和NVIDIA 2种异构平台上通过多进程和多线程的并发执行实现了强迫对流下三维共晶组织的演化过程.结果表明:当计算... 基于KKSO三维多元合金共晶多相场模型,研究了OpenCL+GPU软硬件体系结构的高性能计算方法,以CBr_4-C_2Cl_6为例,分别在AMD和NVIDIA 2种异构平台上通过多进程和多线程的并发执行实现了强迫对流下三维共晶组织的演化过程.结果表明:当计算规模相同时,分别在不同的平台上取得了一定的加速比.对并行算法在一定程度上进行优化,与CPU平台上的串行算法相比优化后的并行算法在异构平台上分别达到了20.2倍和23.6倍的加速比,大大提高了计算效率.同时,以其强大的浮点计算能力获取较为准确的模拟结果,达到计算效率和可移植性的双重需求,解决了传统求解相场模型存在的计算量大、效率低、限于定性研究等问题. 展开更多
关键词 opencl KKSO模型 共晶生长 相场法 数值模拟
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部