期刊文献+
共找到1,279篇文章
< 1 2 64 >
每页显示 20 50 100
MPI+CUDA联合加速重力场反演的并行算法
1
作者 赵锴坤 朱炬波 +1 位作者 谷德峰 韦春博 《大地测量与地球动力学》 CSCD 北大核心 2024年第4期423-428,共6页
针对重力场解算过程中数据量巨大的问题,联合MPI(massage passing interface)与CUDA(compute unified device architecture)提出基于最小二乘法的重力场解算过程的并行加速算法。使用MPI完成复杂过程的任务分配,实现全局层面的并行加速... 针对重力场解算过程中数据量巨大的问题,联合MPI(massage passing interface)与CUDA(compute unified device architecture)提出基于最小二乘法的重力场解算过程的并行加速算法。使用MPI完成复杂过程的任务分配,实现全局层面的并行加速;基于CUDA编写大规模矩阵相乘的并行加速程序,并针对不同类型的矩阵进行适配,同时联合MPI将法矩阵的计算过程进一步细分,实现对分进程内存峰值的压缩。在单机上完成30阶与120阶重力场仿真解算任务,结果表明,反演30阶重力场时加速比可达180;反演120阶重力场时,并行计算单次迭代仅耗时2 h,而串行模式下无法计算。 展开更多
关键词 重力场 并行计算 cuda MPI
下载PDF
Optimized CUDA Implementation to Improve the Performance of Bundle Adjustment Algorithm on GPUs
2
作者 Pranay R. Kommera Suresh S. Muknahallipatna John E. McInroy 《Journal of Software Engineering and Applications》 2024年第4期172-201,共30页
The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its p... The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its performance by implementing the algorithm on GPUs. In the previous research work, “Improving Accuracy and Computational Burden of Bundle Adjustment Algorithm using GPUs,” the authors demonstrated first the Bundle Adjustment algorithmic performance improvement by reducing the mean square error using an additional radial distorting parameter and explicitly computed analytical derivatives and reducing the computational burden of the Bundle Adjustment algorithm using GPUs. The naïve implementation of the CUDA code, a speedup of 10× for the largest dataset of 13,678 cameras, 4,455,747 points, and 28,975,571 projections was achieved. In this paper, we present the optimization of the Bundle Adjustment algorithm CUDA code on GPUs to achieve higher speedup. We propose a new data memory layout for the parameters in the Bundle Adjustment algorithm, resulting in contiguous memory access. We demonstrate that it improves the memory throughput on the GPUs, thereby improving the overall performance. We also demonstrate an increase in the computational throughput of the algorithm by optimizing the CUDA kernels to utilize the GPU resources effectively. A comparative performance study of explicitly computing an algorithm parameter versus using the Jacobians instead is presented. In the previous work, the Bundle Adjustment algorithm failed to converge for certain datasets due to several block matrices of the cameras in the augmented normal equation, resulting in rank-deficient matrices. In this work, we identify the cameras that cause rank-deficient matrices and preprocess the datasets to ensure the convergence of the BA algorithm. Our optimized CUDA implementation achieves convergence of the Bundle Adjustment algorithm in around 22 seconds for the largest dataset compared to 654 seconds for the sequential implementation, resulting in a speedup of 30×. Our optimized CUDA implementation presented in this paper has achieved a 3× speedup for the largest dataset compared to the previous naïve CUDA implementation. 展开更多
关键词 Scene Reconstruction Bundle Adjustment LEVENBERG-MARQUARDT Non-Linear Least Squares Memory Throughput Computational Throughput Contiguous Memory Access cuda Optimization
下载PDF
Developing a Clang Libtooling-Based Refactoring Tool for CUDA GPU Programming
3
作者 Kian Nejadfard Janche Sang 《Journal of Software Engineering and Applications》 2024年第2期89-108,共20页
Refactoring tools, whether fully automated or semi-automated, are essential components of the software development life cycle. As software libraries and frameworks evolve over time, it’s crucial for programs utilizin... Refactoring tools, whether fully automated or semi-automated, are essential components of the software development life cycle. As software libraries and frameworks evolve over time, it’s crucial for programs utilizing them to also evolve to remain compatible with modern advancements. Take, for example, NVIDIA CUDA’s platform for general-purpose GPU programming. Embracing the more contemporary unified memory architecture offers several benefits, such as simplifying program source code, reducing bugs stemming from manual memory management between host and device memory, and optimizing memory transfer through automated memory handling. This paper describes our development of a refactoring tool based on Clang’s Libtooling to facilitate this transition automatically, thereby relieving developers from the burden and risks associated with manually refactoring large code bases. 展开更多
关键词 REFACTORING cuda Unified Memory Clang Libtooling
下载PDF
Simulation of inclined dendrites under natural convection by KKS phase field model based on CUDA 被引量:1
4
作者 Chang-sheng Zhu Tian-yu Li +2 位作者 Bo-rui Zhao Cang-long Wang Zi-hao Gao 《China Foundry》 SCIE CAS CSCD 2023年第5期432-442,共11页
In this work,Al-4.5wt.%Cu was selected as the research object,and a phase field-lattice Boltzmann method(PF-LBM)model based on compute unified device architecture(CUDA)was established to solve the problem of low seria... In this work,Al-4.5wt.%Cu was selected as the research object,and a phase field-lattice Boltzmann method(PF-LBM)model based on compute unified device architecture(CUDA)was established to solve the problem of low serial computing efficiency of a traditional CPU and achieve significant acceleration.This model was used to explore the evolution of dendrite growth under natural convection.Through the study of the tip velocities,it is found that the growth of the dendrite arms at the bottom is inhibited while the growth of the dendrite arms at the top is promoted by natural convection.In addition,research on the inclined dendrite under natural convection was conducted.It is observed that there is a deviation between the actual growth direction and the preferred angle of the inclined dendrite.With the increase of the preferred angle of the seed,the difference between the actual growth direction and the initial preferred angle of the inclined dendrite shows a trend of increasing at first and then decreasing.In the simulation area,the relative deflection directions of the primary dendrite arms in the top right corner and the bottom left corner of the same dendrite are almost counterclockwise,while the relative deflection directions of the other two primary dendrite arms are clockwise. 展开更多
关键词 PF-LBM natural convection inclined dendrites cuda
下载PDF
基于CUDA的智能电网谐波的检测与监控
5
作者 赵从杰 潘文林 《计算机与数字工程》 2023年第4期954-958,共5页
为了获得更快的处理响应和稳定性,并向用户提供有关电能质量(损耗、谐波、断电、稳态和瞬态事件)的信息,自主检测单元对于智能电网的发展是至关重要的。论文介绍了一种基于CUDA的新型智能电网谐波实时分析系统,图形处理器(Graphics Proc... 为了获得更快的处理响应和稳定性,并向用户提供有关电能质量(损耗、谐波、断电、稳态和瞬态事件)的信息,自主检测单元对于智能电网的发展是至关重要的。论文介绍了一种基于CUDA的新型智能电网谐波实时分析系统,图形处理器(Graphics Processing Unit,GPU)作为高性能并行计算机实现对电网的仿真、分析、可视化及优化控制。在此基础上设计了一种利用优化窗插值快速傅里叶FFT算法,通过CUDA实现并行化计算,从而实现对电网谐波的检测。考虑到FFT算法在检测电网谐波时会由于周期截断产生一定的检测误差,论文提出了一种基于遗传算法的组合预选函数最为插值优化窗。最后通过仿真验证了论文的设计策略的正确性。 展开更多
关键词 电网谐波检测 cuda 快速傅里叶算法 遗传算法
下载PDF
基于CUDA的并行雷达拼图算法研究
6
作者 韩丰 高嵩 +1 位作者 薛峰 李月安 《气象》 CSCD 北大核心 2023年第10期1246-1253,共8页
雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义... 雷达组网拼图算法是强对流天气短时临近预报系统(Severe Weather Automatic Nowcasting,SWAN)的重要基础方法之一。提高拼图算法的效率,不仅可以提升现有SWAN临近算法序列的时效性,也能更好地应用高分辨率雷达数据,具有重要的实际意义。采用中央处理器(central processing unit,CPU)和图形处理器(graphics processing unit,GPU)混合架构设计并行雷达拼图算法,其中CPU负责雷达数据的解析和调度GPU并行模块,GPU负责大规模数据的并行计算。通过分析计算统一设备架构(compute unified device architecture,CUDA)算法的并行开销和拼图算法的特点,提出并实现了GPU内存管理优化和数据交换流程优化方案,提高了组网拼图算法的效率。对比试验结果表明,基于CUDA的GPU并行拼图算法和SWAN中30线程并行的CPU算法相比,在全国1 km和500 m分辨率的拼图任务上,加速比分别达到3.52和6.82。综上,基于CUDA的并行拼图算法不仅可以提高SWAN短时临近算法序列的时效性,也为更高分辨率雷达资料的拼图提供了技术支持。 展开更多
关键词 组网拼图 GPU并行 计算统一设备架构(cuda) 强对流天气短时临近预报系统(SWAN)
下载PDF
基于CUDA的全景视频实时监控系统设计
7
作者 杨振玲 邹玉英 王高峰 《电子设计工程》 2023年第13期89-93,共5页
针对传统监控方案人机交互感受较差、存在视觉盲区等缺陷,以及传统全景视频拼接技术难以实现实时性输出等问题,设计了一种基于CUDA编译模型的全景视频实时监控系统。通过初始化阶段计算出每一路相机获取的图像的像素点位置变换关系并保... 针对传统监控方案人机交互感受较差、存在视觉盲区等缺陷,以及传统全景视频拼接技术难以实现实时性输出等问题,设计了一种基于CUDA编译模型的全景视频实时监控系统。通过初始化阶段计算出每一路相机获取的图像的像素点位置变换关系并保存在映射表中,在重叠区域寻找一条最佳接缝线并生成接缝线掩码图,利用CUDA编译模型实现全景图像的实时处理。实验结果表明,该监控系统具有良好的视觉性,并达到了全景视频实时性输出的工程要求。 展开更多
关键词 全景视频 图像拼接 实时性 cuda编译模型 图像融合
下载PDF
基于CUDA和OpenGL的多图层叠加的雷达终端显示技术
8
作者 陈龙 《空天预警研究学报》 CSCD 2023年第3期194-197,203,共5页
为解决传统基于CPU软件化的显示技术很难满足场面监视雷达终端显示软件送出的原始视频数据包高实时性要求的问题,基于CUDA的高速并行处理技术和OpenGL的实时渲染技术相结合,提出了一种场面监视雷达终端显示软件设计方法.应用结果表明,... 为解决传统基于CPU软件化的显示技术很难满足场面监视雷达终端显示软件送出的原始视频数据包高实时性要求的问题,基于CUDA的高速并行处理技术和OpenGL的实时渲染技术相结合,提出了一种场面监视雷达终端显示软件设计方法.应用结果表明,利用该方法可以将雷达视频、电子地图以及点航迹信息进行叠加显示,具有较强的灵活性和扩展性. 展开更多
关键词 雷达终端显示 OpenGL纹理 cuda架构 多图层叠加
下载PDF
二维稳态热传导CUDA并行
9
作者 王民 《物联网技术》 2023年第10期124-125,128,共3页
随着计算机技术的发展,面向GPU设备实现应用程序的加速处理成为当前的研究热点之一。文中首先介绍了二维稳态传导程序的基础内容;其次基于有限差分的拉普拉斯方程来实现多核平台上二维稳态热传导程序的编写以及测试工作;再次在NVIDIAGEF... 随着计算机技术的发展,面向GPU设备实现应用程序的加速处理成为当前的研究热点之一。文中首先介绍了二维稳态传导程序的基础内容;其次基于有限差分的拉普拉斯方程来实现多核平台上二维稳态热传导程序的编写以及测试工作;再次在NVIDIAGEFORCE平台上实现对二维稳态热传导程序的并行化,通过使用CUDA并行技术提升应用程序在GPU平台的计算速度。最后借助于计时方法对串行和并行化程序的时间进行记录,基于时间来计算加速比以及并行效率,进而分析二维稳态热传导程序的性能。 展开更多
关键词 有限差分 拉普拉斯 二维稳态热传导 cuda 多核平台 并行化
下载PDF
CUDA相邻归约与其避免线程分化算法的研究
10
作者 卫易东 《信息与电脑》 2023年第18期55-57,61,共4页
在边缘计算环境下,上层应用调度图形处理器(Graphic Processing Unit,GPU)的统一计算架构(Compute Unified Device Architecture,CUDA)进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发... 在边缘计算环境下,上层应用调度图形处理器(Graphic Processing Unit,GPU)的统一计算架构(Compute Unified Device Architecture,CUDA)进行计算时,可能会遇到CUDA线程分化问题,导致运算耗时较长或线程空置化。本研究介绍了CUDA底层开发的基础原理和概念,并解释了CUDA运算的执行流程。通过分析GPU架构原理,提出了相邻归约算法和相邻归约的避免线程分化算法的实现方式和应用方法。 展开更多
关键词 边缘计算 统一计算架构(cuda) 优化算法 相邻归约 避免线程分化 矩阵加法 计算效率
下载PDF
基于CUDA的并行布谷鸟搜索算法设计与实现 被引量:2
11
作者 韦向远 杨辉华 谢谱模 《计算机科学与探索》 CSCD 2014年第6期665-673,共9页
布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device arch... 布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device architecture,CUDA)的并行布谷鸟搜索算法。该算法的并行实现采用任务并行与数据并行相结合的方式,利用图形处理器(graphic processing unit,GPU)线程块与线程分别映射布谷鸟个体与个体的每一维数据,并行实现CS算法中的鸟巢位置更新、个体适应度评估、鸟巢重建、寻找最优个体操作。整个CS算法的寻优迭代过程完全通过GPU实现,降低了算法计算过程中CPU与GPU的通信开销。对4个经典基准测试函数进行了仿真实验,结果表明,相比标准CS算法,基于CUDA架构的并行CS算法在求解收敛性一致的前提下,在求解速度上获得了高达110倍的计算加速比。 展开更多
关键词 布谷鸟搜索算法 并行计算 图形处理器(GPU) 统一计算设备架构(cuda) GRAPHIC processing unit (GPU) compute UNIFIED device architecture (cuda)
下载PDF
基于CUDA加速的图像配准算法
12
作者 牛彤 刘立东 武忆涵 《计算机系统应用》 2023年第1期146-155,共10页
针对传统图像拼接算法速度较慢,难以满足获取大分辨率全景图像的实时性要求,本文提出一种基于CUDA的快速鲁棒特征(speeded-up-robust features,SURF)图像配准算法,从GPU线程执行模型、编程模型和内存模型等方面,对传统SURF算法特征点的... 针对传统图像拼接算法速度较慢,难以满足获取大分辨率全景图像的实时性要求,本文提出一种基于CUDA的快速鲁棒特征(speeded-up-robust features,SURF)图像配准算法,从GPU线程执行模型、编程模型和内存模型等方面,对传统SURF算法特征点的检测和描述进行CUDA并行优化;基于FLANN和RANSAC算法,采用双向匹配策略进行特征匹配,提高配准精度.结果表明,相对串行算法,本文并行算法对不同分辨率的图像均可实现10倍以上的加速比,而且配准精度较传统配准算法提高17%,精度最优可高达96%.基于CUDA加速的SURF算法可广泛应用于安防监控领域,实现全景图像的实时配准. 展开更多
关键词 快速鲁棒特征 统一计算设备架构 并行加速 快速最近邻搜索算法 RANSAC 双向匹配 图像配准
下载PDF
CUDA架构下的灰度图像匹配并行算法 被引量:15
13
作者 李建江 张磊 +2 位作者 李兴钢 陈翔 黄义双 《电子科技大学学报》 EI CAS CSCD 北大核心 2012年第1期110-113,共4页
提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图... 提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图像匹配并行算法快了40多倍,性能得到了显著提高,从而使灰度图像匹配应用于如交互式系统等实时应用成为可能。 展开更多
关键词 cuda GPU 灰度 图像匹配 并行
下载PDF
基于CUDA的高分辨率数字视频图像配准快速实现 被引量:27
14
作者 闫钧华 杭谊青 +1 位作者 许俊峰 储林臻 《仪器仪表学报》 EI CAS CSCD 北大核心 2014年第2期380-386,共7页
高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然... 高分辨率数字视频图像数据量巨大,基于SIFT图像配准算法在CPU上实现时用时巨大。针对此,首先对配准算法中3个最耗时的部分:SIFT特征提取;SIFT特征匹配;RANSAC算法提纯匹配点对,求解变换模型参数。对此展开重点研究,研究其并行算法。然后基于CUDA并行快速实现高分辨率数字视频图像配准。实验结果表明:基于SIFT图像配准算法在CPU与CUDA上实现,在配准效果相近时,在CUDA上实现的处理速度比在CPU上实现的处理速度提高了100多倍,并且随着图像像素数的增加加速比有显著提高。 展开更多
关键词 图像配准 高分辨率 数字视频 cuda
下载PDF
CUDA架构下的液晶自适应波面数值解析 被引量:11
15
作者 李大禹 胡立发 +5 位作者 穆全全 曹召良 夏明亮 李抄 刘肇楠 宣丽 《光学精密工程》 EI CAS CSCD 北大核心 2010年第4期848-854,共7页
在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型... 在GPU通用计算架构下,首次提出了CUDA架构下的液晶自适应光学波面数值解析方法。针对高分辨率液晶自适应光学系统,介绍了液晶自适应光学的波面数值解析算法,论述了CUDA的通用架构;然后,建立了CUDA实现波面数值解析的编程模型,在此模型中引入了并行线程的有效利用,全局存储器的高效访问和数据直接回写3种优化方案;最后,给出了GPU与CPU的实验对比结果。结果表明:CUDA计算分辨率为512×512,对35项Zernike多项式的波面数值解析需时不到1ms,计算速度是传统CPU波面数值解析的几十倍。提出的方法减小了系统延时,提高了校正速度,建立波面数值解析CUDA编程模型采用的优化手段可为其它数学计算模型提供参考。 展开更多
关键词 图形处理器(GPU) cuda 液晶 自适应光学 波面解析
下载PDF
CUDA处理机管理机制分析
16
作者 陈乐 《福建电脑》 2010年第8期29-29,43,共2页
NVIDIA推出的CUDA架构将GPU本质上是外部设备的一个芯片内处理机集群。它的处理机管理机制与传统CPU所遵循的思想存在着巨大的差异。有关CUDA线程的若干基本概念及线程的调度算法均有许多独特之处,这些新的理论尚未完全公开。本文做出了... NVIDIA推出的CUDA架构将GPU本质上是外部设备的一个芯片内处理机集群。它的处理机管理机制与传统CPU所遵循的思想存在着巨大的差异。有关CUDA线程的若干基本概念及线程的调度算法均有许多独特之处,这些新的理论尚未完全公开。本文做出了CUDA线程的定义,提出了CU-DA TCB等基本概念;分析了线程的生命周期,并最终给出了协处理机CUDA CORE上的线程调度模型。 展开更多
关键词 cuda TCB cuda线程 WARP 调度算法
下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:15
17
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(GPU) 通用并行计算架构(cuda)
下载PDF
基于CUDA的并行全搜索运动估计算法 被引量:15
18
作者 甘新标 沈立 王志英 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第3期457-460,共4页
为了提高H.264视频编码效率,基于计算统一设备架构(CUDA)的并行全搜索运动估计算法,并利用GPU强大的计算能力和CUDA优化的存储层次结构,以加速H.264编码中的运动估计.与传统的以牺牲视频质量来提升运动估计性能的方法不同,该算法在保证... 为了提高H.264视频编码效率,基于计算统一设备架构(CUDA)的并行全搜索运动估计算法,并利用GPU强大的计算能力和CUDA优化的存储层次结构,以加速H.264编码中的运动估计.与传统的以牺牲视频质量来提升运动估计性能的方法不同,该算法在保证视频质量的同时,结合运动估计计算密集、计算量大等特点,充分利用CUDA架构的并行性加快运动估计的速度,从而达到提高实时编码速度的目的.在GTX280实验平台上的实验结果显示,采用文中算法比优化的CPU实现可获得高达70倍的加速比. 展开更多
关键词 图形处理器 运动估计 并行 cuda
下载PDF
快速鲁棒特征算法的CUDA加速优化 被引量:9
19
作者 刘金硕 曾秋梅 +2 位作者 邹斌 江庄毅 邓娟 《计算机科学》 CSCD 北大核心 2014年第4期24-27,43,共5页
提出一种基于统一计算设备架构(Compute Unified Device Architecture,CUDA)的快速鲁棒特征(Speed-up Robust Feature,SURF)图像匹配算法。分析了SURF算法的并行性,在图像处理单元(Graphics Processing Unit,GPU)的线程映射和内存模型... 提出一种基于统一计算设备架构(Compute Unified Device Architecture,CUDA)的快速鲁棒特征(Speed-up Robust Feature,SURF)图像匹配算法。分析了SURF算法的并行性,在图像处理单元(Graphics Processing Unit,GPU)的线程映射和内存模型方面对算法的构建尺度空间、特征点提取、特征点主方向的确定、特征描述子的生成及特征匹配5个步骤进行CUDA加速优化。实验表明,相比适用于CPU的SURF算法,文中提出的适用于GPU的SURF算法在处理30MB的图片时性能提高了33倍。适用于GPU的SURF算法拓展了SURF算法在遥感等领域的快速应用,尤其是大影像的快速配准。 展开更多
关键词 快速鲁棒特征 cuda 特征提取 影像匹配
下载PDF
基于CUDA的SVM算法并行化研究 被引量:6
20
作者 张巍 张功萱 +2 位作者 王永利 张永平 朱昭萌 《计算机科学》 CSCD 北大核心 2013年第4期69-72,106,共5页
SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进... SVM算法在统计分类以及回归分析中得到了广泛的应用。而随着物联网的迅速发展,SVM算法在各种应用中往往需要解决大量数据的快速处理问题。在SVM算法并行化研究中,首先对SVM算法进行分析研究,提出了基于CUDA的SVM算法并行化方案;其次,进一步研究海量数据的处理,提出海量数据处理的并行化方案;最后,通过实验分析对比了并行化算法的性能。 展开更多
关键词 cuda GPU 支持向量机 并行计算
下载PDF
上一页 1 2 64 下一页 到第
使用帮助 返回顶部