期刊文献+
共找到616篇文章
< 1 2 31 >
每页显示 20 50 100
基于MPI和OpenMP混合编程的高分三号数据分布式并行转换算法 被引量:3
1
作者 陈云 《测绘与空间地理信息》 2024年第2期43-45,49,共4页
高分三号是我国C波段多极化合成孔径雷达卫星。PolSARpro是欧空局支持下的一款极化SAR影像处理的开源软件,为了便于利用该软件处理高分三号数据,本文提出了一种基于MPI和OpenMP并以PolSARpro软件的数据格式要求进行分布式并行转换算法,... 高分三号是我国C波段多极化合成孔径雷达卫星。PolSARpro是欧空局支持下的一款极化SAR影像处理的开源软件,为了便于利用该软件处理高分三号数据,本文提出了一种基于MPI和OpenMP并以PolSARpro软件的数据格式要求进行分布式并行转换算法,实现将高分三号极化数据快速精确转化为复数散射矩阵S2数据格式,通过KingMap V8.0平台实现了算法并在实际数据中进行测试,验证了算法的可行性、正确性和高效性。 展开更多
关键词 高分三号 合成孔径雷达 复数散射矩阵 openmp MPI KingMap
下载PDF
基于半精度浮点数优化与OpenMP的地震数值模拟
2
作者 刘文革 涂文茂 +2 位作者 牟其松 陈康 周觅路 《CT理论与应用研究(中英文)》 2024年第3期289-297,共9页
研究地震波场的传播特征是地震勘探的基础,利用有限差分法求解波动方程进行地震正演,其优势在于占用内存低、计算速度快、易于实现。但在三维情况下,计算量和数据量会急剧增加,传统串行地震数值模拟将无法满足计算效率的需求。因此,本... 研究地震波场的传播特征是地震勘探的基础,利用有限差分法求解波动方程进行地震正演,其优势在于占用内存低、计算速度快、易于实现。但在三维情况下,计算量和数据量会急剧增加,传统串行地震数值模拟将无法满足计算效率的需求。因此,本文提出一种基于半精度浮点数优化与OpenMP的三维波动方程地震数值模拟方法,该方法首先利用半精度浮点数对地震常用的浮点型数据进行优化;其次利用应用程序接口OpenMP在多核CPU下通过以分割波场计算区域的方式实现并行计算;在保证计算结果满足精度需求的同时,能有效提高三维地震数值模拟的计算效率,并减少近一半的内存需求。通过数值试验证明该方法的有效性和实用性。 展开更多
关键词 有限差分法 半精度浮点数 openmp 并行计算 地震波
原文传递
基于MapReduce和OpenMP混合编程的高分三号数据并行转换算法
3
作者 邱祥峰 《测绘与空间地理信息》 2024年第8期35-36,41,共3页
高分三号03与02、01卫星一起成功组网形成我国第一个海陆三星雷达卫星星座。针对PolSARpro软件存在高分三号数据转换较慢的问题,提出了一种按照该软件的数据格式要求对高分三号数据进行高效并行转换的算法。该算法基于MapReduce和Open M... 高分三号03与02、01卫星一起成功组网形成我国第一个海陆三星雷达卫星星座。针对PolSARpro软件存在高分三号数据转换较慢的问题,提出了一种按照该软件的数据格式要求对高分三号数据进行高效并行转换的算法。该算法基于MapReduce和Open MP进行混合编程,实现高分三号极化数据快速准确地转化为S2格式,最终采用KingMap V9.0软件编码实现了该算法并对真实的高分三号数据进行测试,验证了该算法的可扩展性、高效性、正确性和可行性。 展开更多
关键词 高分三号 合成孔径雷达 复数散射矩阵 openmp MAPREDUCE KingMap
下载PDF
基于OpenMP的航迹融合并行优化方法
4
作者 吴静 谢晓霞 +2 位作者 艾小锋 赵锋 徐振海 《太赫兹科学与电子信息学报》 2024年第9期1021-1028,共8页
针对组网雷达中分布式数据融合计算量随数据量增大急剧增加的问题及航迹融合中最耗时的航迹关联环节,提出一种基于OpenMP的多线程优化方法。通过OpenMP并行计算雷达航迹间的关联距离,提升内部算法运算速度,并将数据接收、融合处理和结... 针对组网雷达中分布式数据融合计算量随数据量增大急剧增加的问题及航迹融合中最耗时的航迹关联环节,提出一种基于OpenMP的多线程优化方法。通过OpenMP并行计算雷达航迹间的关联距离,提升内部算法运算速度,并将数据接收、融合处理和结果输出过程进行多线程处理,进一步加快外部数据交互速度,提升融合处理整体时间性能。以大容量目标场景为测试用例,评估处理时间和优化加速比。仿真结果表明,所提并行优化方法能够有效提升运算速度。 展开更多
关键词 航迹融合 航迹关联 并行优化 多线程 openmp技术
下载PDF
基于OpenMP的堆芯中子学软件性能优化研究
5
作者 刘婷 安萍 +1 位作者 芦韡 秦志红 《中国核电》 2024年第2期190-196,共7页
CORCA-3D软件是中国核动力研究设计院自主研发的先进节块法堆芯三维少群中子学计算软件,提升CORCA-3D软件运行速度可以提高反应堆系统分析的效率。目前CORCA-3D软件采用单线程的方式运行,并没有充分利用计算机的多核硬件资源,对CORCA-3... CORCA-3D软件是中国核动力研究设计院自主研发的先进节块法堆芯三维少群中子学计算软件,提升CORCA-3D软件运行速度可以提高反应堆系统分析的效率。目前CORCA-3D软件采用单线程的方式运行,并没有充分利用计算机的多核硬件资源,对CORCA-3D软件进行性能分析,发现其存在运行时间较长的热点函数,CPU利用率较低,因此可引入并行编程技术来加速CORCA-3D软件的计算。文中将OpenMP编程技术运用到CORCA-3D软件中,并介绍了CORCA-3D软件并行优化的设计与实现。通过对方家山1号机组全堆芯进行测试,证明并行编程技术可大幅提升CORCA-3D软件的运行效率,平均加速比约为2左右。此并行编程技术的运用为后续堆芯数值软件应用提供技术支撑。 展开更多
关键词 堆芯中子学 并行编程 openmp 运行效率
下载PDF
基于OpenMP的硅晶体分子动力学模拟的空间分解着色及向量化研究
6
作者 傅游 韩昊 +3 位作者 孙月娇 梁建国 叶雨曦 花嵘 《计算机工程与科学》 CSCD 北大核心 2024年第9期1566-1575,共10页
作为材料领域虚拟过程工程研究的热点之一,硅晶体分子动力学采用Tersoff多体势进行模拟;多体势中粒子间相互作用计算量大,且数据之间存在依赖关系,在并行架构上高效、准确地进行大规模模拟面临写冲突和计算效率低2个挑战。为了解决以上... 作为材料领域虚拟过程工程研究的热点之一,硅晶体分子动力学采用Tersoff多体势进行模拟;多体势中粒子间相互作用计算量大,且数据之间存在依赖关系,在并行架构上高效、准确地进行大规模模拟面临写冲突和计算效率低2个挑战。为了解决以上问题,在OpenMP共享内存编程模型的基础上,结合硅晶体粒子特性实施了一系列面向硅晶体分子动力学应用的优化方法,以提高模拟效率:(1)在大规模线程级并行模拟过程中,利用空间分解图着色思想消除粒子之间的数据依赖,从而有效解决写冲突问题;(2)针对核心计算程序段,采用整体向量化的方式提高核心计算效率,并利用级数估计实现超越函数,以实现Tersoff多体势在多核处理器上的并行优化。实验结果表明,在X86平台上Tersoff多体势具有很好的优化潜力,空间分解图着色和向量化方法在硅晶体应用上具有可行性和可扩展性,能够有效地解决由数据交叉导致的写冲突以及计算密集型优化问题,最终加速比可达23.17。 展开更多
关键词 硅晶体 分子动力学模拟 空间分解着色 向量化 openmp
下载PDF
MPI/OpenMP-Based Parallel Solver for Imprint Forming Simulation
7
作者 Yang Li Jiangping Xu +2 位作者 Yun Liu Wen Zhong Fei Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第7期461-483,共23页
In this research,we present the pure open multi-processing(OpenMP),pure message passing interface(MPI),and hybrid MPI/OpenMP parallel solvers within the dynamic explicit central difference algorithm for the coining pr... In this research,we present the pure open multi-processing(OpenMP),pure message passing interface(MPI),and hybrid MPI/OpenMP parallel solvers within the dynamic explicit central difference algorithm for the coining process to address the challenge of capturing fine relief features of approximately 50 microns.Achieving such precision demands the utilization of at least 7 million tetrahedron elements,surpassing the capabilities of traditional serial programs previously developed.To mitigate data races when calculating internal forces,intermediate arrays are introduced within the OpenMP directive.This helps ensure proper synchronization and avoid conflicts during parallel execution.Additionally,in the MPI implementation,the coins are partitioned into the desired number of regions.This division allows for efficient distribution of computational tasks across multiple processes.Numerical simulation examples are conducted to compare the three solvers with serial programs,evaluating correctness,acceleration ratio,and parallel efficiency.The results reveal a relative error of approximately 0.3%in forming force among the parallel and serial solvers,while the predicted insufficient material zones align with experimental observations.Additionally,speedup ratio and parallel efficiency are assessed for the coining process simulation.The pureMPI parallel solver achieves a maximum acceleration of 9.5 on a single computer(utilizing 12 cores)and the hybrid solver exhibits a speedup ratio of 136 in a cluster(using 6 compute nodes and 12 cores per compute node),showing the strong scalability of the hybrid MPI/OpenMP programming model.This approach effectively meets the simulation requirements for commemorative coins with intricate relief patterns. 展开更多
关键词 Hybrid MPI/openmp parallel computing MPI openmp imprint forming
下载PDF
Parallel Image Processing: Taking Grayscale Conversion Using OpenMP as an Example
8
作者 Bayan AlHumaidan Shahad Alghofaily +2 位作者 Maitha Al Qhahtani Sara Oudah Naya Nagy 《Journal of Computer and Communications》 2024年第2期1-10,共10页
In recent years, the widespread adoption of parallel computing, especially in multi-core processors and high-performance computing environments, ushered in a new era of efficiency and speed. This trend was particularl... In recent years, the widespread adoption of parallel computing, especially in multi-core processors and high-performance computing environments, ushered in a new era of efficiency and speed. This trend was particularly noteworthy in the field of image processing, which witnessed significant advancements. This parallel computing project explored the field of parallel image processing, with a focus on the grayscale conversion of colorful images. Our approach involved integrating OpenMP into our framework for parallelization to execute a critical image processing task: grayscale conversion. By using OpenMP, we strategically enhanced the overall performance of the conversion process by distributing the workload across multiple threads. The primary objectives of our project revolved around optimizing computation time and improving overall efficiency, particularly in the task of grayscale conversion of colorful images. Utilizing OpenMP for concurrent processing across multiple cores significantly reduced execution times through the effective distribution of tasks among these cores. The speedup values for various image sizes highlighted the efficacy of parallel processing, especially for large images. However, a detailed examination revealed a potential decline in parallelization efficiency with an increasing number of cores. This underscored the importance of a carefully optimized parallelization strategy, considering factors like load balancing and minimizing communication overhead. Despite challenges, the overall scalability and efficiency achieved with parallel image processing underscored OpenMP’s effectiveness in accelerating image manipulation tasks. 展开更多
关键词 Parallel Computing Image Processing openmp Parallel Programming High Performance Computing GPU (Graphic Processing Unit)
下载PDF
The Implementation of Ray Tracing Algorithm with OpenMP Parallelization
9
作者 Noor Alnasser Raghad Alabssi +2 位作者 Batool Faran Latifah Alessa Naya Nagy 《Journal of Computer and Communications》 2024年第1期120-130,共11页
Ray tracing is a computer graphics method that renders images realistically. As the name suggests, this technique primarily traces the path of light rays interacting with objects in a scene [1], permitting the calcula... Ray tracing is a computer graphics method that renders images realistically. As the name suggests, this technique primarily traces the path of light rays interacting with objects in a scene [1], permitting the calculation of lighting and reflecting impact [2]. As ray tracing is a time-consuming process, the need for parallelization to solve this problem arises. One downside of this solution is the existence of race conditions. In this work, we explore and experiment with a different, well-known solution for this race condition. Starting with the introduction and the background section, a brief overview of the topic is followed by a detailed part of how the race conditions may occur in the case of the ray tracing algorithm. Continuing with the methods and results section, we have used OpenMP to parallelize the Ray tracing algorithm with the different compiler directives critical, atomic, and first-private. Hence, it concluded that both critical and atomic are not efficient solutions to produce a good-quality picture, but first-private succeeded in producing a high-quality picture. 展开更多
关键词 PARALLELIZATION Ray Tracing Parallel Computer Architecture openmp
下载PDF
面向国产异构平台的OpenMP Offload共享内存访存优化
10
作者 王鑫 李嘉楠 +2 位作者 韩林 赵荣彩 周强伟 《计算机工程与应用》 CSCD 北大核心 2023年第10期75-85,共11页
国产异构处理器DCU(deep computing unit)上的本地数据共享(local data share,LDS)是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了... 国产异构处理器DCU(deep computing unit)上的本地数据共享(local data share,LDS)是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了面向DCU平台的OpenMP Offload执行模式和LDS的分配方法,以及特定于LDS访存的指令结构,实现了LDS访存的手动支持。另外针对于OpenMP Offload的不同执行模式,在此优化方法的基础上实现了LDS访存的自动化,形成了一套面向国产异构平台的高效访存策略。实验采用polybench标准测试集进行测试,利用手动和自动优化方法在单线程模式下平均加速比可达2.60,利用手动优化方法在多线程non-SPMD模式下平均加速比达1.38,利用自动优化方法在多线程SPMD模式下平均加速比达1.11。实验结果表明LDS访存的自动和手动支持有助于提高OpenMP异构程序运行速度。 展开更多
关键词 国产处理器DCU 本地数据共享(LDS) openmp Offlaod SPMD non-SPMD
下载PDF
基于Woodbury+OpenMP的结构非线性地震反应并行分析方法 被引量:2
11
作者 余丁浩 李钢 《振动与冲击》 EI CSCD 北大核心 2023年第3期21-29,49,共10页
非线性地震反应分析已成为评价工程结构抗震性能的重要技术手段,随着结构规模的增大,非线性引发的大规模刚度矩阵迭代更新成为制约结构分析效率的关键因素。基于Woodbury公式的结构非线性地震反应分析法(Woodbury方法)是一类新型高效数... 非线性地震反应分析已成为评价工程结构抗震性能的重要技术手段,随着结构规模的增大,非线性引发的大规模刚度矩阵迭代更新成为制约结构分析效率的关键因素。基于Woodbury公式的结构非线性地震反应分析法(Woodbury方法)是一类新型高效数值分析方法,此类方法利用结构在地震作用下的局部非线性特征,能够在保证较高迭代收敛速率的同时有效避免结构刚度矩阵实时变化及由此导致的计算效率低下。然而,当前相关研究均基于串行计算模式,并未充分利用计算硬件的并行计算能力。引入OpenMP模式对Woodbury方法进行并行加速,提出了一种用于结构高效非线性地震反应分析的并行计算方法,该方法首先将每个迭代计算步划分为非线性相关系数矩阵计算更新、基于Woodbury公式的位移响应求解、单元状态确定3个主要计算部分,随后通过建立非线性相关系数矩阵的分块计算方法,将Woodbury公式的计算过程拆解为6个可并行的计算步,对各单元状态进行单独判定,分别建立了适用于三者的OpenMP并行加速策略,实现了算法的全过程并行优化。最后,通过对一个高层结构进行地震反应分析验证了该方法的准确性和高效性。 展开更多
关键词 地震反应分析 结构非线性 Woodbury公式 openmp并行计算
下载PDF
基于OpenMP的并行Fortran程序数据竞争静态检测方法
12
作者 葛优 金大海 宫云战 《小型微型计算机系统》 CSCD 北大核心 2023年第11期2377-2383,共7页
数据竞争是并行程序中最常见的问题,因为其在程序中存在着随机性和难以重现的问题,所以利用动态方法检测并不可靠.本文介绍了一种针对以OpenMP实现程序并行的数据竞争故障的静态检测方法.首先根据基于OpenMP的Fortran并行程序的语法和... 数据竞争是并行程序中最常见的问题,因为其在程序中存在着随机性和难以重现的问题,所以利用动态方法检测并不可靠.本文介绍了一种针对以OpenMP实现程序并行的数据竞争故障的静态检测方法.首先根据基于OpenMP的Fortran并行程序的语法和语义特性,构建并行程序的抽象语法树,并对控制流图进行扩展引入并行控制流图;然后将数据竞争问题抽象为一种故障模型,利用有限状态机来形式化的描述此类故障模型;最后对并行区域的潜在赋值操作进行并行数据流分析,在程序控制流图节点上进行故障状态机的状态转化来实现数据竞争的检测.该方法已在自研的缺陷检测系统(DTS)中应用,并通过DataRaceBench的实验数据证明本文方法可以有效的检测出数据竞争问题. 展开更多
关键词 openmp 静态分析 共享内存编程 数据竞争检测 并行数据流
下载PDF
基于OpenMP的ANGSD软件优化设计和可行性研究
13
作者 李金光 唐友 李丹 《无线互联科技》 2023年第6期45-48,共4页
近年来,多核技术在基因测序方面有着广泛的应用。因此,基因测序的并行化成为目前国内热点。在基因测序领域,随着高通量测序技术的迅猛发展和应用越加广泛,其无时无刻不在产生大量的数据。对此,串行程序进行单个程序运行已经无法满足社... 近年来,多核技术在基因测序方面有着广泛的应用。因此,基因测序的并行化成为目前国内热点。在基因测序领域,随着高通量测序技术的迅猛发展和应用越加广泛,其无时无刻不在产生大量的数据。对此,串行程序进行单个程序运行已经无法满足社会对基因测序的需求。为了同时分析数千个样本,测序需要快速、灵活和内存高效地实现。文章认为,对一个名为ANGSD的程序进行OpenMP的程序并行的软件优化设计和可行性研究非常必要。 展开更多
关键词 openmp 下一代测序 多线程
下载PDF
基于OpenMP技术探究并行体与并行数目对运行效率的影响 被引量:1
14
作者 付颖 《电子技术与软件工程》 2023年第2期31-34,共4页
本文基于OpenMP技术运用C语言和C++语言进行共享内存编程。采用控制变量法的思想,通过求解欧拉计划145题,探究了并行体对运行效率的影响;通过蒙特·卡洛法求解π值,探究了并行数目对运行效率的影响。数值算例与原有串行方法相比较,... 本文基于OpenMP技术运用C语言和C++语言进行共享内存编程。采用控制变量法的思想,通过求解欧拉计划145题,探究了并行体对运行效率的影响;通过蒙特·卡洛法求解π值,探究了并行数目对运行效率的影响。数值算例与原有串行方法相比较,验证了基于OpenMP技术并行计算编程模式的优越性。 展开更多
关键词 openmp技术 并行体 并行数目 运行效率
下载PDF
基于OpenMP的Floyd并行算法研究
15
作者 彭瑾 杨勇 《鞍山师范学院学报》 2023年第4期49-54,共6页
Floyd算法是求解两点之间最短路径的算法之一,但因其时间复杂度较高,在面对大规模的图数据求解最短路径时效率并不高.通过使用OpenMP编程模型对Floyd算法进行并行优化,使其在求解最短路径时可以充分利用多核CPU资源,发挥多核性能,降低... Floyd算法是求解两点之间最短路径的算法之一,但因其时间复杂度较高,在面对大规模的图数据求解最短路径时效率并不高.通过使用OpenMP编程模型对Floyd算法进行并行优化,使其在求解最短路径时可以充分利用多核CPU资源,发挥多核性能,降低时间代价.与依赖于特定硬件的算法相比,基于OpenMP的Floyd并行算法具有更高的通用性和可移植性,可以在各种通用计算平台上实现,包括普通的多核CPU和共享内存系统.相较依赖于特定平台的算法,基于OpenMP实现的Floyd并行算法更具有普适性,可以让更多的研究人员和开发者受益.实验结果表明,并行优化后的Floyd算法在执行效率上得到了显著提升. 展开更多
关键词 多核 多线程 Floyd并行算法 openmp
下载PDF
基于MPI+OpenMP的雷达信号脉内分析并行加速方法
16
作者 姚群 童真 柴恒 《舰船电子对抗》 2023年第4期66-69,79,共5页
雷达脉内分析一般采用中频数据,数据量大,处理算法复杂,运算量大,实时性差。基于多节点高性能多核CPU信号处理平台,提出了一种基于消息传递接口(MPI)+开放式多处理(OpenMP)的雷达信号脉内分析技术,综合利用了MPI跨节点并行以及OpenMP节... 雷达脉内分析一般采用中频数据,数据量大,处理算法复杂,运算量大,实时性差。基于多节点高性能多核CPU信号处理平台,提出了一种基于消息传递接口(MPI)+开放式多处理(OpenMP)的雷达信号脉内分析技术,综合利用了MPI跨节点并行以及OpenMP节点内并行的特点,实现了雷达信号脉内分析的高性能脉冲级并行处理。在基于IntelXeon2640构建的多节点集群系统上的测试结果表明,该方法显著的提高了脉内分析的处理速度。 展开更多
关键词 信号处理 消息传递接口 openmp 脉内分析
下载PDF
任务并行编程模型下排列熵算法的并行实现
17
作者 李维权 《软件工程》 2024年第2期40-43,共4页
排列熵算法随着嵌入维数的增大,运算规模将会呈平方级数增大,计算时效性问题突出,亟待解决。为此,提出一种基于任务并行编程模型的线程级并行方法,通过任务并行运行系统(StarPU)将密集型计算划分为多个独立的任务,再由调度器将任务调度... 排列熵算法随着嵌入维数的增大,运算规模将会呈平方级数增大,计算时效性问题突出,亟待解决。为此,提出一种基于任务并行编程模型的线程级并行方法,通过任务并行运行系统(StarPU)将密集型计算划分为多个独立的任务,再由调度器将任务调度到不同的CPU上执行,实现排列熵算法的并行化。基于StarPU的排列熵并行算法与串行程序相比较,加速比为23.79倍,相较于OpenMP(一种用于共享内存并行系统的并行计算方案),在分配28个线程时,加速比为1.17倍,结果表明该方法能够有效实现排列熵算法的加速执行。 展开更多
关键词 排列熵算法 任务并行编程模型 openmp StarPU
下载PDF
基于嵌入式操作系统的并行任务开发技术研究
18
作者 林卓 陈聪 王宏伟 《长江信息通信》 2024年第10期120-122,共3页
随着芯片开发技术在嵌入式系统中的发展,单位面积上晶体管数量不再无限制的增长,为追求嵌入式系统整体性能的提高,代码的执行效率逐渐被重视起来。多核处理器在嵌入式系统中应用越来越广泛,要进一步大规模地提高计算效率,更好的发挥出... 随着芯片开发技术在嵌入式系统中的发展,单位面积上晶体管数量不再无限制的增长,为追求嵌入式系统整体性能的提高,代码的执行效率逐渐被重视起来。多核处理器在嵌入式系统中应用越来越广泛,要进一步大规模地提高计算效率,更好的发挥出多核处理的优势,必须引入并行开发技术。文章采用openmp3.1作为并行框架,支持在嵌入式应用中进行c/c++语言开发,通过生成识别openmp指令的GCC4.8.1编译器,来解决openmp应用代码的编译问题,将openmp框架适配到嵌入式系统中,以可配置代码库的方式融入到操作系统应用层,深入分析openmp框架代码,提出了四个方面的优化策略,最后以FTD2000为目标机,多种算法作为测试用例,取得了优异的并行效果。 展开更多
关键词 嵌入式 并行 实时任务 openmp框架 优化技术
下载PDF
高分三号数据分布式负载均衡并行转换算法
19
作者 邱祥峰 《厦门理工学院学报》 2024年第5期33-39,共7页
针对PolSARpro软件原有高分三号数据转换模块无法适应分布式环境及数据转换效率相对较低的问题,提出一种基于MPI、MapReduce和OpenMP并按照该软件的数据格式要求进行分布式负载均衡的并行转换算法。该算法外层采用MPI按任务分布式计算,... 针对PolSARpro软件原有高分三号数据转换模块无法适应分布式环境及数据转换效率相对较低的问题,提出一种基于MPI、MapReduce和OpenMP并按照该软件的数据格式要求进行分布式负载均衡的并行转换算法。该算法外层采用MPI按任务分布式计算,中间层采用MapReduce按景并行处理,内层采用OpenMP按极化方式并行计算,并采用“Z”字形数据负载均衡策略,将高分三号不同成像模式下的多极化数据快速精确定标及格式转换,以抗数据偏斜。实际数据的测试结果表明,该算法的整体性能提升了约50%,验证了算法的可行性、高效性和正确性。 展开更多
关键词 高分三号卫星 合成孔径雷达 分布式负载均衡 并行转换算法 共享存储并行编程 映射归约编程模型 消息传递接口
下载PDF
面向图像检索的sgemv算法嵌入式优化技术 被引量:1
20
作者 郑恩 张翰成 +2 位作者 周俊鹏 白林亭 文鹏程 《航空计算技术》 2024年第1期62-65,共4页
行人重识别主要解决跨摄像头跨场景下行人的识别与检索,是继人脸识别之后又一针对“人”的视觉任务,主要任务是针对一个特定的行人在多摄像头输入的大规模图片集合中找出相同的人。如何在靠近摄像头的边缘端把特定的行人从大量行人库中... 行人重识别主要解决跨摄像头跨场景下行人的识别与检索,是继人脸识别之后又一针对“人”的视觉任务,主要任务是针对一个特定的行人在多摄像头输入的大规模图片集合中找出相同的人。如何在靠近摄像头的边缘端把特定的行人从大量行人库中快速检索出来是行人重识别研究的一个重要问题,由于边缘端嵌入式平台算力有限,提出一种面向图像检索的sgemv算法嵌入式优化技术,在边缘端对sgemv算法采用循环展开、OpenMP、Neon等技术进行加速优化,在飞腾D2000嵌入式平台、银河麒麟系统进行实验验证。结果表明,优化后比优化前提升速度达5.2倍,方法有效地提升了边缘端图像检索效率。 展开更多
关键词 行人重识别 图像检索 循环展开 openmp NEON
下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部