期刊文献+
共找到12,555篇文章
< 1 2 250 >
每页显示 20 50 100
A Comprehensive Survey of Recent Transformers in Image,Video and Diffusion Models
1
作者 Dinh Phu Cuong Le Dong Wang Viet-Tuan Le 《Computers, Materials & Continua》 SCIE EI 2024年第7期37-60,共24页
Transformer models have emerged as dominant networks for various tasks in computer vision compared to Convolutional Neural Networks(CNNs).The transformers demonstrate the ability to model long-range dependencies by ut... Transformer models have emerged as dominant networks for various tasks in computer vision compared to Convolutional Neural Networks(CNNs).The transformers demonstrate the ability to model long-range dependencies by utilizing a self-attention mechanism.This study aims to provide a comprehensive survey of recent transformerbased approaches in image and video applications,as well as diffusion models.We begin by discussing existing surveys of vision transformers and comparing them to this work.Then,we review the main components of a vanilla transformer network,including the self-attention mechanism,feed-forward network,position encoding,etc.In the main part of this survey,we review recent transformer-based models in three categories:Transformer for downstream tasks,Vision Transformer for Generation,and Vision Transformer for Segmentation.We also provide a comprehensive overview of recent transformer models for video tasks and diffusion models.We compare the performance of various hierarchical transformer networks for multiple tasks on popular benchmark datasets.Finally,we explore some future research directions to further improve the field. 展开更多
关键词 transformer vision transformer self-attention hierarchical transformer diffusion models
下载PDF
基于RoBERTa和图增强Transformer的序列推荐方法 被引量:2
2
作者 王明虎 石智奎 +1 位作者 苏佳 张新生 《计算机工程》 CAS CSCD 北大核心 2024年第4期121-131,共11页
自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明... 自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于Ro BERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的Ro BERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与Deep FM、Conv MF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。 展开更多
关键词 推荐算法 评论文本 RoBERTa模型 图注意力机制 transformer机制
下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型 被引量:2
3
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉transformer 注意力机制
下载PDF
融合卷积注意力和Transformer架构的行人重识别方法 被引量:2
4
作者 王静 李沛橦 +2 位作者 赵容锋 张云 马振玲 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期466-476,共11页
行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关... 行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关注。所提方法主要将卷积空间注意力和通道注意力嵌入Transformer架构中,分别加强对图像中重要区域的关注和对重要通道特征的关注,以进一步提高Transformer架构对局部细节特征的提取能力。在3个公开行人重识别数据集上的对比消融实验证明,所提方法在非遮挡数据集上取得了与现有方法相当的结果,在遮挡数据集上的性能得到显著提升。所提方法更加轻量化,在不增加额外计算量和模型参数的情况下,推理速度得到了提升。 展开更多
关键词 行人重识别 深度学习 卷积神经网络 transformer 注意力机制
原文传递
基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法 被引量:1
5
作者 田子建 吴佳奇 +4 位作者 张文琪 陈伟 周涛 杨伟 王帅 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期297-310,共14页
高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低... 高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法。基于生成对抗思想搭建生成对抗式主体模型框架,使用目标图像域而非单一参考图像驱动判别器监督生成器的训练,实现对低照度图像的充分增强;基于特征表示学习理论搭建特征编码器,将图像解耦为亮度分量和反射分量,避免图像增强过程中亮度与颜色特征相互影响从而导致颜色失真问题;设计CEM-Transformer Encoder通过捕获全局上下文关系和提取局部区域特征,能够充分提升整体图像亮度并消除局部区域照度不均;在反射分量增强过程中,使用结合CEM-Cross-Transformer Encoder的跳跃连接将低级特征与深层网络处特征进行自适应融合,能够有效避免细节特征丢失,并在编码网络中添加ECA-Net,提高浅层网络的特征提取效率。制作矿井低照度图像数据集为矿井低照度图像增强任务提供数据资源。试验显示,在矿井低照度图像数据集和公共数据集中,与5种先进的低照度图像增强算法相比,该算法增强图像的质量指标PSNR、SSIM、VIF平均提高了16.564%,10.998%,16.226%和14.438%,10.888%,14.948%,证明该算法能够有效提升整体图像亮度,消除照度不均,避免颜色失真和细节丢失,实现矿井低照度图像增强。 展开更多
关键词 图像增强 图像识别 生成对抗网络 特征解耦 transformer
下载PDF
CNN-Transformer特征融合多目标跟踪算法 被引量:2
6
作者 张英俊 白小辉 谢斌红 《计算机工程与应用》 CSCD 北大核心 2024年第2期180-190,共11页
在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特... 在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块(two-way braidge module,TBM)对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UADETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到端进行目标跟踪,跟踪速度可达35 FPS,表明CTMOT算法在跟踪的实时性和准确性上达到了较好的平衡,具有较大潜力。 展开更多
关键词 多目标跟踪 transformer 特征融合
下载PDF
基于残差U-Net和自注意力Transformer编码器的磁场预测方法 被引量:1
7
作者 金亮 尹振豪 +2 位作者 刘璐 宋居恒 刘元凯 《电工技术学报》 EI CSCD 北大核心 2024年第10期2937-2952,共16页
利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型... 利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型,得到深度学习训练所需的数据集;然后将Transformer模块与U-Net模型结合,并引入短残差机制建立ResUnet-Transformer模型,通过预测图像的像素实现磁场预测;最后通过Targeted Dropout算法和动态学习率调整策略对模型进行优化,解决拟合问题并提高预测精度。计算实例证明,ResUnet-Transformer模型在PMSM和AMT数据集上测试集的平均绝对百分比误差(MAPE)均小于1%,且仅需500组样本。该文提出的磁场预测方法能减少实际工况和多工况下精细模拟和拓扑优化的时间和资源消耗,亦是虚拟传感器乃至数字孪生的关键实现方法之一。 展开更多
关键词 有限元方法 电磁场 深度学习 U-Net transformer
下载PDF
基于Transformer的陶瓷轴承表面缺陷检测方法 被引量:1
8
作者 安冬 胡荣华 +3 位作者 王丽艳 邵萌 李新然 刘则通 《组合机床与自动化加工技术》 北大核心 2024年第2期160-163,168,共5页
针对传统机器视觉检测方法中,由于陶瓷轴承滚动体表面曲率大、对比度低,表面成像模糊导致后续缺陷检测精度低的问题,提出一种基于Transformer的超分辨率残差网络。首先,网络使用残差学习策略,通过预测模糊图像与清晰图像之间的差值,实... 针对传统机器视觉检测方法中,由于陶瓷轴承滚动体表面曲率大、对比度低,表面成像模糊导致后续缺陷检测精度低的问题,提出一种基于Transformer的超分辨率残差网络。首先,网络使用残差学习策略,通过预测模糊图像与清晰图像之间的差值,实现超分辨率任务;其次,在网络上前端插入通道注意力模块和空间注意力模块并改进L2多头自注意力模块,以增强图像纹理、改善梯度爆炸问题;最后,针对超分辨率重建任务,提出一种两阶段训练策略优化训练过程。自建陶瓷轴承表面缺陷数据集上的大量实验结果表明,所提出网络模型在客观指标与主观评价上均优于MSESRGAN、VSDR等超分辨率算法,重建图像SSIM为0.939,PSNR为36.51 dB。 展开更多
关键词 Si_(3)N_(4)陶瓷轴承 超分辨率重建 transformer 图像恢复 图像增强
下载PDF
基于Transformer和动态3D卷积的多源遥感图像分类 被引量:1
9
作者 高峰 孟德森 +2 位作者 解正源 亓林 董军宇 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期606-614,共9页
多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解... 多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解决上述问题,提出了基于跨模态Transformer和多尺度动态3D卷积的多源遥感图像分类模型。为提高多源特征表达的一致性,设计了基于Transformer的融合模块,借助其强大的注意力建模能力挖掘高光谱和LiDAR数据特征之间的相互作用;为提高特征提取方法对不同地物类别的适应性,设计了多尺度动态3D卷积模块,将输入特征的多尺度信息融入卷积核的调制,提高卷积操作对不同地物的适应性。采用多源遥感数据集Houston和Trento对所提方法进行验证,实验结果表明:所提方法在Houston和Trento数据集上总体准确率分别达到94.60%和98.21%,相比MGA-MFN等主流方法,总体准确率分别至少提升0.97%和0.25%,验证了所提方法可有效提升多源遥感图像分类的准确率。 展开更多
关键词 高光谱图像 激光雷达 transformer 多源特征融合 动态卷积
原文传递
基于Transformer的多尺度遥感语义分割网络 被引量:1
10
作者 邵凯 王明政 王光宇 《智能系统学报》 CSCD 北大核心 2024年第4期920-929,共10页
为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征2个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale Transformer network,MSTNet)。其由编码器... 为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征2个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale Transformer network,MSTNet)。其由编码器和解码器2个部分组成,编码器包含基于Transformer改进的视觉注意网络(visual attention network,VAN)主干和基于空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)结构改进的多尺度语义特征提取模块(multi-scale semantic feature extraction module, MSFEM)。解码器采用轻量级多层感知器(multi-layer perception,MLP)配合编码器设计,充分分析所提取的包含全局上下文信息和多尺度表示的语义特征。MSTNet在2个高分辨率遥感语义分割数据集ISPRS Potsdam和LoveDA上进行验证,平均交并比(mIoU)分别达到79.50%和54.12%,平均F1-score(m F1)分别达到87.46%和69.34%,实验结果验证了本文所提方法有效提升了遥感图像语义分割的效果。 展开更多
关键词 遥感图像 语义分割 卷积神经网络 transformer 全局上下文信息 多尺度感受野 编码器 解码器
下载PDF
考虑特征重组与改进Transformer的风电功率短期日前预测方法 被引量:3
11
作者 李练兵 高国强 +3 位作者 吴伟强 魏玉憧 卢盛欣 梁纪峰 《电网技术》 EI CSCD 北大核心 2024年第4期1466-1476,I0025,I0027-I0029,共15页
短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本... 短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本身的可预测性;通过设计趋势增强和周期增强模块提高模型的预测能力;通过改进解码器的多头注意力层,使模型提取周期特征和趋势特征。该文首先对风电数据进行预处理,采用完全自适应噪声集合经验模态分解(complete ensemble empirical mode decomposition with adaptive noise,CEEMDAN)将风电数据序列分解为不同频率的本征模态函数并计算其样本熵,使得风电功率序列重组为周期序列和趋势序列,然后将序列输入到Powerformer模型,实现对风电功率短期日前准确预测。结果表明,虽然训练时间长于已有预测模型,但Poweformer模型预测精度得到提升;同时,消融实验结果验证了模型各模块的必要性和有效性,具有一定的应用价值。 展开更多
关键词 风电功率预测 特征重组 transformer模型 注意力机制 周期趋势增强
原文传递
基于特征融合Transformer的EfficientNet v2网络对马铃薯叶片病害的识别 被引量:1
12
作者 孙剑明 毕振宇 牛连丁 《江苏农业科学》 北大核心 2024年第8期166-176,共11页
马铃薯叶片病害是影响马铃薯质量和产量的主要因素,为了能够快速准确地识别马铃薯叶片病害并采取对应的防控和救治措施,本研究提出一种新型马铃薯叶片病害识别方法。该方法利用EfficientNet v2网络提取图像特征,通过4个不同尺度的网络... 马铃薯叶片病害是影响马铃薯质量和产量的主要因素,为了能够快速准确地识别马铃薯叶片病害并采取对应的防控和救治措施,本研究提出一种新型马铃薯叶片病害识别方法。该方法利用EfficientNet v2网络提取图像特征,通过4个不同尺度的网络层进行金字塔融合,从而捕捉不同尺度下的图像细节和上下文信息,并在金字塔融合中的每个下采样环节都添加1个CBAM注意力机制模块,且每个CBAM模块后都加入Vision Transformer的Encoder模块进行特征增强,帮助提升所提取特征的丰富性和抽象能力,最后使用softmax进行分类。研究提出的模型识别准确率达到98.26%,相比改进之前提升3.47百分点,且其loss收敛更快,宏平均值与加权平均值都有明显提升。消融试验表明,该模型在各项指标上的表现最优,超过基线模型和融合模型,大幅提高图像分类识别任务模型的性能表现。该方法可有效提高病害区域的识别能力和检测准确率,且能在强干扰的环境下做到高精度识别,具有良好的鲁棒性和适应性,同时能解决病害识别中泛化能力弱、精度低、计算效率低等问题。 展开更多
关键词 农业 马铃薯叶片病害 图像识别 卷积神经网络 特征融合 transformer模型
下载PDF
基于遥感多参数和CNN-Transformer的冬小麦单产估测 被引量:2
13
作者 王鹏新 杜江莉 +3 位作者 张悦 刘峻明 李红梅 王春梅 《农业机械学报》 EI CAS CSCD 北大核心 2024年第3期173-182,共10页
为了提高冬小麦单产估测精度,改善估产模型存在的高产低估和低产高估等现象,以陕西省关中平原为研究区域,选取旬尺度条件植被温度指数(VTCI)、叶面积指数(LAI)和光合有效辐射吸收比率(FPAR)为遥感特征参数,结合卷积神经网络(CNN)局部特... 为了提高冬小麦单产估测精度,改善估产模型存在的高产低估和低产高估等现象,以陕西省关中平原为研究区域,选取旬尺度条件植被温度指数(VTCI)、叶面积指数(LAI)和光合有效辐射吸收比率(FPAR)为遥感特征参数,结合卷积神经网络(CNN)局部特征提取能力和基于自注意力机制的Transformer网络的全局信息提取能力,构建CNN-Transformer深度学习模型,用于估测关中平原冬小麦产量。与Transformer模型(R^(2)为0.64,RMSE为465.40 kg/hm^(2),MAPE为8.04%)相比,CNN-Transformer模型具有更高的冬小麦单产估测精度(R^(2)为0.70,RMSE为420.39 kg/hm^(2),MAPE为7.65%),能够从遥感多参数中提取更多与产量相关的信息,且对于Transformer模型存在的高产低估和低产高估现象均有所改善。基于5折交叉验证法和留一法进一步验证了CNN-Transformer模型的鲁棒性和泛化能力。此外,基于CNN-Transformer模型捕获冬小麦生长过程的累积效应,分析逐步累积旬尺度输入参数对产量估测的影响,评估模型对于冬小麦不同生长阶段的累积过程的表征能力。结果表明,模型能有效捕捉冬小麦生长的关键时期,3月下旬至5月上旬是冬小麦生长的关键时期。 展开更多
关键词 冬小麦 作物估产 遥感多参数 卷积神经网络 transformer模型
下载PDF
基于Transformer的交通标志检测模型研究 被引量:1
14
作者 严丽平 张文剥 +3 位作者 宋凯 蔡彧 王静 徐嘉悦 《华东交通大学学报》 2024年第1期61-69,共9页
【目的】为了解决在复杂环境下,对小目标特征困难以及对小目标检测效果不佳等问题,提出了一种基于Transformer的交通标志检测基干模型。【方法】通过充分利用卷积和Transformer的优势,构建了一种注意力融合的多尺度特征提取基干模型,能... 【目的】为了解决在复杂环境下,对小目标特征困难以及对小目标检测效果不佳等问题,提出了一种基于Transformer的交通标志检测基干模型。【方法】通过充分利用卷积和Transformer的优势,构建了一种注意力融合的多尺度特征提取基干模型,能够使基干网络以全局上下文信息为支撑,有选择地增强有用信息的特征,并抑制不重要的特征。此外,为了在增强特征融合的同时防止网络退化,还加入了类池连接。最后,在TT100K数据集上进行实验。【结果】实验结果表明,以该模型为骨干的元体系结构取得了最高84%的mAP,与基线模型相比m AP最大提升约7%。【结论】模型在提高特征提取效果的同时,也为交通标志检测提供了一种新的思路。 展开更多
关键词 交通标志检测 自动驾驶 transformer 注意力融合
下载PDF
特征增强的Sparse Transformer目标跟踪算法
15
作者 张丽君 李建民 +1 位作者 侯文 王洁 《电光与控制》 CSCD 北大核心 2024年第5期18-23,共6页
针对Transformer的自注意力机制计算量大、容易被背景分心,导致有效信息抓取不足,从而降低跟踪性能的问题,提出特征增强的Sparse Transformer目标跟踪算法。基于孪生网络骨干进行特征提取;特征增强模块利用多尺度特征图生成的上下文信息... 针对Transformer的自注意力机制计算量大、容易被背景分心,导致有效信息抓取不足,从而降低跟踪性能的问题,提出特征增强的Sparse Transformer目标跟踪算法。基于孪生网络骨干进行特征提取;特征增强模块利用多尺度特征图生成的上下文信息,增强目标局部特征;利用Sparse Transformer的最相关特性生成目标聚焦特征,并嵌入位置编码提升跟踪定位的精度。提出的跟踪模型以端到端的方式进行训练,在OTB100,VOT2018和LaSOT等5个数据集上进行了大量实验,实验结果表明所提算法取得了较好的跟踪性能,实时跟踪速度为34帧/s。 展开更多
关键词 目标跟踪 注意力机制 transformer Sparse transformer
下载PDF
一种基于Transformer编码器与LSTM的飞机轨迹预测方法
16
作者 李明阳 鲁之君 +1 位作者 曹东晶 曹世翔 《航天返回与遥感》 CSCD 北大核心 2024年第2期163-176,共14页
为了解决飞机目标机动数据集缺失的问题,文章利用运动学建模生成了丰富的轨迹数据集,为网络训练提供了必要的数据支持。针对现阶段轨迹预测运动学模型建立困难及时序预测方法难以提取时空特征的问题,提出了一种结合Transformer编码器和... 为了解决飞机目标机动数据集缺失的问题,文章利用运动学建模生成了丰富的轨迹数据集,为网络训练提供了必要的数据支持。针对现阶段轨迹预测运动学模型建立困难及时序预测方法难以提取时空特征的问题,提出了一种结合Transformer编码器和长短期记忆网络(Long Short Term Memory,LSTM)的飞机目标轨迹预测方法,即Transformer-Encoder-LSTM模型。新模型可同时提供LSTM和Transformer编码器模块的补充历史信息和基于注意力的信息表示,提高了模型能力。通过与一些经典神经网络模型进行对比分析,发现在数据集上,新方法的平均位移误差减小到0.22,显著优于CNN-LSTMAttention模型的0.35。相比其他网络,该算法能够提取复杂轨迹中的隐藏特征,在面对飞机连续转弯、大机动转弯的复杂轨迹时,能够保证模型的鲁棒性,提升了对于复杂轨迹预测的准确性。 展开更多
关键词 轨迹预测 transformer编码器 神经网络 飞机目标 transformer-Encoder-LSTM模型
下载PDF
ConvFormer:基于Transformer的视觉主干网络 被引量:1
17
作者 胡杰 昌敏杰 +1 位作者 徐博远 徐文才 《电子学报》 EI CAS CSCD 北大核心 2024年第1期46-57,共12页
针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多... 针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-Shuffle and Multi-Scale attention,CSMS)和动态相对位置编码模块(Dynamic Relative Position Coding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%. 展开更多
关键词 机器视觉 自注意力 主干网络 transformer
下载PDF
引入轻量级Transformer的无人机视觉跟踪 被引量:1
18
作者 谌海云 王海川 +1 位作者 黄忠义 余鸿皓 《计算机工程与应用》 CSCD 北大核心 2024年第2期244-253,共10页
随着无人机在军事和民用领域的广泛运用,对于高精度、低功耗智能无人机跟踪系统的需求日益增加。针对目标跟踪算法在无人机跟踪场景下很难平衡跟踪精度和跟踪速度的问题,提出一种引入轻量级Transformer的孪生网络无人机目标跟踪算法Sia... 随着无人机在军事和民用领域的广泛运用,对于高精度、低功耗智能无人机跟踪系统的需求日益增加。针对目标跟踪算法在无人机跟踪场景下很难平衡跟踪精度和跟踪速度的问题,提出一种引入轻量级Transformer的孪生网络无人机目标跟踪算法SiamLT。使用Transformer对AlexNet网络进行改进,在增加最小计算量的情况下捕获全局特征信息。在目标模板与搜索区域匹配方面,联合Transformer和深度互相关运算提出一种二元相关模块,同时捕获目标模板与搜索区域之间的局部相关性和全局依赖关系。在分类回归网络中引入距离交并比,并采用多监督策略训练网络,以获取更准确的目标位置。在UAV123和UAV20L跟踪基准上的实验结果表明,SiamLT算法优于主流的目标跟踪算法,更有效地平衡了跟踪精度和跟踪速度。 展开更多
关键词 无人机 目标跟踪 transformer 孪生网络 多头注意力
下载PDF
结合坐标Transformer的轻量级人体姿态估计算法 被引量:1
19
作者 黄友文 林志钦 +1 位作者 章劲 陈俊宽 《图学学报》 CSCD 北大核心 2024年第3期516-527,共12页
针对现有的大多数自底向上人体姿态估计算法存在模型规模大、计算成本高及对边缘设备不友好等问题,提出了一种基于YOLOv5s6-Pose的轻量级多人姿态估计网络模型YOLOv5s6-Pose-CT。该模型在颈部网络中引入空间和通道重建卷积,以减少空间... 针对现有的大多数自底向上人体姿态估计算法存在模型规模大、计算成本高及对边缘设备不友好等问题,提出了一种基于YOLOv5s6-Pose的轻量级多人姿态估计网络模型YOLOv5s6-Pose-CT。该模型在颈部网络中引入空间和通道重建卷积,以减少空间和通道维度上的特征冗余。同时,提出了一种坐标Transformer嵌入于主干网络中,使模型专注于长距离依赖和拥有高效的局部特征提取能力。其次,通过使用无偏特征位置对齐来解决多尺度融合过程中出现的特征错位问题。最后,使用损失函数MPDIoU对边界框的回归损失重新定义。在COCO 2017数据集上的实验结果表明,本文优化的网络模型与主流的轻量级网络EfficientHRNet-H1模型相比,在保持相同精度的同时,参数量和计算量分别减少16.2%和66.1%。相比于基准模型YOLOv5s6-Pose,参数量减少11.2%,计算量降低5.8%,平均检测精度和平均召回率分别提升2.5%和2.6%。 展开更多
关键词 人体姿态估计 轻量级 坐标transformer 无偏特征位置对齐 损失函数
下载PDF
融合Transformer和CNN的轻量级人脸识别算法 被引量:1
20
作者 李明 党青霞 《计算机工程与应用》 CSCD 北大核心 2024年第14期96-104,共9页
随着深度学习的发展,卷积神经网络通过堆叠卷积层逐步扩大感受野以融合局部特征的方式已经成为人脸识别(FR)的主流方法,但这种方法存在因忽略人脸全局语义信息和缺乏对人脸重点特征信息的关注造成识别准确率不高,以及大参数量层数的堆... 随着深度学习的发展,卷积神经网络通过堆叠卷积层逐步扩大感受野以融合局部特征的方式已经成为人脸识别(FR)的主流方法,但这种方法存在因忽略人脸全局语义信息和缺乏对人脸重点特征信息的关注造成识别准确率不高,以及大参数量层数的堆叠导致网络难以部署于资源受限设备的问题。因此提出一种融合Transformer和CNN的极其轻量级FR算法gcsamTfaceNet。使用深度可分离卷积构建主干网络以降低算法的参数量;引入通道-空间注意力机制,从通道和空间两个域最优化选择特征以提高对人脸重点区域的关注度;在此基础上,融合Transformer模块以捕获特征图的全局语义信息,克服卷积神经网络在长距离语义依赖性建模方面的局限性,提高算法的全局特征感知能力。参数量仅为6.5×10^(5)的gcsamTfaceNet在9个验证集(LFW、CA-LFW、CP-LFW、CFP-FP、CFP-FF、AgeDB-30、VGG2-FP、IJB-B以及IJB-C)上实验评估,分别取得99.67%、95.60%、89.32%、93.67%、99.65%、96.35%、93.36%、89.43%和91.38%的平均准确率,达到参数量和性能之间较好的权衡。 展开更多
关键词 轻量级人脸识别 卷积神经网络 transformer 注意力机制
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部