期刊文献+
共找到282,862篇文章
< 1 2 250 >
每页显示 20 50 100
Point Cloud Classification Using Content-Based Transformer via Clustering in Feature Space
1
作者 Yahui Liu Bin Tian +2 位作者 Yisheng Lv Lingxi Li Fei-Yue Wang 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第1期231-239,共9页
Recently, there have been some attempts of Transformer in 3D point cloud classification. In order to reduce computations, most existing methods focus on local spatial attention,but ignore their content and fail to est... Recently, there have been some attempts of Transformer in 3D point cloud classification. In order to reduce computations, most existing methods focus on local spatial attention,but ignore their content and fail to establish relationships between distant but relevant points. To overcome the limitation of local spatial attention, we propose a point content-based Transformer architecture, called PointConT for short. It exploits the locality of points in the feature space(content-based), which clusters the sampled points with similar features into the same class and computes the self-attention within each class, thus enabling an effective trade-off between capturing long-range dependencies and computational complexity. We further introduce an inception feature aggregator for point cloud classification, which uses parallel structures to aggregate high-frequency and low-frequency information in each branch separately. Extensive experiments show that our PointConT model achieves a remarkable performance on point cloud shape classification. Especially, our method exhibits 90.3% Top-1 accuracy on the hardest setting of ScanObjectN N. Source code of this paper is available at https://github.com/yahuiliu99/PointC onT. 展开更多
关键词 Content-based transformer deep learning feature aggregator local attention point cloud classification
下载PDF
基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法
2
作者 田子建 吴佳奇 +4 位作者 张文琪 陈伟 周涛 杨伟 王帅 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期297-310,共14页
高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低... 高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法。基于生成对抗思想搭建生成对抗式主体模型框架,使用目标图像域而非单一参考图像驱动判别器监督生成器的训练,实现对低照度图像的充分增强;基于特征表示学习理论搭建特征编码器,将图像解耦为亮度分量和反射分量,避免图像增强过程中亮度与颜色特征相互影响从而导致颜色失真问题;设计CEM-Transformer Encoder通过捕获全局上下文关系和提取局部区域特征,能够充分提升整体图像亮度并消除局部区域照度不均;在反射分量增强过程中,使用结合CEM-Cross-Transformer Encoder的跳跃连接将低级特征与深层网络处特征进行自适应融合,能够有效避免细节特征丢失,并在编码网络中添加ECA-Net,提高浅层网络的特征提取效率。制作矿井低照度图像数据集为矿井低照度图像增强任务提供数据资源。试验显示,在矿井低照度图像数据集和公共数据集中,与5种先进的低照度图像增强算法相比,该算法增强图像的质量指标PSNR、SSIM、VIF平均提高了16.564%,10.998%,16.226%和14.438%,10.888%,14.948%,证明该算法能够有效提升整体图像亮度,消除照度不均,避免颜色失真和细节丢失,实现矿井低照度图像增强。 展开更多
关键词 图像增强 图像识别 生成对抗网络 特征解耦 transformER
下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型
3
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉transformer 注意力机制
下载PDF
Dual-Path Vision Transformer用于急性缺血性脑卒中辅助诊断
4
作者 张桃红 郭学强 +4 位作者 郑瀚 罗继昌 王韬 焦力群 唐安莹 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期307-314,共8页
急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分... 急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分类智能模型DPVF。为了提高辅助诊断速度,基于EdgeViT的轻量化设计思想进行了模型的构建;为了使模型保持轻量化的同时具有较高的精度,提出空间-通道自注意力模块,促进Transformer模型捕获更全面的特征信息,提高模型的表达能力;此外,对于DPVF的两分支的特征融合,构建交叉注意力模块对两分支输出进行交叉融合,促使模型提取更丰富的特征,从而提高模型表现。实验结果显示DPVF在测试集上的准确率达98.5%,满足实际需求。 展开更多
关键词 急性缺血性脑卒中 视觉transformer 双分支网络 特征融合
下载PDF
基于多模态掩码Transformer网络的社会事件分类
5
作者 陈宏 钱胜胜 +2 位作者 李章明 方全 徐常胜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期579-587,共9页
多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据... 多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据模态间的关系是不够的,还要考虑模态之间不相关的上下文信息(即区域或单词)。为克服这些局限性,提出一种新颖的基于多模态掩码Transformer网络(MMTN)模型的社会事件分类方法。通过图-文编码网络来学习文本和图像的更好的表示。将获得的图像和文本表示输入多模态掩码Transformer网络来融合多模态信息,并通过计算多模态信息之间的相似性,对多模态信息的模态间的关系进行建模,掩盖模态之间的不相关上下文。在2个基准数据集上的大量实验表明:所提模型达到了最先进的性能。 展开更多
关键词 多模态 社会事件分类 社交媒体 表示学习 多模态transformer网络
原文传递
基于Transformer的道路场景点云分类与分割方法
6
作者 马庆禄 孙枭 +1 位作者 黄筱潇 王江华 《激光与红外》 CAS CSCD 北大核心 2024年第1期17-23,共7页
针对多目标识别过程中点云分类和分割精度不高的问题,提出了一种基于改进Transformer模型的点云分类与分割方法DRPT(Double randomness Point Transformer),该方法在Transformer模型卷积投影层创建新的点嵌入,利用局部邻域的动态处理在... 针对多目标识别过程中点云分类和分割精度不高的问题,提出了一种基于改进Transformer模型的点云分类与分割方法DRPT(Double randomness Point Transformer),该方法在Transformer模型卷积投影层创建新的点嵌入,利用局部邻域的动态处理在数据特征向量中持续增加全局特征属性,从而提高多目标识别中点云分类和分割的精度。实验中采用了标准基准数据集(ModelNet40、ShapeNet部分分割和SemanticKITTI场景语义分割数据集)以验证模型的性能,实验结果表明:DRPT模型的pIoU值为85.9%,比其他模型平均高出3.5%,有效提高了多目标识别检测时点云分类与分割精度,是对智能网联技术发展的有效支撑。 展开更多
关键词 点云识别 道路场景 点云分割 点集嵌入 transformER
下载PDF
CNN-Transformer特征融合多目标跟踪算法
7
作者 张英俊 白小辉 谢斌红 《计算机工程与应用》 CSCD 北大核心 2024年第2期180-190,共11页
在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特... 在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块(two-way braidge module,TBM)对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UADETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到端进行目标跟踪,跟踪速度可达35 FPS,表明CTMOT算法在跟踪的实时性和准确性上达到了较好的平衡,具有较大潜力。 展开更多
关键词 多目标跟踪 transformER 特征融合
下载PDF
HRformer:基于多级回归Transformer网络的红外小目标检测
8
作者 杜妮妮 单凯东 王建超 《红外技术》 CSCD 北大核心 2024年第2期199-207,共9页
红外小目标检测是指从低信噪比、复杂背景的红外图像中对小目标进行检测,在海上救援、交通管理等应用中具有重要实际意义。然而,由于图像分辨率低、目标尺寸小以及特征不突出等因素,导致红外目标很容易淹没在包含噪声和杂波的背景中,如... 红外小目标检测是指从低信噪比、复杂背景的红外图像中对小目标进行检测,在海上救援、交通管理等应用中具有重要实际意义。然而,由于图像分辨率低、目标尺寸小以及特征不突出等因素,导致红外目标很容易淹没在包含噪声和杂波的背景中,如何精确检测红外小目标的外形信息仍然是一个挑战。针对上述问题,构建了一种基于多级回归Transformer(HRformer)网络的红外小目标检测算法。具体来说,首先为了在获得多尺度信息的同时尽可能避免原始图像信息的损失,采用像素逆重组(PixelUnShuffle)操作对原始图像下采样来获取不同层级网络的输入,同时采用一种可学习的像素重组(PixelShuffle)操作对每一层级的输出特征图进行上采样,提升了网络的灵活性;接着,为实现网络中不同层级特征之间的信息交互,本文设计了一种包含空间注意力计算分支以及通道注意力计算分支在内的交叉注意力融合(cross attention fusion,CAF)模块实现特征高效融合以及信息互补;最后,为进一步提升网络的检测性能,结合普通Transformer结构具有较大感受野以及基于窗口的Transformer结构具有较少计算复杂度的优势,提出了一种局部-全局Transformer(LGT)结构,能够在提取局部上下文信息的同时对全局依赖关系进行建模,计算成本也得到节省。实验结果表明,与目前较为先进的一些红外小目标检测算法相比,本文所提出的算法具有更高的检测精度,同时具有较少的参数量,在解决实际问题中更有意义。 展开更多
关键词 红外图像 弱小目标检测 transformER 图像分割
下载PDF
CNN-Transformer结合对比学习的高光谱与LiDAR数据协同分类
9
作者 吴海滨 戴诗语 +2 位作者 王爱丽 岩堀祐之 于效宇 《光学精密工程》 EI CAS CSCD 北大核心 2024年第7期1087-1100,共14页
针对高光谱图像(hyperspectral images,HSI)与LiDAR数据多模态分类任务中的跨模态信息表达和特征对齐等问题,提出一种基于对比学习CNN-Transformer高光谱和LiDAR数据协同分类网络(Contrastive Learning based CNNTransformer Network,CL... 针对高光谱图像(hyperspectral images,HSI)与LiDAR数据多模态分类任务中的跨模态信息表达和特征对齐等问题,提出一种基于对比学习CNN-Transformer高光谱和LiDAR数据协同分类网络(Contrastive Learning based CNNTransformer Network,CLCT-Net)。CLCT-Net通过由ConvNeXt V2 Block构成的共有特征提取模块,获得不同模态间的共性特征,解决异构传感器数据之间语义对齐的问题。构建了包含空间-通道分支和光谱上下文分支的双分支HSI编码器,以及结合频域自注意力机制的LiDAR编码器,以获取更丰富的特征表示。利用集成对比学习进行分类,进一步提升多模态数据协同分类的精度。在Houston 2013和Trento数据集上的实验结果表明,相较于其他高光谱图像和Li‐DAR数据分类模型,本文所提模型获得了更高的地物分类精度,分别达到了92.01%和98.90%,实现了跨模态数据特征的深度挖掘和协同提取。 展开更多
关键词 高光谱图像 激光雷达数据 transformER 卷积神经网络 对比学习
下载PDF
基于Transformer和CNN交错混合的肺结节分割网络
10
作者 吴骏 侯宪哲 +2 位作者 王健 肖志涛 王雯 《天津工业大学学报》 CAS 北大核心 2024年第1期74-81,共8页
针对肺结节尺寸多样、形状异质化高等问题,提出基于Transformer和卷积神经网络(CNN)交错混合(IMTC)的肺结节分割网络,该网络是一个对称的层次连接网络,具有很强的多尺度特征提取能力。该网络通过集成2种方案分别解决肺结节多尺寸与形状... 针对肺结节尺寸多样、形状异质化高等问题,提出基于Transformer和卷积神经网络(CNN)交错混合(IMTC)的肺结节分割网络,该网络是一个对称的层次连接网络,具有很强的多尺度特征提取能力。该网络通过集成2种方案分别解决肺结节多尺寸与形状异质化问题:(1)采用感知注意力模块(inception attention module,IAM),通过并联多个不同大小的卷积核来增加浅层网络的感受野组合,以此捕获更为丰富的浅层特征;(2)为获取更具表示能力的高级语义特征,利用由Transformer和CNN组成的基本骨干网络交错提取结节特征,使得全局特征与局部特征充分融合,从而提高结节特征表示的泛化能力和鲁棒性。实验结果表明:本文模型可以准确分割直径较小以及边缘复杂的肺结节,在LUNA16公开数据集上分割性能良好,Dice和IOU分别达到86.15%和76.10%。 展开更多
关键词 肺结节 transformER 卷积神经网络(CNN) 感知注意力模块(IAM) 交错混合
下载PDF
基于边缘引导和动态可变形Transformer的遥感图像变化检测
11
作者 雷涛 翟钰杰 +2 位作者 许叶彤 王营博 公茂果 《电子学报》 EI CAS CSCD 北大核心 2024年第1期107-117,共11页
卷积神经网络(Convolutional Neural Network,CNN)和Transformer的混合架构能够有效建模图像的局部与全局特征,已成为遥感图像变化检测任务的主流网络.然而这类网络仍面临着一些挑战. CNN分支中的卷积和池化运算通常会抑制遥感图像中的... 卷积神经网络(Convolutional Neural Network,CNN)和Transformer的混合架构能够有效建模图像的局部与全局特征,已成为遥感图像变化检测任务的主流网络.然而这类网络仍面临着一些挑战. CNN分支中的卷积和池化运算通常会抑制遥感图像中的高频信息,降低目标边界的精度;此外,Transformer分支对图像像素进行等同长程依赖关系建模,忽略了变化目标的形状及语义关联信息,导致网络对变化目标特征的表达不足.为解决上述问题,提出了基于边缘引导和动态可变形Transformer的遥感图像变化检测网络.在CNN分支中设计了边缘信息引导模块,利用高频信息增强目标区域的边缘信息,从而改善变化目标的轮廓精度.同时设计了一种新颖的动态可变形Transformer,能够自适应地匹配形状不同的变化目标,选择与变化相关的特征建模长程依赖关系,以提高网络的特征表达能力.实验结果表明,提出的方法在三个公开数据集LEVIR-CD、CDD和DSIFN-CD上显著提高了检测精度,在变化目标的边界精度和内部完整性方面都明显优于当前的主流网络. 展开更多
关键词 遥感图像 变化检测 高频信息 边缘信息 动态可变形transformer
下载PDF
融合卷积注意力和Transformer架构的行人重识别方法
12
作者 王静 李沛橦 +2 位作者 赵容锋 张云 马振玲 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期466-476,共11页
行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关... 行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关注。所提方法主要将卷积空间注意力和通道注意力嵌入Transformer架构中,分别加强对图像中重要区域的关注和对重要通道特征的关注,以进一步提高Transformer架构对局部细节特征的提取能力。在3个公开行人重识别数据集上的对比消融实验证明,所提方法在非遮挡数据集上取得了与现有方法相当的结果,在遮挡数据集上的性能得到显著提升。所提方法更加轻量化,在不增加额外计算量和模型参数的情况下,推理速度得到了提升。 展开更多
关键词 行人重识别 深度学习 卷积神经网络 transformER 注意力机制
原文传递
基于改进的Transformer细粒度图像识别算法研究
13
作者 李冰锋 刘帅 杨艺 《电子测量技术》 北大核心 2024年第2期114-120,共7页
针对细粒度图像识别存在类间差异小、难以区分等问题,本文通过提升网络对图像细节特征的表达能力,来改善这一问题。为此,设计了一种基于改进的Transformer细粒度识别算法。首先,可变形卷积令牌嵌入通过自适应调整采样点的位置,来改变卷... 针对细粒度图像识别存在类间差异小、难以区分等问题,本文通过提升网络对图像细节特征的表达能力,来改善这一问题。为此,设计了一种基于改进的Transformer细粒度识别算法。首先,可变形卷积令牌嵌入通过自适应调整采样点的位置,来改变卷积操作范围及其卷积核的形状,从而增强网络模型对空间信息的感知能力,以获取更为精准的空间信息;其次,高效相关通道注意力机制通过对通道的自动选择,将通道注意力的计算从通道相邻转换成语义相似,来捕获语义相似的通道信息。而精准的空间信息和语义相似的通道信息将有效提升网络模型局部特征感知能力。实验结果表明,与基线算法相比,本文方法在CUB-200-2011、StanfordCars和StanfordDogs三个数据集上的识别结果分别提升了1.5%、2.4%、1.5%。结果表明,本文提出的方法通过提升细粒度图像细节特征的表达能力,从而有效提高了细粒度图像识别的有效性。 展开更多
关键词 细粒度图像识别 transformER 可变形卷积
原文传递
基于双向稀疏Transformer的多变量时序分类模型
14
作者 王慧强 陈楚皓 +1 位作者 吕宏武 米海林 《小型微型计算机系统》 CSCD 北大核心 2024年第3期555-561,共7页
针对多变量时序(Multivariate Time Series,MTS)分类中长序列数据难以捕捉时序特征的问题,提出一种基于双向稀疏Transformer的时序分类模型BST(Bidirectional Sparse Transformer),提高了MTS分类任务的准确度.BST模型使用Transformer框... 针对多变量时序(Multivariate Time Series,MTS)分类中长序列数据难以捕捉时序特征的问题,提出一种基于双向稀疏Transformer的时序分类模型BST(Bidirectional Sparse Transformer),提高了MTS分类任务的准确度.BST模型使用Transformer框架,构建了一种基于活跃度得分的双向稀疏注意力机制.基于KL散度构建活跃度评价函数,并将评价函数的非对称问题转变为对称权重问题.据此,对原有查询矩阵、键值矩阵进行双向稀疏化,从而降低原Transformer模型中自注意力机制运算的时间复杂度.实验结果显示,BST模型在9个长序列数据集上取得最高平均排名,在临界差异图中领先第2名35.7%,对于具有强时序性的乙醇浓度数据集(Ethanol Concentration,EC),分类准确率提高30.9%. 展开更多
关键词 多变量时序分类 transformER 双向稀疏机制 活跃度评价函数
下载PDF
基于Transformer和动态3D卷积的多源遥感图像分类
15
作者 高峰 孟德森 +2 位作者 解正源 亓林 董军宇 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期606-614,共9页
多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解... 多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解决上述问题,提出了基于跨模态Transformer和多尺度动态3D卷积的多源遥感图像分类模型。为提高多源特征表达的一致性,设计了基于Transformer的融合模块,借助其强大的注意力建模能力挖掘高光谱和LiDAR数据特征之间的相互作用;为提高特征提取方法对不同地物类别的适应性,设计了多尺度动态3D卷积模块,将输入特征的多尺度信息融入卷积核的调制,提高卷积操作对不同地物的适应性。采用多源遥感数据集Houston和Trento对所提方法进行验证,实验结果表明:所提方法在Houston和Trento数据集上总体准确率分别达到94.60%和98.21%,相比MGA-MFN等主流方法,总体准确率分别至少提升0.97%和0.25%,验证了所提方法可有效提升多源遥感图像分类的准确率。 展开更多
关键词 高光谱图像 激光雷达 transformER 多源特征融合 动态卷积
原文传递
基于Transformer的陶瓷轴承表面缺陷检测方法
16
作者 安冬 胡荣华 +3 位作者 王丽艳 邵萌 李新然 刘则通 《组合机床与自动化加工技术》 北大核心 2024年第2期160-163,168,共5页
针对传统机器视觉检测方法中,由于陶瓷轴承滚动体表面曲率大、对比度低,表面成像模糊导致后续缺陷检测精度低的问题,提出一种基于Transformer的超分辨率残差网络。首先,网络使用残差学习策略,通过预测模糊图像与清晰图像之间的差值,实... 针对传统机器视觉检测方法中,由于陶瓷轴承滚动体表面曲率大、对比度低,表面成像模糊导致后续缺陷检测精度低的问题,提出一种基于Transformer的超分辨率残差网络。首先,网络使用残差学习策略,通过预测模糊图像与清晰图像之间的差值,实现超分辨率任务;其次,在网络上前端插入通道注意力模块和空间注意力模块并改进L2多头自注意力模块,以增强图像纹理、改善梯度爆炸问题;最后,针对超分辨率重建任务,提出一种两阶段训练策略优化训练过程。自建陶瓷轴承表面缺陷数据集上的大量实验结果表明,所提出网络模型在客观指标与主观评价上均优于MSESRGAN、VSDR等超分辨率算法,重建图像SSIM为0.939,PSNR为36.51 dB。 展开更多
关键词 Si_(3)N_(4)陶瓷轴承 超分辨率重建 transformER 图像恢复 图像增强
下载PDF
基于Transformer模型的“暴力”虚开发票风险识别
17
作者 杨慧 程建华 《安徽工程大学学报》 CAS 2024年第1期76-85,共10页
自2016年“营改增”全面实施以来,与之相关的免税减税等税收优惠政策原旨在惠企助企、激发市场活力,但不法分子在巨额利润驱动下企图通过虚开增值税发票骗取出口退税、抵扣税款,严重扰乱了税收秩序。本文以“暴力”虚开发票的企业的犯... 自2016年“营改增”全面实施以来,与之相关的免税减税等税收优惠政策原旨在惠企助企、激发市场活力,但不法分子在巨额利润驱动下企图通过虚开增值税发票骗取出口退税、抵扣税款,严重扰乱了税收秩序。本文以“暴力”虚开发票的企业的犯罪特征为切入点,从基础征管数据和增值税发票数据中选取了24项虚开指标,构建了基于Transformer模型的虚开增值税发票识别模型,对虚开公司进行检测。实证分析表明Transformer模型对虚开增值税发票的识别召回率为0.934 7,准确率为0.986 9,AUC为0.963 9,显著优于SVM、Xgboost、MLP等传统机器学习模型,可辅助税务部门高效识别“暴力”虚开企业,节省人工筛查成本,对有效打击虚开增值税发票一类违法犯罪行为具有非常重要的实践意义。 展开更多
关键词 “暴力”虚开 transformER 逃税识别
下载PDF
ConvFormer:基于Transformer的视觉主干网络
18
作者 胡杰 昌敏杰 +1 位作者 徐博远 徐文才 《电子学报》 EI CAS CSCD 北大核心 2024年第1期46-57,共12页
针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多... 针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-Shuffle and Multi-Scale attention,CSMS)和动态相对位置编码模块(Dynamic Relative Position Coding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%. 展开更多
关键词 机器视觉 自注意力 主干网络 transformER
下载PDF
基于多层次特征融合的Transformer人脸识别方法
19
作者 夏桂书 朱姿翰 +2 位作者 魏永超 朱泓超 徐未其 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期61-68,共8页
卷积神经网络中的卷积操作只能捕获局部信息,而Transformer能保留更多的空间信息且能建立图像的长距离连接.在视觉领域的应用中,Transformer缺乏灵活的图像尺寸及特征尺度适应能力,通过利用层级式网络增强不同尺度建模的灵活性,且引入... 卷积神经网络中的卷积操作只能捕获局部信息,而Transformer能保留更多的空间信息且能建立图像的长距离连接.在视觉领域的应用中,Transformer缺乏灵活的图像尺寸及特征尺度适应能力,通过利用层级式网络增强不同尺度建模的灵活性,且引入多尺度特征融合模块丰富特征信息.本文提出了一种基于改进的Swin Transformer人脸模型——Swin Face模型.Swin Face以Swin Transformer为骨干网络,引入多层次特征融合模块,增强了模型对人脸的特征表达能力,并使用联合损失函数优化策略设计人脸识别分类器,实现人脸识别.实验结果表明,与多种人脸识别方法相比,Swin Face模型通过使用分级特征融合网络,在LFW、CALFW、AgeDB-30、CFP数据集上均取得最优的效果,验证了此模型具有良好的泛化性和鲁棒性. 展开更多
关键词 人脸识别 transformER 多尺度特征 特征融合
下载PDF
基于Swin Transformer与GRU的低温贮藏番茄成熟度识别与时序预测研究
20
作者 杨信廷 刘彤 +2 位作者 韩佳伟 郭向阳 杨霖 《农业机械学报》 EI CAS CSCD 北大核心 2024年第3期213-220,共8页
面向绿熟番茄采后持续转熟特征,适时调温是满足不同成熟度番茄适宜贮运温度需求的关键,而果实成熟度自动识别与动态预测则是实现温度适时调控的基础条件。本文基于Swin Transformer与改进GRU提出了一种番茄成熟度识别与时序动态预测模型... 面向绿熟番茄采后持续转熟特征,适时调温是满足不同成熟度番茄适宜贮运温度需求的关键,而果实成熟度自动识别与动态预测则是实现温度适时调控的基础条件。本文基于Swin Transformer与改进GRU提出了一种番茄成熟度识别与时序动态预测模型,首先通过融合番茄两侧图像获取番茄表观全局红色总占比,构建不同成熟番茄图像数据集,并基于迁移学习优化Swin Transformer模型初始权重配置,实现番茄成熟度分类识别;其次,周期性采集不同储藏温度(4、9、14℃)下番茄图像数据,结合番茄初始颜色特征与贮藏环境信息,构建基于Swin Transformer与GRU的番茄成熟度时序预测模型,并融合时间注意力模块优化模型预测精度;最后,对比分析不同模型预测结果,验证本研究所提模型的准确性与优越性。结果表明,番茄成熟度正确识别率为95.783%,相比VGG16、AlexNet、ResNet50模型,模型正确识别率分别提升2.83%、3.35%、12.34%。番茄成熟度时序预测均方误差(MSE)为0.225,相比原始GRU、LSTM、BiGRU模型MSE最高降低29.46%。本研究为兼顾番茄成熟度实现贮藏温度柔性适时调控提供了关键理论基础。 展开更多
关键词 番茄 低温贮藏 成熟度识别 时序预测模型 Swin transformer GRU
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部