-
题名一种基于对比学习大模型的视觉定位方法
- 1
-
-
作者
陆庆阳
袁广林
朱虹
秦晓燕
薛模根
-
机构
中国人民解放军陆军炮兵防空兵学院研究生大队
中国人民解放军陆军炮兵防空兵学院信息工程系
偏振光成像探测技术安徽省重点实验室
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2024年第10期3448-3458,共11页
-
文摘
一阶段视觉定位方法由于其快速性而受到广泛关注,该方法利用图像与文本的融合特征预测目标框,但是现有方法在特征融合前没有进行图像与文本特征的对齐,限制了视觉定位的精度.为了解决这一问题,本文提出一种基于对比学习大模型的视觉定位方法.该方法采用基于对比学习的大规模预训练模型CLIP(Contrastive Language-Image Pre-training)提取图像和文本特征,利用Transformer编码器融合图像文本特征,使用多层感知机和融合特征预测目标框.该方法能够解决视觉定位方法上述不足的原因在于:借助CLIP模型的编码器可以提取高度语义对齐的图像和文本特征,同时使用全局注意力交互融合图像与文本的上下文特征.在5个数据集上,对本文提出的方法进行实验验证,实验结果表明:相比于现有视觉定位方法,本文方法取得了综合精度的提升.
-
关键词
视觉定位
对比学习
变换器
注意力
大模型
对齐
-
Keywords
visual grounding
contrastive learning
Transformer
attention
large model
align
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Transformer的视觉目标跟踪方法综述
被引量:1
- 2
-
-
作者
孙子文
钱立志
杨传栋
高一博
陆庆阳
袁广林
-
机构
陆军炮兵防空兵学院高过载弹药制导控制与信息感知实验室
陆军炮兵防空兵学院信息工程系
-
出处
《计算机应用》
CSCD
北大核心
2024年第5期1644-1654,共11页
-
基金
军队型号项目(LZX20190112)。
-
文摘
视觉目标跟踪是计算机视觉中的重要任务之一,为实现高性能的目标跟踪,近年来提出了大量的目标跟踪方法,其中基于Transformer的目标跟踪方法由于具有全局建模和联系上下文的能力,是目前视觉目标跟踪领域研究的热点。首先,根据网络结构的不同对基于Transformer的视觉目标跟踪方法进行分类,概述相关原理和模型改进的关键技术,总结不同网络结构的优缺点;其次,对这类方法在公开数据集上的实验结果进行对比,分析网络结构对性能的影响,其中MixViT-L(ConvMAE)在LaSOT和TrackingNet上跟踪成功率分别达到了73.3%和86.1%,说明基于纯Transformer两段式架构的目标跟踪方法具有更优的性能和更广的发展前景;最后,对方法当前存在的网络结构复杂、参数量大、训练要求高和边缘设备使用难度大等不足进行总结,并对今后的研究重点进行展望,通过与模型压缩、自监督学习以及Transformer可解释性分析相结合,可为基于Transformer的视觉目标跟踪提出更多可行的解决方案。
-
关键词
计算机视觉
目标跟踪
混合网络结构
深度学习
孪生网络
TRANSFORMER
-
Keywords
computer vision
object tracking
hybrid network structure
deep learning
Siamese network
Transformer
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名J2ME手机TCK Client移植
- 3
-
-
作者
沈建人
陆庆阳
郑会颂
-
机构
南京邮电学院管理工程系
-
出处
《计算机应用》
CSCD
北大核心
2004年第B12期313-315,共3页
-
文摘
论述了J2ME手机TCKClient的移植问题,提出了几个TCK测试的通信配置建议,对 TCK的基本概念、MIDP2.0TCK测试、TCKClient的通信需求等方面都作了分析,可供J2ME产品开 发参考之用。
-
关键词
J2ME
TCK
移植
-
分类号
TP393.04
[自动化与计算机技术—计算机应用技术]
-