基于视觉关联与上下文双注意力的图像描述生成方法被引量：12

Image Captioning Based on Visual Relevance and Context Dual Attention

下载PDF

导出

摘要图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存在差异.针对这一问题,提出一种基于视觉关联与上下文双注意力机制的图像描述生成方法(visual relevance and context dual attention, VRCDA).视觉关联注意力在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性,上下文注意力从全局上下文中获取更完整的语义信息,以充分利用上下文信息,进而指导生成最终的图像描述文本.在MSCOCO和Flickr30k两个标准数据集上进行了实验验证,结果表明所提出的VRCDA方法能够有效地生成图像语义描述,相比于主流的图像描述生成方法,在各项评价指标上均取得了较高的提升. Image captioning is of great theoretical significance and application value, which has attracted wide attention in computer vision and natural language processing. The existing attention mechanism-based image captioning methods integrate the current word and visual cues at the same moment to generate the target word, but they neglect the visual relevance and contextual information, which results in a difference between the generated caption and the ground truth. To address this problem, this paper presents the visual relevance and context dual attention(VRCDA) method. The visual relevance attention incorporates the attention vector of the previous moment into the traditional visual attention to ensure visual relevance, and the context attention is used to obtain much complete semantic information from the global context for better use of the context. In this way, the final image caption is generated via visual relevance and context information. The experiments on the MSCOCO and Flickr30k benchmark datasets demonstrate that VRCDA can effectively describe the image semantics, and compared with several state-of-the-art methods of image captioning, VRCDA can yield superior performance in all evaluation metrics.

作者刘茂福施琦聂礼强 LIU Mao-Fu;SHI Qi;NIE Li-Qiang(School of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan 430065,China;School of Computer Science and Technology,Shandong University,Qingdao 266237,China)

机构地区武汉科技大学计算机科学与技术学院山东大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2022年第9期3210-3222,共13页 Journal of Software

关键词图像描述生成双注意力机制视觉关联注意力上下文注意力 image captioning dual attention mechanism visual relevance attention context attention

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1李志欣,魏海洋,黄飞成,张灿龙,马慧芳,史忠植.结合视觉特征和场景语义的图像描述生成[J].计算机学报,2020,43(9):1624-1640. 被引量：26

共引文献25

1王慧娇,丛鹏,蒋华,韦永壮.基于深度学习的SIMON3264安全性分析[J].计算机研究与发展,2021,58(5):1056-1064. 被引量：1
2黄欣,顾梦丹,易玉根,曹远龙.基于深度学习的X线胸片肺部描述自动生成[J].模式识别与人工智能,2021,34(6):552-560.
3李志欣,魏海洋,张灿龙,马慧芳,史忠植.图像描述生成研究进展[J].计算机研究与发展,2021,58(9):1951-1974. 被引量：8
4卢颖,吕希凡,郭良杰,仇乐,路越茗.基于Kinect的地铁乘客不安全行为识别方法与实验[J].中国安全生产科学技术,2021,17(12):162-168. 被引量：7
5李志欣,凌锋,唐振军,马慧芳,施智平.基于多头注意力网络的无监督跨媒体哈希检索[J].中国科学：信息科学,2021,51(12):2053-2068. 被引量：3
6朱鹏飞,张琬迎,王煜,胡清华.考虑多粒度类相关性的对比式开放集识别方法[J].软件学报,2022,33(4):1156-1169. 被引量：4
7李志欣,侯传文,谢秀敏.利用多重相似度矩阵增强跨模态哈希检索[J].计算机辅助设计与图形学学报,2022,34(6):933-945. 被引量：5
8王宇航,张灿龙,李志欣,王智文.体现用户意图和风格的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(4):91-103.
9肖雄,徐伟峰,王洪涛,苏攀,高思华.基于Transformer的细粒度图像中文描述[J].吉林大学学报（理学版）,2022,60(5):1103-1112. 被引量：3
10王鸣展,冀俊忠,贾奥哲,张晓丹.基于跨尺度特征融合自注意力的图像描述方法[J].计算机科学,2022,49(10):191-197. 被引量：2

同被引文献36

1魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁.从视觉到文本:图像描述生成的研究进展综述[J].中文信息学报,2020(7):19-29. 被引量：14
2王煜晔,白朝辉,祁兴顺,冯吉,高聪,刘小毓,常旭东,韩杰,高飞.双气囊小肠镜对不同年龄患者小肠疾病诊断价值研究[J].临床军医杂志,2022,50(2):142-144. 被引量：7
3赵敬伟,林珊玲,梅婷,林志贤,郭太良.基于YOLACT与Transformer相结合的实例分割算法研究[J].半导体光电,2023,44(1):134-140. 被引量：2
4魏玮.基于三维重建的全景图像自动生成技术[J].电子设计工程,2019,27(4):158-161. 被引量：4
5钟颖,孙晓敏,刘占举,徐梅琳,张秋琴.胶囊内镜与小肠CT成像在小肠克罗恩病诊断中的应用价值[J].胃肠病学,2019,24(4):207-210. 被引量：9
6税留成,刘卫忠,冯卓明.基于生成式对抗网络的图像自动标注[J].计算机应用,2019,39(7):2129-2133. 被引量：8
7吴慧,程静云,徐国斌,王艳,冷小园,吴光耀.小肠CT成像淋巴结特征对肠结核及Crohn病鉴别诊断价值[J].临床误诊误治,2020,33(2):61-66. 被引量：8
8赵凯,杨云锋,王俊平.胶囊内镜在小肠疾病诊断中的价值[J].中华内科杂志,2020,59(2):124-128. 被引量：8
9于伸庭,刘萍.基于长短期记忆网络-卷积神经网络(LSTM-CNN)的北京市PM2.5浓度预测[J].环境工程,2020,38(6):176-180. 被引量：15
10李志欣,魏海洋,黄飞成,张灿龙,马慧芳,史忠植.结合视觉特征和场景语义的图像描述生成[J].计算机学报,2020,43(9):1624-1640. 被引量：26

引证文献12

1张炫,刘茂福,邱晨,胡慧君.基于图文双向引导注意力的新闻图集描述生成方法[J].武汉大学学报（理学版）,2023,69(2):223-232.
2宋井宽,曾鹏鹏,顾嘉扬,朱晋宽,高联丽.基于视觉区域聚合与双向协作的端到端图像描述生成[J].软件学报,2023,34(5):2152-2169. 被引量：6
3彭姣丽.基于深度学习的自动生成图像描述技术研究[J].中国新技术新产品,2023(7):12-14.
4魏钰琦,李宁.用于图文检索的跨模态信息交互推理网络[J].计算机工程与应用,2023,59(16):115-124. 被引量：2
5朱志平,杨燕,王杰.基于场景图感知的跨模态图像描述模型[J].计算机应用,2024,44(1):58-64.
6廖忠剑,文兴林,刘艳平,邓星星,范存庚,雷剑.512层螺旋CT薄层扫描结合计算机人工神经网络对小肠病变的诊断价值研究[J].医学理论与实践,2024,37(9):1458-1461.
7刘兵,李穗,刘明明,刘浩.基于全局与序列混合变分Transformer的多样化图像描述生成方法[J].电子学报,2024,52(4):1305-1314. 被引量：3
8李永杰,钱艺,文益民.基于外部先验和自先验注意力的图像描述生成方法[J].计算机科学,2024,51(7):214-220.
9刘明明,刘浩,王栋,张海燕.基于全局与序列变分自编码的图像描述生成[J].计算机应用研究,2024,41(7):2215-2220.
10白雪冰,车进,吴金蔓,陈玉敏.基于Transformer视觉特征融合的图像描述方法[J].计算机工程,2024,50(8):229-238.

二级引证文献11

1刘兵,李穗,刘明明,刘浩.基于全局与序列混合变分Transformer的多样化图像描述生成方法[J].电子学报,2024,52(4):1305-1314. 被引量：3
2刘明明,刘浩,王栋,张海燕.基于全局与序列变分自编码的图像描述生成[J].计算机应用研究,2024,41(7):2215-2220.
3张振兴,王亚雄.图文跨模态检索研究综述[J].北京交通大学学报,2024,48(2):23-36.
4白雪冰,车进,吴金蔓,陈玉敏.基于Transformer视觉特征融合的图像描述方法[J].计算机工程,2024,50(8):229-238.
5刘兵,李穗,刘明明,刘浩.基于条件变分推断与内省对抗学习的多样化图像描述生成[J].电子学报,2024,52(7):2219-2227.
6张力,陈康,孙光辉.实值无标签图文跨模态检索研究综述[J].哈尔滨工业大学学报,2024,56(9):1-16.
7刘明明,刘兵,刘浩,张海燕.融合序列变分Transformer与对比学习的多样化图像描述生成[J].计算机工程与应用,2024,60(21):164-171.
8杨赟辉,程虎,魏敬和,刘国柱,桑贤侦.面向Transformer模型边缘端部署的常用激活函数高精度轻量级量化推理方法[J].电子学报,2024,52(10):3301-3311.
9邵志文,陈必宽,祝汉城,周勇,姚睿,马利庄.基于因果干预的无偏面部动作单元识别[J].电子学报,2024,52(10):3312-3321.
10刘明明,陆劲夫,刘浩,张海燕.全景分割与多视觉特征协同的图像描述生成方法[J].计算机工程,2024,50(11):308-317.

1刘昊,杨小汕,徐常胜.基于动态语义记忆网络的长尾图像描述生成[J].北京航空航天大学学报,2022,48(8):1399-1408. 被引量：1
2谢州益,冯亚枝,胡彦蓉,刘洪久.基于ResNet18特征编码器的水稻病虫害图像描述生成[J].农业工程学报,2022,38(12):197-206. 被引量：11
3陈玮婧,王维莹,金琴.文本信息辅助图像差异描述生成[J].北京航空航天大学学报,2022,48(8):1436-1444.
4李浩,谭一帆,蒲云.基于残余模态力的装备悬臂梁结构损伤诊断[J].兵工自动化,2022,41(9):76-79.
5刘卉,秦兆祥,张薇.国内外旅游眼动研究述评[J].旅游研究,2022,14(5):44-57.
6余芳.中小学美术课堂开展篆刻特色教学的思考[J].美术教育研究,2022(14):173-175. 被引量：2

软件学报

2022年第9期

浏览历史

内容加载中请稍等...

基于视觉关联与上下文双注意力的图像描述生成方法被引量：12

参考文献1

共引文献25

同被引文献36

引证文献12

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于视觉关联与上下文双注意力的图像描述生成方法 被引量：12

参考文献1

共引文献25

同被引文献36

引证文献12

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于视觉关联与上下文双注意力的图像描述生成方法被引量：12