-
题名动态视音场景下问答模型研究
- 1
-
-
作者
段毛毛
连培榆
史海涛
-
机构
中国石油大学(北京)克拉玛依校区石油学院
-
出处
《计算机技术与发展》
2024年第3期163-169,共7页
-
基金
克拉玛依市创新人才专项(XQZX20220047)。
-
文摘
现实世界由大量不同模态内容构建而成,各种模态的信息相互关联和互补,充分挖掘不同模态之间的关系和特性能够有效弥补单一模态信息的局限性。动态视音场景下的问答模型研究,旨在通过视频中多模态信息回答不同视觉物体、声音及其相互联系的问题,使人工智能获得场景感知和时空推理能力。针对视音问答不准确的问题,提出了一种空间时序问答模型,该模型通过空间融合建模和时序融合建模对多模态特征进行融合,从而提高问答准确率。首先,分别使用Resnet_18,VGGish和Bi-LST对音频、视频和文字进行特征提取;其次,根据声音和视频的关系,在特征融合时对声音和视频两种模态进行早期的空间融合,并使用联合注意力机制在相互辅助学习后进行特征融合,增强特征互补性;最后,在特征融合后添加注意力机制以增强融合特征与文字的相关性。基于MUSIC-AVQA数据集的实验准确率达73.49%,实现了场景感知和时空推理能力的提升。
-
关键词
视音问答
多模态融合
联合注意力机制
Bi-LSTM
music-avqa
-
Keywords
audio-visual question and answer
multimodal fusion
joint attention mechanism
Bi-directional Long Short-Term Memory
music-avqa
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-