-
题名基于模态语义增强的跨模态食谱检索方法
- 1
-
-
作者
李明
周栋
雷芳
曹步清
-
机构
湖南科技大学计算机科学与工程学院
广东外语外贸大学信息科学与技术学院
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第4期1131-1137,共7页
-
基金
国家自然科学基金资助项目(62376062)
广东省哲学社会科学“十四五”规划项目(GD23CTS03)
+2 种基金
广东省自然科学基金资助项目(2023A1515012718)
湖南省自然科学基金资助项目(2022JJ30020)
教育部人文社会科学研究资助项目(23YJAZH220)。
-
文摘
在跨模态食谱检索任务中,如何有效地对模态进行特征表示是一个热点问题。目前一般使用两个独立的神经网络分别获取图像和食谱的特征,通过跨模态对齐实现跨模态检索。但这些方法主要关注模态内的特征信息,忽略了模态间的特征交互,导致部分有效模态信息丢失。针对该问题,提出一种通过多模态编码器来增强模态语义的跨模态食谱检索方法。首先使用预训练模型提取图像和食谱的初始语义特征,并借助对抗损失缩小模态间差异;然后利用成对跨模态注意力使来自一个模态的特征反复强化另一个模态的特征,进一步提取有效信息;接着采用自注意力机制对模态的内部特征进行建模,以捕捉丰富的模态特定语义信息和潜在关联知识;最后,引入三元组损失最小化同类样本间的距离,实现跨模态检索学习。在Recipe 1M数据集上的实验结果表明,该方法在中位数排名(MedR)和前K召回率(R@K)等方面均优于目前的主流方法,为跨模态检索任务提供了有力的解决方案。
-
关键词
跨模态食谱检索
特征提取
模态语义增强
多模态编码器
-
Keywords
cross-modal recipe retrieval
feature extraction
modality semantic enhancement
multimodal encoder
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-