期刊文献+
共找到332篇文章
< 1 2 17 >
每页显示 20 50 100
基于场景图感知的跨模态图像描述模型
1
作者 朱志平 杨燕 王杰 《计算机应用》 CSCD 北大核心 2024年第1期58-64,共7页
针对图像描述方法中对图像文本信息的遗忘及利用不充分问题,提出了基于场景图感知的跨模态交互网络(SGC-Net)。首先,使用场景图作为图像的视觉特征并使用图卷积网络(GCN)进行特征融合,从而使图像的视觉特征和文本特征位于同一特征空间;... 针对图像描述方法中对图像文本信息的遗忘及利用不充分问题,提出了基于场景图感知的跨模态交互网络(SGC-Net)。首先,使用场景图作为图像的视觉特征并使用图卷积网络(GCN)进行特征融合,从而使图像的视觉特征和文本特征位于同一特征空间;其次,保存模型生成的文本序列,并添加对应的位置信息作为图像的文本特征,以解决单层长短期记忆(LSTM)网络导致的文本特征丢失的问题;最后,使用自注意力机制提取出重要的图像信息和文本信息后并对它们进行融合,以解决对图像信息过分依赖以及对文本信息利用不足的问题。在Flickr30K和MSCOCO(MicroSoft Common Objects in COntext)数据集上进行实验的结果表明,与Sub-GC相比,SGC-Net在BLEU1(BiLingual Evaluation Understudy with 1-gram)、BLEU4(BiLingual Evaluation Understudy with 4-grams)、METEOR(Metric for Evaluation of Translation with Explicit ORdering)、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)和SPICE(Semantic Propositional Image Caption Evaluation)指标上分别提升了1.1、0.9、0.3、0.7、0.4和0.3、0.1、0.3、0.5、0.6。可见,SGC-Net所使用的方法能够有效提升模型的图像描述性能及生成描述的流畅度。 展开更多
关键词 图像描述 场景图 注意力机制 长短期记忆网络 特征融合
下载PDF
基于差异化和空间约束的自动图像描述模型
2
作者 姜文晖 陈志亮 +2 位作者 程一波 方玉明 左一帆 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期456-465,共10页
多头注意力机制是图像描述模型的常用方法,该机制通过多分支结构构建关于输入特征的独特属性,以提高特征模型的区分性。然而,不同分支的独立性导致建模存在冗余性。同时,注意力机制会关注于不重要的图像区域,导致描述的文本不够准确。... 多头注意力机制是图像描述模型的常用方法,该机制通过多分支结构构建关于输入特征的独特属性,以提高特征模型的区分性。然而,不同分支的独立性导致建模存在冗余性。同时,注意力机制会关注于不重要的图像区域,导致描述的文本不够准确。针对上述问题,提出一种损失函数作为训练目标的正则化项,以提高多头注意力机制的多样性和准确性。在多样性方面,提出一种多头注意力的差异化正则,鼓励多头注意力机制的不同分支关注于所描述目标的不同部件,使不同分支的建模目标变得简单。同时,不同分支相互融合,最后形成完整且更有区分性的视觉描述。在准确性方面,设计一种空间一致性正则。通过建模多头注意力机制的空间关联,鼓励注意力机制关注的图像区域尽可能集中,从而抑制背景区域的影响,提高注意力机制的准确性。提出差异化正则和空间一致性正则共同作用的方法,最终提升自动图像描述模型的准确性。所提方法在MS COCO数据集上对模型进行验证,并与多种代表性工作进行对比。实验结果表明:所提方法显著地提高了图像描述的准确性。 展开更多
关键词 多头注意力机制 图像描述 差异性 空间约束 模态融合
原文传递
基于解耦常识性关联的图像描述生成算法
3
作者 刘家伟 林欣 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期131-142,共12页
基于解耦常识性关联的图像描述生成算法旨在排除各类实体间常识性关联对模型推理的干扰,提高描述生成的流畅性与准确性.针对当前图像描述生成中存在的符合常识但与图像内容不相符的关系语句,该算法先通过一种新颖的训练方式加强关系检... 基于解耦常识性关联的图像描述生成算法旨在排除各类实体间常识性关联对模型推理的干扰,提高描述生成的流畅性与准确性.针对当前图像描述生成中存在的符合常识但与图像内容不相符的关系语句,该算法先通过一种新颖的训练方式加强关系检测模型对图像中真实关系的关注程度,提高关系推理的准确性.再通过一种关系感知的实体交互方法,对存在关系的实体进行有针对性的信息交互,对关系信息进行强化.实验表明,该算法能够纠正一些常识性的虚假关系,生成较为准确的图像描述,并在各项评价指标上获得了较好的实验结果. 展开更多
关键词 图像描述生成 解耦常识性关联 注意力机制
下载PDF
基于图像描述的跨媒体艺术作品智能推荐应用研究
4
作者 刘斌 于晓东 《芜湖职业技术学院学报》 2024年第1期30-34,共5页
基于图像描述与跨模态注意力的诗词匹配模型是用来对诗词和图像进行智能匹配的深度学习模型。模型采用视觉算法特征提取输入图片的特征,然后结合采用BERT模型提取的诗词文本的上下文特征,使用跨模态注意力机制结合softmax函数进行诗词匹... 基于图像描述与跨模态注意力的诗词匹配模型是用来对诗词和图像进行智能匹配的深度学习模型。模型采用视觉算法特征提取输入图片的特征,然后结合采用BERT模型提取的诗词文本的上下文特征,使用跨模态注意力机制结合softmax函数进行诗词匹配,以输出与图像匹配度最高的诗词。实验结果表明,相较于其他基线模型,该模型具有更优的性能。 展开更多
关键词 AOA 图像描述 BERT 跨模态注意力机制 多模态融合
下载PDF
基于深度注意力的融合全局和语义特征的图像描述模型
5
作者 及昕浩 彭玉青 《网络安全与数据治理》 2024年第2期49-53,共5页
现有的图像描述模型使用全局特征时受限于感受野大小相同,而基于对象区域的图像特征缺少背景信息。为此,提出了一种新的语义提取模块提取图像中的语义特征,使用多特征融合模块将全局特征与语义特征进行融合,使得模型同时关注图像的关键... 现有的图像描述模型使用全局特征时受限于感受野大小相同,而基于对象区域的图像特征缺少背景信息。为此,提出了一种新的语义提取模块提取图像中的语义特征,使用多特征融合模块将全局特征与语义特征进行融合,使得模型同时关注图像的关键对象内容信息和背景信息。并提出基于深度注意力的解码模块,对齐视觉和文本特征以生成更高质量的图像描述语句。所提模型在Microsoft COCO数据集上进行了实验评估,分析结果表明该方法能够明显提升描述的性能,相较于其他先进模型具有竞争力。 展开更多
关键词 图像描述 全局特征 语义特征 特征融合
下载PDF
融合多重视觉特征与语义信息的图像描述生成 被引量:2
6
作者 傅煦嘉 周家乐 +1 位作者 王慧锋 颜秉勇 《计算机工程与设计》 北大核心 2023年第4期1066-1072,共7页
针对图像描述模型中对语义信息考虑不足,循环神经网络收敛速度慢与精度低等问题,提出一种基于多注意力融合的深层图像描述模型。通过对图像中提取到的内容信息以及文本描述信息分配不同的权重,达到提升精度的效果,融合MOGRIFIER网络解... 针对图像描述模型中对语义信息考虑不足,循环神经网络收敛速度慢与精度低等问题,提出一种基于多注意力融合的深层图像描述模型。通过对图像中提取到的内容信息以及文本描述信息分配不同的权重,达到提升精度的效果,融合MOGRIFIER网络解决循环神经网络收敛速度缓慢的问题。使用改进模型与传统模型在数据集MSCOCO上进行对比实验,实验结果表明,该方法能够生成更加准确的描述,在BLEU与CIDEr等关键指标上有明显提升。 展开更多
关键词 图像描述 多注意力融合 语义信息 深层图像描述模型 MOGRIFIER网络 收敛速度 精度
下载PDF
基于Transformer的多方面特征编码图像描述生成算法 被引量:1
7
作者 衡红军 范昱辰 王家亮 《计算机工程》 CAS CSCD 北大核心 2023年第2期199-205,共7页
由目标检测算法提取的目标特征在图像描述生成任务中发挥重要作用,但仅使用对图像进行目标检测的特征作为图像描述任务的输入会导致除关键目标信息以外的其余信息获取缺失,且生成的文本描述对图像内目标之间的关系缺乏准确表达。针对上... 由目标检测算法提取的目标特征在图像描述生成任务中发挥重要作用,但仅使用对图像进行目标检测的特征作为图像描述任务的输入会导致除关键目标信息以外的其余信息获取缺失,且生成的文本描述对图像内目标之间的关系缺乏准确表达。针对上述不足,提出用于编码图像内目标特征的目标Transformer编码器,以及用于编码图像内关系特征的转换窗口Transformer编码器,从不同角度对图像内不同方面的信息进行联合编码。通过拼接方法将目标Transformer编码的目标特征与转换窗口Transformer编码的关系特征相融合,达到图像内部关系特征和局部目标特征融合的目的,最终使用Transformer解码器将融合后的编码特征解码生成对应的图像描述。在MS-COCO数据集上进行实验,结果表明,所构建模型性能明显优于基线模型,BLEU-4、METEOR、ROUGE-L、CIDEr指标分别达到38.6%、28.7%、58.2%和127.4%,优于传统图像描述网络模型,能够生成更详细准确的图像描述。 展开更多
关键词 图像描述 转换窗口 多头注意力机制 多模态任务 Transformer编码器
下载PDF
基于依存句法的可解释图像描述生成
8
作者 刘茂福 毕健旗 +1 位作者 周冰颖 胡慧君 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期2115-2126,共12页
已有图像描述生成模型虽可以检测与表示图像目标实体及其视觉关系,但没有从文本句法关系角度关注模型的可解释性.因而,提出基于依存句法三元组的可解释图像描述生成模型(interpretable image caption generation based on dependency sy... 已有图像描述生成模型虽可以检测与表示图像目标实体及其视觉关系,但没有从文本句法关系角度关注模型的可解释性.因而,提出基于依存句法三元组的可解释图像描述生成模型(interpretable image caption generation based on dependency syntax triplets modeling,IDSTM),以多任务学习的方式生成依存句法三元组序列和图像描述.IDSTM模型首先通过依存句法编码器从输入图像获得潜在的依存句法特征,并与依存句法三元组及文本词嵌入向量合并输入单层长短期记忆网络(long short-term memory,LSTM),生成依存句法三元组序列作为先验知识;接着,将依存句法特征输入到图像描述编码器中,提取视觉实体词特征;最后,采用硬限制和软限制2种机制,将依存句法和关系特征融合到双层LSTM,从而生成图像描述.通过依存句法三元组序列生成任务,IDSTM在未显著降低生成的图像描述精确度的前提下,提高了其可解释性.还提出了评测依存句法三元组序列生成质量的评价指标B1-DS(BLEU-1-DS),B4-DS(BLEU-4-DS),M-DS(METEOR-DS),并在MSCOCO数据集上的实验验证了IDSTM的有效性和可解释性. 展开更多
关键词 图像描述生成 依存句法 可解释性 多任务学习
下载PDF
基于Se-ResNet50特征编码器的公共环境图像描述生成 被引量:2
9
作者 唐渔 何志琴 +2 位作者 周宇辉 吴钦木 王霄 《计算机应用研究》 CSCD 北大核心 2023年第6期1864-1869,共6页
针对传统公共环境图像描述模型中编码器—解码器结构在编码过程中特征提取能力不足以及解码过程中上下文信息丢失严重的问题,提出了一种基于Se-ResNet50与M-LSTM的公共环境图像描述模型。将SeNet模块添加到ResNet-50的残差路径中得到改... 针对传统公共环境图像描述模型中编码器—解码器结构在编码过程中特征提取能力不足以及解码过程中上下文信息丢失严重的问题,提出了一种基于Se-ResNet50与M-LSTM的公共环境图像描述模型。将SeNet模块添加到ResNet-50的残差路径中得到改进残差网络提取图像特征,SeNet对特征的各个部分赋予权重生成不同的注意力特征图,再融合文本特征向量输入具有额外门控运算的改进长短期记忆网络(M-LSTM)训练。模型训练结束后,输入公共环境图像就能得到描述图像内容的自然语句。该模型在多种数据集上进行了评估,实验结果表明,提出的模型在MSCOCO数据集上相较传统模型,在BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、CIDEr等评价指标上分别提高了3.2%、2.1%、1.7%、1.7%、1.3%、8.2%,证明了提出的方法在评价指标、语义多样性上具有一定的优越性。 展开更多
关键词 公共环境图像描述 SeNet ResNet-50 长短期记忆网络
下载PDF
基于语义分割的全卷积图像描述模型 被引量:2
10
作者 李永生 颜秉勇 周家乐 《计算机工程与设计》 北大核心 2023年第1期210-217,共8页
为快速生成准确描述图片内容的语句,提出语义分割和卷积神经网络(convolutional neural network,CNN)相结合的图像描述方法。将图像分类模型和语义分割模型结合为编码器,增强对图像语义信息的利用,采用CNN代替长短时记忆网络(long short... 为快速生成准确描述图片内容的语句,提出语义分割和卷积神经网络(convolutional neural network,CNN)相结合的图像描述方法。将图像分类模型和语义分割模型结合为编码器,增强对图像语义信息的利用,采用CNN代替长短时记忆网络(long short term memory,LSTM)作为解码器生成完整描述性语句。通过在MSCOCO数据集上与5种主流算法的对比实验可知,以CNN作为解码器能够大幅提高解码速度,语义信息的增强能够有效提高实验精度,验证了该方法的有效性和可行性。 展开更多
关键词 图像描述 语义分割 卷积神经网络 编码器 语义信息 长短时记忆网络 解码速度
下载PDF
基于多模态特征融合的图像描述算法研究 被引量:2
11
作者 杨晨露 万旺根 +2 位作者 张振 孙学涛 王旭智 《工业控制计算机》 2023年第1期87-88,91,共3页
针对图像描述任务,传统算法更加关注图像中的视觉物体,而忽略了文本信息对其描述也起到了不可或缺的作用。为增强对图像中文本信息的提取,提出了一种基于多模态特征融合的图像描述算法。在视觉特征提取的基础上,增加文本识别和检测算法... 针对图像描述任务,传统算法更加关注图像中的视觉物体,而忽略了文本信息对其描述也起到了不可或缺的作用。为增强对图像中文本信息的提取,提出了一种基于多模态特征融合的图像描述算法。在视觉特征提取的基础上,增加文本识别和检测算法,并使用多模态Transformer来融合两种模态。在解码阶段,采用中心图作为指导模块,使用动态指针网络实现迭代解码,使模型生成更加丰富的自然描述语句。最后在Textcaps数据集上的实验结果表明,该方法可以有效提高文本区域中OCR令牌的提取精度。 展开更多
关键词 图像描述 自然语言处理 文本检测 TRANSFORMER
下载PDF
基于图像描述的实验室气瓶危险场景辨识方法
12
作者 傅煦嘉 周家乐 +2 位作者 顾震 颜秉勇 王慧锋 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第3期410-418,共9页
针对实验室气瓶场景提出了一种结合目标检测与文本检测识别的图像描述生成方法,用于辨识气瓶场景中的潜在危险信息,并以文本形式警示监控人员。该方法首先提取场景物体的特征与瓶身上文字的特征,而后将特征映射入多模态嵌入空间,接着使... 针对实验室气瓶场景提出了一种结合目标检测与文本检测识别的图像描述生成方法,用于辨识气瓶场景中的潜在危险信息,并以文本形式警示监控人员。该方法首先提取场景物体的特征与瓶身上文字的特征,而后将特征映射入多模态嵌入空间,接着使用Transformer模型生成描述结果,最后根据描述语句判断场景是否危险。实验结果表明,通过本方法生成的描述语句可以有效辨识出实验室气瓶场景中的危险物品与危险原因。 展开更多
关键词 气瓶监管 危险辨识 图像描述 多模态嵌入空间 Transformer模型
下载PDF
基于图注意力网络的全局图像描述生成方法
13
作者 隋佳宏 毛莺池 +2 位作者 于慧敏 王子成 平萍 《计算机应用》 CSCD 北大核心 2023年第5期1409-1415,共7页
现有图像描述生成方法仅考虑网格的空间位置特征,网格特征交互不足,并且未充分利用图像的全局特征。为生成更高质量的图像描述,提出一种基于图注意力网络(GAT)的全局图像描述生成方法。首先,利用多层卷积神经网络(CNN)进行视觉编码,提... 现有图像描述生成方法仅考虑网格的空间位置特征,网格特征交互不足,并且未充分利用图像的全局特征。为生成更高质量的图像描述,提出一种基于图注意力网络(GAT)的全局图像描述生成方法。首先,利用多层卷积神经网络(CNN)进行视觉编码,提取给定图像的网格特征和整幅图像特征,并构建网格特征交互图;然后,通过GAT将特征提取问题转化成节点分类问题,包括一个全局节点和多个局部节点,更新优化后可以充分利用全局和局部特征;最后,基于Transformer的解码模块利用改进的视觉特征生成图像描述。在Microsoft COCO数据集上的实验结果表明,所提方法能有效捕捉图像的全局和局部特征,在CIDEr(Consensus-based Image Description Evaluation)指标上达到了133.1%。可见基于GAT的全局图像描述生成方法能有效提高文字描述图像的准确度,从而可以使用文字对图像进行分类、检索、分析等处理。 展开更多
关键词 网格特征 图注意力网络 卷积神经网络 图像描述生成 全局特征
下载PDF
基于融合注意力的交通图像描述方法研究
14
作者 郭宙鑫 王海涌 《兰州交通大学学报》 CAS 2023年第1期71-78,共8页
针对交通监测图像易受到光线变化、天气、路况等因素的影响而出现描述不精确的问题,提出一种基于融合注意力的交通图像描述方法,旨在生成准确描述语句的同时,提升模型对交通名词的描述效果.在模型的生成器中使用残差网络和门控循环单元... 针对交通监测图像易受到光线变化、天气、路况等因素的影响而出现描述不精确的问题,提出一种基于融合注意力的交通图像描述方法,旨在生成准确描述语句的同时,提升模型对交通名词的描述效果.在模型的生成器中使用残差网络和门控循环单元生成交通图像端对端的描述语句,同时,在生成器和鉴别器中均采用包含局部信息和全局信息的融合注意力机制,以进一步提高特征表示和推理能力.在公共数据集MSCOCO和交通图像数据集上的实验结果表明:相比于其他主流方法,所提出的算法生成的交通图像描述语句更加准确自然. 展开更多
关键词 生成对抗网络 融合注意力机制 交通图像描述 门控循环单元
下载PDF
基于Bert词向量与有序记忆网络的图像描述
15
作者 俞艺文 施水才 王洪俊 《软件导刊》 2023年第3期125-133,共9页
目前,基于编码器—解码器框架图像描述模型在编码阶段未考虑同一个单词在不同语句中的差异,在解码阶段未考虑语言序列的层级结构。为解决该问题,基于深度学习对图像描述进行研究,充分利用图像的视觉特征与参考语句的文本信息,设计了基于... 目前,基于编码器—解码器框架图像描述模型在编码阶段未考虑同一个单词在不同语句中的差异,在解码阶段未考虑语言序列的层级结构。为解决该问题,基于深度学习对图像描述进行研究,充分利用图像的视觉特征与参考语句的文本信息,设计了基于Bert词向量和有序记忆网络的图像描述模型。该模型采用编码器—解码器框架,编码器负责获取图像和参考文本的信息,解码器负责输出预测的文本。编码器利用Inception-v4网络与通道注意力和空间注意力机制(CBAM)相结合的方式获取图像特征,利用Bert模型对参考文本进行向量化获取参考文本的信息。将获取到的视觉特征和文本信息输入到解码器中,使用具有良好决策能力的策略网络与价值网络为解码器提供指导,通过与自适应注意力相结合的有序记忆网络(ON-LSTM)生成最终的图像描述语句。该模型在MS COCO Caption2014数据集中相对于基础模型在BLEU-1、BLEU-4、CIDEr和Meteor上分别提高了0.7%、1.1%、0.6%和0.7%,是一种有效的图像描述模型。 展开更多
关键词 Bert 有序记忆网络 图像描述 深度学习
下载PDF
基于视觉区域聚合与双向协作的端到端图像描述生成
16
作者 宋井宽 曾鹏鹏 +2 位作者 顾嘉扬 朱晋宽 高联丽 《软件学报》 EI CSCD 北大核心 2023年第5期2152-2169,共18页
近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征... 近几年,基于Transformer的预训练模型展现了强大的模态表征能力,促使了多模态的下游任务(如图像描述生成任务)正朝着完全端到端范式的趋势所转变,并且能够使得模型获得更好的性能以及更快的推理速度.然而,该技术所提取的网格型视觉特征中缺乏区域型的视觉信息,从而导致模型对对象内容的描述不精确.因此,预训练模型在图像描述生成任务上的适用性在很大程度上仍有待探索.针对这一问题,提出一种基于视觉区域聚合与双向协作学习的端到端图像描述生成方法(visual region aggregation and dual-level collaboration,VRADC).为了学习到区域型的视觉信息,设计了一种视觉区域聚合模块,将有相似语义的网格特征聚合在一起形成紧凑的视觉区域表征.接着,双向协作模块利用交叉注意力机制从两种视觉特征中学习到更加有代表性的语义信息,进而指导模型生成更加细粒度的图像描述文本.基于MSCOCO和Flickr30k两个数据集的实验结果表明,所提的VRADC方法能够大幅度地提升图像描述生成的质量,实现了最先进的性能. 展开更多
关键词 图像描述 端到端训练 预训练模型 视觉区域聚合 双向协作
下载PDF
基于空间关联性注意力的图像描述生成方法
17
作者 张红良 李广明 《计算机应用研究》 CSCD 北大核心 2023年第4期1275-1280,共6页
图像中物体间的关联性能够有效提升图像描述的效果,但是直接使用全局特征表示物体间的关系无法准确捕获图像的关联性特征。为准确捕获图像的关联性特征以提高描述的准确性,提出了一种基于空间关联性的图像描述生成方法。该方法使用Faste... 图像中物体间的关联性能够有效提升图像描述的效果,但是直接使用全局特征表示物体间的关系无法准确捕获图像的关联性特征。为准确捕获图像的关联性特征以提高描述的准确性,提出了一种基于空间关联性的图像描述生成方法。该方法使用Faster R-CNN提取图像的视觉特征和物体的空间位置信息,再将视觉特征与空间位置信息在高维空间融合后指导Transformer捕获图像的关联性特征;最后将视觉特征和关联性特征分别作为视觉注意力和空间关联性注意力的高层语义输入指导单词序列的生成。使用COCO数据集进行实验验证,在BLEU_4和CIDEr上分别得分38.1%和124.8%,相较于基线模型提升了1.8%和4.7%,证明了该方法的可行性。 展开更多
关键词 图像描述 空间位置信息 关联性特征 空间关联性注意力 TRANSFORMER
下载PDF
同步融合视觉与语义信息的图像描述模型
18
作者 彭玉青 裴一心 +1 位作者 王晨曦 贾亚敏 《计算机工程与设计》 北大核心 2023年第3期807-814,共8页
针对现有图像描述方法将视觉和语义信息单独处理、缺乏结构化信息和忽略全局信息的问题,提出一种同步融合视觉与语义信息的图像描述模型(SG-sMLSTM)。通过融合图像全局特征和候选区域的多模态特征增强和细化图像视觉信息,基于场景图实... 针对现有图像描述方法将视觉和语义信息单独处理、缺乏结构化信息和忽略全局信息的问题,提出一种同步融合视觉与语义信息的图像描述模型(SG-sMLSTM)。通过融合图像全局特征和候选区域的多模态特征增强和细化图像视觉信息,基于场景图实现结构化语义信息编码;解码部分设计sMLSTM结构,利用注意机制同步动态融合视觉和语义信息,使模型在每个时间步接收更全面的信息,自适应选择关注更关键的区域。基于MSCOCO数据集的实验结果表明,该模型能够产生更准确的描述语句,在评价指标得分上与基线方法相比有约3%的提升。 展开更多
关键词 图像描述 场景图 多模态 视觉信息 语义信息 注意机制 同步融合
下载PDF
基于深度学习的图像描述优化策略
19
作者 周子懿 熊海灵 《计算机科学》 CSCD 北大核心 2023年第8期99-110,共12页
图像描述旨在用语法正确的自然语句描述图像内容,自动地生成文本。图像描述涉及计算机视觉与自然语言处理,是多模态领域的经典任务。近年来,大量的研究开始关注图像描述这类联合了视觉和语言的多模态任务,并取得了许多突破性成果。目前... 图像描述旨在用语法正确的自然语句描述图像内容,自动地生成文本。图像描述涉及计算机视觉与自然语言处理,是多模态领域的经典任务。近年来,大量的研究开始关注图像描述这类联合了视觉和语言的多模态任务,并取得了许多突破性成果。目前已有的关于图像描述的综述大多以技术为核心,从分类的角度来进行分析。考虑到基于深度学习的图像描述已成为当前的主流研究方法,而且其实质就是一种图像到序列的问题,因此,文中以视觉输入子任务和语言输出子任务为主题,以优化策略为核心,对比分析这两项子任务的优化逻辑与技术发展趋势;同时就图像描述的现有挑战与任务变体等关键共性问题进行讨论,最后期望进一步厘清基于深度学习图像描述的优化策略与发展方向。 展开更多
关键词 图像描述 深度学习 计算机视觉 自然语言处理
下载PDF
图像描述技术方法研究
20
作者 陈耀传 奚雪峰 +1 位作者 崔志明 盛胜利 《计算机技术与发展》 2023年第4期9-17,共9页
图像描述是人工智能领域中的多模态研究任务,融合了计算机视觉技术与自然语言处理技术,在人机交互和智能家居等领域具有广泛的应用。然而图像与文本之间存在较大的语义鸿沟,生成语义丰富的图像描述是一项具有挑战性的任务。文章旨在对... 图像描述是人工智能领域中的多模态研究任务,融合了计算机视觉技术与自然语言处理技术,在人机交互和智能家居等领域具有广泛的应用。然而图像与文本之间存在较大的语义鸿沟,生成语义丰富的图像描述是一项具有挑战性的任务。文章旨在对图像描述技术进行总结研究,首先,文章简要地概述了图像描述任务的定义和发展历程。其次,文章分析了图像描述任务发展过程中出现的经典方法与模型,包括模板填充的方法、检索的方法和深度学习的方法;其中,基于深度学习的方法有:基于注意力机制的方法、基于对抗生成网络的方法和基于强化学习的方法,并对这些基于深度学习的图像描述方法在不同数据集上的实验结果进行了比较分析。另外,文章介绍了图像描述任务的相关数据集和评价指标。最后,文章展望了图像描述任务的未来工作。 展开更多
关键词 图像描述 图像处理 文本生成 机器学习 多模态任务
下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部