期刊文献+
共找到168篇文章
< 1 2 9 >
每页显示 20 50 100
A Dual Discriminator Method for Generalized Zero-Shot Learning
1
作者 Tianshu Wei Jinjie Huang 《Computers, Materials & Continua》 SCIE EI 2024年第4期1599-1612,共14页
Zero-shot learning enables the recognition of new class samples by migrating models learned from semanticfeatures and existing sample features to things that have never been seen before. The problems of consistencyof ... Zero-shot learning enables the recognition of new class samples by migrating models learned from semanticfeatures and existing sample features to things that have never been seen before. The problems of consistencyof different types of features and domain shift problems are two of the critical issues in zero-shot learning. Toaddress both of these issues, this paper proposes a new modeling structure. The traditional approach mappedsemantic features and visual features into the same feature space;based on this, a dual discriminator approachis used in the proposed model. This dual discriminator approach can further enhance the consistency betweensemantic and visual features. At the same time, this approach can also align unseen class semantic features andtraining set samples, providing a portion of information about the unseen classes. In addition, a new feature fusionmethod is proposed in the model. This method is equivalent to adding perturbation to the seen class features,which can reduce the degree to which the classification results in the model are biased towards the seen classes.At the same time, this feature fusion method can provide part of the information of the unseen classes, improvingits classification accuracy in generalized zero-shot learning and reducing domain bias. The proposed method isvalidated and compared with othermethods on four datasets, and fromthe experimental results, it can be seen thatthe method proposed in this paper achieves promising results. 展开更多
关键词 Generalized zero-shot learning modality consistent DISCRIMINATOR domain shift problem feature fusion
下载PDF
A Novel Siamese Network for Few/Zero-Shot Handwritten Character Recognition Tasks
2
作者 Nagwa Elaraby Sherif Barakat Amira Rezk 《Computers, Materials & Continua》 SCIE EI 2023年第1期1837-1854,共18页
Deep metric learning is one of the recommended methods for the challenge of supporting few/zero-shot learning by deep networks.It depends on building a Siamese architecture of two homogeneous Convolutional Neural Netw... Deep metric learning is one of the recommended methods for the challenge of supporting few/zero-shot learning by deep networks.It depends on building a Siamese architecture of two homogeneous Convolutional Neural Networks(CNNs)for learning a distance function that can map input data from the input space to the feature space.Instead of determining the class of each sample,the Siamese architecture deals with the existence of a few training samples by deciding if the samples share the same class identity or not.The traditional structure for the Siamese architecture was built by forming two CNNs from scratch with randomly initialized weights and trained by binary cross-entropy loss.Building two CNNs from scratch is a trial and error and time-consuming phase.In addition,training with binary crossentropy loss sometimes leads to poor margins.In this paper,a novel Siamese network is proposed and applied to few/zero-shot Handwritten Character Recognition(HCR)tasks.The novelties of the proposed network are in.1)Utilizing transfer learning and using the pre-trained AlexNet as a feature extractor in the Siamese architecture.Fine-tuning a pre-trained network is typically faster and easier than building from scratch.2)Training the Siamese architecture with contrastive loss instead of the binary cross-entropy.Contrastive loss helps the network to learn a nonlinear mapping function that enables it to map the extracted features in the vector space with an optimal way.The proposed network is evaluated on the challenging Chars74K datasets by conducting two experiments.One is for testing the proposed network in few-shot learning while the other is for testing it in zero-shot learning.The recognition accuracy of the proposed network reaches to 85.6%and 82%in few-and zero-shot learning respectively.In addition,a comparison between the performance of the proposed Siamese network and the traditional Siamese CNNs is conducted.The comparison results show that the proposed network achieves higher recognition results in less time.The proposed network reduces the training time from days to hours in both experiments. 展开更多
关键词 Handwritten character recognition(HCR) few-shot learning zero-shot learning deep metric learning transfer learning contrastive loss Chars74K datasets
下载PDF
基于反向投影的zero-shot learning目标分类算法研究 被引量:1
3
作者 冯鹏 庹红娅 +2 位作者 乔凌峰 王洁欣 敬忠良 《计算机应用研究》 CSCD 北大核心 2017年第11期3291-3294,共4页
Zero-shot learning(ZSL)是针对没有训练样本的类别进行分类的问题。传统回归方法的核心是将视觉特征投影到语义空间,没有充分利用视觉特征自身包含的样本信息,同时训练计算量大。提出基于反向投影的ZSL目标分类方法,将类别原型投影到... Zero-shot learning(ZSL)是针对没有训练样本的类别进行分类的问题。传统回归方法的核心是将视觉特征投影到语义空间,没有充分利用视觉特征自身包含的样本信息,同时训练计算量大。提出基于反向投影的ZSL目标分类方法,将类别原型投影到视觉空间,利用视觉特征的语义性学习出映射函数,参数优化过程仅通过解析解就可以获得。在两个基准数据集的实验结果表明,提出的反向投影方法分类结果较传统回归方法和其他现有方法有大幅提升,并且训练时间大大减少,可以更好地推广到未知类别的分类问题上。 展开更多
关键词 zero-shot LEARNING 目标分类 反向投影 解析解
下载PDF
Explanatory Multi-Scale Adversarial Semantic Embedding Space Learning for Zero-Shot Recognition
4
作者 Huiting Li 《Open Journal of Applied Sciences》 2022年第3期317-335,共19页
The goal of zero-shot recognition is to classify classes it has never seen before, which needs to build a bridge between seen and unseen classes through semantic embedding space. Therefore, semantic embedding space le... The goal of zero-shot recognition is to classify classes it has never seen before, which needs to build a bridge between seen and unseen classes through semantic embedding space. Therefore, semantic embedding space learning plays an important role in zero-shot recognition. Among existing works, semantic embedding space is mainly taken by user-defined attribute vectors. However, the discriminative information included in the user-defined attribute vector is limited. In this paper, we propose to learn an extra latent attribute space automatically to produce a more generalized and discriminative semantic embedded space. To prevent the bias problem, both user-defined attribute vector and latent attribute space are optimized by adversarial learning with auto-encoders. We also propose to reconstruct semantic patterns produced by explanatory graphs, which can make semantic embedding space more sensitive to usefully semantic information and less sensitive to useless information. The proposed method is evaluated on the AwA2 and CUB dataset. These results show that our proposed method achieves superior performance. 展开更多
关键词 zero-shot Recognition Semantic Embedding Space Adversarial Learning Explanatory Graph
下载PDF
基于视觉-语言预训练模型的零样本迁移学习方法综述
5
作者 孙仁科 许靖昊 +2 位作者 皇甫志宇 李仲年 许新征 《计算机工程》 CAS CSCD 北大核心 2024年第10期1-15,共15页
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模... 近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。 展开更多
关键词 零样本学习 视觉-语言预训练模型 零样本迁移 多模态 计算机视觉
下载PDF
面向域外说话人适应场景的多层级解耦个性化语音合成
6
作者 高盛祥 杨元樟 +3 位作者 王琳钦 莫尚斌 余正涛 董凌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不... 个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 展开更多
关键词 语音合成 零资源 说话人表征 域外说话人 特征解耦
下载PDF
语义增强图像-文本预训练模型的零样本三维模型分类
7
作者 丁博 张立宝 +1 位作者 秦健 何勇军 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第8期3314-3323,共10页
目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法... 目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法。该方法首先将3维模型表示成多视图;然后为了增强零样本学习对未知类别的识别能力,通过视觉语言生成模型获得每张视图及其类别的语义描述性文本,并将其作为视图和类别提示文本之间的语义桥梁,语义描述性文本采用图像字幕和视觉问答两种方式获取;最后微调语义编码器将语义描述性文本具化为类别的语义描述,其拥有丰富的语义信息和较好的可解释性,有效减小了视图和类别提示文本的语义鸿沟。实验表明,该文方法在ModelNet10和ModelNet40数据集上的分类性能优于现有的零样本分类方法。 展开更多
关键词 3维模型分类 零样本 基于对比学习的图像-文本预训练模型 语义描述性文本
下载PDF
基于语义-视觉一致性约束的零样本图像语义分割网络
8
作者 陈琼 冯媛 +1 位作者 李志群 杨咏 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第10期41-50,共10页
零样本图像语义分割是零样本学习在视觉领域的重要任务之一,旨在分割训练中未见的新类别。目前基于像素级视觉特征生成的方法合成的视觉特征分布和真实的视觉特征分布存在不一致性的问题,合成的视觉特征难以准确反映类语义信息,导致合... 零样本图像语义分割是零样本学习在视觉领域的重要任务之一,旨在分割训练中未见的新类别。目前基于像素级视觉特征生成的方法合成的视觉特征分布和真实的视觉特征分布存在不一致性的问题,合成的视觉特征难以准确反映类语义信息,导致合成的视觉特征缺乏鉴别性;现有的一些视觉特征生成方法为了得到语义特征所表达的区分性信息,需要消耗巨大的计算资源。为此,文中提出了一种基于语义-视觉一致性约束的零样本图像语义分割网络(SVCCNet)。该网络通过语义-视觉一致性约束模块对语义特征与视觉特征进行相互转换,以提高两者的关联度,减小真实视觉特征与合成视觉特征空间结构的差异性,从而缓解合成视觉特征与真实视觉特征分布不一致的问题。语义-视觉一致性约束模块通过两个相互约束的重建映射,实现了视觉特征与类别语义的对应关系,同时保持了较低的模型复杂度。在PASCAL-VOC及PASCAL-Context数据集上的实验结果表明,SVCCNet的像素准确率、平均准确率、平均交并比、调和交并比均优于比较的主流方法。 展开更多
关键词 语义分割 特征生成 零样本学习 计算机视觉 深度学习
下载PDF
基于包络谱语义构建的零样本滚动轴承复合故障诊断方法
9
作者 甄冬 孙赫明 +3 位作者 冯国金 崔展博 田少宁 孔金震 《振动与冲击》 EI CSCD 北大核心 2024年第14期189-200,283,共13页
深度学习算法在训练集完备的情况下可以实现较高的故障识别率,然而在真实工业场景中,滚动轴承的多种故障可能复合存在,通常难以获取充足的数据用于训练。为解决该问题,提出了一种基于包络谱语义构建的零样本复合故障诊断方法,在训练阶... 深度学习算法在训练集完备的情况下可以实现较高的故障识别率,然而在真实工业场景中,滚动轴承的多种故障可能复合存在,通常难以获取充足的数据用于训练。为解决该问题,提出了一种基于包络谱语义构建的零样本复合故障诊断方法,在训练阶段使用单一故障数据构建了一个语义空间和一个特征空间,然后在识别阶段通过语义空间和特征空间的复合,实现对零样本情况下的复合故障识别。此外,考虑到包络谱能很好地表征滚动轴承故障特征,采用包络谱预处理故障信号以增强轴承故障的特征,并借助信号包络谱的物理含义来构建轴承单一故障和复合故障的语义。试验结果显示,所提模型在复合故障识别上取得了87.83%的准确率,优于对比模型。 展开更多
关键词 滚动轴承 复合故障诊断 零样本 包络谱 语义构建
下载PDF
属性蒸馏的零样本识别方法
10
作者 李厚君 韦柏全 《计算机工程与应用》 CSCD 北大核心 2024年第9期219-227,共9页
零样本识别是计算机视觉领域最具挑战性的任务之一,其关键在于如何从已见类中学到稳定和可迁移的知识。为提高零样本识别的准确率,对零样本识别问题进行了系统研究,并利用知识蒸馏的思想,精心设计了一个简单有效的属性蒸馏分类器。它符... 零样本识别是计算机视觉领域最具挑战性的任务之一,其关键在于如何从已见类中学到稳定和可迁移的知识。为提高零样本识别的准确率,对零样本识别问题进行了系统研究,并利用知识蒸馏的思想,精心设计了一个简单有效的属性蒸馏分类器。它符合人类认识事物的过程,首先从Vision Transformer大模型中获得全面细致的视觉特征,再运用属性概念蒸馏出物体的属性知识,最后迁移到未见类识别任务中。公开数据集上的实验表明,该方法取得了具有竞争力的结果,其识别准确率虽略低于最新的属性引导算法,但优于其他传统方法,而且识别架构简单具有更快的处理速度。同时,研究也指出了减少属性描述的稀疏性,以及增加多视角高清图像,将有利于提高零样本识别方法的准确率。 展开更多
关键词 计算机视觉 零样本识别 知识蒸馏 属性蒸馏
下载PDF
Comparing Fine-Tuning, Zero and Few-Shot Strategies with Large Language Models in Hate Speech Detection in English
11
作者 Ronghao Pan JoséAntonio García-Díaz Rafael Valencia-García 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第9期2849-2868,共20页
Large Language Models(LLMs)are increasingly demonstrating their ability to understand natural language and solve complex tasks,especially through text generation.One of the relevant capabilities is contextual learning... Large Language Models(LLMs)are increasingly demonstrating their ability to understand natural language and solve complex tasks,especially through text generation.One of the relevant capabilities is contextual learning,which involves the ability to receive instructions in natural language or task demonstrations to generate expected outputs for test instances without the need for additional training or gradient updates.In recent years,the popularity of social networking has provided a medium through which some users can engage in offensive and harmful online behavior.In this study,we investigate the ability of different LLMs,ranging from zero-shot and few-shot learning to fine-tuning.Our experiments show that LLMs can identify sexist and hateful online texts using zero-shot and few-shot approaches through information retrieval.Furthermore,it is found that the encoder-decoder model called Zephyr achieves the best results with the fine-tuning approach,scoring 86.811%on the Explainable Detection of Online Sexism(EDOS)test-set and 57.453%on the Multilingual Detection of Hate Speech Against Immigrants and Women in Twitter(HatEval)test-set.Finally,it is confirmed that the evaluated models perform well in hate text detection,as they beat the best result in the HatEval task leaderboard.The error analysis shows that contextual learning had difficulty distinguishing between types of hate speech and figurative language.However,the fine-tuned approach tends to produce many false positives. 展开更多
关键词 Hate speech detection zero-shot few-shot fine-tuning natural language processing
下载PDF
大规模多任务中文理解能力测试
12
作者 曾辉 《电脑知识与技术》 2024年第15期17-20,共4页
中文大模型发展迅速,然而缺乏相应的能力测试。本研究提出了一种评估大模型在中文多任务中准确度的方法,涵盖医疗、法律、心理学和教育等4个领域。通过zero-shot和few-shot两种测试模式,发现即使是参数量最大的模型,其在特定领域任务上... 中文大模型发展迅速,然而缺乏相应的能力测试。本研究提出了一种评估大模型在中文多任务中准确度的方法,涵盖医疗、法律、心理学和教育等4个领域。通过zero-shot和few-shot两种测试模式,发现即使是参数量最大的模型,其在特定领域任务上的准确率也未达到专家水平,尤其是在法律领域。此外,模型在子任务上的表现不均衡,凸显了其在理解和解决不同领域问题的能力上仍有改进空间。研究结果表明,模型的参数量、训练方式和数据质量对其性能有重要影响,未来研究应致力于提高模型在垂直领域任务的准确性。 展开更多
关键词 中文大模型 多任务评测 zero-shot few-shot 垂直领域任务
下载PDF
基于Transformer的零样本食品图像检测
13
作者 宋静茹 闵巍庆 +5 位作者 周鹏飞 饶全瑞 盛国瑞 杨延村 王丽丽 蒋树强 《食品工业科技》 CAS 北大核心 2024年第22期18-26,共9页
食品检测作为食品计算的一项基本任务,能够对输入的食品图像进行定位和识别,在智慧食堂结算和饮食健康管理等食品应用领域发挥着至关重要的作用。然而在实际场景下,食品类别会不断更新,基于固定类别训练的食品检测器很难对未见过的食品... 食品检测作为食品计算的一项基本任务,能够对输入的食品图像进行定位和识别,在智慧食堂结算和饮食健康管理等食品应用领域发挥着至关重要的作用。然而在实际场景下,食品类别会不断更新,基于固定类别训练的食品检测器很难对未见过的食品类别进行精准的检测。为了解决这一问题,本文提出了一种零样本食品图像检测方法。首先,构建了一个基于Transformer的食品基元生成器,其中每个基元都包含与食品类别相关的细粒度属性,根据食品的特性,可以有选择地组装这些基元,以合成未见类特征。其次,为了给未见类的视觉特征更多约束,本文提出了一个视觉特征解纠缠的增强组件,将食品图像的视觉特征分解为语义相关特征和语义不相关特征,以此能更好地将食品类别的语义知识转移到其视觉特征。所提出的方法在ZSFooD和UEC-FOOD256两个食品数据集上进行了大量实验和消融研究,在零样本检测(Zero-Shot Detection,ZSD)设置下,未见类别取得了最优的平均精度,分别达到了4.9%和24.1%,在广义零样本检测(Generalized Zero-Shot Detection,GZSD)的设置下,可见类和未见类的调和平均值(Harmonic Mean,HM)分别达到了5.8%和22.0%,证明了所提出方法的有效性。 展开更多
关键词 食品图像检测 零样本学习 生成式模型 TRANSFORMER 深度学习
下载PDF
增强依存结构表达的零样本跨语言事件论元角色分类
14
作者 张远洋 贡正仙 孔芳 《计算机工程与科学》 CSCD 北大核心 2024年第3期508-517,共10页
事件论元角色分类是事件抽取中的子任务,旨在为事件中的候选论元分配相应的角色。事件语料标注规则复杂、人力耗费大,在很多语言中缺少相关标注文本。零样本跨语言事件论元角色分类可以利用源语言的丰富语料建立模型,然后直接应用于标... 事件论元角色分类是事件抽取中的子任务,旨在为事件中的候选论元分配相应的角色。事件语料标注规则复杂、人力耗费大,在很多语言中缺少相关标注文本。零样本跨语言事件论元角色分类可以利用源语言的丰富语料建立模型,然后直接应用于标注语料匮乏的目标语言端。围绕不同语言的事件文本在依存结构上的表达共性,提出了使用BiGRU网络模块对触发词到候选论元的依存路径信息进行额外编码的方法。本文设计的编码模块能灵活地与当前主流的基于深度学习框架的事件论元角色分类模型相联合。实验结果表明,本文提出的方法能更有效地完成跨语言迁移,提高多个基准模型的分类性能。 展开更多
关键词 零样本跨语言 事件论元角色分类 依存结构 BiGRU 依存路径信息
下载PDF
基于生成对抗网络和视觉-语义对齐的零样本害虫识别方法
15
作者 李天俊 杨信廷 +3 位作者 陈晓 胡焕 周子洁 李文勇 《智慧农业(中英文)》 CSCD 2024年第2期72-84,共13页
[目的/意义]害虫的精准识别对农作物虫害有效防治具有重大意义。然而,当前的害虫图像识别模型都是针对闭集数据构建的模型,难以对训练集中没有出现过的害虫种类(不可见害虫)进行推理,导致在实际应用过程中遇见不可见类别昆虫时误判现象... [目的/意义]害虫的精准识别对农作物虫害有效防治具有重大意义。然而,当前的害虫图像识别模型都是针对闭集数据构建的模型,难以对训练集中没有出现过的害虫种类(不可见害虫)进行推理,导致在实际应用过程中遇见不可见类别昆虫时误判现象尤为严重。[方法]针对这一问题,提出了一种适用零样本学习(Zero-Shot Learning,ZSL)和广义零样本学习(Generalized Zero-Shot Learning,GZSL)范式的害虫图像识别方法VSAWGAN,可以实现对可见(训练集中包含的类别)与不可见害虫种类的辨识。该方法基于生成对抗网络(Genera⁃tive Adversarial Network,GAN)生成伪视觉特征,将零样本害虫识别问题转化为传统监督学习任务,且通过引入对比学习来优化生成器的生成质量,添加视觉-语义对齐模块进一步约束生成器,使其能生成更具判别性的特征。[结果与讨论]在自建的一个适用于零样本学习研究的害虫数据集和几个公开数据集对提出方法进行了评估。其中,在多个公开数据上取得了目前最优结果,相比之前方法最大提升达到2.8%;在自建20类害虫数据集上取得了零样本设置下77.4%的识别精度和广义零样本设置下78.3%的调和精度,相比之前方法分别提升了2.1%和1.2%。[结论]所提方法能有效地将害虫的视觉特征泛化到不可见类,实现害虫的零样本识别,有助于提升害虫识别模型的泛化能力,为农作物新虫害的发现与防治提供帮助。 展开更多
关键词 害虫识别 语义知识 图像特征 生成对抗网络 对比学习 广义零样本学习
下载PDF
面向社会媒体的立场检测研究综述
16
作者 赵小兵 尹召宁 +2 位作者 王子豪 张袁硕 陈波 《计算机应用研究》 CSCD 北大核心 2024年第11期3201-3214,共14页
随着互联网的不断发展,人们广泛使用微博、推特等社交媒体平台,导致每日涌现出巨量的用户生成内容。针对热点/关注话题,分析这些内容背后用户的态度具有重要意义,可以帮助相关人员决策,因此立场检测任务的目标是根据指定的目标和给定的... 随着互联网的不断发展,人们广泛使用微博、推特等社交媒体平台,导致每日涌现出巨量的用户生成内容。针对热点/关注话题,分析这些内容背后用户的态度具有重要意义,可以帮助相关人员决策,因此立场检测任务的目标是根据指定的目标和给定的文本,确定用户对目标的立场(支持/反对/中立)。针对立场检测方面的研究阐述了立场检测任务、应用、相关数据资源和相关方法。在任务方面,除了常规的单/多/跨目标立场检测任务,还梳理了零/少样本立场检测的相关工作;在数据资源方面,对近年来公开的数据资源进行了详细梳理介绍;在方法方面,除了传统机器学习方法、神经网络等方法,还梳理了基于预训练模型的方法。最后对立场检测的发展现状进行了总结阐述,并展望了接下来可能的研究热点。 展开更多
关键词 目标 立场 立场检测 零/少样本立场检测 预训练模型
下载PDF
基于多模态特征频域融合的零样本指称图像分割
17
作者 林浩然 刘春黔 +2 位作者 薛榕融 谢勋伟 雷印杰 《计算机应用研究》 CSCD 北大核心 2024年第5期1562-1568,共7页
为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称图像分割任务。该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特... 为了解决语义分割应用到现实世界的下游任务时无法处理未定义类别的问题,提出了指称图像分割任务。该任务根据自然语言文本的描述找到图像中对应的目标。现有方法大多使用一个跨模态解码器来融合从视觉编码器和语言编码器中独立提取的特征,但是这种方法无法有效利用图像的边缘特征且训练复杂。CLIP(contrastive language-image pre-training)是一个强大的预训练视觉语言跨模态模型,能够有效提取图像与文本特征,因此提出一种在频域融合CLIP编码后的多模态特征方法。首先,使用无监督模型对图像进行粗粒度分割,并提取自然语言文本中的名词用于后续任务;接着利用CLIP的图像编码器与文本编码器分别对图像与文本进行编码;然后使用小波变换分解图像与文本特征,可以充分利用图像的边缘特征与图像内的位置信息在频域进行分解并融合,并在频域分别对图像特征与文本特征进行融合,并将融合后的特征进行反变换;最后将文本特征与图像特征进行逐像素匹配,得到分割结果,并在常用的数据集上进行了测试。实验结果证明,网络在无训练零样本的条件下取得了良好的效果,并且具有较好的鲁棒性与泛化能力。 展开更多
关键词 指称图像分割 CLIP 小波变换 零样本
下载PDF
基于深度学习的高超声速飞行器执行器零样本故障辨识
18
作者 曹芳菲 朱怀石 +1 位作者 杜长坤 路平立 《工程科学学报》 EI CSCD 北大核心 2024年第9期1613-1622,共10页
近年来,基于深度学习的故障诊断已经通过大量数据进行了深入的研究.然而,深度学习技术的巨大成功是基于可以获取大量带标签的训练样本的假设.在实际问题中,经常面临数据不平衡、标记的数据太少或没有数据的情况.基于此,本文研究了高超... 近年来,基于深度学习的故障诊断已经通过大量数据进行了深入的研究.然而,深度学习技术的巨大成功是基于可以获取大量带标签的训练样本的假设.在实际问题中,经常面临数据不平衡、标记的数据太少或没有数据的情况.基于此,本文研究了高超声速飞行器在零样本情况下的故障辨识问题.考虑飞控系统执行器故障,运用深度学习技术来识别特定故障类型(失效故障或卡死故障).“零样本”指的是在故障诊断的深度学习模型构建中,未曾包含或引入任何与目标故障相关的样本数据.因此,该模型必须依赖于其他方法和特征来推断和准确识别这些未知故障,以实现有效的故障辨识.针对这一问题,使用人工定义的故障描述来表征未知故障.具体而言,即利用关系网络学习将已知故障样本与定义的未知故障描述进行比较.进一步,为实现特征提取,结合卷积神经网络及长短期记忆神经网络,构建深度神经网络结构.最后,在Winged-cone(翼椎体)构型的高超声速飞行器上进行零样本故障辨识实验,结果表明在没有目标故障样本的情况下,所设计的算法可以完成对目标故障的诊断工作. 展开更多
关键词 高超声速飞行器 故障识别 执行器故障 零样本 关系网络
下载PDF
基于Swin Transformer的嵌入式零样本学习算法
19
作者 郜佳琪 魏巍 岳琴 《小型微型计算机系统》 CSCD 北大核心 2024年第4期784-791,共8页
零样本学习旨在解决样本缺失情况下的分类问题.以往嵌入式零样本学习算法通常只利用可见类构建嵌入空间,在测试时不可避免会出现过拟合可见类的问题.基于此本文提出了一种基于类别语义相似度的多标签分类损失,该损失可在构建嵌入空间的... 零样本学习旨在解决样本缺失情况下的分类问题.以往嵌入式零样本学习算法通常只利用可见类构建嵌入空间,在测试时不可避免会出现过拟合可见类的问题.基于此本文提出了一种基于类别语义相似度的多标签分类损失,该损失可在构建嵌入空间的过程中引导模型同时考虑与当前可见类语义上相似的未见类,进而将语义空间的相似性迁移到最终执行分类的嵌入空间.同时现有零样本学习算法大部分直接使用图像深度特征作为输入,特征提取过程没有考虑语义信息,基于此本文采用Swin Transformer作为骨干网络,输入原始图片利用自注意力机制得到基于语义信息的视觉特征.本文在3个零样本学习基准数据集上进行了大量实验,与目前最先进的算法相比取得了最佳的调和平均精度. 展开更多
关键词 零样本学习 深度学习 图像分类 注意力 Swin Transformer
下载PDF
Zero-shot Fine-grained Classification by Deep Feature Learning with Semantics 被引量:7
20
作者 Ao-Xue Li Ke-Xin Zhang Li-Wei Wang 《International Journal of Automation and computing》 EI CSCD 2019年第5期563-574,共12页
Fine-grained image classification, which aims to distinguish images with subtle distinctions, is a challenging task for two main reasons: lack of sufficient training data for every class and difficulty in learning dis... Fine-grained image classification, which aims to distinguish images with subtle distinctions, is a challenging task for two main reasons: lack of sufficient training data for every class and difficulty in learning discriminative features for representation. In this paper, to address the two issues, we propose a two-phase framework for recognizing images from unseen fine-grained classes, i.e., zeroshot fine-grained classification. In the first feature learning phase, we finetune deep convolutional neural networks using hierarchical semantic structure among fine-grained classes to extract discriminative deep visual features. Meanwhile, a domain adaptation structure is induced into deep convolutional neural networks to avoid domain shift from training data to test data. In the second label inference phase, a semantic directed graph is constructed over attributes of fine-grained classes. Based on this graph, we develop a label propagation algorithm to infer the labels of images in the unseen classes. Experimental results on two benchmark datasets demonstrate that our model outperforms the state-of-the-art zero-shot learning models. In addition, the features obtained by our feature learning model also yield significant gains when they are used by other zero-shot learning models, which shows the flexility of our model in zero-shot finegrained classification. 展开更多
关键词 FINE-GRAINED image CLASSIFICATION zero-shot LEARNING DEEP FEATURE LEARNING domain adaptation semantic graph
原文传递
上一页 1 2 9 下一页 到第
使用帮助 返回顶部