期刊文献+
共找到71篇文章
< 1 2 4 >
每页显示 20 50 100
融合CNN和ViT的声信号轴承故障诊断方法
1
作者 宁方立 王珂 郝明阳 《振动与冲击》 EI CSCD 2024年第3期158-163,170,共7页
针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像... 针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像作为卷积神经网络的输入,用于隐式提取图像的深层特征,其输出作为视觉转换器的输入。视觉转换器用于提取信号的时间序列信息。并在输出层利用Softmax函数实现故障模式的识别。试验结果表明,该方法对于轴承故障诊断准确率较高。为了更好解释和优化提出的轴承故障诊断方法,利用t-分布领域嵌入算法对分类特征进行了可视化展示。 展开更多
关键词 短时傅里叶变换 卷积神经网络 视觉转换器 t-分布领域嵌入算法
下载PDF
基于自监督视觉Transformer的图像美学质量评价方法
2
作者 黄荣 宋俊杰 +1 位作者 周树波 刘浩 《计算机应用》 CSCD 2024年第4期1269-1276,共8页
现有的图像美学质量评价方法普遍使用卷积神经网络(CNN)提取图像特征,但受局部感受野机制的限制,CNN较难提取图像的全局特征,导致全局构图关系、全局色彩搭配等美学属性缺失。为解决该问题,提出基于自监督视觉Transformer(SSViT)模型的... 现有的图像美学质量评价方法普遍使用卷积神经网络(CNN)提取图像特征,但受局部感受野机制的限制,CNN较难提取图像的全局特征,导致全局构图关系、全局色彩搭配等美学属性缺失。为解决该问题,提出基于自监督视觉Transformer(SSViT)模型的图像美学质量评价方法。利用自注意力机制建立图像局部块之间的长距离依赖关系,自适应地学习图像不同局部块之间的相关性,提取图像的全局特征,从而刻画图像的美学属性;同时,设计图像降质分类、图像美学质量排序和图像语义重构这3项美学质量感知任务,利用无标注的图像数据对视觉Transformer(ViT)进行自监督预训练,增强全局特征的表达能力。在AVA(Aesthetic Visual Assessment)数据集上的实验结果显示,SSViT模型在美学质量分类准确率、皮尔森线性相关系数(PLCC)和斯皮尔曼等级相关系数(SRCC)指标上分别达到83.28%、0.7634和0.7462。以上实验结果表明,SSViT模型具有较高的图像美学质量评价准确性。 展开更多
关键词 图像美学质量评价 视觉transformer 自监督学习 全局特征 自注意力机制
下载PDF
基于级联视觉Transformer与多尺度特征融合的燃烧场温度层析成像
3
作者 司菁菁 王晓莉 +1 位作者 程银波 刘畅 《电子与信息学报》 EI CSCD 北大核心 2023年第10期3511-3519,共9页
可调谐二极管激光吸收光谱层析成像(TDLAT)是一种重要的光学非侵入式燃烧诊断技术,可实现燃烧场2维横截面气体温度和浓度等流场参数分布的重建。该文将视觉Transformer(ViT)与多尺度特征融合引入TDLAT领域,研究有限数量测量数据与整个... 可调谐二极管激光吸收光谱层析成像(TDLAT)是一种重要的光学非侵入式燃烧诊断技术,可实现燃烧场2维横截面气体温度和浓度等流场参数分布的重建。该文将视觉Transformer(ViT)与多尺度特征融合引入TDLAT领域,研究有限数量测量数据与整个测量空间温度分布的非线性映射,提出基于级联ViT与多尺度特征融合的燃烧场温度层析成像网络(HVTMFnet)。该网络提取并融合TDLAT测量数据的局部-全局相关特征,实现整个测量空间的层次化温度分布重建。仿真实验与实际TDLAT系统实验均表明,HVTMFnet重建图像的质量优于现有的基于卷积神经网络(CNN)和基于残差网络的温度层析成像方案。与基于CNN的温度层析成像方案相比,HVTMFnet的重建误差能够降低49.2%~72.1%。 展开更多
关键词 可调谐二极管激光吸收光谱 层析成像 温度重建 视觉transformer
下载PDF
基于ViT与语义引导的视频内容描述生成
4
作者 赵宏 陈志文 +1 位作者 郭岚 安冬 《计算机工程》 CAS CSCD 北大核心 2023年第5期247-254,共8页
现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(S... 现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。 展开更多
关键词 视频内容描述 视频理解 vit模型 语义引导 长短期记忆网络 注意力机制
下载PDF
融合一维Inception结构与ViT的恶意加密流量检测 被引量:3
5
作者 孙懿 高见 顾益军 《计算机工程》 CAS CSCD 北大核心 2023年第1期154-162,共9页
在互联网加密化背景下,传统恶意流量检测方法在加密流量上的特征区分度较差,为更好地从加密流量中检测出恶意流量,设计一个融合一维Inception-ViT的恶意加密流量检测模型。基于流量数据的时序性特点,通过一维Inception结构对GoogLeNet中... 在互联网加密化背景下,传统恶意流量检测方法在加密流量上的特征区分度较差,为更好地从加密流量中检测出恶意流量,设计一个融合一维Inception-ViT的恶意加密流量检测模型。基于流量数据的时序性特点,通过一维Inception结构对GoogLeNet中的Inception结构进行改进,使用适用于序列数据的一维卷积替换二维卷积,并添加池化操作去除一些冗余信息的干扰。同时,融合ViT模型,将经过一维Inception结构处理后的数据输入到ViT模型中,利用多头注意力突出重要特征,增强特征区分度以提升模型检测结果。为验证一维Inception-ViT模型各模块的有效性,与6种变体模型进行对比,实验结果表明,一维Inception-ViT模型性能最好,平均召回率和平均F1值指标分别达到了99.42%和99.39%。此外,与其他8种现有模型进行比较,一维Inception-ViT模型具有更好的检测效果,同时在恶意加密流量Neris和Virut细粒度分类上,与性能最好的基准模型相比,一维Inception-ViT模型能够有效减少样本检测混淆,可更准确地对恶意加密流量进行识别。 展开更多
关键词 加密流量 恶意加密流量检测 多分类 卷积神经网络 vision transformer模型
下载PDF
基于弱监督的改进Transformer在人群定位中的应用 被引量:1
6
作者 高辉 邓淼磊 +2 位作者 赵文君 陈法权 张德贤 《计算机工程与应用》 CSCD 北大核心 2023年第19期92-98,共7页
针对现有人群定位方法采用伪边界框或预先设计的定位图,需要复杂的预处理和后处理来获得头部位置的问题,提出一种基于弱监督的端到端人群定位网络LocalFormer。在特征提取阶段,将纯Transformer作为骨干网络,并对每个阶段的特征执行全局... 针对现有人群定位方法采用伪边界框或预先设计的定位图,需要复杂的预处理和后处理来获得头部位置的问题,提出一种基于弱监督的端到端人群定位网络LocalFormer。在特征提取阶段,将纯Transformer作为骨干网络,并对每个阶段的特征执行全局最大池化操作,提取更加丰富的人头细节信息。在编码器-解码器阶段,将聚合特征嵌入位置信息作为编码器的输入,且每个解码器层采用一组可训练嵌入作为查询,并将编码器最后一层的视觉特征作为键和值,解码后的特征用于预测置信度得分。通过二值化模块自适应优化阈值学习器,从而精确地二值化置信度图。在不同数据环境下对三个数据集进行实验,结果表明该方法实现了最佳定位性能。 展开更多
关键词 人群定位 弱监督 卷积神经网络 全局最大池化 视觉transformer
下载PDF
基于Vision Transformer的中文唇语识别 被引量:1
7
作者 薛峰 洪自坤 +2 位作者 李书杰 李雨 谢胤岑 《模式识别与人工智能》 EI CSCD 北大核心 2022年第12期1111-1121,共11页
唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间... 唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间的长距离关系,文中提出基于Vision Transformer(ViT)的端到端中文句子级唇语识别模型,融合ViT和门控循环单元(Gate Recurrent Unit,GRU),提高对嘴唇视频的视觉时空特征提取能力.具体地,首先使用ViT的自注意力模块提取嘴唇图像的全局空间特征,再通过GRU对帧序列时序建模,最后使用基于注意力机制的级联序列到序列模型实现对拼音和汉字语句的预测.在中文唇语识别数据集CMLR上的实验表明,文中模型的汉字错误率较低. 展开更多
关键词 唇语识别 vision transformer(vit) 深度神经网络 编解码器 注意力机制 特征提取
下载PDF
预训练驱动的多模态边界感知视觉Transformer 被引量:1
8
作者 石泽男 陈海鹏 +1 位作者 张冬 申铉京 《软件学报》 EI CSCD 北大核心 2023年第5期2051-2067,共17页
卷积神经网络(convolutional neural network,CNN)在图像篡改检测任务中不断取得性能突破,但在面向真实场景下篡改手段未知的情况时,现有方法仍然无法有效地捕获输入图像的长远依赖关系以缓解识别偏差问题,从而影响检测精度.此外,由于... 卷积神经网络(convolutional neural network,CNN)在图像篡改检测任务中不断取得性能突破,但在面向真实场景下篡改手段未知的情况时,现有方法仍然无法有效地捕获输入图像的长远依赖关系以缓解识别偏差问题,从而影响检测精度.此外,由于标注困难,图像篡改检测任务通常缺乏精准的像素级图像标注信息.针对以上问题,提出一种预训练驱动的多模态边界感知视觉Transformer.首先,为捕获在RGB域中不可见的细微伪造痕迹,引入图像的频域模态并将其与RGB空间域结合作为多模态嵌入形式.其次利用ImageNet对主干网络的编码器进行训练以缓解当前训练样本不足的问题.然后,Transformer模块被整合到该编码器的尾部,以达到同时捕获低级空间细节信息和全局上下文的目的,从而提升模型的整体表征能力.最后,为有效地缓解因伪造区域边界模糊导致的定位难问题,构建边界感知模块,其可以通过Scharr卷积层获得的噪声分布以更多地关注噪声信息而不是语义内容,并利用边界残差块锐化边界信息,从而提升模型的边界分割性能.大量实验结果表明,所提方法在识别精度上优于现有的图像篡改检测方法,并对不同的篡改手段具有较好的泛化性和鲁棒性. 展开更多
关键词 模型预训练 多模态 视觉transformer 边界感知 图像篡改检测
下载PDF
基于深度卷积-Tokens降维优化视觉Transformer的分心驾驶行为实时检测 被引量:1
9
作者 赵霞 李朝 +2 位作者 付锐 葛振振 王畅 《汽车工程》 EI CSCD 北大核心 2023年第6期974-988,1009,共16页
针对基于端到端深度卷积神经网络的驾驶行为检测模型缺乏全局特征提取能力以及视觉Transformer(vision transformer,ViT)模型不擅长捕捉底层特征和模型参数量较大的问题,本文提出一种基于深度卷积和Tokens降维的ViT模型用于驾驶人分心... 针对基于端到端深度卷积神经网络的驾驶行为检测模型缺乏全局特征提取能力以及视觉Transformer(vision transformer,ViT)模型不擅长捕捉底层特征和模型参数量较大的问题,本文提出一种基于深度卷积和Tokens降维的ViT模型用于驾驶人分心驾驶行为实时检测,并通过开展与其他模型的对比试验、所提模型的消融试验和模型注意力区域的可视化试验充分验证了所提模型的优越性。本文所提模型的平均分类准确率和精确率分别为96.93%和96.95%,模型参数量为21.22 M,基于真实车辆平台在线推理速度为23.32 fps,表明所提模型能够实现实时分心驾驶行为检测。研究结果有利于人机共驾系统的控制策略制定和分心预警。 展开更多
关键词 汽车工程 分心驾驶行为检测模型 视觉transformer 多头注意力机制 卷积神经网络 Tokens降维
下载PDF
SMViT:用于新冠肺炎诊断的轻量化孪生网络模型
10
作者 马自萍 谭力刀 +1 位作者 马金林 陈勇 《计算机科学与探索》 CSCD 北大核心 2023年第10期2499-2510,共12页
针对新冠肺炎的深度学习诊断模型存在的准确率不高、泛化能力较差和参数量较大的问题,基于ViT和孪生网络,提出了一种新冠肺炎诊断的轻量化孪生网络SMViT。首先,提出了循环子结构轻量化策略,使用多个具有相同结构的子网络构成诊断网络,... 针对新冠肺炎的深度学习诊断模型存在的准确率不高、泛化能力较差和参数量较大的问题,基于ViT和孪生网络,提出了一种新冠肺炎诊断的轻量化孪生网络SMViT。首先,提出了循环子结构轻量化策略,使用多个具有相同结构的子网络构成诊断网络,从而降低网络的参数量;其次,提出ViT掩码自监督预训练模型,以增强模型的潜在特征表达能力;然后,构建新冠肺炎诊断的孪生网络SMViT,有效提升模型的诊断准确率,改善小样本下模型泛化能力较差的问题;最后,使用消融实验验证并确定了模型结构,通过对比实验验证模型的诊断性能和轻量化能力。实验结果表明:与最具竞争力的ViT架构的诊断模型相比,该模型在X-ray数据集上的准确率、特异度、灵敏度与F1分数值分别提高了1.42%、4.62%、0.40%和2.80%,在CT图像数据集上的准确率、特异度、灵敏度与F1分数值分别提高了2.16%、2.17%、2.05%和2.06%;在样本量较小时,模型具有较强的泛化能力;与ViT相比,SMViT模型具有更小的参数量和更高的诊断性能。 展开更多
关键词 新冠肺炎诊断 孪生网络 vit模型 自监督学习 轻量化模型
下载PDF
基于Transformer的车辆年款细粒度识别研究 被引量:1
11
作者 徐天适 文莉 张华俊 《现代信息科技》 2023年第1期75-79,共5页
视频监控场景下车辆年款信息抽取对城市数智化治理有着重要意义。为实现细粒度车辆年款的精准识别,首先,构建了覆盖多元采集条件及常见车辆年款的百万级场景数据集;其次,提出了基于Transformer的车辆年款细粒度特征高效提取器;最后,结... 视频监控场景下车辆年款信息抽取对城市数智化治理有着重要意义。为实现细粒度车辆年款的精准识别,首先,构建了覆盖多元采集条件及常见车辆年款的百万级场景数据集;其次,提出了基于Transformer的车辆年款细粒度特征高效提取器;最后,结合任务特点设计了层次标签多任务联合学习方法,获得兼容全局与局部的高鲁棒性特征。实验结果表明,提出的方法在场景数据集上的Top-1准确率达到95.79%,相较基于CNN的单任务方法有大幅提升。 展开更多
关键词 视频监控 车辆年款识别 细粒度分类 vision transformer
下载PDF
基于改进的Transformer_decoder的增强图像描述
12
作者 林椹尠 屈嘉欣 罗亮 《计算机与现代化》 2023年第1期7-12,共6页
Transformer的解码器(Transformer_decoder)模型已被广泛应用于图像描述任务中,其中自注意力机制(Self Attention)通过捕获细粒度的特征来实现更深层次的图像理解。本文对Self Attention机制进行2方面改进,包括视觉增强注意力机制(Visio... Transformer的解码器(Transformer_decoder)模型已被广泛应用于图像描述任务中,其中自注意力机制(Self Attention)通过捕获细粒度的特征来实现更深层次的图像理解。本文对Self Attention机制进行2方面改进,包括视觉增强注意力机制(Vision-Boosted Attention,VBA)和相对位置注意力机制(Relative-Position Attention,RPA)。视觉增强注意力机制为Transformer_decoder添加VBA层,将视觉特征作为辅助信息引入Self Attention模型中,指导解码器模型生成与图像内容更匹配的描述语义。相对位置注意力机制在Self Attention的基础上,引入可训练的相对位置参数,为输入序列添加词与词之间的相对位置关系。基于COCO2014进行实验,结果表明VBA和RPA这2种注意力机制对图像描述任务都有一定改进,且2种注意力机制相结合的解码器模型有更好的语义表述效果。 展开更多
关键词 图像描述 transformer模型 Self Attention机制 相对位置注意力机制 视觉增强注意力机制
下载PDF
基于盒注意力机制和Transformer的人脸微表情识别方法
13
作者 唐梦瑶 黄江涛 《人工智能科学与工程》 2023年第9期57-67,共11页
微表情是一种细微的能够体现人真实心理活动的面部运动,通常与真实情感直接相关,应用前景广阔。但由于微表情持续时间短暂、表情幅度低和特征难以提取等特点,因此其识别准确率较低。针对该问题,提出了基于盒注意力机制和Transformer的... 微表情是一种细微的能够体现人真实心理活动的面部运动,通常与真实情感直接相关,应用前景广阔。但由于微表情持续时间短暂、表情幅度低和特征难以提取等特点,因此其识别准确率较低。针对该问题,提出了基于盒注意力机制和Transformer的人脸微表情识别模型(visiontransformerbasedonbox-attention,ViT-Box)。该模型首先对人脸面部进行特征提取,利用盒注意力机制获得自适应的面部微表情关键区域:左眉眼、右眉眼和嘴巴;然后对非关键区域进行掩码遮盖,避免微表情无关信息干扰;最后基于VisionTransformer网络实现人脸微表情识别。ViT-Box模型在微宏表情仓库(MMEW)数据集上取得了98.68%的平均准确率,实验结果表明该模型在微表情识别上能够获得优秀的识别效果。同时通过消融实验验证了ViT-Box模型的有效性。 展开更多
关键词 微表情识别 盒注意力机制 目标检测 视觉transformer 关键区域提取 人脸掩码 YOLOv5模型 多层感知机
下载PDF
基于机器视觉的筒子纱线头识别方法
14
作者 金鹏翔 刘宜胜 《浙江理工大学学报(自然科学版)》 2024年第1期112-119,共8页
为了在纺织织造的整经工序中高效吸取筒子纱线头,克服人工和机器寻线工作效率低、装置复杂等问题,提出了一种基于机器视觉的筒子纱线头识别方法。首先,对采集的筒子纱图像进行畸变校正,根据透视投影和局部透视变换建立筒子纱校正模型,... 为了在纺织织造的整经工序中高效吸取筒子纱线头,克服人工和机器寻线工作效率低、装置复杂等问题,提出了一种基于机器视觉的筒子纱线头识别方法。首先,对采集的筒子纱图像进行畸变校正,根据透视投影和局部透视变换建立筒子纱校正模型,得到理想的筒子纱侧面展开图像;其次,采用4邻域连通规则对校正后的图像进行连通域标记,得到含曲线部分最多的连通域;最后,计算该连通域的曲折度,达到阈值的即为所需识别的线头。对含线头图像和不含线头图像进行识别,结果表明:局部透视变换的校正方法比重映射速度提升近30%,表现出较高的校正精度;曲折度阈值判别方法能有效滤除非线头图像,提高了线头图像的识别精度。使用机器视觉进行筒子纱线头识别能有效检测出每个筒子纱中的线头部分,减少生产线上的人工干预,为构建高效节能的智能化生产模式提供参考。 展开更多
关键词 机器视觉 筒子纱线头识别 校正模型 局部透视变换 连通域标记
原文传递
基于视频时空特征提取分类的动作分析评估模型
15
作者 陈迪 李焱芳 +2 位作者 毕卫云 李朗 蒲珊珊 《现代电子技术》 2024年第8期160-164,共5页
为拓展机器视觉技术在医工结合场景下的应用,文中基于改进的时空Transformer模型,提出一种动作规范识别模型。该模型由数据嵌入层、时空Transformer层、决策融合层组成。数据嵌入层利用Openpose模型从sRGB图像中提取人体骨骼数据,降低... 为拓展机器视觉技术在医工结合场景下的应用,文中基于改进的时空Transformer模型,提出一种动作规范识别模型。该模型由数据嵌入层、时空Transformer层、决策融合层组成。数据嵌入层利用Openpose模型从sRGB图像中提取人体骨骼数据,降低环境部署成本;时空Transformer层使用时空模块和块间模型对图像数据特征进行训练和分类,提升原模型的分类精度;决策融合层实现对应用场景的规范性判别。实验测试结果表明:所提算法的TOP1和TOP5精度指标在所有对比算法中均为最优;在以心肺复苏术为例进行的实际应用测试中,该算法的综合性能较为理想,能够满足工程需要。 展开更多
关键词 计算机视觉 时空transformer模型 骨骼模型 决策融合 动作识别 多头注意力机制
下载PDF
基于类相似特征扩充与中心三元组损失的哈希图像检索 被引量:1
16
作者 潘丽丽 马俊勇 +2 位作者 熊思宇 邓智茂 胡清华 《模式识别与人工智能》 EI CSCD 北大核心 2023年第8期685-700,共16页
现有的深度哈希图像检索方法主要采用卷积神经网络,提取的深度特征的相似性表征能力不足.此外,三元组深度哈希主要从小批量数据中构建局部三元组样本,样本数量较少,数据分布缺失全局性,使网络训练不够充分且收敛困难.针对上述问题,文中... 现有的深度哈希图像检索方法主要采用卷积神经网络,提取的深度特征的相似性表征能力不足.此外,三元组深度哈希主要从小批量数据中构建局部三元组样本,样本数量较少,数据分布缺失全局性,使网络训练不够充分且收敛困难.针对上述问题,文中提出基于类相似特征扩充与中心三元组损失的哈希图像检索模型(Hash Image Retrieval Based on Category Similarity Feature Expansion and Center Triplet Loss,HRFT-Net).设计基于Vision Transformer的哈希特征提取模块(Hash Feature Extraction Module Based on Vision Transformer,HViT),利用Vision Transformer提取表征能力更强的全局特征信息.为了扩充小批量训练样本的数据量,提出基于类约束的相似特征扩充模块(Similar Feature Expansion Based on Category Constraint,SFEC),利用同类样本间的相似性生成新特征,丰富三元组训练样本.为了增强三元组损失的全局性,提出基于Hadamard的中心三元组损失函数(Central Triplet Loss Function Based on Hadamard,CTLH),利用Hadamard为每个类建立全局哈希中心约束,通过增添局部约束与全局中心约束的中心三元组加速网络的学习和收敛,提高图像检索的精度.在CIFAR10、NUS-WIDE数据集上的实验表明,HRFT-Net在不同长度比特位哈希码检索上的平均精度均值较优,由此验证HRFT-Net的有效性. 展开更多
关键词 图像检索 深度哈希 vision transformer(vit) 特征扩充 三元组损失
下载PDF
基于融合策略的突发公共卫生事件网络舆情多模态负面情感识别 被引量:1
17
作者 曾子明 孙守强 李青青 《情报学报》 CSCD 北大核心 2023年第5期611-622,共12页
突发公共卫生事件以社交媒体为阵地进行线下舆情的线上映射,而图文并茂的多模态信息成为公众情感表达的主要方式。为充分利用不同模态间的关联性和互补性,提升突发公共卫生事件网络舆情多模态负面情感识别精准度,本文构建了两阶段混合... 突发公共卫生事件以社交媒体为阵地进行线下舆情的线上映射,而图文并茂的多模态信息成为公众情感表达的主要方式。为充分利用不同模态间的关联性和互补性,提升突发公共卫生事件网络舆情多模态负面情感识别精准度,本文构建了两阶段混合融合策略驱动的多模态细粒度负面情感识别模型(two-stage,hybrid fusion strategy-driven multimodal fine-grained negative sentiment recognition model,THFMFNSR)。该模型包括多模态特征表示、特征融合、分类器和决策融合4个部分。本文通过收集新浪微博新冠肺炎的相关图文数据,验证了该模型的有效性,并抽取了最佳情感决策融合规则和分类器配置。研究结果表明,相比于文本、图像、图文特征融合的最优识别模型,本文模型在情感识别方面精确率分别提高了14.48%、12.92%、2.24%;在细粒度负面情感识别方面,精确率分别提高了22.73%、10.85%、3.34%。通过该多模态细粒度负面情感识别模型可感知舆情态势,从而辅助公共卫生部门和舆情管控部门决策。 展开更多
关键词 突发公共卫生事件 网络舆情 多模态 负面情感识别 bidirectional encoder representations from transformers(BERT) vision transformer(vit)
下载PDF
面向Vision Transformer模型的剪枝技术研究
18
作者 查秉坤 李朋阳 陈小柏 《软件》 2024年第3期83-86,97,共5页
本文针对Vision Transformer(ViT)模型开展剪枝技术研究,探索了多头自注意力机制中的QKV(Query、Key、Value)权重和全连接层(Fully Connected,FC)权重的剪枝问题。针对ViT模型本文提出了3组剪枝方案:只对QKV剪枝、只对FC剪枝以及对QKV... 本文针对Vision Transformer(ViT)模型开展剪枝技术研究,探索了多头自注意力机制中的QKV(Query、Key、Value)权重和全连接层(Fully Connected,FC)权重的剪枝问题。针对ViT模型本文提出了3组剪枝方案:只对QKV剪枝、只对FC剪枝以及对QKV和FC同时进行剪枝,以探究不同剪枝策略对ViT模型准确率和模型参数压缩率的影响。本文开展的研究工作为深度学习模型的压缩和优化提供了重要参考,对于实际应用中的模型精简和性能优化具有指导意义。 展开更多
关键词 vision transformer模型 剪枝 准确率
下载PDF
融合注意力机制的毫米波雷达人体动作识别方法
19
作者 蒋留兵 裴航舰 车俐 《空天预警研究学报》 CSCD 2023年第5期349-354,共6页
为解决少样本场景下毫米波雷达人体动作识别过程中卷积神经网络(CNN)易出现过拟合、训练效果不理想等问题,提出一种融入时序注意力机制的CNN和视觉转换器模型结合的方法.该方法首先对收到的雷达回波信息做预处理,再通过短时傅里叶变换(S... 为解决少样本场景下毫米波雷达人体动作识别过程中卷积神经网络(CNN)易出现过拟合、训练效果不理想等问题,提出一种融入时序注意力机制的CNN和视觉转换器模型结合的方法.该方法首先对收到的雷达回波信息做预处理,再通过短时傅里叶变换(STFT)进行时频分析得到时频图,最终将带有特征信息的图像送入融合的网络模型中进行分类识别.实验结果表明,与其他4种模型的方法相比,本文提出的方法识别准确率最高,识别效果可达到91.57%.该方法能有效地增强网络对于时间维度建模,增加了网络收敛速度,达到了提升识别准确率的效果. 展开更多
关键词 毫米波雷达 卷积神经网络 视觉转换器 注意力机制 动作识别
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部