期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
结合时间注意力机制和单模态标签自动生成策略的自监督多模态情感识别
1
作者 孙强 王姝玉 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期588-601,共14页
大多数多模态情感识别方法旨在寻求一种有效的融合机制,构建异构模态的特征,从而学习到具有语义一致性的特征表示。然而,这些方法通常忽略了模态间情感语义的差异性信息。为解决这一问题,提出了一种多任务学习框架,联合训练1个多模态任... 大多数多模态情感识别方法旨在寻求一种有效的融合机制,构建异构模态的特征,从而学习到具有语义一致性的特征表示。然而,这些方法通常忽略了模态间情感语义的差异性信息。为解决这一问题,提出了一种多任务学习框架,联合训练1个多模态任务和3个单模态任务,分别学习多模态特征间的情感语义一致性信息和各个模态所含情感语义的差异性信息。首先,为了学习情感语义一致性信息,提出了一种基于多层循环神经网络的时间注意力机制(TAM),通过赋予时间序列特征向量不同的权重来描述情感特征的贡献度。然后,针对多模态融合,在语义空间进行了逐语义维度的细粒度特征融合。其次,为了有效学习各个模态所含情感语义的差异性信息,提出了一种基于模态间特征向量相似度的自监督单模态标签自动生成策略(ULAG)。通过在CMU-MOSI,CMU-MOSEI, CH-SIMS 3个数据集上的大量实验结果证实,提出的TAM-ULAG模型具有很强的竞争力:在分类指标(Acc_(2),F_(1))和回归指标(MAE, Corr)上与基准模型的指标相比均有所提升;对于二分类识别准确率,在CMUMOSI和CMU-MOSEI数据集上分别为87.2%和85.8%,而在CH-SIMS数据集上达到81.47%。这些研究结果表明,同时学习多模态间的情感语义一致性信息和各模态情感语义的差异性信息,有助于提高自监督多模态情感识别方法的性能。 展开更多
关键词 多模态情感识别 自监督标签生成 多任务学习 时间注意力机制 多模态融合
下载PDF
结合多种注意力机制的多模态情感识别方法
2
作者 史爱武 蔡润 《软件导刊》 2023年第10期105-109,共5页
多模态语音情感识别需要全面理解对讲话者话语的内容(文本信息)以及说话的方式(声学信息),但如何有效融合语音和文本两种模态的特征是一个具有挑战性的问题。为此,提出一种基于双向循环门控单元和多种注意力的多模态情感识别模型。该模... 多模态语音情感识别需要全面理解对讲话者话语的内容(文本信息)以及说话的方式(声学信息),但如何有效融合语音和文本两种模态的特征是一个具有挑战性的问题。为此,提出一种基于双向循环门控单元和多种注意力的多模态情感识别模型。该模型首先使用双向循环门控单元提取语音和文本模态的特征,然后使用由并行的自注意力模块和引导注意力模块组成的多模态特征融合网络捕获模态内及模态间的交互关系,以使模型在训练学习过程中能同时关注到模态间及模态内重要的交互特征,进而增强模型的表示能力。在IEMOCAP数据集上对所提模型进行评估,结果表明该模型的情感分类结果相比其他方法明显提升。 展开更多
关键词 多模态情感识别 双向循环门控单元 引导注意力模块 自注意力模块 特征融合
下载PDF
基于动态卷积与残差门控的多模态情感识别
3
作者 郭艳霞 金勇 +1 位作者 唐宏 彭金枝 《计算机工程》 CAS CSCD 北大核心 2023年第7期94-101,共8页
为了防止一段话语中含有情感色彩的重要信息被无关信息淹没并实现多模态信息交互,通过挖掘高级局部特征以及设计有效的交互融合策略,提出一种基于动态卷积与残差门控的多模态情感识别模型。提取文本、音频和图像中的低级特征、高级局部... 为了防止一段话语中含有情感色彩的重要信息被无关信息淹没并实现多模态信息交互,通过挖掘高级局部特征以及设计有效的交互融合策略,提出一种基于动态卷积与残差门控的多模态情感识别模型。提取文本、音频和图像中的低级特征、高级局部特征以及上下文依赖关系,同时使用跨模态动态卷积对模态间和模态内交互信息进行建模,模拟长序列时域间的相互作用,捕捉不同模态的交互特征。设计一种残差门控融合方法来融合不同模态交互表征,自动学习每组交互表征对最终情感识别的影响权重,并将多模态融合特征输入分类器进行情感预测。在CMU-MOSEI和IEMOCAP数据集上的实验结果表明,该模型能够避免多模态中含有情感色彩的重要信息被无关信息淹没,情感分类准确率分别达到83.5%和83.9%,性能优于MulT、MFRM等基准模型。 展开更多
关键词 自然语言处理 信息交互 多模态情感识别 动态卷积 门控机制
下载PDF
基于Android的多模态情感识别APP的设计与开发
4
作者 张明嘉 黄丁韫 +2 位作者 赵凯 杨超宇 蒋玉茹 《现代计算机》 2023年第5期99-103,共5页
在团队自建的中文多模态情感识别语料库的基础上,训练了多模态情感识别深度神经网络模型,能综合视频中图片、音频和文本三个模态信息进行情感识别。基于该情感识别模型,设计并开发了一款基于Android平台的移动应用程序,捕获视频中人物... 在团队自建的中文多模态情感识别语料库的基础上,训练了多模态情感识别深度神经网络模型,能综合视频中图片、音频和文本三个模态信息进行情感识别。基于该情感识别模型,设计并开发了一款基于Android平台的移动应用程序,捕获视频中人物的话语文本、声音和面部表情,识别出人物的情感状态,以支撑后续共情聊天机器人的研发。 展开更多
关键词 深度神经网络 多模态情感识别 ANDROID Flask框架
下载PDF
融合语音和脉搏的多模态情感识别研究 被引量:4
5
作者 周红标 《微电子学与计算机》 CSCD 北大核心 2015年第6期5-9,共5页
针对单独利用语音或某种生理信号进行情感识别容易误判的问题,提出融合语音和脉搏的多模态情感识别方法.首先对预处理后的语音信号提取梅尔倒谱系数特征,并用隐马尔科夫构建语音情感识别模型,然后计算脉搏信号K值和小波包系数能量值,并... 针对单独利用语音或某种生理信号进行情感识别容易误判的问题,提出融合语音和脉搏的多模态情感识别方法.首先对预处理后的语音信号提取梅尔倒谱系数特征,并用隐马尔科夫构建语音情感识别模型,然后计算脉搏信号K值和小波包系数能量值,并输入到最小二乘支持向量机识别模型中进行判别,最后对两个模型的判别结果进行决策级的融合.实验结果表明:对于哀伤和平静两种情感,语音识别率较高,融合后识别率达到100%;对于高兴和愤怒两种情感,语音识别率为75%和80%,融合后提高到95%和90%. 展开更多
关键词 多模态情感识别 语音 脉搏 梅尔倒谱系数 隐马尔科夫 决策级融合
下载PDF
基于长短时记忆网络的多模态情感识别和空间标注 被引量:7
6
作者 刘菁菁 吴晓峰 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2020年第5期565-574,共10页
情感计算中音/视频的情感识别对人机交互等领域的深层次认知具有重要应用价值,在现代远程教育中可作为教学过程性实时评估的重要技术之一.为克服单一模态模型识别精度依赖于情感类型这一问题,本文提出一种基于长短时记忆(LSTM)网络的多... 情感计算中音/视频的情感识别对人机交互等领域的深层次认知具有重要应用价值,在现代远程教育中可作为教学过程性实时评估的重要技术之一.为克服单一模态模型识别精度依赖于情感类型这一问题,本文提出一种基于长短时记忆(LSTM)网络的多模态情感识别模型,采用双路LSTM分别模拟人类听觉和视觉处理通路处理语音和面部表情的情感信息,在eNTERFACE’05双模态情感数据集上进行训练和测试,并模拟人脑边缘系统情感区进行决策层加权特征融合,传统情绪六分类标准的准确率可达74.7%.同时,考虑到传统离散情绪六分类法无法进行程度度量,且存在外在表现相似和多情感同时并存的问题,本文提出一种新的多模态情感识别模型的空间标注法,采用模型层特征融合方法将情感分类特征映射到激活度-效价空间(Arousal-Valence Space),从而更好刻画情感的程度,实验结果显示准确率在空间两个维度上分别达到84.1%和86.6%.相比于已有的大多数相关研究,本文提出的模型运算量小,识别精度高,可进行实时在线情感识别. 展开更多
关键词 多模态情感识别 深度学习 长短时记忆网络 特征融合
下载PDF
基于交互注意力机制的多模态情感识别算法 被引量:5
7
作者 姚懿秦 郭薇 《计算机应用研究》 CSCD 北大核心 2021年第6期1689-1693,共5页
在多模态语音情感识别中,现有的研究通过提取大量特征来识别情感,但过多的特征会导致关键特征被淹没在相对不重要特征里,造成关键信息遗漏。为此提出了一种模型融合方法,通过两种注意力机制来寻找可能被遗漏的关键特征。本方法在IEMOCA... 在多模态语音情感识别中,现有的研究通过提取大量特征来识别情感,但过多的特征会导致关键特征被淹没在相对不重要特征里,造成关键信息遗漏。为此提出了一种模型融合方法,通过两种注意力机制来寻找可能被遗漏的关键特征。本方法在IEMOCAP数据集上的四类情感识别准确率相比现有文献有明显提升;在注意力机制可视化下,两种注意力机制分别找到了互补且对人类情感识别重要的关键信息,从而证明了所提方法相比传统方法的优越性。 展开更多
关键词 多模态情感识别 注意力机制 信息交互
下载PDF
多模态情感识别综述 被引量:3
8
作者 程大雷 张代玮 陈雅茜 《西南民族大学学报(自然科学版)》 CAS 2022年第4期440-447,共8页
针对多模态情感识别这一新兴领域,分别从数据集、多模态特征表示以及多模态情感融合等三方面进行系统探索.特别针对多模态情感融合这一重点问题,分别对特征级融合、决策级融合、模型级融合这三个主流的融合策略进行了探讨.最后从引入新... 针对多模态情感识别这一新兴领域,分别从数据集、多模态特征表示以及多模态情感融合等三方面进行系统探索.特别针对多模态情感融合这一重点问题,分别对特征级融合、决策级融合、模型级融合这三个主流的融合策略进行了探讨.最后从引入新模态和多模态融合等方面对未来研究方向进行了展望. 展开更多
关键词 多模态情感识别 特征表示 多模态情感融合
下载PDF
基于声学和文本特征的多模态情感识别 被引量:2
9
作者 顾煜 金赟 +2 位作者 马勇 姜芳艽 俞佳佳 《数据采集与处理》 CSCD 北大核心 2022年第6期1353-1362,共10页
在语音模态中,利用OpenSMILE工具箱可以从语音信号中提取浅层声学特征,通过Transformer Encoder网络从浅层声学特征中挖掘深层特征,并将深浅层特征融合,从而获取更丰富的情感表征。在文本模态中,考虑到停顿因素与情感之间的关联性,将语... 在语音模态中,利用OpenSMILE工具箱可以从语音信号中提取浅层声学特征,通过Transformer Encoder网络从浅层声学特征中挖掘深层特征,并将深浅层特征融合,从而获取更丰富的情感表征。在文本模态中,考虑到停顿因素与情感之间的关联性,将语音和文本对齐以获得说话停顿信息,采用停顿编码的方式将停顿信息添加到转录文本中,再通过DC-BERT模型获取话语级文本特征。将获得的声学与文本特征进行融合,利用基于注意力机制的双向长短时记忆(Bi-directional long short-term memory-attention,BiLSTM-ATT)神经网络进行情感分类。最后,本文对比了3种不同注意力机制融入BiLSTM网络后对情感识别的影响,即局部注意力、自注意力和多头自注意力,发现局部注意力的效果最优。实验表明,本文提出的方法在IEMOCAP数据集上的4类情感分类的加权准确率达到了78.7%,优于基线系统。 展开更多
关键词 多模态情感识别 深浅特征融合 DC-BERT模型 注意机制 停顿编码
下载PDF
基于EEG和面部视频的多模态连续情感识别
10
作者 雪雯 陈景霞 +1 位作者 胡凯蕾 刘洋 《陕西科技大学学报》 北大核心 2024年第1期169-176,共8页
针对脑电(Electroencephalogram, EEG)通道间和时间上情绪强度的改变很难被捕捉,以及不同被试的面部特征情绪上的相似性难以挖掘的问题,文章提出了一种基于EEG和面部视频的多模态连续情感识别模型.采用基于时空注意力机制(Spatial-Tempo... 针对脑电(Electroencephalogram, EEG)通道间和时间上情绪强度的改变很难被捕捉,以及不同被试的面部特征情绪上的相似性难以挖掘的问题,文章提出了一种基于EEG和面部视频的多模态连续情感识别模型.采用基于时空注意力机制(Spatial-Temporal Attention)的卷积和双向长短期记忆神经网络的组合模型(STA-CNNBiLSTM)对EEG中提取的功率谱密度(Power Spectral Density, PSD)特征进行深层特征学习与情感分类;采用引入自注意力机制的预训练卷积神经网络(SA-CNN)对人脸面部几何特征进行学习与情感分类.采用决策级融合算法,对两个模态的分类结果进行迭代学习与融合,得到最终多模态情感分类结果.在公开数据集MAHNOB-HCI进行了大量对比验证实验,在FER2013数据集的面部几何特征上对SA-CNN模型进行了预训练.在独立被试的实验中,所提模型在效价维度二分类的平均准确率为75.50%,在唤醒维度二分类的平均准确率为79.00%,均优于单模态上的最高平均准确率.和目前流行的模型LSSVM、SE-CNN和AM-LSTM相比较,所提模型的分类效果更优,验证了所提时空注意力机制能够捕捉更多的EEG时空特征,自注意力机制能够关注到不同被试面部特征的相似性,进而提高了多模态情感识别的性能. 展开更多
关键词 EEG 多模态情感识别 卷积双向长短期记忆组合模型 时空注意力机制 自注意力机制
下载PDF
全局卷积与亲和度融合的多模态特征蒸馏情感识别方法
11
作者 赵子平 高天 王欢 《信号处理》 CSCD 北大核心 2023年第4期667-677,共11页
为提升人机交互时的用户体验以及满足多元化用途的需求,交互设备正逐步引入情感智能技术,其中,实现产业和技术有效融合的前提是可以对人类情感状态进行正确的识别,然而,这仍然是一个具有挑战性的话题。随着多媒体时代的快速发展,越来越... 为提升人机交互时的用户体验以及满足多元化用途的需求,交互设备正逐步引入情感智能技术,其中,实现产业和技术有效融合的前提是可以对人类情感状态进行正确的识别,然而,这仍然是一个具有挑战性的话题。随着多媒体时代的快速发展,越来越多可利用的模态信息便逐步被应用到情感识别系统中。因此,本文提出一种基于特征蒸馏的多模态情感识别模型。考虑到情感表达往往与音频信号的全局信息密切相关,提出了适应性全局卷积(Adaptive Global Convolution,AGC)来提升有效感受野的范围,特征图重要性分析(Feature Map Importance Analysis,FMIA)模块进一步强化情感关键特征。音频亲和度融合(Audio Affinity Fusion,AAF)模块通过音频-文本模态间的内在相关性建模亲和度融合权重,使两种模态的情感信息得到有效融合。此外,为了提升模型泛化能力,有效利用教师模型中概率分布所携带的隐藏知识,帮助学生模型获取更高级别的语义特征,提出了在多模态模型上使用特征蒸馏。最后,在交互式情感二元动作捕捉(Interactive Emotional Dyadic Motion Capture,IEMOCAP)情感数据集上对该方法进行评估,加权准确率达到了75.2%,非加权准确率达到了75.8%,证明了该模型对提升情感识别效率的有效性。 展开更多
关键词 多模态情感识别 感受野 特征蒸馏 特征融合
下载PDF
普通话多模态情感语音数据库构建与评测
12
作者 李良琦 张雪英 +3 位作者 段淑斐 肖仲喆 贾海蓉 梁慧芝 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期18-31,共14页
本文设计并建立了一个包含发音运动学、声学、声门和面部微表情的多模态情感语音汉语普通话数据库,分别从语料设计、被试选择、录制细节和数据处理等环节进行了详细的描述,其中信号被标记为离散情感标签(中性、愉悦、高兴、冷漠、愤怒... 本文设计并建立了一个包含发音运动学、声学、声门和面部微表情的多模态情感语音汉语普通话数据库,分别从语料设计、被试选择、录制细节和数据处理等环节进行了详细的描述,其中信号被标记为离散情感标签(中性、愉悦、高兴、冷漠、愤怒、忧伤、悲痛)和维度情感标签(愉悦度、激活度、优势度)。本文对维度标注的数据进行统计学分析,验证标注的有效性,同时验证标注者的SCL-90量表数据并与PAD标注数据结合后进行分析,探究标注中存在的离群现象与标注者心理状况之间的内在联系。为验证该数据库的语音质量和情感区分度,本文使用SVM、CNN、DNN3种基础模型计算了7种情感的识别率。结果显示,单独使用声学数据时7种情感的平均识别率达到了82.56%;单独使用声门数据时平均识别率达到了72.51%;单独使用运动学数据时平均识别率也达到了55.67%。因此,该数据库具有较高的质量,能够作为语音分析研究的重要来源,尤其是多模态情感语音分析的任务。 展开更多
关键词 情感语音数据库 多模态情感识别 维度情感空间 三维电磁发音仪 电子声门仪
下载PDF
基于XLNet-CBGRU的双模态音乐情感识别
13
作者 董晓斌 王亮 《物联网技术》 2023年第10期33-36,共4页
音乐由音频数据和歌词数据构成,针对单模态音乐情感识别的不足以及文本情感识别中的Word2Vec等技术只能静态地提取文本的词向量,未考虑到文本的深处信息,因此提出一种基于XLNet-CNN-BiGRU的音乐双模态情感识别模型。该模型由CNN-BiGRU... 音乐由音频数据和歌词数据构成,针对单模态音乐情感识别的不足以及文本情感识别中的Word2Vec等技术只能静态地提取文本的词向量,未考虑到文本的深处信息,因此提出一种基于XLNet-CNN-BiGRU的音乐双模态情感识别模型。该模型由CNN-BiGRU音频情感特征提取模块、XLNet-BiGRU文本情感特征提取模块以及结合了互注意力机制的双模态特征融合模块构成。实验结果表明,所提出模型与对比模型相比,识别准确率有所提高。 展开更多
关键词 多模态情感识别 音乐情感识别 XLNet CNN CBGRU 词向量 互注意力机制
下载PDF
基于多特征融合的藏语语音情感识别
14
作者 谷泽月 边巴旺堆 祁晋东 《现代电子技术》 2023年第21期129-133,共5页
藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,为了构建具有高效性和... 藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集(TBSEC001),并提出一种适合于藏语的手工语音情感特征集(TPEFS),该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS特征集在支持向量机(SVM)、多层感知机(MLP)、卷积神经网络(CNN)、长短时记忆网络(LSTM)这些经典网络中都取得了不错的效果。所提出的方法在藏语语音数据集(TBSEC001)上取得了88.4%的识别结果,以及在EMODB、RAVDESS、CASIA数据库上分别取得了84.1%、74.3%以及82.5%的识别结果。实验结果表明,该特征集在保证识别率的情况下,对藏语语音情感识别具有一定针对性。 展开更多
关键词 语音情感识别 特征提取 深度学习 深度特征 声音质量 多模态情感识别
下载PDF
基于SAE和LSTM RNN的多模态生理信号融合和情感识别研究 被引量:22
15
作者 李幼军 黄佳进 +1 位作者 王海渊 钟宁 《通信学报》 EI CSCD 北大核心 2017年第12期109-120,共12页
为了提高情感识别的分类准确率,提出一种将栈式自编码神经网络(SAE)和长短周期记忆单元循环神经网络(LSTM RNN)融合的多模态融合特征情感识别方法。该方法通过SAE对不同模态的生理特征进行信息融合和压缩,随后用LSTM RNN对长时间周期的... 为了提高情感识别的分类准确率,提出一种将栈式自编码神经网络(SAE)和长短周期记忆单元循环神经网络(LSTM RNN)融合的多模态融合特征情感识别方法。该方法通过SAE对不同模态的生理特征进行信息融合和压缩,随后用LSTM RNN对长时间周期的融合进行情感分类识别。通过将该方法用到开源数据集中进行验证,得到情感分类准确率达到0.792 6。实验结果表明,SAE对多模态生理特征进行了有效融合,LSTM RNN能够有效地对长时间周期中的关键特征进行识别。 展开更多
关键词 多模态生理信号情感识别 栈式自编码神经网络 长短周期记忆循环神经网络 多模态生理信号融合
下载PDF
基于遗传算法的多模态情感特征融合方法 被引量:7
16
作者 卢官明 程晓 +2 位作者 李霞 闫静杰 李海波 《南京邮电大学学报(自然科学版)》 北大核心 2019年第5期41-47,共7页
为了提高情感识别的准确率,针对单模态情感识别率低以及常规特征融合方法存在的缺点,提出了一种基于遗传算法的多模态情感特征融合方法,利用遗传算法对多个模态的情感特征进行选择、交叉以及重组。在eNTRAFACE’05表情-语音双模态情感... 为了提高情感识别的准确率,针对单模态情感识别率低以及常规特征融合方法存在的缺点,提出了一种基于遗传算法的多模态情感特征融合方法,利用遗传算法对多个模态的情感特征进行选择、交叉以及重组。在eNTRAFACE’05表情-语音双模态情感数据库上进行了情感识别测试,对基于面部表情或语音的单模态情感识别,以及基于特征层或决策层融合的各种双模态情感识别的性能进行了比较。实验结果表明,双模态情感识别的性能高于单模态情感识别,而且文中提出的基于遗传算法的多模态情感特征融合方法比其他几种常规的特征融合方法的效果好,验证了文中提出的方法的可行性和有效性。 展开更多
关键词 多模态情感识别 特征融合 特征选择 遗传算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部