-
题名基于STA-CRNN模型的语声情感识别
被引量:1
- 1
-
-
作者
张志浩
王坤侠
-
机构
安徽建筑大学电子与信息工程学院
安徽建筑大学安徽省建筑声环境重点实验室(安徽建筑大学)
-
出处
《应用声学》
CSCD
北大核心
2022年第5期843-850,共8页
-
基金
国家自然科学基金项目(62001004)
安徽省高校学科(专业)拔尖人才学术资助项目(gxbjZD2021067)
+2 种基金
安徽建筑大学科研发展基金项目(JZ202118)
安徽省高校自然科学研究重点项目(KJ2020A0470)
安徽建筑大学安徽省建筑声环境重点实验室开放课题(AAE2021ZR02)。
-
文摘
语声情感识别对人机交互和情感计算研究领域具有重要作用,各类研究方法层出不穷。近期研究学者应用卷积神经网络和长短期记忆网络方法提取对数Mel谱图空间特征和时间特征,取得了一定的成果。然而不论是卷积神经网络还是长短期记忆网络提取特征时,都会产生特征冗余,导致语声情感识别效果下降。针对这一问题,该文提出了一种基于时空注意力机制的卷积-递归神经网络模型,采用对数Mel谱图和其一阶差分、二阶差分作为特征输入,在使用卷积神经网络提取空间特征和长短期记忆网络提取时间特征时,加入空间注意力和时间注意力机制,从而使上述网络能够更好地提取到对数Mel谱图中有效表征情感的空间特征和时间特征。该模型在Emo-DB和IEMOCAP语声数据集上的加权准确率分别达到86.8%、69.4%,未加权准确率分别达到84.7%、65.5%,优于当前大多数先进方法。
-
关键词
语声情感识别
对数Mel频谱图
时空注意力
时间特征
空间特征
-
Keywords
Speech emotion recognition
Log-Mel
Spatiotemporal attention
Time features
Spatial features
-
分类号
TN912.34
[电子电信—通信与信息系统]
-