融合多头注意力的VGGNet语音情感识别研究被引量：11

Study on voice emotional recognition with multi-headed attention in VGGNet

导出

摘要针对语音情感识别存在数据样本不足、识别准确率不高以及算法模型参数量大等问题,提出一种融合多头注意力的VGGNet语音情感识别方法。首先,通过在原语音中添加高斯白噪声以及对对数梅尔频谱图进行色彩饱和度处理的方法实现数据增强;然后,搭建一种轻量级VGGNet,将扩充后的频谱图输入到网络模型中;最后,将多头注意力机制与VGGNet相结合,有效提高语音情感识别算法的准确率。通过在RAVDESS和IEMOCP数据集上与其他主流算法进行跨数据集对比实验,表明该算法的识别准确率均达最高,分别为88.3%和77.11%。 A VGGNet speech emotion recognition method with multi-head attention is presented to solve the problems of insufficient data samples,low recognition accuracy and large number of algorithm model parameters in speech emotion recognition.First,data enhancement is achieved by adding white Gaussian noise to the original speech and processing the color saturation of the Log-Mel spectrogram.Then,a lightweight VGGNet is built to input the expanded spectrum into the network model.Finally,the combination of multi-head attention mechanism and VGNet can effectively improve the accuracy of speech affective recognition algorithm.The cross-dataset comparison experiments on RAVDESS and IEMOCP datasets show that the algorithm achieves the highest recognition accuracy of 88.3%and 77.11%,respectively.

作者焦亚萌周成智李文萍崔琳董免 Jiao Yameng;Zhou Chengzhi;Li Wenping;Cui Lin;Dong Mian(School of Electronices and Information,Xi’an Polytechnic University,Xi’an 710048,China)

机构地区西安工程大学电子信息学院

出处《国外电子测量技术》北大核心 2022年第1期63-69,共7页 Foreign Electronic Measurement Technology

基金陕西省教育厅专项科研计划(20JK0647) 陕西省自然科学基础研究计划(2021JQ692)项目资助。

关键词语音情感识别数据增强多头注意力机制 speech emotion recognition data augmentation multi-head self-attention

分类号 TP391.4 [自动化与计算机技术—计算机应用技术] TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献12

1孙晓虎,李洪均.语音情感识别综述[J].计算机工程与应用,2020,56(11):1-9. 被引量：16
2李海峰,陈婧,马琳,薄洪健,徐聪,李洪伟.维度语音情感识别研究综述[J].软件学报,2020,31(8):2465-2491. 被引量：17
3田熙燕,徐君鹏,杜留锋.基于语谱图和卷积神经网络的语音情感识别[J].河南科技学院学报（自然科学版）,2017,45(2):62-68. 被引量：8
4胡敏,高永,吴昊,王晓华,黄忠.融合边缘检测和递归神经网络的视频表情识别[J].电子测量与仪器学报,2020,32(7):103-111. 被引量：6
5张若凡,黄俊,古来,许二敏,古智星.基于语谱图的老年人语音情感识别方法[J].软件导刊,2018,17(9):28-31. 被引量：3
6夏鼎,徐文涛.基于生成对抗网络合成噪声的语音增强方法研究[J].电子技术应用,2020,46(11):56-59. 被引量：5
7徐桂芝,赵阳,郭苗苗,金铭.基于深度分离卷积的情绪识别机器人即时交互研究[J].仪器仪表学报,2019,40(10):161-168. 被引量：10
8蔡伟龙,毛建华.基于多头自注意力和SENet的远程监督关系抽取[J].电子测量技术,2020,43(21):132-136. 被引量：4
9邵兵,杜鹏飞.基于卷积神经网络的语音情感识别方法[J].科技创新导报,2016,13(6):87-90. 被引量：6
10李文杰,罗文俊,李艺文,苏成悦,陈玉怀,曹越.基于可分离卷积与LSTM的语音情感识别研究[J].信息技术,2020,44(10):61-66. 被引量：10

二级参考文献55

1张豪杰,毛建华.基于自注意力模型的企业关系抽取[J].电子测量技术,2020,43(10):101-105. 被引量：3
2韩文静,李海峰,韩纪庆.基于长短时特征融合的语音情感识别方法[J].清华大学学报（自然科学版）,2008,48(S1):708-714. 被引量：20
3韩文静,李海峰.基于韵律语段的语音情感识别方法研究[J].清华大学学报（自然科学版）,2009(S1):1363-1368. 被引量：8
4王晶,傅丰林,张运伟.语音增强算法综述[J].声学与电子工程,2005(1):22-26. 被引量：21
5李富强,万红,黄俊杰.基于MATLAB的语谱图显示与分析[J].微计算机信息,2005,21(10X):172-174. 被引量：27
6全宏声.金属基复合材料在航天结构中的应用[J].材料工程,2001(12):15.
7邢玉娟,李恒杰,张成文.一种改进的FSVM语音情感识别算法[J].重庆科技学院学报（自然科学版）,2012,14(5):140-142. 被引量：1
8赵艳,赵力,邹采荣.结合韵律和音质参数的改进二次判别式在语音情感识别中的应用[J].信号处理,2009,25(6):882-887. 被引量：5
9陈素玲,孙学杰.金属基复合材料的分类及制造技术研究进展[J].电焊机,2011,41(7):90-94. 被引量：11
10韩文静,李海峰,马琳.考虑情感程度相对顺序的维度语音情感识别[J].信号处理,2011,27(11):1658-1663. 被引量：2

共引文献92

1苗敏敏,徐宝国,胡文军,王爱民,宋爱国.基于自适应优化空频微分熵的情感脑电识别[J].仪器仪表学报,2021,42(3):221-230. 被引量：16
2柳长源,孙雨涵,李文强,兰朝凤.基于MAResnet的脑电情感识别研究[J].仪器仪表学报,2020,41(7):235-242. 被引量：6
3刘娟,胡敏,黄忠.基于区域NSBP特征的加权证据融合表情识别[J].电子测量与仪器学报,2020(11):132-139. 被引量：3
4孙袖山,李剑,贺斌,庞润嘉,马翊翔,郭锦铭.基于ZYNQ的枪声识别系统设计[J].电子测量技术,2023,46(2):1-6. 被引量：2
5孙护军.小波神经网络在语音端点检测算法中的应用[J].计算机与数字工程,2018,46(9):1717-1720. 被引量：2
6张雄,刘蓉,刘明.基于卷积特征提取与融合的语音情感识别研究[J].电子测量技术,2018,41(16):138-142. 被引量：3
7张丽,吕军,强彦,刘继华.基于深度信念网络的语音情感识别[J].太原理工大学学报,2019,50(1):101-107. 被引量：8
8毕殿杰,魏苏林,赵涛,张子振.基于卷积神经网络的在线评论情感分析模型[J].河北科技师范学院学报,2019,33(2):41-47. 被引量：3
9刘珊,兰智高.养老服务机器人的技术发展趋势[J].计算机测量与控制,2019,27(7):1-6. 被引量：6
10郭卉,姜囡,任杰.基于MFCC和GFCC混合特征的语音情感识别研究[J].光电技术应用,2019,34(6):34-39. 被引量：10

同被引文献98

1费洪磊,袁琦,郑玉叶.基于深度学习的癫痫脑电不平衡分类方法[J].仪器仪表学报,2021,42(3):231-240. 被引量：10
2李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：14
3陶志勇,闫明豪,刘影,杜福廷.基于AG-CNN的轻量级调制识别方法[J].电子测量与仪器学报,2022,36(4):241-249. 被引量：2
4梁继然,陈壮,董国军,陈琦,许延雷.结合注意力机制和密集连接网络的车辆检测方法[J].电子测量与仪器学报,2022,36(3):210-216. 被引量：13
5许雪琼,余小清,李昌莲,万旺根.改进波形相似叠加算法的音频时长调整[J].应用科学学报,2009,27(5):514-519. 被引量：2
6张旭.基于二维照片进行人脸识别的算法研究[J].计算机仿真,2012,29(3):330-333. 被引量：2
7王健,韩志艳.基于正交实验设计的语音情感识别参数优化[J].计算机技术与发展,2013,23(3):109-111. 被引量：2
8李翔,李昕,胡晨,卢夏衍.面向智能机器人的Teager语音情感交互系统设计与实现[J].仪器仪表学报,2013,34(8):1826-1833. 被引量：10
9韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：169
10李霞,卢官明,闫静杰,张正言.多模态维度情感预测综述[J].自动化学报,2018,44(12):2142-2159. 被引量：26

引证文献11

1张晋婧,刘双峰,丰雷,张瑜.融合注意力机制的人脸识别算法研究[J].国外电子测量技术,2023,42(2):107-113. 被引量：7
2朱海艳,张付春,季跃龙,李盟,王百洋.基于神经网络的脑电信号体质检测研究[J].数字印刷,2022(6):53-63. 被引量：1
3崔晨露,崔琳.面向数据增强的轻量化语音情感识别[J].计算机与现代化,2023(4):83-89. 被引量：4
4闫超,贾振堂.基于Transformer与增强信息融合的双源情感识别[J].国外电子测量技术,2023,42(4):187-193. 被引量：3
5任倩,王博.基于人机交互的心理健康监测数据异常标记识别研究[J].自动化与仪器仪表,2023(7):182-186.
6许春冬,汪雄,闵源.融合注意力机制的SimNet声音事件定位与检测算法[J].国外电子测量技术,2023,42(8):33-39.
7孙颖,李泽,张雪英.基于约束式双通道模型的语音情感识别[J].东北大学学报（自然科学版）,2023,44(11):1537-1542. 被引量：1
8黄磊,赵津.基于多头注意力机制的曝光控制算法[J].国外电子测量技术,2023,42(11):1-7.
9吴晓,牟璇,刘银华,刘晓瑞.一种基于语音、文本和表情的多模态情感识别算法[J].西北大学学报（自然科学版）,2024,54(2):177-187. 被引量：2
10朱芳慧.融合注意力机制的人机交互儿童情感识别技术研究[J].自动化与仪器仪表,2024(7):251-255.

二级引证文献18

1王敏,王康,孙硕,李晟,吴佳.基于SKPE-ShuffleNetv2的药片缺陷识别方法[J].国外电子测量技术,2023,42(6):188-195.
2许萌,韩鹏.面向学前教育对话机器人的多模态情感识别实现关键技术[J].自动化与仪器仪表,2023(9):137-141.
3何佑明,马荣荣.基于深度学习的低质量图像模糊人脸识别方法[J].宁夏师范学院学报,2023,44(10):75-83. 被引量：2
4孟祥周,李映君,王桂从,蒙天生.融合卷积块注意力模块和Siamese神经网络的人脸识别算法[J].光学精密工程,2023,31(21):3192-3202. 被引量：1
5陶迎雪,杜艳平,窦水海,王兆华,白慧娟,孙兆永.基于频率通道注意力机制和DenseNet45模型的齿轮故障诊断方法[J].印刷与数字媒体技术研究,2023(6):38-48.
6黄飞燕,曾上游,邱泓语.基于增强全局-局部特征融合的视频描述生成方法[J].国外电子测量技术,2024,43(1):1-9.
7顾春睿,刘银华,赵祥涛.基于骨骼关键点的室外群体情绪识别[J].传感器与微系统,2024,43(4):119-123.
8白燕燕,白帆,张少哲,韩宗祥.基于语谱图滤波去噪的语音增强技术研究[J].电声技术,2024,48(2):45-47.
9张杰,汤嘉立.基于多模态融合技术的红外人脸识别方法[J].激光杂志,2024,45(5):246-251.
10陈华舒,卢振利,王伟栋.具身智文本内容生成的咖啡机器人系统设计[J].高技术通讯,2024,34(6):651-658.

1彭涛,郑传锟,张自力,刘军平,胡新荣,何儒汉.基于时空特征融合的语音情感识别[J].郑州大学学报（理学版）,2022,54(4):42-48.

国外电子测量技术

2022年第1期

浏览历史

内容加载中请稍等...

融合多头注意力的VGGNet语音情感识别研究被引量：11

参考文献12

二级参考文献55

共引文献92

同被引文献98

引证文献11

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

融合多头注意力的VGGNet语音情感识别研究 被引量：11

参考文献12

二级参考文献55

共引文献92

同被引文献98

引证文献11

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

融合多头注意力的VGGNet语音情感识别研究被引量：11