基于自注意力机制的卷积循环网络语音降噪

Convolutional Recurrent Network Speech Denoising Based on Self-Attention Mechanism

下载PDF

导出

摘要由于对非平稳噪声进行估计是提高含噪语音降噪效果的重要影响因素,因此利用卷积模块提高单帧含噪语音所包含的信息,并通过Transformer中的自注意力机制模块,使模型能够更加精确区分含噪语音中的噪声部分和语音部分,从而使转置卷积模块更加高效的完成语音降噪。针对Noisex-92噪声库中的15种噪声,分别应用LSTM网络、卷积循环网络和基于通道注意力机制的卷积循环网络模型进行对比分析,同时对测试集含噪语音进行降噪处理。实验结果表明,经过所提出的基于自注意力机制的卷积循环网络降噪后的语音在PESQ和STOI评分上均有较大提高,语谱图显示有效减少了噪声的残留。 Since the estimation of non-stationary noise is an important factor to improve the noise reduction effect of noisy speech,we used the convolution module to improve the information contained in single frame of noisy speech,and through the self-attention mechanism module in Transformer,enabled the model to distinguish the noise part from the speech part more accurately,so that the transpose convolution module more efficiently completed the speech noise reduction.LSTM network,convolutional loop network and convolutional loop network based on channel attention mechanism were used to compare and analyze 15 kinds of noise in Noisex-92 library.Meanwhile,noise reduction was performed for the noisy speech in the test set.The experimental results show that the proposed convolutional loop network based on self-attention mechanism has a great improvement in both PESQ and STOI scores,and the spectrogram display effectively reduces the residual noise.

作者徐浩森姜囡齐志坤 XU Hao-sen;JIANG Nan;QI Zhi-kun(College of Public Security Information Technology and Intelligence,Criminal Investigation Police University of China,Shenyang Liaoningl10854,China;Key Laboratory of Evidence Science,Ministry of Education,China University of Political Science and Law,Beijing 100088,China)

机构地区中国刑事警察学院公安信息技术与情报学院证据科学教育部重点实验室(中国政法大学)

出处《计算机仿真》 2024年第4期500-506,共7页 Computer Simulation

基金证据科学教育部重点实验室(中国政法大学)开放基金资助课题(2021KFKT09) 辽宁省科技厅联合开放基金机器人学国家重点实验室开放基金资助项目(2020-KF-12-11) 中国刑事警察学院重大计划培育项目(3242019010) 教育部重点研究项目(E-AQGABQ20202710) 辽宁省自然科学基金项目(2019-ZD-0168) 公安学科基础理论研究创新计划项目中央高校基本科研业务费专项资金资助(3242019010) 公安学科基础理论研究创新计划项目“公安技术基础理论与学科体系研究”(安全防范技术与工程基础理论与学科体系研究2022XKGJ0110)。

关键词语音降噪非平稳噪声自注意力机制深度学习 Speech noise reduction Non-stationary noise Self-attention mechanism Deep learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1徐浩森,姜囡,齐志坤.基于注意力机制的卷积循环网络语音降噪[J].科学技术与工程,2022,22(5):1950-1957. 被引量：9
2闫昭宇,王晶.结合深度卷积循环网络和时频注意力机制的单通道语音增强算法[J].信号处理,2020,36(6):863-870. 被引量：10
3吴君钦,王迎福.一种改进窗函数的低时延语音增强算法[J].计算机仿真,2022,39(2):203-211. 被引量：2
4黄张翼,周翊,刘金刚,刘宏清.基于广义加权贝叶斯估计的语音增强算法研究[J].计算机仿真,2018,35(11):170-174. 被引量：3

二级参考文献9

1王玥,李平,崔杰.听觉频域掩蔽效应的自适应β阶贝叶斯感知估计语音增强算法[J].声学学报,2013,38(4):501-508. 被引量：5
2张立伟,贾冲,张雄伟,闵刚,曾理.稀疏卷积非负矩阵分解的语音增强算法[J].数据采集与处理,2014,29(2):259-264. 被引量：13
3张立伟,张雄伟,胡永刚,闵刚,李轶南.改进贝叶斯非负矩阵分解的语音增强算法[J].解放军理工大学学报（自然科学版）,2015,16(5):407-412. 被引量：2
4崔建峰,邓泽平,申飞,史文武.基于非负矩阵分解和长短时记忆网络的单通道语音分离[J].科学技术与工程,2019,19(12):206-210. 被引量：4
5鲍长春,项扬.基于深度神经网络的单通道语音增强方法回顾[J].信号处理,2019,35(12):1931-1941. 被引量：18
6蓝天,彭川,李森,叶文政,李萌,惠国强,吕忆蓝,钱宇欣,刘峤.单声道语音降噪与去混响研究综述[J].计算机研究与发展,2020,57(5):928-953. 被引量：17
7闫昭宇,王晶.结合深度卷积循环网络和时频注意力机制的单通道语音增强算法[J].信号处理,2020,36(6):863-870. 被引量：10
8袁文浩,胡少东,时云龙,李钊,梁春燕.一种用于语音增强的卷积门控循环网络[J].电子学报,2020,48(7):1276-1283. 被引量：12
9张行,赵馨.基于神经网络噪声分类的语音增强算法[J].中国电子科学研究院学报,2020,15(9):880-885. 被引量：4

共引文献20

1赵晶晶,张晓娜.基于改进傅里叶变换的电子音乐信号降噪算法[J].现代电子技术,2020,43(7):43-47. 被引量：3
2高振凤.基于自动编码的机器人英语语音自动识别方法[J].自动化技术与应用,2021,40(7):96-100. 被引量：5
3徐浩森,姜囡,齐志坤.基于注意力机制的卷积循环网络语音降噪[J].科学技术与工程,2022,22(5):1950-1957. 被引量：9
4武瑞沁,陈雪勤,俞杰,王丽荣,赵鹤鸣.结合注意力机制的改进U-Net网络在端到端语音增强中的应用[J].声学学报,2022,47(2):266-275. 被引量：8
5胡少东,袁文浩,时云龙.融合自注意力的卷积门控循环网络语音增强[J].电讯技术,2022,62(7):953-958.
6徐浩森,姜囡,齐志坤.噪声分析在语音检验中的应用研究[J].警察技术,2022(4):51-56. 被引量：1
7WU Ruiqin,CHEN Xueqin,YU Jie,WANG Lirong,ZHAO Heming.Application of improved U-Net network with attention mechanism in end-to-end speech enhancement[J].Chinese Journal of Acoustics,2022,41(4):390-403.
8文晓媚,黄丹平,胡珊珊,宁波.基于超声内镜的智能胰腺癌变检测网络[J].科学技术与工程,2022,22(34):15203-15212. 被引量：1
9高志强,戴琳琳,景辉,王心雨.面向铁路客运站场景的语音降噪模型研究[J].铁路计算机应用,2023,32(2):7-12.
10丁晓鸽,王成义.基于MATLAB GUI的语音信号去噪处理[J].信息技术与信息化,2023(2):26-29. 被引量：2

1段云,邵玉斌,龙华,杜庆治.基于非线性语谱图联合判决的语种识别[J].微电子学与计算机,2024,41(5):99-108.
2马天奇,赵春雨,左挺.化学堵水调剖剂DX-9研制及应用[J].应用化工,2024,53(3):547-549.
3姜毅恒,汪志成,周书民.退役锂电池高压放电声音信号时频特征研究[J].机电工程技术,2024,53(4):297-302.

计算机仿真

2024年第4期

浏览历史

内容加载中请稍等...

基于自注意力机制的卷积循环网络语音降噪

参考文献4

二级参考文献9

共引文献20

相关作者

相关机构

相关主题

浏览历史