基于注意力机制的卷积循环网络语音降噪被引量：9

Speech Denoising Based on Attention Mechanism Using Convolution Loop Network

下载PDF

导出

摘要不同噪声在频谱上具有不同的特性,为了解决卷积神经网络对含有不同噪声的语音降噪的局限性,通过引入通道注意力机制作为卷积循环网络的中间层,将卷积层中不同功能的卷积核赋予不同的权重,使模型在训练时能够对输入数据更有针对性地去除噪声部分,从而达到更好的降噪效果。针对含有15种噪声的含噪语音分别应用循环神经网络、编解码卷积网络和卷积循环神经网络等三种模型进行降噪处理,结果表明引入注意力机制的模型相比于其他两种模型,在感知语音质量评价(perceptual evaluation of speech quality,PESQ)和短时客观可懂度(short time objective intelligibility,STOI)评分上都有所提高,且引入注意力机制的模型能够更好地保留语音的谐波信息。 Different noises have different characteristics in frequency spectrum,in order to solve the limitation of convolutional neural network for speech denoising with different noises,through the introduction of channel attention mechanism as the middle layer of convolution loop network,the convolution kernel of different functions in the convolution layer was given different weights,so that the model can be more targeted to remove the noise part of the input data in training,so as to achieve better denoising effect.For noisy speech with 15 kinds of noise,three models of recurrent neural network,codec convolutional neural network and convolutional recurrent neural network were used for noise reduction respectively.The results show that the model with attention mechanism can improve the perceptual evaluation of speech quality(PESQ)and short time objective intelligibility(STOI)scores compared with the other two models,and the model with attention mechanism can better retain the harmonic information of speech.

作者徐浩森姜囡齐志坤 XU Hao-sen;JIANG Nan;QI Zhi-kun(College of Public Security Information Technology and Intelligence, Criminal Investigation Police University of China, Shenyang 110854, China)

机构地区中国刑事警察学院公安信息技术与情报学院

出处《科学技术与工程》北大核心 2022年第5期1950-1957,共8页 Science Technology and Engineering

基金广州市科技计划(2019030004) 辽宁省科技厅联合开放基金机器人学国家重点实验室开放基金(2020-KF-12-11) 中央高校基本科研业务费专项资金(3242019010) 辽宁省自然科学基金(2019-ZD-0168) 科技部国家重点研发专项(2017YFC0821005) 教育部重点研究项目(E-AQGABQ20202710) 证据科学教育部重点实验室开放基金(2021KFKT09)。

关键词语音降噪自编解码网络卷积循环网络通道注意力机制 speech denoising self-encoding and decoding network convolution cyclic network channel attention mechanism

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1崔建峰,邓泽平,申飞,史文武.基于非负矩阵分解和长短时记忆网络的单通道语音分离[J].科学技术与工程,2019,19(12):206-210. 被引量：4
2张行,赵馨.基于神经网络噪声分类的语音增强算法[J].中国电子科学研究院学报,2020,15(9):880-885. 被引量：4
3蓝天,彭川,李森,叶文政,李萌,惠国强,吕忆蓝,钱宇欣,刘峤.单声道语音降噪与去混响研究综述[J].计算机研究与发展,2020,57(5):928-953. 被引量：17
4闫昭宇,王晶.结合深度卷积循环网络和时频注意力机制的单通道语音增强算法[J].信号处理,2020,36(6):863-870. 被引量：10
5袁文浩,胡少东,时云龙,李钊,梁春燕.一种用于语音增强的卷积门控循环网络[J].电子学报,2020,48(7):1276-1283. 被引量：12

二级参考文献18

1周晓凤,肖南峰,文翰.基于情感特征分类的语音情感识别研究[J].计算机应用研究,2012,29(10):3648-3650. 被引量：5
2袁文浩,林家骏,王雨,陈宁.一种基于噪声分类的语音增强方法[J].华东理工大学学报（自然科学版）,2014,40(2):196-201. 被引量：5
3刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：70
4孟欣,马建芬,张雪英.改进的参数自适应的维纳滤波语音增强算法[J].计算机工程与设计,2017,38(3):714-718. 被引量：8
5刘斌,陶建华.联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法[J].信号处理,2017,33(3):268-272. 被引量：11
6吴进,赵隽,李乔深.基于维纳过滤的IMCRA算法[J].西安邮电大学学报,2017,22(5):73-77. 被引量：2
7张雄伟,李轶南,郑昌艳,曹铁勇,孙蒙,闵刚.语音去混响技术的研究进展与展望[J].数据采集与处理,2017,32(6):1069-1081. 被引量：7
8OU Shifeng,SONG Peng,GAO Ying.Laplacian Speech Model and Soft Decision Based MMSE Estimator for Noise Power Spectral Density in Speech Enhancement[J].Chinese Journal of Electronics,2018,27(6):1214-1220. 被引量：5
9杨绪魁,屈丹,张文林,闫红刚.基于长时信息的自适应话音激活检测[J].电子学报,2018,46(4):878-885. 被引量：2
10凌佳佳,袁晓兵.联合噪声分类和掩码估计的语音增强方法[J].电子设计工程,2018,26(17):30-34. 被引量：3

共引文献36

1刘元,匡文凯,苏盛,李彬.基于双通道能量差的环网柜局放信号消噪方法[J].仪器仪表学报,2021,42(2):218-227. 被引量：6
2傅洪亮,雷沛之.基于去噪自编码器和长短时记忆网络的语音测谎算法[J].计算机应用,2020,40(2):589-594. 被引量：4
3祁晓,赵连玉.基于多频带谱减法的老年人语音增强算法的研究[J].电声技术,2020,44(5):34-37.
4梁力,莫晓毅,柯华强.基于语音识别技术的测试平台研究[J].科技视界,2020(31):17-18. 被引量：1
5许春冬,徐琅,周滨,凌贤鹏.单通道语音增强技术的研究现状与发展趋势[J].江西理工大学学报,2020,41(5):55-64. 被引量：1
6曹洁,周尧风,于泓,李晓旭.基于SI-SDR优化的生成对抗网络语音增强方法[J].华中科技大学学报（自然科学版）,2020,48(11):17-23. 被引量：5
7崔子豪,鲍长春.基于广义合成分析和深度神经网络的自回归系数估计方法[J].电子学报,2021,49(1):29-39. 被引量：4
8孙立辉,曹丽静,张竟雄.基于升降编解码全卷积神经网络语音增强技术[J].智能计算机与应用,2021,11(2):19-22.
9李俊,夏松竹,兰海燕,李守政,孙建国.基于GRU-RNN的网络入侵检测方法[J].哈尔滨工程大学学报,2021,42(6):879-884. 被引量：33
10贾海蓉,梅淑琳,张敏.基于双通道神经网络时频掩蔽的语音增强算法[J].华中科技大学学报（自然科学版）,2021,49(6):43-49. 被引量：5

同被引文献77

1蔡哲元,余建国,张敏敏,金震东.胰腺内镜超声图像纹理特征提取与分类研究[J].生物医学工程学进展,2008,29(3):141-145. 被引量：6
2张继勇,sp.cs.tsinghua.edu.cn,郑方,sp.cs.tsinghua.edu.cn,杜术,sp.cs.tsinghua.edu.cn,宋战江,sp.cs.tsinghua.edu.cn,徐明星,sp.cs.tsinghua.edu.cn.连续汉语语音识别中基于归并的音节切分自动机[J].软件学报,1999,10(11):1212-1215. 被引量：10
3张君昌,赵莉.一种基于改进EMD的语音去噪方法[J].计算机仿真,2011,28(8):397-400. 被引量：4
4阿依木尼萨.胡甫尔,艾斯卡尔.艾木都拉.面向语音合成的维吾尔语音素自动切分算法研究[J].计算机应用与软件,2011,28(9):18-21. 被引量：4
5张金溪,李永宏,单广荣,李照耀,江静.面向语音合成的藏语单音素与三音素自动切分算法研究[J].计算机应用研究,2013,30(11):3272-3275. 被引量：5
6张怡,胡晓东.苗汉语音节结构对比分析[J].赤峰学院学报（哲学社会科学版）,2014,35(4):196-197. 被引量：1
7李洋,景新幸,杨海燕.基于改进小波阈值和EMD的语音去噪方法[J].计算机工程与设计,2014,35(7):2462-2466. 被引量：20
8卓嘎,边巴旺堆,姜军.双门限算法在藏语语音音节分割中的应用分析[J].科学技术与工程,2015,35(14):196-199. 被引量：3
9王丽.基于GUI的自适应滤波器仿真平台设计[J].软件导刊,2015,14(8):168-170. 被引量：2
10李欢欢,王金明,尹海明,徐志军,孔磊,张开礼.一种改进的基于Viterbi的语音切分算法[J].通信技术,2015,48(9):1027-1031. 被引量：4

引证文献9

1文晓媚,黄丹平,胡珊珊,宁波.基于超声内镜的智能胰腺癌变检测网络[J].科学技术与工程,2022,22(34):15203-15212. 被引量：1
2丁晓鸽,王成义.基于MATLAB GUI的语音信号去噪处理[J].信息技术与信息化,2023(2):26-29. 被引量：2
3文雅洁,陈娟.多轨道数字音频自适应变阶谱降噪模型构建[J].现代电子技术,2023,46(23):55-58.
4许春冬,黄乔月,王磊,徐锦武.融合动态场景感知和注意力机制的声学回声消除算法[J].信号处理,2024,40(2):396-405.
5徐浩森,姜囡,齐志坤.基于自注意力机制的卷积循环网络语音降噪[J].计算机仿真,2024,41(4):500-506.
6陈旭东,何宏,周焱平.基于Conv-Attention-MLP的新能源汽车电池异常检测方法[J].科技资讯,2024,22(4):98-102.
7许苏魁,万家山,潘敬敏,胡婷婷.基于FullSubNet的单通道实时语音增强算法[J].科学技术创新,2024(9):95-98.
8冯夫健,吴磊,谭棉,蔡姗,张学文,王林.苗语语音音节自适应切分算法[J].科学技术与工程,2024,24(14):5863-5871.
9蔡姗,王林,谭棉,郭胜,吴磊,王飞.基于子音节表征的苗语语音合成方法[J].科学技术与工程,2024,24(19):8176-8185.

二级引证文献3

1汤湛成,刘杰,邵德伟.语音信号处理与模式识别的结合——语音识别的机器学习方法[J].计算机应用文摘,2023,39(23):93-95.
2符龙生.海南临高方言语音数据预处理技术[J].电脑编程技巧与维护,2024(2):83-85. 被引量：2
3张浩田,黄丹平,王靖丹,胡珊珊.基于孪生ConvNeXt网络的超声内镜胰腺病变诊断方法[J].科学技术与工程,2024,24(29):12614-12622.

1高峰,张宏伟.一种基于感知语音质量评价的列车显示器语音自动检测方法[J].控制与信息技术,2021(1):76-80. 被引量：1
2储有亮,李梁.基于DBLSTM-DCNN的骨导和气导语音转换[J].声学技术,2021,40(6):815-821.
3张龙,徐天鹏,王朝兵,易剑昱,甄灿壮.基于卷积门控循环网络的齿轮箱故障诊断[J].吉林大学学报（工学版）,2022,52(2):368-376. 被引量：7
4王丽杰,唐宏芬,张真真,张路娜.基于新型混合深度学习的风电机组功率预测模型开发及应用[J].电力科技与环保,2022,38(1):72-78. 被引量：12
5蒋学仕.结合语音包络的变步长LMS语音自动增益控制[J].电讯技术,2022,62(2):252-258. 被引量：2
6郭业才,许雪,刘力玮.基于Kalman滤波的GSC改进语音增强算法[J].数据采集与处理,2021,36(5):884-890. 被引量：3
7魏赟,李凌鹤.使用改进自编码器的细粒度图像分类研究[J].小型微型计算机系统,2022,43(1):111-116. 被引量：2
8关鹏,张毅.自动扶梯轴承健康指标提取及剩余寿命预测方法研究[J].机电工程,2022,39(2):202-209. 被引量：3
9徐雯捷,宋慧慧,袁晓彤,刘青山.轻量级注意力特征选择循环网络的超分重建[J].中国图象图形学报,2021,26(12):2826-2835. 被引量：2
10苏冠英.经济全球化的进程调整与应对——基于国际政治经济学视角[J].对外经贸实务,2022(2):34-37. 被引量：1

科学技术与工程

2022年第5期

浏览历史

内容加载中请稍等...

基于注意力机制的卷积循环网络语音降噪被引量：9

参考文献5

二级参考文献18

共引文献36

同被引文献77

引证文献9

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于注意力机制的卷积循环网络语音降噪 被引量：9

参考文献5

二级参考文献18

共引文献36

同被引文献77

引证文献9

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于注意力机制的卷积循环网络语音降噪被引量：9