基于深度LSTM的端到端的语音识别被引量：14

End-to-End Speech Recognition Based on Depth-Gated LSTM

下载PDF

导出

摘要基于长短时记忆(LSTM)神经网络在语音识别方面的良好性能,本文引入了一种新的深度LSTM方法.该方法利用深度控制门控函数连接多层LSTM单元,在循环神经网络中引入了上下层之间的线性相关性,可以更深层地构建语音模型.同时利用链接时序分类的训练准则进行模型训练,搭建端到端语音识别系统,解决了隐马尔可夫模型需要将标签和序列强制对齐的问题.实验表明,深度LSTM可以提高语音建模的性能,相比使用标准LSTM的模型,在准确率方面提高约4%. Based on good performance of the long-short term memory(LSTM) neural network in speech recognition, a new depth-gated LSTM method is introduced. This method used depth control gating function to connect LSTM units, and introduced the linear correlation between the upper and lower recurrent units, which can further construct the speech model. Moreover, the training criterion based on connectionist temporal classification was applied to the acoustic model training and an end-to-end speech recognition system was built to solve the problem that hidden Markov model which needs to align labels and sequences forcibly. Experiments show that depth-gated LSTM can improve the performance of speech modeling. Compared with the model using standard LSTM, the accuracy of depth-gated LSTM is improved by about 4%.

作者张瑞珍韩跃平张晓通 ZHANG Rui-zhen;HAN Yue-ping;ZHANG Xiao-tong(School of Information and Communication Engineering,North University of China,Taiyuan 030051,China)

机构地区中北大学信息与通信工程学院

出处《中北大学学报（自然科学版）》 CAS 2020年第3期244-248,共5页 Journal of North University of China(Natural Science Edition)

关键词语音识别深度LSTM 链接时序分类端到端 speech recognition depth-gated LSTM connectionist temporal classification end-to-end

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献4

1姚煜,RYAD Chellali.基于双向长短时记忆联结时序分类和加权有限状态转换器的端到端中文语音识别系统[J].计算机应用,2018,38(9):2495-2499. 被引量：16
2赵淑芳,董小雨.基于改进的LSTM深度神经网络语音识别研究[J].郑州大学学报（工学版）,2018,39(5):63-67. 被引量：26
3舒帆,屈丹,张文林,周利莉,郭武.采用长短时记忆网络的低资源语音识别方法[J].西安交通大学学报,2017,51(10):120-127. 被引量：20
4孙健,郭武.基于链接时序分类的日语语音识别[J].小型微型计算机系统,2018,39(10):2129-2133. 被引量：3

二级参考文献7

1史笑兴,顾明亮,王太君,何振亚.一种时间规整算法在神经网络语音识别中的应用[J].东南大学学报（自然科学版）,1999,29(5):47-51. 被引量：9
2孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：623
3余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：610
4吴蔚澜,蔡猛,田垚,杨晓昊,陈振锋,刘加,夏善红.低数据资源条件下基于Bottleneck特征与SGMM模型的语音识别系统[J].中国科学院大学学报（中英文）,2015,32(1):97-102. 被引量：9
5陆梨花,张连海,陈琦.基于加权有限状态转换器的语音查询项检索技术[J].数据采集与处理,2015,30(2):390-398. 被引量：2
6陶佰睿,郭琴,苗凤娟,李青龙.基于自适应Mel滤波器组的MFCC特征提取的SOC设计[J].郑州大学学报（工学版）,2016,37(3):11-15. 被引量：3
7刘加,张卫强.低资源语音识别若干关键技术研究进展[J].数据采集与处理,2017,32(2):205-220. 被引量：8

共引文献59

1王怡,普运伟.基于CNN-BiLSTM-Attention融合神经网络的大气温度预测[J].中国水运（下半月）,2023(1):25-27. 被引量：3
2李卉,何晶,程富强,王晓薇,詹炳光.基于LSTM模型的卫星电源系统异常检测方法[J].装甲兵工程学院学报,2019,33(3):90-96. 被引量：3
3宋宇,李治霖,程超.基于CNN-BILSTM的工业控制系统ARP攻击入侵检测方法[J].计算机应用研究,2020,37(S02):242-244. 被引量：14
4徐冬冬,蒋志翔.基于深度优化残差卷积神经网络的端到端语音识别[J].计算机应用研究,2020,37(S02):139-141. 被引量：7
5郭龙银,扎西多吉,尚慧杰,旦增.基于LSTM的藏语语音识别[J].电脑知识与技术,2020,0(4):154-155. 被引量：2
6胡希颖,王大东,陈佳欣.基于NAO机器人的BLSTM-CTC的声学模型研究[J].智能计算机与应用,2021,11(3):76-79. 被引量：1
7周虎,张承明,张仁堂,杨晓霞,陈岩.红枣黑变过程中主要成分连续变化模拟方法[J].科教导刊（电子版）,2018,0(15):284-285.
8张德正,翁理国,夏旻,曹辉.基于深度卷积长短时神经网络的视频帧预测[J].计算机应用,2019,39(6):1657-1662. 被引量：7
9唐铠,陆鹏.SOM-LSTM递归神经网络语音端点检测系统[J].信息通信,2019,0(5):50-53. 被引量：1
10马清华,韩笑.论语言的迭代机制及其在称代系统中的作用[J].苏州大学学报（哲学社会科学版）,2019,40(3):153-167. 被引量：5

同被引文献109

1孙伟,宋如意,王宇航.视觉/惯性组合导航中的SWF与MSCKF对比研究[J].中国矿业大学学报,2020,49(1):198-204. 被引量：4
2周楠,艾剑良.基于HMM和RNN的无人机语音控制方案与仿真研究[J].系统仿真学报,2020,32(3):464-471. 被引量：12
3张良.人工智能下深度学习的语音识别方法分析[J].计算机产品与流通,2020,9(6):121-121. 被引量：5
4李业良,张二华,唐振民.基于混合式注意力机制的语音识别研究[J].计算机应用研究,2020,37(1):131-134. 被引量：10
5卢洵波,李昕.特征融合的VAD方法在语音识别系统中的应用[J].电子测量技术,2020(7):129-136. 被引量：2
6彭明智,许尧,胡永波,吴永恒,袁洪德.基于人工智能技术的变电站二次设备智能巡检技术[J].高电压技术,2023,49(S01):90-96. 被引量：11
7赵军辉,匡镜明,谢湘.应用于军事指挥中的鲁棒性语音识别系统[J].兵工学报,2004,25(4):509-512. 被引量：5
8韩一,王国胤,杨勇.基于MFCC的语音情感识别[J].重庆邮电大学学报（自然科学版）,2008,20(5):597-602. 被引量：23
9吕霄云,王宏霞.基于MFCC和短时能量混合的异常声音识别算法[J].计算机应用,2010,30(3):796-798. 被引量：29
10刘加.汉语大词汇量连续语音识别系统研究进展[J].电子学报,2000,28(1):85-91. 被引量：50

引证文献14

1任燕龙,谷建伟,崔文富,张以根.基于改进果蝇算法和长短期记忆神经网络的油田产量预测模型[J].科学技术与工程,2020,20(18):7245-7251. 被引量：14
2梁海珍.语音识别技术在智能家居领域应用[J].电子技术与软件工程,2021(4):100-101. 被引量：4
3柏财通,高志强,李爱,崔翛龙.基于门控网络的军事装备控制指令语音识别研究[J].计算机工程,2021,47(7):301-306. 被引量：5
4李玎,祝跃飞,芦斌,林伟.网络加密流量侧信道攻击研究综述[J].网络与信息安全学报,2021,7(4):114-130.
5杜凡,张敏,单祖植,杨再鹤.基于语言模型的调度语音智能识别研究[J].单片机与嵌入式系统应用,2022,22(2):55-59. 被引量：1
6张海民,程菲.深度学习下盲人避撞路径导航方法研究[J].南京信息工程大学学报（自然科学版）,2022,14(2):220-226. 被引量：2
7冯义,金宇,朱鹏.人工智能技术在自然语音纠错与反馈系统设计中的应用[J].计算技术与自动化,2022,41(2):184-188. 被引量：2
8许鸿奎,张子枫,卢江坤,周俊杰,胡文烨,姜彤彤.混合CTC/Attention模型在普通话识别中的应用[J].计算机与现代化,2022(8):1-6.
9韩雨男,周博超,张权.基于深度学习的DGA域名检测方法研究[J].中北大学学报（自然科学版）,2022,43(4):327-334. 被引量：1
10江官星,付悦.基于多任务训练的用户登入语音识别模型仿真[J].计算机仿真,2022,39(9):190-194. 被引量：4

二级引证文献35

1宋瑞蓉,王斌君,仝鑫,刘文懋.基于改进果蝇的混合小波神经网络交通流预测[J].科学技术与工程,2021,21(15):6394-6401. 被引量：7
2岑华,韦建军.基于反向认知果蝇优化算法的转向梯形机构设计[J].机械设计与研究,2021,37(3):42-45. 被引量：4
3周理,朱红求.基于自适应步长果蝇算法的爬行机器人足端轨迹规划[J].机械设计与研究,2021,37(3):60-63. 被引量：2
4周慧怡.基于WSN的智能家居环境监测服务平台[J].工业控制计算机,2021,34(7):131-132. 被引量：1
5刘建杰,马帅,程训聪,贺沅,郭东旭.基于人机交互的智能写字机器人设计[J].科学技术创新,2021(25):48-49. 被引量：2
6潘纹,肖任贤.基于动态步长果蝇算法的AGV路径规划[J].机械设计与研究,2021,37(4):21-25. 被引量：6
7潘少伟,郑泽晨,王吉哲,蔡文斌,王朝阳.基于长短期记忆网络和注意力机制的油井产油量预测[J].科学技术与工程,2021,21(30):13010-13015. 被引量：5
8翟亮.基于XGBoost算法的吸水剖面预测方法研究与应用[J].油气地质与采收率,2022,29(1):175-180. 被引量：5
9薛永超,袁志乾,金青爽,张春辉,赵天龙,刘佳,李海龙.基于深度森林算法的油井产量预测[J].科学技术与工程,2022,22(11):4327-4334. 被引量：10
10程国建,付王泽鹏.基于遗传算法的GRU神经网络采油量预测[J].信息技术与信息化,2022(5):5-10.

1阎艺璇,葛万成.循环神经网络在端到端语音识别中的应用[J].通信技术,2019,52(11):2659-2663.
2丁枫林,郭武,孙健.端到端维吾尔语语音识别研究[J].小型微型计算机系统,2020,41(1):19-23. 被引量：2
3张威,翟明浩,黄子龙,李巍,曹毅.SE-MCNN-CTC的中文语音识别声学模型[J].应用声学,2020,39(2):223-230. 被引量：10
4陈华春,古茂兢.基于CANDTU和LabVIEW的远程车载参数监控系统的实现[J].现代信息科技,2019,3(16):4-6.
5尹秋明,沈天飞,龚雪.基于改进的SVSLMS算法的语音识别系统研究[J].电子测量技术,2020,43(1):63-68. 被引量：4
6贺振婷.教学中芭蕾舞蹈风格转换古典舞蹈风格研究[J].艺术家,2019,0(10):113-113.
7龙华,杨明亮,邵玉斌.基于特征流融合的带噪语音检测算法[J].通信学报,2020,41(4):134-142. 被引量：7
8贺彦林,田业,顾祥柏,徐圆,朱群雄.基于正则化的函数连接神经网络研究及其复杂化工过程建模应用[J].化工学报,2020,71(3):1072-1079.
9王晓华,要鹏超,马丽萍,王文杰,张蕾.车间环境下机器人语音控制的特征提取算法[J].西安电子科技大学学报,2020,47(2):16-22. 被引量：4

中北大学学报（自然科学版）

2020年第3期

浏览历史

内容加载中请稍等...

基于深度LSTM的端到端的语音识别被引量：14

参考文献4

二级参考文献7

共引文献59

同被引文献109

引证文献14

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于深度LSTM的端到端的语音识别 被引量：14

参考文献4

二级参考文献7

共引文献59

同被引文献109

引证文献14

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于深度LSTM的端到端的语音识别被引量：14