混合连接时间/注意力机制端到端语音识别被引量：6

End-to-end Speech Recognition of Hybrid Connection Time and Attention Mechanism

导出

摘要为提高常规自动语音识别(ASR)系统的精度,提出基于隐式马尔可夫模型混合连接时间分类/注意力机制的端到端ASR系统设计方法。首先,针对可观测时变序列语音识别过程中存在的连续性强、词汇量大的语音识别难点,基于隐式马尔可夫模型对语音识别过程进行模拟,实现了语音识别模型参数化;其次,使用连接时间分类目标函数作为辅助任务,在多目标学习框架中训练语音识别过程的关注模型编码器,可降低序列级连接时间分类目标近似度,实现语音识别过程精度提升;最后,通过在自建语音识别库上的仿真实验,验证所提算法在识别效率和精度上的性能优势。 In order to improve the accuracy of the conventional automatic speech recognition(ASR) system, an end-to-end ASR system design method based on the Hidden Markov Model(HMM) connection time classification/attention mechanism is proposed. Firstly, the speech recognition process is simulated based on the implicit Markov model to realize the parameterization of the speech recognition model, aiming at the difficulty of speech recognition with strong continuity and large vocabulary in the speech recognition process of observable time variant sequence. Secondly, using the objective function as the auxiliary task, the attention model coder of the speech recognition process is trained in the multi-target learning framework, which can reduce the approximate degree of the sequence level connection time classification target and improve the accuracy of the speech recognition process. Finally, simulation experiments on the self-built speech recognition library verify the performance advantages of the proposed algorithm in terms of recognition efficiency and accuracy.

作者陈聪贺杰陈佳 CHEN Cong;HE Jie;CHEN Jia(School of Data Science and Sofware Engineering,Wuzhou University,Wuzhou 543002,China)

机构地区梧州学院大数据与软件工程学院

出处《控制工程》 CSCD 北大核心 2021年第3期585-591,共7页 Control Engineering of China

基金国家自然科学基金项目(61562074,61961036) 广西高校行业软件技术重点实验室资助项目。

关键词隐式马尔可夫连接时间分类注意力机制端到端语音识别 Hidden Markov connection time classification attention mechanism end-to-end speech recognition

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1魏星,周萍.改进型蚁群算法的语音动态规划研究[J].计算机仿真,2011,28(5):402-405. 被引量：7
2孙新建,张雄伟,杨吉斌,曹铁勇,钟新毅.基于双因子高斯过程动态模型的声道谱转换方法[J].自动化学报,2014,40(6):1198-1207. 被引量：3

二级参考文献42

1陈海花,孟庆春.基于蚁群算法的语音信号动态时间规划[J].哈尔滨工业大学学报,2006,38(10):1758-1761. 被引量：2
2M Dorigo, Maniezzo Vittorio, Colorni Alberto. The Ant System: Optimization by a colony of cooperating agents[ J]. IEEE Transac- tions on Systems, Man, and Cybernetics-Part B, 1996,26( 1 ) :1 -13.
3M Dorigo, L M Gambardella. Ant Colony System:A Cooperative Learning Approach to the Traveling Salesman Problem [ J ]. IEEE Transactions on Evolutionary Computation, 1997,1 ( 1 ) :53-66.
4Colornia, M Dorigo, V Maniezzo. Ant Colony system for job-shop scheduling[ J ]. Belgian J of Operations Research Statistics and Computer Science, 1994,34 ( 1 ) :39-53.
5V Maniezzo, A Carbonaro. An ants Heuristic for the frequency as- signnment problmn [ J ]. Future Generation Computer Systems, 2000, (16) :927-935.
6Moulines E, Sagisaka Y. Voice conversion: state of the art and perspectives. Special Issue of Speech Communication. The Netherlands, 1995, 16(2): 125-126.
7Furui S. Research of individuality features in speech waves and automatic speaker recognition techniques. Speech Communication, 1986, 5(2): 183-197.
8Abe M, Nakamura S, Shikano K, Kuwabara H. Voice conversion through vector quantization. In: Proceedings of the 1998 IEEE International Conference on Acoustic, Speech, and Signal Processing. New York, USA: IEEE, 1988. 655-658.
9Arslan L M. Speaker transformation algorithm using segmental codebooks (STASC). Speech Communication, 1999, 28(3): 211-226.
10Narendranath M, Murthy H A, Rajendran S, Yegnanarayana B. Transformation of formants for voice conversion using artificial neural networks. Speech Communication, 1995, 16(2): 207-216.

共引文献6

1吕敬民.第十册《基础训练5》听说写教学设想[J].小学语文教学,2000(6):55-55.
2李长荣,吴迪.水声信道盲均衡优化仿真研究[J].计算机仿真,2013,30(7):183-186. 被引量：3
3魏星,李志远,陈艳.基于蚁群和鱼群的混合优化光网络动态RWA算法[J].光通信技术,2015,39(3):47-49. 被引量：5
4魏星,李燕.蚁群算法中参数优化及其仿真研究[J].制造业自动化,2015,37(10):33-35. 被引量：9
5宋丽亚,赵国栋,张鹏.关于连续语音识别率优化仿真研究[J].计算机仿真,2016,33(3):395-400. 被引量：4
6荣昕萌,傅博.模板匹配问题的动态规划算法实现[J].软件导刊,2017,16(6):37-40.

同被引文献72

1刘元,匡文凯,苏盛,李彬.基于双通道能量差的环网柜局放信号消噪方法[J].仪器仪表学报,2021,42(2):218-227. 被引量：6
2夏茂森,江玲玲.基于深度网络CNN-LSTM模型的中国消费者信心指数预测[J].统计与决策,2021(7):21-26. 被引量：7
3艾佳琪,左毅,刘君霞,贺培超,李铁山,陈俊龙.基于余弦相似度的动态语音特征提取算法[J].计算机应用研究,2020,37(S02):147-149. 被引量：11
4赵正平.GaN微电子学的新进展(续)[J].半导体技术,2020,0(2):89-98. 被引量：1
5席道瑛,张涛.BP人工神经网络模型在测井资料岩性自动识别中的应用[J].物探化探计算技术,1995,17(1):42-48. 被引量：11
6连承波,李汉林,渠芳,蔡福龙,张军涛.基于测井资料的BP神经网络模型在孔隙度定量预测中的应用[J].天然气地球科学,2006,17(3):382-384. 被引量：28
7孙俊,潘玉君,和瑞芳,刘海琴,常楠静,刘树芬,李会仙.地理学第一定律之争及其对地理学理论建设的启示[J].地理研究,2012,31(10):1749-1763. 被引量：58
8白烨,薛林福,石玉江,潘保芝,张海涛,王建强.测井成岩相自动识别及其在鄂尔多斯盆地苏里格地区的应用[J].中国石油大学学报（自然科学版）,2013,37(1):35-41. 被引量：13
9顾昊元,肖翔,袁陈晨,黄梦斌,严佳,古晞.基于小波神经网络的松江区PM_(2.5)浓度预测[J].上海工程技术大学学报,2015,29(2):175-178. 被引量：4
10尹琪,胡红萍,白艳萍,王建中.基于GA-SVM的太原市空气质量指数预测[J].数学的实践与认识,2017,47(12):113-120. 被引量：21

引证文献6

1张鹏昊,秦斌.深度强化学习研究进展[J].电脑知识与技术,2021,17(28):104-106. 被引量：1
2谢崇波.一种注意力机制下的空气污染物预测方法[J].自动化与仪器仪表,2022(2):52-56.
3曾丽丽,孟凡月,汤华贝,牛艺晓,汤敏.基于注意力机制的碳酸盐岩储层岩相识别方法[J].测井技术,2022,46(3):294-303. 被引量：1
4孙弘扬,王尚.基于残差门控循环卷积和注意力机制的端到端光学乐谱识别方法[J].计算机与现代化,2022(7):85-90.
5张添添,王婧.基于At-LSTM模型的音/视频双流语音识别算法仿真[J].计算机仿真,2023,40(1):251-254. 被引量：3
6岳莉,李柯景,赵剑.改进粒子滤波跟踪的视听双模态语音识别仿真[J].计算机仿真,2024,41(9):213-216.

二级引证文献5

1何贤宏,李可赛,许家铖,伏美燕,杨玉霏,孙佳琦.基于聚类-支持向量机算法的碳酸盐岩测井岩相识别模型与应用[J].测井技术,2023,47(2):129-137. 被引量：1
2王斌,田士来,王小成,王瀚,叶伟.以ChatGPT为代表的人工智能技术在医学教育中的机遇与挑战[J].医学教育研究与实践,2023,31(4):402-405. 被引量：11
3张丽群,薛世峰.基于ELM的控制器算法在机器人触觉识别和语音交互中的应用[J].自动化与仪器仪表,2023(12):161-164. 被引量：1
4郭凯丽,王建英.非平稳强噪声环境中的音频信号端点检测系统[J].现代电子技术,2024,47(10):18-22.
5刘俊丽.基于LSTM的语音字幕转换技术[J].电声技术,2024,48(6):47-49.

1陈明帅,吴克河.基于shell命令的内部攻击检测[J].计算机与现代化,2021(1):56-60. 被引量：1
2肖鹏,谢行俊,双海清,刘朝阳,王海宁,徐经苍,马军红.小波-极限学习机在瓦斯涌出量时变序列预测中的应用[J].西安科技大学学报,2020,40(5):839-845. 被引量：11
3张晓荣.分析小学数学教学中学生逻辑思维能力的培养对策[J].女人坊,2021(4):00073-00073.
4沈群.经穴安神,让睡眠更香甜[J].大众医学,2021(2):76-76.
5杨鼎璞,程相镖.反洗钱受益所有人识别难点[J].中国金融,2021(1):102-102. 被引量：1
6许永武,邹金池,赵时.智能语音识别分析在广播电视内容监测中的应用探讨[J].广播电视网络,2021,28(3):36-38. 被引量：5
7张一鸣,王国胤,胡军,傅顺.基于密度峰值和网络嵌入的重叠社区发现[J].山东大学学报（理学版）,2021,56(1):91-102. 被引量：1
8楚青云.基于计算机应用基础的翻转课堂教学模式的应用[J].数字通信世界,2021(3):217-218. 被引量：3
9张树栋,高海昌,曹曦文,康帅.针对ASR系统的快速有目标自适应对抗攻击[J].西安电子科技大学学报,2021,48(1):168-175. 被引量：3
10晏媛,孙俊,孙晶明,于俊朋.雷达小样本目标识别方法及应用分析[J].系统工程与电子技术,2021,43(3):684-692. 被引量：9

控制工程

2021年第3期

浏览历史

内容加载中请稍等...

混合连接时间/注意力机制端到端语音识别被引量：6

参考文献2

二级参考文献42

共引文献6

同被引文献72

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

混合连接时间/注意力机制端到端语音识别 被引量：6

参考文献2

二级参考文献42

共引文献6

同被引文献72

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

混合连接时间/注意力机制端到端语音识别被引量：6