基于深度神经网络的蒙古语声学模型建模研究被引量：5

Mongolian acoustic modeling based on deep neural network

下载PDF

导出

摘要针对高斯混合模型在蒙古语语音识别声学建模中不能充分描述蒙古语声学特征之间相关性和独立性假设的问题,开展了使用深度神经网络模型进行蒙古语声学模型建模的研究。以深度神经网络为基础,将分类与语音特征内在结构的学习紧密结合进行蒙古语声学特征的提取,构建了DNN-HMM蒙古语声学模型,结合无监督预训练与监督训练调优过程设计了训练算法,在DNN-HMM蒙古语声学模型训练中加入dropout技术避免过拟合现象。最后,在小规模语料库和Kaldi实验平台下,对GMM-HMM和DNN-HMM蒙古语声学模型进行了对比实验。实验结果表明,DNN-HMM蒙古语声学模型的词识别错误率降低了7.5%,句识别错误率降低了13.63%;同时,训练时加入dropout技术可以有效避免DNN-HMM蒙古语声学模型的过拟合现象。 Considering the difficulty of using the Gaussian mixture model(GMM)to adequately describe the correlation and independence hypothesis of the Mongolian acoustic features in the acoustic modeling of Mongolian speech recognition,this study investigates an acoustic model based on deep neural network(DNN).Firstly,using DNN,the internal structure of phonetic features were classified and learned to extract the Mongolian acoustic features,and a DNNHMM Mongolian acoustic model was constructed.Secondly,a training algorithm was designed by combining unsupervised pre-training and supervised training tuning.In addition,dropout technology was added into the DNN-HMM Mongolian acoustic model training to avoid the over-fitting phenomenon.Finally,a comparative experiment was conducted for the GMM-HMM and DNN-HMM Mongolian acoustic models on basis of the small-scale corpus and Kaldi experimental platform.Experimental results show that the word recognition error rate of DNN-HMM Mongolian model was reduced by 7.5%and sentence recognition error rate was reduced by 13.63%.In addition,the over-fitting of DNN-HMM Mongolian acoustic model can be effectively avoided by adopting the dropout technique during training.

作者马志强李图雅杨双涛张力 MA Zhiqiang;LI Tuya;YANG Shuangtao;ZHANG Li(School of Data Science&Application,Inner Mongolia University of Technology,Hohhot 010080,China)

机构地区内蒙古工业大学数据科学与应用学院

出处《智能系统学报》 CSCD 北大核心 2018年第3期486-492,共7页 CAAI Transactions on Intelligent Systems

基金国家自然科学基金项目(61762070 61650205)

关键词语音识别声学模型 GMM-HMM DNN-HMM 监督学习预训练过拟合 DROPOUT speech recognition acoustic model GMM-HMM DNN-HMM supervised learning pre-training over-fitting dropout

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1马志强,张泽广,闫瑞,刘利民,冯永祥,苏依拉.基于N-Gram模型的蒙古语文本语种识别算法的研究[J].中文信息学报,2016,30(1):133-139. 被引量：3
2飞龙,高光来,闫学亮,王炜华.基于分割识别的蒙古语语音关键词检测方法的研究[J].计算机科学,2013,40(9):208-211. 被引量：2

二级参考文献10

1Bao Fei-long,Gao Guang-lai.The Research on Mongolian Spo-ken Term Detection Based on Confusion Network[C]∥Procee-dings of The Chinese Conference on Pattern Recognition(CCPR2012).Beijing,2012:606-612.
2Gao Guang-lai,Biligetu,Nabuqing,et al.A Mongolian speechrecognition system based on HMM[C]∥Proceedings of International Conference on Intelligent Computing(ICIC2006).Kunming,2006:667-676.
3Qilao H S,Gao Guang-lai.Researching of Speech Recognition Oriented Mongolian Acoustic Model[C]∥Proceedings of The Chinese Conference on Pattern Recognition(CCPR2008).Beijing,2008:406-411.
4Bao Fei-long,Gao Guang-lai.Improving of Acoustic Model forthe Mongolian Speech Recognition System[C]∥Proceedings of The Chinese Conference on Pattern Recognition(CCPR2009).Nanjing,2009:616-620.
5Mangu L,Brill E,Stolcke A.Finding consensus in speech recognition:word error minimization and other applications of confusion networks[J].Computer Speech and Language,2000,14(4):373-400.
6Mamou J,Carmel D,Hoory R.Spoken document retrieval from call-center conversations[C]∥Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval.New York,NY,USA,2006:51-58.
7Mamou J,Ramabhadran B,Siohan O.Vocabulary independentspoken term detection[C]∥Proc.ACM-SIGIR'07.Amsterdam,2007:615-622.
8Young S,et al.The HTK book(Revised for HTK version 3.4.1)[M].Cambridge University,2009.
9Stolcke A.SRILM-An Extensible Language Modeling Toolkit[C]∥Proc.Intl.Conf.Spoken Language Processing.Denver,Colorado,2002.
10Cavnar W B,Trenkle J M.N-gram-based text categorization. Ann Arbor MI . 1994

共引文献3

1范道尔吉,高光来,武彗娟.基于字素分割的蒙古文手写识别研究[J].中文信息学报,2017,31(5):74-80. 被引量：1
2马志强,李图雅,闫瑞,张力.一种构建自适应蒙古语语音识别声学模型的方法[J].计算机应用与软件,2018,35(2):167-171. 被引量：1
3王曙燕,赵鹏飞,孙家泽.基于多特征的静态软件胎记提取算法[J].计算机应用,2018,38(3):806-811. 被引量：2

同被引文献19

1韩清华,于洪志.基于HMM的安多藏语非特定人孤立词语音识别研究[J].软件导刊,2010,9(7):173-175. 被引量：9
2张卡,盛业华,叶春,李志英.基于中心投影形状特征的车载移动测量系统交通标志自动识别[J].仪器仪表学报,2010,31(9):2101-2108. 被引量：18
3包希日莫,高光来.蒙古语声学模型状态聚类:问题集设计[J].内蒙古大学学报（自然科学版）,2013,44(1):87-92. 被引量：1
4宋文杰,付梦印,杨毅.一种面向无人驾驶汽车的高效交通标志识别方法[J].机器人,2015,37(1):102-111. 被引量：22
5陈莉,王志军,董方栋,赵春龙.断裂射流冲击夹层装药的仿真研究[J].兵器材料科学与工程,2016,39(2):95-97. 被引量：3
6刘方园,王水花,张煜东.深度置信网络模型及应用研究综述[J].计算机工程与应用,2018,54(1):11-18. 被引量：51
7孙伟,杜宏吉,张小瑞,赵玉舟,杨翠芳.基于CNN多层特征和ELM的交通标志识别[J].电子科技大学学报,2018,47(3):343-349. 被引量：30
8王勇和,飞龙,高光来.基于TDNN-FSMN的蒙古语语音识别技术研究[J].中文信息学报,2018,32(9):28-34. 被引量：6
9卓嘎,边巴旺堆.一种藏语连续语音声学特征参数提取算法研究[J].通信技术,2019,52(8):1865-1870. 被引量：3
10陈太波,张翠芳.多特征和SVM改进的语音关键词识别系统[J].小型微型计算机系统,2019,40(11):2291-2296. 被引量：7

引证文献5

1伍锡如,雪刚刚.基于图像聚类的交通标志CNN快速识别算法[J].智能系统学报,2019,14(4):670-678. 被引量：15
2陈艳,李图雅,马志强,谢秀兰,王洪彬.基于端到端的蒙古语异形同音词声学建模方法[J].中文信息学报,2022,36(3):27-35. 被引量：1
3刘志强,马志强,张晓旭,宝财吉拉呼,谢秀兰,朱方圆.IMUT-MC:一个针对蒙古语语音识别的语音语料库[J].中国科学数据（中英文网络版）,2022,7(2):71-83. 被引量：2
4李晋益,马志强,刘志强,朱方圆,王洪彬.基于DNN-HMM的蒙古语声学模型结构实验研究[J].中文信息学报,2023,37(8):52-65. 被引量：1
5张恒,拉巴顿珠,官政先,肖鑫.基于深度神经网络的藏语语音关键词检索方法[J].西藏科技,2024,46(6):73-80.

二级引证文献19

1易佳明,胡小龙.基于深度学习的铝厂工业自动浇筑中的图像识别[J].湖北大学学报（自然科学版）,2020,42(3):320-324. 被引量：1
2童零晶.基于视觉传达技术的交通标志图像智能识别[J].现代电子技术,2020,43(11):55-58. 被引量：5
3陈朋弟,黄亮,夏炎,余晓娜,高霞霞.基于Mask R-CNN的无人机影像路面交通标志检测与识别[J].国土资源遥感,2020,32(4):61-67. 被引量：17
4任条娟,陈鹏,陈友荣,江俊,游静.基于胶囊神经网络的交通标志识别算法研究[J].汽车技术,2020(12):6-11. 被引量：2
5陈燕,杨志刚.自然场景建筑工程标志信息逐级细化识别算法[J].计算机仿真,2021,38(8):450-454. 被引量：1
6于存江,张广宇.基于Faster R-CNN的交通标志检测方法研究[J].信息记录材料,2021,22(10):72-73. 被引量：1
7马健,张敏,张丽岩,段晓科.交通标志识别系统研究综述[J].物流科技,2021,44(10):69-74. 被引量：6
8陈湘生,喻益亮,包小华,崔宏志,夏长青,周海洋,朱旻.基于韧性理论的盾构隧道智能建造[J].现代隧道技术,2022,59(1):14-28. 被引量：13
9曾庆喜,彭辉.基于ResNeXt-GRU和聚类采样的人体行为识别[J].成都信息工程大学学报,2022,37(1):40-45.
10梁正友,耿经邦,孙宇.基于改进残差网络的交通标志识别算法[J].计算机与现代化,2022(4):52-57.

1杨浩,李灵巧,杨辉华,刘振丙,潘细朋.基于卷积神经网络的城管案件图像分类方法[J].计算机工程与应用,2018,54(10):242-248. 被引量：10
2沈雁,王环,戴瑜兴.基于改进深度孪生网络的分类器及其应用[J].计算机工程与应用,2018,54(10):19-25. 被引量：8

智能系统学报

2018年第3期

浏览历史

内容加载中请稍等...

基于深度神经网络的蒙古语声学模型建模研究被引量：5

参考文献2

二级参考文献10

共引文献3

同被引文献19

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于深度神经网络的蒙古语声学模型建模研究 被引量：5

参考文献2

二级参考文献10

共引文献3

同被引文献19

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于深度神经网络的蒙古语声学模型建模研究被引量：5