摘要
DNN-HMM作为语音识别中的一种混合建模技术,由深度神经网络和隐马尔可夫模型组成。在使用蒙古语语料库构建DNN-HMM声学模型的过程中,为了研究DNN-HMM结构对蒙古语声学建模的影响以及蒙古语语料库规模与DNN-HMM声学模型结构的关系,通过设计DNN-HMM声学模型中DNN的结构,该文提出Rectangle DNN-HMM、Trapezoid DNN-HMM、Polygon DNN-HMM和Hourglass DNN-HMM四种结构的DNNHMM声学模型,并以Kaldi实验平台为基础进行实验,选取音素作为建模单元,使用三种规模的蒙古语语料库分别构建四种结构的DNN-HMM声学模型。深度结构和宽度结构实验结果表明,深度为6层的Polygon DNNHMM结构适合蒙古语声学模型建模;随着语料库规模的增大,通过适当增加声学模型的宽度,可以使声学模型的每一层都能学习到更丰富的语音特征,提高语音识别的准确率。
As a hybrid modeling technology in speech recognition,DNN-HMM is composed by deep neural networks and hidden Markov models.To investigate the DNN-HMM structure,four variants of Rectangle DNN-HMM,Trapezoid DNN-HMM,Polygon DNN-HMM and Hourglass DNN-HMM are proposed.Phonemes are selected as the modeling unit,and three Mongolian corpora of different scale are applied to train the four models.Experiments through Kaldi platform show that the Polygon DNN-HMM structure with a depth of 6 layers works best for Mongolian acoustic modeling.With larger corpus,the width of the acoustic model could be increased to learn more features and improve the accuracy of speech recognition.
作者
李晋益
马志强
刘志强
朱方圆
王洪彬
LI Jinyi;MA Zhiqiang;LIU Zhiqiang;ZHU Fangyuan;WANG Hongbin(College of Data Science and Application,Inner Mongolia University of Technology,Hohhot,Inner Mongolia 010080,China;Inner Mongolia Autonomous Region Engineering&Technology Research Centre of Big Data Based Software Service,Hohhot,Inner Mongolia 010080,China)
出处
《中文信息学报》
CSCD
北大核心
2023年第8期52-65,共14页
Journal of Chinese Information Processing
基金
国家自然科学基金(61762070,62166029)
内蒙古自然科学基金(2019MS06004)
内蒙古自治区科技重大专项(2019ZD015)
内蒙古自治区关键技术攻关计划项目(2019GG273)
内蒙古自治区科技成果转化专项资金项目(2020CG0073)
内蒙古自治区研究生科研创新项目(SZ2020073)。