摘要
神经机器翻译(NMT)是近两年刚出现的一种新型机器翻译方法,是一种端到端的翻译模型。目前,影响NMT模型效果的因素有很多,其一,当训练语料规模较大时,梯度下降更新方法会对机器的内存要求很高,因此大多研究工作中采用随机梯度下降(SGD)的方法来更新模型的训练参数,即每输入一定数量(批:batch)的训练样例,就利用局部的训练样例更新一次模型参数;其二,参数dropout可以防止系统训练时出现过拟合,提高系统泛化能力;其三,数据打乱(shuffle)也对翻译结果有着重要影响。因此,该文的研究内容主要是探索批、dropout和打乱这三个因素在训练神经机器翻译模型中对模型翻译质量的影响,并得出以下三条结论:一是批的大小将影响神经机器翻译(NMT)模型的收敛速度,二是dropout可以提升神经机器翻译模型的性能,三是数据打乱可以在一定程度上提升神经机器翻译(NMT)系统的翻译质量。
Neural machine translation(NMT)is an emerging end-to-end machine translation paradigm.In NMT,the stochastic gradient descent(SGD)is used to update the model parameters.This paper explores the influence on NMT system resulted from the batch,the dropout and the shuffle in SGD.The results show that the size of batch affects the convergence speed of NMT model,hyper parameter dropout has a huge impact on the performance of the NMT model,and data shuffle can improve the translation quality of NMT system.
作者
邝少辉
熊德意
KUANG Shaohui;XIONG Deyi(School of Computer Sciences and Technology,Soochow University,Suzhou,Jiangsu 215006,China)
出处
《中文信息学报》
CSCD
北大核心
2018年第8期53-59,67,共8页
Journal of Chinese Information Processing
基金
国家自然科学基金优秀青年基金(61622209)