训练语料的不同利用方式对神经机器翻译模型的影响被引量：4

The Influence of Different Use of Training Corpus on Neural Machine Translation Model

下载PDF

导出

摘要神经机器翻译(NMT)是近两年刚出现的一种新型机器翻译方法,是一种端到端的翻译模型。目前,影响NMT模型效果的因素有很多,其一,当训练语料规模较大时,梯度下降更新方法会对机器的内存要求很高,因此大多研究工作中采用随机梯度下降(SGD)的方法来更新模型的训练参数,即每输入一定数量(批:batch)的训练样例,就利用局部的训练样例更新一次模型参数;其二,参数dropout可以防止系统训练时出现过拟合,提高系统泛化能力;其三,数据打乱(shuffle)也对翻译结果有着重要影响。因此,该文的研究内容主要是探索批、dropout和打乱这三个因素在训练神经机器翻译模型中对模型翻译质量的影响,并得出以下三条结论:一是批的大小将影响神经机器翻译(NMT)模型的收敛速度,二是dropout可以提升神经机器翻译模型的性能,三是数据打乱可以在一定程度上提升神经机器翻译(NMT)系统的翻译质量。 Neural machine translation（NMT）is an emerging end-to-end machine translation paradigm.In NMT,the stochastic gradient descent（SGD）is used to update the model parameters.This paper explores the influence on NMT system resulted from the batch,the dropout and the shuffle in SGD.The results show that the size of batch affects the convergence speed of NMT model,hyper parameter dropout has a huge impact on the performance of the NMT model,and data shuffle can improve the translation quality of NMT system.

作者邝少辉熊德意 KUANG Shaohui;XIONG Deyi(School of Computer Sciences and Technology,Soochow University,Suzhou,Jiangsu 215006,China)

机构地区苏州大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2018年第8期53-59,67,共8页 Journal of Chinese Information Processing

基金国家自然科学基金优秀青年基金(61622209)

关键词神经机器翻译批 DROPOUT 数据打乱 neural machine translation batch dropout data shuffle

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献30

1夏玲,李宜蔓,李弘武.人工智能背景下科技论文摘要的机器翻译与译后编辑[J].编辑学报,2022,34(4):396-401. 被引量：12
2戴新宇,尹存燕,陈家骏,郑国梁.机器翻译研究现状与展望[J].计算机科学,2004,31(11):176-179. 被引量：28
3许余龙.语篇回指的认知语言学探索[J].外国语,2002,25(1):28-37. 被引量：120
4林正军,杨忠.一词多义现象的历时和认知解析[J].外语教学与研究,2005,37(5):362-367. 被引量：123
5余正红,伍永豪,邓娟,王俊.基于Hadoop与XMPP的云翻译系统的研究与实现[J].计算机与数字工程,2014,42(2):239-242. 被引量：2
6冯志伟.机器翻译与人工智能的平行发展[J].外国语,2018,41(6):35-48. 被引量：85
7蒋锐滢,崔磊,何晶,周明,潘志庚.基于主题模型和统计机器翻译方法的中文格律诗自动生成[J].计算机学报,2015,38(12):2426-2436. 被引量：16
8张阳,余正涛,周珂.词汇化调序模型中融合语言特性的层次短语翻译方法研究[J].计算机与数字工程,2017,45(12):2389-2392. 被引量：3
9赵耿林.语义缺省的认知理据——拓扑连通性[J].外国语文,2017,33(6):87-92. 被引量：5
10王刚,刘惠义.局部感知递归神经网络在语言模型中的应用[J].信息技术,2018,42(4):94-97. 被引量：4

引证文献4

1董斌.基于改进编码/解码模型的中英机器翻译方法[J].计算机与数字工程,2021,49(6):1253-1257. 被引量：5
2马建军,田思琪.语义缺省对机器翻译质量的影响研究[J].计算机应用文摘,2023,39(1):113-116.
3李政.基于神经网络语言模型的统计机器翻译应用分析[J].信息与电脑,2022,34(22):109-111. 被引量：1
4赵三元,王裴岩,叶娜,赵欣瑜,蔡东风,张桂平.翻译错误类分布加权的专利译文自动后编辑集成模型[J].计算机科学,2023,50(S02):44-51.

二级引证文献6

1刘渝.融合语言特征和神经网络的英语机器翻译研究[J].自动化与仪器仪表,2022(5):142-145. 被引量：3
2付敏.基于特征提取的英汉机器自动转换翻译系统设计[J].自动化与仪器仪表,2022(5):166-169. 被引量：1
3杨雪晴.基于语音识别的英语翻译器设计[J].自动化与仪器仪表,2022(8):221-225. 被引量：4
4涂杰,黎杰,刘凯.一种新的基于LSTM的航位推算算法[J].舰船电子工程,2023,43(9):111-115.
5王欣欣,马发民.融合注意力机制与图卷积网络的机器翻译模型研究[J].自动化与仪器仪表,2023(11):212-216.
6林云.基于UniLM预训练的改进数学问答模型[J].物联网技术,2024,14(10):120-122.

1史闻朵,马浩.英国贸易与FDI:脱欧后的视角[J].经济研究导刊,2018(26):116-117.
2包乌格德勒,赵小兵.基于RNN和CNN的蒙汉神经机器翻译研究[J].中文信息学报,2018,32(8):60-67. 被引量：7
3廖原.基于卷积网络的车牌二值化算法[J].信息与电脑,2018,30(12):67-68. 被引量：1
4李梦洁,董峦.基于PyTorch的机器翻译算法的实现[J].计算机技术与发展,2018,28(10):160-163. 被引量：16
5龙敏,佟越洋.应用卷积神经网络的人脸活体检测算法研究[J].计算机科学与探索,2018,12(10):1658-1670. 被引量：17
6The First Batch of Record-filing Non-special Cosmetics to Import through Shanghai Pudong[J].China Detergent & Cosmetics,2017,2(2):1-1.
7昶月.奔跑吧！旋风女队[J].启迪与智慧（上）,2018,0(10):56-59.
8张振朋,王以松,冯仁艳,李倩倩.SVD++推荐算法的超参数[J].贵州大学学报（自然科学版）,2018,35(3):97-100.
9魏彦昌,付玉荣.非结核分枝杆菌实验室诊断研究进展[J].中国病原生物学杂志,2018,13(8):911-913. 被引量：17
10秦超然,FENG Menran,LUO Wen,LIU Mingyang,HAN Mei,MA Shuai,王艺峰.Self-assembly of Gradient Copolymer Synthesized by Spontaneous Batch RAFT Emulsion Polymerization and Its Application on Encapsulating Ag Nanoparticles[J].Journal of Wuhan University of Technology(Materials Science),2018,33(4):987-994.

中文信息学报

2018年第8期

浏览历史

内容加载中请稍等...

训练语料的不同利用方式对神经机器翻译模型的影响被引量：4

同被引文献30

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

训练语料的不同利用方式对神经机器翻译模型的影响 被引量：4

同被引文献30

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

训练语料的不同利用方式对神经机器翻译模型的影响被引量：4