基于简单循环单元的深层神经网络机器翻译模型被引量：17

Deep Neural Machine Translation Model Based on Simple Recurrent Units

下载PDF

导出

摘要基于注意力机制的神经网络机器翻译模型已经成为目前主流的翻译模型,在许多翻译方向上均超过了统计机器翻译模型,尤其是在训练语料规模比较大的情况下,优势更加明显。该模型使用编码器—解码器框架,将翻译任务建模成序列到序列的问题。然而,在基于门控循环单元(gated recurrent unit,GRU)的编码器—解码器模型中,随着模型层数的增加,梯度消失的问题使模型难以收敛并且严重退化,进而使翻译性能下降。该文使用了一种简单循环单元(simple recurrent unit,SRU)代替GRU单元,通过堆叠网络层数加深编码器和解码器的结构,提高了神经网络机器翻译模型的性能。我们在德语—英语和维语—汉语翻译任务上进行了实验,实验结果表明,在神经网络机器翻译模型中使用SRU单元,可以有效地解决梯度消失带来的模型难以训练的问题;通过加深模型能够显著地提升系统的翻译性能,同时保证训练速度基本不变。此外,我们还与基于残差连接(residual connections)的神经网络机器翻译模型进行了实验对比,实验结果表明,我们的模型有显著性优势。 Attention-based neural machine translation models have become extremely popula,with an encoder-decoder framework to model translation as a sequence to sequence problem.In this paper,we replace the gated recurrent units in the classical encoder and decoder with the simple recurrent units（SRUs）,and deepen the structure of the encoder and decoder by stacking network layers to improve the performance of neural machine translation model.We conducted experiments on the German-English and Uyghur-Chinese translation tasks.Experiment results show that the performance is significantly improved without extra training speed,especially with residual connections.

作者张文冯洋刘群 ZHANG Wen;FENG Yang;LIU Qun(Keylab of Intelligent Information Processing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China;ADAPT Centre,School of Computing,Dublin City University,Dublin,Ireland)

机构地区中国科学院计算技术研究所智能信息处理重点实验室中国科学院大学都柏林城市大学ADAPT中心计算学院

出处《中文信息学报》 CSCD 北大核心 2018年第10期36-44,共9页 Journal of Chinese Information Processing

关键词门控循环单元梯度消失残差连接简单循环单元 gated recurrent unit gradient vanishing residual connection simple recurrent unit

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1赵朋成,冯玉田,罗涛,雷安琪.基于深度残差网络的手写体数字识别[J].工业控制计算机,2017,30(10):82-83. 被引量：5
2王一宁,秦品乐,李传朋,崔雨豪.基于残差神经网络的图像超分辨率改进算法[J].计算机应用,2018,38(1):246-254. 被引量：23
3哈里旦木.阿布都克里木,刘洋,孙茂松.神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J].清华大学学报（自然科学版）,2017,57(8):878-883. 被引量：25

二级参考文献4

1袁琪,荆树旭.改进的序列图像超分辨率重建方法[J].计算机应用,2009,29(12):3310-3313. 被引量：3
2苏衡,周杰,张志浩.超分辨率图像重建方法综述[J].自动化学报,2013,39(8):1202-1213. 被引量：196
3吕东缙.环岛交通组织研究[J].黑龙江交通科技,2015,38(12):180-180. 被引量：5
4哈里旦木·阿布都克里木,程勇,刘洋,孙茂松.基于双向门限递归单元神经网络的维吾尔语形态切分[J].清华大学学报（自然科学版）,2017,57(1):1-6. 被引量：16

共引文献50

1哈里旦木·阿布都克里木,孙茂松,刘洋,阿布都克力木·阿布力孜.THUUyMorph：维吾尔语形态切分语料库[J].中文信息学报,2018,32(2):81-86. 被引量：5
2赵朋成,冯玉田,涂云轩.基于高倍特征深度残差网络的手写数字识别[J].电子测量技术,2018,41(6):86-89. 被引量：10
3张金超,艾山.吾买尔,买合木提.买买提,刘群.基于多编码器多解码器的大规模维汉神经网络机器翻译模型[J].中文信息学报,2018,32(9):20-27. 被引量：7
4古丽尼尕尔.买合木提,帕力旦.吐尔逊,艾斯卡尔.艾木都拉.基于词形分析的汉-维机器翻译性能分析[J].电脑知识与技术,2018,14(4Z):172-174.
5黄吉庆,王丽会,秦进,程欣宇,张健,李智.基于多种正则化的改进超分辨率重建算法[J].计算机工程与应用,2018,54(15):22-28. 被引量：2
6张胜刚,艾山.吾买尔,吐尔根.依布拉音,买合木提.买买提,米尔夏提.力提甫.基于神经网络的维汉翻译系统实现[J].现代电子技术,2018,41(24):157-161. 被引量：6
7王旺,徐俊武,李颖先.改进的基于卷积神经网络的图像超分辨率方法[J].计算机应用与软件,2019,36(3):214-218. 被引量：6
8李毓,杨雅婷,李晓,米成刚,董瑞.面向汉维机器翻译的神经网络语言模型[J].厦门大学学报（自然科学版）,2019,58(2):189-194. 被引量：3
9陆雯洁,谭儒昕,刘功申,孙环荣.基于半监督学习的小语种机器翻译算法[J].厦门大学学报（自然科学版）,2019,58(2):200-208. 被引量：8
10程宇,邓德祥,颜佳,范赐恩.基于卷积神经网络的弱光照图像增强算法[J].计算机应用,2019,39(4):1162-1169. 被引量：33

同被引文献157

1冯洋,邵晨泽.神经机器翻译前沿综述[J].中文信息学报,2020(7):1-18. 被引量：36
2陈诚.机器翻译技术的综述[J].电子技术（上海）,2021,50(11):290-291. 被引量：3
3戴新宇,尹存燕,陈家骏,郑国梁.机器翻译研究现状与展望[J].计算机科学,2004,31(11):176-179. 被引量：28
4王昊.跨语言信息检索实现方法与关键技术探讨[J].情报杂志,2005,24(7):46-49. 被引量：14
5郭宇锋,黄敏.跨语言信息检索理论与应用研究[J].图书与情报,2006(2):79-81. 被引量：9
6张素芳.国外跨语言信息检索中的翻译歧义性问题研究综述[J].图书馆学研究,2006(6):72-75. 被引量：8
7张仰森,曹元大,俞士汶.语言模型复杂度度量与汉语熵的估算[J].小型微型计算机系统,2006,27(10):1931-1934. 被引量：7
8郭华庚,赵英.跨语言信息检索研究与应用[J].现代情报,2008,28(9):142-145. 被引量：9
9黄海,蒋烈辉,何红旗,尹青,方霞.基于IDA的反编译中间语言设计[J].计算机工程与设计,2009,30(20):4734-4737. 被引量：2
10兰强,方勇杰,鲍颜红,李威,徐泰山,薛禹胜.基于EEAC的考虑暂态安全稳定约束的最优潮流计算[J].电力系统自动化,2010,34(8):34-38. 被引量：16

引证文献17

1徐李华.曲项向天歌──浅谈江苏鹅业发展[J].中国禽业导刊,2000,17(6):4-5.
2张有礼.在西医病房会诊的体会[J].中医杂志,2000,41(4):212-213.
3仁青东主,头旦才让,尼玛扎西.汉藏机器翻译研究综述[J].中国藏学,2019,0(4):222-226. 被引量：5
4王晨,寇鹏.基于卷积神经网络和简单循环单元集成模型的风电场内多风机风速预测[J].电工技术学报,2020,35(13):2723-2735. 被引量：33
5刘丹.基于机器学习的特色词汇翻译在线生成方法研究[J].齐齐哈尔大学学报（自然科学版）,2020,36(4):4-8. 被引量：1
6王晓艺.基于深度神经网络方法的机器在线翻译系统设计[J].电子设计工程,2020,28(18):114-117. 被引量：4
7王乔,严蕾.基于递归神经网络的英语翻译方法[J].自动化技术与应用,2020,39(11):37-40. 被引量：2
8司莉,周璟.“一带一路”多语种共享型数据库的跨语言检索功能分析与开发策略[J].图书情报工作,2021,65(3):20-27. 被引量：10
9头旦才让,仁青东主,尼玛扎西,于永斌,邓权芯.基于改进字节对编码的汉藏机器翻译研究[J].电子科技大学学报,2021,50(2):249-255. 被引量：13
10董斌.基于改进编码/解码模型的中英机器翻译方法[J].计算机与数字工程,2021,49(6):1253-1257. 被引量：5

二级引证文献82

1张有礼.在西医病房会诊的体会[J].中医杂志,2000,41(4):212-213.
2江紫薇,安智伟,焦裕刚.基于图像处理对二氧化硅熔融行为的研究[J].软件,2020,41(7):201-205.
3贺煜婷,唐立军,夏向阳.NCEP与STRM在风电场选址中的应用[J].电力科学与技术学报,2020,35(6):152-156. 被引量：2
4赵晋泉,夏雪,徐春雷,胡伟,尚学伟.新一代人工智能技术在电力系统调度运行中的应用评述[J].电力系统自动化,2020,44(24):1-10. 被引量：95
5头旦才让,仁青东主,尼玛扎西,于永斌,邓权芯.基于改进字节对编码的汉藏机器翻译研究[J].电子科技大学学报,2021,50(2):249-255. 被引量：13
6王同亮,马绍休,高扬,宫毓来,安志山.小波包分解与多个机器学习模型耦合在风速预报中的对比[J].中国沙漠,2021,41(2):38-50. 被引量：5
7刘赛虎,珠杰.多注意力机制的藏汉机器翻译方法研究[J].电脑知识与技术,2021,17(10):4-7.
8时珉,许可,王珏,尹瑞,张沛.基于灰色关联分析和GeoMAN模型的光伏发电功率短期预测[J].电工技术学报,2021,36(11):2298-2305. 被引量：32
9苗长新,李昊,王霞,韩丽,马也,李衡.基于数据驱动和深度学习的超短期风电功率预测[J].电力系统自动化,2021,45(14):22-29. 被引量：37
10张菊玲.基于特征提取算法的英汉机器自动转换翻译系统设计[J].自动化与仪器仪表,2021(7):148-151. 被引量：5

1吴玲兰.《机器翻译》评介[J].语言教育,2018,0(4):92-95. 被引量：1
2马语丹,赵义,金婧,万怀宇.结合实体共现信息与句子语义特征的关系抽取方法[J].中国科学：信息科学,2018,48(11):1533-1545. 被引量：4
3董孝政,宋睿,洪宇,朱芬红,朱巧明.基于多模型的新闻标题分类[J].中文信息学报,2018,32(10):69-77. 被引量：4
4周毛加.加强草原生态保护建设走草原生态畜牧业可持续发展之路[J].兽医导刊,2018,0(20):49-49.
5钱俊玲.现代维哈语言的名词语法范畴的比较研究[J].视界观,2018,0(03X):93-95.
6在完美解码中快速切换解码器[J].电脑爱好者,2018,0(22):37-37.
7郑凯.哈尔滨市生猪养殖现状与问题处理[J].饲料博览,2018,28(10):93-93.
8快速液态打印技术或将拓宽3D打印的适用范围[J].纺织装饰科技,2018,0(4):13-14.
9陈奇,姚志刚,Qadeer Ahmed,陈无畏,樊浩.基于结构分析法的汽车ABS故障诊断和识别系统设计与校验[J].汽车工程,2018,40(11):1354-1363. 被引量：8
10Mustafa Ali,Soumitra Das.Psychosis as an indicator of recurrent non-Hodgkin's lymphoma:a rare presentation[J].General Psychiatry,2018,31(4):45-47. 被引量：1

中文信息学报

2018年第10期

浏览历史

内容加载中请稍等...

基于简单循环单元的深层神经网络机器翻译模型被引量：17

参考文献3

二级参考文献4

共引文献50

同被引文献157

引证文献17

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

基于简单循环单元的深层神经网络机器翻译模型 被引量：17

参考文献3

二级参考文献4

共引文献50

同被引文献157

引证文献17

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

基于简单循环单元的深层神经网络机器翻译模型被引量：17