基于半监督学习的小语种机器翻译算法被引量：8

Machine translation algorithm of low-resource languages based on semi-supervised learning

下载PDF

导出

摘要近年来,基于神经网络的机器翻译取得了快速发展,然而由于它需要大规模的平行语料库,所以对于资源稀缺的小语种的翻译往往显得效果不佳.在分析编码-解码框架和注意力机制的基础上,基于对偶学习的思想,提出了一种面向小语种翻译的半监督神经网络模型.该模型利用较大的单语语料库与少量平行语料库来实现小语种翻译.实验结果表明,当平行语料资源不足以训练一个普通神经网络模型时,使用半监督网络模型能够取得较好的结果,但所采用的半监督学习模型对单语语料库的数量要求非常高,要达到一定数量级才能达到良好效果. Recent years,neural machine translation has achieved great development.However,its requirement for large-scale parallel corpora,translating low-resource languages fluently becomes a big challenge.This paper first briefly introduces the encoder-decoder framework and attention mechanism.Next,we propose a semi-supervised neural network model based on dual-learning,which can translate low-resource languages using some monolingual corpora and small parallel corpora.Finally,results show that semi-supervised neural machine translation can achieve reasonable results with parallel corpora which are insufficient to train a common neural model.However,the semi-supervised model requires a large number of monolingual corpora to achieve great performance.

作者陆雯洁谭儒昕刘功申孙环荣 LU Wenjie;TAN Ruxin;LIU Gongshen;SUN Huanrong(Shanghai Jiao Tong University,School of Electronic Information and Electrical Engineering,Shanghai 200240,China;Shanghai Jiao Tong University-Shanghai Songheng Information Content Analysis Joint Lab,Shanghai 200240,China)

机构地区上海交通大学电子信息与电气工程学院上海交通大学-上海嵩恒信息内容分析技术联合实验室

出处《厦门大学学报（自然科学版）》 CAS CSCD 北大核心 2019年第2期200-208,共9页 Journal of Xiamen University：Natural Science

基金国家自然科学基金(61772337 61472248)

关键词半监督学习小语种机器翻译 semi-supervised learning low-resource language machine translation

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1杜金华,张萌,宗成庆,孙乐.中国机器翻译研究的机遇与挑战——第八届全国机器翻译研讨会总结与展望[J].中文信息学报,2013,27(4):1-8. 被引量：32
2李良友,贡正仙,周国栋.机器翻译自动评价综述[J].中文信息学报,2014,28(3):81-91. 被引量：21
3李亚超,江静,加羊吉,于洪志.TIP-LAS：一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(6):203-207. 被引量：27
4韩冬,李军辉,熊德意,周国栋.基于子字单元的神经机器翻译未登录词翻译分析[J].中文信息学报,2018,32(4):74-79. 被引量：10
5李亚超,熊德意,张民,江静,马宁,殷建民.藏汉神经网络机器翻译研究[J].中文信息学报,2017,31(6):103-109. 被引量：17
6罗延根,李晓,蒋同海,杨雅婷,周喜,王磊.基于词向量的维吾尔语词项归一化方法[J].计算机工程,2018,44(2):220-225. 被引量：5
7潘一荣,李晓,杨雅婷,米成刚,董瑞.面向汉维机器翻译的调序表重构模型[J].计算机应用,2018,38(5):1283-1288. 被引量：4
8哈里旦木.阿布都克里木,刘洋,孙茂松.神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J].清华大学学报（自然科学版）,2017,57(8):878-883. 被引量：25

二级参考文献99

1宋金兰.汉藏语形态变体的分化[J].民族语文,2002(1):29-33. 被引量：5
2才藏太,华关加.班智达汉藏公文翻译系统中基于二分法的句法分析方法研究[J].中文信息学报,2005,19(6):7-12. 被引量：10
3刘挺,李维刚,张宇,李生.复述技术研究综述[J].中文信息学报,2006,20(4):25-32. 被引量：13
4徐波,史晓东,刘群,宗成庆,庞薇,陈振标,杨振东,魏玮,杜金华,陈毅东,刘洋,熊德意,侯宏旭,何中军.2005统计机器翻译研讨班研究报告[J].中文信息学报,2006,20(5):1-9. 被引量：10
5何婷婷,徐超,李晶,赵君喆.基于种子自扩展的命名实体关系抽取方法[J].计算机工程,2006,32(21):183-184. 被引量：25
6Peter F Brown, Stephen A Delia Pietra, Vincent J Della Pietra, et al. The mathematics of statistical ma- chine translation: parameter estimation[-J]. Computa- tional Linguistics. 1993, 19 (2): 263-311.
7Philipp Koehn, Franz Josef Och, Daniel Mareu. Sta- tistical phrase-based translation [-C//Proeeedings of HLT-NAACL. Edmonton, Canada, 2003: 48-54.
8Philipp Koehn, Hieu Hoang, Alexandra Birch, et al. Moses. open source toolkit for statistical machine translation I-C//Proceedings of ACL of demo and poster sessions. Prague, Czech Republic, 2007: 177- 180.
9David Chiang. A hierarchical phrase-based model for statistical machine translation [- C]//Proceedings of ACL05. Ann Arbor, MI, 2005: 263-270.
10Kenji Yamada, Kevin Knight. A syntax-based statisti- cal translation model [C]//Proceedings of ACL- EACL01. Toulouse, France, 2001:523 530.

共引文献128

1朱贞姬.机器翻译在大学英语翻译教学中的运用概述[J].现代英语,2024(10):118-120.
2蒙洁琼,熊莉芸.机器翻译在中医院校大学英语翻译教学中的应用策略研究[J].文化创新比较研究,2020,0(2):99-100. 被引量：1
3沙九,冯冲,周鹭琴,李洪政,张天夫,慧慧.面向司法领域的高质量开源藏汉平行语料库构建[J].中文信息学报,2021,35(11):51-59. 被引量：4
4张有礼.在西医病房会诊的体会[J].中医杂志,2000,41(4):212-213.
5袁创国.浓香型白酒生产如何改造低产质窖池[J].酿酒科技,2000(3):40-41.
6冯志伟.机器翻译与人工智能的平行发展[J].外国语,2018,41(6):35-48. 被引量：85
7邵发,黄银阁,周兰江,郭剑毅,余正涛,张金鹏.基于实体消歧的中文实体关系抽取[J].山东大学学报（工学版）,2014,44(6):32-37. 被引量：6
8李业刚,黄河燕,史树敏,冯冲,苏超.多策略机器翻译研究综述[J].中文信息学报,2015,29(2):1-9. 被引量：21
9王岚,严灿勋.军事英汉汉英平行语料库建设存在的问题及对策[J].解放军外国语学院学报,2015,38(5):33-39. 被引量：5
10赵云鹏,胡斯玥,刘新贵,宋华标,赵政坤.俄语地名翻译的音节切分研究[J].地理空间信息,2015,13(6):161-163. 被引量：6

同被引文献112

1于再富,袁满.融合BabelNet的多语言智能信息检索模型[J].吉林大学学报（信息科学版）,2020,38(1):99-106. 被引量：8
2冯志伟.机器翻译与人工智能的平行发展[J].外国语,2018,41(6):35-48. 被引量：85
3李天韵.口译工作模型下的机器同声传译系统分析[J].东方翻译,2018(6):34-39. 被引量：4
4吴聪.基于Logistic模型的商务英语文献翻译设备自动监测技术研究[J].自动化与仪器仪表,2019(1):22-24. 被引量：2
5崔磊,周明.统计机器翻译领域自适应综述[J].智能计算机与应用,2014,4(6):31-34. 被引量：7
6俞敬松,王惠临,吴胜兰.高正确率的双语语块对齐算法研究[J].中文信息学报,2015,29(1):67-74. 被引量：5
7孙水华,丁鹏,黄德根.利用句法短语改善统计机器翻译性能[J].中文信息学报,2015,29(2):95-102. 被引量：5
8申丽敏.语音翻译信号数字模型的构建及DTW算法的改进[J].计算机光盘软件与应用,2015,18(2):70-72. 被引量：2
9唐泽,吴敏,吴桂兴,郭燕.改进粒子群BP算法的四六级翻译评分模型[J].计算机系统应用,2015,24(9):140-145. 被引量：3
10冯志伟.基于短语和句法的统计机器翻译[J].燕山大学学报,2015,39(6):546-554. 被引量：20

引证文献8

1杨云,王全.层聚合的对抗机器翻译模型的方法研究[J].陕西科技大学学报,2020,38(1):164-170. 被引量：1
2孙夏.基于无监督学习的英语语义翻译准确性评定系统设计[J].普洱学院学报,2021,37(1):82-85. 被引量：1
3陈敏.基于句法的神经机器英语翻译研究[J].电子设计工程,2021,29(10):24-27. 被引量：3
4郭小华.基于深度神经网络的机器翻译智能重排序系统设计[J].自动化与仪器仪表,2021(7):140-142. 被引量：3
5王晶,赵彩.语义关系下的英语长句机器翻译算法优化[J].信息技术,2021,45(8):102-105. 被引量：9
6王欣欣,马发民.融合注意力机制与图卷积网络的机器翻译模型研究[J].自动化与仪器仪表,2023(11):212-216.
7薛娟娟,户良斌,杨艳.基于红外传感器的体能测试动作动态识别系统[J].自动化与仪器仪表,2023(12):62-65. 被引量：1
8于爱莲.基于D-H模型的翻译机器人自动控制系统设计研究[J].自动化与仪器仪表,2024(5):163-167.

二级引证文献18

1姜媛.基于智能机器英语翻译系统自动评分方法研究[J].信息与电脑,2022,34(2):50-52. 被引量：1
2王婷婷.基于HNC理论机器翻译系统中语义块主辅变换研究[J].吉林农业科技学院学报,2022,31(1):63-66.
3田苗.大学生英语学习中英语翻译APP优化设计[J].现代科学仪器,2022,39(4):41-45.
4刘渝.基于移动云计算模式的英语地名机器翻译系统设计[J].自动化与仪器仪表,2022(8):240-244. 被引量：1
5齐娜,马琳.基于Logistic模型的日语翻译机器自动校准方法研究[J].自动化与仪器仪表,2022(7):247-251.
6陈婷婷.面向机器的NMT英语翻译系统研究[J].信息技术,2022,46(12):69-72. 被引量：2
7王渭刚.基于TTS技术的智能化英语自动翻译系统[J].信息技术,2023,47(3):117-121. 被引量：1
8晏芳,罗刚峰,司海峰.面向平行语料库和多层次语言特征的英语翻译系统研究[J].自动化与仪器仪表,2023(3):213-217.
9贺淑红.基于LSTM算法的英语翻译智能化校对系统设计[J].信息技术,2023,47(7):118-124.
10郭丽娜.基于模型结构先验的神经机器翻译研究[J].自动化与仪器仪表,2023(9):192-196. 被引量：1

1傅杰.基于语料库的《沉重的翅膀》两译本翻译风格比较[J].科技视界,2017,0(30):60-61.
2王君.汉英含“白—”复合词语义韵对比研究[J].英语教师,2017,17(21):25-32.
3解争龙.网络编码在网络安全中的应用[J].电脑迷,2018(5):79-79.
4娄杰丽,彭来湖,吴震宇.融合编码解码和线性回归的短期风速预测[J].工业控制计算机,2019,32(2):70-71. 被引量：1
5刘康龙,刘剑雯.语料库在翻译教学中的“洪荒之力”:以COCA和古代汉语语料库为例[J].南华大学学报（社会科学版）,2018,19(6):102-110. 被引量：3
6薛睿,王雪勤.基于语料库的《山海经》不同英译本翻译普遍性研究[J].湖北经济学院学报（人文社会科学版）,2019,16(1):113-116. 被引量：6
7武琳蕴.基于语料库的《红字》译本翻译规范研究[J].泰州职业技术学院学报,2018,18(3):20-23. 被引量：1
8张珂嘉.基于编码与解码理论的网络文学改编探究—以电视剧《欢乐颂2》为例[J].新闻传播科学,2018,6(4):21-27.
9屈雪花,王青.图像符号学视角下的“转发锦鲤”行为研究[J].新媒体研究,2019,5(1):4-7. 被引量：3

厦门大学学报（自然科学版）

2019年第2期

浏览历史

内容加载中请稍等...

基于半监督学习的小语种机器翻译算法被引量：8

参考文献8

二级参考文献99

共引文献128

同被引文献112

引证文献8

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于半监督学习的小语种机器翻译算法 被引量：8

参考文献8

二级参考文献99

共引文献128

同被引文献112

引证文献8

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于半监督学习的小语种机器翻译算法被引量：8