基于反向翻译的英语语法纠错应用研究被引量：3

Application Research of English Grammar Error Correction Based on Back-Translation

下载PDF

导出

摘要基于数据驱动和机器翻译模型的英语语法纠错是神经语言模型的主要应用之一。人工标注语料库的数量和质量是影响此类方法性能的重要因素。通过分析现有学习者语料的错误类型分布,对常见的错误类型如动词、名词、部分介词、拼写和标点建立混淆集。使用混淆集结合人工规则的方法对单语语料数据进行加噪处理,与学习者语料分别用于基于机器翻译的自动错误生成模型的预训练和微调;使用错误生成模型生成的合成数据与学习者语料共同训练语法纠错模型,模型性能在CoNLL-2014和JFLEG数据集上得到显著性提高。此外,通过使用语法纠正模型纠正学习者语料库源句,将产生的中间数据反馈输入到错误生成模型,并进行交替训练。纠错系统在标准数据集上的性能得到进一步提升。 English grammar error correction method based on data-driven and machine translation models is one of the main applications of neural language models.The quantity and quality of artificially annotated corpora are important factors that affect the performance of such methods.By analyzing the distribution of error types in the existing learner corpus,a confusion set is established for common error types such as verbs,nouns,some prepositions,spelling and punctuation.Confusion sets is combined with artificial rules to add noise to the monolingual corpus data,and the learner corpus is used separately for the pre-training and fine-tuning of the automatic error generation model based on machine translation.The synthetic data generated by the error generation model and the learner’s corpus are applied to train the grammatical error correction model,the performance of the model is significantly improved on the CoNLL-2014 and JFLEG data sets.In addition,by using the grammar correction model to correct the source sentences of the learner's corpus,the generated intermediate data is fed back into the error generation model,and alternate training is performed.The performance of the error correction system on the standard data set has been further improved.

作者孙晓东王丕坤杨东强 SUN Xiao-dong;WANG Pi-kun;YANG Dong-qiang(School of Computer Science and Technology,Shandong Jianzhu University,Jinan 250101,China)

机构地区山东建筑大学计算机科学与技术学院

出处《计算机技术与发展》 2022年第10期143-150,共8页 Computer Technology and Development

基金国家教育部人文社科基金资助项目(15YJA740054)。

关键词数据增广反向翻译规则语法纠错交替训练 data augmentation back-translation rule grammatical error correction alternating training

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1谭咏梅,杨一枭,杨林,刘姝雯.基于LSTM和N-gram的ESL文章的语法错误自动纠正方法[J].中文信息学报,2018,32(6):19-27. 被引量：8

二级参考文献4

1郭永辉,吴保民,王炳锡.一种用于词性标注的相关投票融合策略[J].中文信息学报,2007,21(2):9-13. 被引量：6
2吴伟成,周俊生,曲维光.基于统计学习模型的句法分析方法综述[J].中文信息学报,2013,27(3):9-19. 被引量：21
3董喜双,关毅.基于有监督学习的依存句法分析模型综述[J].智能计算机与应用,2013,3(2):11-15. 被引量：2
4谭咏梅,吴坤.面向英语文章的词性标注算法[J].北京邮电大学学报,2014,37(6):120-124. 被引量：3

共引文献7

1王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：29
2陈志刚,华磊,刘权,尹坤,魏思,胡国平.深度学习建模下的自动句子填空技术[J].中文信息学报,2019,33(8):101-110.
3三毛措,才智杰,才让卓玛,道吉扎西,华旦扎西.藏文文本拼写错误类型分析[J].西北民族大学学报（自然科学版）,2022,43(1):26-31. 被引量：2
4吴南辉,沈炎松.英汉翻译语法误译校正方法研究——基于K均值聚类[J].漳州职业技术学院学报,2022,24(2):67-75.
5刘影,张忠宝,张威,鲁观娜,彭鑫霞.基于视觉注意力模型的电表铭牌识别研究[J].电子器件,2022,45(3):623-627.
6刘建丽,周德良,靳文.基于LSTM的核小体序列可分类性分析[J].佳木斯大学学报（自然科学版）,2023,41(6):126-129.
7宫昀,华雪侠.基于多语法改错证据的英语语法校对[J].自动化技术与应用,2024,43(4):82-84.

同被引文献34

1熊伟,高娟娟,刘锴.基于GAN模型优化的神经机器翻译[J].计算机系统应用,2022,31(12):95-103. 被引量：3
2汪权彬,谭营.基于数据增广和复制的中文语法错误纠正方法[J].智能系统学报,2020,15(1):99-106. 被引量：12
3景艳娥.基于深度学习技术的语法纠错算法模型构建分析[J].信息技术,2020,44(9):143-147. 被引量：8
4邓俊锋,朱聪慧,赵铁军.基于Back-translation的语法错误纠正[J].智能计算机与应用,2020,10(6):187-190. 被引量：2
5王辉,潘俊辉,王浩畅,张强,张岩,Marius.Petrescu.基于深度学习的中文语法错误诊断方法研究[J].计算机技术与发展,2020,30(11):69-73. 被引量：4
6段建勇,袁阳,王昊.基于Transformer局部信息及语法增强架构的中文拼写纠错方法[J].北京大学学报（自然科学版）,2021,57(1):61-67. 被引量：12
7冯吉芳,田德红,孙海信.基于时间序列的人工智能在线翻译网络分析[J].数据采集与处理,2021,36(2):296-303. 被引量：1
8苏楠.面向语句成分的英语语义分析智能算法探讨[J].微型电脑应用,2021,37(5):151-153. 被引量：2
9周险兵,樊小超,任鸽,杨勇.基于多层次语义特征的英文作文自动评分方法[J].计算机应用,2021,41(8):2205-2211. 被引量：12
10王蕊.基于神经机器翻译的英语语法错误纠正方法分析[J].自动化技术与应用,2021,40(8):57-60. 被引量：9

引证文献3

1杨旭.基于机器翻译的多语言聊天技术研究与实现[J].自动化与仪器仪表,2023(6):184-187.
2魏文萍,郭渠成.融合MLP与循环神经网络算法的语法自动纠错方法研究[J].自动化与仪器仪表,2023(10):135-138.
3李潇.AI人工智能翻译中数据增广策略和语法错误分析技术研究[J].自动化与仪器仪表,2024(7):243-246.

1张卫娜.基于机器视觉的英语语法自动纠错系统设计[J].自动化与仪器仪表,2022(8):199-203. 被引量：5
2张宝林.扩大汉语中介语语料库语料来源的途径[J].国际中文教育（中英文）,2022,7(2):30-37. 被引量：1
3李杰,赵伟娜,徐晨,王晓艳.小学英语典型错例分析及矫正策略[J].河北教育（教学版）,2022,60(4):47-60.
4陈小香.错误——初中数学高效课堂构建的新起点[J].数学大世界（中旬）,2021(10):59-60.
5周原.基于自然语言处理的纠错系统架构设计[J].太原师范学院学报（自然科学版）,2022,21(3):37-41. 被引量：3
6冯向前,殷敏,王孟佳,马横宇,刘元辉,褚光,徐春梅,章秀福,王丹英,张运波,陈松.播期对长江下游不同类型晚稻品种产量的影响及其与水稻全育期温光资源配置间关系[J].作物学报,2022,48(10):2597-2613. 被引量：17
7高明周,张浩,程勋树,安礼,乔明琦,狄林林,高冬梅.基于Citespace可视化分析的肝主疏泄理论研究回顾与展望[J].中国中医基础医学杂志,2022,28(7):1185-1191. 被引量：3
8陈世国,强胜.生物除草剂研究与开发的现状及未来的发展趋势[J].农化市场十日讯,2022(7):37-44.

计算机技术与发展

2022年第10期

浏览历史

内容加载中请稍等...

基于反向翻译的英语语法纠错应用研究被引量：3

参考文献1

二级参考文献4

共引文献7

同被引文献34

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于反向翻译的英语语法纠错应用研究 被引量：3

参考文献1

二级参考文献4

共引文献7

同被引文献34

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于反向翻译的英语语法纠错应用研究被引量：3