预训练模型视角下的跨语言典籍风格计算研究被引量：3

Identifying Styles of Cross-Language Classics with Pre-Trained Models

导出

摘要【目的】利用预训练语言模型对典籍文本进行风格计算与对比分析,宏观把控跨语言环境下典籍语言风格特征,提升典籍外译质量。【方法】分别应用5种预训练语言模型并对比深度学习模型Bi-LSTM-CRF在《论语》、《道德经》、《礼记》、《尚书》和《战国策》所构建的跨语言典籍古汉英语料库上的分词词性标注性能,基于预训练模型的最优训练结果完成对语料库中所有古汉语典籍的分词与词性标注,在这基础上进行对古汉语典籍及其对应的白话文和英文翻译在词汇层面的语言风格分析,包括词性、词汇长度、词汇多样性和密度的比较和总结。【结果】SikuBERT预训练语言模型对典籍词汇识别准确率、召回率、调和平均值F1达到91.29%、91.76%和91.52%,现代汉语译文较典籍原文词汇表意指代更为明确、词组功能相对单一、词汇组合方式更为多样,而英文译文存在翻译简化的现象。【局限】因数据抽样偏差,仅选取了特定的先秦典籍文本与译本,结论扩展到其他领域文本的有效性需进一步验证。【结论】本研究验证了预训练语言模型SikuBERT对典籍语言风格挖掘研究的可行性,深入分析典籍文本语言风格差异,为提升古代汉语翻译质量与促进中国优秀典籍跨文化传播奠定了研究基础。 [Objective]This paper uses pre-trained language models to explore and study the linguistic style of canonical texts,aiming to improve their connotation quality.[Methods]We compared the performance of five pre-trained language models with the deep learning model Bi-LSTM-CRF on the cross-lingual canonical ancient Chinese-English corpus.The selected works include The Analects of Confucius,The Tao Te Ching,The Book of Rites,The Shangshu,and The Warring States Curse.We also examined the lexicon-based canonical language style.[Results]The SikuBERT pre-trained language model achieved 91.29%precision,91.76%recall,and 91.52%in concordance mean F1 for recognizing canonical words.The modern Chinese translation yielded deeper semantic meaning,clearer ideographic referents,and more vivid and flexible word combinations than the original canonical words.[Limitations]This study only chose specific pre-Qin classical texts and their translations.More research is needed to examine the models’performance in other domains.[Conclusions]The pre-trained language model SikuBERT could effectively analyze language style differences of cross-lingual canonical texts,which promotes the dissemination of classic Chinese works.

作者张逸勤邓三鸿胡昊天王东波 Zhang Yiqin;Deng Sanhong;Hu Haotian;Wang Dongbo(School of Information Management,Nanjing University,Nanjing 210023,China;School of Information Management,Nanjing Agricultural University,Nanjing 210095,China)

机构地区南京大学信息管理学院南京农业大学信息管理学院

出处《数据分析与知识发现》 EI CSSCI CSCD 北大核心 2023年第10期50-62,共13页 Data Analysis and Knowledge Discovery

基金国家社会科学基金重大项目(项目编号:21&ZD331)的研究成果之一。

关键词预训练语言模型语言风格数字人文典籍文本 Pre-Trained Language Models Language Style Digital Humanities Canonical Texts

分类号 G122 [文化科学] G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献26

1武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6):61-68. 被引量：25
2祝克懿.语言风格研究的理论渊源与功能衍化路径[J].当代修辞学,2021(1):59-71. 被引量：14
3邓三鸿,胡昊天,王昊,王东波.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20. 被引量：26
4冯文贺,高子雄,张文娟.小句识别所依赖的语段全局范围探究——基于预训练语言模型Bert的汉语小句识别[J].语言文字应用,2022(2):111-121. 被引量：2
5黄水清,王东波.古文信息处理研究的现状及趋势[J].图书情报工作,2017,61(12):43-49. 被引量：31
6习近平.坚定文化自信,建设社会主义文化强国[J].求是,2019,0(12):4-12. 被引量：452
7范敏.《论语》五译本译者风格研究——基于语料库的统计与分析[J].北京航空航天大学学报（社会科学版）,2016,29(6):81-88. 被引量：3
8王翊,张瑞娥,韩名利.《淮南子》汉英平行语料库建设及应用前景[J].安徽理工大学学报（社会科学版）,2021,23(1):84-89. 被引量：1
9肖天久,刘颖.基于聚类和分类的金庸与古龙小说风格分析[J].中文信息学报,2015,29(5):167-177. 被引量：12
10端木三.英汉音节分析及数量对比[J].语言科学,2021,20(6):561-588. 被引量：5

二级参考文献379

1刘月蕊,贾诗敏.“互联网+”背景下博物馆数字文创多元创新研究[J].中国文艺家,2019,0(11):269-270. 被引量：2
2刘石,李飞跃.大数据技术与传统文献学的现代转型[J].中国社会科学,2021(2):63-81. 被引量：36
3赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：33
4俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
5昝红英,刘涛,牛常勇,赵悦淑,张坤丽,穗志方.面向儿科疾病的命名实体及实体关系标注语料库构建及应用[J].中文信息学报,2020,34(5):19-26. 被引量：18
6程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
7吴智嘉.民族古籍数字化的现状及科学保护问题研究[J].黑龙江民族丛刊,2019(5):108-114. 被引量：4
8董淑平.浅论中国古代法律思想对现代法治的作用[J].法制博览,2019,0(36):247-248. 被引量：2
9苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
10周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90

共引文献721

1周克书,赵朝峰.中华民族伟大复兴叙事主题的四维建构[J].中国延安干部学院学报,2024,17(2):14-25.
2曾明,常华仁,程宏伟.文明互鉴与推进文化自信自强的思考[J].中外文化与文论,2023(2):32-42.
3刘石,李飞跃.大数据技术与传统文献学的现代转型[J].中国社会科学,2021(2):63-81. 被引量：36
4杜俞瑾.论坚定文化自信与推进全民阅读战略的实施[J].作家天地,2019,0(21):188-190.
5张宗沂.扎语用之根,展神话之魂——以小学语文统编版教材四年级上册《精卫填海》为例[J].中华活页文选（教师）,2023(12):70-72.
6罗静,吕文澎.译者行为批评视阈下的中国古典诗词中文化意象“天”的英译探析——以苏轼《水调歌头·明月几时有》为例[J].语言教育,2020(1):71-75. 被引量：5
7鲁彦琪.编辑文化选择的路径构建——以文化自觉为视角[J].新闻传播,2021(12):70-71.
8李安尼.新时代法律类图书主题出版的几点思考[J].新闻传播,2021(8):68-69. 被引量：3
9王国娜,蔡素兰.新旧动能转换背景下企业家精神的构建——基于儒家文化的研究[J].时代金融,2020(8):66-68.
10肖欢欢.高校开展民族传统体育的价值与路径分析[J].运动精品,2021(1):50-51. 被引量：1

同被引文献50

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
2俞理明.从早期佛经材料看古代汉语中的两种疑问词“为”[J].四川大学学报（哲学社会科学版）,1991(4):75-81. 被引量：4
3刘巧芝.从副词谓语句看古汉语“必”字的词性[J].和田师范高等专科学校学报（汉文版）,2004,24(4):111-112. 被引量：1
4于智荣.上古典籍中表“率领”诸义的“以”字不是介词[J].语文研究,2002(2):33-37. 被引量：4
5华嘉.中华文化建设的干城——祝贺《二十四史全译》出版[J].民主,2005(4):33-35. 被引量：2
6姚振军.面向中医典籍的机器翻译系统的开发[J].中国翻译,2007,28(2):72-75. 被引量：5
7石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究[J].中文信息学报,2010,24(2):39-45. 被引量：70
8ZHANG Hong REN Fuji.Chinese POS Tagging Using Restricted Maximum Entrooy Model[J].Chinese Journal of Electronics,2010,19(1):39-42. 被引量：1
9陈广宏.关于中世文学开端的一点想法[J].复旦学报（社会科学版）,2002,44(4):25-30. 被引量：2
10王国龙,杜建强,郝竹林,程春雷,蔡良俊,张鑫.中医诊断古文的词性标注与特征重组[J].计算机工程与设计,2015,36(3):835-840. 被引量：11

引证文献3

1吴梦成,林立涛,吴娜,许乾坤,王东波.融合不同语义知识的中国古代典籍机器翻译研究[J].情报资料工作,2024,45(2):97-104.
2朱丹浩,赵志枭,胡蝶,赵文华,孙光耀,王东波.领域大语言模型下的古籍词性标注应用研究[J].科技情报研究,2024,6(2):21-29. 被引量：2
3吴梦成,林立涛,胡蝶,刘畅,黄水清,孟凯,王东波.我国古代典籍时代特征视角下的机器翻译研究[J].图书馆论坛,2024,44(10):93-102.

二级引证文献2

1左亮,赵志枭,王东波.基于大语言模型的《四库全书》自动分类研究[J].信息资源管理学报,2024,14(5):23-35.
2朱丹浩,赵志枭,张一平,孙光耀,刘畅,胡蝶,王东波.面向古文自然语言处理生成任务的大语言模型评测研究[J].信息资源管理学报,2024,14(5):45-58.

1白洁,徐步霄,杨沈龙,郭永玉.再分配偏向的心理机制及其对共同富裕的启示[J].应用心理学,2023,29(3):268-279. 被引量：1
2达琼,完玛措.吐蕃时期的民田--以古汉藏文献为中心[J].青海师范大学学报（藏文版）,2023(3):44-59.
3黄鸿辉.互文语篇论域下王蒙经典文本语言风格探析[J].阜阳师范大学学报（社会科学版）,2023(4):43-48.
4黄跃进.古汉诗英译本的“形”与“神”反合观[J].郑州师范教育,2023,12(3):74-78.
5高丕永.“电车”漫谈[J].语文学习,2023(8):84-85.
6《压缩机技术》征稿启事[J].压缩机技术,2023(6).
7《化工设计通讯》投稿须知[J].化工设计通讯,2023,49(12):220-220.
8周加仙.教育神经科学为循证教育决策与实践提供“金标准”证据[J].中小学管理,2023(12):9-13.
9杨静.“功能+忠诚”理论下科技文本英汉翻译的逻辑再现[J].现代英语,2023(13):106-109. 被引量：1
10冀永义."问"的学问[J].前线,2023(11):86-86.

数据分析与知识发现

2023年第10期

浏览历史

内容加载中请稍等...

预训练模型视角下的跨语言典籍风格计算研究被引量：3

参考文献26

二级参考文献379

共引文献721

同被引文献50

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

预训练模型视角下的跨语言典籍风格计算研究 被引量：3

参考文献26

二级参考文献379

共引文献721

同被引文献50

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

预训练模型视角下的跨语言典籍风格计算研究被引量：3