基于领域大语言模型的古籍分词研究被引量：3

Research on Word Segmentation of Ancient Books Based on Domain Large Language Model

下载PDF

导出

摘要 [目的/意义]文章以古籍自动分词为切入点,引入“荀子”系列大语言模型,对大语言模型在古籍文本分词任务上的表现进行了探讨。[方法/过程]文章基于《左传》分词语料,进行了数据清洗和整理,构建了指令数据集,在此基础上,从数据集中抽取了1 000条作为测试数据,并分别使用500、1 000、2 000、5 000条数据作为训练数据进行指令微调,并测试其性能。[结果/结论]实验结果表明,只需要少量的数据,大语言模型就可以有较为理想的表现,在微调数据量达到5 000条数据时,Xunzi-Qwen-7B模型表现出了最优性能,F1值达到84.54%。 [Purpose/significance]In this paper,we take the automatic text segmentation of ancient books as an entry point,introduce the"Xunzi"series of large language models,and explore the performance of large language models on the task of word division of ancient texts.[Method/process]This paper constructs an instruction dataset based on the Zuozhuan,with data cleaning and organisation.on this basis,1000 pieces were extracted from it as test data,then 500,1000,2000,and 5000 pieces of data were used as training data to fine-tune the instructions and test their performance,respectively.[Result/conclusion]The experimental results show that only a relatively small amount of data is needed for the large language model to have a more desirable performance,and the Xunzi-Qwen-7B model shows optimal performance with an F1 value of 84.54%when the amount of fine-tuned data reaches 5000 pieces.

作者朱丹浩赵志枭吴娜王希羽孙光耀王东波 ZHU Danhao;ZHAO Zhixiao;WU Na;WANG Xiyu;SUN Guangyao;WANG Dongbo(Department of Criminal Science and Technology,Jiangsu Police Institute,Nanjing 210031;School of Information Management,Nanjing Agricultural University,Nanjing 210095)

机构地区江苏警官学院刑事科学技术系南京农业大学信息管理学院

出处《科技情报研究》 CSSCI 2024年第2期11-20,共10页 Scientific Information Research

基金国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(编号:21&ZD331)。

关键词 “荀子”大模型《左传》分词指令微调 "Xunzi"large language model Zuozhuan segmentation instruction tuning

分类号 G353.1 [文化科学—情报学] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献30

1黄祥喜.“语境相关”自动分词方法[J].情报学报,1989,8(4):266-273. 被引量：3
2姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43
3何克抗,徐辉,孙波.书面汉语自动分词专家系统设计原理[J].中文信息学报,1991,5(2):1-14. 被引量：30
4陈其晖,应志伟,柴佩琪.基于歧义二叉树的汉语分词方法[J].计算机辅助工程,1999,8(4):12-17. 被引量：9
5沈达阳,孙茂松,黄昌宁.基于统计的汉语分词模型及实现方法[J].中文信息,1998,15(2):96-98. 被引量：6
6刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65
7李家福,张亚非.一种基于概率模型的分词系统[J].系统仿真学报,2002,14(5):544-546. 被引量：16
8邱冰,皇甫娟.基于中文信息处理的古代汉语分词研究[J].微计算机信息,2008,24(24):100-102. 被引量：31
9丁振国,张卓,黎靖.基于Hash结构的逆向最大匹配分词算法的改进[J].计算机工程与设计,2008,29(12):3208-3211. 被引量：26
10曾艳,侯汉清.古籍文本抽词研究[J].图书情报工作,2008,52(1):132-135. 被引量：10

二级参考文献180

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
3程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
4张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
5黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
6尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000(3):56-60. 被引量：19
7马杰,付海波,刘菲.论《左传》的语言特色[J].辽宁工程技术大学学报（社会科学版）,2004,6(4):412-413. 被引量：2
8孙茂松,王洪君,李行健,富丽,黄昌宁,陈松岑,谢自立,张卫国.《信息处理用词汇研究》九五项目结题汇报信息处理用现代汉语分词词表[J].语言文字应用,2001(4):84-89. 被引量：24
9王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
10罗宇辉,侯汉清.因特网经济学未登录词计算机辅助挖掘试验[J].情报理论与实践,2005,28(5):478-481. 被引量：2

共引文献439

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2张锦胜,林泽斐.数字人文视角下多日记人物关系联合挖掘及可视化研究——以西南联大相关日记为例[J].知识管理论坛,2023(3):171-182. 被引量：1
3黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
4张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
5李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
6卢雪晖,徐会丹,李斌,陈思瑜.先秦词网构建及梵汉对比研究[J].中文信息学报,2023,37(3):36-45. 被引量：1
7任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
8俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
9程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
10Zhixiang Ji,Xiaohui Wang,Changyu Cai,Hongjian Sun.Power entity recognition based on bidirectional long short-term memory and conditional random fields[J].Global Energy Interconnection,2020,3(2):186-192. 被引量：8

同被引文献43

1赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：32
2江荻.西藏的语言多样性及其分类[J].中国藏学,2022(6):150-160. 被引量：2
3黄爱平.纪昀与《四库全书》[J].安徽史学,2005(4):33-39. 被引量：9
4王东波,苏新宁,朱丹浩,年洪东.基于支持向量机的医学期刊文章自动分类研究[J].情报理论与实践,2011,34(4):115-118. 被引量：12
5张野,杨建林.基于KNN和SVM的中文文本自动分类研究[J].情报科学,2011,29(9):1313-1317. 被引量：10
6刘尚恒.《四库全书总目》分类辨证[J].图书馆工作与研究,2000(1):36-39. 被引量：3
7杨敏,谷俊.基于SVM的中文书目自动分类及应用研究[J].图书情报工作,2012,56(9):114-119. 被引量：17
8王昊,叶鹏,邓三鸿.机器学习在中文期刊论文自动分类研究中的应用[J].现代图书情报技术,2014(3):80-87. 被引量：30
9李湘东,胡逸泉,巴志超,黄莉.数字图书馆多种类型文献混合自动分类研究[J].图书馆杂志,2014,33(11):42-48. 被引量：8
10王记录.论“史钞”[J].史学史研究,2016(3):1-12. 被引量：7

引证文献3

1左亮,赵志枭,王东波.基于大语言模型的《四库全书》自动分类研究[J].信息资源管理学报,2024,14(5):23-35.
2张海,赵雪,王东波.大语言模型下古籍智能信息处理:构成要素、框架体系与实践路径研究[J].信息资源管理学报,2024,14(5):36-44.
3朱丹浩,赵志枭,张一平,孙光耀,刘畅,胡蝶,王东波.面向古文自然语言处理生成任务的大语言模型评测研究[J].信息资源管理学报,2024,14(5):45-58.

1余礼根,郭晓利,赵红涛,杨淦,张俊,李奇峰.基于BERT-BiLSTM-CRF模型的畜禽疫病文本分词研究[J].农业机械学报,2024,55(2):287-294. 被引量：2
2朱丹浩,赵志枭,胡蝶,赵文华,孙光耀,王东波.领域大语言模型下的古籍词性标注应用研究[J].科技情报研究,2024,6(2):21-29. 被引量：2
3Jing Yu.How to Realize the Idea of"Virtuous Rule of Law":A Historical and Logical Research Based on Xunzi[J].Frontiers of History in China-Selected Publications from Chinese Universities,2023,18(2):153-176.
4曾军英,田慧明,陈宇聪,顾亚谨,邓森耀,尹永宏,尤吴杭,黄国林,甘俊英,秦传波.轻量级空间移位MLP用于指静脉分割[J].现代电子技术,2024,47(7):54-60.
5Sun Wei.Xunzi on Human Xing and Moral Cultivation[J].走进孔子,2023(5):121-128.
6才藏太,索南才让.面向藏文信息处理的藏语短语分类体系研究[J].青海民族大学学报（藏文版）,2023(3):99-110.
7李开瑞,高照华,刘甜甜,李静,魏海生.还原温度调变Rh/FePO_(4)催化剂喹啉选择加氢性能[J].化工进展,2024,43(3):1342-1349.

科技情报研究

2024年第2期

浏览历史

内容加载中请稍等...

基于领域大语言模型的古籍分词研究被引量：3

参考文献30

二级参考文献180

共引文献439

同被引文献43

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于领域大语言模型的古籍分词研究 被引量：3

参考文献30

二级参考文献180

共引文献439

同被引文献43

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于领域大语言模型的古籍分词研究被引量：3