基于深度学习的中医古籍缺失文本修复研究被引量：4

The restoration of missing texts in ancient books of Traditional Chinese Medicine based on deep learning

下载PDF

导出

摘要目的:基于构建的高质量中医古籍文本语料库及深度学习语言模型,训练出可以应用于中医古籍缺失文本修复的模型,为中医古籍修复工作提供帮助。方法:分别训练和测试N-gram模型、LSTM模型、BiLSTM模型、RoBERTa模型,对比筛选出最优模型,并将筛选出的最优模型运用到文本修复场景中。结果:BiLSTM模型优于LSTM模型,LSTM模型明显优于N-gram模型,而RoBERTa模型效果最优,将RoBERTa模型运用到《黄帝内经》的修复中,达到了63.36%的hit@1,82.57%的hit@5。结论:将深度学习技术应用于中医古籍缺失文本修复中具有较好的效果,能够为中医古籍修复提供帮助。 Objective Based on the constructed high-quality text corpus of ancient books of traditional Chinese medicine and deep learning language models, a model that could be applied to contribute to the repairing of missing texts of TCM ancient books was trained. Methods N-gram model, LSTM model, BiLSTM model, and RoBERTa model were trained and tested respectively, and the optimal model was selected out after comparison, and then applied to the text repairing scenes. Results BiLSTM model outperformed LSTM model, LSTM model significantly outperformed N-gram model, and RoBERTa model had the best effect. 63.36% of hits@1 and 82.57% of hits@5 were achieved by applying RoBERTa model to the repairing of Huangdi Neijing(Yellow Emperor’s Classic of Internal Medicine). Conclusion The application of deep learning technology in the missing texts repairing has a preferable effect, and can help the repairing of TCM ancient books.

作者盛威卢彦杰刘伟胡为周冲 SHENG Wei;LU Yan-jie;LIU Wei;HU Wei;ZHOU Chong(School of Informatics,Hunan University of Chinese Medicine,Changsha 410208,Hunan Province,China)

机构地区湖南中医药大学信息科学与工程学院

出处《中华医学图书情报杂志》 CAS 2022年第8期1-7,共7页 Chinese Journal of Medical Library and Information Science

基金湖南省教育厅科学研究项目“融合机器学习的中医古籍智能分析和知识抽取研究”(20C1435) 湖南省自然科学基金项目“中医典籍复杂语义结构分析与知识发现研究”(2022JJ30438) 湖南中医药大学研究生创新课题项目“基于深度学习的中医古籍修复研究与应用”(2022CX121)。

关键词中医古籍语言模型文本修复深度学习 RoBERTa Ancient books of traditional Chinese medicine Language model Text Repairing Deep learning RoBERTa

分类号 G253.6 [文化科学—图书馆学] R-5 [医药卫生]

引文网络
相关文献

参考文献14

1李兵,刘国正,符永驰,裘俭,张伟娜.从中医古籍数据库建设看中医古籍数字化[J].中国中医药信息杂志,2009,16(3):92-93. 被引量：39
2张伟娜,裘俭,刘国正,李鸿涛,程英,李兵,彭莉,牛亚华.全国中医古籍保存与保护现状调查分析[J].中国中医药信息杂志,2009,16(6):1-4. 被引量：22
3奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：226
4岳增营,叶霞,刘睿珩.基于语言模型的预训练技术研究综述[J].中文信息学报,2021,35(9):15-29. 被引量：47
5凤丽洲,杨贵军,徐雪,徐玉慧.基于N-gram的双向匹配中文分词方法[J].数理统计与管理,2020,39(4):633-643. 被引量：12
6高佳奕,杨涛,董海艳,史话跃,胡孔法.基于LSTM-CRF的中医医案症状命名实体抽取研究[J].中国中医药信息杂志,2021,28(5):20-24. 被引量：14
7黄颖,姜淑娟,蒋婷婷.结合Doc2Vec和BERT嵌入技术的补丁验证方法[J].计算机科学,2022,49(11):83-89. 被引量：4
8侯丹阳,庞亮,丁汉星,兰艳艳,程学旗.语言模型攻击性的自动评价方法[J].中文信息学报,2022,36(1):12-20. 被引量：2
9陆泉,郝志同,陈静,陈仕,朱安琪.利用迁移学习精准识别领域信息之探讨[J].图书情报工作,2021,65(5):110-117. 被引量：1
10王华锋,王久阳.一种基于Roberta的中文实体关系联合抽取模型[J].北方工业大学学报,2020,32(2):90-98. 被引量：5

二级参考文献71

1吉聪.中医古籍数字化建设问题探讨[J].长春中医学院学报,2004,20(3):64-65. 被引量：14
2陈力.中文古籍数字化方法之检讨[J].国家图书馆学刊,2005,14(3):11-16. 被引量：44
3翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
5裘俭,刘国正,符永驰,等.中医药古籍保护技术体系研究与利用[A].崔蒙,朱冬生.中医药信息研究进展(一)[C].北京:中医古籍出版社,2006.384-389.
6张建龙.古籍图书破损状况与古籍修复及保护方法的探讨[EB/OL].www.nlc.gov.cn/service/wjls/pdf/14/14_22.pdf,2006-12-25.
7熊建.中华文化之根--古籍[N].人民日报海外版,2008-08-19(7).
8牡鹿.古籍文献如何防虫、防潮[EB/OL].http://www.xici.net/b604956/d33707474.htm,2006-01-06.
9张志清.中华古籍特藏保护计划与古籍保护[EB/OL].www.mczz.net/showart.aspx?id-1148,2008-02-22.
10吴春颖,王士同.基于二元语法的N-最大概率中文粗分模型[J].计算机应用,2007,27(12):2902-2905. 被引量：12

共引文献424

1左旭.TED演讲中人际意义研究文献综述[J].英语广场（学术研究）,2020(36):71-73. 被引量：1
2孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：5
3黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
4张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
5王明皓,殷涛,杨洪杰,胡杰鑫,陈家宾.知识图谱和大模型技术发展与应用[J].网络安全与数据治理,2023,42(S01):126-131. 被引量：1
6周俊,郑彭元,袁立存,戈为溪,梁静.基于改进CASREL的水稻施肥知识图谱信息抽取研究[J].农业机械学报,2022,53(11):314-322. 被引量：9
7冯建英,王博,吴丹丹,穆维松,田东.用户画像技术与其在农业领域应用研究进展[J].农业机械学报,2021,52(S01):385-395. 被引量：7
8李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
9高园,罗悦,陈菊,冯杰,彭安杰,刘思涵.基于人工神经网络技术构建中医思维模型的研究[J].辽宁中医杂志,2022,49(7):48-51.
10刘海涛,陈鹏,陈春梅.论生成式人工智能时代的中国式教学现代化——基于学习哲学的视角[J].沈阳师范大学学报（教育科学版）,2023(5):10-17.

同被引文献60

1張志清.推進古籍整理再造傳世大典——在《子藏》第五批成果發布會上的講話[J].诸子学刊,2021(1):287-290. 被引量：1
2刘健.智慧博物馆发展中的数字人文建设——以上海博物馆的实践为例[J].数字人文研究,2022,2(3):39-49. 被引量：3
3雷珏莹,侯西龙,王晓光.数智时代古籍数字化再造的逻辑与进路[J].数字人文研究,2022,2(2):46-56. 被引量：22
4李芊芊,付兴,杨凤,侯鉴宸,陶晓华,韩帅,贾昌民.基于“病脉证并治”诊疗思维的《伤寒论》知识图谱构建与应用[J].世界科学技术-中医药现代化,2022,24(9):3613-3621. 被引量：9
5张再良.六经九分法概述(六)——中医临床经典的传承[J].上海中医药杂志,2020,54(2):44-47. 被引量：6
6苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
7李兵,刘国正,符永驰,裘俭,张伟娜.从中医古籍数据库建设看中医古籍数字化[J].中国中医药信息杂志,2009,16(3):92-93. 被引量：39
8杨贤林.古籍整理中数字化技术的应用实践与展望[J].图书馆学刊,2014,36(3):51-53. 被引量：9
9李娜.基于条件随机场的方志古籍别名自动抽取模型构建[J].中文信息学报,2018,32(11):41-48. 被引量：29
10王颖,吴思竹.基于R2RML的STKOS超级科技词表RDF转换实现[J].数据分析与知识发现,2018,2(12):89-97. 被引量：4

引证文献4

1李盼飞,张楚楚,李海燕.科技赋能中医古籍精华传承与创新应用[J].中医杂志,2023,64(15):1519-1524. 被引量：16
2赵剑波,李应存,张洲,任香霖,郑燕.基于ChatGPT发布探讨新一代人工智能对中医古籍文献研究的影响[J].上海中医药杂志,2023,57(12):17-21. 被引量：3
3陈涛,夏焱,杨鑫,祝蕊,王蕾.语义技术驱动的古籍资源互联互通框架设计与实现[J].图书馆论坛,2024,44(6):119-127.
4王功达.人工智能大模型在智慧图书馆领域的应用[J].张江科技评论,2024(3):133-135.

二级引证文献19

1谭开云,孙光荣.国医大师孙光荣“以平为期”学术思想论要[J].湖南中医药大学学报,2023,43(12):2289-2293. 被引量：1
2杨小丽,龚致平,浦科学,董彩凤.人工智能赋能中医临床诊疗的现状、问题和对策[J].重庆医学,2024,53(4):613-616. 被引量：3
3马艺鑫,王莹,陈智慧,杜莹,杨珺涵,齐雪杉,张世琪,张哲.人工智能背景下中西医结合临床专业研究生创新实践能力培养的探索[J].卫生职业教育,2024,42(6):1-3. 被引量：1
4张仕娜,高远,郑爱华,晏峻峰.中医厥证领域本体构建研究[J].湖南中医药大学学报,2024,44(3):427-434. 被引量：1
5于淼,刘丽红,齐晓凡,满伟,周计春.燕赵医学古籍文献数据库构建研究[J].中国数字医学,2024,19(3):99-104.
6严雪梅.中医古籍数字出版内容优化策略[J].中国传媒科技,2024(5):117-120.
7楚博文.人工智能在中医药领域应用前景探析[J].甘肃中医药大学学报,2024,41(2):101-104. 被引量：1
8芦万华,钟小青,刘根林,赵晔,史华新.基于ISM模型的中医药应对公共卫生事件防治体系层级结构研究[J].天津中医药,2024,41(6):689-696.
9杨凤,张艺,陶晓华,李剑峰,罗涛,常静玲,陈健,陈丽云,戴铭,王凤兰,陆翔.基于知识元理论与临床需求深度融合的中医古籍数智化研究路径和范式[J].中医杂志,2024,65(12):1201-1207.
10潘天择,陈凯先,周杰,王继达,金昱彤,舒容丽,边育红,王怡杨.人工智能驱动中西医结合发展——陈凯先院士访谈录[J].天津中医药,2024,41(7):817-819.

1黄玉杏.广西少数民族古籍修复技法研究——以古壮字古籍《丧门》修复为例[J].文物鉴定与鉴赏,2023(2):35-38.

中华医学图书情报杂志

2022年第8期

浏览历史

内容加载中请稍等...

基于深度学习的中医古籍缺失文本修复研究被引量：4

参考文献14

二级参考文献71

共引文献424

同被引文献60

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于深度学习的中医古籍缺失文本修复研究 被引量：4

参考文献14

二级参考文献71

共引文献424

同被引文献60

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于深度学习的中医古籍缺失文本修复研究被引量：4