基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究被引量：21

A Joint Model of Automatic Sentence Segmentation and Lexical Analysis for Ancient Chinese Based on BiLSTM-CRF Model

下载PDF

导出

摘要古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。 The basic tasks of ancient Chinese information processing include automatic sentence segmentation,word segmentation,part-of-speech tagging and named entity recognition.To avoid the error accumulation in the pipeline processing,this paper proposes a joint approach to sentence segmentation and lexical analysis.The BiLSTM-CRF neural network model is used to verify the generalization ability and the effect of sentence segmentation and lexical analysis on different label levels on four cross-age test sets.Experiments show that the joint model achieves improvements on the F1-score of sentence segmentation,word segmentation and part-of-speech tagging:yielding 78.95%for sentence segmentation(with an average increase of 3.5%),85.73%for word segmentation(with an average increase of 0.18%),and 72.65%for part-of-speech tagging(with an average increase of 0.35%).

作者程宁李斌葛四嘉郝星月冯敏萱 CHENG Ning;LI Bin;GE Sijia;HAO Xingyue;FENG Minxuan(School of Chinese Language and Literature,Nanjing Normal University,Nanjing,Jiangsu 210097,China;Institute for Quantitative Social Science,Harvard University,Cambridge,MA 02138,USA)

机构地区南京师范大学文学院哈佛大学计量社会科学研究所

出处《中文信息学报》 CSCD 北大核心 2020年第4期1-9,共9页 Journal of Chinese Information Processing

基金国家自然科学基金(71673143) 国家语委科研项目(WT135-24,YB135-61) 江苏省高校哲学社会科学优秀创新团队建设项目(2017STD006)

关键词古文断句分词词性标注 BiLSTM-CRF 古汉语信息处理 sentence segmentation of ancient Chinese word segmentation part-of-speech tagging BiLSTM-CRF ancient Chinese information processing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1金宸,李维华,姬晨,金绪泽,郭延哺.基于双向LSTM神经网络模型的中文分词[J].中文信息学报,2018,32(2):29-37. 被引量：39
2冯蕴天,张宏军,郝文宁,陈刚.基于深度信念网络的命名实体识别[J].计算机科学,2016,43(4):224-230. 被引量：14
3Han Xu,Wang Hongsu,Zhang Sanqian,Fu Qunchao,Liu Jun.Sentence segmentation for classical Chinese based on LSTM with radical embedding[J].The Journal of China Universities of Posts and Telecommunications,2019,26(2):1-8. 被引量：7
4张开旭,夏云庆,宇航.基于条件随机场的古汉语自动断句与标点方法[J].清华大学学报（自然科学版）,2009(10):1733-1736. 被引量：34
5石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究[J].中文信息学报,2010,24(2):39-45. 被引量：70
6黄建年,侯汉清.农业古籍断句标点模式研究[J].中文信息学报,2008,22(4):31-38. 被引量：28
7于江德,胡顺义,余正涛.三位一体字标注的汉语词法分析[J].中文信息学报,2015,29(6):1-7. 被引量：4
8王晓玉,李斌.基于CRFs和词典信息的中古汉语自动分词[J].数据分析与知识发现,2017,1(5):62-70. 被引量：25

二级参考文献71

1黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000(3):56-60. 被引量：19
5阚景忠.古文不标点断句的文化阐释[J].徐州师范大学学报（哲学社会科学版）,2005,31(2):67-69. 被引量：2
6陈振宇,陈振宁.怎样计算现代汉语句子的时间信息[J].中文信息学报,2005,19(3):94-104. 被引量：6
7白栓虎.汉语词切分及词性自动标注一体化方法[J].中文信息,1996(2):46-48. 被引量：2
8赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20
9周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
10张文国.古汉语的“N+N”结构及其发展[J].长安大学学报（社会科学版）,2006,8(2):80-83. 被引量：1

共引文献171

1张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
2李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
3卢雪晖,徐会丹,李斌,陈思瑜.先秦词网构建及梵汉对比研究[J].中文信息学报,2023,37(3):36-45. 被引量：1
4任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
5俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
6Zhixiang Ji,Xiaohui Wang,Changyu Cai,Hongjian Sun.Power entity recognition based on bidirectional long short-term memory and conditional random fields[J].Global Energy Interconnection,2020,3(2):186-192. 被引量：8
7苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
8馬海麗,王曦.古籍數字化中計算機自然語言處理應用現狀分析[J].古籍研究,2020(2):322-328. 被引量：2
9于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
10常娥,黄建年,侯汉清.古籍智能整理与开发系统构建研究[J].情报资料工作,2009,30(4):43-47. 被引量：14

同被引文献252

1杨丽姣,肖航,刘智颖.《信息处理用现代汉语词类标记规范》修订研究[J].语言文字应用,2021(3):111-120. 被引量：1
2张力元,王军.古籍数据库分面分类体系设计研究[J].图书馆建设,2021(3):56-61. 被引量：16
3于舒娟,毛新涛,张昀,黄丽亚.基于词典和字形特征的中文命名实体识别[J].中文信息学报,2023,37(3):112-122. 被引量：1
4李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
5俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
6黄覺弘.孔繼涵《杜諤〈春秋會義〉所引書目》辨正[J].历史文献研究,2021(1):120-131. 被引量：1
7袁毓林,曹宏.“语义网—本体知识—知识图谱”和语言研究[J].汉语学报,2021(1):8-19. 被引量：6
8董淑平.浅论中国古代法律思想对现代法治的作用[J].法制博览,2019,0(36):247-248. 被引量：2
9刘鹏程,曹骞,匡志威,邹洵.古建筑多源数据三维建模方法[J].测绘通报,2022(S02):316-321. 被引量：7
10化振红.建立中古汉语语料库分词规范的若干问题[J].语言研究集刊,2021(2):151-167. 被引量：2

引证文献21

1张锦胜,林泽斐.数字人文视角下多日记人物关系联合挖掘及可视化研究——以西南联大相关日记为例[J].知识管理论坛,2023(3):171-182. 被引量：1
2张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
3李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
4苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
5邓三鸿,胡昊天,王昊,王东波.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20. 被引量：26
6杨泽,顾磊.一种中国古典文学文本知识图谱构建方法[J].计算机技术与发展,2021,31(7):28-34. 被引量：2
7高瑞卿,董启文,方达,王弘治,方勇.数字技术下《老子》文本与先秦两汉典籍的关系挖掘[J].情报杂志,2021,40(10):99-107. 被引量：3
8刘忠宝,赵文娟.古籍信息处理回顾与展望[J].大学图书馆学报,2021,39(6):38-47. 被引量：10
9王进,张义.古汉语自动分词技术研究现状及进展[J].海南开放大学学报,2022,23(3):61-69.
10赵连振,张逸勤,刘江峰,王东波,冯敏萱,李斌.面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(12):120-128. 被引量：7

二级引证文献74

1王弘治.“玄”之取象——關於《老子》中“玄”的解釋[J].诸子学刊,2022(2):54-67.
2王弘治.“道”之析義[J].诸子学刊,2022(1):1-15.
3张锦胜,林泽斐.数字人文视角下多日记人物关系联合挖掘及可视化研究——以西南联大相关日记为例[J].知识管理论坛,2023(3):171-182. 被引量：1
4雷珏莹,侯西龙,王晓光.数智时代古籍数字化再造的逻辑与进路[J].数字人文研究,2022,2(2):46-56. 被引量：22
5李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
6马晓雯,何琳,刘建斌,李章超,高丹.基于Bi-LSTM的古籍事件句触发词分类方法研究[J].农业图书情报学报,2021,33(9):27-36. 被引量：3
7陈诗,王东波,黄水清.数字人文下的典籍人称代词指代消解研究[J].情报理论与实践,2021,44(10):165-172. 被引量：3
8常博林,万晨,李斌,陈欣雨,冯敏萱,王东波.基于词和实体标注的古籍数字人文知识库的构建与应用——以《资治通鉴·周秦汉纪》为例[J].图书情报工作,2021,65(22):134-142. 被引量：13
9肖超,高兆强.出版社古籍数字出版商业模式研究:基于商业模式画布理论[J].科技与出版,2021(11):74-84. 被引量：6
10何琳,马晓雯,喻雪寒,艾毓茜,李章超,高丹.典籍事件触发动词识别研究:基于《左传》的文本实验[J].图书情报工作,2022,66(5):133-141. 被引量：4

1李娇,任爽.网络PGC视频的传播模式研究——以网络视频节目为例[J].图书馆学研究,2017(22):93-96. 被引量：6
2方颂,王彦娴,谭阳.分段线性混沌图最高有效位大容量图像加密算法[J].计算机工程,2018,44(11):251-256.
3李岩,郭凤英,翟兴,陈晓倩,佟金铎.基于jieba中文分词的在线医疗网站医生画像研究[J].医学信息学杂志,2020,41(7):14-18. 被引量：11
4才让卓玛,才智杰.基于词性约束的藏文分词策略与算法[J].中文信息学报,2020,34(2):33-37. 被引量：7
5陈敏,郭靖.医院物资与财务管理一体化研究——以A医院为例[J].行政事业资产与财务,2020(17):47-48. 被引量：2
6周潭,莫礼平,胡美琪,李航程.基于MEM和HMM的中文词性标注方法[J].吉首大学学报（自然科学版）,2020,41(2):15-18. 被引量：1
7刘各巧,陆海峰,金莉苹.基于学习者评价文本挖掘的在线课程质量提升研究[J].太原城市职业技术学院学报,2020(8):106-110.
8史转转,孙姝.党校电子文档智能系统的开发与应用[J].电脑知识与技术,2020,16(23):233-235.
9姜平,马素霞,孙淑君,杨秉川,王杰,崔荣基.ClO2/尿素溶液同时脱硫脱硝实验研究[J].化学工程,2020,48(6):11-15. 被引量：1
10陈子豪,谢从华,时敏,唐晓娜.基于fasttext模型的中文专利快速分类[J].常熟理工学院学报,2020,34(5):47-50. 被引量：1

中文信息学报

2020年第4期

浏览历史

内容加载中请稍等...

基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究被引量：21

参考文献8

二级参考文献71

共引文献171

同被引文献252

引证文献21

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究 被引量：21

参考文献8

二级参考文献71

共引文献171

同被引文献252

引证文献21

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究被引量：21