基于BERT-BiLSTM-CRF的中文分词和词性标注联合方法被引量：6

Joint Method for Chinese Word Segmentation and Part-of-speech Tagging Based on BERT-BiLSTM-CRF

下载PDF

导出

摘要针对中文分词、词性标注等序列标注任务,本文提出了结合BERT语言模型、BiLSTM(双向长短时记忆模型)、CRF(条件随机场模型)和马尔可夫族模型(MFM)或树形概率(TLP)构建的中文分词和词性标注联合方法.隐马尔可夫(HMM)词性标注方法忽略了词本身到词性的发射概率,而在利用树形概率或马尔可夫族统计模型的词性标记中,一个词的词性不仅和该词前一个词的词性关联,且与该词自身关联.使用联合方法有助于使用词性信息帮助分词,将两者紧密结合能够帮助消除歧义和改进分词、词性标记的性能.实验结果表明本文使用的中文分词和词性标注联合方法与普通的BiLSTM-CRF分词算法相比,可以明显提升分词性能,而且相比于通常的隐马尔可夫词性标注方法能够大幅度提高词性标注的准确率. For sequence tagging tasks such as Chinese word segmentation and part-of-speech tagging,this paper proposes a joint method for Chinese word segmentation and part-of-speech tagging that combines BERT model,BiLSTM(bi-directional long-short term memory model),CRF(conditional random field model),Markov family model(MFM)or tree-like probability(TLP).Part-of-speech tagging method based on HMM(Hidden Markov Model)ignores the emission probability of the word itself to the part-of-speech.In part-of-speech tagging based on MFM or TLP,the part-of-speech of the current word is not only related to the part-of-speech of the previous word,but also related to the current word itself.The use of the joint method helps to use part-of-speech tagging information to achieve word segmentation,and organically combining the two is beneficial to eliminate ambiguity and improve the accuracy of word segmentation and part-of-speech tagging tasks.The experimental results show that the joint method of Chinese word segmentation and part-of-speech tagging used in this paper can greatly improve the accuracy of word segmentation compared with the usual word segmentation model based on BiLSTM-CRF,and it can also greatly improve the accuracy of part-of-speech tagging compared with the traditional part-of-speech tagging method based on HMM.

作者袁里驰 YUAN Li-chi(School of Software and Internet of Things Engineering,Jiangxi University of Finance and Economics,Nanchang 330013,China)

机构地区江西财经大学软件与物联网工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2023年第9期1906-1911,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61962025,61562034)资助.

关键词 BERT 双向长短时记忆模型中文分词词性标注马尔可夫族模型树形概率 bidirectional encoder representation from transformers bi-directional long-short term memory model Chinese word segmentation part-of-speech tagging Markov family model tree-like probability

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1胡晓辉,朱志祥.基于深度学习的中文分词方法研究[J].计算机与数字工程,2020,48(3):627-632. 被引量：8
2涂文博,袁贞明,俞凯.无池化层卷积神经网络的中文分词方法[J].计算机工程与应用,2020,56(2):120-126. 被引量：12
3张文静,张惠蒙,杨麟儿,荀恩东.基于Lattice-LSTM的多粒度中文分词[J].中文信息学报,2019,33(1):18-24. 被引量：17
4成于思,施云涛.基于深度学习和迁移学习的领域自适应中文分词[J].中文信息学报,2019,33(9):9-16. 被引量：14
5王星,李超,陈吉.基于膨胀卷积神经网络模型的中文分词方法[J].中文信息学报,2019,33(9):24-30. 被引量：20
6袁里驰.基于改进的隐马尔科夫模型的词性标注方法[J].中南大学学报（自然科学版）,2012,43(8):3053-3057. 被引量：15
7孙静,李军辉,周国栋.基于条件随机场的无监督中文词性标注[J].计算机应用与软件,2011,28(4):21-23. 被引量：9
8袁里驰.基于改进的隐马尔科夫模型的语音识别方法[J].中南大学学报（自然科学版）,2008,39(6):1303-1308. 被引量：19
9章登义,胡思,徐爱萍.一种基于双向LSTM的联合学习的中文分词方法[J].计算机应用研究,2019,36(10):2920-2924. 被引量：10
10朱聪慧,赵铁军,郑德权.基于无向图序列标注模型的中文分词词性标注一体化系统[J].电子与信息学报,2010,32(3):700-704. 被引量：12

二级参考文献106

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
2刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
5梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
6赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20
7颜龙,刘刚,郭军.基于小波分析的大词汇汉语连续语音识别系统鲁棒性的研究[J].中文信息学报,2006,20(2):60-65. 被引量：6
8唐赟,刘文举,徐波.基于后验概率解码段模型的汉语语音数字串识别[J].计算机学报,2006,29(4):635-641. 被引量：12
9洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
10刘宇红,刘桥,任强.基于模糊聚类神经网络的语音识别方法[J].计算机学报,2006,29(10):1894-1900. 被引量：14

共引文献142

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44
2冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
3袁里驰.基于依存关系的句法分析统计模型[J].中南大学学报（自然科学版）,2009,40(6):1630-1635. 被引量：13
4林春丽,齐欣,王克成.SVM-KNN分类器在异常行为检测中的应用[J].辽宁科技大学学报,2010,33(5):449-452. 被引量：3
5李青,邓月明,王赟,莫崇晟,刘斌,贺洪平,李慧玲.基于声纹识别的智能小区认证系统设计[J].网络安全技术与应用,2011(4):36-38. 被引量：3
6袁里驰.基于词聚类的依存句法分析[J].中南大学学报（自然科学版）,2011,42(7):2023-2027. 被引量：10
7樊启高,李威,王禹桥,范孟豹,杨雪锋.一种采用灰色马尔科夫组合模型的采煤机记忆截割算法[J].中南大学学报（自然科学版）,2011,42(10):3054-3058. 被引量：31
8袁里驰.基于改进的隐马尔科夫模型的词性标注方法[J].中南大学学报（自然科学版）,2012,43(8):3053-3057. 被引量：15
9麦热哈巴·艾力,姜文斌,王志洋,吐尔根·依布拉音,刘群.维吾尔语词法分析的有向图模型[J].软件学报,2012,23(12):3115-3129. 被引量：22
10王凯.免疫粒子群改进LBG的孤立词语音识别算法研究[J].数字技术与应用,2013,31(1):111-113. 被引量：1

同被引文献84

1陈明,刘蓉,熊回香.基于医疗知识图谱的智能问答系统研究[J].情报科学,2023,41(12):118-126. 被引量：1
2陈田,黄泓毓,杨东升,董淑婷.基于相互学习和SoftLexicon的中文命名实体识别模型[J].计算机应用,2023,43(S01):61-66. 被引量：1
3周丕健,周李哲.生态系统简化粒子群算法的优化分析——基于大数据环境的研究[J].环境工程,2022,40(9):342-343. 被引量：3
4张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139. 被引量：20
5王丹,樊兴华.面向短文本的命名实体识别[J].计算机应用,2009,29(1):143-145. 被引量：18
6庄严,李国良,冯建华.知识库实体对齐技术综述[J].计算机研究与发展,2016,53(1):165-192. 被引量：85
7刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：971
8曾帅,王帅,袁勇,倪晓春,欧阳永基.面向知识自动化的自动问答研究进展[J].自动化学报,2017,43(9):1491-1508. 被引量：17
9刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：150
10杨培,杨志豪,罗凌,林鸿飞,王健.基于注意机制的化学药物命名实体识别[J].计算机研究与发展,2018,55(7):1548-1556. 被引量：41

引证文献6

1罗佳,李萌.基于BiLSTM-CRF模型的房屋出租App系统的设计与实现[J].软件,2024,45(1):18-20.
2刘雪梅,程彭圣男,李海瑞,曹闯,高英,崔培.基于字词向量的BiLSTM-CRF水利工程巡检文本实体识别模型[J].华北水利水电大学学报（自然科学版）,2024,45(3):9-17. 被引量：2
3王润周,张新生.基于混合动态掩码与多策略融合的医疗知识图谱问答[J].计算机科学与探索,2024,18(10):2770-2786.
4赵盾,佘学兵,邬昌兴.基于BERT-BiLSTM-CRF党建领域命名实体识别[J].计算机与现代化,2024(9):91-94.
5徐晓涛.大数据客户热词分析系统的架构设计[J].武夷学院学报,2024,43(9):26-31.
6庞博文,陈一飞,黄佳.基于样本贡献度对抗迁移的审计领域细粒度实体识别模型[J].计算机科学,2024,51(S02):136-143.

二级引证文献2

1陆泽健,赵文,尹港港.基于RoBERTa_BiLSTM_CRF的文本情报命名实体识别[J].中国电子科学研究院学报,2024,19(5):442-447.
2徐世阳.基于双向长短记忆网络融合模型的招标文件解析技术研究[J].电力大数据,2024,27(4):80-94.

1相对磁场方向测量磁力显微镜[J].中国科学院院刊,2023,38(S01):10-10.
2汪增辉,朱家佳,周增光,张静,李晓辉.基于动态图结构学习的多参数时间序列异常检测模型[J].信息与电脑,2023,35(6):112-116.
3全煜坤.基于深度学习的网约车需求预测研究[J].汽车实用技术,2023,48(16):188-193.
4钟昕妤,李燕,徐丽娜,陈月月,帅亚琦.基于CmabBERT-BILSTM-CRF的针灸古籍分词技术研究[J].计算机时代,2023(4):11-15.
5曾繁健,廖伟斌.诗学复刻与改写:《边城》金介甫英译本女性形象可视化分析[J].江西理工大学学报,2023,44(4):106-114.
6惠瑞,吕彬,刘钰鹏,王川,刘清,李红玉,徐莉莉,田增民.机器人Remebot辅助内囊前肢毁损术治疗伴精神障碍的脑性瘫痪儿童的疗效观察[J].中国临床神经外科杂志,2023,28(6):369-371.
7唐雪梅,苏祺,王军,杨浩.基于图卷积神经网络的古汉语分词研究[J].情报学报,2023,42(6):740-750. 被引量：5
8齐小刚,周雨桐,刘立芳.无人机集群对地作战任务可靠性评估[J].系统工程与电子技术,2023,45(9):2971-2978. 被引量：2
9于祥钦,王香,李智强,徐贤.基于字符级特征自适应的生物医学命名实体识别[J].小型微型计算机系统,2023,44(9):1876-1883. 被引量：5
10贾睿昊,牛军川,郭俊财.舰用柴油机隔振系统建模及隔振效果评价[J].内燃机学报,2023,41(4):376-383. 被引量：3

小型微型计算机系统

2023年第9期

浏览历史

内容加载中请稍等...

基于BERT-BiLSTM-CRF的中文分词和词性标注联合方法被引量：6

参考文献15

二级参考文献106

共引文献142

同被引文献84

引证文献6

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于BERT-BiLSTM-CRF的中文分词和词性标注联合方法 被引量：6

参考文献15

二级参考文献106

共引文献142

同被引文献84

引证文献6

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于BERT-BiLSTM-CRF的中文分词和词性标注联合方法被引量：6