基于BI＿LSTM＿CRF神经网络的序列标注中文分词方法被引量：14

Chinese word segmentation method based on BI＿LSTM＿CRF neural network for sequence labeling

下载PDF

导出

摘要当前主流的中文分词方法是基于有监督的学习算法,该方法需要大量的人工标注语料,并且提取的局部特征存在稀疏等问题。针对上述问题,提出一种双向长短时记忆条件随机场(BI_LSTM_CRF)模型,可以自动学习文本特征,能对文本上下文依赖信息进行建模,同时CRF层考虑了句子字符前后的标签信息,对文本信息进行了推理。该分词模型不仅在MSRA,PKU,CTB 6.0数据集上取得了很好的分词结果,而且在新闻数据、微博数据、汽车论坛数据、餐饮点评数据上进行了实验,实验结果表明,BI_LSTM_CRF模型不仅在测试集上有很好的分词性能,同时在跨领域数据测试上也有很好的泛化能力。 The mainstream Chinese word segmentation method based on supervised learning algorithm requires a lot of corpora labeled manually,and the extracted local feature has sparse problem.Therefore,a bidirectional long short.term memory conditional random field(BI_LSTM_CRF)model is proposed,which can automatically learn the text features,and model the text context dependent information.The tag information before and after sentence character is considered in CRF layer,and the text information is deduced.The word segmentation model has achieved perfect word segmentation results on datasets of MSRA,PKU and CTB6.0,and the experiment for the model is carried out with news data,MicroBlog data,automobile forum data and restaurant review data.The experimental results show that the BI_LSTM_CRF model has high word segmentation performance in testing set,and strong generalization ability in cross.domain data testing.

作者姚茂建李晗静吕会华姚登峰 YAO Maojian;LI Hanjing;Lü Huihua;YAO Dengfeng(Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,China;Special Education College of Beijing Union University,Beijing 100075,China)

机构地区北京联合大学北京市信息服务工程实验室北京联合大学特殊教育学院

出处《现代电子技术》北大核心 2019年第1期95-99,共5页 Modern Electronics Technique

基金国家语委重点项目(ZDI135-31) 北京教育科学规划重点课题(ADA14121) 北京市属高校高水平教师队伍建设创新团队建设提升计划(IDHT20170511)~~

关键词自然语言处理中文分词神经网络双向长短时记忆条件随机场字嵌入序列标注 natural language processing Chinese word segmentation neural network bidirectional long short-termmemory random field word embedding sequence labeling

分类号 TN711-34 [电子电信—电路与系统] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献104

1陈瑶,吴红,葛卫红,张海霞,廖俊.基于深度学习模型的我国药品不良反应报告实体关系抽取研究[J].中国药科大学学报,2019,50(6):753-759. 被引量：10
2杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
3费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
4曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
5李荣,郑家恒.一种改进Viterbi算法的应用研究[J].计算机工程与设计,2007,28(3):530-531. 被引量：7
6罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量：18
7林晓帆,丁晓青,吴佑寿.最近邻分类器置信度估计的理论分析[J].科学通报,1998,43(3):322-325. 被引量：10
8郑晓刚,韩立新,白书奎,曾晓勤.一种组合型中文分词方法[J].计算机应用与软件,2012,29(7):26-28. 被引量：11
9王智玮.自动目标识别中全源数据挖掘技术应用[J].指挥信息系统与技术,2012,3(4):26-31. 被引量：4
10莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807. 被引量：40

引证文献14

1胡升泽,蔡伟柯,何春辉.基于深度学习的中文至拼音首字母自动转化方法[J].科学技术创新,2020(2):98-99.
2王旭阳,朱鹏飞.融合多类别基分类器的序列标注算法[J].传感器与微系统,2020,39(6):148-150. 被引量：1
3Hang Zhang,Bin Wen.Construction of Word Segmentation Model Based on HMM+BI-LSTM[J].国际计算机前沿大会会议论文集,2020(2):47-61.
4高翔,张金登,许潇,冯剑红.基于LSTM-CRF的军事动向文本实体识别方法[J].指挥信息系统与技术,2020,11(6):91-95. 被引量：13
5郭振鹏,张起贵.基于结合词典的CNN-BiGRU-CRF网络中文分词研究[J].电子设计工程,2021,29(16):64-69. 被引量：3
6侯位昭,张欣海,宋凯磊,韩志卓,张世立.基于置信度的Active-BiLSTM-CRF中文层级地址分词方法[J].中国电子科学研究院学报,2021,16(7):639-644. 被引量：3
7崔志远,赵尔平,雒伟群,王伟,孙浩.面向专业领域的多头注意力中文分词模型--以西藏畜牧业为例[J].中文信息学报,2021,35(7):72-80. 被引量：2
8林丽星.基于智能算法的教育知识问答系统设计[J].佳木斯大学学报（自然科学版）,2021,39(5):148-151. 被引量：2
9陈志锋.基于数据挖掘的网络检索自动分词系统设计[J].湖北科技学院学报,2022,42(3):117-121. 被引量：3
10曹卫东,徐秀丽.民航不文明旅客实体识别方法研究[J].中国民航大学学报,2022,40(2):24-30.

二级引证文献35

1刘继明,孙成,袁野.基于训练模型改进的语音问句信息抽取方法[J].科学技术与工程,2021,21(18):7635-7641. 被引量：3
2徐会芳,张中浩,谈元鹏,韩富佳.面向电网调度领域的实体识别技术[J].电力建设,2021,42(10):71-77. 被引量：9
3魏明飞,潘冀,陈志敏,梅小华,石会鹏.预训练模型下航天情报实体识别方法[J].华侨大学学报（自然科学版）,2021,42(6):831-837.
4沈同平,俞磊,金力,黄方亮,许欢庆.基于BERT-BiLSTM-CRF模型的中文实体识别研究[J].齐齐哈尔大学学报（自然科学版）,2022,38(1):26-32. 被引量：10
5徐况,夏献军,冯强中,王颜颜.基于ERNIE的评论文本观点分析的应用[J].信息技术与信息化,2022(3):122-125.
6龚勋,程朴,邓少平,黄涛.基于规则知识库的智能化审查分析研究[J].测绘与空间地理信息,2022,45(4):93-95. 被引量：2
7赵文正,王羽,姜晓夏,胡伟.军事事理图谱构建与交互式分析工具[J].指挥信息系统与技术,2022,13(3):59-64. 被引量：6
8周裕林,陈艳平,黄瑞章,秦永彬,林川.一种采用机器阅读理解模型的中文分词方法[J].西安交通大学学报,2022,56(8):95-103. 被引量：2
9付念.基于LSTM的自然语言处理校园新闻数据分析[J].电子技术与软件工程,2022(16):204-207.
10魏晓玲,蔡敏.基于知识图谱的创新创业智能问答系统[J].电脑编程技巧与维护,2023(1):101-103. 被引量：2

1黄胜,李伟,张剑.基于深度学习的简历信息实体抽取方法[J].计算机工程与设计,2018,39(12):3873-3878. 被引量：7
2吴佳林,唐晋韬,李莎莎,王挺.基于神经网络纠正器的领域分词方法[J].中文信息学报,2017,31(6):41-49. 被引量：1
3李娟,虞金中.基于新词的新闻命名实体识别研究[J].电脑知识与技术,2018,14(8):153-154. 被引量：3
4边海红.运用“分读—整感”的方法研读文本[J].新课程教学（电子版）,2018,0(7):74-74.
5房珊,邵洲力,田智慧.联想词序列训练对老年人记忆效率的影响[J].中国现代医生,2018,56(33):14-18. 被引量：1
6冯俐.中文分词技术综述[J].现代计算机,2018,24(23):17-20. 被引量：10
7吴双.统编本教材朗读指导之我见——以一年级下册为例[J].语文建设,2018(3Z):13-14. 被引量：1
8张子睿,刘云清.基于BI-LSTM-CRF模型的中文分词法[J].长春理工大学学报（自然科学版）,2017,40(4):87-92. 被引量：21
9薛金林,闫嘉,范博文.多类农田障碍物卷积神经网络分类识别方法[J].农业机械学报,2018,49(S1):35-41. 被引量：18
10马旭,王淑丽.基于大数据技术的新闻采集和事件分析系统的设计与实现[J].数字技术与应用,2018,36(10):157-158. 被引量：3

现代电子技术

2019年第1期

浏览历史

内容加载中请稍等...

基于BI＿LSTM＿CRF神经网络的序列标注中文分词方法被引量：14

同被引文献104

引证文献14

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于BI＿LSTM＿CRF神经网络的序列标注中文分词方法 被引量：14

同被引文献104

引证文献14

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于BI＿LSTM＿CRF神经网络的序列标注中文分词方法被引量：14