基于深度学习的命名实体识别综述被引量：30

A Survey on Named Entity Recognition Based on Deep Learning

下载PDF

导出

摘要命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法:第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。 Named entity recognition(NER), as one of the basic tasks in natural language processing, aims to identify the required entities and their types in unstructured text. In recent years, various named entity recognition methods based on deep learning have achieved much better performance than that of traditional methods based on manual features. This paper summarizes recent named entity recognition methods from the following three aspects: 1) A general framework is introduced, which consists of an input layer, an encoding layer and a decoding layer. 2) After analyzing the characteristics of Chinese named entity recognition, this paper introduces Chinese NER models which incorporate both character-level and word-level information. 3) The methods for low-resource named entity recognition are described, including cross-lingual transfer methods, cross-domain transfer methods, cross-task transfer methods, and methods incorporating automatically labeled data. Finally, the conclusions and possible research directions are given.

作者邓依依邬昌兴魏永丰万仲保黄兆华 DENG Yiyi;WU Changxing;WEI Yongfeng;WAN Zhongbao;HUANG Zhaohua(School of Software,East China Jiaotong University,Nanchang,Jiangxi 330013,China)

机构地区华东交通大学软件学院

出处《中文信息学报》 CSCD 北大核心 2021年第9期30-45,共16页 Journal of Chinese Information Processing

基金国家重点研发计划(2018YFC0831106) 国家自然科学基金(61866012) 江西省自然科学基金(20181BAB202012) 江西省教育厅科学技术研究项目(GJJ180329)。

关键词命名实体识别汉语命名实体识别低资源命名实体识别深度学习 named entity recognition(NER) Chinese NER low-resource NER deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1朱颢东,杨立志,丁温雪,冯嘉美.基于主题标签和CRF的中文微博命名实体识别[J].华中师范大学学报（自然科学版）,2018,52(3):316-321. 被引量：13
2王超,王峥.基于改进分词标注集的中文微博命名实体识别方法[J].计算机与数字工程,2019,47(1):211-215. 被引量：3
3张海楠,伍大勇,刘悦,程学旗.基于深度神经网络的中文命名实体识别[J].中文信息学报,2017,31(4):28-35. 被引量：76
4殷章志,李欣子,黄德根,李玖一.融合字词模型的中文命名实体识别研究[J].中文信息学报,2019,33(11):95-100. 被引量：41
5石春丹,秦岭.基于BGRU-CRF的中文命名实体识别方法[J].计算机科学,2019,46(9):237-242. 被引量：29
6李雁群,何云琪,钱龙华,周国栋.中文嵌套命名实体识别语料库的构建[J].中文信息学报,2018,32(8):19-26. 被引量：14

二级参考文献26

1张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
2俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
3周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
4刘非凡,赵军,徐波.实体提及的多层嵌套识别方法研究[J].中文信息学报,2007,21(2):14-21. 被引量：4
5赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2):3-17. 被引量：50
6黄鑫,朱巧明,钱龙华,刘梅梅.基于特征组合的中文实体关系抽取[J].微电子学与计算机,2010,27(4):198-200. 被引量：19
7黄德根,李泽中,万如.基于SVM和CRF的双层模型中文机构名识别[J].大连理工大学学报,2010,50(5):782-787. 被引量：13
8陈钰枫,宗成庆,苏克毅.汉英双语命名实体识别与对齐的交互式方法[J].计算机学报,2011,34(9):1688-1696. 被引量：17
9廉捷,周欣,曹伟,刘云.新浪微博数据挖掘方案[J].清华大学学报（自然科学版）,2011,51(10):1300-1305. 被引量：120
10陆铭,康雨洁,俞能海.简约语法规则和最大熵模型相结合的混合实体识别[J].小型微型计算机系统,2012,33(3):537-541. 被引量：12

共引文献158

1步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
2孙红,王哲.多粒度融合的命名实体识别[J].中文信息学报,2023,37(3):123-134.
3成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
4曹若麟,杜渂.面向实体标注的公安警情领域语料库的构建[J].电信快报,2021(3):20-24. 被引量：2
5范华,翁利国,周艳,姜川,孙涛.基于Bi-LSTM和TFIDF的工单事件提取[J].电脑知识与技术,2020,0(4):291-293.
6王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.
7刘重来.论卢作孚“乡村现代化”思想[J].西南师范大学学报（人文社会科学版）,2000,26(2):134-139. 被引量：6
8高巍,万廷彬.甜菜碱对商品产蛋鸡生产性能的影响[J].中国禽业导刊,2000,17(6):16-17. 被引量：1
9王路路,艾山.吾买尔,买合木提.买买提,卡哈尔江.阿比的热西提,吐尔根.依布拉音.基于CRF和半监督学习的维吾尔文命名实体识别[J].中文信息学报,2018,32(11):16-26. 被引量：13
10帕丽旦.木合塔尔,吾守尔.斯拉木,买买提阿依甫.基于混合模型的维吾尔文词性标注方法[J].计算机仿真,2019,36(1):268-273. 被引量：6

同被引文献232

1欧阳歆泓,徐一超.桥梁管养信息化发展现状与展望[J].运输经理世界,2020(16):113-114. 被引量：2
2袁贞明,沈辉,俞凯,沈伟富.基于电子病历文本的诊疗事件实体抽取研究[J].中国数字医学,2021,16(7):33-38. 被引量：8
3Zhibin Chen,Yuting Wu,Yansong Feng,Dongyan Zhao.Integrating Manifold Knowledge for Global Entity Linking with Heterogeneous Graphs[J].Data Intelligence,2022,4(1):20-40. 被引量：2
4Qiushuo Zheng,Hao Wen,Meng Wang,Guilin Qi.Visual Entity Linking via Multi-modal Learning[J].Data Intelligence,2022,4(1):1-19. 被引量：3
5蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：62
6李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
7刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
8秦汉忠,于重重,姜伟杰,赵霞.基于多头注意力和BiLSTM改进DAM模型的中文问答匹配方法[J].中文信息学报,2021,35(11):118-126. 被引量：3
9姜丽婷,古丽拉·阿东别克,马雅静.基于混合卷积网络的短文本实体消歧[J].中文信息学报,2021,35(11):101-108. 被引量：3
10王蓬辉,李明正,李思.基于数据增强的中文医疗命名实体识别[J].北京邮电大学学报,2020,43(5):84-90. 被引量：12

引证文献30

1杨雷,韦韩,龚尚文,赵莺菲.基于LSTM的桥梁养护文本数据的命名实体识别方法[J].公路交通科技,2023,40(S02):187-192.
2魏晓,王晓鑫,陈永琪,张惠然.基于自然语言处理的材料领域知识图谱构建方法[J].上海大学学报（自然科学版）,2022,28(3):386-398. 被引量：3
3朱西平,卢星宇,苏作新,高昂,肖丽娟,郭露.基于多神经网络与注意力的页岩气实体识别[J].中国科技论文,2022,17(11):1201-1206. 被引量：1
4黄源航,强梦烨,李涛,晏明昊,张涵艺,贾大昌.基于RoBERTa的电力领域词汇挖掘模型[J].电力大数据,2022,25(6):1-8. 被引量：1
5余厚强,马超,王玥,李龙飞.中国替代计量数据的来源与识别研究[J].情报理论与实践,2022,45(12):111-118. 被引量：3
6刘兴丽,范俊杰,马海群.面向小样本命名实体识别的数据增强算法改进策略研究[J].数据分析与知识发现,2022,6(10):128-141. 被引量：5
7程煜,李济廷,韩明.基于深度学习的技能实体抽取研究[J].现代信息科技,2022,6(23):112-115.
8刘明辉,唐望径,许斌,仝美涵,王黎明,钟琦,徐剑军.实体类别信息增强的命名实体识别算法[J].应用科学学报,2023,41(1):1-9. 被引量：1
9张猛.基于医疗BERT的电子病历命名实体识别[J].信息技术与信息化,2023(2):122-125.
10李东升,鲍玉来,刘建华,陈德旺.基于BERT的高校图书馆微信信息服务的命名实体识别方法[J].现代情报,2023,43(4):64-76. 被引量：2

二级引证文献38

1徐婧,刘纪平,王亮,王岩.融合注意力与词边界的防震减灾实体识别方法[J].测绘科学,2024,49(1):216-224.
2梁维中,王淑涵,王洪玉.基于BERT预训练模型的镁合金铸造缺陷命名实体识别[J].黑龙江科技大学学报,2023,33(2):191-195.
3郭紫琴,谭智福,王嘉俊,叶青.基于知识图谱的中成药智能问答平台构建[J].电脑与信息技术,2023,31(4):52-57. 被引量：2
4杨长沛,廖列法.基于门控空洞卷积特征融合的中文命名实体识别[J].计算机工程,2023,49(8):85-95. 被引量：5
5王海玲,康华,刘兴丽,范俊杰.深度学习模型的矿业工程学科知识图谱构建[J].黑龙江科技大学学报,2023,33(4):561-566.
6邱成润,管伟,邱奇,秦奕,李双岑,贾婷,周琪.基于RGB-W的电力通信网危险源检测[J].电力大数据,2023,26(4):74-81.
7刘鹏.自然语言处理的旅游景区智能讲解系统分析[J].中国科技纵横,2023(15):47-49.
8郭顺利,苏新宁,房旭辉.融合NER和Apriori算法的游记文本关联知识挖掘及推荐服务研究[J].现代情报,2023,43(11):123-134. 被引量：1
9宋奇书,于红,乔诗晗,罗璇,李光宇,邵立铭,张思佳.基于改进BiRTE的渔业健康养殖标准复杂关系抽取[J].大连海洋大学学报,2024,39(1):153-161.
10谷岩,郑楷洪,胡勇军,宋益善,刘东屏.支持跨领域的中文虚假评论识别方法[J].数据分析与知识发现,2024,8(2):84-98.

1姚寿鹏.牡丹江名称考辨[J].中国地名,2020(5):8-11.
2姚寿鹏.试论祁寯藻东北边疆舆地研究[J].火花,2021(2):50-61.
3赵学军,李建.一种基于深度学习的煤矸石检测方法[J].矿业科学学报,2021,6(6):730-736. 被引量：9

中文信息学报

2021年第9期

浏览历史

内容加载中请稍等...

基于深度学习的命名实体识别综述被引量：30

参考文献6

二级参考文献26

共引文献158

同被引文献232

引证文献30

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于深度学习的命名实体识别综述 被引量：30

参考文献6

二级参考文献26

共引文献158

同被引文献232

引证文献30

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于深度学习的命名实体识别综述被引量：30