中文命名实体识别综述被引量：25

Survey of Chinese Named Entity Recognition

下载PDF

导出

摘要中文命名实体识别(NER)任务是信息抽取领域内的一个子任务,其任务目标是给定一段非结构文本后,从句子中寻找、识别和分类相关实体,例如人名、地名和机构名称。中文命名实体识别是一个自然语言处理(NLP)领域的基本任务,在许多下游NLP任务中,包括信息检索、关系抽取和问答系统中扮演着重要角色。全面回顾了现有的基于神经网络的单词-字符晶格结构的中文NER模型。首先介绍了中文NER相比英语NER难度更大,存在着中文文本相关实体边界难以确定和中文语法结构复杂等难点及挑战。然后调研了在不同神经网络架构下(RNN、CNN、GNN和Transformer)最具代表性的晶格结构的中文NER模型。由于单词序列信息可以给基于字符的序列学习更多边界信息,为了显式地利用每个字符所相关的词汇信息,过去的这些工作提出通过词-字符晶格结构将单词信息整合到字符序列中。这些在中文NER任务上基于神经网络的单词-字符晶格结构的性能要明显优于基于单词或基于字符的方法。最后介绍了中文NER的数据集及评价标准。 The Chinese named entity recognition(NER)task is a sub-task within the information extraction domain,where the task goal is to find,identify and classify relevant entities,such as names of people,places and organizations,from sentences given a piece of unstructured text.Chinese named entity recognition is a fundamental task in the field of natural language processing(NLP)and plays an important role in many downstream NLP tasks,including information retrieval,relationship extraction and question and answer systems.This paper provides a comprehensive review of existing neural network-based word-character lattice structures for Chinese NER models.Firstly,this paper introduces that Chinese NER is more difficult than English NER,and there are difficulties and challenges such as difficulty in determining the boundaries of Chinese text-related entities and complex Chinese grammatical structures.Secondly,this paper investigates the most representative lattice-structured Chinese NER models under different neural network architectures(RNN(recurrent neural network),CNN(convolutional neural network),GNN(graph neural network)and Transformer).Since word sequence information can capture more boundary information for character-based sequence learning,in order to explicitly exploit the lexical information associated with each character,some prior work has proposed integrating word information into character sequences via word-character lattice structures.These neural network-based word-character lattice structures perform significantly better than word-based or characterbased approaches on the Chinese NER task.Finally,this paper introduces the dataset and evaluation criteria of Chinese NER.

作者赵山罗睿蔡志平 ZHAO Shan;LUO Rui;CAI Zhiping(College of Computer,National University of Defense Technology,Changsha 410073,China)

机构地区国防科技大学计算机学院

出处《计算机科学与探索》 CSCD 北大核心 2022年第2期296-304,共9页 Journal of Frontiers of Computer Science and Technology

基金国家重点研发计划(2020YFC2003400)。

关键词命名实体识别(NER) 晶格结构神经网络 named entity recognition(NER) lattice structure neural network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1卓玛措,桑杰端珠,才让加.基于深度学习的古汉语命名实体识别研究[J].计算机科学与应用,2020,10(7):1359-1366. 被引量：2
2石春丹,秦岭.基于BGRU-CRF的中文命名实体识别方法[J].计算机科学,2019,46(9):237-242. 被引量：29
3郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(2):14-17. 被引量：86

二级参考文献37

1张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
2俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：159
3Wikipedia:Message Understanding Conference[EB/OL].2013-12-27.http://en.wikipedia.org/wiki/Message_Understanding_Conference.
4Wikipedia:Named Entity Recognition[EB/OL].2013-12-28.http://en.wikipedia.org/wiki/Named_Entity_Recognition.
5Rizzo G,Troncy R.NERD:Evaluating Named Entity Recognition Toolsinthe Web of Data[J].Lecture Notesin Computer Science,2012(7295):39-55.
6Rizzo G,Troncy R.NERD:A Framework for Unifying Named Entity Recognition and Disam biguation Extraction Tools[C]∥13th Conference ofthe European Chapter of the Association for ComputationalL inguistics.2012:73-76.
7Li Chen-liang,Weng Jian-shu.TwiNER:Named Entity Recognition in Targeted Twitter Stream[C]∥SIGIR.2012:721-730.
8Liu Xiao-hua,Zhang Shao-dian,et al.Recognizing Named Entitiesin Tweets[C]∥ACL.2011:359-367.
9Finin T,Murnane W.Annotating Named Entitiesin TwitterDatawith Crowdsourcing[C]∥ACL.2010.
10Ritter A,Clark S,Etzioni M O.Named Entity RecognitioninTweets:An Experimental Study.http://aclweb.org/anthology/D/D11/D11-D1141.pdf.

共引文献113

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：5
2陈平,匡尧,陈婧.基于BERT-wwm-ext多特征文本表示的经济事件主体抽取方法研究[J].武汉电力职业技术学院学报,2020(2):45-50. 被引量：1
3张海瑜,陈庆龙,张斯静,张子怡,杨帆,李鑫星.基于语义知识图谱的农业知识智能检索方法[J].农业机械学报,2021,52(S01):156-163. 被引量：13
4王竹,谷松原.基于裁判文书争议焦点的民事案由逻辑图谱构建研究——以产品责任领域为例[J].民商法争鸣,2022(2):13-25.
5李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：21
6成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
7吴天昊,古丽拉·阿东别克.基于神经元块级别注意力机制的LSTM关系抽取[J].计算机应用研究,2020,37(S02):76-79. 被引量：6
8王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.
9程乔,王映华,李冉,李友建.基于互联网+舆情数据发掘支撑网络优化新思路的研究[J].广西通信技术,2020(1):1-7.
10丁若尧.面向古汉语史料的信息抽取方法综述[J].中国科技纵横,2019,0(14):50-51. 被引量：1

同被引文献280

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44
2朱丽雅,张珺,洪亮,罗绍辉,兰度.数字人文领域的知识图谱:研究进展与未来趋势[J].知识管理论坛,2022(1):87-100. 被引量：5
3肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：31
4李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
5李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
6刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
7李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：21
8韩萌,李蔚清.基于特征增强的中文STEM课程知识的关系抽取[J].计算机应用研究,2020,37(S01):40-42. 被引量：3
9李业良,张二华,唐振民.基于混合式注意力机制的语音识别研究[J].计算机应用研究,2020,37(1):131-134. 被引量：10
10凯文·D.阿什利,李亚(译).法律文本语义的自动提取:机遇与挑战[J].法律方法,2021,27(4):75-95. 被引量：3

引证文献25

1姚元杰,龚毅光,刘佳,陈嫚丽.基于多粒度信息融合的气象知识命名实体识别[J].计算机与数字工程,2023,51(1):186-193.
2李冬梅,罗斯斯,张小平,许福.命名实体识别方法研究综述[J].计算机科学与探索,2022,16(9):1954-1968. 被引量：17
3王燕玲.论命名实体识别技术在司法大数据中的适用[J].政法论坛,2022,40(5):40-52. 被引量：5
4金浩哲,董宝良,杨诚.基于预训练模型与神经网络的军事命名实体识别[J].电子设计工程,2022,30(20):51-55. 被引量：1
5黄源航,强梦烨,李涛,晏明昊,张涵艺,贾大昌.基于RoBERTa的电力领域词汇挖掘模型[J].电力大数据,2022,25(6):1-8. 被引量：1
6刘文,段敏,刘鹏,戴岳,刘朴真,袁姗姗,张宏蕊.食品安全标准培训模式及智能化场景式培训平台开发研究[J].标准科学,2023(3):49-54. 被引量：1
7赵宇博,张丽萍,闫盛,侯敏,高茂.个性化学习中学科知识图谱构建与应用综述[J].计算机工程与应用,2023,59(10):1-21. 被引量：24
8刘合兵,张德梦,熊蜀峰,马新明,席磊.融合ALBERT与规则的小麦病虫害命名实体识别[J].计算机科学与探索,2023,17(6):1395-1404. 被引量：5
9曲晓东,李佳昊.解决嵌套问题的中文命名实体识别[J].移动信息,2023,45(6):234-236.
10刘彬,肖晓霞,邹北骥,周展,郑立瑞,谭建聪.融合汉字部首的BERT-BiLSTM-CRF中医医案命名实体识别模型[J].医学信息学杂志,2023,44(6):48-53. 被引量：1

二级引证文献77

1王禄生.ChatGPT类技术:法律人工智能的改进者还是颠覆者?[J].政法论坛,2023,41(4):49-62. 被引量：30
2徐婧,刘纪平,王亮,王岩.融合注意力与词边界的防震减灾实体识别方法[J].测绘科学,2024,49(1):216-224.
3张龙豪,邬雯,朱宵月.面向心血管疾病的实体识别算法研究[J].福建电脑,2022,38(12):1-7.
4毛争艳,严超.司法公开下敏感信息安全隐患探究及对策建议[J].工业信息安全,2022(11):24-33.
5杨崇洛,生龙,魏忠诚,王巍.新冠文本实体关系抽取及数据集构建方法研究[J].计算机工程与应用,2023,59(8):97-104. 被引量：1
6齐子琛,胡玉玲,万雨瑞,卓亮.燃气事故应急处置知识图谱构建方法[J].消防科学与技术,2023,42(5):718-723. 被引量：1
7邱成润,管伟,邱奇,秦奕,李双岑,贾婷,周琪.基于RGB-W的电力通信网危险源检测[J].电力大数据,2023,26(4):74-81.
8柳博文,刘星.多尺度卷积神经网络模型优化在矿物识别中的应用[J].矿物岩石,2023,43(3):10-19. 被引量：2
9孙跃.类案智能裁判中的人机协同及其改进[J].学术交流,2023(7):73-87. 被引量：1
10夏宇隆,蒋理,但炜,谢延风,邓博,黄琦麟,利节.基于人工智能的高血压性脑出血医疗文本信息自动识别系统[J].重庆医科大学学报,2023,48(9):1122-1127. 被引量：2

1赵辉,庞海婷,冯珊珊,韩东辰.中文命名实体识别技术综述[J].长春工业大学学报,2021,42(5):444-450. 被引量：9
2张毅,王爽胜,何彬,叶培明,李克强.基于BERT的初等数学文本命名实体识别方法[J].计算机应用,2022,42(2):433-439. 被引量：9
3黄铭,刘捷,戴齐.融合字词特征的中文嵌套命名实体识别[J].现代计算机,2021,27(34):21-28. 被引量：1
4罗文龙,王勇.基于指针标注的中文医学文本实体关系抽取研究[J].计算机科学与应用,2022,12(1):169-177. 被引量：1
5彭玉芳,陈将浩.基于深度学习与需求规则融合的学术文献“目标数据”抽取模型构建与应用——以南海数字资源为例[J].情报科学,2022,40(1):141-147. 被引量：6
6江千军,桂前进,王磊,徐瑞翔,王京景,麦立,许水清.命名实体识别技术研究进展综述[J].电力信息与通信技术,2022,20(2):15-24. 被引量：13
7袁清波,杜晓明,马合林.指挥控制保障领域知识抽取系统框架研究[J].现代电子技术,2022,45(5):117-121. 被引量：3
8王宝祥,陈渝,孙界平,琚生根.文档级分类记忆的中文命名实体识别[J].计算机与数字工程,2021,49(12):2501-2508. 被引量：1
9何儒汉,唐娇,史爱武,陈佳,李相朋,胡新荣.基于实体消岐和多粒度注意力的知识库问答[J].计算机工程与设计,2022,43(2):560-566. 被引量：3
10张飞宇,王美丽,王正超.引入 Transformer 和尺度融合的动物骨骼关键点检测模型构建[J].农业工程学报,2021,37(23):179-185. 被引量：11

计算机科学与探索

2022年第2期

浏览历史

内容加载中请稍等...

中文命名实体识别综述被引量：25

参考文献3

二级参考文献37

共引文献113

同被引文献280

引证文献25

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

中文命名实体识别综述 被引量：25

参考文献3

二级参考文献37

共引文献113

同被引文献280

引证文献25

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

中文命名实体识别综述被引量：25