一种面向微博文本的命名实体识别方法被引量：7

An approach to named entity recognition towards micro-blog

下载PDF

导出

摘要命名实体识别是自然语言处理领域的一项基础性技术。近年来微博等网络社交平台发展迅速,其独特的形式对传统的命名实体识别技术提出了新的挑战。故提出一种基于条件随机场模型的改进方法,针对微博文本短小、语义含糊等特点,引入外部数据源提取主题特征和词向量特征来训练模型,针对微博数据规模大、人工标准化处理代价大的特点,采取一种基于最小置信度的主动学习算法,以较小的人工代价强化模型的训练效果。在新浪微博数据集上的实验证明,该方法与传统的条件随机场方法相比F值提高了4.54%。 Named entity recognition is a fundamental technology in natural language processing（ NLP）. In recent years, rapid devel-opment of social network platforms such as microblog presents new challenges to the traditional named entity recognition（ NER） tech-nology because of the unique form. In this paper, an improved method based on the conditional random field（ CRF） model is pro-posed for microblog texts. Due to the short texts and semantic ambiguity, external data resources are introduced to generate the top-ic feature and word representation feature for training the model. Due to the large-scale of microblog data and the high cost of manual standardization, an active learning algorithm based on least confidence is adopted to enhance the training effect at a lower cost of labor. Experiments on a Sina weibo data set show that this method improves the F-score by 4. 54 % compared to the tradi-tional CRF methods.

作者李刚黄永峰

机构地区清华大学电子工程系NGN实验室

出处《电子技术应用》 2018年第1期118-120,124,共4页 Application of Electronic Technique

基金国家自然科学基金项目(U1536207)

关键词命名实体识别微博条件随机场词向量主动学习 named entity recognition micro-blog conditional random field word representation active learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献42

1俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：159
2李治国,蔡东风,周俏丽,杨者青.在篇章中利用互信息识别命名实体的研究[J].沈阳航空工业学院学报,2007,24(1):35-37. 被引量：2
3陈怀兴,尹存燕,陈家骏.一种命名实体翻译等价对的抽取方法[J].中文信息学报,2008,22(4):55-60. 被引量：10
4佘俊,张学清.音乐命名实体识别方法[J].计算机应用,2010,30(11):2928-2931. 被引量：8
5金明,杨欢欢,单广荣.藏语命名实体识别研究[J].西北民族大学学报（自然科学版）,2010,31(3):49-52. 被引量：11
6朱莎莎,刘宗田,付剑锋,朱芳.基于条件随机场的中文时间短语识别[J].计算机工程,2011,37(15):164-167. 被引量：16
7赵军,刘康,周光有,蔡黎.开放式文本信息抽取[J].中文信息学报,2011,25(6):98-110. 被引量：62
8邱泉清,苗夺谦,张志飞.中文微博命名实体识别[J].计算机科学,2013,40(6):196-198. 被引量：33
9王大伟.基于语音分析技术的电力客户服务质量检测与分析探究[J].电子测试,2014,25(3):100-101. 被引量：6
10姜仁会,王挺,唐晋韬.面向微博文本的命名实体识别[J].计算机与数字工程,2014,42(4):647-651. 被引量：11

引证文献7

1黄晴雁,牟永敏.命名实体识别方法研究进展[J].现代计算机（中旬刊）,2018(12):12-17. 被引量：4
2徐啸,朱艳辉,冀相冰.基于自注意力深度学习的微博实体识别研究[J].湖南工业大学学报,2019,33(2):48-52. 被引量：5
3左笑晨,窦志成,黄真,卢淑祺,文继荣.微博热门话题关联商品品类挖掘[J].计算机研究与发展,2019,56(9):1927-1938. 被引量：3
4杨维.领域知识融合与共建研究[J].电子技术应用,2019,45(12):47-50. 被引量：3
5杨维,孙德艳,张晓慧,李子乾,李承桓,吴佐平.面向电力智能问答系统的命名实体识别算法[J].计算机工程与设计,2019,40(12):3625-3630. 被引量：18
6李猛,李艳玲,林民.命名实体识别的迁移学习研究综述[J].计算机科学与探索,2021,15(2):206-218. 被引量：17
7吴建华,胡烈云,赵宇,戴鹏,熊嘉奇.基于BiLSTM-CRF与分类分层标注的微博中突发事件时空信息精细识别方法[J].地理与地理信息科学,2021,37(3):1-8. 被引量：9

二级引证文献59

1陶源,彭艳兵.基于门控CNN-CRF的中文命名实体识别[J].电子设计工程,2020,28(4):42-46. 被引量：11
2程名,于红,冯艳红,任媛,付博,刘巨升,杨鹤.融合注意力机制和BiLSTM+CRF的渔业标准命名实体识别[J].大连海洋大学学报,2020,35(2):296-301. 被引量：17
3文莉莉,邬满.基于大数据与知识图谱的知识共享服务平台[J].电子元器件与信息技术,2020,4(3):103-105. 被引量：5
4王立平,赵晖.融合词向量与关键词提取的微博话题发现[J].现代计算机,2020,26(23):3-9. 被引量：2
5周亮杰,马敬东.基于深度学习的患者安全事件的命名实体识别[J].中华医学图书情报杂志,2020,29(6):1-6.
6毛明毅,吴晨,钟义信,陈志成.加入自注意力机制的BERT命名实体识别模型[J].智能系统学报,2020,15(4):772-779. 被引量：26
7沈思,左明聪,王东波,纪有书,刘浏,谢靖.基于课表知识抽取的情报学课程设置启示研究[J].情报学报,2020,39(12):1253-1263. 被引量：8
8钱奇,张晓慧,闫海峰.人工智能在电力服务领域中的应用前景[J].能源与环保,2021,43(2):83-88. 被引量：5
9刘之瑜,张淑芬,刘洋,罗长银,李敏.基于图像梯度的数据增广方法[J].应用科学学报,2021,39(2):302-311. 被引量：3
10袁清波,杨帆.命名实体识别研究综述[J].现代计算机,2021,27(11):74-78. 被引量：5

1尚青磊.关于水利工程灌浆施工的分析[J].低碳世界,2017,0(35):37-38. 被引量：1
2王惠雪,李惠萍,杨娅娟,苏丹,张婷.乳腺癌术后淋巴水肿预防行为相关临床实践指南现况及内容研究[J].中国全科医学,2017,20(6):639-644. 被引量：28
3罗一夫,何健,赵会晶,王晓波.基于Apriori关联规则的脑卒中危险因素分析[J].中国数字医学,2017,12(11):85-88. 被引量：5
4中科院发布国产新一代人工智能芯片[J].中国信息安全,2017,0(12):102-102.
5张秋子.石黑一雄：“内脏感到对”[J].杂文月刊,2017,0(24):59-59.
6刘续乐,何炎祥.基于多特征的微博情感分析研究[J].计算机工程,2017,43(12):160-164. 被引量：8
7张玲.基于微信平台的教学模式对高职体育教学的影响研究[J].考试周刊,2018,0(11):135-135. 被引量：4
8Wen-yu MA,Bao-yu WANG,Jian-guo LIN,Xue-feng TANG.Influence of process parameters on properties of AA6082 in hot forming process[J].Transactions of Nonferrous Metals Society of China,2017,27(11):2454-2463. 被引量：10
9宋丽珏.人工智能时代语料库短语学考察[J].学习与探索,2017(12):78-85. 被引量：3
10刘丽娟.改进的Apriori算法的研究及应用[J].计算机工程与设计,2017,38(12):3324-3328. 被引量：22

电子技术应用

2018年第1期

浏览历史

内容加载中请稍等...

一种面向微博文本的命名实体识别方法被引量：7

同被引文献42

引证文献7

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

一种面向微博文本的命名实体识别方法 被引量：7

同被引文献42

引证文献7

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

一种面向微博文本的命名实体识别方法被引量：7