基于联合模型的中文社交媒体命名实体识别被引量：2

Named Entity Recognition in Chinese Social Media Base on the Unified Model

下载PDF

导出

摘要随着互联网的发展,对中文社交媒体中命名实体进行识别具有重要的意义,传统的做法是采用监督学习方法,局限于标注数据的稀缺。然而,通用领域中有足够的语料库且社交媒体中的海量未标注的文本可以用于提高命名实体识别的效果。论文提出了一个联合模型,利用通用领域语料库和社交网络领域中未标注的文本进行训练。该联合模型由两个模型组成,一个是跨领域学习模型另外一个是半监督学习模型。跨领域学习基于领域的相似性学习通用领域的信息。半监督学习通过主动学习目标域内未标注的信息。该联合模型提高了命名实体识别的效果,且大大减小了人工标注语料工作。 Named Entity Recognition(NER)in Chinese social media is important with the development of the internet. Previ-ous methods focus on in-domain supervised learning which is limited by the rare annotated data. However,there are enough corporain formal domains and massive in-domain unannotated texts which can be used to improve the task. A unified model which can learnfrom out-of-domain corpora and in-domain unannotated texts is proposed,the unified model contains two major functions,one isfor cross-domain learning and the other is for semi-supervised learning. Cross-domain leaning function can learn out-of-domain in-formation based on domain similarity. Semi-Supervised learning function can learn in-domain unannotated information by self-train-ing. Both learning functions outperform existing methods for NER in Chinese social media. Used unified model to experiment get abetter result and decrease the workload of manual tagged corpus.

作者易黎黄鹏彭艳兵程光

机构地区南京烽火软件科技有限公司武汉邮电科学研究院东南大学计算机科学与工程学院

出处《计算机与数字工程》 2017年第12期2402-2406,2433,共6页 Computer & Digital Engineering

基金国家高技术研究发展计划(863计划)(编号:2015AA015603) 国家自然科学基金项目(编号:61602114)资助

关键词命名实体识别社交媒体跨领域学习领域相似性半监督学习主动学习 named entity recognition social media cross domain leaning domain similarity semi-supervised learning self-training

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1王洪亮.基于词向量聚类的中文微博产品命名实体识别[J].兰州理工大学学报,2017,43(1):104-110. 被引量：8
2夏大伟,季铎,蔡东风,张桂平.基于根偏置子树的决策式依存句法分析[J].沈阳航空航天大学学报,2015,32(1):70-76. 被引量：1
3乔维,孙茂松.基于M^3N的中文分词与命名实体识别一体化[J].清华大学学报（自然科学版）,2010,50(5):758-762. 被引量：4
4张洪刚,李焕.基于双向长短时记忆模型的中文分词方法[J].华南理工大学学报（自然科学版）,2017,45(3):61-67. 被引量：12

二级参考文献42

1王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
4周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
5张永,陈思睿,杨志勇,贾桂霞.特征选择方法的研究和改进[J].兰州理工大学学报,2006,32(5):92-95. 被引量：3
6Cortes C, Vapnik V. Support vector networks [J]. Machine Learning, 1995, 20(3) : 273 - 297.
7Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proc 18th Int Conf Machine Learning. USA, 2001: 282-289.
8Peng F, Feng F, McCallum A. Chinese segmentation and new word detection using conditional random fields [C]// Proc COLING 2004. Switzerland, 2004.. 562-568.
9Taskar B, Guestrin C, Koller D. Max margin Markov networks [C]// Proc Neural Info Processing Syst. Vancouver, 2003.
10李月伦,常宝宝.基于最大间隔马尔可夫模型网的汉语分词方法[M]//中国计算语言学研究前沿进展(2007-2009).北京:清华大学出版社,2009:40-45.

共引文献21

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44
2车海燕,冯铁,张家晨,陈伟,李大利.面向中文自然语言文档的自动知识抽取方法[J].计算机研究与发展,2013,50(4):834-842. 被引量：17
3蒋凯,刘欣亮,王平,韩飞.一种基于粗糙集的兼类词词性自动校对方法[J].软件导刊,2014,13(9):139-141. 被引量：1
4夏明,蒋仁钢.城际铁路列控系统车-地通信延迟时间估计的深度学习算法研究[J].铁路计算机应用,2018,27(1):55-58. 被引量：3
5买买提阿依甫,吾守尔.斯拉木,帕丽旦.木合塔尔,杨文忠.基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别[J].计算机工程,2018,44(8):230-236. 被引量：23
6肖焕侯,史景伦.基于C3D和视觉元素的视频描述[J].华南理工大学学报（自然科学版）,2018,46(8):88-95. 被引量：1
7王志超,孙建斌,秦瑞丽.基于分词的关联规则预测系统研究[J].计算机应用与软件,2018,35(12):140-143. 被引量：4
8何力,周兰江,周枫,郭剑毅.基于双向长短期记忆神经网络的老挝语分词方法[J].计算机工程与科学,2019,41(7):1312-1317. 被引量：17
9杨维,孙德艳,张晓慧,李子乾,李承桓,吴佐平.面向电力智能问答系统的命名实体识别算法[J].计算机工程与设计,2019,40(12):3625-3630. 被引量：18
10黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(二)——深度学习自动分词模型构建[J].图书情报工作,2019,63(23):5-12. 被引量：9

同被引文献18

1李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：21
2张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：159
4冯元勇,孙乐,李文波,张大鲲.基于单字提示特征的中文命名实体识别快速算法[J].中文信息学报,2008,22(1):104-110. 被引量：24
5胡文博,都云程,吕学强,施水才.基于多层条件随机场的中文命名实体识别[J].计算机工程与应用,2009,45(1):163-165. 被引量：25
6周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：101
7任智慧,徐浩煜,封松林,周晗,施俊.基于LSTM网络的序列标注中文分词法[J].计算机应用研究,2017,34(5):1321-1324. 被引量：69
8杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：401
9魏笑,秦永彬,陈艳平.一种基于部件CNN的网络安全命名实体识别方法[J].计算机与数字工程,2020,48(1):106-111. 被引量：9
10徐凯,王崎,李振彰,康培培,谢峰,刘文印.基于结合多头注意力机制BiGRU网络的生物医学命名实体识别[J].计算机应用与软件,2020,37(5):151-155. 被引量：8

引证文献2

1庄云行,季铎,马尧,敬少杰.基于Bi-LSTM的涉恐类案件法律文书的命名实体识别研究[J].网络安全技术与应用,2023(7):36-39. 被引量：2
2吴健,朱小龙,周从华.一种基于Lexicon-CBOW命名实体简写识别技术[J].计算机与数字工程,2023,51(6):1328-1332.

二级引证文献2

1王彬彬,周可法,王金林,汪玮,李超,程寅益.基于大规模预训练模型的地质矿物属性识别方法及应用[J].新疆地质,2024,42(1):139-144.
2李林瑛,王孙和,曲云平.恐怖袭击事件实体语料库构建[J].现代信息科技,2024,8(19):44-47.

1温发杰.机械制图教学课程改革[J].民营科技,2017(10):239-239.
2张婷婷,郭灿.基于核心经验的艺术领域深度学习[J].浙江教育科学,2017(5):18-22. 被引量：3
3王烨垒.电子信息软件工程的发展[J].科技风,2017(25):56-56.
4许远.西咸中小企业O2O电商现状及发展趋势分析[J].现代营销（下）,2017(11):206-207.
5邓丽萍,罗智勇.基于半监督CRF的跨领域中文分词[J].中文信息学报,2017,31(4):9-19. 被引量：19
6谢华宝,胡林献.电热联合系统潮流计算[J].供用电,2017,34(12):21-26. 被引量：6
7林存洁,吴朦,易丹辉,胡镜清.多个响应变量的纵向数据联合建模方法及应用[J].世界科学技术-中医药现代化,2017,19(9):1443-1448.
8徐梓翔,车万翔,刘挺.基于Bi-LSTM-CRF网络的语义槽识别[J].智能计算机与应用,2017,7(6):91-94. 被引量：5
9朱金山.基于敏感词分析的高校舆情监控系统设计与实现[J].集宁师范学院学报,2017,39(6):37-41.
10张登倩.网络历史虚无主义的表现、本质及其对策[J].中学政治教学参考（下旬）,2017,0(9):36-38. 被引量：1

计算机与数字工程

2017年第12期

浏览历史

内容加载中请稍等...

基于联合模型的中文社交媒体命名实体识别被引量：2

参考文献4

二级参考文献42

共引文献21

同被引文献18

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于联合模型的中文社交媒体命名实体识别 被引量：2

参考文献4

二级参考文献42

共引文献21

同被引文献18

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于联合模型的中文社交媒体命名实体识别被引量：2