基于词表示方法的生物医学命名实体识别被引量：19

Research of Word Representations on Biomedical Named Entity Recognition

下载PDF

导出

摘要生物医学命名实体识别是生物医学信息抽取的前提.目前实体识别大多采用机器学习的方法,依靠人工根据领域知识和经验制定特征,需要反复实验进行相应的特征选择,并且这些特征很少使用深层次的语义信息.为了探究语义信息对命名实体识别的影响,本文尝试在大规模未标注数据上进行训练,自动获得语义信息,得到三种词表示方法:词向量、基于词向量的聚类和布朗聚类.将其作为CRF和SVM的特征进行半监督学习,并在相同条件下进行对比实验.实验结果表明,词表示方法能有效地学习到潜在的语义信息,从而提高现有基于机器学习系统的性能.在未利用词典等任何外部资源的情况下,公共评测语料Bio Creative II GM上的实验结果为:精确率、召回率、F值分别达到91.24%、85.80%、88.44%. Biomedical named entity recognition is the prerequisite for biomedical information extraction. The current entity recognition methods, which are based on machine learning, mainly depend on manually summarizing features, according to the domain knowledge and experience, and need to do experiments repeatedly for selecting the appropriate features. And these features rarely utilize the deep semantic information. To investigate the effect of semantic information on Named Entity Recognition, this paper attempts to obtain se- mantic information automatically from the large-scale unlabeled corpus, which can be downloaded from public database, such as PubMed, and get three kinds of word representation approaches, including word embeddings, cluster based on word embeddings, and Brown cluster. The three kinds of word representation are adopted as the features of CRF model and SVM model for semi-supervised learning. Comparative experiments are conducted under the same conditions ： the dimension of word embeddings and the number of clusters. The experimental results show that the word representation approaches can learn the latent semantic information effectively and thus improve the performance of existing entity recognition systems based on machine learning. Experimental results （ Precision, Recall, F-score） on public evaluation corpus BioCreative II GM reaches 91.24% ,85.80%, and 88.44% respectively without the dic- tionary or any other external resources.

作者李丽双何红磊刘珊珊黄德根

机构地区大连理工大学计算机科学与技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2016年第2期302-307,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61173101 61173100)资助

关键词半监督词表示聚类实体识别 semi-supervised word representation cluster entity recognition

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1Schuemie M J,Mons B, Weeber M, et al. Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification [ J]. Journal of Biomedical Informatics, 2007, 40(3) :316-324.
2Hanisch D, Fundel K, Mevissen H T, et al. prominer: rule-based protein and gene entity recognition [ J ]. BMC Bioinformatics, 2005,6(S1 ) :S14.
3Lee Chib, Hou Wenjuan, Chert Hsin-Hsi. Annotating multiple types of biomedical entities : a single word classification approach [ C ]. Proceedings of the International Joint Workshop on Natural Lan- guage Processing in Biomedicine and its Applications, Geneva, Switzerland, 2004 : 80-83.
4Li Li-shuang, Fan Wen-ting, Huang De-gen, et al. Boosting per- formance of gene mention tagging system by hybrid methods [ J ].Journal of Biomedical Informatics ,2012 ,45 (1) :156-164.
5Ando R K. BioCreative II gene mention tagging system at IBM Watson[ C]. Proceedings of the Second BioCreative Challenge E- valuation Workshop ,2007 : 101-103.
6Li Yan-peng, Lin Hong-fei, Yang Zhi-hao. Incorporating rich back- ground knowledge gene for named entity classicisation and recogni- tion [J]. BMC Bioinformatics,2009,10(1) :1-15.
7Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-supervised learning [ C ]. Proceedings of the 48th Annual Meeting of the Association for Computational Lin- guistics, Uppsala, Sweden, 2010 : 384-394.
8Kuksa P P,Qi Y. Semi-supervised bio-named entity recognition with word-codebook learning [ C]. In Proceedings of the SIAM Intema- tional Conference on Data Mining, Columbus, USA,2010:25-36.
9Brown P F, DeSouza P V, Mercer R L, et al. Class-based n-gram models of natural language [ J]. Computational Linguistics, 1992,18(4) :467-479.
10Bengio Y, Ducharrne R, Vincent P, et al. A neural probabilistic lan- guage model [ J], Journal of Machine Learning Research, 2003,3 (6) :1137-1155.

同被引文献166

1赵悦淑,王军,王蕊,昝红英,张坤丽,穗志方.中文医学知识图谱研究进展[J].中国数字医学,2021,16(6):86-91. 被引量：5
2冯鑫,李雪,闫月,李佳培,刘梦瑶,吴晔.基于知识实体的突发公共卫生事件数据平台构建研究[J].知识管理论坛,2020(3):175-190. 被引量：2
3李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
4李健康,张春辉.本体研究及其应用进展[J].图书馆论坛,2004,24(6):80-86. 被引量：55
5李彬.电子病历的应用现状及发展对策初探[J].医学与社会,2005,18(6):46-49. 被引量：22
6俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：159
7沈亚诚,舒忠梅.基于案例推理的病历表示与系统架构研究[J].南方医科大学学报,2007,27(7):1114-1116. 被引量：4
8刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411. 被引量：59
9张跃,姚天顺.基于结合性自动识别中文姓名[J].小型微型计算机系统,1997,18(10):43-48. 被引量：9
10赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2):3-17. 被引量：51

引证文献19

1李慧林,柴玉梅,孙穆祯.面向文本命名实体识别的深层网络模型[J].小型微型计算机系统,2019,40(1):50-57. 被引量：10
2王红斌,沈强,线岩团.融合迁移学习的中文命名实体识别[J].小型微型计算机系统,2017,38(2):346-351. 被引量：24
3冯艳红,于红,孙庚,孙娟娟.基于BLSTM的命名实体识别方法[J].计算机科学,2018,45(2):261-268. 被引量：51
4刘璟.中文命名实体识别方法研究[J].电脑知识与技术,2019,15(3X):179-180. 被引量：8
5冯建周,马祥聪,刘亚坤,宋沙沙.关于命名实体识别的生成式对抗网络的研究[J].小型微型计算机系统,2019,40(6):1191-1196. 被引量：4
6曹春萍,关鹏举.基于E-CNN和BLSTM-CRF的临床文本命名实体识别[J].计算机应用研究,2019,36(12):3748-3751. 被引量：16
7杨维,孙德艳,张晓慧,李子乾,李承桓,吴佐平.面向电力智能问答系统的命名实体识别算法[J].计算机工程与设计,2019,40(12):3625-3630. 被引量：18
8杨晓辉,毕雪华,张琳琳,高颖.基于多任务的中文电子病历中命名实体识别研究[J].东北师大学报（自然科学版）,2020,52(1):81-87. 被引量：5
9程名,于红,冯艳红,任媛,付博,刘巨升,杨鹤.融合注意力机制和BiLSTM+CRF的渔业标准命名实体识别[J].大连海洋大学学报,2020,35(2):296-301. 被引量：17
10陈琛.基于BiGRU_CRF模型的医疗领域命名实体识别[J].电子技术与软件工程,2020(14):180-182. 被引量：3

二级引证文献224

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
3孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：5
4步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
5李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
6唐詹,柏召,刁磊,郭旭超,周晗,李林.基于注意力池化和堆叠式结构的病虫害文献识别模型[J].农业机械学报,2021,52(S01):178-184. 被引量：2
7张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：12
8成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
9张硕,赵卓峰,刘晨.基于图卷积网络的产业领域科技服务资源命名实体识别[J].计算机与数字工程,2023,51(1):20-27.
10王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.

1郑强,刘齐军,王正华,朱云平.生物医学命名实体识别的研究与进展[J].计算机应用研究,2010,27(3):811-815. 被引量：25
2孙晓,孙重远,任福继.基于深层条件随机场的生物医学命名实体识别[J].模式识别与人工智能,2016,29(11):997-1008. 被引量：18
3马瑞民,马民艳,王浩畅.基于分类器串联融合的生物医学命名实体识别[J].大庆石油学院学报,2011,35(2):91-94.
4黄海滨.机器学习及其主要策略[J].河池师范高等专科学校学报,2000,20(4):85-89. 被引量：6
5林雄,于洪,孙志雄,韩建文.再励学习及其在移动机器人行为规划中的应用[J].工业控制计算机,2009,22(8):58-59.
6谷歌推出TensorFlow机器学习系统[J].电信工程技术与标准化,2015,28(11):92-92. 被引量：5
7马瑞民,马民艳.基于CRFs的多策略生物医学命名实体识别[J].齐齐哈尔大学学报（自然科学版）,2011,27(1):39-42. 被引量：2
8尹绪森,吴甘沙.让机器学习突破大数据的重围[J].程序员,2013(11):113-117.
9赵沁平,魏华,王军玲.机器学习技术与机器学习系统[J].计算机科学,1993,20(5):27-40. 被引量：5
10何友鸣,方辉云.一种机器学习系统的设计与实现[J].计算机应用,2001,21(z1):160-162. 被引量：1

小型微型计算机系统

2016年第2期

浏览历史

内容加载中请稍等...

基于词表示方法的生物医学命名实体识别被引量：19

参考文献14

同被引文献166

引证文献19

二级引证文献224

相关作者

相关机构

相关主题

浏览历史

基于词表示方法的生物医学命名实体识别 被引量：19

参考文献14

同被引文献166

引证文献19

二级引证文献224

相关作者

相关机构

相关主题

浏览历史

基于词表示方法的生物医学命名实体识别被引量：19