融合多特征的最大熵汉语命名实体识别模型被引量：33

Fusion of Multiple Features for Chinese Named Entity Recognition Based on Maximum Entropy Model

下载PDF

导出

摘要最大熵模型能有效整合多种约束信息,对于汉语命名实体识别具有很好的适用性.因此,将其作为基本框架,提出一种融合多特征的最大熵汉语命名实体识别模型.该模型集成局部与全局多种特征,同时为降低搜索空间并提高处理效率,而引入了启发式知识.基于SIGHAN 2008命名实体评测任务测试数据的实验结果表明,所建立的混合模式是一种组合统计模型与启发式知识的有效汉语命名实体识别模式.基于不同测试数据的实验说明,该方法针对不同测试数据源具有一致性. With the development of natural language processing （NLP） technology, the need for automatic named entity recognition （NER） is highlighted in order to enhance the performance of information extraction systems. The task of NER, which plays a vital role in NLP, is to tag each named entity （NE） in documents with a set of certain NE types. In this paper, a hybrid pattern for Chinese NER based on maximum entropy model is proposed, which fuses multiple features. It differentiates from most of the previous approaches mainly in the following aspects. Firstly, maximum entropy model is an outstanding statistical model for its good integration of various constraints and its compatibility to Chinese NER. Secondly, local features and global features are integrated in the hybrid model to get high performance. Thirdly, in order to reduce the searching space and improve the processing efficiency, heuristic human knowledge is introduced into the statistical model, which could increase the recognition performance significantly. From the experimental results on testing set for NER evaluation task in SIGHAN 2008, it can be concluded that the established hybrid model is an effective pattern to combine statistical model and heuristic human knowledge. And the experiments on another different testing set also confirm the above conclusion, which show that this algorithm has consistence on different testing data sources.

作者张玥杰徐智婷薛向阳

机构地区复旦大学计算机科学与工程系上海市智能信息处理重点实验室

出处《计算机研究与发展》 EI CSCD 北大核心 2008年第6期1004-1010,共7页 Journal of Computer Research and Development

基金国家自然科学基金项目(60773124) 上海市科技攻关计划基金项目(07dz15007)~~

关键词命名实体识别最大熵模型局部特征全局特征启发式知识 named entity recognition maximum entropy model local feature global feature heuristic human knowledge

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Volk Martin, Clematide Simon. Learn-filter-apply-forget mixed approaches to named entity recognition [C]. In: Proc of the 6th Int'l Workshop on Applications of Natural Language for Information Systems. Berlin: Springer, 2001. 153-163.
2Y Z Wu, J Zhao, B Xu. Chinese named entity based on multiple features [C]. Human Language Technology Conference and Conf on Empirical Methods in Natural Language Processing (EMNLP-2005), Vancouver, Canada, 2005.
3H P Zhang, Q Liu, H Zhang, et al. Automatic recognition of Chinese unknown words based on roles tagging [C]. SigHan2002 Workshop Attached with the 19th Int'l Conf on Computational Linguistics, Taipei, 2002.
4周雅倩,郭以昆,黄萱菁,吴立德.基于最大熵方法的中英文基本名词短语识别[J].计算机研究与发展,2003,40(3):440-446. 被引量：62
5O Bender, F J Och, H Ney. Maximum entropy models for named entity recognition [C]. The 7th Conf on Computational Natural Language Learning (CoNLL 2003), Edmonton, Canada, 2003.
6H L Chieu, H T Ng. Named entity recognition with a maximum entropy approach [C]. The 7th Conf on Computational Natural Language Learning (CoNLL 2003), Edmonton, Canada, 2003.
7A Berger, V J Della Pietra, S A Della Pietra. A maximum entropy approach to natural language processing [J]. Computational Linguistics, 1996, 22(1): 39-71.
8Ramaparkhi Adwait. A simple introduction to maximum entropy models for natural language processing [R]. Institute for Research in Cognitive Science Report,.
9J N Darroch, D Ratcliff. Generalized iterative scaling for loglinear models [J]. The Annals of Mathematical Statistics, 1972, 43(5): 1470-1480.
10Y Z Wu, J Zhao, B Xu. Chinese named entity recognition combining a statistical model with human knowledge [C]. The 41st Annual Meeting of the Association for Computational Linguistics (ACL-2003), Sapporo, 2003.

二级参考文献22

1E F T K Sang, W Daelemans, H Déjean et al. Applying system combination to base noun phrase identification. In: Proc of COLING 2000. Saarbrücken, Germany: Morgan Kaufmann Publishers, 2000. 857～863
2周明 .基于语料库的中文最长名词短语的自动抽取.见:计算语言进展与应用.北京,清华大学出版社,1995. 50-55(Zhou Ming. Corpus-based Chinese maximum noun phrase extraction. In: Computer Linguistic Development and Application(in Chinese). Beijing: Tsinghua University Press, 1995. 50-55)
3K W Church. A stochastic parts program and noun phrase for unrestricted test. In: Proc of the 2nd Conf on Applied Natural Language Processing. Austin, TX, USA: Kluwer Academic Publishers, 1988. 136～143
4S P Abney. Parsing by Chunks. In: R C Berwick, S P Abney eds. PrincipleBased Parsing: Computation and Psycholinguistics. Boston, USA: Kluwer Academic Publishers, 1991. 257～278
5L A Ramshaw, M P Marcus. Text chunking using transformation-based learning. In: Proc of the 3rd Workshop on Very Large Corpora. Kluwer Academic Publishers, 1995. 82～94
6A Ratnaparkhi. Learning to parse natural language with maximum entropy models. Machine Learning, 1999, 34(1/2/3): 151～176
7范晓.静态短语和动态短语. 见:三个平面的语法观 .北京:北京语言文化大学出版社,1996(Fan Xiao. Static phrase and dynamic phrase. In: Grammar Concept from Three Sides(in Chinese). Beijing: Beijing Linguistic Culture College Publisher, 1996)
8R Koeling. Chunking with maximum entropy models. In: Proc of CoNLL 2000. Lisbon, Portagal: Lingustic Association for Computation, 2000
9A L Berger, S A D Pietra, V J D Pietra. A maximum entropy approach to natural language processing. Computational Linguistics, 1996, 22(1):39～71
10A L Berger. The improved iterative scaling algorithm: A gentle introduction. School of Computer Science, Carnegin Mellon University, 1997

共引文献61

1李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
2陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
3干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
4王建会,王雷,胡运发.词语间依存关系的定量识别[J].中文信息学报,2005,19(4):31-38. 被引量：3
5冯丽萍,焦莉娟.基于最大熵的中文组织机构名识别模型[J].计算机与数字工程,2010,38(12):36-40. 被引量：2
6余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
7冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1
8张仰森,曹元大,俞士汶.最大熵方法中特征选择算法的改进与纠错排歧[J].北京理工大学学报,2006,26(1):36-40. 被引量：4
9周雅倩,黄萱菁,吴立德.一种特征匹配方法:稀疏特征树[J].软件学报,2006,17(5):1026-1033. 被引量：1
10刘贵全,曾宇斌.基于最大熵模型的汉语依存分析[J].计算机工程,2006,32(11):216-218. 被引量：2

同被引文献293

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
2张政馗,庞为光,谢文静,吕鸣松,王义.面向实时应用的深度学习研究综述[J].软件学报,2020(9):2654-2677. 被引量：36
3刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
4李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：21
5成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
6黄超.基于统计方法从文本中抽取分词词典[J].电脑知识与技术,2020,0(4):213-214. 被引量：2
7黄德根,马玉霞,杨元生.基于互信息的中文姓名识别方法[J].大连理工大学学报,2004,44(5):744-748. 被引量：12
8程志.对裁判文书改革与深化的研究[J].当代法学,2002,16(11):115-118. 被引量：4
9罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
10张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66

引证文献33

1高原,施元磊,张蕾,曹天奕,冯筠.基于游记文本的游客游览行程重构[J].数据分析与知识发现,2020,4(2):165-172. 被引量：5
2许晓丽,卢志茂,张格森.基于条件随机场的中文命名实体识别研究[J].中国新技术新产品,2009(2):15-15. 被引量：3
3刘鹏博,车海燕,陈伟.知识抽取技术综述[J].计算机应用研究,2010,27(9):3222-3226. 被引量：15
4滕青青,吉久明,郑荣廷,李楠.基于文献的中文命名实体识别算法适用性分析研究[J].情报杂志,2010,29(9):157-161. 被引量：9
5李丽双,党延忠,李丹.基于修正SVM-KNN组合算法的汉语专有名词自动抽取[J].情报学报,2011,30(6):610-617. 被引量：2
6张俊三,瞿有利,税仪冬,田盛丰.相关实体发现中基于Wikipedia的实体排序[J].计算机研究与发展,2014,51(6):1359-1372. 被引量：1
7易应萍,张志强,王强.基于自然语言处理技术的医学命名实体解析研究[J].中国数字医学,2018,13(12):20-22. 被引量：3
8王路路,艾山.吾买尔,买合木提.买买提,卡哈尔江.阿比的热西提,吐尔根.依布拉音.基于CRF和半监督学习的维吾尔文命名实体识别[J].中文信息学报,2018,32(11):16-26. 被引量：13
9林雄鹰,黄宇光.基于规则和混合统计模型的中文地名识别研究[J].高性能计算技术,2012,0(1):31-35.
10柏兵,侯霞,石松.基于CRF和BI-LSTM的命名实体识别方法[J].北京信息科技大学学报（自然科学版）,2018,33(6):27-33. 被引量：16

二级引证文献328

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2陈强,丁腊春,王译,殷伟东.智能电子病历质控系统研究与应用[J].医学信息学杂志,2020,41(6):63-65. 被引量：16
3陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别[J].计算机系统应用,2022,31(12):211-219. 被引量：3
4刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
5张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英.面向医疗文本的实体及关系标注平台的构建及应用[J].中文信息学报,2020,34(6):36-44. 被引量：13
6熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：10
7顾佼佼,翟一琛,姬嗣愚,宗富强.基于BERT和知识蒸馏的航空维修领域命名实体识别[J].电子测量技术,2023,46(3):19-24. 被引量：3
8张婷婷,让冉,张龙波,邢林林,蔡红珍.面向新兴产业的检验检测服务关系抽取[J].智能计算机与应用,2022,12(2):32-36. 被引量：1
9王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.
10路威,赵丽君.兵要知识图谱的构建与应用研究[J].测绘地理信息,2022,47(4):119-123. 被引量：3

1张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139. 被引量：20
2骆桢轩.组合统计模型在程序错误定位中的应用[J].计算机工程与设计,2010,31(19):4218-4220.
3杨克领.基于条件随机场的汉语命名实体识别[J].江西科学,2013,31(5):675-678.
4王申康,张雪燕.一种基于sDOM的XML文档索引算法[J].计算机应用研究,2005,22(2):87-89.
5孙斌.信息提取技术概述(下)[J].术语标准化与信息技术,2003(1):34-37. 被引量：11
6李广一,王厚峰.基于多步聚类的汉语命名实体识别和歧义消解[J].中文信息学报,2013,27(5):29-34. 被引量：17
7李洪刚,李烨,任国稳.针对传感节点的基于signal-slot电源管理方案设计与实现[J].集成技术,2014,3(3):75-84.
8周法国,王映龙,杨炳儒,宋泽锋.非结构化信息抽取关键技术研究探讨[J].计算机工程与应用,2009,45(14):1-6. 被引量：10
9窦强,王勇.事务存储系统中PGHB冲突检测算法改进[J].电子学报,2010,38(1):195-198. 被引量：3
10盛国,王北戎.基于Signal Wizard 2.55滤波算法仿真研究[J].佛山科学技术学院学报（自然科学版）,2017,35(2):18-23.

计算机研究与发展

2008年第6期

浏览历史

内容加载中请稍等...

融合多特征的最大熵汉语命名实体识别模型被引量：33

参考文献12

二级参考文献22

共引文献61

同被引文献293

引证文献33

二级引证文献328

相关作者

相关机构

相关主题

浏览历史

融合多特征的最大熵汉语命名实体识别模型 被引量：33

参考文献12

二级参考文献22

共引文献61

同被引文献293

引证文献33

二级引证文献328

相关作者

相关机构

相关主题

浏览历史

融合多特征的最大熵汉语命名实体识别模型被引量：33