实体关系识别中长距离依赖问题的研究被引量：2

Research on Long-distance Dependence Problem in Entity-relationship Recognition

下载PDF

导出

摘要实体关系识别是信息抽取中的关键步骤,传统的词袋模型受到长距离依赖问题的影响,在处理实体关系识别过程中的性能不佳.条件随机场具有灵活的特征表达能力,因此非常适合表示复杂的语言现象.但传统的Linear-Chain CRF仍然不能表示长距离依赖问题,而Skip-Chain CRF仅考虑了相同词的长距离依赖问题,并且由于计算过于复杂,因此很难进行扩展.本文提出了一种新型的全连通随机场模型,使用词的相似度来建立依赖关系和使用词的互信息来删除依赖关系,同时改进了词的相似度计算公式,使其能够表示距离依赖关系,从而在解决长距离语言约束问题上克服了以往统计学习模型的缺陷,并在计算强度上与Linear-Chain CRF大致相当,在实体关系识别中的性能超过了目前的Linear-Chain CRF和Skip-Chain CRF. One of the key challenges of information extract is Entity-Relationship Recognition （ERR） which can not be well dealt by the traditional word-bag model because of the effect of long-distance dependence problem （LDP）. Conditional Random Field （CRF） has a good ability to express flexible feature and fit for complex language case. But Linear-Chain CRF still cannot slove the LDP. Skip-Chain CRF only considers LDP about same words and it cannot to be extended easily since it is too complex to compute. This paper proposes full-connected random field to overcome LDP in previous statistics learning model and reach the same complexity with Linear-Chain CRF. FCRF uses similarity of words to build relationship between them and uses average mutual information to delete relationship. The extended similarity formula is used to express the distance between words. Experiment prove FCRF performs better than Linear-Chain CRF and Skip-Chain CRF in ERR task.

作者朱鸿宇刘瑰陈左宁唐福华

机构地区江南计算技术研究所

出处《小型微型计算机系统》 CSCD 北大核心 2008年第2期364-367,共4页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(60025206)资助装备预先研究基金项目资助

关键词实体关系识别长距离依赖全连通随机场相似度计算 entity-relationship reeognition long-distanee dependenee full-eonneeted random field similarity eompute

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Peter F Brown, Vincent J Della Pietra, Peter V deSouza, et al. Class based n-gram models of natural language[J]. Computational Linguistics, 1992,8(4) :467-479.
2Zhou GuoDong, Lua KimTeng. Interpolation of n-gram and mutual information based trigger pair language models for mandarin speech recognition[J]. Computer Speech and Language, 1999,13 (2), 125-141.
3刘秉权,王晓龙,王宇颖.一种多知识源汉语语言模型的研究与实现[J].计算机研究与发展,2002,39(2):231-235. 被引量：8
4陈清才,王晓龙,赵健.一种基于粗糙集的大规模语料库语言学知识发现模型[J].计算机工程与科学,2004,26(5):56-61. 被引量：1
5Lawrence R Rabiner. A tutorial on hidden narkov models and selected applications in speech recognition [J]. Proceedings of the IEEE, 1989, 77(2), 257-286.
6Lafferty J, McCallum A, Pereira F. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]. In: Proc. 18th International Conf. on Machine Learning, 2001.
7Andrew McCallum, Wei Li. Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons [C]. In: Seventh Conference on Natural Language Learning (CoNLL), 2003.
8Dong Zhen-dong, Dong Qiang. HowNet [EB/OL]. http:// www. how-net. com.
9Rosenfeld R. A maximum entropy approach to adaptive statistical language modeling[D]. Carnegie Mellon University, 1994.

二级参考文献8

1王晓龙,王开铸.声音语句输入的研究[J].计算机学报,1994,17(2):96-103. 被引量：7
2万建成.语音代码──汉字智能转换研究[J].中文信息学报,1994,8(2):61-72. 被引量：4
3张瑞强,王作英,张建平.带拼音纠错的汉语音字转换技术[J].清华大学学报（自然科学版）,1997,37(10):9-11. 被引量：4
4潘凌云,杨长生.拼音、汉字计算机自动转换系统[J].计算机学报,1990,13(4):271-276. 被引量：4
5王轩,王晓龙.大规模文本计算机音字相互转换技术的研究[J].计算机研究与发展,1998,35(5):417-421. 被引量：4
6关毅,王晓龙,张凯.基于转移的音字转换纠错规则获取技术[J].计算机研究与发展,1999,36(3):268-273. 被引量：4
7陈清才,王晓龙.一种基于词矢量的汉语语义量化模型[J].计算机研究与发展,2001,38(2):207-212. 被引量：7
8王晓龙,王开铸,李仲荣,白小华.最少分词问题及其解法[J].科学通报,1989,34(13):1030-1032. 被引量：25

共引文献7

1张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8
2窦家维,李顺东.一种新的语言信息计算模型[J].小型微型计算机系统,2005,26(10):1850-1853. 被引量：1
3姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
4姜韶华,党延忠.自动提取含字母词语的领域新术语的研究[J].计算机工程,2007,33(2):47-49. 被引量：3
5刘政怡,樊庆林,吴建国,李炜.基于输入法的通用存储结构[J].计算机工程与设计,2008,29(17):4554-4558.
6刘政怡,吴建国,李炜.基于整句输入法的状态空间模型[J].计算机工程与应用,2008,44(30):153-156. 被引量：2
7王建平.大语言模型架构下的智能写作系统设计与实现[J].信息与电脑,2023,35(22):130-132. 被引量：1

同被引文献12

1Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proc. of the 18th International Conference on Machine Learning. Williamstown, Australia: [s. n.], 2001.
2Friedrich C M, Revillion T, Hofmann M, et al. Biomedical and Chemical Named Entity Recognition with Conditional Random Fields: The Advantage of Dictionary Features[C]//Proc. of the 2nd International Symposium on Semantic Mining in Biomedicine. Jena, Germany: [s. n.], 2006.
3Wellner B, McCallum A, Peng Fuchun, et al. An Integrated, Conditional Model of Information Extraction and Coreference with Application to Citation Graph Construction[C]//Proc. of the 20th Conference on Uncertainty in Artificial Intelligence. Banff, Canada:[s. n.], 2004.
4杨志豪,林鸿飞,李彦鹏.条件随机域与上下文线索结合的生物实体识别[J].计算机工程,2008,34(7):203-204. 被引量：3
5朱道辉,肖基毅,程阳,吴诗祥.基于长距离依赖条件随机域的文本信息抽取[J].计算机应用与软件,2011,28(5):203-205. 被引量：2
6付剑锋,刘宗田,刘炜,周文.基于层叠条件随机场的事件因果关系抽取[J].模式识别与人工智能,2011,24(4):567-573. 被引量：22
7郑敏洁,雷志城,廖祥文,陈国龙.基于层叠CRFs的中文句子评价对象抽取[J].中文信息学报,2013,27(3):69-76. 被引量：19
8雷志城,廖祥文.结合领域知识的中文句子评价对象抽取[J].福州大学学报（自然科学版）,2013,41(3):297-304. 被引量：2
9钟军,禹龙,田生伟,吐尔根.依布拉音.基于双层模型的维吾尔语突发事件因果关系抽取[J].自动化学报,2014,40(4):771-779. 被引量：11
10杨竣辉,刘宗田,刘炜,苏小英.基于语义事件因果关系识别[J].小型微型计算机系统,2016,37(3):433-437. 被引量：10

引证文献2

1彭春艳,张晖,包玲玉,陈昌平.基于条件随机域的生物命名实体识别[J].计算机工程,2009,35(22):197-199. 被引量：17
2马建红,郝亚娟,张亚梅.基于层叠跳跃链条件随机场模型的因果关系标注[J].郑州大学学报（理学版）,2016,48(4):54-59. 被引量：2

二级引证文献19

1周晶.基于条件随机域模型的中文实体关系抽取[J].计算机工程,2010,36(24):192-194. 被引量：2
2鞠久朋,张伟伟,宁建军,周国栋.CRF与规则相结合的地理空间命名实体识别[J].计算机工程,2011,37(7):210-212. 被引量：31
3叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47
4罗芳,熊前兴,肖敏.基于本体的产品命名实体识别研究[J].武汉理工大学学报（信息与管理工程版）,2011,33(6):948-952. 被引量：3
5邱莎,王付艳,申浩如,段玻,阿圆,丁海燕.基于含边界词性特征的中文命名实体识别[J].计算机工程,2012,38(13):128-130. 被引量：7
6鲁亚楠,孙锐,姬东鸿.基于位置敏感Embedding的中文命名实体识别[J].计算机应用研究,2017,34(2):365-368. 被引量：3
7阿迪来.艾合买提,冯向萍.基于条件随机场的维吾尔语音乐实体识别[J].智能计算机与应用,2017,7(2):59-62. 被引量：2
8杨娅,杨志豪,林鸿飞,宫本东,王健.MBNER:面向生物医学领域的多种实体识别系统[J].中文信息学报,2016,30(1):170-175 182. 被引量：7
9谢腾,杨俊安,刘辉.基于BERT-BiLSTM-CRF模型的中文实体识别[J].计算机系统应用,2020,29(7):48-55. 被引量：92
10岳琪,李想.基于BERT和双向RNN的中文林业知识图谱构建研究[J].内蒙古大学学报（自然科学版）,2021,52(2):176-184. 被引量：10

1吴鹏飞.基于Tika的复合文档文本信息抽取及其应用开发[J].电脑编程技巧与维护,2012(21):85-88.
2侯宏旭,刘群,刘志文,张国强.Skip-N蒙古文统计语言模型[J].内蒙古大学学报（自然科学版）,2008,39(2):220-224. 被引量：8
3李春生.一种体现长距离依赖关系的语言模型[J].科技视界,2014(5):55-56. 被引量：4
4李明,王亚斌,张其文,王旭阳.基于树状条件随机场模型的语义角色标注[J].计算机工程,2010,36(18):41-42. 被引量：4
5刘永彬,杨炳儒,李广源,刘英华.基于马尔可夫逻辑网的联合推理开放信息抽取[J].计算机科学,2012,39(9):202-205. 被引量：5
6丁艳辉,李庆忠,董永权,彭朝晖.基于集成学习和二维关联边条件随机场的Web数据语义标注方法[J].计算机学报,2010,33(2):267-278. 被引量：6
7钱权,耿焕同,王煦法.基于SVM的入侵检测系统[J].计算机工程,2006,32(9):136-138. 被引量：14
8李响,南江,杨雅婷,周喜,米成刚.泛化语言模型在汉维机器翻译中的应用[J].计算机应用研究,2014,31(10):2994-2997. 被引量：4
9阳馨,蒋伟,刘晓玲.基于多种特征池化的中文文本分类算法[J].四川大学学报（自然科学版）,2017,54(2):287-292. 被引量：11
10朱芳芳,李志华,王士同.改进的WSVM入侵检测方法[J].计算机仿真,2008,25(11):157-160. 被引量：4

小型微型计算机系统

2008年第2期

浏览历史

内容加载中请稍等...

实体关系识别中长距离依赖问题的研究被引量：2

参考文献9

二级参考文献8

共引文献7

同被引文献12

引证文献2

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

实体关系识别中长距离依赖问题的研究 被引量：2

参考文献9

二级参考文献8

共引文献7

同被引文献12

引证文献2

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

实体关系识别中长距离依赖问题的研究被引量：2