基于种子自扩展的命名实体关系抽取方法被引量：25

Named Entity Relation Extraction Method Based on Seed Self-expansion

下载PDF

导出

摘要命名实体间关系的抽取是信息抽取中的一个重要研究问题,该文提出了一种从大量的文本集合中自动抽取命名实体间关系的方法,找出了所有出现在同一句子内、词语之间的距离在一定范围之内的命名实体对,把它们的上下文转化成向量。手工选取少量具有抽取关系的命名实体对,把它们作为初始关系的种子集合,通过自学习,关系种子集合不断扩展。通过计算命名实体对和关系种子之间的上下文相似度来得到所要抽取的命名实体对。通过扩展关系种子集合的方法,抽取的召回率和准确率都得到了提高。该方法在对《人民日报》语料库的测试中,取得了加权平均值F-Score为0.813的效果。 Named entity relation extraction is an important issue in inforlnation extraction, This paper proposes a special method that extracts named entity relation from large text rendezvous. It finds out the named entity pairs, which appear in the same sentences and the distances of them is under a certain value, and converts their contexts into vectors. It selects a few named entity pair instances that have the relation wanted to extract and make them as initial relation seed set, The relation seed set is extended automatically in sell-study process. It gets the named entity pairs, which have the relation wanted to extract, by calculating the similarity of context vectors between named entity pairs and relation seed set. By the method of bootstrapping, the recall and precision are enhanced. It verifies the method with the PFR corpora and achieves an average weighted F-Score of 0.813.

作者何婷婷徐超李晶赵君喆

机构地区华中师范大学计算机科学与技术系

出处《计算机工程》 EI CAS CSCD 北大核心 2006年第21期183-184,193,共3页 Computer Engineering

基金国家自然科学基金资助项目(60442005) 教育部科学技术研究基金资助重点项目(105117)

关键词命名实体关系抽取自学习 Named entity Relation extraction： Self-study

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1Zelenko D,Aone C,Richardella A.Kernel Methods for Relation Extraction[C].Proc.of the Conference on Empirical Methods in Natural Language Processing,Barcelona,Spain,2002.
2Brin S.Extracting Patterns and Relations from WWW[C].Proc.of WebDB Workshop at the 6th International Conference on Extending Database Technology,Valencia,Spain,1998:172-183.
3Agichtein E,Gravano L.Snowball:Extracting Relations from Large Plain-text Collections[C].Proc.of the 5th ACM International Conference on Digital Libraries,2000:85-94.
4鲁松,白硕,黄雄.基于向量空间模型中义项词语的无导词义消歧[J].软件学报,2002,13(6):1082-1089. 被引量：37
5Manning C D,Schutze H.苑春法,李庆中,王昀等译.统计自然语言处理[M].北京:电子工业出版社,2005:335-337.
6Gupta C,Grossman R.GenIc:A Single Pass Generalized Incre-mental Algorithm for Clustering[C].Proc.of International Conference on Data Mining,Brighton,UK,2004.

二级参考文献17

1Schutze, H. Word space. In: Stephen, J.H., Cowan, J., Giles, C.L., eds. Advances in Neural Information Processing Systems 5. San Mateo, CA: Morgan Kaufmann, 1993. 895～902.
2Salton, G., Buckley, B. Term-Weighting approaches in automatic text retrieval. Information Processing and Management, 1988,24(5):513～523.
3Miller, G.A., Charles, W. Contextual Correlates of Semantic Similarity. Language and Cognitive Processes, 1991,6(1):1～28.
4李娟子.汉语词义消歧方法研究[博士学位论文].北京:清华大学,1999.
5Li, Juan-zi. The research on Chinese word sense disambiguation [Ph.D. Thesis]. Beijing: Tsinghua University, 1999 (in Chinese).
6Ide, N., Veronis, J. Introduction to the special issue on word sense disambiguation: the state of the art. Computational Linguistics, 1998,24(1):1～40.
7Schutze, H., Pedersen, J. Information retrieval based on word senses. In: Andew, H., Mooery, K., eds. Proceedings of the 4th Annual Symposium on Document Analysis and Information Retrieval. Las Vegas: University of Nevada at Las Vegas, 1995. 161～175.
8Black, E. An experiment in computational discrimination of English word senses. IBM Journal of Research and Development, 1988, 32(2):185～194.
9Yarowsky, D. Decision lists for Lexical ambiguity resolution: application to accent restoration in Spanish and French. In: Mooney, R., ed. Proceedings of the 32nd Annual Meeting of Association for Computational Linguistics. Las Cruces, NJ: Association for Computational Linguistics, 1994. 88～95. http://www.cs.jhu.edu/～yarowsky/pubs.html.
10Mooney, R.J. Comparative experiments on disambiguating word senses: an illustration of the role of bias in machine learning. In: Brill, E., Church, K., eds. Proceedings of the Conference on Empirical Methods in Natural Language Processing. Somerset, NJ: Association for Computational Linguistics, 1996. 82～91.

共引文献36

1姜丽华,黄敏,马永光,佟振声.基于Multi-agent技术的Web文本挖掘模型及应用[J].计算机工程,2005,31(1):217-218. 被引量：3
2全昌勤,何婷婷,姬东鸿,刘辉.基于义类的无导词义消歧方法的研究[J].计算机应用研究,2005,22(4):39-41. 被引量：2
3陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
4王瑞琴,孔繁胜.基于无导词义消歧的语义查询扩展[J].情报学报,2011,30(2):131-137. 被引量：4
5陈浩,何婷婷,姬东鸿.基于MDL聚类的无导词义消歧[J].小型微型计算机系统,2005,26(10):1846-1849. 被引量：2
6刘挺,卢志茂,郎君,李生.Chinese word sense disambiguation based on neural networks[J].Journal of Harbin Institute of Technology(New Series),2005,12(4):408-414.
7何婷婷,谢芳.利用BP神经网络的中文词义消歧模型[J].华中师范大学学报（自然科学版）,2005,39(4):470-474. 被引量：1
8卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
9谢芳,胡泉.基于BP神经网络的词义消歧模型[J].计算机工程与应用,2006,42(12):187-189. 被引量：3
10曹鸿霞.统计与神经网络相结合的词义消歧模型[J].武汉理工大学学报,2006,28(8):131-134. 被引量：2

同被引文献255

1王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：15
2车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
3姜吉发,王树西.一种自举的二元关系和二元关系模式获取方法[J].中文信息学报,2005,19(2):71-77. 被引量：5
4张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
5夏克文,李昌彪,沈钧毅.前向神经网络隐含层节点数的一种优化算法[J].计算机科学,2005,32(10):143-145. 被引量：122
6赵健,王晓龙,关毅.中文名实体识别中的特征组合与特征融合的比较[J].计算机应用,2005,25(11):2647-2649. 被引量：7
7张仰森,曹元大,俞士汶.最大熵方法中特征选择算法的改进与纠错排歧[J].北京理工大学学报,2006,26(1):36-40. 被引量：4
8邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
9冯冲,陈肇雄,黄河燕.采用主动学习策略的组织机构名识别[J].小型微型计算机系统,2006,27(4):710-714. 被引量：12
10莫倩,刘书家.主题新闻信息门户系统的设计与实现[J].计算机工程,2006,32(10):265-267. 被引量：5

引证文献25

1梁鸿翔,余辉,颉明明,张博羿.面向刑事案件情节判定的知识库构建技术[J].数据通信,2020(6):35-40. 被引量：1
2刘路,李弼程,张先飞.基于正反例训练的SVM命名实体关系抽取[J].计算机应用,2008,28(6):1444-1446. 被引量：4
3刘路,李弼程,张先飞,孙显著.基于单实体语言模型的实体关系发现和描述[J].信息工程大学学报,2008,9(3):352-355. 被引量：1
4陈锦秀,姬东鸿.基于图的半监督关系抽取[J].软件学报,2008,19(11):2843-2852. 被引量：16
5伍星,何中市,黄永文.基于弱监督学习的产品特征抽取[J].计算机工程,2009,35(13):199-201. 被引量：10
6帅训波,马书南.基于决策树的现代汉语中任职关系抽取研究[J].昆明理工大学学报（理工版）,2009,34(4):27-31.
7张克菊,韩毅.关系抽取技术的发展与应用——以生物信息学为例[J].情报科学,2010,28(1):102-106. 被引量：1
8雷春雅,郭剑毅,余正涛,毛存礼,张少敏,黄甫.基于自扩展与最大熵的领域实体关系自动抽取[J].山东大学学报（工学版）,2010,40(5):141-145. 被引量：3
9郭剑毅,雷春雅,余正涛,苏磊,赵君,田维.基于信息熵的半监督领域实体关系抽取研究[J].山东大学学报（工学版）,2011,41(4):7-12. 被引量：3
10毛小丽,何中市,邢欣来,刘莉.基于语义角色的实体关系抽取[J].计算机工程,2011,37(17):143-145. 被引量：7

二级引证文献293

1曹艳琴.基于深度学习的英语自然语言处理系统[J].系统仿真技术,2021,17(4):285-288. 被引量：1
2吴婷,孔芳.基于图注意力卷积神经网络的文档级关系抽取[J].中文信息学报,2021,35(10):73-80. 被引量：12
3吴天昊,古丽拉·阿东别克.基于神经元块级别注意力机制的LSTM关系抽取[J].计算机应用研究,2020,37(S02):76-79. 被引量：6
4刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：25
5张婷婷,让冉,张龙波,邢林林,蔡红珍.面向新兴产业的检验检测服务关系抽取[J].智能计算机与应用,2022,12(2):32-36. 被引量：1
6刘春艳.基于信息可视化的文本挖掘研究领域前沿与演化分析[J].图书情报工作,2011,55(S2):270-272. 被引量：5
7张立民,刘凯.基于深度玻尔兹曼机的文本特征提取研究[J].微电子学与计算机,2015,32(2):142-147. 被引量：9
8刘凯,张立民,孙永威.基于遗传算法的RBM优化设计[J].微电子学与计算机,2015,32(6):96-100. 被引量：8
9张克菊,韩毅.关系抽取技术的发展与应用——以生物信息学为例[J].情报科学,2010,28(1):102-106. 被引量：1
10罗军,高琦,王翊.基于Bootstrapping的本体标注方法[J].计算机工程,2010,36(23):85-87. 被引量：3

1杨建明.关系抽取方法研究[J].电子技术（上海）,2009(4):36-41. 被引量：2
2周屹,郁哲.一种基于AOP和UML的用例扩展关系建模方法[J].黑龙江工程学院学报,2009,23(1):50-53. 被引量：1
3刘建舟,邵雄凯.一种改进的中文实体关系抽取方法[J].软件导刊,2011,10(4):27-29. 被引量：2
4陶树平.多媒体数据库的数据模型研究[J].上海铁道大学学报,1998,19(8):82-86. 被引量：2
5徐谦,祝晓明.基于组合特征的关系抽取研究[J].现代商贸工业,2009,21(2):277-278.
6刘建舟,邵雄凯.基于语义核的中文实体关系抽取[J].信息系统工程,2011,24(3):94-95. 被引量：1
7李勇.基于维基百科的本体构建研究[J].现代计算机（中旬刊）,2015(4):53-57.
8孔蕾蕾.应用AOP技术实现用例的扩展关系[J].黑龙江科技信息,2007(06X):66-66.
9张海粟,马大明,邓智龙.基于维基百科的语义知识库及其构建方法研究[J].计算机应用研究,2011,28(8):2807-2811. 被引量：26
10张凯勇,周春光,王康平,郭东伟,翟延冬.基于扩展关系的信息量计算方法[J].吉林大学学报（理学版）,2011,49(6):1068-1072.

计算机工程

2006年第21期

浏览历史

内容加载中请稍等...

基于种子自扩展的命名实体关系抽取方法被引量：25

参考文献6

二级参考文献17

共引文献36

同被引文献255

引证文献25

二级引证文献293

相关作者

相关机构

相关主题

浏览历史

基于种子自扩展的命名实体关系抽取方法 被引量：25

参考文献6

二级参考文献17

共引文献36

同被引文献255

引证文献25

二级引证文献293

相关作者

相关机构

相关主题

浏览历史

基于种子自扩展的命名实体关系抽取方法被引量：25