基于事件实例驱动的新闻文本事件抽取被引量：12

News Text Event Extraction Driven by Event Sample

下载PDF

导出

摘要目前,事件抽取的流行方法是以事件元素或触发词进行驱动,但该方法容易导致正反例不平衡,且在语料库规模较小时存在一定的数据稀疏问题。提出了一种基于事件实例驱动的事件抽取方法。首先,从文档句子中抽取出刻画一个事件发生有代表性的特征,构成候选事件实例表示;其次,通过二元分类器对新闻文本中的事件实例与非事件实例进行分类;最后,对事件实例采用基于层次聚类的k-medoids算法完成事件抽取。该方法不仅克服了正反例失衡以及数据稀疏问题,而且解决了预先定义事件类别的局限性。实验结果验证了该方法的有效性,对比传统方法,事件抽取的准确率与召回率均获得了显著的提高。 At present,popular methods of event extraction regard event arguments or triggers as drivers,but they may cause positive and negative samples imbalance.Furthermore,there will be data sparseness problem when the corpus is small.This paper proposed an event extraction method driven by event sample.Firstly,features of event samples were extracted from news text sentences to compose the description of candidate event.Secondly,event samples and non-event samples of news text were classified through binary classification.Finally,event samples were clustered by hierarchical and k-medoids clustering algorithm to complete event extraction.The method not only overcomes positive and negative samples imbalance and data sparseness problem,but also resolves the limit of pre-defined event types.Experimental results indicate that the proposed method is effective,improves precision and recall of event extraction compared to traditional methods.

作者许旭阳李弼程张先飞韩永峰

机构地区解放军信息工程大学信息工程学院

出处《计算机科学》 CSCD 北大核心 2011年第8期232-235,共4页 Computer Science

基金国家社科重大基金项目(09&ZD014) 国家863项目(2007AA01Z439)资助

关键词事件实例分类新闻文本聚类事件抽取 Event sample Classification News text Clustering Event extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1冯礼.基于事件框架的突发事件信息抽取[D]上海交通大学,上海交通大学2008.
2Li W J,Wu M L,Lu Q.Extractive summarization using interand intraevent relevance. Proceedings of the 44th Annual Meeting of the Association for Computational Liguistics . 2006
3Ahn D.The stages of event extraction. Proceedings of the COLING-ACL 2006 Workshop on Annotating and Reasoning About Time and Events . 2006
4ACE(Automatic Content Extraction).Chinese Annotation Guidelines for Events. . 2005
5赵妍妍,秦兵,车万翔,刘挺.中文事件抽取技术研究[J].中文信息学报,2008,22(1):3-8. 被引量：106
6Leong C H,Tou N H.A Maxi mum Entropy Approach to Infor-mation Extraction from Semi-structured and Free Text. Proceedings of the 18th National Conference on Artificial Intelli-gence . 2002
7张先飞,郭志刚,刘嵩,程磊,田雨暄.基于触发词指导的自相似度聚类事件检测[J].计算机科学,2010,37(3):212-214. 被引量：12
8谭红叶.中文事件抽取关键技术研究[D]哈尔滨工业大学,哈尔滨工业大学2008.
9Vapnik VN.The Nature of Statistical Learning Theory. . 2000
10Zwaan R A,Radvansky G A.Situation models in language comprehension and memory. Psychological Bulletin . 1998

二级参考文献17

1ACE(Automatic Content Extraction) Chinese Annotation Gui - delines for Events [M]. National Institute of Standards and Technology, 2005.
2Surdeanu M, Harabagiu S, Williams J, et al. Using Predicate-Argument Structures for Information Extraction[C]// Proceedings of ACL. 2003,8-15.
3Surdeanu M, Harabagiu S. Infrastructure for open-domain information extraction [C]//Proceedings of the Human Language Technology Conference. 2002 : 325-330.
4Chieu Hal Leong, Ng Hwee Tou. A Maximum entropy Ap - proach to Information Extraction from Semi-Structured and Free Text[C]//Proceedings of the 18th National Conference on Artificial Intelligence. 2002:786-791.
5Ahn D. The Stages of Event Extraction[C]//Proceedings of the Workshop on Annotations and Reasoning about Time and Events. 2006 : 1-8.
6Ding C, He Xiaofeng. Cluster Merging and Splitting in Hierarchical Clustering Algorithms [A] // Proceedings of the 2002 IEEE International Conference on Data Mining[C]. Maebashi City,Japan: Maebashi TERRSA, 2002 : 139-146.
7Ding C, He X, Zha H, et al. A Min-Max Cut Algorithm for Graph Partitioning and Data Clustering[A]//Proceedings of the IEEE Internationl Conference [C]. San Jose, California, USA:Data Mining,2001 ; 107-114.
8Naomi Daniel,Dragomir Radev and Timothy Allison.Sub-event based Multi-document Summarization[A].In:Proceedings of the HLT-NAACL Workshop on Text Summarization[C].2003.9-16.
9Elena Filatova and Vasileios Hatzivassiloglou.Event-based Extractive summarization[A].In:Proceedings of ACL Workshop on Summarization[C]].2004.104-111.
10Wenjie Li,Mingli Wu and Qin Lu.Extractive Summarization using Inter-and Intra-Event Relevance[A].In:Proceedings of the 44th Annual Meeting of the Association for Computational Liguistics[C].2006.369-376.

共引文献111

1许荣华,吴刚,李培峰,朱巧明.基于指代消解的中文事件融合方法[J].计算机应用,2009,29(8):2264-2267. 被引量：3
2付剑锋,刘宗田,付雪峰,周文,仲兆满.基于依存分析的事件识别[J].计算机科学,2009,36(11):217-219. 被引量：20
3仲兆满,刘宗田,周文,付剑锋.事件关系表示模型[J].中文信息学报,2009,23(6):56-60. 被引量：23
4许荣华,吴刚,李培峰,朱巧明.基于事件框架的主题事件融合研究[J].计算机应用研究,2009,26(12):4542-4545. 被引量：6
5张先飞,郭志刚,刘嵩,程磊,田雨暄.基于触发词指导的自相似度聚类事件检测[J].计算机科学,2010,37(3):212-214. 被引量：12
6付剑锋,刘宗田,刘炜,单建芳.基于特征加权的事件要素识别[J].计算机科学,2010,37(3):239-241. 被引量：9
7许君宁,董萍,刘怀亮.基于知网的中文事件抽取研究[J].情报杂志,2009,28(B12):150-151. 被引量：2
8吴刚,许荣华,朱巧明,李培峰,钱培德.一种基于角色匹配的事件抽取方法[J].微计算机信息,2010,26(9):187-189. 被引量：3
9石振国,刘宗田,王杰华,冯达盛.事件网络模型与应用研究[J].南通大学学报（自然科学版）,2010,9(3):55-65.
10许旭阳,韩永峰,宋文政.事件抽取技术的回顾与展望[J].信息工程大学学报,2011,12(1):113-118. 被引量：9

同被引文献124

1曾玉.信息检索的模糊聚类分析模型[J].情报学报,2004,23(4):433-436. 被引量：15
2黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
3姜吉发.一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98. 被引量：27
4郑家恒,菅小艳.农作物信息抽取系统的设计与实现[J].计算机工程,2006,32(7):197-198. 被引量：5
5李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57. 被引量：32
6Czechowski T, Stitt M, Altmann T, et al. Genome -Wide Identifi- cation and Testing of Superior Reference Genes for Transcript Nor- malization in Arabidopsis[ J]. Plant Physiology, 2005, 139( 1 ) : 5 - 17.
7Libauh M, Thibivilliers S, Bilgin D D, et al. Identification of Four Soybean Reference Genes for Gene Expression Normalization [ J ]. The Plant Genome, 2008, 1(1 ):44-54.
8Faccioh P, Ciceri G P, Provero P, el al. A Combined Strategy of "in Silico" Transcriptome Analysis and Web Search Engine Opti- mization Allows an Agile Identification of Reference Genes Suitable for Normalization in Gene Expression Studies [ J]. Plant Molecular Biology, 2007, 63 (5) :679 - 688.
9Coker J S, Davis E. Selection of Candidate Housekeeping Controls in Tomato Plants Using EST Data [ J]. BioTechniques, 2003, 35 (4) :740 -748.
10The Stanford Parser: A Statistical Parser[ EB/OL]. [20l1 -12 - 18 ]. http ://nip. stanford, edu/software/lex -parser. shtml.

引证文献12

1何琳,何娟,沈耕宇,杨波,黄水清.一种通过文本挖掘发现实时定量聚合酶链式反应实验内参基因的方法研究[J].现代图书情报技术,2012(7):109-114.
2李楠,吉久明,孙济庆,郑荣廷.基于事件抽取的竞争情报系统[J].情报理论与实践,2014,37(5):77-82. 被引量：4
3冯戈利.跨文档事件检测算法[J].机械设计与制造工程,2015,44(1):6-10. 被引量：1
4张贺,刘茂福,胡慧君,顾进广.基于信息单元融合的新闻原子事件抽取[J].武汉大学学报（理学版）,2015,61(2):139-144. 被引量：4
5吉久明,陈锦辉,李楠,孙济庆.中文事件抽取研究文献之算法效果分析[J].现代情报,2015,35(12):3-10. 被引量：9
6仇培元,陆锋,张恒才,余丽.蕴含地理事件微博客消息的自动识别方法[J].地球信息科学学报,2016,18(7):886-893. 被引量：11
7周晶晶,周枫,严馨.基于依存树的越南语新闻事件元素抽取[J].计算机工程与设计,2016,37(8):2233-2237. 被引量：1
8李鲲,姚长青,张均胜.一种基于文献的科研事件库构建方法[J].情报理论与实践,2017,40(9):129-134. 被引量：5
9王冰玉,吴振宇,沈苏彬,陈佳颖.社交媒体事件检测研究综述[J].计算机技术与发展,2018,28(9):105-111. 被引量：1
10高李政,周刚,罗军勇,兰明敬.元事件抽取研究综述[J].计算机科学,2019,46(8):9-15. 被引量：15

二级引证文献82

1赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
2范华,翁利国,周艳,姜川,孙涛.基于Bi-LSTM和TFIDF的工单事件提取[J].电脑知识与技术,2020,0(4):291-293.
3裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：16
4官思发,李宗洁.美国竞争情报系统研究及对我国的启示[J].图书情报工作,2015,59(4):83-92. 被引量：7
5陈少涌.2014年我国情报学研究进展[J].山东图书馆学刊,2015(5):21-28. 被引量：4
6朱宁.面向Web大数据的企业竞争情报平台设计[J].淮海工学院学报（自然科学版）,2015,24(4):26-29. 被引量：3
7艾金勇.融合语义知识的藏文网页关键词提取方法研究[J].图书馆学研究,2017(3):59-64. 被引量：4
8曹彦波,吴艳梅,许瑞杰,张方浩.基于微博舆情数据的震后有感范围提取研究[J].地震研究,2017,40(2):303-310. 被引量：29
9刘金硕,李哲,叶馨,陈嘉敏,邓娟.文本情感倾向性分析方法:bfsmPMI-SVM[J].武汉大学学报（理学版）,2017,63(3):259-264. 被引量：3
10刘康,仇培元,刘希亮,张恒才,王少华,陆锋.利用词向量模型分析城市道路交通空间相关性[J].测绘学报,2017,46(12):2032-2040. 被引量：8

1王娜.基于实例驱动的视频制作项目实例[J].硅谷,2012,5(16):127-127.
2魏新宇,秦颖.中文事件抽取研究及实现[J].电脑编程技巧与维护,2014(10):31-34. 被引量：1
3马彬,洪宇,杨雪蓉,姚建民,朱巧明.基于推理线索构建的事件关系识别方法[J].北京大学学报（自然科学版）,2014,50(1):133-141. 被引量：2
4李加旺.实例驱动法在单片机课程教学中的应用[J].广西教育,2009(6):90-91. 被引量：4
5唐英英,刘炜,苏小英,刘菲京.一种基于扩展描述逻辑的事件实例检测方法[J].计算机应用研究,2014,31(11):3285-3290. 被引量：2
6王亚,徐传飞,陈艳格.基于内外存调度的长过程复杂事件检测[J].计算机科学,2012,39(8):158-163.
7周海森,孟玉芹.计算机基础课程新教学方法的实现[J].山西财经大学学报,2011,33(S2). 被引量：3
8王凤英,应保胜.基于实例推理的产品概念设计系统[J].制造业自动化,2004,26(9):13-15. 被引量：7
9史琦,杜江,李原,杨海成.基于实例推理的产品概念设计模型研究[J].西北工业大学学报,2002,20(2):203-207. 被引量：19
10徐雪丽.基于Android平台的虚拟试衣关键技术研究[J].西安文理学院学报（自然科学版）,2016,19(2):47-51. 被引量：4

计算机科学

2011年第8期

浏览历史

内容加载中请稍等...

基于事件实例驱动的新闻文本事件抽取被引量：12

参考文献10

二级参考文献17

共引文献111

同被引文献124

引证文献12

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

基于事件实例驱动的新闻文本事件抽取 被引量：12

参考文献10

二级参考文献17

共引文献111

同被引文献124

引证文献12

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

基于事件实例驱动的新闻文本事件抽取被引量：12