一种基于主动学习的框架元素标注被引量：2

Active Learning for Frame Element Labeling

下载PDF

导出

摘要框架元素标注是中文FrameNet众多任务中亟待解决的一个问题,目前仍主要采用有监督的机器学习方法,即依赖大规模人工标注的例句作为训练语料。但例句标注又是一件费时费力的工作,所以为了降低人工标注的代价,该文将主动学习应用到框架元素标注中,优先选择训练模型预测最不准的例句交由人工标注。该文以条件随机场为标注模型,并提出了进行样本选择时所依赖的准则。实验表明,一方面,与随机选择样本进行标注相比,当使用相同数量的例句训练模型时,主动学习使框架元素标注的性能最高提升4.83%;另一方面,主动学习使框架元素标注达到同等F值时只需更少的标注例句,人工标注量最高可减少30%。 The frame element labeling still mainly adopts supervised machine learning methods,which rely on examples of large-scale artificial marked as the training corpus,in order to reduce the cost of manual annotation,this paper presentan active learning aproach,which selects the most uncertain samples for annotation instead of the whole training corpus.Experimental results show that the frame elements labeling F values rise about 4.83 percent by active learning when using the same amount of training samples.In other words,for about the same labeling performance,we only need annotate 70% of the samples as compared to the usual random selection method.

作者屠寒非李茹王智强周铁峰 TU Hanfei LI Ru WANG Zhiqiang ZHOU Tiefeng(School of Computer ＆ Information Technology,Shanxi University,Taiyuan, Shanxi 030006,China Key Laboratory of Ministry of Education for Computation Intelligence ＆ Chinese Information Processing, Taiyuan, Shanxi 030006, China)

机构地区山西大学计算机与信息技术学院计算机智能与中文信息处理教育部重点实验室

出处《中文信息学报》 CSCD 北大核心 2016年第4期44-55,共12页 Journal of Chinese Information Processing

基金国家自然科学基金(61373082) 山西省科技基础条件平台建设项目(2014091004-0103) 山西省回国留学人员科研资助项目(2013-015) 国家863计划项目(2015AA015407) 中国民航大学信息安全测评中心开放课题基金(CAAC-ISECCA-201402)

关键词主动学习框架元素标注条件随机场不确定性度量 active learning role labeling CRFs measure of uncertainty

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73
2李济洪,王瑞波,王蔚林,李国臣.汉语框架语义角色的自动标注[J].软件学报,2010,21(4):597-611. 被引量：42
3覃刚力,黄科,杨家本.基于主动学习的文档分类[J].计算机科学,2003,30(10):45-48. 被引量：5
4冯冲,陈肇雄,黄河燕.采用主动学习策略的组织机构名识别[J].小型微型计算机系统,2006,27(4):710-714. 被引量：12
5车万翔,张梅山,刘挺.基于主动学习的中文依存句法分析[J].中文信息学报,2012,26(2):18-22. 被引量：10
6王智强,李茹,阴志洲,刘海静,李双红.基于依存特征的汉语框架语义角色自动标注[J].中文信息学报,2013,27(2):34-40. 被引量：8

二级参考文献90

1黄河燕,陈肇雄.基于多策略的交互式智能辅助翻译平台总体设计[J].计算机研究与发展,2004,41(7):1266-1272. 被引量：12
2刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73
3宋鑫颖周志逵.一种基于SVM的主动学习文本分类方法.计算机科学,2006,:288-290.
4刘开瑛,陈雪艳,李济洪.汉语框架元素自动标注实验报告[C]//第四届全国信息检索与内容安全学术会议,2008,1:48-55,.
5Olsson Fredrik.A literature survey of active machine learning in the context of natural language processing[R].Swedish Institute of Computer Science.2009.
6Min Tang,Xiaoqiang Luo,Salim Roukos. Active.Learning for Statistical Natural Language Parsing[C]//Proceedings of the 40th ACL.2002:120-127.
7Ion Muslea,Steven Minton,Craig A.Knoblock.Active Learning with Multiple Views[J].Journal of Artificial Intelligence Research.2006,27:203-233.
8Yoav Freund,H.Sebastian Seung.Selective Sampling Using the Query by Committee Algorithm[J].Machine Learning.1997,28:133-168.
9Cynthia A.Thompson,Mary Elaine Califf,Raymond J.Mooney.Active Learning for Natural Language Parsing and Information Extraction[C]//Proceedings of the Sixteenth International Conference on Machine Learning.1999:406-414.
10Rebecca Hwa.Sample Selecting for Statistical Parsing[J].Computational Linguistics.2004,30 (3):253-276.

共引文献133

1刘亚慧,杨浩苹,李正华,张民.一种轻量级的汉语语义角色标注规范[J].中文信息学报,2020(4):10-20. 被引量：4
2刘志方.基于主动学习的资源优化分配研究[J].科技资讯,2005,3(24):141-142.
3冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1
4沈元怿.基于主动学习的资源优化分配方案研究[J].佛山科学技术学院学报（自然科学版）,2006,24(1):38-41.
5陈明,胡世德.基于可扩展标记语言的桥梁抗震设计文档构建[J].同济大学学报（自然科学版）,2006,34(10):1303-1308. 被引量：1
6韦向峰,张全,吴晨,袁毅.中文问答系统中机构名的处理[J].计算机工程与应用,2008,44(7):196-198. 被引量：2
7丁金涛,周国栋,王红玲,朱巧明.语义角色标注中有效的识别论元算法研究[J].计算机工程与应用,2008,44(18):153-156. 被引量：2
8方巍,黄黎,崔志明.基于最大熵分类器的Deep Web查询接口自动判定[J].计算机工程与应用,2008,44(21):133-137. 被引量：1
9丁伟伟,常宝宝.基于最大熵原则的汉语语义角色分类[J].中文信息学报,2008,22(6):20-26. 被引量：11
10周顺先,林亚平,王耀南.基于规则和统计抽取模型中的主动学习算法[J].系统仿真学报,2008,20(23):6477-6480. 被引量：1

同被引文献7

1李济洪,王瑞波,王蔚林,李国臣.汉语框架语义角色的自动标注[J].软件学报,2010,21(4):597-611. 被引量：42
2臧良俊,曹聪,曹亚男,吴昱明,曹存根.A Survey of Commonsense Knowledge Acquisition[J].Journal of Computer Science & Technology,2013,28(4):689-719. 被引量：3
3王臻,常宝宝,穗志方.基于分层输出神经网络的汉语语义角色标注[J].中文信息学报,2014,28(6):56-61. 被引量：13
4王智强,李茹,梁吉业,张旭华,武娟,苏娜.基于汉语篇章框架语义分析的阅读理解问答研究[J].计算机学报,2016,39(4):795-807. 被引量：19
5王瑞波,李济洪,李国臣,杨耀文.基于Dropout正则化的汉语框架语义角色识别[J].中文信息学报,2017,31(1):147-154. 被引量：16
6吕国英,苏娜,李茹,王智强.基于CFN的汉语篇章连贯性研究[J].中文信息学报,2017,31(5):40-49. 被引量：4
7张苗苗,张玉洁,刘明童,徐金安,陈钰枫.基于Gate机制与Bi-LSTM-CRF的汉语语义角色标注[J].计算机与现代化,2018(4):1-6. 被引量：4

引证文献2

1王晓晖,李茹,王智强,柴清华,韩孝奇.基于Self-Attention的句法感知汉语框架语义角色标注[J].中文信息学报,2022,36(10):38-44. 被引量：1
2Ru Li,Yunxiao Zhao,Zhiqiang Wang,Xuefeng Su,Shaoru Guo,Yong Guan,Xiaoqi Han,Hongyan Zhao.A Comprehensive Overview of CFN From a Commonsense Perspective[J].Machine Intelligence Research,2024,21(2):239-256.

二级引证文献1

1余小鹏,徐健儿,王振佩,姚小桐.汉语框架语义网中词元语义搭配模式确定规则研究[J].智能计算机与应用,2024,14(8):29-31.

1李艳玲,林民.基于双模型投票的人物关系抽取研究[J].计算机应用研究,2017,34(3):773-776. 被引量：2
2陈洪泉,霍志凯.基于关联规则的网络入侵检测方法[J].电子科技大学学报,2009,38(S1):94-96. 被引量：4
3李粉兰,段海峰,郝建国,唐文彦.人脸识别中光照补偿问题的实验研究[J].工程图学学报,2009,30(3):113-120. 被引量：9
4许奇功,郭洪.基于类内K-means聚簇的KNN改进算法[J].木工机床,2015(4):20-22.
5许凯,秦昆,裴韬.一种交互式的云模型图像分割方法[J].计算机工程与应用,2006,42(34):33-35. 被引量：8
6雷章章,王宁,李茹,王智强.FrameNet中有定的零形式识别[J].中文信息学报,2013,27(3):107-112. 被引量：7
7傅向华,刘国,陈冬剑.一种核心子集选择训练的大规模中文网页分类方法[J].小型微型计算机系统,2011,32(8):1608-1612. 被引量：3
8张鹏,李国臣,李茹,刘海静,石向荣,Collin Baker.基于FrameNet框架关系的文本蕴含识别[J].中文信息学报,2012,26(2):46-50. 被引量：9
9明勇.DSP嵌入式识别系统应用研究[J].硅谷,2011,4(1):77-77. 被引量：1
10陶鹏,范宁军,谌德荣.无人工选择训练样本的高光谱图像神经网络分类方法研究[J].弹箭与制导学报,2008,28(6):303-306.

中文信息学报

2016年第4期

浏览历史

内容加载中请稍等...

一种基于主动学习的框架元素标注被引量：2

参考文献6

二级参考文献90

共引文献133

同被引文献7

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于主动学习的框架元素标注 被引量：2

参考文献6

二级参考文献90

共引文献133

同被引文献7

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于主动学习的框架元素标注被引量：2