摘要
框架元素标注是中文FrameNet众多任务中亟待解决的一个问题,目前仍主要采用有监督的机器学习方法,即依赖大规模人工标注的例句作为训练语料。但例句标注又是一件费时费力的工作,所以为了降低人工标注的代价,该文将主动学习应用到框架元素标注中,优先选择训练模型预测最不准的例句交由人工标注。该文以条件随机场为标注模型,并提出了进行样本选择时所依赖的准则。实验表明,一方面,与随机选择样本进行标注相比,当使用相同数量的例句训练模型时,主动学习使框架元素标注的性能最高提升4.83%;另一方面,主动学习使框架元素标注达到同等F值时只需更少的标注例句,人工标注量最高可减少30%。
The frame element labeling still mainly adopts supervised machine learning methods,which rely on examples of large-scale artificial marked as the training corpus,in order to reduce the cost of manual annotation,this paper presentan active learning aproach,which selects the most uncertain samples for annotation instead of the whole training corpus.Experimental results show that the frame elements labeling F values rise about 4.83 percent by active learning when using the same amount of training samples.In other words,for about the same labeling performance,we only need annotate 70% of the samples as compared to the usual random selection method.
作者
屠寒非
李茹
王智强
周铁峰
TU Hanfei LI Ru WANG Zhiqiang ZHOU Tiefeng(School of Computer & Information Technology,Shanxi University,Taiyuan, Shanxi 030006,China Key Laboratory of Ministry of Education for Computation Intelligence & Chinese Information Processing, Taiyuan, Shanxi 030006, China)
出处
《中文信息学报》
CSCD
北大核心
2016年第4期44-55,共12页
Journal of Chinese Information Processing
基金
国家自然科学基金(61373082)
山西省科技基础条件平台建设项目(2014091004-0103)
山西省回国留学人员科研资助项目(2013-015)
国家863计划项目(2015AA015407)
中国民航大学信息安全测评中心开放课题基金(CAAC-ISECCA-201402)