基于采样策略的主动学习算法研究进展被引量：33

Advances in Active Learning Algorithms Based on Sampling Strategy

下载PDF

导出

摘要主动学习算法通过选择信息含量大的未标记样例交由专家进行标记,多次循环使分类器的正确率逐步提高,进而在标记总代价最小的情况下获得分类器的强泛化能力,这一技术引起了国内外研究人员的关注.侧重从采样策略的角度,详细介绍了主动学习中学习引擎和采样引擎的工作过程,总结了主动学习算法的理论研究成果,详细评述了主动学习的研究现状和发展动态.首先,针对采样策略选择样例的不同方式将主动学习算法划分为不同类型,进而,对基于不同采样策略的主动学习算法进行了深入地分析和比较,讨论了各种算法适用的应用领域及其优缺点.最后指出了存在的开放性问题和进一步的研究方向. The classifier in active learning algorithms is trained by choosing the most informative unlabeled instances for human experts to label. In the cycling procedure, the classification accuracy of the model is improved, and then the classifier with high generalization capability is obtained by minimizing the totally labeling cost. Active learning has attracted attentions of researchers both at home and abroad widely. It is pointed out that the active learning technique is a very important research at present. In this paper, the active learning algorithms are introduced by putting a particular emphasis on the sampling strategies. The iterative processes of the learning engine and the sampling engine are described in detail. The existing theories of active learning are summarized. The recent work and the development of active learning are discussed, including their approaches and corresponding sampling strategies. Firstly, the active learning algorithms are categorized into three main classes according to different ways of selecting the examples. And then, the sampling strategies are summarized by analyzing their correlations. The advantages and the shortcomings of sampling strategies are discussed and compared deeply within real applications. Finally the open problems which are still remained, and the interests of active learning in future research are forecasted.

作者吴伟宁刘扬郭茂祖刘晓燕

机构地区哈尔滨工业大学计算机科学与技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2012年第6期1162-1173,共12页 Journal of Computer Research and Development

基金国家自然科学基金项目(61171185 60932008 60832010) 中国博士后科学基金特别资助项目(201003446)

关键词机器学习主动学习采样策略标记代价样例选择 machine learning active learning sampling strategy labeling cost instances selection

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献84

1Zhu Xiaojin. Semi-supervised learning literature survey, TR1530 [R]. Madison, Wisconsin: Computer Sciences, University of Wisconsin-Madison, 2005.
2Tomanek K, Olsson F. A Web survey on the use of active learning to support annotation of text data [C] //Proc of HLT-NAACL. Stroudsburg, PA: ACL, 2009: 45-48.
3Settles B. Active learning literature survey, TR1648 [R]. Madison, Wisconsin: Computer Sciences, University of Wisconsin-Madison, 2009.
4Guyon I, Cawley G, Dror G, et al. Design and analysis of the WCCI 2010 active learning challenge [C] //Proc of IEEE/ INNS IJCNN 2010. Piscataway, NJ: IEEE, 2010:1-8.
5Angluin D. Queries and concept learning [J]. Machine Learning, 1988, 2(4): 319-342.
6Dasgupta S, Langford J. A tutorial on active learning [EB/ OL]. (2009-06-04) [-2010-07-29]. http://hunch, net/- active_learning/.
7Wu Yi, Kozintsev I, Bouguet J Y, et al. Sampling strategies for active learning in personal photo retrieval [C] //Proc of ICME 2006. Piscataway, NJ: IEEE, 2006:529-532.
8Baum E B, Lang K. Query learning can work poorly when a human oracle is used [C] //Proc of IEEE IJCNN 1992. Piscataway, NJ: IEEE, 1992:335-340.
9Cohn D, Atlas L, Ladner R. Improving generalization with active learning [J]. Machine Learning, 1994, 15(2): 201- 221.
10Cohn D, Atlas L, Ladner R. Improving generalization with active learning[J]. Machine Learning, 1994, 15(2): 201- 221.

二级参考文献15

1史忠植.知识发现[M].北京:清华大学出版社,2000..
2M Seeger, Learning with labeled and unlabeled data [R]. Edinburgh University, Tech Rep, 2001.
3D D Lewis, W A Gale. A sequential algorithm for training text classifiers [C]. In: Proc of the 17th ACM Int'l Conf on Research and Development in Information Retrieval. Berlin: Springer, 1994.
4H S Seung, M Opper, H Sompolinsky. Query by committee [C]. The 5th Workshop on Computational Learning Theory, San Mateo, CA, 1992.
5H T Nguyen, A Smeulders. Active learning using pre-clustering [C]. The 21th Int'l Conf on Machine Learning, Banff, CA, 2004.
6S Tong, D Koller. Support vector machine active learning with applications to text classification [J]. Journal of Machine Learning Research, 2001, 2:45-66.
7G Schohn, D Cohn. Leas is more: Active learning with support vector machines [C]. In: Proc of the 17th Int'l Conf on Machine Learning. San Francisco: Morgan Kaufmann, 2000.
8C Campbell, N Cristianini, A Smola. Query learning with large margin classifiers [C]. In: Proc of the 17th lnt'l Conf on Machine Learning. San Francisco: Morgan Kaufmann, 2000.
9D A Cohn, Z Ghahramani, M I Jordan. Active learning with statistical models [J ]. Journal of Artificial Intelligence research, 1996, 4:129-145.
10N Roy, A McCallum. Toward optimal active learning through sampling estimation of error [C]. The 18th Int'l Conf on Machine Learning, San Francisco, CA, 2001.

共引文献50

1王利民,李雄飞,张海龙.基于广义信息论的贝叶斯分类器动态建模[J].吉林大学学报（工学版）,2009,39(3):776-780. 被引量：5
2李笛,胡学钢,胡春玲.主动贝叶斯分类方法研究[J].计算机研究与发展,2007,44(z2):47-51. 被引量：1
3李仪,蔡自兴.基于贝叶斯分类器的移动机器人避障[J].控制工程,2004,11(4):332-334. 被引量：4
4刘丽珍,宋瀚涛,陆玉昌.无标记训练样本的Web文本分类方法[J].计算机科学,2006,33(3):200-201. 被引量：2
5谷峰,吴扬扬.文本分类关键技术[J].福建电脑,2006,22(9):5-6. 被引量：2
6赵悦,穆志纯.基于委员会投票选择方法的主动学习的研究[J].太原理工大学学报,2006,37(4):469-472. 被引量：7
7黄光球,孙周军,刘兆明.基于贝叶斯置信网的日志服务系统容侵方法研究[J].微电子学与计算机,2006,23(12):53-57. 被引量：1
8赵悦,穆志纯.基于QBC的主动学习研究及其应用[J].计算机工程,2006,32(24):23-25. 被引量：5
9赵悦,穆志纯,李霞丽,潘秀琴.一种基于EM和分类损失的半监督主动DBN学习算法[J].小型微型计算机系统,2007,28(4):656-660. 被引量：2
10赵悦,穆志纯,董洁,付冬梅,何伟.基于QBC主动学习方法建立电信客户信用风险等级评估模型[J].北京科技大学学报,2007,29(4):442-446. 被引量：2

同被引文献331

1龙军,殷建平,祝恩,赵文涛.主动学习研究综述[J].计算机研究与发展,2008,45(z1):300-304. 被引量：31
2孙瑞锋,赵政文.基于云计算的资源调度策略[J].航空计算技术,2010,40(3):103-105. 被引量：43
3王学军,赵琳琳,王爽.基于主动学习的视频对象提取方法[J].吉林大学学报（工学版）,2013,43(S1):51-54. 被引量：3
4车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
5白亮,老松杨,陈剑赟,吴玲达.基于支持向量机的音频分类与分割[J].计算机科学,2005,32(4):87-90. 被引量：13
6李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005,42(10):1796-1801. 被引量：51
7李建中,杨昆,高宏,骆吉洲,郭政.考虑样本不平衡的模型无关的基因选择方法[J].软件学报,2006,17(7):1485-1493. 被引量：24
8赵英刚,陈奇,何钦铭.一种基于支持向量机的直推式学习算法[J].江南大学学报（自然科学版）,2006,5(4):441-444. 被引量：8
9赵悦,穆志纯.基于委员会投票选择方法的主动学习的研究[J].太原理工大学学报,2006,37(4):469-472. 被引量：7
10张泽明,罗文坚,王煦法.一种基于人工免疫的多层垃圾邮件过滤算法[J].电子学报,2006,34(9):1616-1620. 被引量：16

引证文献33

1文辉,徐永林,于敬.基于主动学习的领域知识多模式抽取框架[J].新一代信息技术,2022,5(6):137-143.
2翟俊海,李畅,李塔,王熙照.基于概率神经网络和K-L散度的样例选择[J].计算机应用研究,2014,31(1):63-65. 被引量：2
3吴健,盛胜利,赵朋朋,崔志明.最小差异采样的主动学习图像分类方法[J].通信学报,2014,35(1):107-114. 被引量：4
4周景才,张沪寅,查文亮,陈毅波.云计算环境下基于用户行为特征的资源分配策略[J].计算机研究与发展,2014,51(5):1108-1119. 被引量：35
5谢科.融合协同训练和两层主动学习策略的SVM分类方法[J].湖南师范大学自然科学学报,2014,37(1):93-97. 被引量：1
6赵建华.一种基于交叉验证思想的半监督分类方法[J].西南科技大学学报,2014,29(1):34-38. 被引量：9
7张静,聂章龙.基于主动学习的动态模糊聚类算法[J].计算机与现代化,2014(5):24-27.
8张雁,吕丹桔,王红崧.基于主动学习的环境音分类研究[J].计算机技术与发展,2014,24(6):110-113.
9张雁,吴保国,吕丹桔,林英.基于Tri-training的主动学习算法[J].计算机工程,2014,40(6):215-218. 被引量：3
10王友卫,刘元宁,凤丽洲,朱晓冬.基于用户兴趣度的垃圾邮件在线识别新方法[J].华南理工大学学报（自然科学版）,2014,42(7):21-27. 被引量：4

二级引证文献114

1葛兆阳,胡勤伟.基于RPA与Python的应急保障物资自动化管理及智能调度[J].山东通信技术,2022,42(4):37-39. 被引量：2
2刘振宇,李钦富,杨硕,邓应强,刘芬,赖新明,白雪珂.一种基于主动学习和多种监督学习的情感分析模型[J].中国电子科学研究院学报,2020,15(2):171-176. 被引量：2
3徐丹丹,陈松灿.基于客户端的个性化邮件再过滤系统[J].中国科学：信息科学,2018,48(12):1681-1696. 被引量：1
4赵建华.一种安全的基于分歧的半监督分类算法[J].西华大学学报（自然科学版）,2014,33(5):1-6. 被引量：2
5谭营军,张铁头,李翠霞.大型云计算多服务器环境下故障节点定位仿真[J].控制工程,2014,21(6):909-912. 被引量：6
6顾成喜.改进动态分层资源索引自主混淆云计算模型[J].控制工程,2014,21(6):918-920. 被引量：1
7刘宁,管涛.云计算下的威胁数据挖掘模型仿真[J].控制工程,2014,21(6):958-961. 被引量：10
8刘宁.一种半监督网络入侵检测系统SSIDS-CV[J].计算机与数字工程,2015,43(4):648-651.
9金伟健.云计算环境下基于Apriori算法的智能推荐模型[J].软件导刊,2015,14(6):8-10.
10杨筠,吴涛,史纪元,陈晨,孙金立.基于改进模糊综合评价的图书馆知识服务绩效研究[J].西安工业大学学报,2015,35(5):404-411. 被引量：11

1翟俊海,李畅,李塔,王熙照.基于概率神经网络和K-L散度的样例选择[J].计算机应用研究,2014,31(1):63-65. 被引量：2
2翟俊海,王婷婷,王熙照.一种改进的样例约简支持向量机[J].南京大学学报（自然科学版）,2013,49(5):596-602. 被引量：4
3王熙照,邢胜,赵士欣.基于非平稳割点的大数据分类样例选择[J].模式识别与人工智能,2016,29(9):780-789. 被引量：3
4龙军,殷建平,祝恩,赵文涛.主动学习研究综述[J].计算机研究与发展,2008,45(z1):300-304. 被引量：31
5王珍钰,王熙照.基于近邻熵的主动学习算法[J].模式识别与人工智能,2011,24(1):97-102. 被引量：5
6翟俊海,王婷婷,王熙照.样例约简支持向量机[J].计算机科学与探索,2011,5(12):1131-1138. 被引量：2
7翟俊海,苗青,李塔,王熙照.概率神经网络样例选择算法[J].小型微型计算机系统,2015,36(4):787-791. 被引量：2
8马绚,张瑞山.智能入侵检测Agent中基于神经网络的结构学习算法[J].计算机应用与软件,2006,23(1):102-104. 被引量：4
9王德生,徐婉莹,黄新生.基于FPGA的图像预处理快速算法及仿真[J].计算机仿真,2007,24(8):320-322. 被引量：1
10翟俊海,李胜杰,王熙照.基于粗糙集技术的压缩近邻规则[J].计算机科学,2012,39(2):236-239. 被引量：1

计算机研究与发展

2012年第6期

浏览历史

内容加载中请稍等...

基于采样策略的主动学习算法研究进展被引量：33

参考文献84

二级参考文献15

共引文献50

同被引文献331

引证文献33

二级引证文献114

相关作者

相关机构

相关主题

浏览历史

基于采样策略的主动学习算法研究进展 被引量：33

参考文献84

二级参考文献15

共引文献50

同被引文献331

引证文献33

二级引证文献114

相关作者

相关机构

相关主题

浏览历史

基于采样策略的主动学习算法研究进展被引量：33