ReLSL:基于可靠标签选择与学习的半监督学习算法被引量：3

ReLSL:Reliable Label Selection and Learning Based Algorithm for Semi-Supervised Learning

下载PDF

导出

摘要深度神经网络在众多视觉表征领域取得了显著的成功,如目标检测、识别等.然而,需要大量良好标记的数据进行训练是它们最普遍的限制之一.在实际应用中,为每一个要学习的新任务建立庞大的标记数据集是极其昂贵,甚至是不可行的.半监督深度学习,通过在有限标记数据的条件下充分挖掘大量的未标记数据信息,从而达到与监督学习相媲美的分类精度.然而,当标记数据极其稀少时,现有半监督算法的性能会受到严重影响.因此,本文提出了一种可靠标签选择与学习(Reliable Label Selection and Learning,ReLSL)算法,以解决在仅有极少量标签图像数据时半监督深度学习所面临的问题.具体地,本文首先运用无监督学习方法提取样本特征,并应用基于图的标签传染算法得到无标签样本的伪标签.而后,为了筛选出更为可靠、有更多信息的样本,本文提出了一种综合考虑样本输出均值和一致性的伪标签学习与标定策略.在获得具有扩展标签的数据集后,考虑到训练样本中引入一定比例的标签噪声无可避免,因此本文提出两种策略来训练高鲁棒半监督深度模型:标签平滑策略(Label Smoothing Strategy,LS),用以避免标签过于尖锐;均值偏移校正策略(Mean Shifting Correction Strategy,MSC),用以降低样本输出偏移风险.实验结果表明,在CNN-13、WRN-28-2及ResNet-18各种网络结构下,本文所提出的ReLSL算法在CIFAR-10/100、SVHN、STL-10和Mini-ImageNet数据集上均表现出先进的性能.特别地,本文算法在WRN-28-2网络结构下仅有10个标记数据的CIFAR-10上,相较于最新算法具有6.78%的准确率提升;在CNN-13网络下仅有100个标记数据时,可以达到目前主流半监督学习算法4000标记时的测试误差6.39±0.47%. Deep neural networks have achieved remarkable success in many visual representation fields,such as object detection,recognition,etc.However,requiring the large quantity of well labeled data for training is one of their most prevalent limitations.Many real-world classification applications are concerned with samples that are not presented in standard benchmark datasets,and building large labeled dataset for each new task to be learned is not practically feasible.Although enormous quantities of unlabeled data are accessible and can be collected with minimal effort,the data labeling process is still extremely expensive.Semi-supervised learning(SSL)provides a way to improve a model’s performance with the surplus of unlabeled data when only limited labeled data are available.However,when the labeled data is extremely scarce,the performance of the existing SSL algorithms can be severely affected.For example,on the prevalent CIFAR-10 dataset,when each class is supported by only one label sample,the accuracy of most SSL algorithms degrades seriously.The problem is mainly manifested as:the initial informative information for classification is extremely limited,the model faces cold-start problem;in the process of training,the proportion of pseudo-label noise is difficult to control and the model has a much larger potential risk to be collapsed.In this paper,we propose a Reliable Label Selection and Learning(ReLSL)framework,which tackles the problem semi-supervised deep learning facing when only few-shot labeled image data is available.In brief,we exploit synergies among unsupervised learning,SSL and robust learning to bootstrap additional reliable labels for robust network training.For the unsupervised learning,it is used to ease the problem of cold-start under scarce labeled conditions.For SSL and robust learning,they are used to obtain good learning performance in the presence of noise labels.To be specific,for our whole ReLSL,we first implement Anchor Neighborhood Discovery(AND),an unsupervised learning algorithm to extract features of all training samples,and then obtain their pseudo-label by applying graph-based label propagation algorithm.Then,in order to screen out more reliable and informative samples,a pseudo-label learning and calibration strategy is proposed that comprehensively considers the mean and consistency of the sample’s output,and conduct effective screening of samples through Small-Loss theory.After obtaining the dataset with extended labels,considering that a certain proportion of label noise is inevitably introduced into the training set,we therefore propose two strategies to train a robust SSL model,namely,a Label-Smoothing strategy(LS)for regularizing labels from being too sharp,thus reducing noise label interference to loss function;Mean-Shifting Correction strategy(MSC)for reducing the risk of sample output deviation.As a result,the proposed ReLSL achieves state-of-the-art performance on CIFAR-10/100,SVHN,STL-10 and Mini-ImageNet across a variety of SSL conditions with the CNN-13,WRN-28-2 and ResNet-18 networks.In particular,our framework achieves a 6.78%accuracy boosting on CIFAR-10 with only 10 labeled data under WRN-28-2.Moreover,our algorithm can achieve the test error of 6.39±0.47%with only 100 labeled data under CNN-13,which is comparable to the one with typical SSL under 4000 labeled conditions.

作者魏翔王靖杰张顺利张迪张健魏小涛 WEI Xiang;WANG Jing-Jie;ZHANG Shun-Li;ZHANG Di;ZHANG Jian;WEI Xiao-Tao(School of Software Engineering,Beijing Jiaotong University,Beijing 100044)

机构地区北京交通大学软件学院

出处《计算机学报》 EI CAS CSCD 北大核心 2022年第6期1147-1160,共14页 Chinese Journal of Computers

基金国家自然科学基金(61906014,61976017,61902019) 北京市自然科学基金(4202056)资助.

关键词半监督深度学习极少标签鲁棒性标签传播特征提取 semi-supervised learning few-shot labels robustness label propagation feature extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘少鹏,洪佳明,梁杰鹏,贾西平,欧阳佳,印鉴.面向医学图像分割的半监督条件生成对抗网络[J].软件学报,2020,31(8):2588-2602. 被引量：16
2刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：134
3周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1751

二级参考文献22

1杨剑,王珏,钟宁.流形上的Laplacian半监督回归[J].计算机研究与发展,2007,44(7):1121-1127. 被引量：15
2罗晓清,王士同.基于双近邻测度的半监督聚类方法[J].计算机应用与软件,2008,25(4):219-220. 被引量：2
3张亮,李敏强.半监督聚类中基于密度的约束扩展方法[J].计算机工程,2008,34(10):13-15. 被引量：7
4尹学松,胡思良,陈松灿.基于成对约束的判别型半监督聚类分析[J].软件学报,2008,19(11):2791-2802. 被引量：51
5彭岩,张道强.半监督典型相关分析算法[J].软件学报,2008,19(11):2822-2832. 被引量：32
6吴毓龙,袁平波.密度敏感的距离测度在特定图像聚类中的应用[J].计算机工程,2009,35(6):210-212. 被引量：2
7马蕾,汪西莉.基于支持向量机协同训练的半监督回归[J].计算机工程与应用,2011,47(3):177-180. 被引量：13
8余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：611
9刘建伟,刘媛,罗雄麟.玻尔兹曼机研究进展[J].计算机研究与发展,2014,51(1):1-16. 被引量：71
10金林鹏,董军.面向临床心电图分析的深层学习算法[J].中国科学：信息科学,2015,45(3):398-416. 被引量：37

共引文献1896

1陆文超,崔海朋.一种基于融合自编码与神经网络的协同过滤算法[J].中国水运（下半月）,2022,22(3):18-20.
2杜佳峰,王景松,杨宝军,薛勇新,郑春华.基于卷积神经网络的船舶水尺字符识别方法研究[J].中国水运（下半月）,2020(3):1-3. 被引量：1
3陆天和,刘莉,贺云涛,杨盾.多无人机航迹规划算法及关键技术[J].战术导弹技术,2020(1):85-90. 被引量：7
4林桢哲,王桂棠,陈建强,符秦沈.基于残差网络深度学习的肺部CT图像结节良恶性分类模型[J].仪器仪表学报,2020,41(3):248-256. 被引量：22
5陈仁祥,张勇,杨黎霞,陈才,徐向阳.基于整周期数据和卷积神经网络的谐波减速器健康状态评估[J].仪器仪表学报,2020,41(2):245-252. 被引量：20
6鲍光海,林善银,徐林森.基于改进型卷积网络的汽车高度调节器缺陷检测方法[J].仪器仪表学报,2020,41(2):157-165. 被引量：13
7谭宇辰,蔡晶晶,倪辰.基于深度学习的Web攻击检测技术研究[J].信息网络安全,2020(S02):122-126.
8任杰,李钢,赵燕姣,姚琼辛,田培辰.基于改进Faster RCNN的城市道路货车检测[J].计算机系统应用,2022,31(12):316-321. 被引量：3
9胡伟,文武,魏敏.改进U-Net的高分辨率遥感图像轻量化分割[J].计算机系统应用,2022,31(12):135-146. 被引量：2
10李莉,陈心宇,高文斌.一种基于FPGA的卷积神经网络加速器实现方案[J].北京电子科技学院学报,2022,30(4):96-104. 被引量：1

同被引文献12

1姜大庆,夏士雄,周勇.基于半监督自动谱聚类算法的网络故障检测[J].计算机工程与应用,2012,48(30):89-94. 被引量：6
2尹刚,张英堂,李志宁,任国全,范红波.基于在线半监督学习的故障诊断方法研究[J].振动工程学报,2012,25(6):637-642. 被引量：10
3刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：134
4余游,冯林,王格格,徐其凤.一种基于伪标签的半监督少样本学习模型[J].电子学报,2019,47(11):2284-2291. 被引量：12
5曾宏志,史洪松.半监督技术和主动学习相结合的网络入侵检测方法[J].吉林大学学报（理学版）,2021,59(4):936-942. 被引量：15
6张增辉,姜高霞,王文剑.基于动态概率抽样的标签噪声过滤方法[J].计算机应用,2021,41(12):3485-3491. 被引量：8
7丁家满,刘楠,周蜀杰,贾连印,李润鑫.基于正则化的半监督弱标签分类方法[J].计算机学报,2022,45(1):69-81. 被引量：4
8庞兴龙,朱国胜.基于半监督学习的网络流量分析研究[J].计算机科学,2022,49(S01):544-554. 被引量：7
9武红鑫,韩萌,陈志强,张喜龙,李慕航.监督和半监督学习下的多标签分类综述[J].计算机科学,2022,49(8):12-25. 被引量：20
10黄屿璁,张潮,吕鑫,曾涛,王鑫元,丁辰龙.基于深度学习的网络入侵检测研究综述[J].信息安全研究,2022,8(12):1163-1177. 被引量：14

引证文献3

1马仁利.基于半监督学习的校园网智能诊断系统设计[J].信息与电脑,2023,35(5):118-120.
2程磊,满颖慧.基于ReLASL算法的网络入侵检测模型[J].电脑知识与技术,2023,19(30):71-73.
3黄雨鑫,黄贻望,黄辉.基于浅层网络预测的元标签校正方法[J].计算机应用,2024,44(11):3364-3370.

1刘雅芬,郑艺峰,江铃燚,李国和,张文杰.深度半监督学习中伪标签方法综述[J].计算机科学与探索,2022,16(6):1279-1290. 被引量：8
2Peikai Chen,Y. S. Hung.A Scalable Method for Cross-Platform Merging of SNP Array Datasets[J].Engineering（科研）,2013,5(10):502-508.
3Mingshen WANG,Yunfei MU,Tao JIANG,Hongjie JIA,Xue LI,Kai HOU,Tong WANG.Load curve smoothing strategy based on unified state model of different demand side resources[J].Journal of Modern Power Systems and Clean Energy,2018,6(3):540-554. 被引量：11
4何茜,贺可太,王金山,林绅文,杨菁林,冯玉超.比特币实体交易模式分析[J].计算机科学,2022,49(S01):502-507. 被引量：1
5杨海滨,李瑞峰,易铮阁,钮可,杨晓元.无双线性对的高效云存储数据审计方案[J].西安电子科技大学学报,2022,49(1):47-54. 被引量：6
6王一鸣,李凌.基于双闭环PID控制的自平衡两轮车的仿真研究[J].沈阳化工大学学报,2022,36(1):74-81.
7姜月,肖萌,李海霞.基于YOLOv5s的神经网络麦穗识别算法研究[J].人工智能与机器人研究,2022,11(2):84-90.
8张玉辉,常泽楠.基于KNN算法的特征过滤预处理研究[J].现代信息科技,2022,6(4):126-128. 被引量：2
9杨振发,郝世锦.一种点云网格模型的纹理自动生成方法[J].测绘与空间地理信息,2022,45(5):39-43.
10李奂其,王天龙,罗婷.基于Mean Shift聚类的瞬时风功率密度预测研究[J].中国科技纵横,2022(10):129-131.

计算机学报

2022年第6期

浏览历史

内容加载中请稍等...

ReLSL:基于可靠标签选择与学习的半监督学习算法被引量：3

参考文献3

二级参考文献22

共引文献1896

同被引文献12

引证文献3

相关作者

相关机构

相关主题

浏览历史

ReLSL:基于可靠标签选择与学习的半监督学习算法 被引量：3

参考文献3

二级参考文献22

共引文献1896

同被引文献12

引证文献3

相关作者

相关机构

相关主题

浏览历史

ReLSL:基于可靠标签选择与学习的半监督学习算法被引量：3