基于核均值漂移聚类的改进局部协同训练算法被引量：3

Improved Partial Co-Training Algorithm Based on Kernel Mean Shift

导出

摘要【目的】针对协同训练算法不能直接应用于单视图数据,且在迭代过程中加入的无标记样本隐含有用信息不够的问题,提出基于核均值漂移聚类的改进局部协同训练算法。【方法】该算法先在有标记样本集中利用改进局部协同训练算法训练一个完整视图分类器h1,同时挑选出价值高的特征子集来训练局部视图分类器h2,然后在无标记样本集中采用核均值漂移算法选择聚类过程中指定带宽范围内的样本,交由分类器h2标记类别后再加入分类器h1的训练中,以此来优化分类模型。【结果】在UCI数据集上的3组对比实验证明了该算法的有效性,实验结果表明该算法具有更高的模型评价能力。【结论】改进局部协同训练算法将数据集划分为局部视图和完整视图,解决了单视图数据的视图划分问题。利用核均值漂移算法选出较好表现数据空间结构的无标记样本,降低了无标记样本带来的误差。 [Purposes]When the co-training algorithm is applied to single view data,it is usually confronted with view partitioning problem.Before the iteration ends,the continuously injected unlabeled data sometimes don’t imply abundant information.For solving the above problems,the improved partial co-training algorithm based on kernel mean shift is proposed.[Methods]Firstly,a full view classifier h1 is trained with labeled datasets by improved partial co-training algorithm,and a more valuable subset of the data is selected from the labeled ones for training apartial view classifier h2.Then,the kernel mean shift is utilized to select data within a given bandwidth in each clustering process from unlabeled datasets.After the selected unlabeled data are labeled by using classifier h2,they are added to the training process of classifier h1 to optimize the classification model.[Findings]The algorithm is validated by comparisons with three control experiments on UCI data,and experimental results show that the algorithm has higher model evaluation ability.[Conclusions]The improved partial co-training algorithm can divide the datasets into partial view and complete view,which solves the view partitioning problem of single view data.Using the kernel mean shift can choose the unlabeled data that represent better performance of the space structure of data,therefore reducing the errors caused by the unlabeled data.

作者鲜焱吕佳 XIAN Yan;Lü Jia(College of Computer and Information Sciences,Chongqing Normal University;Chongqing Center of Engineering Technology Research on Digital Agriculture Service,Chongqing Normal University,Chongqing 401331,China)

机构地区重庆师范大学计算机与信息科学学院重庆师范大学重庆市数字农业服务工程技术研究中心

出处《重庆师范大学学报（自然科学版）》 CAS 北大核心 2020年第4期106-113,共8页 Journal of Chongqing Normal University:Natural Science

基金国家自然科学基金(No.1971084) 重庆师范大学科研项目(No.YKC19018)。

关键词协同训练均值漂移流行正则化特征选择视图划分 co-training mean shift manifold regularization feature selection view partition

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1高灿,周杰,高天宇,赖志辉.不完备弱标记数据的粗糙协同学习模型[J].模式识别与人工智能,2018,31(10):950-957. 被引量：4
2Qi ZHANG,Rui LI,Tianguang CHU.Kernel semi-supervised graph embedding model for multimodal and mixmodal data[J].Science China(Information Sciences),2020,63(1):243-245. 被引量：3
3郭翔宇,王魏.一种改进的协同训练算法:Compatible Co-training[J].南京大学学报（自然科学版）,2016,52(4):662-671. 被引量：11
4龚彦鹭,吕佳.结合半监督聚类和加权KNN的协同训练方法[J].计算机工程与应用,2019,55(22):114-118. 被引量：8
5黄琴,钱文彬,王映龙,吴兵龙.代价敏感数据的多标记特征选择算法[J].智能系统学报,2019,14(5):929-938. 被引量：1

二级参考文献44

1徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
2Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B(methodological), 1977 : 1 - 38.
3Shahshahani B M, Landgrebe D A. The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon. IEEE Transactions on Geoscience and Remote Sensing,1994,32(5) :1087- 1095.
4Miller D J, Uyar H S. A mixture of experts classifier with learning based on both labelled and unlabeled data. Advances in Neural Information Processing Systems. Cambridge, MAt MIT Press, 1997: 571-577.
5Nigam K, Mccallum A K, Thrun S, et al. Text classification from labeled and unlabeled documents using EM. Machine Learning, 2000, 39 (2 3): 103-134.
6Joachims T. Transductive inference for text classification using support vector machines. In: Proceedings of the 16^th International Conference on Machine Learning. New York, NY: ACM, 1999,99 200- 209.
7Chapelle O,Zien A. Semi-supervised classification by low density separation. In: Proceedings of the 10^rd In ternational Workshop on Artificial Intelligence and Statistics. Brookline, MA: Microtome, 2005, 1: 57- 64.
8Chapelle O, Chi M, Zien A. A continuation method for semi-supervised SVMs. In: Proceedings of the 23^rd International Conference on Machine Learning. New York, NY, ACM, 2006 : 185- 192.
9Li Y F, Zhou Z H. Towards making unlabeled data never hurt. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(1):175 -188.
10Belkin M, Matveeva I, Niyogi P. Regularization and semi supervised learning on large graphs. In: Proceedings of the 17^th Annual Conference on Learning Theory. Berlin, German: Springer, 2004, 3120:624-638.

共引文献21

1孙启蕴.基于多视图Tri-Training的微博用户性别判断[J].计算机系统应用,2018,27(2):240-244. 被引量：2
2卢月明,王亮,仇阿根,张用川,赵阳阳.基于半监督学习的克里金插值方法[J].计算机工程与应用,2018,54(22):265-270. 被引量：6
3张迪,陈真诚,梁永波,吴植强,朱健铭,钟婷婷.协同训练算法在无创血糖检测中的应用[J].中国医学物理学杂志,2018,35(11):1295-1300.
4潘成胜,刘勇,石怀峰,杨力.SDN架构下的空间信息网络业务识别技术[J].计算机工程,2019,45(4):18-24. 被引量：3
5王光琼.不完备系统中一种增量式属性约简算法[J].计算机与现代化,2019,0(8):69-73.
6龚彦鹭,吕佳.结合主动学习和密度峰值聚类的协同训练算法[J].计算机应用,2019,39(8):2297-2301. 被引量：10
7龚彦鹭,吕佳.结合半监督聚类和加权KNN的协同训练方法[J].计算机工程与应用,2019,55(22):114-118. 被引量：8
8龚旭,吕佳,皮家甜.结合信息增益率和K-means聚类的协同训练算法[J].重庆师范大学学报（自然科学版）,2020,37(2):112-119. 被引量：4
9王得雪,林意,陈俊杰.协同训练算法在滚动轴承故障诊断中的应用[J].计算机工程与应用,2020,56(12):273-278. 被引量：3
10刘巧云.不完备信息系统属性约简算法研究[J].计算机时代,2020(7):83-85. 被引量：1

同被引文献26

1吴从中,陈曦,詹曙.结合残差编解码网络和边缘增强的遥感图像去噪[J].遥感学报,2020,24(1):27-36. 被引量：16
2周志华.基于分歧的半监督学习[J].自动化学报,2013,39(11):1871-1878. 被引量：87
3李会荣,乔希民,赵鹏军.融合差分变异的教-学优化算法[J].计算机工程与应用,2016,52(5):36-40. 被引量：8
4戴月明,赵莉莉.优化的人工鱼群和FCM的混合聚类算法[J].计算机应用与软件,2016,33(12):234-237. 被引量：3
5刘东林,李乐乐.一种新颖的改进人工鱼群算法[J].计算机科学,2017,44(4):281-287. 被引量：20
6姚凌波,戴月明,王艳.反向自适应高斯变异的人工鱼群算法[J].计算机工程与应用,2018,54(1):179-185. 被引量：13
7李君,梁昔明.对精英加速的改进人工鱼群算法[J].计算机应用研究,2018,35(7):1960-1964. 被引量：3
8花再军,黄凤辰,陈钊.GPRS网络远程测控系统中的短信功能应用研究与实现[J].工业仪表与自动化装置,2018(1):66-69. 被引量：2
9陈铭,王昆,徐晓峰,刘仲,宗绍磊.基于安全机制的电力系统移动测试技术及其案例分析[J].工业仪表与自动化装置,2019,0(3):91-94. 被引量：2
10何天远,王万仁,吴鲁明,邢亚航,郝如江.基于K-奇异值分解字典学习的振动信号压缩感知方法[J].济南大学学报（自然科学版）,2020,34(1):52-56. 被引量：9

引证文献3

1贺风婷,刘彦隆,刘鑫晶.改进TLBO优化人工鱼群算法实现FCM图像分割[J].电子设计工程,2021,29(10):56-62. 被引量：2
2潘用科,贺紫平,夏克文,牛文佳.改进的协同训练半监督SVM在油层识别中的应用[J].郑州大学学报（工学版）,2022,43(1):14-19. 被引量：2
3陈静,王晓轩,吴宇静,王蓉蓉.基于CNN的零样本城市遥感影像场景分割算法[J].吉林大学学报（信息科学版）,2023,41(4):739-745.

二级引证文献4

1王红星,黄郑,钱波,徐淇,李波,陈洁.基于改进人工鱼群算法的无人机红外巡检线路规划[J].微型电脑应用,2022,38(8):35-38. 被引量：3
2关豪然,宋卫东,张丰收.结合自适应TV模型和分水岭变换的图像分割算法[J].电子设计工程,2023,31(4):33-37. 被引量：1
3刘文杰,王国强.基于数据剪辑的自训练信用评估集成分类模型[J].上海工程技术大学学报,2024,38(1):83-89.
4杨浩然,袁春华.基于Laplacian正则和协同训练的抽油井故障诊断方法[J].机电工程技术,2024,53(6):216-220.

1姚伟,刘舒雯,柯平,张翠娟,陈思.基于数据画像的短视频领域中知识动员模型研究[J].现代情报,2020,40(7):63-73. 被引量：9
2张京坤,王怡怡.基于Spark的均值漂移算法在网络舆情聚类中的应用[J].软件导刊,2020,19(9):190-195. 被引量：3
3钟颖宇,陈松灿.高阶多视图离群点检测[J].计算机科学,2020,47(9):99-104. 被引量：1
4本刊讯.新的机器学习方法支持保护隐私同时共享患者数据[J].数据分析与知识发现,2020,4(8):141-141.
5朱永国.数据挖掘技术在油田信息化建设中的应用[J].信息与电脑,2020,32(16):14-16.
6冯劲,姚远.融合相似度计算与改进遗传算法的聚类分析[J].计算机仿真,2020,37(9):226-230. 被引量：3
7孙亚红.基于数据挖掘的食用菌培养料发酵过程数据采集[J].中国食用菌,2020,39(8):243-245.
8林蔚,杨冰,林宝仁.基于tensorflow的糖尿病视网膜病变筛查系统研究[J].中国医疗器械信息,2020,26(19):26-27.
9祁明花.盆腔炎灌肠方联合阿奇霉素治疗支原体感染盆腔炎[J].中外女性健康研究,2020(18):72-73.
10梁文卓.以法国《回声报》为例浅析报刊中的词汇特点[J].时代人物,2020(14):141-143.

重庆师范大学学报（自然科学版）

2020年第4期

浏览历史

内容加载中请稍等...

基于核均值漂移聚类的改进局部协同训练算法被引量：3

参考文献5

二级参考文献44

共引文献21

同被引文献26

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于核均值漂移聚类的改进局部协同训练算法 被引量：3

参考文献5

二级参考文献44

共引文献21

同被引文献26

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于核均值漂移聚类的改进局部协同训练算法被引量：3