-
题名结合主动学习与置信度投票的集成自训练方法
被引量:8
- 1
-
-
作者
黎隽男
吕佳
-
机构
重庆师范大学计算机与信息科学学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2016年第20期167-171,230,共6页
-
基金
重庆市科委科研项目(No.cstc2014jcyj A40011)
-
文摘
基于集成学习的自训练算法是一种半监督算法,不少学者通过集成分类器类别投票或平均置信度的方法选择可靠样本。基于置信度的投票策略倾向选择置信度高的样本或置信度低但投票却一致的样本进行标记,后者这种情形可能会误标记靠近决策边界的样本,而采用异构集成分类器也可能会导致各基分类器对高置信度样本的类别标记不同,从而无法将其有效加入到有标记样本集。提出了结合主动学习与置信度投票策略的集成自训练算法用来解决上述问题。该算法合理调整了投票策略,选择置信度高且投票一致的无标记样本加以标注,同时利用主动学习对投票不一致而置信度较低的样本进行人工标注,以弥补集成自训练学习只关注置信度高的样本,而忽略了置信度低的样本的有用信息的缺陷。在UCI数据集上的对比实验验证了该算法的有效性。
-
关键词
集成自训练算法
主动学习
加权K最近邻(KNN)
朴素贝叶斯
置信度
-
Keywords
ensemble self-training
active learning
weighted K Nearest Neighbor(KNN)
naive Bayes
confidence
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于近邻密度和半监督KNN的集成自训练方法
被引量:2
- 2
-
-
作者
黎隽男
吕佳
-
机构
重庆师范大学计算机与信息科学学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2018年第20期132-138,共7页
-
基金
重庆市科委科研项目(No.cstc2014jcyjA40011)
重庆市自然科学基金(No.cstc2014jcyjA40011)
+1 种基金
重庆市科研项目(No.CYS17176)
重庆师范大学科研项目(No.YKC17001)
-
文摘
针对集成自训练算法随机初始化有标记样本容易在迭代中局部过拟合,不能很好地泛化到样本原始空间结构和集成自训练算法用WKNN分类器做数据剪辑时没有考虑到无标记样本对待测样本类别判定有影响的问题,提出结合近邻密度和半监督KNN的集成自训练算法。该算法用近邻密度方法选取初始化的已标注样本,避免已标注样本周围k个近邻样本成为已标注候选集。这样使初始化的已标注样本间的距离尽量分散,以更好地反应样本原始空间结构。同时在已标注样本候选集中选取密度最大的样本作为已标注样本。为了提高数据剪辑的性能,用半监督KNN代替WKNN,弥补WKNN做数据剪辑的时候只考虑到了有标记样本对待测样本类别的影响,而没有利用待测样本周围的无标记样本的问题,在UCI数据集上的对比实验验证了提出算法的有效性。
-
关键词
集成自训练
近邻密度
半监督
K近邻(KNN)
-
Keywords
integrated self-training
nearest neighbor density
semi-supervised
K Nearest Neighbor(KNN)
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-