期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
处理多类不平衡数据的SVM分类算法 被引量:7
1
作者 李珍香 王文剑 郭虎升 《计算机工程与设计》 CSCD 北大核心 2014年第7期2499-2503,共5页
针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其... 针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其处理数据时减少小区块的影响;降低数据不平衡度以优化分类器组;在扩展的数据集上训练SVM分类器。标准数据集上的实验结果表明,与几种经典的算法相比,SS-SVM在多类不平衡数据分类上可获得令人满意的分类结果,对少类数据分类精度要求较高的问题尤为有效。 展开更多
关键词 类不平衡数据 支持向量机 空间扩展 小区快 上采样 SS-SVM算法
下载PDF
基于GAN-Cross的工控系统类不平衡数据异常检测 被引量:2
2
作者 顾兆军 刘婷婷 +1 位作者 高冰 隋翯 《信息网络安全》 CSCD 北大核心 2022年第8期81-89,共9页
工业控制系统异常检测存在类不平衡问题,导致通用分类器很难实现异常数据的精准识别。目前,针对类不平衡数据,常用采样方法实现各类数据的平衡,以提高分类器性能。但传统采样方法对数据集特征敏感,采样效果稳定性差,异常检测精度波动大... 工业控制系统异常检测存在类不平衡问题,导致通用分类器很难实现异常数据的精准识别。目前,针对类不平衡数据,常用采样方法实现各类数据的平衡,以提高分类器性能。但传统采样方法对数据集特征敏感,采样效果稳定性差,异常检测精度波动大。文章基于生成式对抗网络(Generative Adversarial Network,GAN),提出一种GAN-Cross采样模型,该模型可以学习目标数据的概率分布,并生成相似概率分布的数据,从而改善数据的平衡性。同时,文章在生成器和判别器中增加了交叉层,从而更好地实现特征提取。最后文章将该模型与随机森林、K-近邻、高斯朴素贝叶斯和支持向量机4种经典分类器进行组合,在4个公开类不平衡数据集上与其他4种常规采样方法进行比较。实验结果表明,与传统采样方法相比,该模型能够显著提高分类器对类不平衡数据的异常检测能力。 展开更多
关键词 工业控制系统 类不平衡数据 生成式对抗网络 采样方法 异常检测
下载PDF
极限学习机类不平衡数据学习算法研究 被引量:2
3
作者 唐晓芬 陈莉 《计算机应用研究》 CSCD 北大核心 2018年第10期2990-2993,3002,共5页
针对目前提出的Boosting提升的加权极限学习机算法用各类总分类性能作为算法的优化目标,算法对大类样本具有性能偏向性,而且没有考虑数据中包含噪声及噪点时算法对分类性能的影响,提出基于AdaBoost提升的WELM算法。该算法利用考虑各类... 针对目前提出的Boosting提升的加权极限学习机算法用各类总分类性能作为算法的优化目标,算法对大类样本具有性能偏向性,而且没有考虑数据中包含噪声及噪点时算法对分类性能的影响,提出基于AdaBoost提升的WELM算法。该算法利用考虑各类样本分布不平衡特性的误差计算方式并对误差进行了sigmoid运算,提高了算法的对大类样本和小类样本的识别率及算法的抗噪声能力。通过在15个UCI不平衡数据集进行分析实验,实验结果表明提出的算法具有更好的分类性能。 展开更多
关键词 极限学习机 类不平衡数据学习 支持向量机 ADABOOST
下载PDF
面向类不平衡数据集的软件缺陷预测模型 被引量:11
4
作者 李冉 周丽娟 王华 《计算机应用研究》 CSCD 北大核心 2018年第9期2806-2810,共5页
软件缺陷数据的类不平衡问题会影响缺陷预测分类的准确性,为解决类不平衡数据对预测分类的影响,针对如何优化数据预处理的算法执行顺序进行了研究,提出了一种有效提升分类效果的软件缺陷预测模型(ASRAdaBoost)。该算法模型在根据对照实... 软件缺陷数据的类不平衡问题会影响缺陷预测分类的准确性,为解决类不平衡数据对预测分类的影响,针对如何优化数据预处理的算法执行顺序进行了研究,提出了一种有效提升分类效果的软件缺陷预测模型(ASRAdaBoost)。该算法模型在根据对照实验确定数据预处理最优顺序后,采用特征选择卡方检验算法,再执行SMOTE过采样与简单采样方法,解决数据类不平衡和属性冗余同时存在的问题,最后结合AdaBoost集成算法,构建出软件缺陷预测模型ASRAdaBoost。实验均采用J48决策树作为基分类器,实验结果表明ASRAdaBoost算法模型有效地提高了软件缺陷预测的准确性,得到了更好的分类效果。 展开更多
关键词 软件缺陷预测 类不平衡数据 特征选择 集成算法
下载PDF
多类不平衡数据上的分类器性能比较研究 被引量:5
5
作者 倪黄晶 王蔚 《计算机工程》 CAS CSCD 北大核心 2011年第10期160-161,164,共3页
不同的基分类器对不同分布类型的多类别不平衡数据的适应性存在较大差异。为此,针对分类器的选用问题,在分析比较准确率(ACC)及曲线下面积(AUC)的评价标准基础上,选择基于AUC的分类器评价方法,将支持向量机、决策树和贝叶斯分类器应用... 不同的基分类器对不同分布类型的多类别不平衡数据的适应性存在较大差异。为此,针对分类器的选用问题,在分析比较准确率(ACC)及曲线下面积(AUC)的评价标准基础上,选择基于AUC的分类器评价方法,将支持向量机、决策树和贝叶斯分类器应用于标准数据集中,并采用AUC来评价结果,得出相关结论:在多类不平衡数据上,贝叶斯是最好的基分类器,且SVM分类器存在一定改进空间。 展开更多
关键词 类不平衡数据 基分 ROC曲线下面积 准确率
下载PDF
多类不平衡数据分类方法综述 被引量:12
6
作者 李昂 韩萌 +2 位作者 穆栋梁 高智慧 刘淑娟 《计算机应用研究》 CSCD 北大核心 2022年第12期3534-3545,共12页
现实中许多领域产生的数据通常具有多个类别并且是不平衡的。在多类不平衡分类中,类重叠、噪声和多个少数类等问题降低了分类器的能力,而有效解决多类不平衡问题已经成为机器学习与数据挖掘领域中重要的研究课题。根据近年来的多类不平... 现实中许多领域产生的数据通常具有多个类别并且是不平衡的。在多类不平衡分类中,类重叠、噪声和多个少数类等问题降低了分类器的能力,而有效解决多类不平衡问题已经成为机器学习与数据挖掘领域中重要的研究课题。根据近年来的多类不平衡分类方法的文献,从数据预处理和算法级分类方法两方面进行了分析与总结,并从优缺点和数据集等方面对所有算法进行了详细分析。在数据预处理方法中,介绍了过采样、欠采样、混合采样和特征选择方法,对使用相同数据集算法的性能进行了比较。从基分类器优化、集成学习和多类分解技术三个方面对算法级分类方法展开介绍和分析。最后对多类不平衡数据分类研究领域的未来发展方向进行总结归纳。 展开更多
关键词 类不平衡数据 数据预处理方法 算法级分方法
下载PDF
用于不平衡类癌症数据的非标记检测和识别的SERS分析新策略
7
作者 曹大卫 徐慧英 +3 位作者 林合川 刘子洋 朱信忠 钱亚云 《浙江师范大学学报(自然科学版)》 CAS 2024年第3期257-265,共9页
SERS技术与机器学习结合的策略在检测和识别不平衡类癌症中发挥着极其重要的作用.为了解决类不平衡问题给分类精度造成的影响,设计了一种SERS技术结合APS-SMOTE-PCA-KNN(synthetic minority oversampling method with adaptive priority... SERS技术与机器学习结合的策略在检测和识别不平衡类癌症中发挥着极其重要的作用.为了解决类不平衡问题给分类精度造成的影响,设计了一种SERS技术结合APS-SMOTE-PCA-KNN(synthetic minority oversampling method with adaptive priority selection(APS-SMOTE)-principal component analysis(PCA)-k-nearest neighbors(KNN))的癌症诊断新策略,实现快速、灵敏、非标记地检测和识别癌症.结果显示:新策略能够测得健康人和癌症患者血清的特征光谱,很好地解决了类不平衡问题给分类精度造成的影响,准确率可以达到85.0%.SERS技术结合APS-SMOTE-PCA-KNN对于未来癌症诊断具有积极的借鉴意义. 展开更多
关键词 表面增强拉曼散射 癌症 不平衡数据 特征峰 合成少数过采样方法
下载PDF
基于类不平衡数据集的钢筋混凝土柱破坏模式判别方法 被引量:1
8
作者 谢龙隆 喻泽成 余波 《建筑结构学报》 EI CAS CSCD 北大核心 2023年第5期273-285,共13页
针对钢筋混凝土柱破坏模式数据集存在类不平衡,导致传统机器学习算法对少数类破坏模式判别精度较低的问题,采用合成少数类过采样(SMOTE)算法合成少数类样本生成初始平衡数据集,利用基于特征权重的加权K-近邻算法衡量数据集样本的类内相... 针对钢筋混凝土柱破坏模式数据集存在类不平衡,导致传统机器学习算法对少数类破坏模式判别精度较低的问题,采用合成少数类过采样(SMOTE)算法合成少数类样本生成初始平衡数据集,利用基于特征权重的加权K-近邻算法衡量数据集样本的类内相似度,通过合理剔除离群值样本数据点重构新平衡数据集,并基于331组钢筋混凝土柱破坏模式不平衡数据(弯曲破坏203组、剪切破坏70组、弯剪破坏58组),结合6种经典机器学习算法,建立了基于类不平衡数据集的钢筋混凝土柱破坏模式判别方法。研究表明:与传统方法相比,该方法对于剪切破坏的精度、召回率和F1分数分别平均提高5.5%、8.7%和7.2%,对于弯剪破坏的精度、召回率和F1分数分别平均提高12.8%、15.7%和17%;随着破坏模式样本数据集不平衡程度的增大,该方法对机器学习算法分类性能的提升效果越明显。 展开更多
关键词 钢筋混凝土柱 破坏模式判别 类不平衡数据 合成少数过采样算法 加权K-近邻算法
原文传递
基于先验知识与DBM采样的类不平衡用电数据分类方法 被引量:11
9
作者 王凯亮 陆俊 +3 位作者 徐志强 齐增清 龚钢军 王赟 《电力系统自动化》 EI CSCD 北大核心 2019年第20期57-64,104,共9页
智能电网建设过程中现有客户标签体系不够完善,针对海量用户用电数据的分类管理中带有标签的样本数据量小以及类不平衡分布的问题,提出了一种基于先验知识与深度玻尔兹曼机(DBM)采样的不平衡用电数据分类方法。首先,提取负荷曲线的特征... 智能电网建设过程中现有客户标签体系不够完善,针对海量用户用电数据的分类管理中带有标签的样本数据量小以及类不平衡分布的问题,提出了一种基于先验知识与深度玻尔兹曼机(DBM)采样的不平衡用电数据分类方法。首先,提取负荷曲线的特征,建立采样原则,利用先验知识和DBM对负荷曲线进行采样。然后,将采样数据通过极限学习机(ELM)网络进行训练。最后以爱尔兰用户用电数据为数据源,通过与原始非采样、随机过采样、合成少数类过采样技术(SMOTE)的对比性实验分析结果表明,所提出的基于先验知识与DBM采样的不平衡用电数据分类方法能够更好地对类不平衡用电数据集进行分类,实现用户用电行为的分析,有效支撑用户侧错峰避峰工作。 展开更多
关键词 类不平衡数据 用户行为分析 深度学习 先验知识 深度玻尔兹曼机
下载PDF
不平衡类数据挖掘研究综述 被引量:37
10
作者 翟云 杨炳儒 曲武 《计算机科学》 CSCD 北大核心 2010年第10期27-32,共6页
综述了近年来国内外对不平衡类数据挖掘的主要研究进展。首先分析了不平衡类数据挖掘的本质。其次,详细探讨了处理不平衡类数据挖掘的各种技术,并根据其本质区别,从数据层次和算法层次分别对目前存在的各种技术方法进行了深入剖析和全... 综述了近年来国内外对不平衡类数据挖掘的主要研究进展。首先分析了不平衡类数据挖掘的本质。其次,详细探讨了处理不平衡类数据挖掘的各种技术,并根据其本质区别,从数据层次和算法层次分别对目前存在的各种技术方法进行了深入剖析和全面比较。最后,指出当前不平衡类数据挖掘研究的热点以及将来需要重点关注的主要问题。 展开更多
关键词 机器学习 不平衡数据 重采样 代价敏感学习
下载PDF
基于模糊代表度的不平衡数据重采样方法 被引量:3
11
作者 任若楠 杨有龙 孙丽芹 《统计与决策》 CSSCI 北大核心 2021年第14期11-15,共5页
针对现有重采样技术中不平衡度量的缺陷,文章提出了一种基于模糊代表度的重采样方法(FRDR)。首先根据近邻传播算法找出代表性样本;然后利用马氏距离定义模糊相似度,分别计算每个样本的模糊代表度,并删去模糊代表度较低的样本,选取模糊... 针对现有重采样技术中不平衡度量的缺陷,文章提出了一种基于模糊代表度的重采样方法(FRDR)。首先根据近邻传播算法找出代表性样本;然后利用马氏距离定义模糊相似度,分别计算每个样本的模糊代表度,并删去模糊代表度较低的样本,选取模糊代表度符合标准的正类样本进行过采样,直到模糊代表度差满足条件;最后,将传统的过采样方法与所提出的方法进行比较,结果表明该方法更具优越性。 展开更多
关键词 类不平衡数据 重采样技术 不平衡度量 模糊代表度 近邻传播算法
下载PDF
基于TLR-ADASYN平衡化数据集的MSSA-SVM变压器故障诊断 被引量:43
12
作者 余松 胡东 +2 位作者 唐超 张丞鸣 谭为民 《高电压技术》 EI CAS CSCD 北大核心 2021年第11期3845-3853,共9页
变压器的稳定运行在电力系统安全中扮演重要角色,而变压器故障数据样本的不足会对故障类型的准确识别产生严重影响。论文首先使用了托梅克链接移除和自适应样本合成的方法对原始数据进行去噪处理及少数类数据样本合成;然后修正了部分麻... 变压器的稳定运行在电力系统安全中扮演重要角色,而变压器故障数据样本的不足会对故障类型的准确识别产生严重影响。论文首先使用了托梅克链接移除和自适应样本合成的方法对原始数据进行去噪处理及少数类数据样本合成;然后修正了部分麻雀算法(sparrow search algorithm,SSA)公式,并将其与差分进化算法融合,提出了改良麻雀算法(modified sparrow search algorithm,MSSA);接着构建了一种基于平衡数据集的改良麻雀算法优化支持向量机(modified sparrow search algorithm-support vector machine,MSSA-SVM)的变压器故障诊断模型;最后对BP神经网络(BP neural network,BPNN)、粒子群优化支持向量机(particle swarm optimization-support vector machine,PSO-SVM)、麻雀算法优化支持向量机(sparrow search algorithm-support vector machine,SSA-SVM)和MSSA-SVM进行对比仿真实验。结果显示,各类模型在使用平衡数据集后的平均准确率分别提升了3.12%、6.03%、7.58%、10.23%,验证了所提不平衡数据处理方法的有效性;另外,PSO-SVM、SSA-SVM、MSSA-SVM分别迭代了30次、26次和20次后收敛,其在测试集中Kappa系数分别为0.758、0.785和0.870,这表明了MSSA在该模型优化上具有更强的全局搜索能力。仿真结果说明在变压器数据不平衡的实际背景下,所提变压故障诊断方法具有较高的优越性。 展开更多
关键词 电力变压器 故障诊断 不平衡样本数据处理 MSSA-SVM Kappa系数
原文传递
基于迁移学习的类别级物体识别与检测研究与进展 被引量:59
13
作者 张雪松 庄严 +1 位作者 闫飞 王伟 《自动化学报》 EI CSCD 北大核心 2019年第7期1224-1243,共20页
类别级物体识别与检测属于计算机视觉领域的一个基础性问题,主要研究在图像或视频流中识别和定位出其中感兴趣的物体.在基于小规模数据集的类别级物体识别与检测应用中,模型过拟合、类不平衡和跨领域时特征分布变化等关键问题与挑战交... 类别级物体识别与检测属于计算机视觉领域的一个基础性问题,主要研究在图像或视频流中识别和定位出其中感兴趣的物体.在基于小规模数据集的类别级物体识别与检测应用中,模型过拟合、类不平衡和跨领域时特征分布变化等关键问题与挑战交织在一起.本文介绍了迁移学习理论的研究现状,对迁移学习理论解决基于小规模数据集的物体识别与检测中遇到的主要问题的研究思路和前沿技术进行了着重论述和分析.最后对该领域的研究重点和技术发展趋势进行了探讨. 展开更多
关键词 迁移学习 物体识别 物体检测 小规模数据 类不平衡数据
下载PDF
基于改进的SMOTE采样Catboost分类算法 被引量:2
14
作者 张德鑫 雒腾 曾志勇 《信息通信》 2020年第1期57-60,共4页
现实生活中往往存在着不平衡数据现象,而少数类样本通常是我们重点关注的信息。文章通过俄亥俄州真实的医疗数据中存在的不平衡现象,提出了一种新的采样处理方法AK-SMOTE采样方法,即将ALLKNN欠采样技术和SMOTE人过合成过采样技术相结合... 现实生活中往往存在着不平衡数据现象,而少数类样本通常是我们重点关注的信息。文章通过俄亥俄州真实的医疗数据中存在的不平衡现象,提出了一种新的采样处理方法AK-SMOTE采样方法,即将ALLKNN欠采样技术和SMOTE人过合成过采样技术相结合,同时结合2017年出的应用较为少的Catboost算法,最后通过准确率、查准率、召回率、f1-度量和AUC值作为模型效果的评价指标,结果发现采用AK-SMOTE采样处理之后的Catboost模型在最后的评价指标上相比于其他模型,分类的效果会更好,尤其是在召回率和AUC指标上效果最为明显,也说明了基于AK-SMOTE采样的Catboost分类算法在处理实际生活中存在的不平衡数据问题时有着较为出色的分类效果,对于整个社会具有一定的现实借鉴意义。 展开更多
关键词 类不平衡数据 医疗数据 AK-SMOTE采样 Catboost算法
下载PDF
结合欠抽样与集成的软件缺陷预测 被引量:7
15
作者 李勇 《计算机应用》 CSCD 北大核心 2014年第8期2291-2294,2310,共5页
软件缺陷预测是提高测试效率、保证软件可靠性的重要途径。为了提高软件缺陷预测的准确率,提出一种结合欠抽样与决策树分类器集成的软件缺陷预测模型。考虑到软件缺陷数据的类不平衡特性,首先,通过数据的不平衡率确定抽样度,执行欠抽样... 软件缺陷预测是提高测试效率、保证软件可靠性的重要途径。为了提高软件缺陷预测的准确率,提出一种结合欠抽样与决策树分类器集成的软件缺陷预测模型。考虑到软件缺陷数据的类不平衡特性,首先,通过数据的不平衡率确定抽样度,执行欠抽样实现数据的重新平衡;然后,采用Bagging随机抽样原理训练若干个决策树子分类器;最后,按照少数服从多数的原则生成预测模型。使用公开的NASA软件缺陷预测数据集进行了仿真实验。实验结果表明,与3种基准方法对比,所提模型在保证预报率的前提下,误报率(PF)降低了10%以上,综合评价指标均有显著提升。该模型的缺陷预测误报率较低,而且具有较高的预测准确率与稳定性。 展开更多
关键词 软件缺陷预测 类不平衡数据 欠抽样 决策树 集成算法
下载PDF
基于Bagging二次加权集成的孤立森林窃电检测算法 被引量:24
16
作者 李国成 陆俊 +2 位作者 王赟 黄瑞 刘谋海 《电力系统自动化》 EI CSCD 北大核心 2022年第2期92-100,共9页
随着智能电网的高速发展,窃电方式呈现多样化,窃电数据也具有难以标注且样本类不平衡的特征。针对窃电数据无标签且类不平衡的窃电检测问题,提出一种基于Bagging二次加权集成的孤立森林窃电检测算法。首先,通过分析居民和商业用户存在... 随着智能电网的高速发展,窃电方式呈现多样化,窃电数据也具有难以标注且样本类不平衡的特征。针对窃电数据无标签且类不平衡的窃电检测问题,提出一种基于Bagging二次加权集成的孤立森林窃电检测算法。首先,通过分析居民和商业用户存在的窃电模式,基于孤立类间相似度最低准则,对各类窃电模式的孤立特征顺序进行优选并训练对应的孤立森林模型;其次,使用加权投票法获得二次集成孤立森林模型,实现了窃电模式不平衡分布条件下的窃电检测。对7种常用学习算法和Bagging异质集成学习算法进行了比较,仿真实验结果表明所提算法的孤立特征顺序优选策略有效提高了无标签且类不平衡条件下的窃电检测效果,二次加权集成策略提高了窃电模式不平衡分布条件下的窃电检测效果。 展开更多
关键词 集成学习 Bagging集成 孤立森林 窃电检测 类不平衡数据
下载PDF
融合生成对抗网络和朴素贝叶斯皮肤病诊断方法 被引量:8
17
作者 商显震 韩萌 +4 位作者 孙毓忠 孙宇宁 陈旭 胡满满 梅御东 《计算机科学与探索》 CSCD 北大核心 2019年第6期1005-1015,共11页
不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在... 不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在皮肤病数据集上训练朴素贝叶斯二分类器作为诊断器,创新性地使用GAN为前者生成补充训练样本,使其训练集正负类样本达到平衡。针对皮肤病诊断多分类问题,提出一种融合生成对抗网络和朴素贝叶斯的多分类诊断方法:使用GAN和朴素贝叶斯训练皮肤病单病种二分类器,并结合了词频-逆文档频率算法(term frequency-inverse document frequency,TF-IDF),将多个二分类器组合成一个多分类器作为诊断器。与六种诊断方法进行了对比实验,提出的两种皮肤病诊断方法准确率和召回率均有提升。 展开更多
关键词 皮肤病诊断 朴素贝叶斯(NB) 词频-逆文档频率(TF-IDF)算法 生成对抗网络(GAN) 类不平衡数据
下载PDF
基于最大局部密度间隔的特征选择方法 被引量:1
18
作者 娄睿 蒋烈辉 王奕森 《计算机工程与设计》 北大核心 2019年第3期699-705,共7页
针对虚拟机数据特点及特征筛选问题,借鉴局部异常因子算法中的"局部"思想,提出基于最大局部密度间隔的特征评估准则,通过最大化正常数据和异常数据的局部密度差异选出有效的特征子集;结合顺序后退搜索策略与提出的特征评估准... 针对虚拟机数据特点及特征筛选问题,借鉴局部异常因子算法中的"局部"思想,提出基于最大局部密度间隔的特征评估准则,通过最大化正常数据和异常数据的局部密度差异选出有效的特征子集;结合顺序后退搜索策略与提出的特征评估准则设计相应的特征选择算法,筛选出有利于分类的虚拟机特征。实验结果表明,所设计的特征选择算法能够有效处理虚拟机的类不平衡数据,筛选出重要的虚拟机数据特征,使数据的检测率和可理解性得到有效提升,相比现有算法具有更好分类效果与更强适用性,在相同条件下具有更小的计算开销。 展开更多
关键词 类不平衡数据 特征选择 局部密度间隔 局部异常因子 评估准则
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部