期刊文献+
共找到880篇文章
< 1 2 44 >
每页显示 20 50 100
基于批数据过采样的中医临床记录四诊描述抽取方法
1
作者 王亚强 李凯伦 +1 位作者 舒红平 蒋永光 《中文信息学报》 CSCD 北大核心 2024年第2期121-131,共11页
中医临床记录四诊描述抽取对中医临床辨证论治的提质增效具有重要的应用价值,然而该任务尚有待探索,类别分布不均衡是该任务面临的关键挑战之一。该文围绕中医临床记录四诊描述抽取任务展开研究,首先构建了中医临床四诊描述抽取语料库;... 中医临床记录四诊描述抽取对中医临床辨证论治的提质增效具有重要的应用价值,然而该任务尚有待探索,类别分布不均衡是该任务面临的关键挑战之一。该文围绕中医临床记录四诊描述抽取任务展开研究,首先构建了中医临床四诊描述抽取语料库;然后基于无标注的中医临床记录微调通用预训练语言模型实现该模型的领域适应;最后利用小规模标注数据,采用批数据过采样算法,完成中医临床记录四诊描述抽取模型的训练。实验结果表明,该文提出的抽取方法的总体性能均优于对比方法,并且与对比方法的最优结果相比,该文方法将少见类别的抽取性能F1值平均提升了2.13%。 展开更多
关键词 中医临床记录 四诊描述抽取 类别分布不均衡 批数据过采样
下载PDF
基于高倍过采样与加窗插值FFT的电力谐波分析
2
作者 张鸿博 熊军华 蔡晓峰 《电力系统保护与控制》 EI CSCD 北大核心 2024年第5期105-115,共11页
为提高谐波分析精度,分析了信号加窗引起的信噪比损失以及AD转换产生的量化误差,阐述了过采样技术提高信噪比的原理。在此基础上,提出了基于高倍过采样和加窗插值快速傅里叶变换(fast Fourier transform, FFT)的谐波分析方法。该方法充... 为提高谐波分析精度,分析了信号加窗引起的信噪比损失以及AD转换产生的量化误差,阐述了过采样技术提高信噪比的原理。在此基础上,提出了基于高倍过采样和加窗插值快速傅里叶变换(fast Fourier transform, FFT)的谐波分析方法。该方法充分利用AD转换器的潜力,以尽量高的采样速率进行AD采样,同时通过均值滤波避免高倍过采样引起的采样数据量激增问题。详细研究了所提谐波分析方法对信号中谐波分量幅值和相位的影响,并给出了简洁实用的谐波幅值和相位校正方法。仿真表明,所提方法可在不增加系统成本的前提下改善加窗插值FFT的抗噪声能力,提高谐波分析精度。 展开更多
关键词 插值FFT 窗函数 谐波分析 量化误差 过采样 校正
下载PDF
利用可信反事实的不平衡数据过采样方法
3
作者 高峰 宋媚 祝义 《计算机工程与应用》 CSCD 北大核心 2024年第5期165-171,共7页
针对传统过采样方法不能充分利用数据集信息的缺陷,提出一种基于反事实(counterfactual,CF)的不平衡数据过采样方法,并进一步对生成的少数类合成样本进行了“可信”清除。其核心思想是依据数据集原有实例特征值合成新样本,相比传统过采... 针对传统过采样方法不能充分利用数据集信息的缺陷,提出一种基于反事实(counterfactual,CF)的不平衡数据过采样方法,并进一步对生成的少数类合成样本进行了“可信”清除。其核心思想是依据数据集原有实例特征值合成新样本,相比传统过采样的插值法,更能充分挖掘数据中的边界决策信息,从而为分类器提供更多的有用信息,提高分类性能。在9个来自KEEL与UCI的不平衡数据集、5种不同分类器(SVM、DT、Logistic、RF、AdaBoost)上与4种传统过采样方法(SMOTE、B1-SMOTE、B2-SMOTE、ADASYN)进行了大量对比实验,结果表明,所提方法具有更高的AUC值、F1值和G-mean值,可以更为有效地解决类不平衡问题。 展开更多
关键词 不平衡数据集 分类器 过采样 反事实(CF)
下载PDF
基于过采样Logistic回归模型的互联网贷款违约预测研究
4
作者 孙玮 周嘉莉 《华北理工大学学报(社会科学版)》 2024年第1期54-61,共8页
在持续增长的居民贷款消费需求刺激下,互联网贷款业务的规模呈现出持续快速扩张的发展态势,发挥机器学习模型在个贷违约预测的作用,控制和防范互联网贷款违约风险,具有十分重要的意义。通过对不同数据集的样本特征进行详细分析,构建个... 在持续增长的居民贷款消费需求刺激下,互联网贷款业务的规模呈现出持续快速扩张的发展态势,发挥机器学习模型在个贷违约预测的作用,控制和防范互联网贷款违约风险,具有十分重要的意义。通过对不同数据集的样本特征进行详细分析,构建个人信用风险评估指标体系,利用具有普适性特征和可解释性特征的Logistic回归模型对个贷违约进行预测。针对原始数据集存在不平衡样本的问题,分别采用过采样和欠采样的重抽样方法获得平衡样本集,调整正则化惩罚力度,选择最优结果的参数来进行建模,得到模型预测结果。最后对如何防范互联网贷款违约风险提出了相关建议。 展开更多
关键词 过采样 LOGISTIC回归模型 互联网贷款 违约预测
下载PDF
基于SeqGAN和Bi-GRU实施过采样的SVD方法
5
作者 刘元坤 宋礼鹏 +1 位作者 朱宇辉 石江雨 《计算机仿真》 2024年第2期500-506,共7页
近年来,基于深度学习的软件漏洞检测方法,在开源C/C++漏洞数据集上取得了97%的准确率。然而,由于漏洞样本占比较低而导致的类不平衡问题,以上方法的误报率和漏报率较高。鉴于SeqGAN的生成策略和Bi-GRU的表征学习能力,提出了基于SeqGAN、... 近年来,基于深度学习的软件漏洞检测方法,在开源C/C++漏洞数据集上取得了97%的准确率。然而,由于漏洞样本占比较低而导致的类不平衡问题,以上方法的误报率和漏报率较高。鉴于SeqGAN的生成策略和Bi-GRU的表征学习能力,提出了基于SeqGAN、Bi-GRU和TextCNN的软件漏洞检测方法。利用SeqGAN对开源C/C++漏洞数据集进行过采样处理以生成过采样漏洞样本,经Bi-GRU挖掘过采样漏洞样本和真实漏洞样本的共有潜在特征,最终提高TextCNN对真实漏洞样本的检测性能。实验结果表明,所提方法在7个开源软件项目的C/C++汇总漏洞数据集上取得了0.9538的F1 score,与TextCNN在应用降采样技术RUS处理后的数据集上的测试结果相比,提高了12.3%;与先进的基于深度学习的软件漏洞检测方法,如VulDeePecker相比,提高了82.5%。 展开更多
关键词 软件漏洞检测 深度学习 过采样 生成对抗网络 循环神经网络 卷积神经网络
下载PDF
考虑过采样器与分类器参数优化的变压器故障诊断策略 被引量:8
6
作者 栗磊 王廷涛 +3 位作者 赫嘉楠 牛健 梁亚波 苗世洪 《电力自动化设备》 EI CSCD 北大核心 2023年第1期209-217,共9页
变压器故障样本的不平衡性使得故障诊断分类准确率低,且容易弱化少数类故障样本的分类效果。对此,采用过采样方法实现故障样本的均衡化,并提出一种考虑过采样器与分类器参数优化的变压器故障诊断策略。首先,搭建变压器故障诊断模型的整... 变压器故障样本的不平衡性使得故障诊断分类准确率低,且容易弱化少数类故障样本的分类效果。对此,采用过采样方法实现故障样本的均衡化,并提出一种考虑过采样器与分类器参数优化的变压器故障诊断策略。首先,搭建变压器故障诊断模型的整体结构,阐述故障诊断的实现过程。在此基础上,提出诊断模型中过采样器、分类器、参数优化器3种主要环节的算法实现:针对过采样器,提出一种基于近邻分布特性的改进合成少数过采样算法实现故障样本的均衡化;针对分类器,采用层次式有向无环图支持向量机算法实现故障样本的多标签分类;针对参数优化器,提出一种双层参数优化方法,上层采用层次搜索算法对过采样倍率寻优,下层采用改进哈里斯鹰算法对支持向量机参数寻优。最后,对所提策略进行算例分析,结果表明,所提策略能够合成质量更高的少数类故障样本,实现故障样本的准确分类。 展开更多
关键词 电力变压器 故障诊断 不平衡样本 过采样 基于近邻分布特性的改进合成少数过采样 层次搜索-改进哈里斯鹰算法
下载PDF
基于融合少数类过采样均衡多分类数据的改进极限学习机的变压器故障诊断方法 被引量:3
7
作者 王艳 李伟 +2 位作者 赵洪山 申宗旺 王寅初 《电网技术》 EI CSCD 北大核心 2023年第9期3799-3807,共9页
针对变压器小概率故障事件导致数据集不均衡时,严重影响故障识别能力的问题,提出一种基于融合少数类过采样(synthetic minority over-sampling technique,SMOTE)算法均衡多分类数据的改进麻雀搜索算法(improved sparrow search algorith... 针对变压器小概率故障事件导致数据集不均衡时,严重影响故障识别能力的问题,提出一种基于融合少数类过采样(synthetic minority over-sampling technique,SMOTE)算法均衡多分类数据的改进麻雀搜索算法(improved sparrow search algorithm,ISSA)优化极限学习机(extreme learning machine,ELM)的变压器故障诊断方法。首先,利用K-means算法对样本空间进行聚类,基于不平衡度选择聚类中心,利用SMOTE算法向聚类簇合成新样本以增强类内特征的聚合性;其次,针对边界区的样本,利用基于不同策略的Borderline-SMOTE算法向聚类簇合成新样本以增大类间特征的差异性;最后,利用基于Tent混沌映射的麻雀搜索算法(sparrow search algorithm,SSA)对极限学习机(extreme learning machine,ELM)模型中的输入权值和隐藏层偏置进行优化,以提高算法的全局搜索能力和模型的诊断精度。基于变压器油色谱数据的故障诊断实验结果表明:所提基于融合SMOTE均衡多分类数据的ISSA-ELM变压器故障诊断方法能够有效改善诊断模型对多数类的偏向问题,进一步提升模型的诊断精度、收敛速度和稳定性,适用于变压器非均衡数据集的多分类故障诊断。 展开更多
关键词 变压器 故障诊断 非均衡数据 合成少数类过采样 麻雀搜索算法 极限学习机
原文传递
基于KNN和自适应的过采样方法
8
作者 张怀啸 陈卓 周必良 《信息与电脑》 2023年第3期93-95,共3页
针对少数类合成过采样技术(Synthetic Minority Oversampling Technique,SMOTE)及其改进算法在不平衡数据分类问题中分类效果不佳,提出了基于K最邻近算法(K-NearestNeighbor,KNN)和自适应的过采样方法(Oversampling Method Based on KNN... 针对少数类合成过采样技术(Synthetic Minority Oversampling Technique,SMOTE)及其改进算法在不平衡数据分类问题中分类效果不佳,提出了基于K最邻近算法(K-NearestNeighbor,KNN)和自适应的过采样方法(Oversampling Method Based on KNN and Adaptive,KAO)。首先,利用KNN去除噪声样本;其次,根据少数类样本K近邻样本中多数类样本数,自适应给少数类样本分配过采样权重;最后,利用新的插值方式生成新样本平衡数据集。在KEEL公开的数据集上进行实验,将提出的KAO算法与SMOTE及其改进算法进行对比,在F1值和g-mean上都有所提升。 展开更多
关键词 不平衡数据分类 少数类合成过采样技术(SMOTE) K最邻近算法(KNN) 自适应 过采样
下载PDF
类不平衡数据的EM聚类过采样算法 被引量:3
9
作者 谢子鹏 包崇明 +2 位作者 周丽华 王崇云 孔兵 《计算机科学与探索》 CSCD 北大核心 2023年第1期228-237,共10页
针对分类任务中的不平衡数据集造成的分类性能低下的问题,提出了类不平衡数据的EM聚类过采样算法,通过过采样提高少数类样本数量,从根本上解决数据不平衡问题。首先,算法采用聚类技术,通过欧式距离衡量样本间的相似度,选取每个聚类簇的... 针对分类任务中的不平衡数据集造成的分类性能低下的问题,提出了类不平衡数据的EM聚类过采样算法,通过过采样提高少数类样本数量,从根本上解决数据不平衡问题。首先,算法采用聚类技术,通过欧式距离衡量样本间的相似度,选取每个聚类簇的中心点作为过采样点,一定程度解决了样本的重要程度不够的问题;其次,通过直接在少数类样本空间上进行采样,可较好解决SMOTE、Cluster-SMOTE等方法对聚类空间没有针对性的问题;同时,通过对少数类样本数量的30%进行过采样,有效解决基于Cluster聚类的欠采样盲目追求两类样本数量平衡和SMOTE等算法没有明确采样率的问题。在公开的24个类不平衡数据集上进行了实验,验证了方法的有效性。 展开更多
关键词 分类任务 不平衡数据集 类不平衡 过采样 聚类
下载PDF
变压器不平衡样本故障诊断的过采样和代价敏感算法 被引量:1
10
作者 汤健 侯慧娟 +1 位作者 盛戈皞 江秀臣 《高压电器》 CAS CSCD 北大核心 2023年第6期93-102,共10页
基于神经网络的变压器故障诊断方法是评估变压器状态的重要方法,然而该方法在处理各状态类别间样本数量不平衡的数据集时,各类型状态识别效果差距较大,识别结果更多偏向多数类样本。文中基于过采样方法和代价敏感算法,针对最大不平衡度... 基于神经网络的变压器故障诊断方法是评估变压器状态的重要方法,然而该方法在处理各状态类别间样本数量不平衡的数据集时,各类型状态识别效果差距较大,识别结果更多偏向多数类样本。文中基于过采样方法和代价敏感算法,针对最大不平衡度为266∶19的油色谱数据集,构建了一种用于变压器故障诊断的BPNN模型。首先,基于SMOTE算法对样本数据集进行有选择的扩充,该算法结合了近邻分析和线性插值的思想,减少了样本扩充所导致的模型训练的过拟合现象。然后,构建五层神经网络,并引入Focal Loss函数取代交叉熵函数作为本模型的代价损失函数,从而更关注于少数类样本的识别和区分。实验结果表明,文中模型相比于原始BPNN模型在总体准确率上提升了6.48%,各少数类样本类别的F1分数分别提高了25.7%、11.4%、3%、26.1%、1.8%、15.3%和33.3%,并且算法收敛更快。在和传统机器学习方法的对比中,文中模型比基于KNN算法和随机森林算法模型的整体准确率分别提高了16.53%和7.98%。 展开更多
关键词 油中溶解气体分析 故障诊断 不平衡样本 过采样 代价敏感 神经网络
下载PDF
基于Tomek链的边界少数类样本合成过采样方法 被引量:1
11
作者 陶佳晴 贺作伟 +2 位作者 冷强奎 翟军昌 孟祥福 《计算机应用研究》 CSCD 北大核心 2023年第2期463-469,共7页
在类别不平衡数据集中,由于靠近类边界的样本更容易被错分,因此准确识别边界样本对分类具有重要意义。现有方法通常采用K近邻来标识边界样本,准确率有待提高。针对上述问题,提出一种基于Tomek链的边界少数类样本合成过采样方法。首先,... 在类别不平衡数据集中,由于靠近类边界的样本更容易被错分,因此准确识别边界样本对分类具有重要意义。现有方法通常采用K近邻来标识边界样本,准确率有待提高。针对上述问题,提出一种基于Tomek链的边界少数类样本合成过采样方法。首先,计算得到类间距离互为最近的样本形成Tomek链;然后,根据Tomek链标识出位于类间边界处的少数类样本;接下来,利用合成少数类过采样技术(SMOTE)中的线性插值机制在边界样本及其少数类近邻间进行过采样,并最终实现数据集的平衡。实验对比了八种采样方法,结果表明所提方法在大部分数据集上均获得了更高的G-mean和F_(1)值。 展开更多
关键词 不平衡数据分类 合成过采样 边界样本 K近邻 Tomek链
下载PDF
多层次过采样集成的不平衡数据缺陷预测模型 被引量:2
12
作者 饶珍丹 李英梅 +1 位作者 董昊 张彤 《小型微型计算机系统》 CSCD 北大核心 2023年第4期888-896,共9页
针对软件缺陷预测中不平衡数据的分类问题,提出了一种基于过采样和集成学习的类不平衡软件缺陷预测模型XG-AJCC(AJCC-Ram+XGBoost).在预处理阶段,提出了AJCC-Ram(Adaptive Judgment Cure Clustering Random Sampling)多层次过采样方法.... 针对软件缺陷预测中不平衡数据的分类问题,提出了一种基于过采样和集成学习的类不平衡软件缺陷预测模型XG-AJCC(AJCC-Ram+XGBoost).在预处理阶段,提出了AJCC-Ram(Adaptive Judgment Cure Clustering Random Sampling)多层次过采样方法.该方法基于改进的ADASYN自适应过采样和CURE-SMOTE过采样分别在类边缘和类中心层面生成新样本,通过CLNI方法对样本生成后的数据集进行噪声过滤及清理.在模型构建阶段,与集成算法XGBoost(eXtreme Gradient Boosting)相结合形成最终的不平衡数据缺陷预测模型.本文在AEEEM数据集和NASA数据集中进行了验证,实验结果表明:较于经典的采样方法和采样集成预测模型,在F1指标上AJCC-Ram过采样方法及XG-AJCC采样集成算法模型均能够取得有效的预测结果. 展开更多
关键词 软件缺陷预测 类不平衡 过采样 XGBoost
下载PDF
融合条件熵和TF-IDF的过采样方法 被引量:1
13
作者 胡宏章 邱云飞 郭蕾 《计算机时代》 2023年第6期48-53,共6页
针对非均衡数据带来的分类器对少数类样本学习不充分的问题,提出融合条件熵和TF-IDF的过采样方法。该方法首先指定参数,组合数据特征,然后计算每种组合方式下的条件熵,判断每种组合条件下类的不确定性,同时为了避免低词频带来的噪音数据... 针对非均衡数据带来的分类器对少数类样本学习不充分的问题,提出融合条件熵和TF-IDF的过采样方法。该方法首先指定参数,组合数据特征,然后计算每种组合方式下的条件熵,判断每种组合条件下类的不确定性,同时为了避免低词频带来的噪音数据,将条件熵结果乘上1/TF-IDF因子,再将结果按升序排序,最后结合参数选定过采样依据的特征组合,用以构造新数据,使正负样本平衡。将所提方法在7个不均衡数据集上进行实验仿真,结果表明,所提方法比其他方法在F-measure、G-mean和AUC等评价指标上均有一定提高。 展开更多
关键词 非均衡数据 条件熵 TF-IDF 过采样
下载PDF
改进边界分类的Borderline-SMOTE过采样方法
14
作者 马贺 宋媚 祝义 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期1003-1012,共10页
针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新... 针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新该样本需生成的样本数,最后在近邻中根据合成因子挑选距离最近的top-Z少数类样本进行新样本生成.将提出的方法与八种采样方法在KNN和SVM两种分类器、10个KEEL不平衡数据集上进行对比实验,结果表明,提出的方法在大部分数据集上的F1,G-mean,AUC(Area under Curve)均获得最优值,且F1与AUC的Friedman排名最优,证明所提方法和其余采样方法相比,在处理不平衡数据中的边界样本分类问题时有更好的表现,通过合成因子设定一定的约束条件与分配策略,可以为同类研究提供思路. 展开更多
关键词 不平衡数据 边界样本 类重叠 Borderline-SMOTE 过采样
下载PDF
基于聚类过采样和自动编码器的网络入侵检测方法
15
作者 蹇诗婕 刘岳 +3 位作者 姜波 卢志刚 刘玉岭 刘宝旭 《信息安全学报》 CSCD 2023年第6期121-134,共14页
近年来,随着互联网技术的不断发展,入侵检测在维护网络空间安全方面发挥着越来越重要的作用。但是,由于网络入侵行为的数据稀疏性,已有的检测方法对于海量流量数据的检测效果较差,模型准确率、F-measure等指标数值较低,并且高维数据处... 近年来,随着互联网技术的不断发展,入侵检测在维护网络空间安全方面发挥着越来越重要的作用。但是,由于网络入侵行为的数据稀疏性,已有的检测方法对于海量流量数据的检测效果较差,模型准确率、F-measure等指标数值较低,并且高维数据处理的成本过高。为了解决这些问题,本文提出了一种基于稀疏异常样本数据场景下的新型深度神经网络入侵检测方法,该方法能够有效地识别不平衡数据集中的异常行为。本文首先使用k均值综合少数过采样方法来处理不平衡的流量数据,解决网络流量数据类别分布不平衡问题,平衡网络流量数据分布。再采用自动编码器来处理海量高维数据并训练检测模型,来提升海量高维流量中异常行为的检测精度,并在两个真实典型的入侵检测数据集上进行了大量的实验。实验结果表明,本文所提出的方法在两个真实典型数据集上的检测准确率分别为99.06%和99.16%,F-measure分别为99.15%和98.22%。相比于常用的欠采样和过采样方法,k均值综合少数过采样技术能够有效地解决网络流量数据类别分布不平衡的问题,提升模型对低频攻击行为的检测效果。同时,与已有的网络入侵检测方法相比,本文所提出的方法在准确率、F-measure和检测性能上均有明显提升,证明了本文所提出的方法对于海量网络流量数据的检测具有较高的检测精度和良好的应用前景。 展开更多
关键词 入侵检测 海量流量数据 类别不平衡 自动编码器 k均值综合少数过采样技术
下载PDF
基于过采样和级联机器学习的电网虚假数据注入攻击识别 被引量:2
16
作者 董运昌 王启明 +3 位作者 曹杰 杨渊博 余通 薄小永 《电力系统自动化》 EI CSCD 北大核心 2023年第8期179-188,共10页
虚假数据注入攻击(FDIA)因其高隐蔽性和破坏性,对电网的安全稳定运行构成严重威胁。攻击样本与正常样本的不平衡特性会影响模型的攻击检测精度,同时多类型FDIA的出现使得现有算法在识别攻击种类上具有局限性。针对上述问题,文中提出基... 虚假数据注入攻击(FDIA)因其高隐蔽性和破坏性,对电网的安全稳定运行构成严重威胁。攻击样本与正常样本的不平衡特性会影响模型的攻击检测精度,同时多类型FDIA的出现使得现有算法在识别攻击种类上具有局限性。针对上述问题,文中提出基于过采样和级联机器学习的电网多类型FDIA识别方法。首先,探究了电网耦合交互过程中的FDIA攻击路径,分析了多类型攻击行为;然后,通过聚类、过滤和线性插值过程生成攻击伪样本,设计基于K均值合成少数类过采样技术(K-means-Smote)的量测数据平衡算法;最后,结合细粒度特征扫描和多个分类器的集成学习策略,构建基于改进级联机器学习的多类型FDIA识别模型。仿真实验表明,所提识别方法可有效辨识多种FDIA类型,且辨识精度高、误报率较低、性能稳定,在小样本下性能仍然出色。 展开更多
关键词 电力信息物理系统 虚假数据注入攻击 攻击检测 过采样 级联机器学习
下载PDF
基于生成式对抗网络的类不平衡软件缺陷预测过采样方法
17
作者 张恒伟 贾修一 《南京理工大学学报》 CAS CSCD 北大核心 2023年第2期174-182,共9页
为了解决软件缺陷预测中的类不平衡问题,该文提出了一种新颖的基于生成式对抗网络(Generative adversarial networks,GAN)的过采样方法。GAN网络能够充分利用样本分布的空间关系,挖掘出样本之间隐藏的一些关联信息,通过生成器和判别器... 为了解决软件缺陷预测中的类不平衡问题,该文提出了一种新颖的基于生成式对抗网络(Generative adversarial networks,GAN)的过采样方法。GAN网络能够充分利用样本分布的空间关系,挖掘出样本之间隐藏的一些关联信息,通过生成器和判别器交替优化的方式使得生成的新样本更加合理科学。在26个不平衡的数据集上进行了试验,并与一些过采样方法以及未采样的方法在8个分类器上进行了广泛比较。试验结果表明,该文方法在Precision、Recall、F-measure和G-mean上都取得了最好的效果。 展开更多
关键词 软件缺陷预测 类不平衡 过采样技术 生成式对抗网络
下载PDF
基于梯度惩罚生成对抗网络的过采样算法
18
作者 陶家亮 魏国亮 +2 位作者 宋燕 窦军 穆伟蒙 《上海理工大学学报》 CAS CSCD 北大核心 2023年第3期235-243,共9页
在不平衡数据分类问题中,为了更注重学习原始样本的概率密度分布,提出基于梯度惩罚生成对抗网络的过采样算法(OGPG)。该算法首先引入生成对抗网络(GAN),有效地学习原始数据的概率分布;其次,采用梯度惩罚对判别器输入项的梯度二范数进行... 在不平衡数据分类问题中,为了更注重学习原始样本的概率密度分布,提出基于梯度惩罚生成对抗网络的过采样算法(OGPG)。该算法首先引入生成对抗网络(GAN),有效地学习原始数据的概率分布;其次,采用梯度惩罚对判别器输入项的梯度二范数进行约束,降低了GAN易出现的过拟合和梯度消失,合理地生成新样本。实验部分,在14个公开数据集上运用k近邻和决策树分类器对比其他过采样算法,在评价指标上均有显著提升,并利用Wilcoxon符号秩检验验证了该算法与对比算法在统计学上的差异。结果表明该算法具有良好的有效性和通用性。 展开更多
关键词 不平衡数据 过采样算法 概率密度分布 生成对抗网络 梯度惩罚
下载PDF
基于DBSCAN聚类的不平衡数据集过采样方法
19
作者 杜博雅 孙静春 《计算机仿真》 北大核心 2023年第10期412-416,共5页
在网络流量检测中,经常出现数据类别不平衡的情况,为改善不平衡数据集的分类效果,提出一种基于DBSCAN聚类的过采样方法。方法首先对少数类数据进行聚类,之后根据簇的稀疏程度以及簇中少数类样本与多数类样本之间的距离,为每一个少数类... 在网络流量检测中,经常出现数据类别不平衡的情况,为改善不平衡数据集的分类效果,提出一种基于DBSCAN聚类的过采样方法。方法首先对少数类数据进行聚类,之后根据簇的稀疏程度以及簇中少数类样本与多数类样本之间的距离,为每一个少数类样本点分配过采样比例,并生成合成样本。为进一步检验该算法,选择CIC-IDS2017数据集进行测试,并与随机过采样和SMOTE算法进行对比,实验结果表明,所提出的算法更优,可以有效地改进不平衡数据集的分类效果。 展开更多
关键词 不平衡数据集 聚类 过采样 逻辑模型
下载PDF
基于自适应聚类过采样的软件缺陷预测研究
20
作者 贾燕华 李英梅 《哈尔滨师范大学自然科学学报》 CAS 2023年第2期45-50,共6页
软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的性能与训练数据质量有着密切关系.针对软件缺陷预测中数据类不平衡问题,该文提出一种结合局部密度和K-Means++聚类的自适应判断过采样方法(local density adaptive oversam... 软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的性能与训练数据质量有着密切关系.针对软件缺陷预测中数据类不平衡问题,该文提出一种结合局部密度和K-Means++聚类的自适应判断过采样方法(local density adaptive oversampling based on K-Means++,LDKMAS).该方法首先利用K-Means++聚类算法为少数类样本聚类,获得多个子簇;其次计算各子簇中样本的局部密度,并合计为子簇密度;最后根据子簇密度自适应确定各子簇的过采样量,插值合成新样本直至数据集平衡.将LDKMAS算法与其他经典的过采样方法进行对比实验,用不同指标评价预测效果.实验表明,该文算法的软件缺陷预测效果更为出色,展现了较之于其他采样方法在软件缺陷预测不平衡数据处理上的优势. 展开更多
关键词 软件缺陷预测 类不平衡 局部密度 过采样
下载PDF
上一页 1 2 44 下一页 到第
使用帮助 返回顶部