期刊文献+
共找到148篇文章
< 1 2 8 >
每页显示 20 50 100
类不平衡的公共和标签特定特征多标签分类
1
作者 张海翔 李培培 胡学钢 《计算机技术与发展》 2024年第2期46-52,共7页
多标签分类主要解决实例数据对应多个标签问题,现有多标签方法大多利用所有特征组成的相同数据表示来区分所有标签,由于每个标签自身特点不同,统一的特征不能完全区分标签,给模型训练带来负面作用和时间成本增加,如何利用对每个标签而... 多标签分类主要解决实例数据对应多个标签问题,现有多标签方法大多利用所有特征组成的相同数据表示来区分所有标签,由于每个标签自身特点不同,统一的特征不能完全区分标签,给模型训练带来负面作用和时间成本增加,如何利用对每个标签而言最具有辨别力的特征来提高模型分类性能成为一种难题,此外现实中类不平衡问题同样会导致多标签学习模型的性能下降。基于此,提出一种类不平衡的公共和标签特定特征多标签分类方法。首先,找到种子实例的最近邻居,然后通过插值技术得到合成实例的特征来解决类不平衡问题;其次,为了找出对每个标签最具代表性的特征,引入l1,l2,1正则化约束系数矩阵提取标签的特定特征和公共特征;最后,使用标签相关性实现关联标签的模型输出相似,实例相关性保证关联特征共享对应标签分布信息提高分类性能。实验表明所提方法与其他多标签分类方法相比获得了更好的分类精度。 展开更多
关键词 多标签分 类不平衡 公共特征 标签特定特征 标签相关性
下载PDF
类不平衡的特征演化流在线学习方法
2
作者 陈燕菲 刘三民 《计算机工程》 CAS CSCD 北大核心 2024年第9期92-103,共12页
特征演化流是指特征空间以任意形式动态变化的数据流,其中同时存在数据类别分布不平衡的现象,这给数据流分类任务带来巨大挑战。在线学习是数据流挖掘的有效工具之一,但目前鲜有在线学习框架可同时处理数据流中特征演化和类不平衡问题... 特征演化流是指特征空间以任意形式动态变化的数据流,其中同时存在数据类别分布不平衡的现象,这给数据流分类任务带来巨大挑战。在线学习是数据流挖掘的有效工具之一,但目前鲜有在线学习框架可同时处理数据流中特征演化和类不平衡问题。因此,提出一种类不平衡的特征演化流在线学习方法。首先,对实例特征进行划分,并将分类器分别投影至对应特征空间,结合在线被动-主动算法分别训练不同特征空间下的分类器;然后,将代价敏感指标最小化问题融入模型在线优化目标函数中,根据不平衡率定义新的代价敏感因子,动态调整类别权重以解决类不平衡问题;最后,为提高分类器泛化性能,利用变异系数筛选出重要特征,从而对分类器稀疏截断处理。大量仿真实验结果表明,该方法在11个UCI数据集上均获得较高的准确率、几何均值和马修斯相关系数,分别平均提升约0.021、0.058和0.072,验证了所提方法对特征演化流具有良好的自适应能力,同时能有效处理特征演化流中的类不平衡问题。 展开更多
关键词 数据流挖掘 特征演化 类不平衡 在线学习 代价敏感学习
下载PDF
采用同态加密的联邦学习中极端类不平衡问题解决方法
3
作者 张晶 李传文 《小型微型计算机系统》 CSCD 北大核心 2024年第7期1592-1598,共7页
联邦学习是一种新兴的用于隐私保护的分布式机器学习框架.然而,在联邦学习模式下训练的模型通常比在标准集中式学习模式下训练的模型性能差,特别是在训练数据类不平衡的情况下.为了在保护客户隐私的同时解决联邦学习中的类别不平衡问题... 联邦学习是一种新兴的用于隐私保护的分布式机器学习框架.然而,在联邦学习模式下训练的模型通常比在标准集中式学习模式下训练的模型性能差,特别是在训练数据类不平衡的情况下.为了在保护客户隐私的同时解决联邦学习中的类别不平衡问题,提出了一种采用同态加密的整体数据分布评估方法.针对联邦学习中极端类不平衡问题,在评估得到的整体数据分布之上,每个客户对本地数据通过过采样和欠采样结合的方式进行样本采样.实验结果表明,本文提出的方法在不泄露客户隐私的前提下,提高了类不平衡条件下联邦学习模型的收敛速度和分类性能. 展开更多
关键词 隐私保护 极端不平衡 类不平衡 联邦学习
下载PDF
针对样本类不平衡的深度残差网络电力系统暂态稳定评估方法
4
作者 刘颂凯 党喜 +3 位作者 崔梓琪 杨超 阮肇华 袁铭洋 《智慧电力》 北大核心 2024年第1期116-123,共8页
系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造... 系统的量测数据可能受到噪声以及样本类分布不平衡问题的影响,导致基于数据驱动的暂态稳定评估模型性能下降。提出一种针对样本类不平衡的的深度残差网络电力系统暂态稳定评估方法。首先,利用改进过采样技术为滤除噪声的少数类样本构造所需的新样本,改善样本类不平衡问题,并减少噪声的影响;然后,基于深度残差网络构建电力系统暂态稳定评估模型,解决梯度消失导致的模型性能退化问题,提高模型的鲁棒性和准确性;最后,在新英格兰10机39节点和47机140节点系统上的仿真结果表明,所提方法能减小噪声干扰、降低不平衡数据集所带来的影响和减少计算复杂度。 展开更多
关键词 暂态稳定评估 噪声问题 样本分布不平衡 改进合成少数过采样技术 深度残差网络
下载PDF
类不平衡对软件缺陷预测模型稳定性和预测性能的影响分析方法
5
作者 张艳梅 植胜林 +1 位作者 姜淑娟 袁冠 《电子学报》 EI CAS CSCD 北大核心 2023年第8期2076-2087,共12页
本文提出一种类不平衡对软件缺陷预测模型稳定性和预测性能的影响分析方法 .首先,使用欠采样方法将原数据集构造成一组不平衡率小于原数据集本身不平衡率的新数据集.其中,在构造数据集时使用固定种子,保证同一个数据集构造的同一个不平... 本文提出一种类不平衡对软件缺陷预测模型稳定性和预测性能的影响分析方法 .首先,使用欠采样方法将原数据集构造成一组不平衡率小于原数据集本身不平衡率的新数据集.其中,在构造数据集时使用固定种子,保证同一个数据集构造的同一个不平衡率的数据集中的数据相同,以减少每次运行结果的随机性.其次,以MCC值作为预测模型的性能评价指标,将每次产生的新数据集放入模型中的分类算法进行训练预测评价,获得当前数据集不同不平衡率下的MCC值,并提出稳定性评价指标.实验结果表明:与AUC相比,MCC更适合作为类不平衡情况下软件缺陷预测模型稳定性的评价指标;对于软件缺陷预测性能稳定性,代价敏感模型表现优于集成模型. 展开更多
关键词 类不平衡 缺陷预测 稳定性 预测性能 评价指标
下载PDF
类不平衡数据的EM聚类过采样算法 被引量:7
6
作者 谢子鹏 包崇明 +2 位作者 周丽华 王崇云 孔兵 《计算机科学与探索》 CSCD 北大核心 2023年第1期228-237,共10页
针对分类任务中的不平衡数据集造成的分类性能低下的问题,提出了类不平衡数据的EM聚类过采样算法,通过过采样提高少数类样本数量,从根本上解决数据不平衡问题。首先,算法采用聚类技术,通过欧式距离衡量样本间的相似度,选取每个聚类簇的... 针对分类任务中的不平衡数据集造成的分类性能低下的问题,提出了类不平衡数据的EM聚类过采样算法,通过过采样提高少数类样本数量,从根本上解决数据不平衡问题。首先,算法采用聚类技术,通过欧式距离衡量样本间的相似度,选取每个聚类簇的中心点作为过采样点,一定程度解决了样本的重要程度不够的问题;其次,通过直接在少数类样本空间上进行采样,可较好解决SMOTE、Cluster-SMOTE等方法对聚类空间没有针对性的问题;同时,通过对少数类样本数量的30%进行过采样,有效解决基于Cluster聚类的欠采样盲目追求两类样本数量平衡和SMOTE等算法没有明确采样率的问题。在公开的24个类不平衡数据集上进行了实验,验证了方法的有效性。 展开更多
关键词 任务 不平衡数据集 类不平衡 过采样
下载PDF
基于生成式对抗网络的类不平衡软件缺陷预测过采样方法 被引量:1
7
作者 张恒伟 贾修一 《南京理工大学学报》 CAS CSCD 北大核心 2023年第2期174-182,共9页
为了解决软件缺陷预测中的类不平衡问题,该文提出了一种新颖的基于生成式对抗网络(Generative adversarial networks,GAN)的过采样方法。GAN网络能够充分利用样本分布的空间关系,挖掘出样本之间隐藏的一些关联信息,通过生成器和判别器... 为了解决软件缺陷预测中的类不平衡问题,该文提出了一种新颖的基于生成式对抗网络(Generative adversarial networks,GAN)的过采样方法。GAN网络能够充分利用样本分布的空间关系,挖掘出样本之间隐藏的一些关联信息,通过生成器和判别器交替优化的方式使得生成的新样本更加合理科学。在26个不平衡的数据集上进行了试验,并与一些过采样方法以及未采样的方法在8个分类器上进行了广泛比较。试验结果表明,该文方法在Precision、Recall、F-measure和G-mean上都取得了最好的效果。 展开更多
关键词 软件缺陷预测 类不平衡 过采样技术 生成式对抗网络
下载PDF
处理多类不平衡数据的SVM分类算法 被引量:7
8
作者 李珍香 王文剑 郭虎升 《计算机工程与设计》 CSCD 北大核心 2014年第7期2499-2503,共5页
针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其... 针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其处理数据时减少小区块的影响;降低数据不平衡度以优化分类器组;在扩展的数据集上训练SVM分类器。标准数据集上的实验结果表明,与几种经典的算法相比,SS-SVM在多类不平衡数据分类上可获得令人满意的分类结果,对少类数据分类精度要求较高的问题尤为有效。 展开更多
关键词 类不平衡数据 支持向量机 空间扩展 小区快 上采样 SS-SVM算法
下载PDF
基于CPD-SMOTE的类不平衡数据分类算法研究 被引量:7
9
作者 彭如香 杨涛 +2 位作者 孔华锋 姜国庆 凡友荣 《计算机应用与软件》 北大核心 2018年第12期259-262,268,共5页
类不平衡现象普遍存在于不同应用领域中,如金融欺诈、网络入侵、垃圾邮件过滤、医学检测,直接采用传统的学习分类算法,分类准确率较低。针对类不平衡情况对分类器的影响,基于传统过采样算法SMOTE(Synthetic Minority Oversampling Techn... 类不平衡现象普遍存在于不同应用领域中,如金融欺诈、网络入侵、垃圾邮件过滤、医学检测,直接采用传统的学习分类算法,分类准确率较低。针对类不平衡情况对分类器的影响,基于传统过采样算法SMOTE(Synthetic Minority Oversampling Technique)算法处理类不平衡的有效性,致力进一步提升SMOTE算法性能,提出一种面向类不平衡数据集分类的改进型SMOTE算法——CPD-SMOTE算法。通过考虑训练集小样本的特征、位置及其周围样本分布,来确定小样本的强相关邻居集,以此作为SMOTE最近邻居集,产生新的小样本。实验结果表明,CPD-SMOTE算法在处理不平衡数据集上相比SMOTE、Borderline-SMOTE、ADASYN、LN-SMOTE等算法有所提高。 展开更多
关键词 SMOTE 类不平衡 算法
下载PDF
改进的SVM解决背景知识数据中的类不平衡 被引量:6
10
作者 王伟 薛安荣 刘峰 《计算机应用研究》 CSCD 北大核心 2011年第8期2902-2904,2908,共4页
针对背景知识数据集中存在的类不平衡对分类器的影响,根据背景知识数据集样本量小、数据维数高的特性分析了目前各种方法在解决背景知识数据中的类不平衡问题时的缺陷,提出了一种基于分类后处理的改进SVM算法。改进算法引入权重参数调整... 针对背景知识数据集中存在的类不平衡对分类器的影响,根据背景知识数据集样本量小、数据维数高的特性分析了目前各种方法在解决背景知识数据中的类不平衡问题时的缺陷,提出了一种基于分类后处理的改进SVM算法。改进算法引入权重参数调整SVM的分类决策函数,提高少类样本对分类器的贡献,使分类平面向多类样本倾斜,从而解决类不平衡对SVM造成的影响。在MAROB数据集上的实验表明,改进算法对少类的预测效果要优于传统的机器学习算法。 展开更多
关键词 类不平衡 支持向量机 背景知识 恐怖行为方式预测 MAROB
下载PDF
基于留一交叉验证的类不平衡危害预评估策略 被引量:5
11
作者 于化龙 倪军 徐森 《小型微型计算机系统》 CSCD 北大核心 2012年第10期2287-2292,共6页
近年来,类不平衡问题已逐渐成为人工智能﹑机器学习和数据挖掘等领域的研究热点,目前已有大量实用有效的方法.然而,近期的研究结果却表明,并非所有的不平衡数据分类任务都是有害的,在无害的任务上采用类不平衡学习算法将很难提高,甚至... 近年来,类不平衡问题已逐渐成为人工智能﹑机器学习和数据挖掘等领域的研究热点,目前已有大量实用有效的方法.然而,近期的研究结果却表明,并非所有的不平衡数据分类任务都是有害的,在无害的任务上采用类不平衡学习算法将很难提高,甚至会降低分类的性能,同时可能大幅度增加训练的时间开销.针对此问题,提出了一种危害预评估策略.该策略采用留一交叉验证法(LOOCV,Leave-one-out cross validation)测试训练集的分类性能,并据此计算一种称为危害测度(HM,Harmful-ness Measure)的新指标,用以量化危害的大小,从而为学习算法的选择提供指导.通过8个类不平衡数据集对所提策略进行了验证,表明该策略是有效和可行的. 展开更多
关键词 类不平衡 留一交叉验证 危害测度 预评估
下载PDF
一种基于类不平衡学习的情感分析方法 被引量:3
12
作者 李芳 曲豫宾 +2 位作者 陈翔 李龙 杨帆 《吉林大学学报(理学版)》 CAS 北大核心 2021年第4期929-935,共7页
针对网络评论中普遍存在的负面评论较少而影响力却较大的类不平衡问题,提出一种基于类不平衡学习的情感分析方法.该方法利用深度学习训练过程中的概率输出,以计算样例的信息熵作为影响因子构建交叉信息熵损失函数.在IMDB公开数据集上进... 针对网络评论中普遍存在的负面评论较少而影响力却较大的类不平衡问题,提出一种基于类不平衡学习的情感分析方法.该方法利用深度学习训练过程中的概率输出,以计算样例的信息熵作为影响因子构建交叉信息熵损失函数.在IMDB公开数据集上进行实验验证的结果表明,基于集成信息熵损失函数的双向长短期记忆网络能处理类不平衡问题;对数据的统计分析结果表明,该策略能提升基于双向长短期记忆网络的评论情感极性分类性能.针对AUC(area under curve)指标,使用集成信息熵损失函数的双向长短期记忆网络模型比未考虑类不平衡的深度学习模型在中位数上最多提升15.3%. 展开更多
关键词 文本分 长短期记忆网络 类不平衡 交叉熵损失函数
下载PDF
一种面向多类不平衡协议流量的改进AdaBoost.M2算法 被引量:4
13
作者 张仁斌 张杰 吴佩 《计算机应用研究》 CSCD 北大核心 2019年第6期1863-1867,共5页
针对AdaBoost.M2算法在解决多类不平衡协议流量的分类问题时存在不足,提出一种适用于因特网协议流量多类不平衡分类的集成学习算法RBWS-ADAM2,本算法在AdaBoost.M2每次迭代过程中设计了基于权重的随机平衡重采样策略对训练数据进行预处... 针对AdaBoost.M2算法在解决多类不平衡协议流量的分类问题时存在不足,提出一种适用于因特网协议流量多类不平衡分类的集成学习算法RBWS-ADAM2,本算法在AdaBoost.M2每次迭代过程中设计了基于权重的随机平衡重采样策略对训练数据进行预处理,该策略利用随机设置采样平衡点的重采样方式来更改多数类和少数类的样本数目占比,以构建多个具有差异性的训练集,并将样本权重作为样本筛选的依据,尽可能保留高权重样本,以加强对此类样本的学习。在国际公开的协议流量数据集上将RBWS-ADAM2算法与其他类似算法进行实验比较表明,相比于其他算法,该算法不仅对部分少数类的F-measure有较大提升,更有效提高了集成分类器的总体G-mean和总体平均F-measure,明显增强了集成分类器的整体性能。 展开更多
关键词 流量分 集成学习算法 类不平衡 泛化性能
下载PDF
基于GAN-Cross的工控系统类不平衡数据异常检测 被引量:2
14
作者 顾兆军 刘婷婷 +1 位作者 高冰 隋翯 《信息网络安全》 CSCD 北大核心 2022年第8期81-89,共9页
工业控制系统异常检测存在类不平衡问题,导致通用分类器很难实现异常数据的精准识别。目前,针对类不平衡数据,常用采样方法实现各类数据的平衡,以提高分类器性能。但传统采样方法对数据集特征敏感,采样效果稳定性差,异常检测精度波动大... 工业控制系统异常检测存在类不平衡问题,导致通用分类器很难实现异常数据的精准识别。目前,针对类不平衡数据,常用采样方法实现各类数据的平衡,以提高分类器性能。但传统采样方法对数据集特征敏感,采样效果稳定性差,异常检测精度波动大。文章基于生成式对抗网络(Generative Adversarial Network,GAN),提出一种GAN-Cross采样模型,该模型可以学习目标数据的概率分布,并生成相似概率分布的数据,从而改善数据的平衡性。同时,文章在生成器和判别器中增加了交叉层,从而更好地实现特征提取。最后文章将该模型与随机森林、K-近邻、高斯朴素贝叶斯和支持向量机4种经典分类器进行组合,在4个公开类不平衡数据集上与其他4种常规采样方法进行比较。实验结果表明,与传统采样方法相比,该模型能够显著提高分类器对类不平衡数据的异常检测能力。 展开更多
关键词 工业控制系统 类不平衡数据 生成式对抗网络 采样方法 异常检测
下载PDF
类不平衡数据的卡方聚类算法研究 被引量:4
15
作者 刘欢 胡德敏 《软件》 2019年第4期7-10,共4页
K-means型算法在处理类不平衡数据时趋向于形成大小相同的簇,是"均匀效应"。针对这一问题诸多研究者提出了不同的聚类算法,这些方法针对簇样本数量不平衡特性,存在精度和效率问题。本文以卡方距离为基础提出了一种类平衡数据... K-means型算法在处理类不平衡数据时趋向于形成大小相同的簇,是"均匀效应"。针对这一问题诸多研究者提出了不同的聚类算法,这些方法针对簇样本数量不平衡特性,存在精度和效率问题。本文以卡方距离为基础提出了一种类平衡数据的聚类算法,利用均值消除受簇均值水平影响的特性度量样本相似性,解决类不平衡数据中"均匀效应"问题,给出了聚类目标函数,形成一种EM型聚类优化算法。在UCI实际数据集上进行了实验,结果表明本文所提出的算法提高了类不平衡数据的聚类精度,降低了"均匀效应"对聚类结果的影响。 展开更多
关键词 数据挖掘 类不平衡 卡方距离 均匀效应
下载PDF
极限学习机类不平衡数据学习算法研究 被引量:2
16
作者 唐晓芬 陈莉 《计算机应用研究》 CSCD 北大核心 2018年第10期2990-2993,3002,共5页
针对目前提出的Boosting提升的加权极限学习机算法用各类总分类性能作为算法的优化目标,算法对大类样本具有性能偏向性,而且没有考虑数据中包含噪声及噪点时算法对分类性能的影响,提出基于AdaBoost提升的WELM算法。该算法利用考虑各类... 针对目前提出的Boosting提升的加权极限学习机算法用各类总分类性能作为算法的优化目标,算法对大类样本具有性能偏向性,而且没有考虑数据中包含噪声及噪点时算法对分类性能的影响,提出基于AdaBoost提升的WELM算法。该算法利用考虑各类样本分布不平衡特性的误差计算方式并对误差进行了sigmoid运算,提高了算法的对大类样本和小类样本的识别率及算法的抗噪声能力。通过在15个UCI不平衡数据集进行分析实验,实验结果表明提出的算法具有更好的分类性能。 展开更多
关键词 极限学习机 类不平衡数据学习 支持向量机 ADABOOST
下载PDF
面向概念漂移和类不平衡数据流的在线分类算法 被引量:9
17
作者 陆克中 陈超凡 +1 位作者 蔡桓 吴定明 《电子学报》 EI CAS CSCD 北大核心 2022年第3期585-597,共13页
数据流是大数据的重要形式,数据流分类是数据挖掘的重要任务之一,该任务在现实生活中有着巨大的应用前景,因此得到了研究者们的广泛关注.概念漂移和类不平衡是影响数据流分类性能的两个核心问题,但目前大多数算法都只考虑处理两者之一,... 数据流是大数据的重要形式,数据流分类是数据挖掘的重要任务之一,该任务在现实生活中有着巨大的应用前景,因此得到了研究者们的广泛关注.概念漂移和类不平衡是影响数据流分类性能的两个核心问题,但目前大多数算法都只考虑处理两者之一,并且大多数算法过于理想,只能在人工设置的数据流上才能发挥较好的性能,无法适用于复杂的真实数据流.针对这一问题,提出了一种同时处理概念漂移和类不平衡复杂数据流的算法——具有自适应遗忘因子的加权在线顺序极限学习机集成算法.该算法首先融合加权机制和遗忘机制,初步提出具有遗忘机制的加权在线顺序极限学习机算法.为了更好地适应复杂数据流,进一步以初步算法为基分类器,设计包含自适应遗忘因子和概念漂移检测机制的在线集成策略.大量仿真实验表明,所提算法在所有数据集上都取得了最佳的Gmean值,具有更好的概念漂移和类不平衡适应能力,表现出了更稳定、更平衡以及更准确的分类效果. 展开更多
关键词 数据流分 概念漂移 类不平衡 在线学习 极限学习机
下载PDF
面向类不平衡网络流量的特征选择算法 被引量:5
18
作者 唐宏 刘丹 +2 位作者 姚立霜 王云锋 裴作飞 《电子与信息学报》 EI CSCD 北大核心 2021年第4期923-930,共8页
针对网络流量分类过程中出现的类不平衡问题,该文提出一种基于加权对称不确定性(WSU)和近似马尔科夫毯(AMB)的特征选择算法。首先,根据类别分布信息,定义了偏向于小类别的特征度量,使得与小类别具有强相关性的特征更容易被选择出来;其次... 针对网络流量分类过程中出现的类不平衡问题,该文提出一种基于加权对称不确定性(WSU)和近似马尔科夫毯(AMB)的特征选择算法。首先,根据类别分布信息,定义了偏向于小类别的特征度量,使得与小类别具有强相关性的特征更容易被选择出来;其次,充分考虑特征与类别间、特征与特征之间的相关性,利用加权对称不确定性和近似马尔科夫毯删除不相关特征及冗余特征;最后,利用基于相关性度量的特征评估函数以及序列搜索算法进一步降低特征维数,确定最优特征子集。实验表明,在保证算法整体分类精确率的前提下,算法能够有效提高小类别的分类性能。 展开更多
关键词 流量分 特征选择 类不平衡 加权对称不确定性 近似马尔科夫毯
下载PDF
基于先验知识与DBM采样的类不平衡用电数据分类方法 被引量:11
19
作者 王凯亮 陆俊 +3 位作者 徐志强 齐增清 龚钢军 王赟 《电力系统自动化》 EI CSCD 北大核心 2019年第20期57-64,104,共9页
智能电网建设过程中现有客户标签体系不够完善,针对海量用户用电数据的分类管理中带有标签的样本数据量小以及类不平衡分布的问题,提出了一种基于先验知识与深度玻尔兹曼机(DBM)采样的不平衡用电数据分类方法。首先,提取负荷曲线的特征... 智能电网建设过程中现有客户标签体系不够完善,针对海量用户用电数据的分类管理中带有标签的样本数据量小以及类不平衡分布的问题,提出了一种基于先验知识与深度玻尔兹曼机(DBM)采样的不平衡用电数据分类方法。首先,提取负荷曲线的特征,建立采样原则,利用先验知识和DBM对负荷曲线进行采样。然后,将采样数据通过极限学习机(ELM)网络进行训练。最后以爱尔兰用户用电数据为数据源,通过与原始非采样、随机过采样、合成少数类过采样技术(SMOTE)的对比性实验分析结果表明,所提出的基于先验知识与DBM采样的不平衡用电数据分类方法能够更好地对类不平衡用电数据集进行分类,实现用户用电行为的分析,有效支撑用户侧错峰避峰工作。 展开更多
关键词 类不平衡数据 用户行为分析 深度学习 先验知识 深度玻尔兹曼机
下载PDF
面向类不平衡数据集的软件缺陷预测模型 被引量:11
20
作者 李冉 周丽娟 王华 《计算机应用研究》 CSCD 北大核心 2018年第9期2806-2810,共5页
软件缺陷数据的类不平衡问题会影响缺陷预测分类的准确性,为解决类不平衡数据对预测分类的影响,针对如何优化数据预处理的算法执行顺序进行了研究,提出了一种有效提升分类效果的软件缺陷预测模型(ASRAdaBoost)。该算法模型在根据对照实... 软件缺陷数据的类不平衡问题会影响缺陷预测分类的准确性,为解决类不平衡数据对预测分类的影响,针对如何优化数据预处理的算法执行顺序进行了研究,提出了一种有效提升分类效果的软件缺陷预测模型(ASRAdaBoost)。该算法模型在根据对照实验确定数据预处理最优顺序后,采用特征选择卡方检验算法,再执行SMOTE过采样与简单采样方法,解决数据类不平衡和属性冗余同时存在的问题,最后结合AdaBoost集成算法,构建出软件缺陷预测模型ASRAdaBoost。实验均采用J48决策树作为基分类器,实验结果表明ASRAdaBoost算法模型有效地提高了软件缺陷预测的准确性,得到了更好的分类效果。 展开更多
关键词 软件缺陷预测 类不平衡数据 特征选择 集成算法
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部