基于留一交叉验证的类不平衡危害预评估策略被引量：5

Pre-evaluation Strategy of Harmfulness Caused by Class Imbalance Based on Leave-one-out Cross Validation

下载PDF

导出

摘要近年来,类不平衡问题已逐渐成为人工智能﹑机器学习和数据挖掘等领域的研究热点,目前已有大量实用有效的方法.然而,近期的研究结果却表明,并非所有的不平衡数据分类任务都是有害的,在无害的任务上采用类不平衡学习算法将很难提高,甚至会降低分类的性能,同时可能大幅度增加训练的时间开销.针对此问题,提出了一种危害预评估策略.该策略采用留一交叉验证法(LOOCV,Leave-one-out cross validation)测试训练集的分类性能,并据此计算一种称为危害测度(HM,Harmful-ness Measure)的新指标,用以量化危害的大小,从而为学习算法的选择提供指导.通过8个类不平衡数据集对所提策略进行了验证,表明该策略是有效和可行的. In recent years, class imbalance problem has gradually evolved into one of the hotspots in several research fields, including artificial intelligence, machine learning and data mining. At present, many practical and effective methods have been proposed to solve this problem. However, the recent research indicated that not all of the imbalanced classification tasks are harmful and conducting specifically designed class imbalance learning algorithms on those unharmful classification tasks would hardly improve and even degenerate classification performance, meanwhile it is possible to increase training time to a large extent. To solve this problem, we propose a pre-evaluation strategy to estimate the harmfulness of skewed classification tasks. The strategy acquires the classification performance of training set by leave-one-out cross validation, and then uses the obtained performance to calculate a novel index named as Harmfulness Measure （HM） in order to assess the degree of damage. The index would provide helpful information to guide us to select appropriate learning algorithm. The experimental results on eight skewed datasets verified the effectiveness and feasibility of the presented strategy.

作者于化龙倪军徐森

机构地区江苏科技大学计算机科学与工程学院爱荷华大学卡佛医学院盐城工学院信息工程系

出处《小型微型计算机系统》 CSCD 北大核心 2012年第10期2287-2292,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61105057)资助江苏科技大学引进人才科研启动项目(35301002)资助

关键词类不平衡留一交叉验证危害测度预评估 class imbalance leave-one-out cross validation harmfulness measure pre-evaluation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1翟云,杨炳儒,曲武.不平衡类数据挖掘研究综述[J].计算机科学,2010,37(10):27-32. 被引量：37
2于化龙,高尚,赵靖,秦斌.基于过采样技术和随机森林的不平衡微阵列数据分类方法研究[J].计算机科学,2012,39(5):190-194. 被引量：9
3邹权,郭茂祖,刘扬,王峻.类别不平衡的分类方法及在生物信息学中的应用[J].计算机研究与发展,2010,47(8):1407-1414. 被引量：26

二级参考文献72

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2张琦,吴斌,王柏.非平衡数据训练方法概述[J].计算机科学,2005,32(10):181-186. 被引量：10
3刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
4李建中,杨昆,高宏,骆吉洲,郭政.考虑样本不平衡的模型无关的基因选择方法[J].软件学报,2006,17(7):1485-1493. 被引量：24
5韩慧,王路,温明,王文渊.不均衡数据集学习中基于初分类的过抽样算法[J].计算机应用,2006,26(8):1894-1897. 被引量：11
6Chan P K, Stolfo S J. Toward scalable learning with nonuniform class and cost distributions: A case study in credit card fraud detection[C]// Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining. New York, USA: AAAI Press, 1998:164-168.
7Phua C, Alahakoon D, Lee V. Minority report in fraud detection:Classification of skewed data[J]. SIGKDD Explore, 2004,6 (1) :50-59.
8Sun Aixin, Lira E P, Liu Ying. On strategies for imbalaneed text classification using SVM: A comparative study[J]. Decision Support Systems, 2009,48 : 191-201.
9Turney P D. Learning algorithms for keyphrase extraction[J]. Information Retrieval, 2000,2 (4) : 303-336.
10Ling C X, Li C. Data mining for direct marketing: Problems and solutions[C] // Proceeding of the 4th International Conference on Knowledge Discovery and Data Mining. 1998:73-79.

共引文献67

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2陈金坦,康恒政,杨燕,周伟雄.一种用于不平衡数据的分类算法[J].山东大学学报（工学版）,2011,41(2):96-101. 被引量：1
3王伟,薛安荣,刘峰.改进的SVM解决背景知识数据中的类不平衡[J].计算机应用研究,2011,28(8):2902-2904. 被引量：6
4张玉芳,王勇,熊忠阳,刘明.不平衡数据集上的文本分类特征选择新方法[J].计算机应用研究,2011,28(12):4532-4534. 被引量：8
5郭颖婕,刘晓燕,郭茂祖,邹权.植物抗性基因识别中的随机森林分类方法[J].计算机科学与探索,2012,6(1):67-77. 被引量：15
6王中卿,李寿山,朱巧明,李培峰,周国栋.基于不平衡数据的中文情感分类[J].中文信息学报,2012,26(3):33-37. 被引量：11
7于化龙,高尚,赵靖,秦斌.基于过采样技术和随机森林的不平衡微阵列数据分类方法研究[J].计算机科学,2012,39(5):190-194. 被引量：9
8秦传东,刘三阳,张市芳.基于不平衡数据分类的一种平衡模糊支持向量机[J].计算机科学,2012,39(6):188-190. 被引量：6
9胡始昌,江弋,林琛,邹权.基于集成分类器的蛋白质折叠模式识别[J].生物信息学,2012,10(2):112-115.
10周旭春,龚能平.系统性红斑狼疮甲亢1例[J].重庆医科大学学报,2000,25(2):215-215.

同被引文献76

1冯美臣,杨武德,张东彦,曹亮亮,王慧芳,王芊.基于TM和MODIS数据的水旱地冬小麦面积提取和长势监测[J].农业工程学报,2009,25(3):103-109. 被引量：43
2阎威武,常俊林,邵惠鹤.一种贝叶斯证据框架下支持向量机建模方法的研究[J].控制与决策,2004,19(5):525-528. 被引量：21
3周清波.国内外农情遥感现状与发展趋势[J].中国农业资源与区划,2004,25(5):9-14. 被引量：87
4张峰,吴炳方,刘成林,罗治敏,张树文,张广录.区域作物生长过程的遥感提取方法[J].遥感学报,2004,8(6):515-528. 被引量：36
5刘良云,赵春江,王纪华,宋晓宇,黄文江,李存军.冬小麦播期的卫星遥感及应用[J].遥感信息,2005,27(1):28-31. 被引量：14
6胡山鹰,陈丙珍,何小荣.模拟退火法用于连续变量问题全局优化初探[J].计算机与应用化学,1996,13(1):7-13. 被引量：16
7刘海岩,牛振国,陈晓玲.EOS-MODIS数据在我国农作物监测中的应用[J].遥感技术与应用,2005,20(5):531-536. 被引量：14
8任建强,陈仲新,唐华俊.基于MODIS-NDVI的区域冬小麦遥感估产——以山东省济宁市为例[J].应用生态学报,2006,17(12):2371-2375. 被引量：65
9李方方,赵英凯.贝叶斯框架下的LSSVM和贝叶斯网络及其应用[J].计算机工程与设计,2007,28(15):3647-3649. 被引量：7
10Tripathy R, Chaudhari K N, Mukherjee J, et al. Forecasting wheat yield in Punjab state of India by combining crop simulation model WOFOST and remotely sensed input[J]. Remote Sensing Letters, 2013, 4(1): 19-28.

引证文献5

1陈鹏飞,杨飞,杜佳.基于环境减灾卫星时序归一化植被指数的冬小麦产量估测[J].农业工程学报,2013,29(11):124-131. 被引量：22
2曹鹏,栗伟,赵大哲.基于决策准则优化的不均衡数据分类[J].小型微型计算机系统,2014,35(5):961-966. 被引量：2
3王琪,孙玉坤,黄永红.基于参数优化的最小二乘支持向量机HEV阀控铅酸蓄电池SOC预测[J].中南大学学报（自然科学版）,2015,46(1):113-119. 被引量：11
4雷雪梅,谢依彤.用于高血压菜谱识别的基于遗传算法的改进XGBoost模型[J].计算机科学,2018,45(B06):476-481. 被引量：7
5蒋桂黎.基于数据挖掘与智能计算的情感数据分析与心理预警系统[J].电子设计工程,2020,28(7):45-49. 被引量：5

二级引证文献47

1彭岩,赵梓如,吴婷娴,王洁.PM2.5浓度预测与影响因素分析[J].北京邮电大学学报,2019,42(6):162-169. 被引量：7
2张威,潘剑君,李勇,尹正宇,卢浩东,付传城.基于冠层光谱特征的冬小麦产量估算研究[J].土壤通报,2015,46(1):169-176. 被引量：9
3李树强,李民赞.基于车载近地遥感系统的冬小麦生育早期产量估测方法[J].农业工程学报,2014,30(3):120-127. 被引量：4
4刘涛,孙成明,王力坚,仲晓春,朱新开,郭文善.基于图像处理技术的大田麦穗计数![J].农业机械学报,2014,45(2):282-290. 被引量：52
5谢巧云,黄文江,蔡淑红,梁栋,彭代亮,张清,黄林生,杨贵军,张东彦.冬小麦叶面积指数遥感反演方法比较研究[J].光谱学与光谱分析,2014,34(5):1352-1356. 被引量：22
6侯英雨,张蕾,吴门新,宋迎波,郭安红,赵秀兰.国家级现代农业气象业务技术进展[J].应用气象学报,2018,29(6):641-656. 被引量：53
7赵安周,朱秀芳,李天祺.基于HJ小卫星影像的北京市冬小麦测产研究[J].农业现代化研究,2014,35(5):573-577. 被引量：5
8解毅,王鹏新,刘峻明,李俐.基于四维变分和集合卡尔曼滤波同化方法的冬小麦单产估测[J].农业工程学报,2015,31(1):187-195. 被引量：24
9李晶,Zipper Carl E.,李松,Donovan Patricia F.,Wynne Randolph H.,Oliphant Adam J.,夏清.基于时序NDVI的露天煤矿区土地损毁与复垦过程特征分析[J].农业工程学报,2015,31(16):251-257. 被引量：32
10佟彩,吴秋兰,刘琛,翟德坤,王兵兵.基于3S技术的智慧农业研究进展[J].山东农业大学学报（自然科学版）,2015,46(6):856-860. 被引量：30

1Dingcheng Feng,Feng Chen,Wenli Xu.Efficient Leave-One-Out Strategy for Supervised Feature Selection[J].Tsinghua Science and Technology,2013,18(6):629-635. 被引量：3
2张天丹.软件系统的可靠性分配模型及优化研究[J].西昌学院学报（自然科学版）,2014,28(3):60-63.
3赵源,刘希林.人工神经网络在泥石流风险评价中的应用[J].地质灾害与环境保护,2005,16(2):135-138. 被引量：40
4刘晓东.预评估在电力应急体系中的应用分析[J].科技创新与应用,2013,3(6):139-139. 被引量：1
5何林,林锋,周激流.一种基于DT-MSN的性能预评估方法[J].计算机工程,2012,38(21):81-85.
6杨胜利,毛玉苹.用MET/CAL实现数字多用表测量不确定度的计算[J].计测技术,2013,33(2):77-79. 被引量：2
7裴飞,陈雪振,朱永利,遇炳杰.粒子群优化核极限学习机的变压器故障诊断[J].计算机工程与设计,2015,36(5):1327-1331. 被引量：15
8张丹,赵荣彩,单征,韩林,瞿进.可重构系统中软硬任务划分方法研究[J].计算机科学,2012,39(3):276-278. 被引量：2
9郑士贵.政策信息反馈系统的建立[J].管理观察,1995,0(4):34-34.
10杨韬.结合PDCA循环策略的重复编程方法[J].中国科技信息,2008(12):106-107.

小型微型计算机系统

2012年第10期

浏览历史

内容加载中请稍等...

基于留一交叉验证的类不平衡危害预评估策略被引量：5

参考文献3

二级参考文献72

共引文献67

同被引文献76

引证文献5

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于留一交叉验证的类不平衡危害预评估策略 被引量：5

参考文献3

二级参考文献72

共引文献67

同被引文献76

引证文献5

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于留一交叉验证的类不平衡危害预评估策略被引量：5