基于不平衡数据集的改进随机森林算法研究被引量：10

Research on Improved Random Forest Algorithm Based on Unbalanced Datasets

下载PDF

导出

摘要随机森林算法在多种应用场景与数据集中都实现了良好的模型分类效果,但该算法在应用于不平衡二分类数据集时,受限于样本数据量本身的好坏比倾斜与决策子树叶节点投票机制,对样本量占相对少数的小类属样本不能很好地对分类进行表决。对此,文中对原有随机森林算法的节点分类规则进行改进。在模型训练过程中,综合考虑度量节点样本分类占比与节点深度,增加有利于少量类样本分类信息,从而提高了少数样本类的分类准确率。通过在不同数据集上进行随机森林改进算法的效果测试,证明改进算法相对于传统算法在不平衡数据集上有更好的模型表现,大样本条件下少量类样本分类准确率有显著提升。 Random forest algorithm has achieved a great classification effect in a variety of scenarios and datasets,but when applied in the unbalanced binary classification datasets,it is restricted to the imbalance of sample data itself and the leaf node voting mechanism,the sample which size of relatively few samples can't vote on classification very well. For this,we improve the node classification rules of original random forest algorithm. In model training,by considering sample classification proportion and the depth of the measurement nodes comprehensively,and increasing classified information in favor for the small amount of samples,the accuracy of the few sample classification can be raised. After testing on different datasets,it proves that the improved algorithm on unbalanced dataset has better performance than the traditional algorithm,and that the few sample classification accuracy has been increased significantly under the condition of large amount of dataset.

作者刘耀杰刘独玉 LIU Yao-jie;LIU Du-yu(School of Electrical and Information Engineering,Southwest Minzu University,Chengdu 610041,China)

机构地区西南民族大学电气信息工程学院

出处《计算机技术与发展》 2019年第6期100-104,共5页 Computer Technology and Development

基金中央高校基本科研业务费专项资金项目(2017ZYXS09)

关键词不平衡数据集随机森林决策树节点分裂分类准确率 imbalance data random forest decision tree node split classification accuracy

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版）,2014,44(1):137-141. 被引量：252
2董跃华,刘力.基于均衡系数的决策树优化算法[J].计算机应用与软件,2016,33(7):266-272. 被引量：4
3王日升,谢红薇,安建成.基于分类精度和相关性的随机森林算法改进[J].科学技术与工程,2017,17(20):67-72. 被引量：14
4叶枫,丁锋.不平衡数据分类研究及其应用[J].计算机应用与软件,2018,35(1):132-136. 被引量：15
5唐耀先,余青松.消除属性间依赖的C4.5决策树改进算法[J].计算机应用与软件,2018,35(3):262-265. 被引量：7
6张亮,宁芊.CART决策树的两种改进及应用[J].计算机工程与设计,2015,36(5):1209-1213. 被引量：57

二级参考文献49

1覃泽,韦建忠.CSL中测试属性选择方法[J].微计算机信息,2008,24(6):288-289. 被引量：1
2刘星毅.基于性价比的分裂属性选择方法[J].计算机应用,2009,29(3):839-842. 被引量：1
3韩松来,张辉,周华平.基于关联度函数的决策树分类算法[J].计算机应用,2005,25(11):2655-2657. 被引量：36
4冯少荣.决策树算法的研究与改进[J].厦门大学学报（自然科学版）,2007,46(4):496-500. 被引量：67
5Davies S, Russl S. NP completeness of searches for smallest possible feature sets[C]//Proceedings of the AAAI Fall Symposiums on Relevance, Menlo Park, 1994:37-39.
6Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
7Strobl Carolin, Boulesteix Anne-Laure, Kneib Thomas, et al. Conditional variable importance for random forests[J]. BMC Bioinformatics, 2008, 9 (1) : 1-11.
8Reif David M, Motsinger Alison A, McKinney Brett A, et al. Feature selection using a random forests classifier for the integrated analysis of multiple data types[C]//IEEE Symposium on Computational In- telligence and Bioinformatics and Computational Bi- ology, 2006: 171-178.
9Mohammed Khalilia, Sounak Chakraborty, Mihail Popescu. Predicting disease risks from highly im- balanced data using random forese[J]. BMC Medi- cal Informaties and Decision Making, 2011, 11(7): 51-58.
10Verikas A, Gelzinis A, Bacauskiene M. Mining data with random forests: a survey and results of new tests[J]. Pattern Recognition, 2011, 44 (2): 330-349.

共引文献341

1陈文明.色谱重叠峰的解析方法概论[J].中国水运（下半月）,2020(5):69-71. 被引量：4
2郑睿程,顾洁,金之俭,彭虹桥,蔡珑.数据驱动与预测误差驱动融合的短期负荷预测输入变量选择方法研究[J].中国电机工程学报,2020,40(2):487-500. 被引量：41
3盛晓欣,田翔华,周毅.基于随机森林癫痫患者脑电数据的分析研究[J].中国数字医学,2020,15(1):41-43.
4杨仙保,张王菲,孙斌,高志海,李毅夫,王晗.基于GEE和Sentinel-2时序数据的呼伦贝尔沙地及其周边植被类型识别研究[J].遥感技术与应用,2022,37(4):982-992. 被引量：3
5李欣,俞卫琴.基于改进GS-XGBoost的个人信用评估[J].计算机系统应用,2020,29(11):145-150. 被引量：8
6张王菲,文哲,张亚红,张庭苇,李云.Stokes参数在油菜长势监测中的可行性分析[J].武汉大学学报（信息科学版）,2020,45(2):242-249. 被引量：3
7伟利国,袁玉龙,董鑫,周达,汪雅琦,陈文科.拖挂式大载荷特种车辆导航控制系统设计与试验[J].农业机械学报,2022,53(S01):324-331. 被引量：2
8付华,韩冰,崔鹏,孟祥云.能量特性与随机森林的孤岛辨识模型[J].辽宁工程技术大学学报（自然科学版）,2021,40(1):41-47. 被引量：2
9焦良珍,陈海生,高革,李冠男,胡云鹏.基于数据挖掘算法的DHC系统负荷时序预测方法[J].建筑节能,2020,48(11):38-44. 被引量：4
10朱东旭,严广乐.基于LSTM的《红楼梦》文本风格分界点识别方法[J].智能计算机与应用,2020,10(8):242-248. 被引量：2

同被引文献115

1丁德臣.集成随机森林和支持向量机的商业银行财务困境预测研究[J].数学的实践与认识,2020,0(2):290-300. 被引量：8
2林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
3蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
4杨扬,李善平.基于实例重要性的SVM解不平衡数据分类[J].模式识别与人工智能,2009,22(6):913-918. 被引量：14
5张翔,周明全,耿国华.Bagging中文文本分类器的改进方法研究[J].小型微型计算机系统,2010,31(2):281-284. 被引量：8
6王伟,薛安荣,刘峰.改进的SVM解决背景知识数据中的类不平衡[J].计算机应用研究,2011,28(8):2902-2904. 被引量：6
7贾春福,王志,刘昕,刘昕海.路径模糊:一种有效抵抗符号执行的二进制混淆技术[J].计算机研究与发展,2011,48(11):2111-2119. 被引量：11
8张永,李卓然,刘小丹.基于主动学习SMOTE的非均衡数据分类[J].计算机应用与软件,2012,29(3):91-93. 被引量：23
9徐茹枝,王宇飞.粒子群优化的支持向量回归机计算配电网理论线损方法[J].电力自动化设备,2012,32(5):86-89. 被引量：33
10杨悦辉.计量自动化系统在计量管理工作中的应用[J].计量与测试技术,2013,40(4):36-37. 被引量：8

引证文献10

1曹家颖,赵海珍.京津冀地区PM_(2.5)溯源精准执法研究[J].环境与可持续发展,2019,44(2):57-61. 被引量：1
2杨婧,辛明勇,欧家祥,王俊融,宋强.基于大数据的配电网线损定位与评估方法研究[J].中国测试,2019,45(7):19-24. 被引量：54
3胡浔惠,葛王飞,段文强,郑通.一种应用随机森林的代码混淆路径分支技术[J].信息技术,2019,43(8):71-73. 被引量：1
4孙彦雄,李业丽,边玉宁.面向图书主题分类的随机森林算法的应用研究[J].计算机技术与发展,2020,30(6):65-70. 被引量：2
5张荣涛,陈志高,李彬彬,焦斌.基于深度卷积神经网络模型和XGBoost算法的齿轮箱故障诊断研究[J].机械强度,2020,42(5):1059-1066. 被引量：12
6徐玲玲,迟冬祥.面向不平衡数据集的机器学习分类策略[J].计算机工程与应用,2020,56(24):12-27. 被引量：60
7朱翌民,郭茹燕,巨家骥,张帅,张维.一种结合Focal Loss的不平衡数据集提升树分类算法[J].软件导刊,2021,20(11):65-69. 被引量：4
8钟少恒,曹小冬,邱细虾,刘智聪.基于随机森林算法的通信大数据重复清洗方法[J].信息技术,2022,46(4):159-164. 被引量：4
9孙珍.高校数学难度确定及分类模型建立中的RF算法应用[J].现代科学仪器,2022,39(6):207-212.
10冯本勇,徐勇军.基于熵和置信度的非平衡问题欠采样Boosting框架[J].计算机应用与软件,2024,41(1):269-277.

二级引证文献138

1温从众,丁迅,张忠,夏兆俊,范洋洋.基于离群点算法的在线监测传感器的设计与研究[J].电子测量与仪器学报,2022,36(12):19-27. 被引量：1
2尹家福.防治企业“虚胖症”[J].金山企业管理,2000(1):12-13.
3阳平.基于降低配网管理线损措施的研究[J].科学大众（科技创新）,2019,0(11):225-225.
4罗艳,肖辅盛,王庭刚,周智海.基于随机森林的电网实时运行风险评估方法[J].信息技术,2020,44(4):23-26. 被引量：14
5张凡,张龙,宗震.基于核熵成分分析的电力用户核心大数据匿名化研究[J].电子设计工程,2020,28(13):175-178.
6林瑀,陈日成,金涛.面向复杂信息系统的多源异构数据融合技术[J].中国测试,2020,46(7):1-7. 被引量：38
7薛云涛,梁祥威.基于大数据改进灰色关联分析在台区智能识别中的应用[J].电子设计工程,2020,28(17):152-155. 被引量：5
8费丹雄,严思唯,芦金雨,周文哲,范正权.基于混合高斯模型的用电量计量数据聚类算法研究[J].电子设计工程,2020,28(20):106-110. 被引量：4
9李建,郭晓静,饶钰,陈晓东.基于电网大数据的220千伏以下电网诊断方法[J].自动化与仪器仪表,2020(10):211-214. 被引量：3
10王杰,邹蒙,张福勇.低压配电网非技术线损的集成检测系统[J].信息技术,2020,44(11):152-158. 被引量：2

1赵竞竞.“一带一路”背景下亚投行的优势与挑战[J].中国商论,2019,0(9):236-239. 被引量：3
2任小甜,褚小立,田松柏,朱新宇.减压馏分黏度指数的近红外预测研究[J].石油炼制与化工,2019,50(1):81-84. 被引量：3
3张发勇,刘袁缘,李杏梅,覃杰.基于多视角深度网络增强森林的表情识别[J].计算机辅助设计与图形学学报,2018,30(12):2318-2326. 被引量：5
4赵锦阳,卢会国,蒋娟萍,罗扬燚.基于改进决策树的故障诊断方法研究[J].成都信息工程大学学报,2018,33(6):624-631. 被引量：2
5谭龙,张晓琪,贾立,李建中,王宏志.一种高效的大数据增量真值发现算法[J].哈尔滨工程大学学报,2019,40(4):805-812. 被引量：2
6钱恒,虞慧群,范贵生.基于增量式随机森林的燃气负荷预测方法[J].华东理工大学学报（自然科学版）,2019,45(1):133-139. 被引量：8
7杨嘉莹,王诗远,李贵凡,刘沛.多个相关二分类共同终点临床试验样本量估计方法[J].中国卫生统计,2019,36(2):297-301. 被引量：2
8曹秋萍,赵红,马一丹.针对产妇产后盆底肌功能锻炼知识的分析[J].世界最新医学信息文摘,2019,19(24):50-50.
9马宇州,隋学深.商业银行审计中贷款风险等级分类规则挖掘研究[J].审计月刊,2019,0(2):42-44. 被引量：1
10宋华珠,程贵,巫世峰,钟忺.基于语义和谱聚类的监理视频R树检索方法[J].计算机应用研究,2019,36(6):1717-1722. 被引量：1

计算机技术与发展

2019年第6期

浏览历史

内容加载中请稍等...

基于不平衡数据集的改进随机森林算法研究被引量：10

参考文献6

二级参考文献49

共引文献341

同被引文献115

引证文献10

二级引证文献138

相关作者

相关机构

相关主题

浏览历史

基于不平衡数据集的改进随机森林算法研究 被引量：10

参考文献6

二级参考文献49

共引文献341

同被引文献115

引证文献10

二级引证文献138

相关作者

相关机构

相关主题

浏览历史

基于不平衡数据集的改进随机森林算法研究被引量：10