基于边界自适应SMOTE和Focal Loss函数改进LightGBM的信用风险预测模型被引量：6

Credit risk prediction model based on borderline adaptive SMOTE and Focal Loss improved LightGBM

下载PDF

导出

摘要针对信用风险评估中数据集不平衡影响模型预测效果的问题,提出一种基于边界自适应合成少数类过采样方法(BA-SMOTE)和利用FocalLoss函数改进LightGBM损失函数的算法(FLLightGBM)相结合的信用风险预测模型。首先,在边界合成少数类过采样(Borderline-SMOTE)的基础上,引入自适应思想和新的插值方式,使每个处于边界的少数类样本生成不同数量的新样本,并且新样本的位置更靠近原少数类样本,以此来平衡数据集;其次,利用FocalLoss函数来改进LightGBM算法的损失函数,并以改进的算法训练新的数据集以得到最终结合BA-SMOTE方法和FLLightGBM算法建立的BA-SMOTE-FLLightGBM模型;最后,在LendingClub数据集上进行信用风险预测。实验结果表明,与其他不平衡分类算法RUSBoost、CUSBoost、KSMOTE-AdaBoost和AK-SMOTE-Catboost相比,所建立的模型在G-mean和AUC两个指标上都有明显的提升,提升了9.0%~31.3%和5.0%~14.1%。以上结果验证了所提出的模型在信用风险评估中具有更好的违约预测效果。 Aiming at the problem that the imbalance of datasets in credit risk assessment affects the prediction effect of the model,a credit risk prediction model based on Borderline Adaptive Synthetic Minority Oversampling TEchnique(BA-SMOTE)and Focal Loss-Light Gradient Boosting Machine(FLLightGBM)was proposed.Firstly,on the basis of Borderline Synthetic Minority Oversampling TEchnique(Borderline-SMOTE),the adaptive idea and new interpolation method were introduced,so that different numbers of new samples were generated for each minority sample at the border,and the positions of the new samples were closer to the original minority sample,thereby balancing the dataset.Secondly,the Focal Loss function was used to improve the loss function of LightGBM(Light Gradient Boosting Machine)algorithm,and the improved algorithm was used to train a new dataset to obtain the final BA-SMOTE-FLLightGBM model constructed by BA-SMOTE method and FLLightGBM algorithm.Finally,on Lending Club dataset,the credit risk prediction was performed.Experimental results show that compared with other imbalanced classification algorithms RUSBoost(Random Under-Sampling with adaBoost),CUSBoost(Cluster-based Under-Sampling with adaBoost),KSMOTE-AdaBoost(K-means clustering SMOTE with AdaBoost),and AK-SMOTE-Catboost(AllKnn-SMOTE-Catboost),the constructed model has a significant improvement on two evaluation indicators G-mean and AUC(Area Under Curve)with 9.0%−31.3%and 5.0%−14.1%respectively.The above results verify that the proposed model has a better default prediction effect in credit risk assessment.

作者陈海龙杨畅杜梅张颖宇 CHEN Hailong;YANG Chang;DU Mei;ZHANG Yingyu(College of Computer Science and Technology,Harbin University of Science and Technology,Harbin Heilongjiang 150080,China)

机构地区哈尔滨理工大学计算机科学与技术学院

出处《计算机应用》 CSCD 北大核心 2022年第7期2256-2264,共9页 journal of Computer Applications

基金国家自然科学基金资助项目(61772160) 哈尔滨市科技创新人才研究专项(2017RAQXJ045)。

关键词信用风险不平衡数据过采样 LightGBM FocalLoss credit risk imbalanced data oversampling LightGBM(Light Gradient Boosting Machine) Focal Loss

分类号 TP391. [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1马晓君,沙靖岚,牛雪琪.基于LightGBM算法的P2P项目信用评级模型的设计及应用[J].数量经济技术经济研究,2018,35(5):144-160. 被引量：50
2谢陈昕.P2P网贷平台借款人信用风险评估模型适应性研究[J].武汉金融,2019,0(3):23-29. 被引量：5
3邵良杉,周玉.一种改进过采样算法在类别不平衡信用评分中的应用[J].计算机应用研究,2019,36(6):1683-1687. 被引量：7
4陈启伟,王伟,马迪,毛伟.基于Ext-GBDT集成的类别不平衡信用评分模型[J].计算机应用研究,2018,35(2):421-427. 被引量：30
5王超学,张涛,马春森.面向不平衡数据集的改进型SMOTE算法[J].计算机科学与探索,2014,8(6):727-734. 被引量：23
6田臣,周丽娟.基于带多数类权重的少数类过采样技术和随机森林的信用评估方法[J].计算机应用,2019,39(6):1707-1712. 被引量：14
7赵楠,张小芳,张利军.不平衡数据分类研究综述[J].计算机科学,2018,45(B06):22-27. 被引量：44
8吴雨茜,王俊丽,杨丽,余淼淼.代价敏感深度学习方法研究综述[J].计算机科学,2019,46(5):1-12. 被引量：19
9陈白强,盛静文,江开忠.基于损失函数的代价敏感集成算法[J].计算机应用,2020,40(S02):60-65. 被引量：4
10王俊红,闫家荣.基于欠采样和代价敏感的不平衡数据分类算法[J].计算机应用,2021,41(1):48-52. 被引量：20

二级参考文献90

1蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
2王春峰,赵欣,韩冬.基于改进蚁群算法的商业银行信用风险评估方法[J].天津大学学报（社会科学版）,2005,7(2):81-85. 被引量：7
3李志辉,李萌.我国商业银行信用风险识别模型及其实证研究[J].经济科学,2005(5):61-71. 被引量：33
4郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006,21(4):473-476. 被引量：33
5马若微,唐春阳.考虑误判损失的Logistic违约预测模型构建[J].系统工程理论与实践,2007,27(8):33-38. 被引量：13
6Davies S, Russl S. NP completeness of searches for smallest possible feature sets[C]//Proceedings of the AAAI Fall Symposiums on Relevance, Menlo Park, 1994:37-39.
7Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
8Strobl Carolin, Boulesteix Anne-Laure, Kneib Thomas, et al. Conditional variable importance for random forests[J]. BMC Bioinformatics, 2008, 9 (1) : 1-11.
9Reif David M, Motsinger Alison A, McKinney Brett A, et al. Feature selection using a random forests classifier for the integrated analysis of multiple data types[C]//IEEE Symposium on Computational In- telligence and Bioinformatics and Computational Bi- ology, 2006: 171-178.
10Mohammed Khalilia, Sounak Chakraborty, Mihail Popescu. Predicting disease risks from highly im- balanced data using random forese[J]. BMC Medi- cal Informaties and Decision Making, 2011, 11(7): 51-58.

共引文献468

1陈文明.色谱重叠峰的解析方法概论[J].中国水运（下半月）,2020(5):69-71. 被引量：1
2郑睿程,顾洁,金之俭,彭虹桥,蔡珑.数据驱动与预测误差驱动融合的短期负荷预测输入变量选择方法研究[J].中国电机工程学报,2020,40(2):487-500. 被引量：37
3徐璐琳,李忠武,朱冬元.基于文本挖掘、GIS及Stacking框架的武汉市二手房评估模型[J].中国资产评估,2020,0(2):41-51.
4周传华,徐文倩,朱俊杰.基于代价敏感卷积神经网络的集成分类算法[J].应用科学学报,2022,40(1):69-79. 被引量：4
5盛晓欣,田翔华,周毅.基于随机森林癫痫患者脑电数据的分析研究[J].中国数字医学,2020,15(1):41-43.
6杨仙保,张王菲,孙斌,高志海,李毅夫,王晗.基于GEE和Sentinel-2时序数据的呼伦贝尔沙地及其周边植被类型识别研究[J].遥感技术与应用,2022,37(4):982-992. 被引量：2
7姜新盈,王舒梵,严涛.基于层次密度聚类的去噪自适应混合采样[J].计算机系统应用,2022,31(10):206-210.
8陈秋华,杨慧荣,崔恒建.变量筛选后的个人信贷评分模型与统计学习[J].数理统计与管理,2020,39(2):368-380. 被引量：9
9佟孟华,邢秉昆,赵作伦,杨思涵.基于FM模型的工业企业碳减排信用风险预警研究[J].数量经济技术经济研究,2021,38(2):147-165. 被引量：7
10张王菲,文哲,张亚红,张庭苇,李云.Stokes参数在油菜长势监测中的可行性分析[J].武汉大学学报（信息科学版）,2020,45(2):242-249. 被引量：1

同被引文献63

1杨剑锋,李永梅,李秀,王宁.基于数据融合的多品种小批量产品质量预测方法[J].统计与决策,2021,37(9):33-36. 被引量：4
2郭立仑,周升起.商业银行信用风险主要影响因素来自内部还是外部?——基于KMV及随机森林模型的实证研究[J].会计与经济研究,2022,36(1):105-124. 被引量：9
3程艳琴,肖振宇.个人信用资产价值的模糊综合评价[J].统计与决策,2007,23(4):99-101. 被引量：3
4刘堃,巴曙松,任亮.中国信用风险预警模型及实证研究——基于企业关联关系和信贷行为的视角[J].财经研究,2009,35(7):13-27. 被引量：17
5佘燕达,李海晨.基于数据挖掘的信贷客户信用评估系统研究[J].情报杂志,2010,29(7):141-143. 被引量：4
6向晖,杨胜刚.基于多分类器组合的个人信用评估模型[J].湖南大学学报（社会科学版）,2011,25(3):30-33. 被引量：17
7胡海青,张琅,张道宏,陈亮.基于支持向量机的供应链金融信用风险评估研究[J].软科学,2011,25(5):26-30. 被引量：76
8Jian SHI,Shu-you ZHANG,Le-miao QIU.Credit scoring by feature-weighted support vector machines[J].Journal of Zhejiang University-Science C(Computers and Electronics),2013,14(3):197-204. 被引量：3
9胡胜,雷欢欢,胡华强.基于Logistic模型的我国房地产企业信用风险度量研究[J].中国软科学,2018(12):157-164. 被引量：22
10邱一卉.基于剪枝随机森林的电信行业客户流失预测[J].厦门大学学报（自然科学版）,2014,53(6):817-823. 被引量：6

引证文献6

1陈可.基于B-SMOTE1-XGBoost预测电信客户流失[J].郑州师范教育,2022,11(4):21-26.
2谭本艳,林玉洁.基于SMOTE-LR模型的上市公司失信风险评价研究[J].开发性金融研究,2023(3):17-27.
3顾天下,刘勤明.面向高维和不平衡数据的供应链金融信用评价[J].计算机应用研究,2022,39(11):3396-3401. 被引量：2
4杨柳,孙带.基于多分类器串并联结构的个人信用评估模型[J].湘潭大学学报（自然科学版）,2022,44(6):1-11.
5钟武昌,战洪飞,林颖俊,余军合,王瑞.基于机器学习多算法集成的产品质量问题预测方法[J].机械设计与研究,2023,39(5):100-107.
6朱磊,应瑛,陈怡桐,聂元清.基于LightGBM和SHAP值的企业信用预警模型和实证分析[J].征信,2023,41(11):49-56.

二级引证文献2

1谭本艳,林玉洁.基于SMOTE-LR模型的上市公司失信风险评价研究[J].开发性金融研究,2023(3):17-27.
2秦颖,白杨曦,马世昌.基于供需均衡理论的供应链金融生态系统稳定性仿真分析[J].金融理论与实践,2023(3):1-10. 被引量：2

1王芳,吴文通,张立立,马瑞,徐文星.邻域自适应SMOTE算法研究[J].计算机应用研究,2021,38(6):1673-1677. 被引量：4
2钟兴国,吴彦铭,赖彩明.浅谈MEC网络安全[J].江西通信科技,2022(2):43-44.
3吴学亮,娄莉.样本均衡与特征选择在员工离职倾向预测上的应用[J].智能计算机与应用,2022,12(7):181-184. 被引量：1
4赵焦焦.基于Logistic模型供应链金融风险评估方法的研究[J].中国集体经济,2022(20):95-97.
5王勇,杨支海,姜智,张元清,姜勇.基于三维激光扫描技术的矿石料堆点云识别与分析[J].有色设备,2022,36(2):23-27. 被引量：2
6李同寒,张辉,樊林畅,王浩.基于TL-BLP模型的零信任安全架构研究[J].网络安全技术与应用,2022(6):17-20. 被引量：1
7马汉达,朱敏.改进SVM不平衡数据分类的IGWOSMOTE方法[J].计算机工程与科学,2022,44(6):1133-1140. 被引量：1
8南振兴.《基于社会网络模型的金融市场风险交叉传染机制与智能防范策略》书评[J].商情,2022(21):0155-0157.
9张紫薇.上市公司债务信用风险评估——基于不同Merton模型有效性的研究[J].全国流通经济,2022(5):150-156.
10A. Inba Rexy,R. Seyezhai.Investigation of Current Control Techniques of AC-DC Interleaved Boost PFC Converter[J].Circuits and Systems,2016,7(4):307-326.

计算机应用

2022年第7期

浏览历史

内容加载中请稍等...

基于边界自适应SMOTE和Focal Loss函数改进LightGBM的信用风险预测模型被引量：6

参考文献14

二级参考文献90

共引文献468

同被引文献63

引证文献6

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于边界自适应SMOTE和Focal Loss函数改进LightGBM的信用风险预测模型 被引量：6

参考文献14

二级参考文献90

共引文献468

同被引文献63

引证文献6

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于边界自适应SMOTE和Focal Loss函数改进LightGBM的信用风险预测模型被引量：6