基于随机森林的多源小样本数据快速集成方法

Random Forest Based Fast Integration of Multi-Source Small Sample Data

下载PDF

导出

摘要受多源小样本数据属性复杂性的影响,对其进行集成处理时,过拟合和欠拟合情况较为明显。为此,文章提出基于随机森林的多源小样本数据快速集成方法。考虑多源小样本数据自身的属性特征,在构建随机森林模型阶段,充分利用粒向量与多源小样本数据特征的贴合性,将其作为随机森林的基础结构,利用粒化层归一化多源小样本数据,并将输出的粒化结果作为决策层的节点。在集成阶段,根据多源小样本数据与决策层节点之间的距离,集成数据。在测试结果中,数据集成的过拟合情况占比仅为0.29%,欠拟合情况占比也仅为0.27%,具有良好的集成效果。 Influenced by the attribute complexity of multi-source small sample data,the overfitting and underfiting are obvious.Therefore,the rapid integration method of multi-source small sample data based on random forest is proposed.Considering the properties of multi-source small sample data itself,in the construction of the random forest model stage,make full use of the fit of particle vector and small sample data features,as the basis of the random forest,using the granulation layer of multi-source small sample data normalization operation,and the output granulation results as a decision-making node.In the integration stage,the integration of the data is realized according to the distance between the multi-source small sample data and the nodes at the decision level.In the test results,the proportion of overfitting of data integration was only 0.29%,and the proportion of underfitting was only 0.27%,which had good integration effect.

作者何昀张川张继夫陈伟 HE Yun;ZHANG Chuan;ZHANG Jifu;CHEN Wei(Aviation University of Air Force,Changchun Jilin 130021,China)

机构地区空军航空大学

出处《信息与电脑》 2024年第1期52-54,共3页 Information & Computer

关键词随机森林多源小样本数据快速集成属性特征随机森林模型 random forest multi-source small sample data fast integration attribute characteristics random forest model

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1陈根深,刘刚,陈麒玉,赵力行,向世泽,罗庆,张俊杰.基于多源数据集成与WebGIS的三维矿山空间数据管理系统关键技术及应用[J].软件导刊,2023,22(11):18-28. 被引量：3
2丁剑,武红鑫,韩萌.基于动态异构集成的多标签数据流分类算法[J].计算机工程与设计,2023,44(10):3031-3038. 被引量：1
3江乾坤,王成哲.互联网企业海外并购财务风险大数据预警研究——基于Stacking集成学习[J].技术经济,2023,42(9):147-160. 被引量：5
4朱先远,严远亭,张燕平.邻域信息修正的不完整数据多填充集成分类方法[J].计算机工程与应用,2023,59(23):125-135. 被引量：2
5张全秀,安晓冬,陈梦洵,王浩任,安文章.城市轨道交通投资估算大数据分析与BIM集成展示[J].价值工程,2023,42(25):88-91. 被引量：1
6汤程皓,梅颖,卢诚波.利用集成OS-ELM的不平衡数据流分类与存储方法[J].软件导刊,2023,22(12):71-77. 被引量：1
7杨家俊,余涛,余盛灿,陈鑫沛,吴毓峰,卢冠华.基于图数据分割的子图集成学习方法及在电价预测领域的应用[J].电力信息与通信技术,2023,21(8):59-67. 被引量：3

二级参考文献71

1楼润平,李贝,齐晓梅.中国互联网企业的成长路径、公司战略及管理策略研究[J].管理评论,2021(1):229-241. 被引量：14
2鲍成霞.GIS空间数据模型在矿山地质测绘中的应用[J].世界有色金属,2023(3):28-30. 被引量：2
3张冬冬,李建中,王伟平,郭龙江.数据流历史数据的存储与聚集查询处理算法[J].软件学报,2005,16(12):2089-2098. 被引量：17
4吴冲龙,田宜平,张夏林,何珍文,翁正平,李新川,李章林,张志庭,陈景河,罗映南,雷宪辉,苏建平,郑元平.数字矿山建设的理论与方法探讨[J].地质科技情报,2011,30(2):102-108. 被引量：38
5陈铁明,马继霞,Samuel H.Huang,蔡家楣.一种新的快速特征选择和数据分类方法[J].计算机研究与发展,2012,49(4):735-745. 被引量：20
6吴立新.数字地球、数字中国与数字矿区[J].矿山测量,2000(1):6-9. 被引量：97
7吕峻.基于不同指标类型的公司财务危机征兆和预测比较研究[J].山西财经大学学报,2014,36(1):103-113. 被引量：20
8张建军,张天成,隋宇婷,岳德君.基于极限学习机(ELM)岭回归的DNA微阵列数据填补[J].小型微型计算机系统,2014,35(10):2357-2362. 被引量：3
9俞锋,池仁勇.中国企业跨国并购法律风险评价及“浙江模式”总结[J].技术经济,2015,34(5):86-93. 被引量：4
10宋彪,朱建明,李煦.基于大数据的企业财务预警研究[J].中央财经大学学报,2015(6):55-64. 被引量：81

共引文献9

1黄文琦,方必武,戴珍,侯佳萱,曹尚,梁凌宇,林全郴,余涛.基于多源数据图表示学习的风电出力预测方法[J].电力建设,2023,44(11):43-53. 被引量：2
2韩庭苇,夏国芳.基于图滤波器和SVDD算法的分布式光伏集群发电异常检测研究[J].电力信息与通信技术,2024,22(3):52-57. 被引量：1
3郭冰倩,夏佐铎,王莹莹.基于改进功效系数法的财务风险预警研究--以中粮生物科技股份有限公司为例[J].黑龙江粮食,2024(5):142-144.
4江乾坤,王成哲.东道国国家风险与跨国并购二元边际研究——以互联网企业为例[J].生产力研究,2024(7):137-143.
5朱华,乔勇进,董国钢.基于CART决策树的分布式数据离群点检测算法[J].现代电子技术,2024,47(16):157-162.
6朱晓伟.互联网背景下企业财务内部控制的完善对策分析[J].南北桥,2024(13):112-114.
7李林泰,崔巍.铁矿石价格波动的因果推断:影响因素与效应分析[J].技术经济,2024,43(8):36-45.
8李广顺.基于云计算的水利枢纽运行多源数据智慧集成方法[J].中国水能及电气化,2024(9):62-66.
9李特.基于ERDAS APOLLO的铁路海量地理信息数据管理系统研究[J].铁道勘察,2024,50(5):142-149.

1沈川.基于K-Means算法的建筑工程进度数据集成方法[J].信息与电脑,2023,35(22):66-68.
2潘洁,刘勤,吴忠生,杨寅.类ChatGPT技术在企业智能财务建设中的应用思考[J].会计之友,2024(3):139-144. 被引量：5
3朱育雷,杨静,钟水新,朱文达,李智玉,魏涛,李彦霖,顾天红.基于多神经网络的动态权重集成温度预报订正研究[J].热带气象学报,2024,40(1):156-168.
4李铜林,曾甫龙.基于5G技术的海上风电通信系统研究[J].南方能源建设,2024,11(2):51-58. 被引量：4
5王晓路,贾长伟,张升升.基于狄拉克符号的异构模型集成方法[J].宇航总体技术,2024,8(2):6-14.
6杨益文.基于ArcPy和FME地名地址库智能化更新[J].北京测绘,2023,37(11):1557-1560.
7庞泰,翁巍,孟灿,赵蕾,牛红伟.基于特征挖掘的企业融资信息资源数据智能匹配方法[J].信息技术与信息化,2024(3):157-161.
8陈鸿龙,张博见,李隽健,孙良.面向深度学习视觉应用ISP过程的图像缩放攻击实验平台[J].实验技术与管理,2024,41(2):122-126.
9张岱琼.融合“国土三调”地表覆盖数据内业更新方法研究[J].经纬天地,2024(1):89-92.
10耿亚东,常珍珍.政务数据共享的生成逻辑与作用机制:概念界定、理论解释与展望[J].内蒙古大学学报（哲学社会科学版）,2024,56(1):74-86.

信息与电脑

2024年第1期

浏览历史

内容加载中请稍等...

基于随机森林的多源小样本数据快速集成方法

参考文献7

二级参考文献71

共引文献9

相关作者

相关机构

相关主题

浏览历史