随机森林是特点鲜明的模型,不是万能的模型被引量：8

Random forest is a specific algorithm, not omnipotent for all datasets

导出

摘要随机森林(Random forest)模型在2001年发表后得到广泛的关注。由于随机森林可以进行回归和判别等多种统计分析,而且不受正态性、方差齐性和自变量独立性等参数检验的前提条件的制约,其应用日益普遍,有被看作万能模型的趋势。实际上,随机森林是一种特点鲜明的模型,应用局部优化拟合观察值,在分析有偏效应关系的数据时,其结果往往不准确。本文以蝉科(Cicadidea)物种的分布数据为例,比较了随机森林在回归分析时与多元线性回归、广义可加模型和人工神经网络模型的差别,在判别分析时与线性判别分析的差别,强调了随机森林预测时的碎片化特点。结果显示随机森林在处理有多元共线性和交互作用的数据时,以及在判别分析时,其准确率最高。鉴于随机森林的局限性,建议做数据分析时选择多种模型进行比较。文中的R语言代码可为研究者提供参考。 Random forest has gained extensive attention since its publication in 2001. Random forest can handle both regression and classification with minimum assumptions(no need for normality, homogeneity of variance, and independence between explanatory variables), so that its applications has dramatically increased. Someone even use it as an omnipotent tool for all analysis. In fact, random forest is a specific algorithm with clear characteristics. It is an ensemble method by constructing a number of decision trees, which intends to use local optimization to fit data. When the data have strong partial effect, random forest usually does not fit well. I compared the performance of random forest with multiple regression models,generalized additive models, and artificial neural network using the occurrence data of Cicadidea species. The results showed,although the prediction of random forest looked fragmented, it outperformed the other three models. Random forest also performed better than linear discriminant analysis for classifications. Random forest has its strength and weakness. I suggestion to use multiple models for data analysis rather than one "powerful" model.

作者李欣海 LI Xin-Hai(Institute of Zoology, Chinese Academy of Sciences, Beijing 100101, China;University of Chinese Academy of Sciences, Beijing 100049, China)

机构地区中国科学院动物研究所中国科学院大学

出处《应用昆虫学报》 CAS CSCD 北大核心 2019年第1期170-179,共10页 Chinese Journal of Applied Entomology

基金国家自然科学基金面上项目(31772479 31572287)

关键词随机森林偏效应交互作用多元共线性 R语言 random forest partial effect interaction multicollinearity R

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报,2013,50(4):1190-1197. 被引量：362

二级参考文献23

1Archer KJ, Kirnes RV, 2008. Empirical characterization of random forest variable importance measures. Comput. Stat. Data Anal. ,52(4):2249-2260.
2Biau G, 2012. Analysis of a random forests model. J. Mach. Learn. Res. , 13: 1063 -1095.
3Breiman L, 2001a. Random forests. Mach. Learn. , 45:5 - 32.
4Breiman L, 2001b. Statistical modeling: The two cultures. Stat. Sci., 16:199-215.
5Breiman L, Friedman JH, O lshen RA, Stone CJ, 1984.Classification and Regression Trees. Chapman and Hall. 1 -359.
6Cutler DR, Edwards TC, Jr., Beard KH, Cutler A, Hess KT, 2007. Random forests for classification in ecology. Ecology, 88 (11) :2783 - 2792.
7Deng H, Runger G, Tuv E, 2011. Bias of importance measures for multi-valued attributes and solutionsl I Proceedings of the 21 st International Conference on Artificial Neural Networks (ICANN).
8Elith J, Graham CH, 2009. Do they? How do they? Why do they differ? On finding reasons for differing performances of species distribution models. Ecography, 32 ( 1 ) : 66 - 77 .
9Genuer R, Poggi JM, Tuleau-Malot C, 2010. Variable selection using random forests. Pattern Recogn. Lett., 31 (14) :2225 - 2236.
10Groemping U, 2009. Variable importance assessment in regression.: linear regression versus random forest. Am. Stat. , 63(4) :308 -319.

共引文献361

1陈文明.色谱重叠峰的解析方法概论[J].中国水运（下半月）,2020(5):69-71. 被引量：4
2刘志君,崔丽娟,李伟,窦志国,左雪燕,雷茵茹,潘旭,李晶,赵欣胜,翟夏杰.基于高光谱的辽河口盐地碱蓬生态化学计量特征反演研究[J].遥感技术与应用,2023,38(1):239-250.
3杨龙,王闻娟,覃哲,古悦璇.中国大学生气候认知与低碳行为及其影响因素研究——基于随机森林模型分析[J].文化与传播,2022,11(2):6-15. 被引量：1
4孙诗睿,赵艳玲,王亚娟,王鑫,张硕.基于无人机多光谱遥感的冬小麦叶面积指数反演[J].中国农业大学学报,2019,24(11):51-58. 被引量：25
5付旭东,王金艳,李龙燕,陈金车,苏士翔,常伟,王明.基于随机森林算法的风场预报[J].兰州大学学报（自然科学版）,2021,57(4):503-509. 被引量：6
6李宁,王晓东,惠雨乔,刘长青.排水管道阻塞辨识定位和供水管网漏损技术及应用现状分析[J].给水排水,2022,48(S01):1074-1082. 被引量：5
7成方龙,赵冠伟,杨木壮,刘月亮,李芳.集成地理探测器与随机森林模型的城市人口分布格网模拟[J].测绘通报,2020(1):76-81. 被引量：12
8王雪冬,张超彪,王翠,朱永东,王海鹏.基于Logistic回归与随机森林的和龙市地质灾害易发性评价[J].吉林大学学报（地球科学版）,2022,52(6):1957-1970. 被引量：27
9鲁如坤,时正元,赖庆旺.红壤长期施肥养分的下移特征[J].土壤,2000,32(1):27-29. 被引量：37
10胡飞,温其标,陈玲,李琳.二步法合成烷基糖苷表面活性剂产品的应用性能研究[J].现代化工,2000,20(1):34-36. 被引量：8

同被引文献125

1朴世龙,方精云,贺金生,肖玉.中国草地植被生物量及其空间分布格局[J].植物生态学报,2004,28(4):491-498. 被引量：391
2唐明英,黄德林,黄立章,向峰,尹维清.草、青、鲢、鳙鱼卵水力学特性试验及其在三峡库区孵化条件初步预测[J].水利渔业,1989(4):26-30. 被引量：23
3马克平,刘玉明.生物群落多样性的测度方法　Ⅰα多样性的测度方法（下）[J].生物多样性,1994,2(4):231-239. 被引量：1928
4徐宾铎,金显仕,梁振林.黄海鱼类群落分类学多样性的研究[J].中国海洋大学学报（自然科学版）,2005,35(4):629-634. 被引量：36
5杨元合,朴世龙.青藏高原草地植被覆盖变化及其与气候因子的关系[J].植物生态学报,2006,30(1):1-8. 被引量：271
6徐善法,陈建平,叶继华.证据权法在三江北段铜金矿床成矿预测中的应用研究[J].地质与勘探,2006,42(2):54-59. 被引量：23
7苏大学.1：1000000中国草地资源图的编制与研究[J].自然资源学报,1996,11(1):75-83. 被引量：31
8李世华.蒙古红鲌生物学特性及其养殖技术[J].中国水产,2006(10):22-23. 被引量：8
9徐斌,杨秀春,陶伟国,覃志豪,刘海启,缪建明.中国草原产草量遥感监测[J].生态学报,2007,27(2):405-413. 被引量：75
10杨秀春,徐斌,朱晓华,陶伟国,刘天科.北方农牧交错带草原产草量遥感监测模型[J].地理研究,2007,26(2):213-221. 被引量：51

引证文献8

1张士红,肖克炎.基于随机森林的四川省会理地区“拉拉式”铜矿成矿预测[J].地质与勘探,2020,56(2):239-252. 被引量：8
2邢晓语,杨秀春,徐斌,金云翔,郭剑,陈昂,杨东,王平,朱立博.基于随机森林算法的草原地上生物量遥感估算方法研究[J].地球信息科学学报,2021,23(7):1312-1324. 被引量：36
3徐茂真,张崇良,薛莹,徐宾铎,纪毓鹏,任一平.山东近海渔业物种多样性与环境因子的关系[J].水产学报,2022,46(6):1008-1017. 被引量：3
4刘超,李平,武运涛,潘胜难,贾舟,刘玲莉.一种基于数码相机图像和群落冠层结构调查的草地地上生物量估算方法[J].植物生态学报,2022,46(10):1280-1288. 被引量：1
5杨志,龚云,胡挺,朱其广,金瑶,曹俊,唐会元,徐薇,陈小娟.三峡库区涪陵江段产漂流性卵鱼类的早期资源及其对水文和水温特征的响应[J].湖泊科学,2023,35(2):586-598. 被引量：5
6阳恩慧,陈强,李杰,狄海波,黄兵,邱延峻.沥青路面表面纹理重构与构造深度预测模型[J].中国公路学报,2023,36(6):14-23. 被引量：5
7刘颂,张浩鹏,裴新生,王颖.长时间序列生态系统服务权衡与协同驱动因素——以芜湖市生态系统服务功能极重要区为例[J].生态学报,2024,44(5):1780-1790. 被引量：4
8邢晓语,杨秀春,杨东,王子超,陈昂,张敏.新疆草地长时序地上生物量时空演变及其驱动力[J].资源科学,2024,46(8):1508-1522.

二级引证文献62

1尹明辉,徐争启,宋昊,张苏恒,张成江,李涛,田建民.康滇地轴大田地区铀成矿与重大地质事件[J].地质与勘探,2021,57(1):14-29. 被引量：6
2张振杰,成秋明,杨玠,武国朋,葛云钊.机器学习与成矿预测:以闽西南铁多金属矿预测为例[J].地学前缘,2021,28(3):221-235. 被引量：11
3龙宇,罗凯,唐德兴.四川省会理县中厂乡小山山铜矿地质特征与找矿标志[J].西部资源,2021(1):38-40.
4龙依,蒋馥根,孙华,邱湘龙,顾兴贵.基于HLS数据的森林蓄积量遥感反演[J].森林与环境学报,2021,41(6):620-628. 被引量：6
5沈芳,韩喜球,李洪林,王叶剑.海底多金属硫化物资源预测:方法与思考[J].中国有色金属学报,2021,31(10):2682-2695. 被引量：2
6许逢明,赵院冬,李成立,崔健,吴大天,孙巍.黑龙江多宝山矿集区三维地质建模与深部找矿预测[J].地质与勘探,2022,58(3):629-652. 被引量：6
7卢奕帆,梁颖然,卢思言,肖钺,何小钰,林锦耀.结合“珞珈一号”夜间灯光与城市功能分区的广州市碳排放空间分布模拟及其影响因素分析[J].地球信息科学学报,2022,24(6):1176-1188. 被引量：13
8王彩玲,王波,纪童,徐君,剧锋,王洪伟.透射光谱的水体亚硝酸盐含量模拟估算[J].光谱学与光谱分析,2022,42(7):2181-2186. 被引量：6
9裴泽华,葛淼,李浩,何进伟,王聪霞.基于随机森林模型的中国中老年人群HDL-C环境影响因素研究[J].地球信息科学学报,2022,24(7):1286-1300. 被引量：7
10张词谦,孙斌,洪亮,高志海,王丝丝.基于多源遥感数据的灌丛化草原识别技术研究[J].航天返回与遥感,2022,43(4):123-137. 被引量：1

1牛凯.数据分析之单因素方差分析[J].产业与科技论坛,2019,0(2):57-58. 被引量：12
2于昊卿.基于TF-IDF和人工神经网络模型的众筹影响因素研究[J].现代商贸工业,2019,40(10):109-111. 被引量：1
3朱立博.超声影像特征鉴别乳腺肿块良恶性的判别分析[J].世界最新医学信息文摘,2018,18(95):139-139. 被引量：1
4丁明,刘丽萍,孟金柳,王开良.基于稀土元素含量鉴别浙江省山茶油产地[J].食品安全质量检测学报,2019,10(4):1048-1053. 被引量：3
5周舒畅,王玉锦,黄璐,祝婷婷,艾涛,吴维,胡琼洁,夏黎明.扩散峰度成像与扩散加权成像在难鉴别孤立性肺结节良恶性判定价值的比较研究[J].中华放射学杂志,2019,53(3):200-204. 被引量：23
6查晓娟,李荣,严颜,程茜,杨营营,王舒仪,文育锋.血清神经元特异性烯醇化酶与红细胞关系的研究[J].现代预防医学,2019,46(5):888-891. 被引量：1
7张政,胡记磊,刘华北.基于贝叶斯网络的缓坡场地震液化侧移评估——以台湾集集地震为例[J].自然灾害学报,2018,27(6):127-132. 被引量：3
8丁春霞,侯伟相.考虑收益非正态性的资产配置模型及应用[J].国际商务（对外经济贸易大学学报）,2019(2):116-129.
9莫志碧.构建晶胞模型突破晶体计算[J].高中数理化,2019,0(5):59-61. 被引量：1
10陈发展.近似贝叶斯计算在判别分析中的应用[J].电脑知识与技术,2018,14(10Z):203-204. 被引量：3

应用昆虫学报

2019年第1期

浏览历史

内容加载中请稍等...

随机森林是特点鲜明的模型,不是万能的模型被引量：8

参考文献1

二级参考文献23

共引文献361

同被引文献125

引证文献8

二级引证文献62

相关作者

相关机构

相关主题

浏览历史

随机森林是特点鲜明的模型,不是万能的模型 被引量：8

参考文献1

二级参考文献23

共引文献361

同被引文献125

引证文献8

二级引证文献62

相关作者

相关机构

相关主题

浏览历史

随机森林是特点鲜明的模型,不是万能的模型被引量：8