一种基于随机森林的改进特征筛选算法被引量：15

An improved feature selection algorithm based on random forest

下载PDF

导出

摘要肝癌是一种我国高发的消化系统恶性肿瘤,患者死亡率高,威胁极大。而其预后情况通常只能通过医生的专业知识和经验积累来粗略判断,准确率较差。因此文中在分析随机森林算法的基本原理的基础上,提出一种改进的基于随机森林的特征筛选算法,并应用Python编程设计了一个能够预处理数据、调用这些算法、控制各参数并展现测试结果的系统,最终将该系统应用于肝癌预后预测,比较分析了不同的算法、参数、内部策略对预测精度和计算性能的影响。研究结果表明,随机森林相比剪枝过的决策树具备更好的泛化能力和训练速度,改进的特征筛选算法能够在保证预测精度的前提下显著缩小特征集。 Liver cancer is a malignant tumor of the digestive system highly occurred in China,which causes high mortality of patients and great threat to their lives,and its prognosis conditions are often roughly judged by doctors with their professional knowledge and experience accumulation,which has poor accuracy. Therefore,on the basis of analyzing the basic principle of the random forest algorithm,an improved feature selection algorithm based on the random forest is proposed in this paper. The Python programming design is applied to design a system that can preprocess data,recall the algorithms,control various parameters and display test results. The system is applied to the prognosis prediction of the liver cancer. The influences of different algorithms,parameters and internal strategies on the prediction accuracy and computing performance are compared and analyzed. The research results show that in comparison with the pruned decision tree,the random forest has a better generalization ability and training speed,and the improved feature selection algorithm can significantly reduce the feature set on the premise of guaranteeing the prediction accuracy.

作者刘云翔陈斌周子宜 LIU Yunxiang;CHEN Bin;ZHOU Ziyi(School of Computer Science and Information Engineering,Shanghai Institute of Technology,Shanghai 201418,China)

机构地区上海应用技术大学计算机科学与信息工程学院

出处《现代电子技术》北大核心 2019年第12期117-121,共5页 Modern Electronics Technique

基金国家自然科学基金项目(61702334) 上海市自然科学基金项目(17ZR1429700)~~

关键词随机森林算法特征筛选肝癌预后预测决策树预测精度特征集 random forest algorithm feature selection liver cancer prognosis prediction decision tree prediction accura cy feature set

分类号 TN911.34 [电子电信—通信与信息系统] TP3.05 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献2

1姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版）,2014,44(1):137-141. 被引量：252
2秦文哲,陈进,董力.大数据背景下医学数据挖掘的研究进展及应用[J].中国胸心血管外科临床杂志,2016,23(1):55-60. 被引量：53

二级参考文献38

1Davies S, Russl S. NP completeness of searches for smallest possible feature sets[C]//Proceedings of the AAAI Fall Symposiums on Relevance, Menlo Park, 1994:37-39.
2Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
3Strobl Carolin, Boulesteix Anne-Laure, Kneib Thomas, et al. Conditional variable importance for random forests[J]. BMC Bioinformatics, 2008, 9 (1) : 1-11.
4Reif David M, Motsinger Alison A, McKinney Brett A, et al. Feature selection using a random forests classifier for the integrated analysis of multiple data types[C]//IEEE Symposium on Computational In- telligence and Bioinformatics and Computational Bi- ology, 2006: 171-178.
5Mohammed Khalilia, Sounak Chakraborty, Mihail Popescu. Predicting disease risks from highly im- balanced data using random forese[J]. BMC Medi- cal Informaties and Decision Making, 2011, 11(7): 51-58.
6Verikas A, Gelzinis A, Bacauskiene M. Mining data with random forests: a survey and results of new tests[J]. Pattern Recognition, 2011, 44 (2): 330-349.
7Inza I, Larranaga P, Blanco R. Filter versus wrap- per gene selection approaches in DNA microarray domains [J]. Artificial Intelligence in Medicine, 2004, 31(2): 91-103.
8李国杰.大数据研究的科学价值.中国计算机学会通讯,2012,8(9):8—15.
9Gantz J,Reinsel D.Extracting value from chaos.IDC iview,2011,1142 9-10.
10Madden S.From databases to big data.IEEE Internet Computing,2012,3:4-6.

共引文献303

1陈文明.色谱重叠峰的解析方法概论[J].中国水运（下半月）,2020(5):69-71. 被引量：4
2郑睿程,顾洁,金之俭,彭虹桥,蔡珑.数据驱动与预测误差驱动融合的短期负荷预测输入变量选择方法研究[J].中国电机工程学报,2020,40(2):487-500. 被引量：41
3盛晓欣,田翔华,周毅.基于随机森林癫痫患者脑电数据的分析研究[J].中国数字医学,2020,15(1):41-43.
4杨仙保,张王菲,孙斌,高志海,李毅夫,王晗.基于GEE和Sentinel-2时序数据的呼伦贝尔沙地及其周边植被类型识别研究[J].遥感技术与应用,2022,37(4):982-992. 被引量：3
5张王菲,文哲,张亚红,张庭苇,李云.Stokes参数在油菜长势监测中的可行性分析[J].武汉大学学报（信息科学版）,2020,45(2):242-249. 被引量：3
6伟利国,袁玉龙,董鑫,周达,汪雅琦,陈文科.拖挂式大载荷特种车辆导航控制系统设计与试验[J].农业机械学报,2022,53(S01):324-331. 被引量：2
7李四海,李燕.基于案例驱动的医学数据挖掘课程教学研究与实践[J].科教导刊,2023(14):108-111.
8付华,韩冰,崔鹏,孟祥云.能量特性与随机森林的孤岛辨识模型[J].辽宁工程技术大学学报（自然科学版）,2021,40(1):41-47. 被引量：2
9焦良珍,陈海生,高革,李冠男,胡云鹏.基于数据挖掘算法的DHC系统负荷时序预测方法[J].建筑节能,2020,48(11):38-44. 被引量：4
10王方勇.发电机转子反冲洗的新办法[J].安徽电力技术情报,2000(1):13-15.

同被引文献134

1彭正霞,陆根书,李丽洁.大学毕业生就业质量的影响因素及路径分析[J].中国高教研究,2020,0(1):57-64. 被引量：67
2张诗雨,杨珂,夏春明,金陈玲,王忆勤,燕海霞.基于随机森林的脉象信号特征降维与分类研究[J].世界科学技术-中医药现代化,2020,22(7):2418-2426. 被引量：6
3张莉,孙钢,郭军.基于K-均值聚类的无监督的特征选择方法[J].计算机应用研究,2005,22(3):23-24. 被引量：29
4刘海啸.股票市场上的天时、地利、人和[J].燕山大学学报（哲学社会科学版）,2007,8(2):111-117. 被引量：1
5李群,赵捷,王纪奎,唐文涛,赵艳娜,徐舫舟.窦性心律与心室纤颤信号分类的研究[J].航天医学与医学工程,2009,22(5):374-377. 被引量：1
6菅小艳.基于不完整数据的EM算法初值选取[J].太原师范学院学报（自然科学版）,2010,9(1):79-81. 被引量：3
7蒋盛益,王连喜.基于特征相关性的特征选择[J].计算机工程与应用,2010,46(20):153-156. 被引量：16
8李为民,邬国英,单玉华,文戈.基于人工神经网络(BP)方法预测汽油辛烷值[J].石油与天然气化工,1999,28(2):103-105. 被引量：6
9戴咏川,戴竹青.采用理化指标计算汽油辛烷值[J].辽宁石油化工大学学报,2011,31(2):4-7. 被引量：2
10王大雄,徐耕,申情.应用Meyer小波消除ECG的基线漂移[J].航天医学与医学工程,2012,25(1):46-49. 被引量：2

引证文献15

1刘启超,徐红,林卓胜,朱嘉健,刘慧琳,吴欣,冯跃.基于加权软投票融合模型的脉象信号识别研究[J].世界科学技术-中医药现代化,2023,25(8):2883-2891. 被引量：1
2彭岩,赵梓如,吴婷娴,王洁.PM2.5浓度预测与影响因素分析[J].北京邮电大学学报,2019,42(6):162-169. 被引量：7
3罗美荣,杨丰,詹长安.结合静态小波变换的自适应窗口可除颤节律检测[J].航天医学与医学工程,2019,32(6):539-546.
4王浩,马迅,刘安磊,贾旭超,纪书军,骆云娟,徐冬冬.机器学习算法在反窃电分析中的应用[J].河北电力技术,2020,39(1):38-41. 被引量：2
5高晓娟.基于机器学习的失信医疗信息预防与监测识别技术研究[J].电子设计工程,2020,28(17):1-5.
6张盼盼,田晶,杨弘,李晨昊,闫晶晶,王可,韩嫱,张青,韩清华,张岩波.基于随机森林的慢性心力衰竭患者报告结局量表的预后评估价值[J].郑州大学学报（医学版）,2020,55(6):786-790. 被引量：14
7武炜杰,张景祥.融合分类信息的随机森林特征选择算法及应用[J].计算机工程与应用,2021,57(17):147-156. 被引量：15
8杨淑莹,郭杨杨,田迪,赵敏.虚拟人引导的脑电信号重要性选择与识别[J].计算机应用研究,2021,38(12):3692-3696.
9王宇航,王旭,朱霖.降低汽油精制过程中的辛烷值损失模型[J].数学的实践与认识,2021,51(23):148-157.
10牛丹丹,刘筠筠.基于随机森林算法的就业预警机制研究——以河南省民办高校为例[J].现代信息科技,2021,5(22):101-103. 被引量：1

二级引证文献48

1杨亚莉,李智伟,钟卫军.基于二向注意力循环神经网络的PM2.5浓度预测[J].空军工程大学学报（自然科学版）,2020,21(6):101-106. 被引量：1
2沈鑫,惠晓雨,潘楠,钱俊兵,郭晓珏.DBN深度学习算法在反窃电系统中的应用价值[J].电子技术与软件工程,2020(24):223-224.
3孔宇,王海起,张浩然,夏可.基于集成学习算法的PM_(2.5)浓度值预测[J].环境保护科学,2021,47(4):17-23. 被引量：3
4刘志煜,孔亚伟,韩东建,和伟伟,杨永利,郑颖颖,唐俊楠,上官佳红,沈德良,张金盈.沙库巴曲缬沙坦与贝那普利对终末期心力衰竭的疗效[J].郑州大学学报（医学版）,2021,56(4):480-485. 被引量：14
5高文静,马宏,项美香.心肌能量底物代谢重构与心力衰竭关系的研究进展[J].解放军医学杂志,2021,46(8):822-826. 被引量：9
6郭文斌,丘康平,蔡惠坤.基于特征贡献度与线性搜索的特征选择方法[J].现代计算机,2021,27(23):6-10. 被引量：1
7冯桂玲,丁忠安,杨悦,张登灵,叶坤荣.大数据分析助力反窃电工作有效提升[J].电力系统装备,2021(17):114-115. 被引量：1
8王理亚,单艳华,王东,孙荣青.运动强度对慢性心力衰竭患者心肺功能及康复效果的影响[J].郑州大学学报（医学版）,2022,57(1):107-110. 被引量：16
9甄贞,刘佳宇,牛亚洲,冯新悦,魏庆彬.基于多元时间序列的哈尔滨市PM_(2.5)影响因素分析[J].河南师范大学学报（自然科学版）,2022,50(1):98-107. 被引量：5
10周丽,李春林,雷美霞.益气温阳活血利水方治疗慢性心力衰竭临床疗效及对血清B型利钠肽和心功能的影响[J].河北中医,2021,43(12):1984-1988. 被引量：8

1张岱,田辉,马建.基于单调向量空间的大数据分析方法研究[J].智能物联技术,2019,51(3):14-18.
2陈震元,常郝.嵌入式智能花盆的Android移动设计[J].福建电脑,2019,35(4):36-39. 被引量：3
3刁宇峰,杨亮,林鸿飞,吴迪,樊小超,徐博,许侃.基于潜在语义特性的语义双关语检测及双关词定位[J].中文信息学报,2019,33(4):12-19. 被引量：2
4邵海磊,徐秋贞.能谱CT在孤立性肺结节诊断中的应用研究进展[J].东南大学学报（医学版）,2019,38(2):384-387. 被引量：7
5胡雨舟,李佳伟,郭翌,汪源源,余锦华,常才.浸润性乳腺癌超声高通量图像特征预测同侧腋窝淋巴结转移[J].肿瘤影像学,2019,28(2):65-71. 被引量：6
6唐雯,高峻逸,马辛宇,张超贺,马连韬,王亚沙.循环神经网络模型在腹膜透析临床预后预测中的初步应用[J].北京大学学报（医学版）,2019,51(3):602-608. 被引量：6
7钱有程.基于局部类相似的特征选择方法[J].吉林化工学院学报,2019,36(5):93-96. 被引量：2
8苏娇娇,汤海涛.血清学标志物对胰腺癌早期诊断的研究进展[J].临床消化病杂志,2019,31(2):126-128. 被引量：3
9胡欢欢,殷香保.吲哚氰绿荧光成像技术在肝癌手术导航中的应用进展[J].中华普通外科杂志,2019,34(5):465-467. 被引量：3
10薛青青.基于二次筛选的电子元器件可靠性研究[J].电子世界,2019,0(9):65-66. 被引量：8

现代电子技术

2019年第12期

浏览历史

内容加载中请稍等...

一种基于随机森林的改进特征筛选算法被引量：15

参考文献2

二级参考文献38

共引文献303

同被引文献134

引证文献15

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

一种基于随机森林的改进特征筛选算法 被引量：15

参考文献2

二级参考文献38

共引文献303

同被引文献134

引证文献15

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

一种基于随机森林的改进特征筛选算法被引量：15