期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于RF-LSTM模型对A股历史数据的分析
1
作者 丁睦坤 柴啸龙 《商展经济》 2024年第1期111-115,共5页
本文在分析A股个股历史数据及自定义的指标基础上,建立RandomForest模型,并利用RF模型对指标进行筛选,再将RF模型选取的指标传入建立RF-LSTM模型,实现预测功能。为了展现RF-LSTM模型的适用性,本文引入了自定义的AR-RF集成模型作为对比,... 本文在分析A股个股历史数据及自定义的指标基础上,建立RandomForest模型,并利用RF模型对指标进行筛选,再将RF模型选取的指标传入建立RF-LSTM模型,实现预测功能。为了展现RF-LSTM模型的适用性,本文引入了自定义的AR-RF集成模型作为对比,在最终测试集的预测结果中发现RF-LSTM模型有更好的效果。本文的主要创新点是,自定义并二次量化处理个股支撑压力指标,在得到RF-LSTM模型的预测结果后,结合自定义公式,对未来的走势进行量化处理。 展开更多
关键词 RandomForest模型 AR-RF集成模型 自定义支撑压力指标 RF-LSTM模型 走势量化处理
下载PDF
Genotyping Characteristics of Human Fecal Escherichia coli and Their Association with Multidrug Resistance in Miyun District, Beijing
2
作者 ZHANG Wei Wei ZHU Xiao Lin +11 位作者 DENG Le Le HAN Ya Jun LI Zhuo Wei WANG Jin Long CHEN Yong Liang WANG Ao Lin TIAN Er Li CHENG Bin XU Lin Hua CHEN Yi Cong TIAN Li Li HE Guang Xue 《Biomedical and Environmental Sciences》 SCIE CAS CSCD 2023年第5期406-417,共12页
Objective To explore the genotyping characteristics of human fecal Escherichia coli(E. coli) and the relationships between antibiotic resistance genes(ARGs) and multidrug resistance(MDR) of E. coli in Miyun District, ... Objective To explore the genotyping characteristics of human fecal Escherichia coli(E. coli) and the relationships between antibiotic resistance genes(ARGs) and multidrug resistance(MDR) of E. coli in Miyun District, Beijing, an area with high incidence of infectious diarrheal cases but no related data.Methods Over a period of 3 years, 94 E. coli strains were isolated from fecal samples collected from Miyun District Hospital, a surveillance hospital of the National Pathogen Identification Network. The antibiotic susceptibility of the isolates was determined by the broth microdilution method. ARGs,multilocus sequence typing(MLST), and polymorphism trees were analyzed using whole-genome sequencing data(WGS).Results This study revealed that 68.09% of the isolates had MDR, prevalent and distributed in different clades, with a relatively high rate and low pathogenicity. There was no difference in MDR between the diarrheal(49/70) and healthy groups(15/24).Conclusion We developed a random forest(RF) prediction model of TEM.1 + baeR + mphA + mphB +QnrS1 + AAC.3-IId to identify MDR status, highlighting its potential for early resistance identification. The causes of MDR are likely mobile units transmitting the ARGs. In the future, we will continue to strengthen the monitoring of ARGs and MDR, and increase the number of strains to further verify the accuracy of the MDR markers. 展开更多
关键词 E.COLI Multidrug resistance Whole-genome sequencing Antibiotic resistance genes Randomforest
下载PDF
A Two-Step Algorithm to Estimate Variable Importance for Multi-State Data:An Application to COVID-19
3
作者 Behnaz Alafchi Leili Tapak +2 位作者 Hassan Doosti Christophe Chesneau Ghodratollah Roshanaei 《Computer Modeling in Engineering & Sciences》 SCIE EI 2023年第6期2047-2064,共18页
Survival data with amulti-state structure are frequently observed in follow-up studies.An analytic approach based on a multi-state model(MSM)should be used in longitudinal health studies in which a patient experiences... Survival data with amulti-state structure are frequently observed in follow-up studies.An analytic approach based on a multi-state model(MSM)should be used in longitudinal health studies in which a patient experiences a sequence of clinical progression events.One main objective in the MSM framework is variable selection,where attempts are made to identify the risk factors associated with the transition hazard rates or probabilities of disease progression.The usual variable selection methods,including stepwise and penalized methods,do not provide information about the importance of variables.In this context,we present a two-step algorithm to evaluate the importance of variables formulti-state data.Three differentmachine learning approaches(randomforest,gradient boosting,and neural network)as themost widely usedmethods are considered to estimate the variable importance in order to identify the factors affecting disease progression and rank these factors according to their importance.The performance of our proposed methods is validated by simulation and applied to the COVID-19 data set.The results revealed that the proposed two-stage method has promising performance for estimating variable importance. 展开更多
关键词 Multi-state data deviance residual martingale residual gradient boosting randomforest neural network variable importance variable selection
下载PDF
Multi Class Brain Cancer Prediction System Empowered with BRISK Descriptor
4
作者 Madona B.Sahaai G.R.Jothilakshmi +1 位作者 E.Praveen V.Hemath Kumar 《Intelligent Automation & Soft Computing》 SCIE 2023年第5期1507-1521,共15页
Magnetic Resonance Imaging(MRI)is one of the important resources for identifying abnormalities in the human brain.This work proposes an effective Multi-Class Classification(MCC)system using Binary Robust Invariant Scal... Magnetic Resonance Imaging(MRI)is one of the important resources for identifying abnormalities in the human brain.This work proposes an effective Multi-Class Classification(MCC)system using Binary Robust Invariant Scalable Keypoints(BRISK)as texture descriptors for effective classification.Atfirst,the potential Region Of Interests(ROIs)are detected using features from the acceler-ated segment test algorithm.Then,non-maxima suppression is employed in scale space based on the information in the ROIs.The discriminating power of BRISK is examined using three machine learning classifiers such as k-Nearest Neighbour(kNN),Support Vector Machine(SVM)and Random Forest(RF).An MCC sys-tem is developed which classifies the MRI images into normal,glioma,meningio-ma and pituitary.A total of 3264 MRI brain images are employed in this study to evaluate the proposed MCC system.Results show that the average accuracy of the proposed MCC-RF based system is 99.62%with a sensitivity of 99.16%and spe-cificity of 99.75%.The average accuracy of the MCC-kNN system is 93.65%and 97.59%by the MCC-SVM based system. 展开更多
关键词 Braincancer BRISKdescriptor randomforest multi-classclassification brain image analysis
下载PDF
Employee Attrition Classification Model Based on Stacking Algorithm
5
作者 CHEN Yanming LIN Xinyu ZHAN Kunye 《Psychology Research》 2023年第6期279-285,共7页
This paper aims to build an employee attrition classification model based on the Stacking algorithm.Oversampling algorithm is applied to address the issue of data imbalance and the Randomforest feature importance rank... This paper aims to build an employee attrition classification model based on the Stacking algorithm.Oversampling algorithm is applied to address the issue of data imbalance and the Randomforest feature importance ranking method is used to resolve the overfitting problem after data cleaning and preprocessing.Then,different algorithms are used to establish classification models as control experiments,and R-squared indicators are used to compare.Finally,the Stacking algorithm is used to establish the final classification model.This model has practical and significant implications for both human resource management and employee attrition analysis. 展开更多
关键词 employee attrition classification model machine learning ensemble learning oversampling algorithm Randomforest stacking algorithm
下载PDF
数据挖掘分类算法优化非平衡采样样本的研究与应用 被引量:3
6
作者 吴琼 周维民 李运田 《工业控制计算机》 2014年第2期63-64,78,共3页
主要是针对采样过程中的非平衡数据进行处理、分类,改变传统算法在其处理过程中的分类倾向性。结合数据挖掘中多种分类算法构建的混合模型进行分类处理非平衡采样数据,并将优化的结果进行比较。
关键词 分类算法 非平衡性 ADABOOST randomforests SVM ROC
下载PDF
基于K-means和Random Forest的WiFi室内定位方法 被引量:10
7
作者 李军 何星 +1 位作者 蔡云泽 徐琴 《控制工程》 CSCD 北大核心 2017年第4期787-792,共6页
为了减小室内环境因素对室内WiFi定位的影响,降低定位成本,提高定位精度以及扩大定位区域,通过对室内定位系统和机器学习算法的讨论,提出了一种基于K-means和Random Forest融合的WiFi室内定位算法。针对室内WiFi信号强度分布的特点,该... 为了减小室内环境因素对室内WiFi定位的影响,降低定位成本,提高定位精度以及扩大定位区域,通过对室内定位系统和机器学习算法的讨论,提出了一种基于K-means和Random Forest融合的WiFi室内定位算法。针对室内WiFi信号强度分布的特点,该算法通过K-means聚类改进算法对数据进行初始分类,然后使用Random Forest对初始分类结果进行二次分类。实验结果表明,该定位算法的定位精度在2米以内的概率为89.1%,达到预期的定位效果,同时对缺失值数据具有较好的适应能力。 展开更多
关键词 室内定位 WIFI RandomForest K-MEANS 多模融合
原文传递
决策树算法在物流企业人才流失中的应用研究
8
作者 杨军 李宇航 《物流工程与管理》 2017年第8期154-156,共3页
随着我国物流行业的快速发展,物流企业需要大量的人才,然而物流的快速发展也导致公司员工流动性增加,这给企业在经济和人才管理方面造成了损失和困扰,因此,如何解决人才流失的问题,是物流企业在竞争激烈的市场中面临的挑战之一。文中基... 随着我国物流行业的快速发展,物流企业需要大量的人才,然而物流的快速发展也导致公司员工流动性增加,这给企业在经济和人才管理方面造成了损失和困扰,因此,如何解决人才流失的问题,是物流企业在竞争激烈的市场中面临的挑战之一。文中基于大数据挖掘与分析软件平台,利用数据挖掘中的J48和RandomForest两种分类算法对搜集某物流企业的员工离职相关数据进行分析,找出影响员工离职的因素,为今后该公司人力资源管理及人才挽留提供理论依据。 展开更多
关键词 人才流失 J48算法 RandomForest算法
下载PDF
基于数据挖掘和RandomForest算法的助学金分类研究 被引量:1
9
作者 王雨萌 武小军 罗雅晨 《中国市场》 2019年第3期50-52,共3页
在普及高等教育的过程中,发放助学金作为帮助贫困学生完成学业的重要手段之一。目前国内高校的助学金发放准则存在一定的问题,因此如何在高校缺乏学生的真实家庭情况以及助学金的金额有限的背景下,将助学金发放到最需要帮助的学生手上... 在普及高等教育的过程中,发放助学金作为帮助贫困学生完成学业的重要手段之一。目前国内高校的助学金发放准则存在一定的问题,因此如何在高校缺乏学生的真实家庭情况以及助学金的金额有限的背景下,将助学金发放到最需要帮助的学生手上成为亟待解决的问题。文章以某高校大学生一卡通脱敏数据为原始数据,采用大数据挖掘技术和机器学习算法等AI技术进行拟合训练,以期有效预测需要帮助的学生,发挥助学金的作用。 展开更多
关键词 数据挖掘 RandomForest 机器学习 助学金
下载PDF
基于抽象API调用序列的Android恶意软件检测方法 被引量:5
10
作者 崔艳鹏 颜波 胡建伟 《计算机应用与软件》 北大核心 2019年第9期321-326,共6页
随着Android版本的不断更替,以及恶意软件的代码混淆技术的发展,主流的静态检测方法开始面临检测效率逐年下降的问题。针对上述问题,提出一种基于抽象API调用序列的Android恶意软件检测方法。该方法采用API包名、混淆名和自定义名来抽象... 随着Android版本的不断更替,以及恶意软件的代码混淆技术的发展,主流的静态检测方法开始面临检测效率逐年下降的问题。针对上述问题,提出一种基于抽象API调用序列的Android恶意软件检测方法。该方法采用API包名、混淆名和自定义名来抽象API调用序列,使得抽象出来的序列不依赖API版本,同时又包含混淆代码特征,具有更好的容错性。在此基础上,计算抽象API调用序列之间的转移概率矩阵作为分类特征,采用RandomForest分类算法进行恶意软件检测。实验结果表明,该方法对API版本依赖性小,且判别准确率高于一般使用API调用序列作为特征的判别方法,从而能更有效地检测未知应用软件的恶意性。 展开更多
关键词 ANDROID 恶意软件检测 抽象API调用序列 代码混淆 RandomForest
下载PDF
基于RandomForest分类方法的购买预测研究 被引量:1
11
作者 姜潇蔚 杨达霏 《江苏通信》 2021年第6期72-74,共3页
本文针对银行客户,提出一种基于RandomForest的银行客户分类模型,通过基于RandomForest的分类方法对银行客户已存在数据进行处理,并应用labelencoder对数据进行预处理从而提高分类精确度,得到客户对产品是否具有购买倾向。结合了RandomF... 本文针对银行客户,提出一种基于RandomForest的银行客户分类模型,通过基于RandomForest的分类方法对银行客户已存在数据进行处理,并应用labelencoder对数据进行预处理从而提高分类精确度,得到客户对产品是否具有购买倾向。结合了RandomForest的分类能力和labelencoder量化数据能力,使用葡萄牙银行机构数据进行验证,实验结果表明本文提出的客户购买预测模型精度更高。 展开更多
关键词 RandomForest 机器学习 客户分类
下载PDF
基于多组学数据的乳腺癌预后预测模型构建
12
作者 苏婕怡 《应用数学进展》 2022年第9期6723-6729,共7页
本文主要从UCSC Xena数据库中已经整理好的关于TCGA数据库的乳腺癌数据中,挑选了拷贝数变异、RNA基因表达量、RNA外显子表达量三个组学方面的数据。首先,基于三个组学数据的维度远大于样本量的特征,分别对三个组学的数据进行方差阈值过... 本文主要从UCSC Xena数据库中已经整理好的关于TCGA数据库的乳腺癌数据中,挑选了拷贝数变异、RNA基因表达量、RNA外显子表达量三个组学方面的数据。首先,基于三个组学数据的维度远大于样本量的特征,分别对三个组学的数据进行方差阈值过滤,初步筛选过滤掉变化幅度不大的变量,再使用mRMR进行滤波式的变量选择方法,即最大化特征与分类变量之间的相关性,最小化特征之间的相关性,各自筛选得到50个变量。对于离散型的天数表型数据,采用阈值方法将其转化为0-1分类变量,最终将因变量与自变量进行合并,并划分测试集、训练集,使用svm、XGBoost、Logistic、RandomForest四种方法对结果变量进行预后预测,并采用特定的指标对这四种算法进行比较,运用在训练集上,最终得到XGBoost、Logistic两种算法的预测效果要优于svm、RandomForest。 展开更多
关键词 多组学 mRMR XGBoost SVM LOGISTIC RandomForest 变量选择 预后预测
下载PDF
基于异质集成学习方法的房价预测
13
作者 何睿婷 《通讯世界》 2018年第10期296-297,共2页
房价预测问题属于人工智能领域中的回归问题。对于回归问题的解决,常见的机器学习模型有Ridge Regression模型,基于集成学习方法的Random Forest模型,AdaBoost模型以及XGBoost模型。不同的模型在不同的问题中具有不同的效果,本文依据&qu... 房价预测问题属于人工智能领域中的回归问题。对于回归问题的解决,常见的机器学习模型有Ridge Regression模型,基于集成学习方法的Random Forest模型,AdaBoost模型以及XGBoost模型。不同的模型在不同的问题中具有不同的效果,本文依据"房价预测"这一具体问题,采用了上述几种算法模型进行预测,综合了不同模型的预测情况得出最后的预测结果。对算法模型进行了原理分析,比较了不同的分类模型解决该问题的效果,横向对比了不同模型的优缺点,并对造成结果差异的原因进行了总结。 展开更多
关键词 房价预测 RidgeRegression RandomForest ADABOOST XGBoost
下载PDF
基于RandomForest的取消酒店预订应用研究
14
作者 顾凤云 曹睿 《赤峰学院学报(自然科学版)》 2021年第6期15-22,共8页
酒店行业迅速发展的同时,存在专业人才短缺、缺乏成熟的管理模式和临时取消率高等问题。本文以Kaggle酒店取消预订数据集为研究对象,对原始数据进行预处理,再利用Lasso方法进行特征重要性排序,将特征提取后的数据作为RandomForest训练... 酒店行业迅速发展的同时,存在专业人才短缺、缺乏成熟的管理模式和临时取消率高等问题。本文以Kaggle酒店取消预订数据集为研究对象,对原始数据进行预处理,再利用Lasso方法进行特征重要性排序,将特征提取后的数据作为RandomForest训练模型的输入进行预测,并且通过与XGBoost、LightGBM、DecisionTree等7种主流算法进行对比实验,结果表明本文方案在accuracy、recall、f1_score、AUC四种性能指标上优于对比模型。采用SHAP模型对已建立的价格模型进行解释,同时通过XGBoost,RandomForest的特征重要性排序,识别影响取消预订的关键因素是押金类型、预订时长以及预定渠道。 展开更多
关键词 机器学习 取消预订模型 酒店行业 Randomforest模型 SHAP值
下载PDF
Impacts of predictor variables and species models on simulating Tamarix ramosissima distribution in Tarim Basin, northwestern China 被引量:4
15
作者 Qiang Zhang Xinshi Zhang 《Journal of Plant Ecology》 SCIE 2012年第3期337-345,共9页
Aims Preserving and restoring Tamarix ramosissima is urgently required in the Tarim Basin,Northwest China.Using species distribution models to predict the biogeographical distribution of species is regularly used in c... Aims Preserving and restoring Tamarix ramosissima is urgently required in the Tarim Basin,Northwest China.Using species distribution models to predict the biogeographical distribution of species is regularly used in conservation and other management activities.However,the uncertainty in the data and models inevitably reduces their prediction power.The major purpose of this study is to assess the impacts of predictor variables and species distribution models on simulating T.ramosissima distribution,to explore the relationships between predictor variables and species distribution models and to model the potential distribution of T.ramosissima in this basin.Methods Three models—the generalized linear model(GLM),classification and regression tree(CART)and Random Forests—were selected and were processed on the BIOMOD platform.The presence/absence data of T.ramosissima in the Tarim Basin,which were calculated from vegetation maps,were used as response variables.Climate,soil and digital elevation model(DEM)data variables were divided into four datasets and then used as predictors.The four datasets were(i)climate variables,(ii)soil,climate and DEM variables,(iii)principal component analysis(PCA)-based climate variables and(iv)PCA-based soil,climate and DEM variables.Important Findings The results indicate that predictive variables for species distribution models should be chosen carefully,because too many predictors can reduce the prediction power.The effectiveness of using PCA to reduce the correlation among predictors and enhance the modelling power depends on the chosen predictor variables and models.Our results implied that it is better to reduce the correlating predictors before model processing.The Random Forests model was more precise than the GLM and CART models.The best model for T.ramosissima was the Random Forests model with climate predictors alone.Soil variables considered in this study could not significantly improve the model’s prediction accuracy for T.ramosissima.The potential distribution area of T.ramosissima in the Tarim Basin is;3.57310^(4) km^(2),which has the potential to mitigate global warming and produce bioenergy through restoring T.ramosissima in the Tarim Basin. 展开更多
关键词 species distribution model Tamarix ramosissima generalized linear models classification and regression trees RandomForest
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部