期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
改进的Boruta算法在音乐情感研究中的应用
1
作者 马晓菲 徐平峰 《长春工业大学学报》 CAS 2023年第1期78-84,共7页
Boruta算法是一种新的特征选择算法,被设计成一个随机森林分类算法的包装器,包装算法的不同将导致不同的效果。对LightGBM算法进行包装,针对土耳其音乐数据集,使用随机森林、XGBoost以及LightGBM算法进行分类预测,通过计算准确率、Kapp... Boruta算法是一种新的特征选择算法,被设计成一个随机森林分类算法的包装器,包装算法的不同将导致不同的效果。对LightGBM算法进行包装,针对土耳其音乐数据集,使用随机森林、XGBoost以及LightGBM算法进行分类预测,通过计算准确率、Kappa系数及海明距离来判断各算法在该数据集上的适用性,结果显示,其性能优于使用随机森林和XGBoost算法生成的包装器。 展开更多
关键词 boruta LightGBM 特征提取 音乐情感
下载PDF
基于Boruta-SVM的软件缺陷预测 被引量:1
2
作者 金秀玲 柯荣泰 《山西大同大学学报(自然科学版)》 2019年第4期34-37,共4页
软件缺陷预测可以识别软件缺陷代码,降低软件开发和维护工程中的运行风险和成本。Boruta降维的目标是提取出所有与因变量相关的特征,与以损失函数最小化为目标的传统降维方法比较,具有全局性;添加径向核函数的SVM模型具有结构风险最小... 软件缺陷预测可以识别软件缺陷代码,降低软件开发和维护工程中的运行风险和成本。Boruta降维的目标是提取出所有与因变量相关的特征,与以损失函数最小化为目标的传统降维方法比较,具有全局性;添加径向核函数的SVM模型具有结构风险最小化的优点。结合两者特点,提出基于Boruta-SVM的软件缺陷预测模型。本文先采用Boruta降维方法提取NASAMDP数据集中所有与因变量相关的特征;然后根据新的特征,通过10折交叉验证确定径向核函数的参数,最后构建SVM模型。实验结果表明:将Boruta-SVM应用于软件缺陷预测中精可以提高预测模型的性能。 展开更多
关键词 boruta特征选择 SVM 软件缺陷预测
下载PDF
基于Boruta-支持向量回归的安徽省土壤pH值预测制图 被引量:8
3
作者 卢宏亮 赵明松 +2 位作者 刘斌寅 张平 陆龙妹 《地理与地理信息科学》 CSCD 北大核心 2019年第5期66-72,共7页
以安徽省为研究区域,将Boruta算法用于特征筛选,选择最优变量组合输入支持向量回归(SVR)模型,经参数优化和核函数对比后,选择最优的SVR预测模型进行土壤pH值空间分布制图。结果表明:1)使用Boruta算法筛选后的特征变量建模优于全部变量建... 以安徽省为研究区域,将Boruta算法用于特征筛选,选择最优变量组合输入支持向量回归(SVR)模型,经参数优化和核函数对比后,选择最优的SVR预测模型进行土壤pH值空间分布制图。结果表明:1)使用Boruta算法筛选后的特征变量建模优于全部变量建模;特征变量重要性分析表明,年均降水(MAP)是影响安徽省土壤pH值的最重要因素,多尺度山谷平坦指数(MrVBF)、多尺度山脊平坦指数(MrRTF)和年均温(MAT)等特征变量均对土壤pH值有较重要的影响。2)选择径向基函数(RBF)作为核函数建立SVR模型进行土壤pH值预测最为合理;参数C=1,γ=0.125时,SVR模型精度最高,可以解释土壤pH值变异的74%,验证集R^2为0.62。3)土壤pH值预测制图结果表明,安徽省土壤pH值空间分布呈由北至南逐渐降低的趋势,符合“南酸北碱”特征,且预测制图的统计结果与样本点的统计结果基本一致。将Boruta算法与SVR模型结合可以提高土壤pH值的预测制图精度,且模型的泛化能力较强。 展开更多
关键词 土壤pH值预测 boruta算法 核函数 支持向量机回归 安徽省
下载PDF
改进Boruta算法在特征选择中的应用 被引量:5
4
作者 陈逸杰 唐加山 《软件导刊》 2019年第4期69-73,共5页
特征选择在机器学习中运用广泛,Boruta算法是一种常见的特征选择方法,算法思想简单、易于操作,但样本复杂度较高。针对该问题提出改进Boruta算法,在原算法阴影特征样本建造中只对部分样本打乱重排序,降低了阴影特征样本的复杂度。实验... 特征选择在机器学习中运用广泛,Boruta算法是一种常见的特征选择方法,算法思想简单、易于操作,但样本复杂度较高。针对该问题提出改进Boruta算法,在原算法阴影特征样本建造中只对部分样本打乱重排序,降低了阴影特征样本的复杂度。实验结果表明,改进的Boruta算法在混合比例约为0.4~0.6时相比原算法,提取出的特征拟合模型预测性能略有提高。使用平均减少不纯度(mean decrease impurity)和随机Lasso这两种传统方法选择同样数量的特征建立模型进行预测,发现改进的Boruta算法预测性能比上述两种方法更优,改进的Boruta算法在降低样本复杂度的同时提高了预测性能。 展开更多
关键词 特征选择 boruta 机器学习 阴影特征 混合比例
下载PDF
基于Boruta-PSO-SVM的股票收益率研究 被引量:8
5
作者 郭海山 高波涌 陆慧娟 《传感器与微系统》 CSCD 2018年第3期51-53,57,共4页
针对股票收益率的分类预测研究中支持向量机(SVM)存在的参数选择困难以及分类性能较差的问题,提出了一种基于特征选择(Boruta算法)和粒子群优化(PSO)算法SVM的新算法。通过Boruta算法对训练集进行特征选择,剔除无价值的特征以降低输入维... 针对股票收益率的分类预测研究中支持向量机(SVM)存在的参数选择困难以及分类性能较差的问题,提出了一种基于特征选择(Boruta算法)和粒子群优化(PSO)算法SVM的新算法。通过Boruta算法对训练集进行特征选择,剔除无价值的特征以降低输入维度,同时引入PSO算法优化SVM核函数参数,从而提高SVM的分类性能。实验结果表明:相比决策树、神经网络及极限学习机算法,新算法取得了更高的分类精度,可以有效提高股票收益率的分类预测性能。 展开更多
关键词 boruta 支持向量机 粒子群优化 股票收益 特征选择
下载PDF
基于Boruta和极端随机树方法的森林蓄积量估测 被引量:2
6
作者 韩瑞 吴达胜 +1 位作者 方陆明 黄宇玲 《林业资源管理》 北大核心 2020年第4期127-133,共7页
森林蓄积量是反映森林资源数量的重要指标之一。本研究应用Boruta特征选择方法和极端随机树(Extremely randomized trees,Extra-trees)方法,以小班为研究单元,估测龙泉市部分区域森林资源的每公顷蓄积量,为县域尺度森林蓄积量的估测提... 森林蓄积量是反映森林资源数量的重要指标之一。本研究应用Boruta特征选择方法和极端随机树(Extremely randomized trees,Extra-trees)方法,以小班为研究单元,估测龙泉市部分区域森林资源的每公顷蓄积量,为县域尺度森林蓄积量的估测提供新的方法和思路。基于研究区的森林资源二类调查数据、高分二号(GF-2)遥感影像数据、数字高程模型数据,提取多元特征组成原始特征集。通过Boruta选择方法对原始特征集进行筛选,利用Extra-trees方法建立森林蓄积量估测模型,选用十折交叉验证法对模型进行检验,并与随机森林(Random Forest,RF)方法和梯度提升(Gradient Boosting)方法进行对比分析。研究结果显示:1)经过Boruta特征选择方法得出的特征有土层厚度、年龄、郁闭度、海拔、坡度和坡向;2)极端随机树方法采用网格搜索调参得到的最优参数组合为:树的个数为250,树的最大深度为14;3)基于Boruta和极端随机树方法的森林蓄积量估测模型的测试精度为84.14%,R2为0.92,RMSE为19.65m^3/hm^2,MAE为13.95m^3/hm^2,模型优于随机森林方法和梯度提升方法,表明Boruta特征选择方法结合极端随机树方法估测森林蓄积量可取得更好的效果。 展开更多
关键词 boruta特征选择 极端随机树 随机森林 森林蓄积量 机器学习
下载PDF
基于CEA+Boruta模式的特征选择算法 被引量:1
7
作者 朱颢东 常志芳 《湖北民族大学学报(自然科学版)》 CAS 2020年第3期349-354,共6页
近年来,特征选择在机器学习领域中应用十分广泛.为提高文本计算效率,改善数据分类性能,提出两步法解决特征选择问题.结合过滤式中CEA算法和封装式中Boruta算法,引入参数p控制Boruta算法中阴影部分比例,提高封装阶段效率,降低整体算法时... 近年来,特征选择在机器学习领域中应用十分广泛.为提高文本计算效率,改善数据分类性能,提出两步法解决特征选择问题.结合过滤式中CEA算法和封装式中Boruta算法,引入参数p控制Boruta算法中阴影部分比例,提高封装阶段效率,降低整体算法时间复杂度,筛选出较优的候选特征集.在三个数据集上利用随机森林分类器进行实验,结果表明,该算法在平均分类错误率,召回率,准确率和F1值上均优于传统的Boruta和CEA算法,能够有效地减少最终选择的特征子集中的特征数量,提高文本分类效率和预测性能. 展开更多
关键词 特征选择 降维 boruta CEA 机器学习
下载PDF
Prediction of hot-rolled strip crown based on Boruta and extremely randomized trees algorithms
8
作者 Li Wang Song-lin He +1 位作者 Zhi-ting Zhao Xian-du Zhang 《Journal of Iron and Steel Research(International)》 SCIE EI CAS CSCD 2023年第5期1022-1031,共10页
The quality of hot-rolled steel strip is directly affected by the strip crown.Traditional machine learning models have shown limitations in accurately predicting the strip crown,particularly when dealing with imbalanc... The quality of hot-rolled steel strip is directly affected by the strip crown.Traditional machine learning models have shown limitations in accurately predicting the strip crown,particularly when dealing with imbalanced data.This limitation results in poor production quality and efficiency,leading to increased production costs.Thus,a novel strip crown prediction model that uses the Boruta and extremely randomized trees(Boruta-ERT)algorithms to address this issue was proposed.To improve the accuracy of our model,we utilized the synthetic minority over-sampling technique to balance the imbalance data sets.The Boruta-ERT prediction model was then used to select features and predict the strip crown.With the 2160 mm hot rolling production lines of a steel plant serving as the research object,the experimental results showed that 97.01% of prediction data have an absolute error of less than 8 lm.This level of accuracy met the control requirements for strip crown and demonstrated significant benefits for the improvement in production quality of steel strip. 展开更多
关键词 Hot-rolled strip Data improvement Strip crown Feature selection boruta algorithm Extremely randomized trees algorithm
原文传递
A novel feature susceptibility approach for a PEMFC control system based on an improved XGBoost-Boruta algorithm
9
作者 Xinjie Yuan Fujun Chen +7 位作者 Zenggang Xia Linlin Zhuang Kui Jiao Zhijun Peng Bowen Wang Richard Bucknall Konrad Yearwood Zhongjun Hou 《Energy and AI》 2023年第2期103-115,共13页
Data-driven modelling methods are being developed in the quest to achieve more accurate performance prediction of protons exchange membrane fuel cell (PEMFC) systems in response to their complicated physicochemical ph... Data-driven modelling methods are being developed in the quest to achieve more accurate performance prediction of protons exchange membrane fuel cell (PEMFC) systems in response to their complicated physicochemical phenomena. However, there is little research in this field detailing the pre-processing and selection of balance of plants (BOP) features for the input layer of system performance prediction at different current densities. Furthermore, most of the previous research applies neural networks based on simulation data rather than real-time bench or vehicle operation datasets which leads to low robustness and unreliable practical results. This paper details the application of a novel algorithm denoted XGBoost-Boruta, which utilises the combination of an ensemble learning approach and a wrapping approach, to improve the robustness of feature selection and to increase the accuracy and robustness of PEMFC system performance prediction. By introduction of the Z score and shadow features to eliminate the randomness of conventional ensemble learning methods, seven key controllable BOP variables of the hydrogen anode, air cathode and cooling subsystems are selected as the original input variables to determine their dependency on the stack voltage. Two case studies are presented for verification and validation of the proposed algorithm based on the real-time dataset of bench experimental data and data obtained from heavy truck operation at current densities ranging from 100 to 1500 mA/cm2. The feature selection strategy, based on the proposed XGBoost-Boruta algorithm, largely decreases the RMSE by 23.8% and 14.1% and the R^(2) increases by 0.06 and 0.04 of both the bench experimental and the heavy truck validation datasets respectively. 展开更多
关键词 boruta Extreme gradient boosting(XGBoost) Feature selection Proton exchange membrane fuel cell(PEMFC)
下载PDF
吉林省极端降水事件对玉米产量的影响研究 被引量:1
10
作者 张耀东 郭恩亮 +2 位作者 王永芳 顾锡羚 康尧 《中国农村水利水电》 北大核心 2023年第1期52-61,共10页
吉林省作为我国玉米种植主产区,探究该地区玉米生长发育及产量对极端降水事件的敏感性和响应机制显得尤为重要。基于吉林省24个气象站点1961-2019年的逐日最高、最低气温和降水数据以及各站点的玉米单产数据,采用5年滑动平均、森式斜率... 吉林省作为我国玉米种植主产区,探究该地区玉米生长发育及产量对极端降水事件的敏感性和响应机制显得尤为重要。基于吉林省24个气象站点1961-2019年的逐日最高、最低气温和降水数据以及各站点的玉米单产数据,采用5年滑动平均、森式斜率、M-K非参数检验等方法对吉林省极端降水事件和玉米产量时空变化特征进行分析,并利用皮尔逊相关性分析法、布尔塔(Boruta)算法定量厘定极端降水事件对玉米产量的影响。结果表明:强降水量(R95p)、雨日降水总量(PRCPTOT)、大雨日数(R20)、普通日降水强度(SDII)的Sen斜率值分别为0.301 mm/a、-0.18 mm/a、0.31 d/a、0.27 mm/(d·a),除PRCPTOT以外均呈上升趋势,表明极端降水事件逐渐增多;玉米实际单产与趋势产量均呈显著上升趋势;玉米气候产量在-1 802.24~1 579.04 kg/hm^(2)区间内呈波动下降趋势,年际间差异较大;玉米相对气候产量在59 a间,有11个气候丰年、10个气候歉年,其余年份为正常年份;玉米气候产量与极端降水指数整体在西北部以及东部地区呈正相关,在南部呈负相关;结合多项式拟合曲线分析可知,当R95p≥190 mm,PRCPTOT≥610 mm,R20mm≥8 d时,玉米气候产量呈逐渐下降的态势;R20、R95p对玉米气候产量的重要性程度较高,表明玉米气候产量对极端降水日数及极端降水量的敏感性较强。研究结果有助于吉林省提出针对性农业适应气候变化措施以提高粮食安全水平。 展开更多
关键词 极端降水事件 玉米产量 时空特征 boruta算法 吉林省
下载PDF
特征选择和集成学习的中小企业供应链金融风险评估 被引量:1
11
作者 徐超强 李碧珍 《泉州师范学院学报》 2023年第2期63-70,共8页
采用Boruta算法选择中小企业供应链金融信用风险指标原始的特征变,挑选出相对重要的特征变量.运用Stacking集成算法,融合多种单一预测模型,构建Boruta-Stacking集成信用风险评估模型.并将该模型运用于计算机、通信和其他电子设备制造业... 采用Boruta算法选择中小企业供应链金融信用风险指标原始的特征变,挑选出相对重要的特征变量.运用Stacking集成算法,融合多种单一预测模型,构建Boruta-Stacking集成信用风险评估模型.并将该模型运用于计算机、通信和其他电子设备制造业中小企业的供应链融资和信用评级.实验结果表明,所建立模型预测的准确性达到97.14%,高于单一模型的预测准确性,并使用部份依赖图(PDP)揭示重要特征变量与中小企业信用风险之间的关系. 展开更多
关键词 供应链金融 风险评估模型 boruta算法 Stacking集成算法
下载PDF
Deep Learning for Wind Speed Forecasting Using Bi-LSTM with Selected Features 被引量:1
12
作者 Siva Sankari Subbiah Senthil Kumar Paramasivan +2 位作者 Karmel Arockiasamy Saminathan Senthivel Muthamilselvan Thangavel 《Intelligent Automation & Soft Computing》 SCIE 2023年第3期3829-3844,共16页
Wind speed forecasting is important for wind energy forecasting.In the modern era,the increase in energy demand can be managed effectively by fore-casting the wind speed accurately.The main objective of this research ... Wind speed forecasting is important for wind energy forecasting.In the modern era,the increase in energy demand can be managed effectively by fore-casting the wind speed accurately.The main objective of this research is to improve the performance of wind speed forecasting by handling uncertainty,the curse of dimensionality,overfitting and non-linearity issues.The curse of dimensionality and overfitting issues are handled by using Boruta feature selec-tion.The uncertainty and the non-linearity issues are addressed by using the deep learning based Bi-directional Long Short Term Memory(Bi-LSTM).In this paper,Bi-LSTM with Boruta feature selection named BFS-Bi-LSTM is proposed to improve the performance of wind speed forecasting.The model identifies relevant features for wind speed forecasting from the meteorological features using Boruta wrapper feature selection(BFS).Followed by Bi-LSTM predicts the wind speed by considering the wind speed from the past and future time steps.The proposed BFS-Bi-LSTM model is compared against Multilayer perceptron(MLP),MLP with Boruta(BFS-MLP),Long Short Term Memory(LSTM),LSTM with Boruta(BFS-LSTM)and Bi-LSTM in terms of Root Mean Square Error(RMSE),Mean Absolute Error(MAE),Mean Square Error(MSE)and R2.The BFS-Bi-LSTM surpassed other models by producing RMSE of 0.784,MAE of 0.530,MSE of 0.615 and R2 of 0.8766.The experimental result shows that the BFS-Bi-LSTM produced better forecasting results compared to others. 展开更多
关键词 Bi-directional long short term memory boruta feature selection deep learning machine learning wind speed forecasting
下载PDF
Estimation of soil organic matter in the Ogan-Kuqa River Oasis, Northwest China, based on visible and near-infrared spectroscopy and machine learning
13
作者 ZHOU Qian DING Jianli +3 位作者 GE Xiangyu LI Ke ZHANG Zipeng GU Yongsheng 《Journal of Arid Land》 SCIE CSCD 2023年第2期191-204,共14页
Visible and near-infrared(vis-NIR)spectroscopy technique allows for fast and efficient determination of soil organic matter(SOM).However,a prior requirement for the vis-NIR spectroscopy technique to predict SOM is the... Visible and near-infrared(vis-NIR)spectroscopy technique allows for fast and efficient determination of soil organic matter(SOM).However,a prior requirement for the vis-NIR spectroscopy technique to predict SOM is the effective removal of redundant information.Therefore,this study aims to select three wavelength selection strategies for obtaining the spectral response characteristics of SOM.The SOM content and spectral information of 110 soil samples from the Ogan-Kuqa River Oasis were measured under laboratory conditions in July 2017.Pearson correlation analysis was introduced to preselect spectral wavelengths from the preprocessed spectra that passed the 0.01 level significance test.The successive projection algorithm(SPA),competitive adaptive reweighted sampling(CARS),and Boruta algorithm were used to detect the optimal variables from the preselected wavelengths.Finally,partial least squares regression(PLSR)and random forest(RF)models combined with the optimal wavelengths were applied to develop a quantitative estimation model of the SOM content.The results demonstrate that the optimal variables selected were mainly located near the range of spectral absorption features(i.e.,1400.0,1900.0,and 2200.0 nm),and the CARS and Boruta algorithm also selected a few visible wavelengths located in the range of 480.0–510.0 nm.Both models can achieve a more satisfactory prediction of the SOM content,and the RF model had better accuracy than the PLSR model.The SOM content prediction model established by Boruta algorithm combined with the RF model performed best with 23 variables and the model achieved the coefficient of determination(R2)of 0.78 and the residual prediction deviation(RPD)of 2.38.The Boruta algorithm effectively removed redundant information and optimized the optimal wavelengths to improve the prediction accuracy of the estimated SOM content.Therefore,combining vis-NIR spectroscopy with machine learning to estimate SOM content is an important method to improve the accuracy of SOM prediction in arid land. 展开更多
关键词 soil organic matter content vis-NIR spectroscopy random forest boruta algorithm machine learning
下载PDF
基于机器学习的宫颈癌致病因素分析
14
作者 潘凤 王杰 +1 位作者 张艳莎 王林 《工业控制计算机》 2023年第4期122-124,共3页
宫颈癌是损害女性健康的疾病之一,其致病与个人的生活习惯有着重要关系。基于UCl中的cervical cancer(risk factors)数据集,采用Boruta算法筛选特征,并利用XG-Boost算法建立宫颈癌致病因素模型。分别使用Hinselmann、Schiller、Citology... 宫颈癌是损害女性健康的疾病之一,其致病与个人的生活习惯有着重要关系。基于UCl中的cervical cancer(risk factors)数据集,采用Boruta算法筛选特征,并利用XG-Boost算法建立宫颈癌致病因素模型。分别使用Hinselmann、Schiller、Citology和Biopsy四种检测方法得到的预测精度依次为91%、90%、93.3%和87%。实验结果显示:致病因素中不良生活习惯占据多数,表明女性的不良生活习惯对女性患宫颈癌具有显著影响。 展开更多
关键词 宫颈癌预测 致病因素 生活习惯 boruta算法 XG-Boost算法
下载PDF
基于VIS-NIR光谱的滨海湿地土壤碳氮比预测建模分析
15
作者 张清文 杨晓芜 +2 位作者 杨睿 尹轩 寇财垚 《赤峰学院学报(自然科学版)》 2023年第10期57-61,共5页
基于33个滨海湿地土壤样本的碳氮比(C/N)数据和原始光谱(R)反射率及其数学变换的光谱反射率,包括对数变换(LGR),倒数变换(1/R),一阶微分(R′)和二阶微分(R"),采用主成分分析(Principal component analysis,PCA)降维和Boruta特征筛... 基于33个滨海湿地土壤样本的碳氮比(C/N)数据和原始光谱(R)反射率及其数学变换的光谱反射率,包括对数变换(LGR),倒数变换(1/R),一阶微分(R′)和二阶微分(R"),采用主成分分析(Principal component analysis,PCA)降维和Boruta特征筛选的方式分别确定主成分和敏感波段,使用偏最小二乘回归(Partial least square regression,PLSR)和随机森林回归(Random forest regression,RFR)算法基于提取的主成分和筛选的敏感波段分别建立土壤C/N预测模型。结果表明:(1)PCA确定的原始光谱R反射率主成分个数为2,Boruta特征筛选的敏感波段集中在1900~2500nm之间,LGR,1/R变换并未对主成分个数和敏感波段范围产生影响,而R′和R"提取的敏感波段范围均匀分布在整个波谱范围,R'主成分个数增加至4,R"主成分个数减少至1。(2)微分变换在两种算法中均提高了土壤C/N模型精度,最高提升42.9%。(3)PLSR模型精度比RFR模型精度更高,基于PLSR结合R′构建的最优模型R2为0.995,RMSE为0.216,MAE为0.165。 展开更多
关键词 土壤碳氮比 boruta特征筛选 偏最小二乘回归 随机森林回归
下载PDF
采用机器学习的聚类模型特征选择方法比较 被引量:3
16
作者 赵玮 《华侨大学学报(自然科学版)》 CAS 北大核心 2017年第1期105-108,共4页
针对机器学习聚类模型在特征选择时存在的问题,首先,对特征选择在聚类模型中的适用性进行分析并对其进行调整和改进.然后,基于R语言中的递归特征消除(RFE)特征选择方法和Boruta特征选择方法进行特征选择算法设计.最后,应用聚类内部有效... 针对机器学习聚类模型在特征选择时存在的问题,首先,对特征选择在聚类模型中的适用性进行分析并对其进行调整和改进.然后,基于R语言中的递归特征消除(RFE)特征选择方法和Boruta特征选择方法进行特征选择算法设计.最后,应用聚类内部有效性指标,对在线品牌忠诚度聚类模型优化结果进行分析,进而对特征选择方法进行比较研究.结果表明:Boruta特征选择方法更具优势. 展开更多
关键词 特征选择 聚类模型 机器学习 递归特征消除算法 boruta方法
下载PDF
基于模态分解及注意力机制长短时间网络的短期负荷预测 被引量:14
17
作者 乔石 王磊 +2 位作者 张鹏超 闫群民 王桂宝 《电网技术》 EI CSCD 北大核心 2022年第10期3940-3951,共12页
短期电力负荷受多种因素影响,具有波动性大、随机性强的特点,使得高精度的短期负荷预测比较困难。为充分提取负荷数据中的特征,提升短期负荷预测精度,提出了一种基于模态分解及注意力机制长短时间网络(long and short-term temporal net... 短期电力负荷受多种因素影响,具有波动性大、随机性强的特点,使得高精度的短期负荷预测比较困难。为充分提取负荷数据中的特征,提升短期负荷预测精度,提出了一种基于模态分解及注意力机制长短时间网络(long and short-term temporal networks with attention,LSTNet-Attn)的短期负荷预测模型。首先该模型采用自适应白噪声的完整经验模态分解(complete ensemble empirical mode decomposition with adaptive noise,CEEMDAN)对包含大量高频分量且频率成分复杂的原始负荷时间序列进行处理,经频率分离后得到若干个包含不同频率成分的本征模函数(intrinsic mode functions,IMF)。其次,在采集特征的基础上构建日期特征,并通过Boruta算法优化输入数据维度冗余问题。然后,在上述基础上构建LSTNet-Attn预测模型,模型包括卷积模块、循环跳过模块、自回归(autoregressive,AR)模块和注意力机制模块。卷积模块和循环跳过模块提取输入负荷数据中高度非线性的长短期特征和线性特征;AR模块优化神经网络对线性特征识别不敏感问题;注意力机制实现对重要特征分配更多权重以捕获全局与局部的联系,优化模型提升预测精度。最后采用于麻省理工数据集进行实例验证,并与常用预测模型进行对比研究和模型消融研究,证明该模型有效提高了负荷预测的精确性。 展开更多
关键词 短期负荷预测 CEEMDAN boruta算法 LSTNet 注意力机制
原文传递
不同联合方式的瘤内与瘤周影像组学特征对肺腺癌的诊断价值研究 被引量:5
18
作者 陈小波 郭馨雨 +2 位作者 于哲轩 许茂盛 周长玉 《中国医学计算机成像杂志》 CSCD 北大核心 2021年第4期289-295,共7页
目的:对比瘤内、瘤周及不同联合方式的影像组学方法对肺腺癌及良性结节的诊断价值。方法:回顾性分析经病理确诊的肺结节(恶性161例,良性134例),依次从瘤内[肿瘤区(GTV)]、瘤周[肿瘤周围区(PTV);分别外扩0~3mm和3~5mm,记为PTV_(3)和PTV_(... 目的:对比瘤内、瘤周及不同联合方式的影像组学方法对肺腺癌及良性结节的诊断价值。方法:回顾性分析经病理确诊的肺结节(恶性161例,良性134例),依次从瘤内[肿瘤区(GTV)]、瘤周[肿瘤周围区(PTV);分别外扩0~3mm和3~5mm,记为PTV_(3)和PTV_(5)]、瘤内和瘤周总区域(GPTV;瘤内至瘤周3mm和5mm,记为GPTV_(3)和GPTV_(5)]中提取1037个影像组学特征。按照7∶3随机划分为训练集(207例)和验证集(88例)。通过单因素分析和Boruta算法,筛选得到潜在预测性的组学特征,最后构建logistic逐步回归模型。通过受试者操作特征(ROC)曲线下面积(AUC)评价模型效能,DeLong检验比较不同模型的效能。结果:PTV模型(AUC_(PTV3)=0.892,AUC_(PTV5)=0.858)和GPTV模型(AUC_(GPTV3)=0.859,AUC_(GPTV5)=0.833)效能均低于GTV模型(AUC_(GTV)=0.916),GTV和PTV特征联立的组合模型(AUC_(Combined3)=0.952,AUC_(Combined5)=0.953)效能则高于GTV和相应的GPTV模型(P<0.05)。结论:相比于GPTV,GTV和PTV特征联立的组合方法在肺腺癌及良性结节鉴别中具有更高的价值。 展开更多
关键词 计算机体层成像 肺腺癌 影像组学 boruta算法
下载PDF
重庆市2009—2016年细菌性痢疾空间流行病学特征及基于气象要素的预测模型研究 被引量:7
19
作者 刘勋 孟秋雨 +3 位作者 谢佳伽 肖达勇 王怡 邓丹 《上海交通大学学报(医学版)》 CAS CSCD 北大核心 2019年第2期187-192,共6页
目的·分析重庆市细菌性痢疾的空间流行病学特征及其与气象要素的相关性,并构建其发病率预测模型,为重庆市细菌性痢疾疫情的防控提供科学依据。方法·收集2009—2016年重庆市细菌性痢疾及气象要素数据,并进行描述性流行病学分析... 目的·分析重庆市细菌性痢疾的空间流行病学特征及其与气象要素的相关性,并构建其发病率预测模型,为重庆市细菌性痢疾疫情的防控提供科学依据。方法·收集2009—2016年重庆市细菌性痢疾及气象要素数据,并进行描述性流行病学分析,采用时空扫描统计量进行细菌性痢疾时空聚集性分析,运用DCCA系数法量化细菌性痢疾发病率与气象要素的相关性,运用Boruta算法结合粒子群优化算法(particle swarm optimization,PSO)及支持向量机回归模型(support vector machine for regression,SVR)构建细菌性痢疾发病率预测模型。结果·①2009—2016年重庆市细菌性痢疾年均报告发病率为29.394/100 000,0~5岁年龄组发病率(295.892/100 000)最高,散居儿童占比(50.335%)最大,5月—10月为其季节性发病高峰;细菌性痢疾呈现显著的时空聚集性,一类聚集区主要集中在重庆市主城区,二类聚集区主要集中在重庆市东北地区;6月—10月为其主要的聚集时间。②与人群细菌性痢疾发病率具有很强相关性的气象要素分别为月平均气压(ρ_(DCCA)=-0.918)、月平均最高气温(ρ_(DCCA)=0.875)及月平均气温(ρ_(DCCA)=0.870)。③基于气象要素构建的PSO_SVR模型均方误差(mean squared error,MSE)、平均绝对百分比误差(mean absolute percentage error,MAPE)、平方相关系数(square correlation coefficient,R2)分别为0.055、0.101及0.909。结论·重庆市主城区及渝东北地区应作为细菌性痢疾的重点防控区域,同时相关卫生部门应结合气象要素与细菌性痢疾发病率的密切相关性及其季节性高发特点,对0~5岁儿童、散居儿童、农民等人群采取针对性的应对措施以控制细菌性痢疾传播与流行。基于气象要素建立的PSO_SVR模型预测性能良好,可为细菌性痢疾的防控提供有力的理论支撑。 展开更多
关键词 细菌性痢疾 空间流行病学 DCCA系数法 boruta算法 粒子群优化算法 支持向量机回归模型
下载PDF
Investigation of feature contribution to shield tunneling-induced settlement using Shapley additive explanations method 被引量:3
20
作者 K.K.Pabodha M.Kannangara Wanhuan Zhou +1 位作者 Zhi Ding Zhehao Hong 《Journal of Rock Mechanics and Geotechnical Engineering》 SCIE CSCD 2022年第4期1052-1063,共12页
Accurate prediction of shield tunneling-induced settlement is a complex problem that requires consideration of many influential parameters.Recent studies reveal that machine learning(ML)algorithms can predict the sett... Accurate prediction of shield tunneling-induced settlement is a complex problem that requires consideration of many influential parameters.Recent studies reveal that machine learning(ML)algorithms can predict the settlement caused by tunneling.However,well-performing ML models are usually less interpretable.Irrelevant input features decrease the performance and interpretability of an ML model.Nonetheless,feature selection,a critical step in the ML pipeline,is usually ignored in most studies that focused on predicting tunneling-induced settlement.This study applies four techniques,i.e.Pearson correlation method,sequential forward selection(SFS),sequential backward selection(SBS)and Boruta algorithm,to investigate the effect of feature selection on the model’s performance when predicting the tunneling-induced maximum surface settlement(S_(max)).The data set used in this study was compiled from two metro tunnel projects excavated in Hangzhou,China using earth pressure balance(EPB)shields and consists of 14 input features and a single output(i.e.S_(max)).The ML model that is trained on features selected from the Boruta algorithm demonstrates the best performance in both the training and testing phases.The relevant features chosen from the Boruta algorithm further indicate that tunneling-induced settlement is affected by parameters related to tunnel geometry,geological conditions and shield operation.The recently proposed Shapley additive explanations(SHAP)method explores how the input features contribute to the output of a complex ML model.It is observed that the larger settlements are induced during shield tunneling in silty clay.Moreover,the SHAP analysis reveals that the low magnitudes of face pressure at the top of the shield increase the model’s output。 展开更多
关键词 feature Selection Shield operational parameters Pearson correlation method boruta algorithm Shapley additive explanations(SHAP) analysis
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部