期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于缺失森林模型的稀疏函数型数据修复方法
1
作者 高海燕 李唯欣 马文娟 《西华师范大学学报(自然科学版)》 2024年第5期481-487,共7页
为解决函数型数据缺失插补问题,在函数型数据分析框架下,以缺失森林模型(MF)为基础,采用基于条件期望主成分分析的函数型插补方法PACE进行初始插补,并通过K-means聚类借助样本之间的相关性插补,给出了一种融合类信息的函数型多重插补方... 为解决函数型数据缺失插补问题,在函数型数据分析框架下,以缺失森林模型(MF)为基础,采用基于条件期望主成分分析的函数型插补方法PACE进行初始插补,并通过K-means聚类借助样本之间的相关性插补,给出了一种融合类信息的函数型多重插补方法。模拟数据插补实验结果表明,在不同缺失比例(5%~55%)下,本文方法相较于Hot.deck、MF、均值插补、PACE、MFP、SFI、HFI等7种插补方法,更能保证插补的准确性和有效性。同时,针对股票数据的实例应用验证了本文方法插补得到的数据符合实际情况和规律。 展开更多
关键词 函数型数据 缺失森林 多重插补 缺失插补方法
下载PDF
缺失森林算法在缺失值填补中的应用 被引量:13
2
作者 沈琳 胡国清 +1 位作者 陈立章 谭红专 《中国卫生统计》 CSCD 北大核心 2014年第5期774-776,共3页
目的介绍R环境下缺失森林算法在缺失值填补中的应用并评价其填补效果。方法通过实际数据阐述填补估算流程,比较缺失森林算法与直接删除法处理缺失数据的效果。结果当数据缺失率为10%时,缺失森林算法填补的效果明显优于删除法;当数据缺... 目的介绍R环境下缺失森林算法在缺失值填补中的应用并评价其填补效果。方法通过实际数据阐述填补估算流程,比较缺失森林算法与直接删除法处理缺失数据的效果。结果当数据缺失率为10%时,缺失森林算法填补的效果明显优于删除法;当数据缺失率在20%时,两种方法处理缺失值的效果都不太理想,效果相近。当缺失率达50%时,3种类型的变量估算的误差已经较大,两种方法的估算效果均欠佳。结论缺失森林算法在软件操作上简便,并且对数据结构和分布的要求宽松,可充分利用现有记录的信息,能较为准确地反应调查的真实情况,在实际工作中具有较好的应用价值。 展开更多
关键词 缺失森林 随机森林 决策树 缺失
下载PDF
基因表达谱的非参缺失森林填补算法研究 被引量:5
3
作者 吴小姣 李高明 +4 位作者 易大莉 刘岭 张彦琦 易东 伍亚舟 《中国卫生统计》 CSCD 北大核心 2016年第6期1068-1070,1081,共4页
目的评估不同基因表达谱数据集下,多种算法在缺失数据中的填补效果,并分析其对无监督基因表达谱聚类的影响。方法在不同缺失比例的情况下,分别采用非参缺失森林填补法、贝叶斯线性回归法、蒙特卡洛多重填补法和K邻近填补法进行填补... 目的评估不同基因表达谱数据集下,多种算法在缺失数据中的填补效果,并分析其对无监督基因表达谱聚类的影响。方法在不同缺失比例的情况下,分别采用非参缺失森林填补法、贝叶斯线性回归法、蒙特卡洛多重填补法和K邻近填补法进行填补,通过均方根误差(NRMSE)和聚类准确率(F值)两个指标来评估不同方法的填补效能和聚类效果,并用模拟数据集进行测试和乳腺癌数据集进行验证。结果随着缺失比例的增加,四种填补方法的NRMSE都逐渐上升;任意缺失比例下,相比于其他三种方法非参缺失森林填补法的填补优势明显。缺失比例为5%、10%、20%和30%的乳腺癌数据集,非参缺失森林填补法的NRMSE依次为0.1951(95%CI,0.1945-0.1953)、0.2776(95%CI,0.2783-2791)、0.4003(95%CI,0.3986-0.4002)和0.4974(95%CI,0.4658-0.5104);聚类效果的准确率为1.0、0.91、0.88和0.82。结论非参缺失森林填补算法实现简单,对数据集的要求较低,比传统填补算法具有更好的稳定性和精确度,可保留较多的基因信息供后续的功能聚类等分析。 展开更多
关键词 基因表达谱 缺失数据 缺失森林 聚类
下载PDF
基于缺失森林的医疗大数据缺失值插补 被引量:7
4
作者 白洪涛 栾雪 +3 位作者 何丽莉 毕亚茹 张婷婷 孙成林 《吉林大学学报(信息科学版)》 CAS 2022年第4期616-620,共5页
为解决医疗数据集中数据缺失对分类器的性能以及下游任务产生的不利影响,提出使用缺失森林插补法对医疗数据集中缺失值进行插补。该方法首先采用数据集中完整数据的观测值训练一个随机森林模型;利用训练好的随机森林模型预测缺失数据;... 为解决医疗数据集中数据缺失对分类器的性能以及下游任务产生的不利影响,提出使用缺失森林插补法对医疗数据集中缺失值进行插补。该方法首先采用数据集中完整数据的观测值训练一个随机森林模型;利用训练好的随机森林模型预测缺失数据;不断重复迭代上述过程,从而完成数据缺失值补全。在两个医学数据集上进行测试,结果表明,根据NRMSE(Normalized Root Mean Squared Error)和PFC(the Proportion of Falsely Classified)评估指标,缺失森林插补法误差较低,插补效果优于K最近邻插补法、多重插补法和GAIN(Generative Adversarial Imputation Nets)插补法。同时,使用糖尿病数据集通过分析谷丙转氨酶(ALT:ALanine aminoTransferase)与糖尿病剂量反应关系证明了缺失森林插补法的稳定性。 展开更多
关键词 缺失数据插补 缺失森林插补法 大数据 ALT与糖尿病剂量-反应
下载PDF
不同缺失率下的数据填补算法稳定性研究 被引量:6
5
作者 郑智泉 陈妍 +1 位作者 王孟孟 田维琦 《统计与决策》 CSSCI 北大核心 2023年第8期12-17,共6页
为了研究数据缺失填补算法的准确性和稳定性,文章基于完全随机缺失对完整数据集按不同缺失率进行挖空处理,然后使用6种算法对缺失数据进行填补,并重复执行多次,对比分析其准确性和稳定性,给出相应的置信区间。结果表明,混合迭代填补法... 为了研究数据缺失填补算法的准确性和稳定性,文章基于完全随机缺失对完整数据集按不同缺失率进行挖空处理,然后使用6种算法对缺失数据进行填补,并重复执行多次,对比分析其准确性和稳定性,给出相应的置信区间。结果表明,混合迭代填补法准确性优于K近邻、缺失森林、加权K近邻等算法,其稳定性仅次于缺失森林;随着缺失率的增大,该算法准确性高的优势更加显著;当缺失率小于5%时,该算法的准确性和稳定性达到最佳。 展开更多
关键词 数据缺失 缺失 K近邻 缺失森林 混合迭代填补
下载PDF
基于缺失率的不完整数据填补算法 被引量:18
6
作者 刘佳星 张宏烈 +1 位作者 刘艳菊 刘彦忠 《统计与决策》 CSSCI 北大核心 2021年第2期39-41,共3页
机器学习和数据挖掘已经应用于诸多领域。然而由于各种原因,真实数据集通常包含缺失值。为了提高填补缺失值的准确率,文章基于不完整数据的不同缺失率,在R平台上对7种插补方法进行评估。实验结果表明,缺失森林和马尔科夫链蒙特卡洛方法... 机器学习和数据挖掘已经应用于诸多领域。然而由于各种原因,真实数据集通常包含缺失值。为了提高填补缺失值的准确率,文章基于不完整数据的不同缺失率,在R平台上对7种插补方法进行评估。实验结果表明,缺失森林和马尔科夫链蒙特卡洛方法的平均绝对百分误和误分类比率优于其他填补方法。基于验证结果,提出了一种混合插补方法,即在计算数据集的缺失率之后,使用缺失森林估算缺失率小于等于5%的缺失值,然后使用马尔科夫链蒙特卡洛填补缺失率为5%到10%的缺失值。 展开更多
关键词 不完整数据集 缺失 缺失森林 多重插补
下载PDF
混合型缺失数据填补方法比较与应用 被引量:14
7
作者 杨弘 田晶 +3 位作者 王可 张青 韩清华 张岩波 《中国卫生统计》 CSCD 北大核心 2020年第3期395-399,共5页
目的针对混合型缺失数据,使用几种填补方法在缺失填补中的应用并评价填补效果。方法结合实际数据,模拟出不同缺失比例(10%、20%、30%、50%),采用MissForest、因子分析(FAMD)、K-最近邻填补法(KNN)和基于链式方程多重插补(MICE)四种方法... 目的针对混合型缺失数据,使用几种填补方法在缺失填补中的应用并评价填补效果。方法结合实际数据,模拟出不同缺失比例(10%、20%、30%、50%),采用MissForest、因子分析(FAMD)、K-最近邻填补法(KNN)和基于链式方程多重插补(MICE)四种方法进行填补;采用错分类比例(PFC)、正则化均方根误差(NRMSE)和回归系数估计值比较填补效果。结果 FAMD与MissForest相比,对分类变量填补表现优越。缺失比例是10%时,FAMD与MissForest表现优于KNN和MICE;缺失比例是20%时FAMD明显优于其它三种方法,但是MissForest表现亦可;缺失比例是30%时,四种模型表现明显下降,处理效果均不太理想;缺失比例是50%时,虽然FAMD仍有两个变量符合优良标准,但对某些变量估计误差较大,其它三种方法填补均失效。结论 FAMD填补方法总体表现较好,面对混合型缺失数据时可以考虑优先选用。 展开更多
关键词 混合型数据 缺失值填补 因子分析 缺失森林
下载PDF
基于Monte Carlo模拟的完全随机缺失数据处理方法效果比较 被引量:3
8
作者 王可 杨弘 +3 位作者 田晶 李晨昊 韩清华 张岩波 《中国卫生统计》 CSCD 北大核心 2020年第2期298-301,共4页
目的探讨不同缺失比率下几种缺失处理方法的优劣,为缺失数据的处理提供参考。方法以慢性心力衰竭的部分患者电子病历资料为数据基础,运用R软件,采用Monte Carlo模拟完全随机、任意缺失的数据集,并采用成组删除法、均值填补法、期望最大... 目的探讨不同缺失比率下几种缺失处理方法的优劣,为缺失数据的处理提供参考。方法以慢性心力衰竭的部分患者电子病历资料为数据基础,运用R软件,采用Monte Carlo模拟完全随机、任意缺失的数据集,并采用成组删除法、均值填补法、期望最大化填补法、缺失森林填补法和多重填补法分别对模拟的不同缺失比率数据集进行缺失处理,并对所得"完整数据集"拟合多元线性回归模型,得到的参数估计结果与完整数据集参数估计进行比较。结果在不同的缺失比率下不同缺失处理的效果存在差别,在5%和10%缺失比率下,链式方程填补法(multivariate imputation by chained equations,MICE)和期望最大化法(expectation maximization,EM)最优,缺失森林填补法(miss forest,MF)、均值填补法(mean completer,MC)和成组删除法(complete case method,CCM)效果接近;在20%缺失比率下,MICE最优,EM次之,CCM和MF近似,MC最差;在30%缺失比率下,MICE和MF最优,EM和CCM次之,MC最差;在50%缺失比率下,MICE最优,EM和CCM次之,CCM和MF最差。结论对于不同缺失比率的数据,研究人员应综合考虑缺失处理方法的准确度和精确度以及操作难易程度,必须根据实际数据加以调整,采用不同的方法进行处理。 展开更多
关键词 缺失处理 期望最大化法 缺失森林填补法 多重填补法
下载PDF
缺失数据下空气质量预测的ARIMA乘法季节模型 被引量:2
9
作者 田文婷 宇世航 《齐齐哈尔大学学报(自然科学版)》 2022年第4期83-89,共7页
以AQI指数作为评判空气质量状况的标准进行探究,对存在缺失值的AQI指数进行填充,经探究发现,填充后的AQI指数存在明显季节特征,提出在原ARIMA模型上加入季节特征,建立ARIMA乘法季节模型。首先选东北四个城市进行实证分析,用均值法和缺... 以AQI指数作为评判空气质量状况的标准进行探究,对存在缺失值的AQI指数进行填充,经探究发现,填充后的AQI指数存在明显季节特征,提出在原ARIMA模型上加入季节特征,建立ARIMA乘法季节模型。首先选东北四个城市进行实证分析,用均值法和缺失森林法对缺失数据进行填充,依据存在的季节特征分别建立适当的ARIMA乘法季节模型,对未来12个月空气质量进行预测并拟合未来变化趋势,将预测的数据与真实数据进行对比,得出ARIMA乘法季节模型在预测空气质量时优于单纯的ARIMA模型,使用缺失森林填充后建立的ARIMA乘法季节模型优于用均值法填充。最后,确定基于缺失森林填充的缺失数据建立的ARIMA乘法季节模型为较优的预测模型。 展开更多
关键词 AQI指数 缺失森林 季节性 ARIMA乘法季节模型
下载PDF
基于随机森林的桁架结构损伤程度预测 被引量:1
10
作者 姜璐 吕瑞宏 赵艺伟 《微处理机》 2022年第1期43-47,共5页
为适应桁架结构健康监测技术的发展,进一步优化桁架结构损伤程度预测效果,提出一种基于随机森林的桁架结构损伤程度预测算法。算法建立并优化桁架结构损伤数据库,对多个损伤信号分量提取频域特征,通过孤立森林算法和缺失森林算法对数据... 为适应桁架结构健康监测技术的发展,进一步优化桁架结构损伤程度预测效果,提出一种基于随机森林的桁架结构损伤程度预测算法。算法建立并优化桁架结构损伤数据库,对多个损伤信号分量提取频域特征,通过孤立森林算法和缺失森林算法对数据库进行异常检测和数据补全,并采用主成分分析法对其进行特征降维。经实验验证,算法能够针对不同损伤程度的桁架结构敏感度做出有效判定,与极端随机树、AdaBoost、Bagging等回归算法相比,均方误差显著降低,为桁架结构健康监测提供了有效的预测手段。 展开更多
关键词 随机森林 桁架损伤程度预测 孤立森林 缺失森林 主成分分析
下载PDF
基于XGBoost的管道防腐层裂纹损伤识别算法研究
11
作者 吕瑞宏 王春云 +1 位作者 赵艺伟 王晨丽 《计算机测量与控制》 2023年第5期14-20,27,共8页
埋地管道因为在长期服役后防腐层产生的裂纹易导致管道金属层受到损害,为了避免损伤造成管道泄漏,有必要建立管道防腐层裂纹损伤识别智能化平台;通过引入集合经验模态分解,提取管道防腐层结构在裂纹损伤状态下的频域特征值并构建裂纹损... 埋地管道因为在长期服役后防腐层产生的裂纹易导致管道金属层受到损害,为了避免损伤造成管道泄漏,有必要建立管道防腐层裂纹损伤识别智能化平台;通过引入集合经验模态分解,提取管道防腐层结构在裂纹损伤状态下的频域特征值并构建裂纹损伤数据系统;依次利用孤立森林、缺失森林和核主成分分析对损伤数据进行异常检测、数据补全和特征降维优化,构建适于管道防腐层裂纹损伤识别的extreme gradient boosting(XGBoost)模型;研究表明:基于XGBoost的管道防腐层裂纹损伤识别模型可准确地对裂纹长度进行有效检测,与gradient boosting decision tree(GBDT)和随机森林算法相比,其决定系数最大且均方误差最小,裂纹长度识别误差保持在4.37厘米以内,为管道防腐层结构健康检测和安全运输提供了有效的识别方法。 展开更多
关键词 管道防腐层检测 裂纹长度识别 孤立森林 缺失森林 核主成分分析 极端梯度提升树 集合经验模态分解 频域特征值
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部