基于随机森林模型的成分数据缺失值填补法被引量：32

Imputation of Missing Values for Compositional Data Based on Random Forest

下载PDF

导出

摘要缺失数据处理是数据挖掘领域中进行数据预处理的一个重要环节,由于成分数据特殊的几何性质,传统的缺失值填补方法不能直接用于这种类型的数据.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,本文利用了成分数据和欧氏数据之间的关系,提出了一种基于随机森林的成分数据缺失值迭代填补法,该方法的实施和评估采用模拟和真实的数据集.实验结果表明:新的填补方法可广泛应用于多种类型的数据集且具有较高准确性. Dealing with the missing values is an important object in the field of data mining. Besides, the properties of compositional data lead to that traditional imputation methods may get undesirable result if they are directly used in this type of data. As a result, the management of missing values in compositional data is of great significant. To solve this problem, this paper uses the relationship between compositional data and Euclidean data, and proposes a new method based on Random Forest for missing values in compositional data. This method has been implemented and evaluated using both simulated and real-world databases, then the experimental results reveal that the new imputation method can be widely used in various types of data sets and has good performance than other methods.

作者张晓琴程誉莹

机构地区山西大学数学科学学院

出处《应用概率统计》 CSCD 北大核心 2017年第1期102-110,共9页 Chinese Journal of Applied Probability and Statistics

基金山西省高等学校教学改革项目(批准号:J2014006) 山西省自然科学基金面上项目(批准号:2015011044) 山西省国际科技合作计划项目(批准号:2015081020)资助

关键词缺失值填补成分数据随机森林 imputation of missing values compositional data random forest

分类号 O212.1 [理学—概率论与数理统计]

引文网络
相关文献

同被引文献257

1刘佳星,张宏烈,刘艳菊,刘彦忠.基于缺失率的不完整数据填补算法[J].统计与决策,2021(2):39-41. 被引量：18
2吴惠明,常佳奇,李刚,张东明,黄宏伟.基于支持向量机的盾构掘进姿态预测与施工参数优化方法[J].隧道建设（中英文）,2021,41(S01):11-18. 被引量：33
3洪永淼,汪寿阳.大数据、机器学习与统计学:挑战与机遇[J].计量经济学报,2021(1):17-35. 被引量：60
4韩港飞,田晶,和紫铉,张雅婧,武亭宇,张岩波,韩清华.基于随机森林的冠心病合并心力衰竭患者PCI术后死亡风险预测研究[J].中华疾病控制杂志,2023,27(4):425-430. 被引量：6
5郑智泉,王孟孟,田维琦.基于加权K近邻算法的缺失数据填补研究[J].智能计算机与应用,2021,11(11):31-33. 被引量：4
6何尧,梁宏池,连鸿松,许锐.基于滑动窗口和多元高斯分布的变压器油色谱异常值检测[J].高压电器,2020,56(1):203-209. 被引量：12
7蒲天骄,乔骥,韩笑,张国宾,王新迎.人工智能技术在电力设备运维检修中的研究及应用[J].高电压技术,2020,46(2):369-383. 被引量：216
8虞晓芬,傅玳.多指标综合评价方法综述[J].统计与决策,2004,20(11):119-121. 被引量：529
9张慧书,战东平,姜周华,于艳忠,孙利国,邢国成,王玉辉.基于人工神经网络的钢铁冶炼终点预报模型[J].工业加热,2005,34(2):5-7. 被引量：7
10杨淑娥,黄礼.基于BP神经网络的上市公司财务预警模型[J].系统工程理论与实践,2005,25(1):12-18. 被引量：202

引证文献32

1尹谷双,廖茜茜,朱龙昌,朱锴,杨正乾,陈斌.基于深度学习的变压器故障后验分析[J].云南电业,2024(1):24-28.
2尹谷双,廖茜茜,朱龙昌,朱锴,杨正乾,陈斌.基于深度学习的变压器故障后验分析[J].云南电业,2023(11):29-34.
3曹卫权,褚衍杰,李显.针对机器学习中残缺数据的近似补全方法[J].西安交通大学学报,2017,51(10):142-148. 被引量：5
4唐博.动态网络模糊域数据缺陷实时修正方法仿真[J].计算机仿真,2018,35(4):266-269. 被引量：2
5柯昊,李天,周悦,钟玉颖,俞征鹿,袁军鹏.数据缺失时基于BP神经网络的作者重名辨识研究[J].情报学报,2018,37(6):600-609. 被引量：7
6马永军,汪睿,李亚军,陈海山.利用聚类分析和离群点检测的数据填补方法[J].计算机工程与设计,2019,40(3):744-747. 被引量：10
7王丽雯,黄旭.大数据分析下不完备数据多重准确填补仿真[J].计算机仿真,2019,36(7):367-370. 被引量：3
8吴郁,张金奋,范存龙,胡卫东.基于随机森林的船舶碰撞事故缺失数据插补[J].武汉理工大学学报（交通科学与工程版）,2019,43(6):1120-1124. 被引量：9
9丁敬安,张欣海,胡博,周国民.基于集成学习的不完备数据补全算法研究[J].中国电子科学研究院学报,2020,15(1):78-83. 被引量：5
10时巍.云计算下相关性缺失大数据分块填补仿真[J].计算机仿真,2020,37(4):432-435. 被引量：1

二级引证文献102

1谭朋柳,徐光勇,张露玉,王润庶.基于卷积神经网络和Adaboost的心脏病预测模型[J].计算机应用,2023,43(S01):19-25. 被引量：3
2安强强,张峰,李赵兴,张雅琼.基于机器学习的VoIP流量在线识别系统设计与实现研究[J].电子设计工程,2018,26(16):103-106. 被引量：2
3毛颖颖.可扩展机器学习中残缺数据补全方法研究[J].信息与电脑,2018,30(17):32-33.
4谢海涛,肖倩.面向语义缺失场景的社交媒体中热门新闻识别方法研究[J].现代情报,2019,39(9):28-40. 被引量：2
5王瑞云,贾君枝.基于外部ID的中文实体对齐分析——以中国科学院院士Wikidata数据子集为例[J].国家图书馆学刊,2020,29(2):102-112. 被引量：1
6张冲,杜精益,申宝敏.非均匀传输下缺陷大数据智能填补算法仿真[J].计算机仿真,2020,37(6):443-447.
7塔娜.基于云计算技术的大规模数据聚类分析[J].现代电子技术,2020,43(15):123-126. 被引量：5
8周琦,李明.基于频谱信息的网络多缺陷干扰抑制系统设计[J].现代电子技术,2020,43(18):89-91. 被引量：1
9黄紫成,李影.基于模糊C均值聚类的缺失数据填充方法[J].吉首大学学报（自然科学版）,2020,41(2):23-26. 被引量：4
10李成海,胡甚平,陈冰君.船舶碰撞风险因素分析研究[J].广州航海学院学报,2020,28(3):12-16.

1张晓琴,康菊,荆文君.一种基于Epanechnikov二次核的成分数据缺失值填补法[J].应用概率统计,2014,30(6):598-606. 被引量：1
2庞新生.缺失数据处理方法的比较[J].统计与决策,2010,26(24):152-155. 被引量：27
3王历容,秦永松,罗志军.逆概率加权填补下两线性模型中响应变量分位数差异的经验似然统计推断[J].应用概率统计,2014,30(1):40-56.
4高恒武.填补法在电磁学解题中的应用[J].芜湖师专学报,2001(4):93-94.
5周绮凤,杨小青,周青青,雷家艳.基于随机森林的建筑结构损伤识别方法[J].振动．测试与诊断,2012,32(2):197-201. 被引量：13
6赵亚男,李桐.街舞比赛排名问题[J].长春大学学报,2013,23(10):1265-1268.
7李波霞,魏玉辉,席莉莉,段好刚,武新安.近红外光谱和化学计量学对不同产地不同产期当归的定性研究[J].光谱实验室,2011,28(4):2128-2134. 被引量：10
8岳勇,田考聪.数据缺失及其填补方法综述[J].预防医学情报杂志,2005,21(6):683-685. 被引量：30
9郑李玲,李英华.φ-混合样本下缺失数据情形线性模型回归系数估计的渐近性质[J].数学的实践与认识,2014,44(21):266-273. 被引量：1
10郑李玲,秦永松,李英华.-混合样本下缺失数据情形线性模型回归系数的经验似然比统计量的渐近分布[J].工程数学学报,2017,34(2):171-181. 被引量：5

应用概率统计

2017年第1期

浏览历史

内容加载中请稍等...

基于随机森林模型的成分数据缺失值填补法被引量：32

同被引文献257

引证文献32

二级引证文献102

相关作者

相关机构

相关主题

浏览历史

基于随机森林模型的成分数据缺失值填补法 被引量：32

同被引文献257

引证文献32

二级引证文献102

相关作者

相关机构

相关主题

浏览历史

基于随机森林模型的成分数据缺失值填补法被引量：32