大数据时代,攻击篡改、设备故障、人为造假等原因导致海量数据中潜藏着许多异常值。准确地检测出数据中的异常点,实现数据清洗,至关重要。文中提出一种结合特征切分与多层级联随机森林的异常点检测模型(outlier detection model based o...大数据时代,攻击篡改、设备故障、人为造假等原因导致海量数据中潜藏着许多异常值。准确地检测出数据中的异常点,实现数据清洗,至关重要。文中提出一种结合特征切分与多层级联随机森林的异常点检测模型(outlier detection model based on Feature Segmentation and Cascaded Random Forest,FS-CRF)。利用滑动窗口与随机森林对原始特征进行细粒度切分,生成类概率向量,用于训练多层级联的随机森林;由级联层中最后一层的随机森林投票决定样本的最终类别。仿真实验结果表明,新方法在基于多个UCI数据集进行的异常分类任务中均获得较高F1-measure评分;级联结构使新模型相比于经典的随机森林算法进一步提高了泛化能力;在高维数据集上所提方法比梯度提升决策树和XGBoost拥有更优的性能,且超参数较少,易于调优,具有更好的综合性能。展开更多
文摘目的骨质疏松性骨折(osteoporotic fracture,OF)的预测对于骨折防范具有重要的临床指导意义。针对传统logistic回归预测模型存在的精度不高和未考虑遗传因子问题,本文引入多粒度级联森林(multi-grained cascade forest,gcForest)并结合遗传因子来预测OF。方法首先基于 t 分布邻域嵌入( t -distributed stochastic neighbor embedding, t -SNE)算法对OF关联基因位点进行非线性降维,降维后的基因位点与临床因素构成特征组。然后构建gcForest模型对OF进行预测。最后通过10次十折分层交叉验证与logistic、梯度提升决策树、随机森林进行对比。结果基于gcForest的模型分类精度为0.892 7,AUC值为0.92±0.05,泛化性能最优。结论在考虑遗传因素的条件下,gcForest分类效果优于其他模型,验证了本文方法的高效性和实用性。
文摘大数据时代,攻击篡改、设备故障、人为造假等原因导致海量数据中潜藏着许多异常值。准确地检测出数据中的异常点,实现数据清洗,至关重要。文中提出一种结合特征切分与多层级联随机森林的异常点检测模型(outlier detection model based on Feature Segmentation and Cascaded Random Forest,FS-CRF)。利用滑动窗口与随机森林对原始特征进行细粒度切分,生成类概率向量,用于训练多层级联的随机森林;由级联层中最后一层的随机森林投票决定样本的最终类别。仿真实验结果表明,新方法在基于多个UCI数据集进行的异常分类任务中均获得较高F1-measure评分;级联结构使新模型相比于经典的随机森林算法进一步提高了泛化能力;在高维数据集上所提方法比梯度提升决策树和XGBoost拥有更优的性能,且超参数较少,易于调优,具有更好的综合性能。