在医疗领域,普遍存在的数据缺失现象会加剧构建临床预测模型的难度.针对某些具有重要医学价值的特征因数据缺失率较高而被丢弃的问题,提出基于互信息加权的K近邻填补算法(Weighted KNN Imputation Algorithm Based on Mutual Informatio...在医疗领域,普遍存在的数据缺失现象会加剧构建临床预测模型的难度.针对某些具有重要医学价值的特征因数据缺失率较高而被丢弃的问题,提出基于互信息加权的K近邻填补算法(Weighted KNN Imputation Algorithm Based on Mutual Information,MIW-KNN).首先,在心力衰竭合并艰难梭菌感染患者的数据集上,与多重插补法、K近邻(K-nearest neighbor,KNN)填补法、均值法等方法进行对比验证所提出方法的有效性.其次,对比不同模型的死亡风险预测效果以验证所提出方法的性能优势.通过单变量分析法所筛选的20个特征,根据9种机器学习算法分别构建预测模型.采用AUC(Area Under the Receiver Operating Characteristic Curve)与准确率作为主要指标以评估模型的性能,通过SHAP(Shapley Additive Explanations)解释分析不同临床特征对模型的影响.最终表明,MIW-KNN算法具有最高的填补精度,基于该方法填补的数据集所构建的随机森林模型实现了最佳的预测性能.AUC为0.841,准确率为0.821.SHAP显示红细胞宽度、晶体输注、白细胞计数是最具影响力的前三个特征.展开更多
文摘在医疗领域,普遍存在的数据缺失现象会加剧构建临床预测模型的难度.针对某些具有重要医学价值的特征因数据缺失率较高而被丢弃的问题,提出基于互信息加权的K近邻填补算法(Weighted KNN Imputation Algorithm Based on Mutual Information,MIW-KNN).首先,在心力衰竭合并艰难梭菌感染患者的数据集上,与多重插补法、K近邻(K-nearest neighbor,KNN)填补法、均值法等方法进行对比验证所提出方法的有效性.其次,对比不同模型的死亡风险预测效果以验证所提出方法的性能优势.通过单变量分析法所筛选的20个特征,根据9种机器学习算法分别构建预测模型.采用AUC(Area Under the Receiver Operating Characteristic Curve)与准确率作为主要指标以评估模型的性能,通过SHAP(Shapley Additive Explanations)解释分析不同临床特征对模型的影响.最终表明,MIW-KNN算法具有最高的填补精度,基于该方法填补的数据集所构建的随机森林模型实现了最佳的预测性能.AUC为0.841,准确率为0.821.SHAP显示红细胞宽度、晶体输注、白细胞计数是最具影响力的前三个特征.