2型糖尿病发生与多溴联苯醚暴露的关系及其预测模型构建和评价

Relationship between occurrence of type 2 diabetes mellitus and exposure to polybrominated diphenyl ethers and construction and evaluation of the prediction model

下载PDF

导出

摘要目的分析2型糖尿病(T2DM)发生与多溴联苯醚(PBDEs)暴露的关系,通过机器学习方法构建T2DM发生的预测模型并进行评价。方法在NHANES数据库筛选出1425例研究对象,其中非T2DM患者1132例、T2DM患者293例。比较非T2DM患者与T2DM患者的临床资料,取有统计学差异的临床资料进一步进行boruta特征筛选,以明确T2DM发生与PBDEs的关系及其影响因素。将筛选出的T2DM发生影响因素输入R软件,并使用R软件creatDataPartition函数将数据按照80%训练集及20%验证集随机划分。使用逻辑回归、极致梯度提升(XGBoost)、轻量梯度提升、自适应增强、K近邻、朴素贝叶斯及支持向量机等7种算法构建机器学习模型,将训练集输入模型进行训练,将验证集输入模型使用十折交叉验证对进行模型进行内部验证。结合ROC曲线以及曲线下面积(AUC)对模型进行评价,选择新疆医科大学一附院内分泌科就诊的成人T2DM患者71例及健康体检者100例对效能最好的预测模型进行外部验证。使用SHAP工具分析高效能预测模型的可解释性,判断模型在决策过程中各个特征的重要性。结果T2DM患者BMI、腰围、受教育程度、有糖尿病家族史比例、血清高密度脂蛋白及血清BDE-28、BDE-47、BDE-99、BDE-183、BDE-209浓度均高于非T2DM患者(P均<0.05),Boruta特征筛选出腰围、BMI、糖尿病家族史及血清BDE-47、BDE-99、BDE-28、BDE-209、BDE-183作为T2DM发生的影响因素纳入机器学习算法建立T2DM发生的预测模型。在训练集及验证集的内部验证中,XGBoost模型AUC值均最高,且准确度、Kappa值、灵敏度及特异度均位于前列,故选择XGBoost模型作为高效能预测模型。外部验证结果显示,XGBoost模型的准确度为0.702、灵敏度为0.549、特异度为0.787、AUC(95%CI)为0.674(0.575~0.773)。SHAP工具对XGBoost模型的预测情况进行解释性分析结果显示,腰围、血清BDE-47为最重要的预测特征,同时血清BDE-99、BDE-209及BMI、糖尿病家族史在模型中具有较高的重要性,而血清BDE-28、BDE-183在模型中重要性相对较低。结论血清BDE-47、BDE-99、BDE-28、BDE-209、BDE-183为T2DM发生的独立影响因素,基于血清PBDEs及腰围、BMI、糖尿病家族史建立的XGBoost模型对T2DM发生的预测效能较高,在T2DM发生的预测方面具有一定价值。 Objective To analyse the relationship between the occurrence of type 2 diabetes mellitus(T2DM)and exposure to polybrominated diphenyl ethers(PBDEs),and to construct and evaluate the predictive model for the occurrence of T2DM by machine learning methods.Methods Totally 1425 study subjects were screened in the NHANES database,including 1132 non-T2DM patients and 293 T2DM patients.The clinical data of non-T2DM patients and T2DM patients were compared,and those with statistically significant differences were taken for further screening of boruta features to clarify the relationship between T2DM occurrence and PBDEs and their influencing factors.The screened influencing factors for the occurrence of T2DM were inputinto R software,and the data were randomly partitioned according to 80%training set and 20%validation set using the R software createDataPartition function.Seven algorithms,including logistic regression(Logistcs),extreme gradient boosting(XGBoost),light gradient boosting(LightGBM),adaptive boosting(AdaBoost),K-nearest neighbours(KNN),plain Bayesian(CNB),and support vector machine(SVM)were used to construct the machine learning model,and the training set was input into the model for training,and the validation set was input into the model.The model was internally validated using ten-fold cross-validation pairs.The models were evaluated by combining the ROC curve and AUC,and the model with the best prediction performance was selected for external validation.The best predictive model was externally validated by selecting 71 cases of adult T2DM patients and 100 cases of health check-ups from the Department of Endocrinology of the First Affiliated Hospital of Xinjiang Medical University.The SHAP tool was used to analyse the interpretability of the high-performance prediction models and to judge the importance of each feature of the models in the decision-making process.Results BMI,waist circumference,education level,the proportion with family history of diabetes,serum HDL and serum BDE-28,BDE-47,BDE-99,BDE-183,BDE-209 concentrations were higher in T2DM patients than in non-T2DM patients(all P<0.05).Boruta characteristics screening determined waist circumference,BMI,family history of diabetes and serum BDE-47,BDE-99,BDE-28,BDE-209,and BDE-183 as influencing factors for the occurrence of T2DM,which were incorporated into the machine learning algorithm to construct the predictive model of T2DM occurrence.The XGBoost model had the highest AUC value in both the training set and the internal validation of the validation set,and was in the top rank in terms of accuracy,Kappa value,sensitivity,and specificity,so it was chosen as a high-efficiency prediction model.The results of external validation showed that the XGBoost model had an accuracy of 0.702,a sensitivity of 0.549,a specificity of 0.787,and an AUC(95%CI)of 0.674(0.575-0.773).Interpretive analyses of the predictions of the XGBoost model by the SHAP tool showed that waist circumference and serum BDE-47 were the most important predictive features,while serum BDE-99,BDE-209 and BMI,family history of diabetes had high importance in the model,while serum BDE-28,BDE-183 had relatively low importance in the model.Conclusions Serum BDE-47,BDE-99,BDE-28,BDE-209,and BDE-183 are influential factors for the occurrence of T2DM,and the XGBoost model based on serum PBDEs,waist circumference,BMI,family history of diabetes mellitus has a high predictive efficacy for the occurrence of T2DM,which is of value in the prediction of the occurrence of T2DM.

作者马英杰陈楠阿尔娜·恰依马尔旦刘早玲 MA Yingjie;CHEN Nan;Aerna Chaimardan;LIU Zaoling(School of Public Health,Xinjiang Medical University,Urumqi 830054,China)

机构地区新疆医科大学公共卫生学院

出处《山东医药》 CAS 2024年第17期1-6,共6页 Shandong Medical Journal

基金省部共建中亚高发病成因与防治国家重点实验室开放课题项目(SKL-HIDCA-2022-19) 国家自然科学基金项目(82160605)。

关键词 2型糖尿病多溴联苯醚多溴联苯醚同系物机器学习预测模型 type 2 diabetes mellitus polybrominated diphenyl ethers polybrominated diphenyl ether congeners machine learning prediction model

分类号 R587.1 [医药卫生—内分泌]

引文网络
相关文献

参考文献5

1郭凯明,伊娜,赵振平,蒋炜,姜莹莹,周脉耕.中国成人BMI和腹型肥胖与T2DM发病关系的前瞻性研究[J].中华疾病控制杂志,2023,27(11):1342-1349. 被引量：7
2丁贤彬,唐文革,陈莉玲,陈婷,吕晓燕,焦艳,许杰,毛德强,龙凤.重庆市30-79岁居民糖尿病家族史与不健康生活方式对糖尿病患病率的交互作用[J].重庆医学,2022,51(20):3544-3549. 被引量：7
3陈淑婷,王佳乐,王菊平,高倩,梁洁,王彤.BMI与腰围对阻塞性睡眠呼吸暂停与2型糖尿病的中介效应[J].中华疾病控制杂志,2022,26(5):523-528. 被引量：5
4罗妍,王枞,叶文玲.基于XGBoost和SHAP的急性肾损伤可解释预测模型[J].电子与信息学报,2022,44(1):27-38. 被引量：21
5杨俊花,孙诗谣,孙玲伟,凌阿茹,饶钦雄,赵志辉.持久性有机污染物多溴联苯醚的生殖毒性研究进展[J].上海农业学报,2021,37(3):127-133. 被引量：6

二级参考文献37

1李立明,饶克勤,孔灵芝,姚崇华,向红丁,翟凤英,马冠生,杨晓光,中国居民营养与健康状况调查技术执行组.中国居民2002年营养与健康状况调查[J].中华流行病学杂志,2005,26(7):478-484. 被引量：1783
2王志新,段华英,王玲,陈敦金.十溴联苯醚对小鼠受精卵发育的影响[J].中山大学学报（医学科学版）,2011,32(1):51-55. 被引量：7
3刘丽,逄增昌,汪韶洁,张东峰,吴义丽,孙健平,宁峰,乔青.家族史与肥胖对2型糖尿病协同作用[J].中国公共卫生,2012,28(3):305-306. 被引量：19
4胡艳红,张凡,张楚焌,孙天石,蕫一昕,李卫红.程序性细胞死亡形式研究进展[J].辽宁中医药大学学报,2018,20(12):85-89. 被引量：26
5张波,杨文英.中国糖尿病流行病学及预防展望[J].中华糖尿病杂志,2019,11(1):7-10. 被引量：147
6王汉永,翟金霞,刘婷,戴瑞雪,任征,丁承辉,林浩飞.十溴联苯醚对青春期雄性小鼠精子数及睾酮的影响[J].中华疾病控制杂志,2014,18(10):991-994. 被引量：5
7陈冯梅,郭志荣,武鸣,周正元,骆文书.腰围和BMI动态变化对2型糖尿病发病的影响[J].中华预防医学杂志,2015,49(12):1092-1097. 被引量：18
8丁贤彬,沈卓之,毛德强,张春华,吕晓燕,焦艳.重庆市成年人糖尿病患病率及其影响因素分析[J].中国慢性病预防与控制,2016,24(1):1-4. 被引量：53
9汤艳,汪春梅,何鸿雁,李洪涛,王文,李祥.亚慢性十溴联苯醚对成年大鼠睾丸组织一氧化氮和一氧化氮合酶及标志酶的影响[J].环境与健康杂志,2016,33(2):109-111. 被引量：2
10杨月欣,张环美.《中国居民膳食指南(2016)》简介[J].营养学报,2016,38(3):209-217. 被引量：252

共引文献41

1孙悦,陈广新,于淼,郭金兴.基于可解释性机器学习的新冠肺炎疾病风险预测研究[J].新一代信息技术,2023,6(12):40-44.
2魏凤,谢沙,毕军平,林海兰,刘沛,刘荔彬,朱颖,陈燕,吴文晖.GC-MS测定水质中34种有机氯农药和氯苯类化合物[J].绿色科技,2021,23(24):1-5. 被引量：2
3潘全,陈魏,杨琅,何瑜.加压流体萃取-气质联用法测定纺织品中多溴联苯醚[J].化纤与纺织技术,2021,50(6):71-75. 被引量：2
4侯燕,唐斌,蔡凤珊,严骁,郑晶,王俊丽,张华.广州市居民家庭室内灰尘中传统和新型阻燃剂与塑化剂的污染特征及健康风险评估[J].环境科学学报,2022,42(7):106-122. 被引量：2
5崔厚祥,陈玲,廖泽荣,罗思婷,花秀兵.2,2',4,4'-四溴二苯醚的有机纯度分析[J].中国新技术新产品,2022(16):30-32.
6米龙浩,张雪明,陈曦,孙大妮,王雪,史纪福,刘姝菂.化学替代品在环境安全中的作用[J].山东化工,2022,51(20):197-200.
7王洪眉,吴峰.男性阻塞性睡眠呼吸暂停低通气综合征患者腰围对合并2型糖尿病的预测价值[J].中国现代医药杂志,2022,24(11):8-12. 被引量：1
8姚帅君,闫敬来,杜彩凤,杨继红.基于集成学习构建围绝经期综合征中医智能诊断模型[J].中医杂志,2023,64(6):572-580. 被引量：7
9金星,李爱琴,申婷婷,孟赟冰.司美格鲁肽对2型糖尿病合并阻塞性睡眠呼吸暂停低通气综合征患者的疗效[J].河南医学研究,2023,32(6):995-999. 被引量：3
10赵哲,刘霖,赵力博,苏小凤,王欢欢,范利.阻塞性睡眠呼吸暂停综合征与代谢综合征相关性的研究进展[J].解放军医学院学报,2023,44(2):201-206. 被引量：7

1张加斌,谢晖,王翠萍.重组人脑利钠肽联合瑞舒伐他汀钙治疗心力衰竭的疗效[J].临床合理用药杂志,2024,17(9):5-7.
2李铁,齐梦迪,张克英,王建萍,白世平,曾秋凤,彭焕伟,玄月,吕莉,丁雪梅.育雏育成期饲粮添加益生菌对蛋鸡生长性能、血清指标、肠道健康及后续生产性能的影响[J].畜牧兽医学报,2024,55(3):1062-1076. 被引量：4
3赵昱,陶喜红.社交媒体时代网民数字身份焦虑的表征、生成与调适[J].青年记者,2024(4):18-22. 被引量：1
4付建平,谢丹平,杨艳艳,青宪,张漫雯,黄锦琼,陈晓燕,尹文华,吴明亮,周长风,廖海婷.电子垃圾拆解废气中PBDEs特征与污染控制效果[J].中国环境科学,2024,44(2):654-662. 被引量：1
5叶倩,杨云,徐文韬,刘玲玲.基于可解释机器学习构建脑卒中患者日常生活自理能力风险预测模型[J].南京医科大学学报（自然科学版）,2024,44(5):672-680. 被引量：1
6马小东,薛刚,王道成,汪满意,屈长宏,鲁月凤,殷俊.通心痹膏穴位敷贴联合耳穴压豆治疗稳定型心绞痛的临床效果[J].世界中医药,2024,19(3):393-397.
7高丹妮.初中声乐教学中的技巧训练与情感表达研究[J].进展,2024(7):208-210.
8梁梓华,李嘉仪,谢林惠,杨梓翊,尤适泽,吴超,李文龙,艾连中,倪莉,吕旭聪,陈有挺.副干酪乳杆菌FZU103对小鼠酒精性肝损伤的防控作用[J].食品科学,2024,45(7):135-144.
9孙小怡,张名爱,王宝维,凡文磊,孔敏,岳斌,王秉翰.生物素对产蛋期种鹅血清生化指标、肠道黏膜上皮形态及肠道菌群结构的影响[J].动物营养学报,2024,36(4):2395-2405.
10刘夏阳,刘涛,高娟.北京市朝阳区某社区≥65岁老年人健康体检结果分析[J].中国社区医师,2024,40(10):152-154. 被引量：1

山东医药

2024年第17期

浏览历史

内容加载中请稍等...

2型糖尿病发生与多溴联苯醚暴露的关系及其预测模型构建和评价

参考文献5

二级参考文献37

共引文献41

相关作者

相关机构

相关主题

浏览历史