期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于合成少数类过采样技术算法构建脓毒症合并急性呼吸窘迫综合征的预警模型
1
作者 段红伟 李晓静 +2 位作者 杨兴菊 王飞 杨逢永 《中华危重病急救医学》 CAS CSCD 北大核心 2024年第4期358-363,共6页
目的探讨脓毒症患者发生急性呼吸窘迫综合征(ARDS)的独立危险因素,建立预警模型,并基于合成少数类过采样技术(SMOTE)算法对模型进行预测价值验证。方法采用回顾性病例对照研究方法,选择2016年10月至2022年10月济南市人民医院收治的566... 目的探讨脓毒症患者发生急性呼吸窘迫综合征(ARDS)的独立危险因素,建立预警模型,并基于合成少数类过采样技术(SMOTE)算法对模型进行预测价值验证。方法采用回顾性病例对照研究方法,选择2016年10月至2022年10月济南市人民医院收治的566例脓毒症患者。收集患者的一般资料、基础疾病、感染部位、起始病因、病情严重程度评分、入院时血液指标和动脉血气分析指标、治疗措施、并发症及预后指标。根据患者住院期间是否发生ARDS分组,观察对比两组患者的临床资料;采用单因素和二元多因素Logistic回归分析筛选脓毒症患者住院期间发生ARDS的独立危险因素,并建立回归方程,构建预警模型,同时基于SMOTE算法改进数据集,构建改进数据集的预警模型;绘制受试者工作特征曲线(ROC曲线),对比验证模型的预测效能。结果566例脓毒症患者均纳入最终分析,其中163例在住院期间发生ARDS,403例未发生ARDS。单因素分析显示,两组患者年龄、体质量指数(BMI)、恶性肿瘤、输血史、胰腺及胰周感染、胃肠道感染、起始病因为肺部感染、急性生理学与慢性健康状况评分Ⅱ(APACHEⅡ)、序贯器官衰竭评分(SOFA)、白蛋白(Alb)、血尿素氮(BUN)、机械通气治疗、脓毒性休克比例及重症监护病房(ICU)住院时间差异均有统计学意义。二元多因素Logistic回归分析显示,年龄〔优势比(OR)=3.449,95%可信区间(95%CI)为2.197~5.414,P=0.000〕、起始病因为肺部感染(OR=2.309,95%CI为1.427~3.737,P=0.001)、胰腺及胰周感染(OR=1.937,95%CI为1.236~3.035,P=0.004)、脓毒性休克(OR=3.381,95%CI为1.890~6.047,P=0.000)、SOFA评分(OR=9.311,95%CI为5.831~14.867,P=0.000)为脓毒症患者住院期间发生ARDS的独立危险因素。基于上述危险因素建立预警模型:P1=-4.558+1.238×年龄+0.837×起始病因为肺部感染+0.661×胰腺及胰周感染+1.218×脓毒性休克+2.231×SOFA评分;ROC曲线分析显示,该模型预测脓毒症患者住院期间发生ARDS的ROC曲线下面积(AUC)为0.882(95%CI为0.851~0.914),敏感度为79.8%,特异度为83.4%。基于SMOTE算法改进数据集,再次构建预警模型:P_(2)=-3.279+1.288×年龄+0.763×起始病因为肺部感染+0.635×胰腺及胰周感染+1.068×脓毒性休克+2.201×SOFA评分;ROC曲线分析显示,该模型预测脓毒症患者住院期间发生ARDS的AUC为0.890(95%CI为0.867~0.913),敏感度为85.3%,特异度为79.1%,进一步验证了以上述独立危险因素构建的预警模型具有较高的预测效能。结论脓毒症患者住院期间发生ARDS的危险因素包括年龄、起始病因为肺部感染、胰腺及胰周感染、脓毒性休克和SOFA评分,临床上可依据基于上述危险因素建立的预警模型对脓毒症患者发生ARDS的概率进行评估,进而提前干预,改善预后。 展开更多
关键词 脓毒症 急性呼吸窘迫综合征 危险因素 回归方程 合成少数过采样技术算法
原文传递
基于改进Smote-GBDT算法的岩爆预测模型 被引量:1
2
作者 宋英华 江晨 +1 位作者 李墨潇 齐石 《中国安全科学学报》 CAS CSCD 北大核心 2023年第9期25-32,共8页
为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))... 为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))8个指标,建立岩爆预测指标体系;其次,针对岩爆样本存在的数据不均衡问题,引进托梅克联系(Tomek Link)对欠采样方法,改进合成少数类过采样(Smote)算法,对岩爆训练样本进行混合过采样;最后,构建SmoteTomek-梯度提升树(GBDT)岩爆预测模型,以38组数据验证模型的有效性,并与其他模型进行对比。结果表明:SmoteTomek-GBDT的准确率为92.1%,较未采样提升5.3%,Smote采样提升10.5%,优于随机过采样模型,并且避免跨等级的岩爆误判。 展开更多
关键词 岩爆预测 梯度提升树(GBDT)算法 合成少数过采样(Smote)算法 岩爆指标 托梅克联系(Tomek Link)
原文传递
基于少数类过采样的倾向得分匹配插补法 被引量:4
3
作者 杨贵军 杜飞 孙玲莉 《统计与信息论坛》 CSSCI 北大核心 2021年第1期3-12,共10页
无回答在大数据应用中频繁发生。通常,实际数据的无回答率较低,在这样的情况下,采用倾向得分模型对无回答单元与回答单元进行匹配,易导致倾向得分匹配插补法的插补效果显著下降。为此,将合成少数类过采样算法的思想融入到倾向得分匹配... 无回答在大数据应用中频繁发生。通常,实际数据的无回答率较低,在这样的情况下,采用倾向得分模型对无回答单元与回答单元进行匹配,易导致倾向得分匹配插补法的插补效果显著下降。为此,将合成少数类过采样算法的思想融入到倾向得分匹配插补法中,提出基于少数类过采样的倾向得分匹配插补法。利用统计模拟与实证研究,在不同无回答率、插补重数和误差分布情形下,演示新插补法的统计性质和应用效果。统计模拟显示,新插补法具有明显高于倾向得分匹配插补法的精度,统计性质受无回答率、插补重数和误差分布的影响小。实证结果显示,新插补法在实际数据中具有较好的应用性。基于少数类过采样的倾向得分匹配插补法提供了处理无回答问题的新思路,并具有较好的扩展性。 展开更多
关键词 倾向得分匹配插补法 合成少数过采样算法 无回答率 无回答机制
下载PDF
心血管事件患者术后30 d死亡风险决策树模型的构建与评估——基于少数类样本合成过采样技术算法
4
作者 陈永庄 莫小乔 谢天 《中华危重症医学杂志(电子版)》 CAS CSCD 2023年第5期390-398,共9页
目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺... 目的:建立基于少数类样本合成过采样技术(SMOTE)算法的合并心血管事件行外科手术患者术后30 d死亡风险决策树模型。方法:选择新加坡中央医院2012年至2016年收入住院行手术治疗的华人患者,共纳入3086例合并心血管事件行外科手术患者(缺血性心脏病史和/或充血性心力衰竭史患者),提取患者基本临床信息以及相关基础病和手术相关评分信息。采用SMOTE算法对原始数据集进行重建,并应用全子集回归筛选预测因子,将数据集按7∶3分为训练组和验证组,其中训练组用于建立决策树风险预测模型,验证组用于内部验证。结果:患者术后30 d病死率为3.0%(93/3086),术后24 h ICU入住率为4.5%(140/3086)。全子集回归分析显示年龄>75岁[比值比(OR)=1.033,95%置信区间(CI)(1.024,1.042),P<0.001]、贫血[OR=1.368,95%CI(1.211,1.546),P<0.001]、慢性肾脏病分期>2期[OR=1.381,95%CI(1.277,1.494),P<0.001]、术前输血[OR=4.496,95%CI(3.268,6.185),P<0.001]、急诊手术[OR=3.344,95%CI(2.752,4.064),P<0.001]、红细胞分布宽度>15.7%[OR=2.097,95%CI(1.658,2.652),P<0.001]及美国麻醉医师协会分级>2级[OR=3.362,95%CI(2.734,4.135),P<0.001]是心血管事件患者术后30 d死亡的危险因素。应用以上7个预测因子构建决策树模型。结果显示训练组受试者工作特征曲线下面积为0.853[95%CI(0.837,0.868),P<0.001],敏感度、特异度分别为0.765、0.756;验证组受试者工作特征曲线下面积为0.858[95%CI(0.834,0.882),P<0.001],敏感度、特异度分别为0.938、0.612,总体判别能力良好。结论:心血管事件患者术后30 d死亡事件发生率低,为不平衡数据分类问题,本研究基于处理不平衡数据常用的SMOTE算法,避免了小概率事件建模过程中的过拟合问题。同时决策树模型具有直观、便捷、个性化的特点,为医务工作者提供了方便的临床预测工具。 展开更多
关键词 少数类样本合成过采样技术算法 术后死亡 全子集回归 预测模型 决策树
原文传递
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:7
5
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数过采样技术(SMOTE)算法 条件生成对抗网络 XGBoost模型 分类问题
下载PDF
基于SMOTE-SSA-CNN的开关柜故障诊断方法
6
作者 张玮 《电气传动》 2024年第10期83-89,共7页
开关柜多源监测数据包含丰富的设备运行状态信息,对其进行分析可实现开关柜故障诊断。提出一种基于SMOTE-SSA-CNN的开关柜故障诊断方法。首先,以开关柜电压、电流和温湿度等监测数据为基础,采用合成少数类样本过采样技术(SMOTE)算法对... 开关柜多源监测数据包含丰富的设备运行状态信息,对其进行分析可实现开关柜故障诊断。提出一种基于SMOTE-SSA-CNN的开关柜故障诊断方法。首先,以开关柜电压、电流和温湿度等监测数据为基础,采用合成少数类样本过采样技术(SMOTE)算法对原始数据集进行样本扩充,解决原始数据集中正负样本严重失衡的问题;然后引入麻雀搜索算法(SSA)对卷积神经网络(CNN)的卷积核大小与数量、全连接层神经元数量、学习率等超参数进行优化,提高模型故障诊断结果的准确率;最后,通过算例分析对建立的SMOTE-SSA-CNN模型性能进行评估,验证了所提方法对开关柜故障诊断的有效性,且与传统故障诊断方法相比,所提方法的收敛性较好,精度较高。 展开更多
关键词 开关柜 多源监测数据 合成少数类样本过采样技术算法 麻雀搜索算法 卷积神经网络
下载PDF
基于随机森林算法的函数缺陷定位 被引量:5
7
作者 李倩倩 牟永敏 赵晓永 《科学技术与工程》 北大核心 2020年第32期13278-13284,共7页
缺陷定位是软件调试过程中的重要阶段,通过挖掘程序执行过程中的动态信息与执行结果之间的关系,可以有效定位缺陷位置。由此提出一种基于随机森林算法的函数缺陷定位方法(function defect location based on random forest,FDLRF)。其... 缺陷定位是软件调试过程中的重要阶段,通过挖掘程序执行过程中的动态信息与执行结果之间的关系,可以有效定位缺陷位置。由此提出一种基于随机森林算法的函数缺陷定位方法(function defect location based on random forest,FDLRF)。其具体思想是:首先动态执行测试用例获取函数的动态调用图并生成DOT文件,解析该文件获取各个函数的轨迹信息,建立特征矩阵,同时利用合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)得到均衡样本,运用随机森林算法对数据进行训练,从而获得每个属性的贡献度信息,即函数缺陷概率。实验结果表明,该方法较传统算法在定位准确率有了一定程度的提升。 展开更多
关键词 缺陷定位 函数轨迹信息 随机森林 合成少数过采样技术(SMOTE)算法
下载PDF
基于SMOTE算法和动态代理模型的船舶结构可靠性优化 被引量:11
8
作者 刘婧 王德禹 《中国舰船研究》 CSCD 北大核心 2020年第5期114-123,共10页
[目的]针对传统船舶结构可靠性优化设计中难以同时保证全局近似精度与计算效率的问题,提出一种基于少数类合成的过采样算法(SMOTE)和动态代理模型的可靠性优化策略。[方法]首先,通过最优拉丁超立方试验设计,在设计空间中选择初始样本点... [目的]针对传统船舶结构可靠性优化设计中难以同时保证全局近似精度与计算效率的问题,提出一种基于少数类合成的过采样算法(SMOTE)和动态代理模型的可靠性优化策略。[方法]首先,通过最优拉丁超立方试验设计,在设计空间中选择初始样本点,构造BP神经网络模型;然后,利用全局优化算法−模拟退火法(ASA)和可靠性优化设计的单循环法(SLA),找到当前全局最优解;最后,通过SMOTE算法增加最优解周围的样本点,更新代理模型以提高其在全局最优解附近的精度,直至优化迭代收敛。[结果]结果显示,SMOTE算法可以合成位于失效面附近的样本点,从而使BP神经网络模型更高效地拟合极限状态函数;SLA法将可靠性优化问题解耦成确定性优化问题,在保持计算精度的同时提高了计算效率。[结论]优化结果表明,采用所提方法在获得分析模型全局最优解的同时还能有效减少计算成本。 展开更多
关键词 船舶结构 可靠性优化 动态代理模型 少数合成过采样算法 BP神经网络模型 单循环法
下载PDF
基于改进堆叠泛化算法的电信套餐预测
9
作者 包志强 胡啸天 +2 位作者 赵研 赵媛媛 黄琼丹 《西安邮电大学学报》 2019年第2期98-104,共7页
提出一种改进堆叠泛化(stacking)算法的电信套餐预测方法。该方法将多种套餐进行两层分类,第一层粗分为高低价值两种套餐,第二层在粗分基础上对高价值或低价值套餐进行细分,在每一层数据预处理阶段使用合成少数类过采样算法(synthetic m... 提出一种改进堆叠泛化(stacking)算法的电信套餐预测方法。该方法将多种套餐进行两层分类,第一层粗分为高低价值两种套餐,第二层在粗分基础上对高价值或低价值套餐进行细分,在每一层数据预处理阶段使用合成少数类过采样算法(synthetic minority oversampling technique,SMOTE)得到平衡数据集。采用改进堆叠泛化算法,对每一类取所有0层分类器的最大最小后验概率,并融合重要的消费信息作为1层训练集,由1层分类器预测套餐的种类。选取某公司6种电信套餐进行预测,实验结果表明,改进后的套餐预测模型可应用于多种不平衡套餐的预测。 展开更多
关键词 电信套餐 堆叠泛化算法 合成少数过采样算法 后验概率
下载PDF
医学图像数据增强技术的研究现状与进展 被引量:7
10
作者 王天任 李伊宁 +3 位作者 王弘熠 康健 赵爽 柳岸 《中国当代医药》 CAS 2021年第3期34-37,44,共5页
人工智能辅助的医学图像识别诊疗系统应用面非常广泛,然而在当前医疗环境和社会背景下难以收集到足够多的数据来训练模型,利用数据增强技术对已有样本进行处理可以显著缓解训练数据缺乏的问题。本文就近年来出现的较为常用的图像增强技... 人工智能辅助的医学图像识别诊疗系统应用面非常广泛,然而在当前医疗环境和社会背景下难以收集到足够多的数据来训练模型,利用数据增强技术对已有样本进行处理可以显著缓解训练数据缺乏的问题。本文就近年来出现的较为常用的图像增强技术进行简要概述,根据样本处理数量,将已有的数据增强技术分为单样本数据增强和多样本数据增强两大类。其中单样本数据增强又根据处理水平分为像素水平处理和整体水平几何处理;而多样本数据增强则主要介绍了以合成少数过采样算法(SMOTE)和生成对抗网络(GAN)等为代表的以整个样本集为操作对象,通过调整采样比例缓解类不平衡现象的算法。此外,本文还对每种方法的优缺点进行分析,总结了近年来上述算法的实现和改进,以期为相关从业者提供新思路。 展开更多
关键词 人工智能 数据增强 合成少数过采样算法 生成对抗网络
下载PDF
非平衡网络流量识别方法 被引量:8
11
作者 燕昺昊 韩国栋 +1 位作者 黄雅静 王孝龙 《计算机应用》 CSCD 北大核心 2018年第1期20-25,共6页
针对网络中存在的对等网络(P2P)流量泛滥导致的流量失衡问题,提出将非平衡数据分类思想应用于流量识别过程。通过引入合成少数类过采样技术(SMOTE)算法并进行改进,提出了均值SMOTE(M-SMOTE)算法,实现对流量数据的平衡化处理。在此基础... 针对网络中存在的对等网络(P2P)流量泛滥导致的流量失衡问题,提出将非平衡数据分类思想应用于流量识别过程。通过引入合成少数类过采样技术(SMOTE)算法并进行改进,提出了均值SMOTE(M-SMOTE)算法,实现对流量数据的平衡化处理。在此基础上分别采用3种机器学习分类器:随机森林(RF)、支持向量机(SVM)、反向传播神经网络(BPNN)对处理后各类流量进行识别。理论分析与仿真结果表明,在不影响P2P流量识别准确率的前提下,与非平衡状态相比,引入SMOTE算法将非P2P流量的识别准确率平均提高了16.5个百分点,将网络流量的整体识别率提高了9.5个百分点;与SMOTE算法相比,M-SMOTE算法将非P2P流量的识别准确率与网络流量的整体识别率分别进一步提高了3.2个百分点和2.6个百分点。实验结果表明,非平衡数据分类思想可有效解决P2P流量过多导致的非P2P流量识别率低的问题,同时所提M-SMOTE算法具有更高的识别准确度。 展开更多
关键词 非平衡数据 P2P流量 流量识别 机器学习 合成少数过采样技术算法
下载PDF
基于类不平衡数据集的钢筋混凝土柱破坏模式判别方法 被引量:1
12
作者 谢龙隆 喻泽成 余波 《建筑结构学报》 EI CAS CSCD 北大核心 2023年第5期273-285,共13页
针对钢筋混凝土柱破坏模式数据集存在类不平衡,导致传统机器学习算法对少数类破坏模式判别精度较低的问题,采用合成少数类过采样(SMOTE)算法合成少数类样本生成初始平衡数据集,利用基于特征权重的加权K-近邻算法衡量数据集样本的类内相... 针对钢筋混凝土柱破坏模式数据集存在类不平衡,导致传统机器学习算法对少数类破坏模式判别精度较低的问题,采用合成少数类过采样(SMOTE)算法合成少数类样本生成初始平衡数据集,利用基于特征权重的加权K-近邻算法衡量数据集样本的类内相似度,通过合理剔除离群值样本数据点重构新平衡数据集,并基于331组钢筋混凝土柱破坏模式不平衡数据(弯曲破坏203组、剪切破坏70组、弯剪破坏58组),结合6种经典机器学习算法,建立了基于类不平衡数据集的钢筋混凝土柱破坏模式判别方法。研究表明:与传统方法相比,该方法对于剪切破坏的精度、召回率和F1分数分别平均提高5.5%、8.7%和7.2%,对于弯剪破坏的精度、召回率和F1分数分别平均提高12.8%、15.7%和17%;随着破坏模式样本数据集不平衡程度的增大,该方法对机器学习算法分类性能的提升效果越明显。 展开更多
关键词 钢筋混凝土柱 破坏模式判别 类不平衡数据集 合成少数过采样算法 加权K-近邻算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部