-
题名条件推断森林在高维组学数据分析中的应用
被引量:3
- 1
-
-
作者
杨凯
侯艳
李康
-
机构
哈尔滨医科大学卫生统计教研室
-
出处
《中国卫生统计》
CSCD
北大核心
2016年第2期215-218,共4页
-
基金
国家自然科学基金资助(81473072)
-
文摘
目的探讨条件推断森林(CIF)在自变量相关情况下变量筛选和分类研究中的应用。方法通过模拟实验和实例比较RF和CIF的变量筛选和分类,并通过变量重要性评分和OOB错误率进行评价。结果模拟实验表明,在自变量相关的情况下,CIF的变量筛选结果明显优于RF的变量筛选结果;实例数据分析结果表明,CIF筛选出变量的OOB错误率低于RF。结论 CIF适用于变量相关的情况,具有实用价值。
-
关键词
条件推断森林
相关
变量筛选
-
Keywords
Conditional inference forest
Correlation
Variable selection
-
分类号
R195.1
[医药卫生—卫生统计学]
-
-
题名条件推断森林在生存分析中的应用
被引量:2
- 2
-
-
作者
刘颖欣
康佩
许军
安胜利
-
机构
南方医科大学公共卫生学院生物统计学系
南方医科大学南方医院卫生经济管理科
-
出处
《南方医科大学学报》
CAS
CSCD
北大核心
2020年第4期475-482,共8页
-
基金
国家自然科学基金(71673126)
南方医科大学科研启蒙项目(B219339036)。
-
文摘
目的探讨条件推断森林在生存分析中的应用与优势。方法通过模拟研究和实例应用比较比例风险模型、加速失效时间模型、随机生存森林、条件推断森林4种方法的预测能力,用Brier score进行评价。结果模拟研究显示两类森林模型比其他2种回归模型预测更准确稳定,其中条件推断森林在数据存在多分类变量、共线性、交互作用等情况下预测效果优于其余3种模型,且在大样本、高删失率数据中更容易体现该优势;实例说明条件推断森林预测效果最优。结论条件推断森林可用于生存分析,且当存在多分类变量、共线性、交互作用时,与其他常见生存分析方法相比,具有更高的准确性和稳定性。
-
关键词
条件推断森林
随机生存森林
比例风险模型
加速失效模型
生存分析
-
Keywords
conditional inference forests
random survival forests
proportional hazards models
accelerated failure time models
survival analysis
-
分类号
O212.3
[理学—概率论与数理统计]
-
-
题名机会不平等的测度:回归树模型的应用与比较
被引量:5
- 3
-
-
作者
李金叶
郝雄磊
-
机构
新疆大学经济与管理学院
-
出处
《统计与信息论坛》
CSSCI
北大核心
2019年第10期3-13,共11页
-
基金
教育部重大攻关项目《新形势下新疆社会稳定和长治久安重大问题研究》(17JZD033)
新疆社会科学基金项目《南疆贫困地区精准脱贫监测与评估研究》(18BJY041)
新疆维吾尔自治区高校科研计划人文社科项目《大数据背景下南疆深度贫困地区精准脱贫绩效评估研究》(XJEDU2018SY002)
-
文摘
采用CGSS数据,根据样本出生年份划分为20世纪“50年代”“60年代”“70年代”和“80年代”四个群体,为减少模型选择过程中个人主观因素影响,采用回归树中的条件推断树、条件推断森林算法,得到“事前”法视角下各个群体机会不平等绝对和相对程度。研究显示:各个年代机会树终端节点数目分别为23、33、35、23,环境变量与个体收入之间均存在复杂非线性关系;户口类型是影响“50年代”机会不平等最主要环境变量,“60年代”是性别,“70、80年代”是居住地,且户口类型重要性持续下降,而居住地重要性持续上升;比较不同模型的样本表现,条件推断森林在测试集上的均方误差最小,其次是条件推断树,均优于参数法和非参数法;机会不平等的绝对程度由“50年代”的0.129下降到“80年代”的0.049,相对程度由35.3%下降到19.8%。
-
关键词
机会不平等
条件推断树
条件推断森林
“事前”法
-
Keywords
inequality of opportunity
conditional inference tree
conditional inference forest
ex-ante perspective
-
分类号
C812
[社会学—统计学]
-