期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于最近最远邻和互信息的特征选择方法 被引量:7
1
作者 吴雨 刘媛华 《计算机应用研究》 CSCD 北大核心 2017年第12期3713-3716,共4页
随着数据量的增加,特征选择已经成为机器学习和数据挖掘领域的研究热点,提出一种基于最近最远邻的特征选择算法。一个数据点与其最近的邻点属于同一集群,与最远的邻点属于不同的集群,通过计算最近最远邻的特征距离可以得到一种判断特征... 随着数据量的增加,特征选择已经成为机器学习和数据挖掘领域的研究热点,提出一种基于最近最远邻的特征选择算法。一个数据点与其最近的邻点属于同一集群,与最远的邻点属于不同的集群,通过计算最近最远邻的特征距离可以得到一种判断特征重要性的指标;在此基础上运用互信息方法去除了特征之间的冗余;同时引入了Gradient boosting方法进行模型参数调优,提高了分类准确性。在UCI数据集上进行分类预测,结果表明该算法能够找到较优的特征子集,分类准确性得到一定提升。 展开更多
关键词 特征选择 最近最远邻 互信息 梯度下降
下载PDF
基于邻域互信息的高维时序数据特征选择 被引量:2
2
作者 杨璇 马建敏 赵曼君 《计算机工程》 CAS CSCD 北大核心 2023年第7期135-142,149,共9页
特征选择作为一种数据预处理方法,主要目的是消除冗余和不相关属性,保留性能显著的属性,从而提高模型精度且降低计算复杂度。传统的特征选择方法多基于截面数据,对于实际生活中大量存在的高维时序数据的研究较少。现有特征选择算法并未... 特征选择作为一种数据预处理方法,主要目的是消除冗余和不相关属性,保留性能显著的属性,从而提高模型精度且降低计算复杂度。传统的特征选择方法多基于截面数据,对于实际生活中大量存在的高维时序数据的研究较少。现有特征选择算法并未考虑属性间相互依赖的影响,导致分类性能下降。为此,提出基于邻域互信息的高维时序数据特征选择方法。构建时序信息系统,提出时序邻域关系,并引入该关系下的时序邻域熵、时序邻域联合熵、时序邻域互信息等信息度量。在最近最远邻特征选择算法(算法1)中引入高维时序数据,定义属性重要度,以确定分类性能较优的特征,通过引入累计重要度贡献率控制特征选择规模。设计最近最远邻邻域互信息特征选择算法(算法2),根据阈值得到分类能力强的初始特征集,进一步由时序邻域互信息定义属性冗余度,去除初始特征集中重要度最低、依赖程度最大的属性,得到最终特征子集。在UCR数据集上的实验结果表明,相比原始数据和所提算法1,所提算法2在最佳取值范围和分类精度上分别平均提升13.69%和6.70%,对于处理高维时序数据的特征选择具有一定的有效性和优越性。 展开更多
关键词 高维时序数据 粗糙集 邻域关系 邻域互信息 最近最远邻 特征选择
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部