-
题名基于最近最远邻和互信息的特征选择方法
被引量:7
- 1
-
-
作者
吴雨
刘媛华
-
机构
上海理工大学管理学院
-
出处
《计算机应用研究》
CSCD
北大核心
2017年第12期3713-3716,共4页
-
基金
国家自然科学基金资助项目(11505114)
-
文摘
随着数据量的增加,特征选择已经成为机器学习和数据挖掘领域的研究热点,提出一种基于最近最远邻的特征选择算法。一个数据点与其最近的邻点属于同一集群,与最远的邻点属于不同的集群,通过计算最近最远邻的特征距离可以得到一种判断特征重要性的指标;在此基础上运用互信息方法去除了特征之间的冗余;同时引入了Gradient boosting方法进行模型参数调优,提高了分类准确性。在UCI数据集上进行分类预测,结果表明该算法能够找到较优的特征子集,分类准确性得到一定提升。
-
关键词
特征选择
最近最远邻
互信息
梯度下降
-
Keywords
feature selection
the nearest and farthest neighbors
mutual information
gradient boosting
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于邻域互信息的高维时序数据特征选择
被引量:2
- 2
-
-
作者
杨璇
马建敏
赵曼君
-
机构
长安大学理学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第7期135-142,149,共9页
-
基金
国家自然科学基金(61772019)。
-
文摘
特征选择作为一种数据预处理方法,主要目的是消除冗余和不相关属性,保留性能显著的属性,从而提高模型精度且降低计算复杂度。传统的特征选择方法多基于截面数据,对于实际生活中大量存在的高维时序数据的研究较少。现有特征选择算法并未考虑属性间相互依赖的影响,导致分类性能下降。为此,提出基于邻域互信息的高维时序数据特征选择方法。构建时序信息系统,提出时序邻域关系,并引入该关系下的时序邻域熵、时序邻域联合熵、时序邻域互信息等信息度量。在最近最远邻特征选择算法(算法1)中引入高维时序数据,定义属性重要度,以确定分类性能较优的特征,通过引入累计重要度贡献率控制特征选择规模。设计最近最远邻邻域互信息特征选择算法(算法2),根据阈值得到分类能力强的初始特征集,进一步由时序邻域互信息定义属性冗余度,去除初始特征集中重要度最低、依赖程度最大的属性,得到最终特征子集。在UCR数据集上的实验结果表明,相比原始数据和所提算法1,所提算法2在最佳取值范围和分类精度上分别平均提升13.69%和6.70%,对于处理高维时序数据的特征选择具有一定的有效性和优越性。
-
关键词
高维时序数据
粗糙集
邻域关系
邻域互信息
最近最远邻
特征选择
-
Keywords
high-dimensional time-series data
rough set
neighborhood relationship
neighborhood mutual information
nearest and farthest neighbor
feature selection
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-