基于邻域互信息的高维时序数据特征选择被引量：2

Feature Selection of High-Dimensional Time-Series Data Based on Neighborhood Mutual Information

下载PDF

导出

摘要特征选择作为一种数据预处理方法,主要目的是消除冗余和不相关属性,保留性能显著的属性,从而提高模型精度且降低计算复杂度。传统的特征选择方法多基于截面数据,对于实际生活中大量存在的高维时序数据的研究较少。现有特征选择算法并未考虑属性间相互依赖的影响,导致分类性能下降。为此,提出基于邻域互信息的高维时序数据特征选择方法。构建时序信息系统,提出时序邻域关系,并引入该关系下的时序邻域熵、时序邻域联合熵、时序邻域互信息等信息度量。在最近最远邻特征选择算法(算法1)中引入高维时序数据,定义属性重要度,以确定分类性能较优的特征,通过引入累计重要度贡献率控制特征选择规模。设计最近最远邻邻域互信息特征选择算法(算法2),根据阈值得到分类能力强的初始特征集,进一步由时序邻域互信息定义属性冗余度,去除初始特征集中重要度最低、依赖程度最大的属性,得到最终特征子集。在UCR数据集上的实验结果表明,相比原始数据和所提算法1,所提算法2在最佳取值范围和分类精度上分别平均提升13.69%和6.70%,对于处理高维时序数据的特征选择具有一定的有效性和优越性。 As a data preprocessing method,the main aim of feature selection is to improve model accuracy and reduce computational complexity by eliminating redundant and irrelevant attributes,thereby retaining attributes with significant performance.Traditional feature selection methods are mostly based on cross-sectional data,and there is little research on large amounts of real-life high-dimensional time-series data.Existing feature selection algorithms do not consider the influence of interdependence between attributes,which results in a decrease in classification performance.Therefore,this study proposes feature selection method of high-dimensional time-series data based on neighborhood mutual information.A time-series information system is constructed to propose time-series neighborhood relationships,whereby time-series neighborhood entropy,neighborhood joint entropy,neighborhood mutual information,and other information metrics are introduced under the relationship.The nearest and farthest neighbor feature selection algorithm(algorithm 1)is introduced into high-dimensional time-series data to define attribute importance and determine the features with good classification performance.Cumulative importance contribution rate is introduced to control the scale of feature selection.The nearest and farthest neighbor mutual information feature selection algorithm(algorithm 2)is proposed,and get the initial feature set with strong classification ability according to the threshold.In addition,attribute redundancy is defined by time-series neighborhood mutual information,and the attributes with the lowest importance and the largest dependence in the initial feature set are removed to obtain the final feature subset.The experimental results on the UCR dataset show that compared to the original data and the proposed algorithm 1,the proposed algorithm 2 provides an average improvement of 13.69%and 6.70%for the optimal value range and classification accuracy evaluation indicators,respectively.The proposed method is effective and superior in processing high-dimensional time-series data for feature selection.

作者杨璇马建敏赵曼君 YANG Xuan;MA Jianmin;ZHAO Manjun(School of Science,Chang'an University,Xi'an 710064,China)

机构地区长安大学理学院

出处《计算机工程》 CAS CSCD 北大核心 2023年第7期135-142,149,共9页 Computer Engineering

基金国家自然科学基金(61772019)。

关键词高维时序数据粗糙集邻域关系邻域互信息最近最远邻特征选择 high-dimensional time-series data rough set neighborhood relationship neighborhood mutual information nearest and farthest neighbor feature selection

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1姚晟,徐风,赵鹏,纪霞.基于自适应邻域空间粗糙集模型的直觉模糊熵特征选择[J].计算机研究与发展,2018,55(4):802-814. 被引量：14
2胡清华,于达仁,谢宗霞.基于邻域粒化和粗糙逼近的数值属性约简[J].软件学报,2008,19(3):640-649. 被引量：291
3臧飞,杨沁梅.基于稀疏邻域的特征融合算法及其应用[J].计算机工程,2014,40(8):163-167. 被引量：1
4梁小慧,郭晟楠,万怀宇.基于自适应小波分解的时间序列分类方法[J].计算机工程,2022,48(4):81-88. 被引量：8

二级参考文献28

1于达仁,胡清华,鲍文.融合粗糙集和模糊聚类的连续数据知识发现[J].中国电机工程学报,2004,24(6):205-210. 被引量：70
2朱永利,吴立增,李雪玉.贝叶斯分类器与粗糙集相结合的变压器综合故障诊断[J].中国电机工程学报,2005,25(10):159-165. 被引量：82
3谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
4徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
5王永强,律方成,李和明.基于粗糙集理论和贝叶斯网络的电力变压器故障诊断方法[J].中国电机工程学报,2006,26(8):137-141. 被引量：100
6孙秋野,张化光.基于粗糙集的配电系统连续信号故障诊断方法[J].中国电机工程学报,2006,26(11):156-161. 被引量：12
7He Xiaofei,Niyogi P.Locality Preserving Projections[C]// Thrun S,Saul L K,Sch'olkopf B.Advances in Neural Information Processing Systems.Vancouver,Canada:[s.n.],2003:327-334.
8He Xiaofei,Yan Shuicheng,Hu Yuxiao,et al.Face Recognition Using Laplacianfaces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27 (3):328-340.
9Roweis S T,Sail L K.Nonlinear Dimensionality by Locally Linear Embedding[J].Science,2000,290 (5500):2323-2326.
10Saul L K,Roweis S T.Think Globally,Fit Locally:Unsupervised Learning of Low Dimensional Manifolds[J].Journal of Machine Learning Research,2003,4 (1):119-155.

共引文献310

1林耀进,白盛兴,赵红,李绍滋,胡清华.基于标签关联性的分层分类共有与固有特征选择[J].软件学报,2022,33(7):2667-2682. 被引量：6
2侯贤宇,陈玉明,吴克寿.多采样近似粒集成学习[J].南京大学学报（自然科学版）,2024,60(1):118-129.
3程凤伟,王文剑,张珍珍.面向高维小样本数据的层次子空间ReliefF特征选择算法[J].南京大学学报（自然科学版）,2023,59(6):928-936.
4孙泽金,赵荣珍.基于EEMD能量矩与邻域粗糙集的转子故障数据集分类方法[J].计算机应用研究,2020,37(2):460-464. 被引量：5
5ZHAO Rong-zhen,LIAN Jin.基于邻域粗糙集概念的一种滚动轴承特征提取方法[J].兰州理工大学学报,2019,45(6):34-39. 被引量：2
6赵佰亭,陈希军,曾庆双.广义不完备混合决策系统的知识约简[J].四川大学学报（工程科学版）,2009,41(6):177-182. 被引量：3
7梁吉业,李超伟,魏巍.基于Rough Sets的特征选择研究进展[J].山西大学学报（自然科学版）,2012,35(2):211-218. 被引量：2
8李华雄,周献中.基于0-1分辨矩阵的启发式属性约简[J].中南大学学报（自然科学版）,2009,40(S1):304-308. 被引量：2
9韩建光,惠晓峰,孙洁.遗传算法选择性集成多分类器的企业财务困境预测[J].系统工程,2010,28(8):9-15. 被引量：4
10赵勇,方宗德,王侃伟,庞辉.邻域粗糙集在轮对踏面缺陷图像特征选择的应用[J].计算机测量与控制,2008,16(11):1730-1731. 被引量：3

同被引文献27

1刘建军,赵旭,张卫东,马达夫.基于CNN(1D)-LSTM模型的电站锅炉SCR入口NOx浓度预测[J].电子测量技术,2023,46(13):59-65. 被引量：5
2张文志,曾毅夫.SCR脱硝系统烟道内流场优化[J].环境工程学报,2015,9(2):883-887. 被引量：21
3李凡,刘启和,杨国纬.变精度模糊粗糙集的一种定义[J].控制与决策,2008,23(11):1206-1210. 被引量：8
4冯磊华,桂卫华,杨锋.基于改进粒子群算法的电站锅炉NO_x排放预测控制及优化[J].中南大学学报（自然科学版）,2011,42(7):2018-2022. 被引量：12
5周洪煜,赵乾,张振华,汪正海.烟气脱硝喷氨量SA-RBF神经网络最优控制[J].控制工程,2012,19(6):947-951. 被引量：40
6罗嘉,吴乐.电站锅炉主要热工过程参数软测量技术研究进展[J].热力发电,2015,44(11):1-9. 被引量：16
7张翠珍,赵学葵.大型燃煤机组SCR脱硝系统优化[J].环境工程学报,2015,9(12):5997-6004. 被引量：21
8李聪.多粒度模糊粗糙集研究[J].数学杂志,2016,36(1):124-134. 被引量：4
9张夏苇.悲观的多覆盖模糊粗糙集[J].厦门大学学报（自然科学版）,2016,55(6):918-921. 被引量：1
10孙育红,侯玉婷,焦力刚,李尔堪.指数预测模型和Smith预估器在SCR烟气脱硝控制系统中的应用[J].热力发电,2016,45(12):114-118. 被引量：10

引证文献2

1董威,林子杰,王雅昀.基于CIFE-FOA-DELM的SCR脱硝入口NO_(x)浓度预测方法研究[J].电力科技与环保,2024,40(3):313-320.
2甘雨晴.基于依赖度的时序数据的特征选择方法[J].应用数学进展,2024,13(5):2172-2179.

1曹杏玲,孙丽萍,吴金球.应用Walker经典概念分析法界定老年人跌倒恐惧内涵[J].上海护理,2023,23(6):27-30.
2刘琢玉,黄小华,明兵,唐玲玲,胡云涛,贾清.CT纹理分析预测急性胰腺炎患者并发全身炎症反应综合征的研究[J].临床放射学杂志,2023,42(3):428-433. 被引量：1
3张苏,陈思宇,王硕,党鑫.竞争性磋商在政府采购工程中的应用探讨[J].中国政府采购,2022(12):57-62.
4应可晴.奉化方言频度副词的范围和内部分类研究[J].今古文创,2023(24):114-116.
5黄昌胜,孙国臣,龚新占.基于MSCT的计算机纹理分析技术对良恶性孤立性肺结节的鉴别诊断效能[J].中国医学工程,2023,31(4):122-125. 被引量：3
6张惠然,胡瑞,刘茜,李盛洲,张光捷,钱权,丁广太,戴东波.一种探索高熵合金相形成的端到端机器学习框架[J].Transactions of Nonferrous Metals Society of China,2023,33(7):2110-2120.
7刘玛丽,袁媛,李明东,权芯,刘炯,刘欢,舒健.MRI影像组学及临床特征联合模型预测高强度聚焦超声治疗子宫肌瘤效果[J].中国介入影像与治疗学,2023,20(7):390-394. 被引量：5
8汤卫芬,高翠芳.极值点自适应加权的动态时间规整算法[J].计算机工程,2023,49(7):150-160. 被引量：1
9黄铮,邵庭芳,梁冉,江琪,石佳景,吴炜炜.老年人社会衰弱的概念分析[J].中华护理教育,2023,20(6):752-756. 被引量：4

计算机工程

2023年第7期

浏览历史

内容加载中请稍等...

基于邻域互信息的高维时序数据特征选择被引量：2

参考文献4

二级参考文献28

共引文献310

同被引文献27

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于邻域互信息的高维时序数据特征选择 被引量：2

参考文献4

二级参考文献28

共引文献310

同被引文献27

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于邻域互信息的高维时序数据特征选择被引量：2