一种面向聚类的加权特征选择算法被引量：1

Weighted feature selection for clustering

下载PDF

导出

摘要针对面向聚类的特征选择算法效率和效果无法兼顾,并且对高维数据适用度不高的问题,提出了一种基于邻域分析的加权特征选择算法ENFSA。该算法首先基于信息熵构建候选特征集,降低加权特征选择的候选特征维度,在此基础上采用邻域分析法评估特征冗余度和相关性,并根据评估结果更新特征子集和权值向量,不断迭代,直至特征权值向量趋于稳定。在10种典型数据集上的测试结果表明,与传统的特征选择算法相比,新的算法特征约简效率较好,能够明显提高数据集聚类效果,同时在特征维度较高的数据集上依然表现出很好的效果。 Aiming at the problem that the efficiency and performance of traditional feature selection are not compatible and it cannot be well applied to high-dimensional data, this paper proposed a neighborhood analysis based weighted feature selection algorithm（ENFSA）. ENFSA created a candidate feature set based on information gain to reduce the number of dimensions. Then it assessed the redundancy and relevance of features based on neighborhood analysis and used them to update feature set and weight vector. This assessment and update process would be repeated until optimal result was obtained. Experimental resuits on 10 typical datasets show that this method has good efficiency and performance, and it do better on high-dimensional dataset than other algorithms.

作者刘帅杨英杰刘武越

机构地区解放军信息工程大学密码工程学院解放军信息工程大学指挥军官基础教育学院

出处《计算机应用研究》 CSCD 北大核心 2015年第12期3596-3599,共4页 Application Research of Computers

基金国家"863"计划资助项目(2012AA012704) 郑州市科技领军人才项目(131PLJRC644)

关键词加权特征选择聚类信息熵邻域分析特征权值向量 weighted feature selection clustering information gain neighborhood analysis feature weight vector

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1Agrawal R, Gehrkeg J, Gunopulos D, et al. Automatic subspace clustering of high dimensional data for data mining applications[M] . [S. l.] :ACM Press, 1998:94-105.
2淦文燕,李家福,李德毅.高维聚类中的一种特征筛选方法[J].解放军理工大学学报（自然科学版）,2003,4(6):1-5. 被引量：9
3朱红萍,巩青歌,雷战波.基于遗传算法的入侵检测特征选择[J].计算机应用研究,2012,29(4):1417-1419. 被引量：27
4Davies D L, Bouldin D W. A cluster separation measure[J] . IEEE Trans on Pattern Analysis and Machine Intelligence, 1979(2):224-227.
5蒋盛益,王连喜.基于特征相关性的特征选择[J].计算机工程与应用,2010,46(20):153-156. 被引量：16
6Witten I H, Frank E, Hall M A. Data mining:practical machine learning tools and techniques[M] . [S. l.] :Morgan Kaufmann, 2005.
7Donoho D, Jin Jiashun. Higher criticism thresholding:optimal feature selection when useful features are rare and weak[J] . Proceedings of the National Academy of Sciences, 2008, 105(39):14790-14795.
8Dash M, Koot P W. Feature selection for clustering[C] //Encyclopedia of Database Systems. [S. l.] :Springer, 2009:1119-1125.
9谭台哲,叶青,尚鹏.基于局部重构的无监督特征选择方法[J].计算机应用研究,2014,31(9):2828-2831. 被引量：5
10刘赫,张相洪,刘大有,李燕军,尹立军.一种基于最大边缘相关的特征选择方法[J].计算机研究与发展,2012,49(2):354-360. 被引量：9

二级参考文献95

1刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
2Yu L,Liu H.Efficient feature selection via analysis of relevance and redundancy[J].Journal of Machine Learning Research,2004:1205-1224.
3Zhang D,Chen S,Zhou Z.Constraint score:A new filter method for feature selection with pair-wise constraints[J].Pattern Recognition,2008,41:1440-1451.
4Kohavi G,John H.Wrappers for feature subset selection[J].Artificial Intelligence,1997:273-324.
5Guyon I,Elisseeff A.An introduction to variable and feature selection[J].Journal of Machine Learning Research,2003:1157-1182.
6Swiniarski W,Skovaon A.Rough set methods in feature selection and recognition[J].Pattern Recognition Letters,2003:833-849.
7Last M,Kandel A,Maimon O.Information-theoretic algorithm for feature selection[J].Pattern Recognition Letters,2001:799-811.
8Dash M,Liu H,Yao J.Dimensionality reduction of unsupervised data[C] //Proc 9th IEEE Int'l Conf Tools with Artificial Intelligence,1997:532-539.
9Mitra P,Murthy C A,Pal S K.Unsupervised feature selection using feature similarity[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002:301-312.
10Covoes T F,Hruschka E R.A cluster-based feature selection approach[C] //LNCS 5572:HAIS2009,2009:69-176.

共引文献135

1郏宣耀.基于相似性二次度量的高维数据聚类算法[J].计算机应用,2005,25(B12):176-177. 被引量：3
2马连浩,杨鑫华,李荣键.面向论坛FAQ文档的轻量级聚类算法[J].微型电脑应用,2008,24(3):48-50.
3马连浩,杨鑫华,李荣键.面向FAQ文档的轻量级聚类算法[J].图书情报工作,2008,52(1):117-119.
4刘嘉,骆瑞玲,李明.基于一种新的特征提取的语音辨识[J].科学技术与工程,2009,9(2):460-464. 被引量：1
5陈源,曾德胜,陈海宇,谢冲.属性集质量评估模式[J].计算机系统应用,2009,18(8):47-49.
6骆瑞玲,李明.基于MRSVM的说话人辨识方法[J].计算机工程与设计,2009,30(19):4483-4486.
7缪志敏,胡谷雨,赵陆文,陈彦德.一种基于支持向量数据描述的半监督学习算法[J].解放军理工大学学报（自然科学版）,2010,11(1):31-36. 被引量：1
8李霞,王连喜,蒋盛益.面向不平衡问题的集成特征选择[J].山东大学学报（工学版）,2011,41(3):7-11. 被引量：5
9于琪,蒋永平,徐杜,卢传泽.一种分层聚类方法在音乐检索中的应用[J].计算机工程与应用,2011,47(30):113-115. 被引量：1
10张平,党选举,陈皓,杨文雷.基于熵特征优选分组聚类的相似重复记录检测[J].传感器与微系统,2011,30(11):135-137. 被引量：4

同被引文献11

1朱颢东,钟勇.基于并行二进制免疫量子粒子群优化的特征选择方法[J].控制与决策,2010,25(1):53-58. 被引量：8
2孟佳娜,林鸿飞,李彦鹏.基于特征贡献度的特征选择方法在文本分类中应用[J].大连理工大学学报,2011,51(4):611-615. 被引量：9
3刘赫,张相洪,刘大有,李燕军,尹立军.一种基于最大边缘相关的特征选择方法[J].计算机研究与发展,2012,49(2):354-360. 被引量：9
4段洁,胡清华,张灵均,钱宇华,李德玉.基于邻域粗糙集的多标记分类特征选择算法[J].计算机研究与发展,2015,52(1):56-65. 被引量：109
5冀俊忠,吴金源,吴晨生,杜芳华.基于类别加权和方差统计的特征选择方法[J].北京工业大学学报,2014,40(10):1593-1602. 被引量：11
6李湘东,曹环,黄莉.基于分布偏斜训练集的特征选择方法研究[J].情报理论与实践,2015,38(4):139-144. 被引量：2
7吴树芳,徐建民,朱杰.基于互信息的话题特征选择方法研究[J].情报杂志,2015,34(4):160-164. 被引量：4
8王连喜,蒋盛益.一种基于特征聚类的特征选择方法[J].计算机应用研究,2015,32(5):1305-1308. 被引量：20
9樊小超,张重阳,邓雄伟.基于互信息的文本特征加权方法[J].计算机工程与应用,2015,51(13):145-148. 被引量：4
10黄贤英,陈红阳,刘英涛,熊李媛.一种新的微博短文本特征词选择算法[J].计算机工程与科学,2015,37(9):1761-1767. 被引量：17

引证文献1

1黄章树,叶志龙.基于改进的CHI统计方法在文本分类中的应用[J].计算机系统应用,2016,25(11):136-140. 被引量：13

二级引证文献13

1骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
2郑步青,邹红霞,王琳,王桢.网络舆情主动感知技术探析[J].兵器装备工程学报,2017,38(8):131-135. 被引量：2
3朱敏玲,吴海艋,石磊.粗糙集规则匹配算法及其在文本分类中的应用[J].计算机系统应用,2018,27(4):131-137. 被引量：1
4高宝林,周治国,杨文维,肖泽力.基于类别和改进的CHI相结合的特征选择方法[J].计算机应用研究,2018,35(6):1660-1662. 被引量：8
5赵乐,张兴旺.面向LDA主题模型的文本分类研究进展与趋势[J].计算机系统应用,2018,27(8):10-18. 被引量：8
6谢斌红,马非,潘理虎,张英俊.煤矿安全隐患信息自动分类方法[J].工矿自动化,2018,44(10):10-14. 被引量：9
7黄梦莹,张晓滨.融合CHI与信息增益的情感文本特征选择[J].西安工程大学学报,2018,32(6):713-717. 被引量：3
8胡欣杰,路川,齐斌.基于SOM神经网络的网络舆情信息分类模型[J].兵器装备工程学报,2019,40(3):108-111. 被引量：8
9姚春华,罗强,胥小波,高弘毅.一种网络文本信息情感分类的方法[J].通信技术,2019,52(11):2757-2760. 被引量：1
10林川,武乐飞,戴家佳.基于类别关键词权重的煤矿安全隐患分类方法[J].贵州大学学报（自然科学版）,2019,36(6):53-57. 被引量：5

1张文胜,解骞,钟瑾,刘俊平,郝青,郭广利.基于八叉树邻域分析的光线跟踪加速算法[J].图学学报,2015,36(3):339-344. 被引量：16
2刘臻,鲁学亮,WU Jun.基于空间分布特征的行为模式自动分类方法[J].计算机应用,2011,31(A01):112-115. 被引量：1
3董健.基于加权特征空间信息视觉词典的图像检索模型[J].计算机应用,2014,34(4):1172-1176. 被引量：10
4宋琳琳,王相海.一种基于HVS加权颜色特征的图像检索算法[J].微电子学与计算机,2008,25(6):60-62. 被引量：7
5王科平,王小捷,钟义信.加权特征自动图像标注方法[J].北京邮电大学学报,2011,34(5):6-9. 被引量：1
6徐燕,李锦涛,王斌,孙春明,张森.文本分类中特征选择的约束研究[J].计算机研究与发展,2008,45(4):596-602. 被引量：26
7王松林,项欣光.基于压缩感知的多特征加权目标跟踪算法[J].计算机应用研究,2014,31(3):929-932. 被引量：16
8曹原,杨杰,刘瑞明.基于邻域分析TDLMS滤波器的红外小目标检测[J].红外与毫米波学报,2009,28(3):235-240. 被引量：14
9徐永兵,裴先登.红外序列图像中运动小目标的检测[J].华中科技大学学报（自然科学版）,2004,32(1):67-69. 被引量：2
10金凌霄,张国基.基于特征加权的支持向量回归机研究[J].计算机工程与应用,2007,43(6):42-44. 被引量：3

计算机应用研究

2015年第12期

浏览历史

内容加载中请稍等...

一种面向聚类的加权特征选择算法被引量：1

参考文献12

二级参考文献95

共引文献135

同被引文献11

引证文献1

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种面向聚类的加权特征选择算法 被引量：1

参考文献12

二级参考文献95

共引文献135

同被引文献11

引证文献1

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种面向聚类的加权特征选择算法被引量：1