一种基于类别分布的增量特征选择算法被引量：1

An Algorithm of Incremental Feature Selection Based on Category Distribution

下载PDF

导出

摘要样本数量分布不平衡时,特征的分布同样会不平衡。大类别中经常出现的特征,在小类别中很少出现或者根本不出现,使得分类器被大类别所淹没,小类别的识别率很低。为此,根据数据的类别分布提出一种基于差异系数的增量特征选择算法CVIFS(Coefficient Variance-based Incremental Feature Selection),选取最具有区分能力的特征,提高小类别的识别率,使用区间估计检测概念漂移。经实验验证,该算法处理偏斜数据流时优于信息增益,具有较低的均衡误差率(Balanced Error Rate BER)。 The distribution of sample size is very uneven, and the feature distribution of sample will be un- even too. Classifier is submerged by the majority classes easily and the minority classes are hardly distinguished, because the features which often appear in the majority classes hardly appear in the minority classes or even do not occur. In this paper, the method for discovering concept drifting on imbalanced data streams and CVIFS （Coefficient Variance-based Incremental Feature Selection） algorithm are proposed according to the characteris- tics of imbalaneed classification problems. The interval estimation is used to detect concept drifting. Experimen- tal study on Moving Hyperplane dataset shows that the proposed algorithm has lower BER （Balanced Error Rate）than Information Gain on imbalaneed data streams with concept drifting.

作者石莉李敏孙慧慧

机构地区淮北师范大学计算机科学与技术学院

出处《宿州学院学报》 2014年第11期75-78,共4页 Journal of Suzhou University

基金安徽省高校自然科学研究项目"云计算环境下信息服务交互信任管理的关键问题研究"(KJ2013Z281) 淮北师范大学青年科研项目"基于类别分布的增量特征选择算法研究"(2014xq012) 淮北师范大学青年自然科学研究项目"面向云服务的交互信任模型构建与信任实体评价研究"(700693)

关键词概念漂移偏斜分布差异系数信息增益 concept drifting imbalanced distribution coefficient variance information gain

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1NiteshV. Chawla,Nathalie Japkowicz ? Aleksander Kolcz.Editorial : Special Issue on Learning from Imbalanced DataSets [J], ACM SIGKDD Exploration newsletter, 2004,6(1):1-6.
2FormanG. An extensive empirical study of feature selec-tion metrics for test classification [J]. Journal of MachineLearning Research,2003(3) : 1289-1305.
3MladenicD,Grobelnik M. Feature selection for unbalancedclass distribution and Move Bayes[C]//Proceedings of six-teenth International Conference on Machine Learning(ICML 1999). Bled Slovenia,1999:258-267.
4周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
5YangY? Pedersen J O. A Comparative Study on FeatureSelection in Text Categorization [C]//Proceedings of thefourteenth International Conference on Machine Learning(ICML 1997). Mashville Tennessee USA?1997:412-420.
6ZhengZ*Wu X,Srihari R. Feature Selection for Text Cat-egorization on Imbalanced Data[J]. ACM SIGKDD Ex-plorations newsletter, 2004 (1) : 80-89.
7Zheng Z, Srihari R. Optimally Combining Positive andNegative Features for Text Categorization[C]//Proceed-ings of the ICML,03 Workshop on Learning from Imbal-anced Data Sets. Washington DC USA,2003:1-8.
8ChenX?Michael Wasikowski. FAST: A ROC-based Fea-ture Selection Metric for Small Samples and ImbalancedData Classification Problems [ C ]//KDD 1 08. NevadaUSA, 2008:124-132.
9靖红芳,王斌,杨雅辉,徐燕.基于类别分布的特征选择框架[J].计算机研究与发展,2009,46(9):1586-1593. 被引量：18
10Wang K, Bunjira Makond * Wang K. An Improved Sur-vivability Prognosis of Breast Cancer by Using Samplingand Feature Selection Technique to Solve Imbalanced Pa-tient Classification Data[J]. BMC Medical Informaticsand Decision Making?2013 : 1-14.

二级参考文献27

1曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
2徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
3刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
4Mladenic D, Grobelnik M. Feature selection for unbalanced class distribution and Naive Bayes [C]//Proc of ICML'09. San Francisco: Morgan Kaufmann, 1999:258-267.
5Yang Y, Pedersen J O. A comparative study on feature selection in text categorization [C] // Proc of ICML'97. San Francisco: Morgan Kaufmann, 1997: 412-420.
6Yan J, Liu N, Zhang B, et al. OCFS: Optimal orthogonal centroid feature selection for text categorization [C]//Proc of SIGIR'05. New York: ACM, 2005: 122-129.
7Zheng Z, Wu X, Srihari R. Feature selection for text categorization on imbalanced data [C] //Proc of ACM SIGKDD Explorations Newsletter. New York: ACM, 2004: 80-89.
8Li S, Zong C. A new approach to feature selection for text categorization[C]//Proc of IEEE NLP-KE. Beijing: Beijing University of Posts and Telecommunications Press, 2005: 626-630.
9How B C, Narayanan K. An empirical study of feature selection for text categorization based on term weightage [C] //Proc of IEEE/WIC/ACM WI. Washington: IEEE, 2004: 599-602.
10Yang Y, Liu X. A re-examination of text categorization methods [C]// Proc of ACM SIGIR. New York: ACM, 1999:42-49.

共引文献181

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
3黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
4尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
5王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
6常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
7翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
8赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
9陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
10廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12

同被引文献11

1裴英博,刘晓霞.文本分类中改进型CHI特征选择方法的研究[J].计算机工程与应用,2011,47(4):128-130. 被引量：39
2徐闻,王斌.基于高阶累积量的核Logistic回归调制分类算法[J].太赫兹科学与电子信息学报,2013,11(2):260-265. 被引量：1
3王志朝,张天骐,万义龙,朱洪波.基于宽带聚焦矩阵和高阶累积量的OFDM信号的来波方向估计[J].计算机应用,2013,33(7):1828-1832. 被引量：7
4吴金玲.基于粗糙集离散化的多频带脑电特征选择方法的研究[J].电子设计工程,2014,22(1):4-5. 被引量：2
5周君仪,马少辉.混合数据特征选择算法及在客户流失预测中的应用[J].江苏科技大学学报（自然科学版）,2013,27(6):586-590. 被引量：1
6李胜,张培林,李兵,周云川.量子GA-PLS特征选择算法及其应用[J].量子电子学报,2014,31(2):194-201. 被引量：6
7王利琴,董永峰,顾军华.改进的精英遗传算法及其在特征选择中的应用[J].计算机工程与设计,2014,35(5):1792-1796. 被引量：7
8谢宏,周笑丽,夏斌,杨文璐,姚楠.疲劳驾驶识别中的脑电信号特征选择算法和支持向量机模型研究[J].中国生物医学工程学报,2014,31(4):482-486. 被引量：8
9史彩娟,阮秋琦,刘健,闫晓东.基于Hessian半监督特征选择的网络图像标注[J].计算机应用研究,2015,32(2):606-608. 被引量：4
10陈媛媛,王志斌,王召巴.思维进化蝙蝠算法及其在混合气体红外光谱特征选择中的应用[J].红外与激光工程,2015,44(3):845-851. 被引量：5

引证文献1

1汪滢,李昆仑,熊婷,陈炼.引入高阶累积量的数据库访问特征选择算法[J].科学技术与工程,2016,16(5):182-186.

1张凤军,刘华明,孙春华,任秉银.面向并行CAD/CAM集成的特征建模技术的研究[J].机械设计,2000,17(1):35-38. 被引量：11
2宋群,张骏,邓正宏.基于偏斜数据流分类的入侵检测方法[J].西北工业大学学报,2009,27(6):859-862. 被引量：1
3王羡欠,周燕玲.基于PowerBuilder的S-P表差异系数计算与算法实现[J].科技广场,2010(9):51-53.
4潘郑冰,戴牡红.实时数据仓库中一种改进的数据流更新算法[J].计算机工程,2014,40(10):43-46. 被引量：2
5程帅,孙俊喜,曹永刚,赵立荣.增量深度学习目标跟踪[J].光学精密工程,2015,23(4):1161-1170. 被引量：17
6王雪飞,刘珺.基于隐马可夫模型的邻近方言差异系数研究[J].计算机工程,2016,42(4):179-183.
7张晓明.S—P表分析中差异系数计算的算法优化[J].电脑与电信,2007(12):9-10. 被引量：1
8张伟,王汝传.Bloom Filters散列函数数目多阶段动态优化算法[J].电子学报,2011,39(4):877-881. 被引量：1
9彭复员,杨国良,李旭涛.基于增量特征和局部奇异性的水下图像分割法[J].华中科技大学学报（自然科学版）,2008,36(2):82-84. 被引量：1
10刘勇,马良.函数优化的蜂群算法[J].控制与决策,2012,27(6):886-890. 被引量：18

宿州学院学报

2014年第11期

浏览历史

内容加载中请稍等...

一种基于类别分布的增量特征选择算法被引量：1

参考文献12

二级参考文献27

共引文献181

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于类别分布的增量特征选择算法 被引量：1

参考文献12

二级参考文献27

共引文献181

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于类别分布的增量特征选择算法被引量：1