基于特征选择的统计最优样本大小算法被引量：3

Statistical optimal sample size algorithm based on feature selection

下载PDF

导出

摘要针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法。该算法基于熵理论,通过构造一个基于对象间相似度的熵度量方法来评估特征重要性,然后根据设计的一种挑选特征的标准获得重要的特征子集,最后在该特征子集上执行统计最优样本大小算法。实验结果表明,改进后算法得到的样本大小抽取的样本集能够在聚类算法中得到较高的准确率,同时也较明显地降低了算法的执行时间,从而验证了改进后的算法是有效可行的。 Aiming at the low execution efficiency in statistical optimal sample size algorithm to determine sample size for sampling large datasets,especially high-dimensional datasets and the importance of each dimension for high-dimensional datasets is different,moreover,there may be redundant attributes,this paper proposed statistical optimal sample size algorithm based on feature selection. The algorithm made use of the entropy theory. It constructed an entropy measure of similarity between objects to evaluate the importance of each dimension,then obtained important feature subsets according to design a kind of evaluation standard,finally executed statistical optimal sample size algorithm in the feature subsets. Experimental results show that the improved algorithm not only can receive higher accuracy in the clustering algorithm,but also can obviously reduce the execution time of the algorithm,so the improved algorithm is efficacious and feasible.

作者邓杰钱雪忠钱恒吴秦

机构地区江南大学物联网工程学院扬州大学信息工程学院

出处《计算机应用研究》 CSCD 北大核心 2014年第12期3535-3538,3549,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61103129 61202312) 江苏省科技支撑计划资助项目(BE2009009)

关键词统计最优样本大小算法高维数据集特征选择熵聚类 statistical optimal sample size algorithm high-dimensional datasets feature selection entropy clustering

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献18

1刘弈,罗念龙.统计数据轨迹模式的聚类方法研究[J].计算机应用研究,2013,30(10):3001-3006. 被引量：1
2ZHENG Li, LI Tao. Semi-supervised hierarchical clustering[ C ]//Proc of the llth IEEE International Conference on Data Mining. [ S. 1. ] : IEEE Press,2011:982-991.
3李家成,苏一丹,覃华,吴丹.基于遗传算法的K调和均值聚类算法[J].计算机技术与发展,2013,23(9):55-58. 被引量：9
4侯薇,董红斌,印桂生.一种基于隶属度优化的演化聚类算法[J].计算机研究与发展,2013,50(3):548-558. 被引量：8
5张春阳,周继恩,钱权,蔡庆生.抽样在数据挖掘中的应用研究[J].计算机科学,2004,31(2):126-128. 被引量：11
6胡文瑜,孙志挥,吴英杰.数据挖掘取样方法研究[J].计算机研究与发展,2011,48(1):45-54. 被引量：54
7朱梅红.数据挖掘中抽样技术的应用[J].统计与决策,2007,23(16):147-150. 被引量：4
8CHEN Jian-hua, CHEN Xin-jia, A new method for adaptive sequential sampling for learning and parameter estimation [ C ]//Proc of the 19th International Symposium on Foundations of Intelligent Systems. Ber- lin : Springer, 2011:220- 229.
9PROVOST F, JENSEN D, OATES T. Efficient progressive sampling [ C ]//Proc of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 1999:23-32.
10GU Bao-hua, LIU Bing, HU Fei-fang, et al. Efficiently determining the starting sample size for progressive sampling [ C ]//Proc of the 12th European Conference on Machine Learning. Berlin: Springer, 2001 : 192-202.

二级参考文献157

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2赵恒,杨万海.一种基于调和均值的模糊聚类算法[J].电路与系统学报,2004,9(5):114-117. 被引量：3
3李存华,孙志挥,陈耿,胡云.核密度估计及其在聚类算法构造中的应用[J].计算机研究与发展,2004,41(10):1712-1719. 被引量：64
4周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
5王璐,蔡自兴.改进的快速FCM算法[J].小型微型计算机系统,2005,26(10):1774-1777. 被引量：7
6贾彩燕,陆汝钤.关联规则挖掘的取样误差量化模型和快速估计算法[J].计算机学报,2006,29(4):625-634. 被引量：7
7陈宗海,文锋,聂建斌,吴晓曙.基于节点生长k-均值聚类算法的强化学习方法[J].计算机研究与发展,2006,43(4):661-666. 被引量：13
8贺玲,吴玲达,蔡益朝.高维空间中数据的相似性度量[J].数学的实践与认识,2006,36(9):189-194. 被引量：20
9杨雪梅,董逸生,徐宏炳,刘学军,钱江波,王永利.高维数据流的在线相关性分析[J].计算机研究与发展,2006,43(10):1744-1750. 被引量：9
10王海起,王劲峰.一种基于空间邻接关系的k-means聚类改进算法[J].计算机工程,2006,32(21):50-51. 被引量：15

共引文献103

1徐德俊.数据挖掘技术在图书馆管理信息系统中的应用[J].黑龙江史志,2015(5):266-266. 被引量：6
2周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
3马光志,张耀坤.一种新的两阶段抽样算法[J].计算机工程与科学,2007,29(7):64-66. 被引量：1
4吴渝,向浩宇,刘群.一种基于网格的最近邻SVM新算法[J].重庆邮电大学学报（自然科学版）,2008,20(6):706-709. 被引量：5
5余波,朱东华,刘嵩,郑涛.密度偏差抽样技术在聚类算法中的应用研究[J].计算机科学,2009,36(2):207-209. 被引量：7
6黎娅,郭江娜.基于数据挖掘的启发式抽样方法研究[J].微计算机信息,2009,25(12):216-217. 被引量：4
7安康,韩兆洲.对统计学领域数据挖掘研究的反思[J].统计与决策,2010,26(10):4-7. 被引量：3
8谢笑盈.基于半静态分层抽样的模糊聚类分析方法的改进[J].统计与决策,2010,26(11):12-14.
9王考杰,郑雪峰,宋一丁,安丰亮.基于局部聚类的轨迹数据流偏倚采样[J].计算机科学,2011,38(5):135-137. 被引量：1
10王欣萍,孙昕,孙尧.基于BP人工神经网络模型构建电子病历系统的数据分析[J].中国组织工程研究与临床康复,2011,15(35):6592-6595. 被引量：9

同被引文献43

1蒋琰,茅宁.多元资本结构在中国企业的实证研究[J].中国工业经济,2007(1):78-85. 被引量：18
2奚国泉,蔡军,钟甫宁.人力资本驱动的公司价值[J].人口与经济,2002(S1):113-115. 被引量：1
3洪茹燕,吴晓波.国外企业智力资本研究述评[J].外国经济与管理,2005,27(10):42-48. 被引量：22
4毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
5Andrew Y N. Feature selection 11 vs. 12 regularization, and rotational invariance [ C ]//Proc of the 21st International Conference on Machine Learning. 2004 : 78- 85.
6Jain A K, Duin R P W, Mao Jianchang. Statistical pattern recognition : a review[J]. IEEE Trans on Pattern Analysis and Machine Intel- ligence,2000,22( 1 ) :4-37.
7Peng Hanchuan, Long Fuhui, Ding C. Feature selection based on mu- tual information : criteria of max-dependency, max-relevance and min- redundancy[ J]. IEEE Trans on Pattern Analysis and Machine In- telligence ,2005,2 (8) : 1226-1238.
8Kononenko I. Estimating attributes:analysis and extension of RELIEF [C]//Proc of the 7th European Conference on Machine Learning. 1994 : 171-182.
9Cpver T M,Thomas J A. Elements of information theory[ M]. 2nd ed. [ S. 1. ] : Wiley-Interscienee,2006.
10Zhou Feng,Torredf. Canonical time warping for alignment of human behavior[ C ]//Advances in Neural Information Processing Systems. 2009 : 2286 - 2294.

引证文献3

1许尧,胡学钢,李培培.一种基于组策略的过滤式特征选择算法[J].计算机应用研究,2016,33(5):1322-1326. 被引量：4
2张雪燕.基于大数据的特征趋势统计系统设计[J].现代电子技术,2018,41(22):166-169. 被引量：3
3李亦超,李沁芯,申静.高校智库智力资本获取机制模型构建及应用--基于创新驱动发展理论[J].农业图书情报学报,2022,34(2):29-39. 被引量：2

二级引证文献9

1侯日莹.吉林省高校智力的显性与隐形流失现状分析与治理对策研究[J].吉林广播电视大学学报,2023(2):59-61.
2杨文娣,曾致中.基于随机森林算法的对外汉语文本可读性评估[J].中国教育信息化,2019,25(14):89-96. 被引量：5
3叶小艳,叶小莺,周化.基于影响力社区检测与蚁群算法的特征选择[J].计算机工程与设计,2019,40(9):2684-2691. 被引量：4
4刘洋.基于大数据的图书馆借阅量预测研究[J].现代电子技术,2020,43(5):105-108. 被引量：4
5于晖.大规模分布电子档案信息融合储存系统设计[J].电子设计工程,2021,29(21):118-121. 被引量：2
6刘宁,卢人杰,喻寻,蒙雷.基于大数据分析的变电站母线电压实时监测与趋势预警系统[J].电子设计工程,2022,30(4):161-164. 被引量：7
7殷杏子,彭宁宁,詹学燕.基于持续同调的过滤式特征选择算法[J].计算机科学,2023,50(6):159-166. 被引量：1
8石晶,王春玲.智库的知识创新:内涵、层次与过程模型[J].情报资料工作,2023,44(6):53-60. 被引量：1
9杨丽丽,吴春辉,张大卫,苏娟.基于聚类分析的农业SCADA服务器预警阈值提取方法[J].农业工程学报,2017,33(S1):293-299. 被引量：4

1职为梅,范明,叶阳东.样本大小对非平衡数据分类的影响[J].微型机与应用,2010,29(19):1-3.
2武文斌,毋立芳,王晓芳,王向东.一种点相关统计特性的目标跟踪方法[J].中国科技论文,2012,7(1):28-32. 被引量：5
3李冬,何铁宁.RBF神经网络的研究[J].经济技术协作信息,2013(3):88-89.
4谭秀湖,刘国枝,王蕊.一种最优意义下的数字水印算法[J].电子器件,2007,30(5):1775-1781.
5徐燕,李锦涛,王斌,孙春明,张森.文本分类中特征选择的约束研究[J].计算机研究与发展,2008,45(4):596-602. 被引量：26
6刘凯,张春良,岳夏.基于统计最优的近场声全息理论与仿真实验[J].机械工程与自动化,2014(1):15-17. 被引量：2
7职为梅,范明.样本大小对稀有类分类的影响[J].计算机技术与发展,2011,21(5):9-12. 被引量：1
8邓传华,范通让,高峰.Hadoop下基于统计最优的资源调度算法[J].计算机应用研究,2013,30(2):417-419. 被引量：21
9赵峰.基于SVM和HOG的人脸检测算法[J].信息技术与信息化,2013(6):113-116. 被引量：6
10程峰,李德华.基于CUDA的Adaboost算法并行实现[J].计算机工程与科学,2011,33(2):118-123. 被引量：11

计算机应用研究

2014年第12期

浏览历史

内容加载中请稍等...

基于特征选择的统计最优样本大小算法被引量：3

参考文献18

二级参考文献157

共引文献103

同被引文献43

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于特征选择的统计最优样本大小算法 被引量：3

参考文献18

二级参考文献157

共引文献103

同被引文献43

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于特征选择的统计最优样本大小算法被引量：3