CABOSFV algorithm for high dimensional sparse data clustering 被引量：7

CABOSFV algorithm for high dimensional sparse data clustering

下载PDF

导出

摘要 An algorithm, Clustering Algorithm Based On Sparse Feature Vector (CABOSFV), was proposed for the high dimensional clustering of binary sparse data. This algorithm compresses the data effectively by using a tool 'Sparse Feature Vector', thus reduces the data scale enormously, and can get the clustering result with only one data scan. Both theoretical analysis and empirical tests showed that CABOSFV is of low computational complexity. The algorithm finds clusters in high dimensional large datasets efficiently and handles noise effectively. An algorithm, Clustering Algorithm Based On Sparse Feature Vector (CABOSFV),was proposed for the high dimensional clustering of binary sparse data. This algorithm compressesthe data effectively by using a tool 'Sparse Feature Vector', thus reduces the data scaleenormously, and can get the clustering result with only one data scan. Both theoretical analysis andempirical tests showed that CABOSFV is of low computational complexity. The algorithm findsclusters in high dimensional large datasets efficiently and handles noise effectively.

作者 Sen Wu Xuedong Gao Management School, University of Science and Technology Beijing, Beijing 100083, China

出处《Journal of University of Science and Technology Beijing》 CSCD 2004年第3期283-288,共6页 北京科技大学学报（英文版）

关键词数据采矿高维分散数据集聚类算法分散特征矢量 CABOSFV clustering data mining sparse high dimensionality

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Han Jiawei,Kamber Micheline.Data Mining: Concepts and Techniques[]..2001
2Agrawal R,Gehrke J,Gunopulos D,et al.Automatic subspace clustering of high dimensional data for data mining applications[].Proceedings of the ACM SIGMOD International Conference on Management of Data.1998
3Sudipto Guha,Rajeev Rastogi,Kyuseok Shim.CURE: An Efficient Clustering Algorithm for Large Databases[].Proceedings of the ACM SIGMOD International Conference on Management of Data.1998
4Ng R,Han J.Efficient and Effective Clustering Methods for Spatial Data Mining[].Proc Int Conf Very Large Data Bases (VLDB’ ).1994
5Tian Zhang,Raghu Ramakrishnan,Miron Livny.BIRCH: an efficient data clustering method for very large databases[].ACM SIGMOD Record.1996
6Wang W,Yang J,Muntz RR.STING: A statistical information grid approach to spatial data mining[].Proceedings of the rd International Conference on Very Large Data Bases.1997
7Wang Wei,,Yang Jiong,Richard Muntz.STNG+:An Approach to Active Spatial Data Mining[].th International Conference on Data Engineering.1999
8Ester M,Kriegel H P,Sander J,et al.A density-based algorithm for discovering clusters in large spatial databases[].Proceedings of the International Conference on Knowledge Discovery and Data Mining (KDD’).1996

同被引文献28

1黄兰.数据挖掘技术在图书馆工作中的应用[J].图书馆学研究,2005(7):15-17. 被引量：27
2齐红,刘大有,胡成全,卢明,赵亮.基于搜索空间划分的概念生成算法[J].软件学报,2005,16(12):2029-2035. 被引量：15
3何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16
4陈慧萍,王煜,王建东.高维数据挖掘算法的研究与进展[J].计算机工程与应用,2006,42(24):170-173. 被引量：8
5贺玲,吴玲达,蔡益朝.高维空间中数据的相似性度量[J].数学的实践与认识,2006,36(9):189-194. 被引量：20
6戈国华,肖海波,张敏.基于FCM的数据聚类分析及Matlab实现[J].福建电脑,2007,23(4):89-89. 被引量：8
7倪巍伟,陈耿,孙志挥.一种基于数据垂直划分的分布式密度聚类算法[J].计算机研究与发展,2007,44(9):1612-1617. 被引量：7
8孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1052
9苏兆品,蒋建国,夏娜,张国富.基于维数划分策略和免疫的多任务联盟并行生成算法[J].系统工程理论与实践,2008,28(1):118-123. 被引量：5
10刘希宋,喻登科,李玥.基于客户知识的客户CABOSFV聚类[J].情报杂志,2008,27(2):7-9. 被引量：3

引证文献7

1武森,冯小东,吴庆海.基于稀疏指数排序的高维数据并行聚类算法[J].系统工程理论与实践,2011,31(S2):13-18. 被引量：1
2武森,魏桂英,白尘,张桂琼.分类属性高维数据基于集合差异度的聚类算法[J].北京科技大学学报,2010,32(8):1085-1089.
3武森,叶俞飞,俞晓莉.拓展集合差异度高维数据聚类[J].计算机应用研究,2011,28(9):3253-3255.
4武森,王静,谭一松.考虑数据排序的改进CABOSFV聚类[J].计算机工程与应用,2011,47(34):127-129. 被引量：2
5武森,张文丽,黄慧敏,叶俞飞.FD-CABOSFV区间变量高维数据聚类[J].信息系统学报,2012,6(1):77-87.
6任云.基于聚类技术的图书馆读者个性化服务模型及应用[J].电脑知识与技术,2011,7(10X):7349-7350. 被引量：1
7武森,何慧霞,范岩岩.拓展差异度的高维数据聚类算法[J].计算机工程与应用,2020,56(23):38-44. 被引量：7

二级引证文献11

1郑洪清.改进的蝴蝶优化聚类算法[J].计算机系统应用,2020(10):217-221. 被引量：2
2魏玲玲,邱桃荣.一种粗关系数据结构数据排序方法[J].微电子学与计算机,2013,30(4):149-151.
3武森,王蔷,姜敏,魏青.考虑加权排序的分类数据聚类算法[J].北京科技大学学报,2013,35(8):1093-1098. 被引量：2
4王慧敏,贺兴时,牛四强.数据挖掘在高校图书馆中的应用[J].西安工程大学学报,2014,28(2):241-246. 被引量：12
5郭均鹏,王梅南,高成菊,戴晖.函数型数据的分步系统聚类算法[J].系统管理学报,2015,24(6):814-820. 被引量：6
6周燕茹.基于模糊数学的高维稀疏数据聚类统计方法设计[J].吉林化工学院学报,2021,38(9):107-111.
7周燕茹.基于模糊数学的高维稀疏数据聚类统计方法设计[J].德州学院学报,2021,37(6):60-65.
8叶丽珠,郑冬花,隋栋,吴迪.面向高维数据的人工蜂群优化密度峰值聚类[J].南京理工大学学报,2022,46(3):291-297. 被引量：3
9刘仁芬,杨凤丽,王霞.基于改进Spark技术的高维数据增量式聚类算法[J].计算机仿真,2022,39(12):383-386. 被引量：1
10王运,孙小湘,祁鑫,张天睿,陈婧.面向高渗透率新能源电网的短期负荷预测算法设计[J].电子设计工程,2023,31(6):153-157.

1杨启仁.数据挖掘中聚类算法的研究[J].牡丹江大学学报,2010,19(6):107-109. 被引量：2
2梁金刚.煤用齿辊式破碎机的现状及新发展[J].选煤技术,2001,29(3):41-43. 被引量：8
3魏兵,李亚非.基于安全聚类算法的挖掘机故障诊断研究[J].煤炭技术,2010,29(3):15-17. 被引量：1
4邓胜春,He,Zengyou,Xu,Xiaofei.Scalable classification by clustering： Hybrid can be better than Pure[J].High Technology Letters,2007,13(2):131-135.
5LUYu.Distance function selection in several clustering algorithms[J].Journal of Chongqing University,2004,3(1):47-50.
6罗仙平,周贺鹏,周跃,雷梅芬,张俊.提高某复杂铅锌矿伴生银选矿指标新工艺研究[J].矿冶工程,2011,31(3):35-39. 被引量：29
7杨洋,王义亮,杨兆建,陈雪飞.掘进机驱动轮疲劳寿命分析研究[J].煤炭技术,2015,34(6):238-240. 被引量：5
8曹兴,周辰泰,谢万知,齐学民,黄士兵.湖南某锡矿全尾砂浓密试验[J].现代矿业,2014,30(7):75-77. 被引量：2
9谭长均,王想,谭正生.基于有限元法的EBZ200掘进机后支撑疲劳分析[J].矿山机械,2014,42(5):16-20. 被引量：2
10贺玉凯.CO传感器神经网络补偿模型[J].煤矿安全,2013,44(7):44-46. 被引量：2

Journal of University of Science and Technology Beijing

2004年第3期

浏览历史

内容加载中请稍等...

CABOSFV algorithm for high dimensional sparse data clustering 被引量：7

参考文献8

同被引文献28

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史