大规模交易数据库的一种有效聚类算法(英文) 被引量：17

An Effective Clustering Algorithm in Large Transaction Databases

下载PDF

导出

摘要研究大规模交易数据库的聚类问题 ,提出了一种二次聚类算法—— CATD.该算法首先将数据库划分成若干分区 ,在每个分区内利用层次聚类算法进行局部聚类 ,把交易初步划分成若干亚聚类 ,亚聚类的个数由聚类间的距离参数控制 .然后对所有的亚聚类进行全局聚类 ,同时识别出噪声 .由于采用了分区方法和聚类的支持向量表示法 ,该算法只需扫描一次数据库 ,聚类过程在内存中进行 ,因此能处理大规模的数据库 . Clustering of transactions can find potential useful patterns to improve the product profit. In this paper, a two step clustering algorithm——CATD is proposed, applicable in large transaction databases. First, the database is divided into partitions in which transactions are partially clustered into a number of subclusters. A hierarchical clustering algorithm is used to control the distance between these subclusters. In the global clustering, a k medoids clustering algorithm is performed on the subclusters to get a set of k global clusters and identify noise. The algorithm is feasible for large databases because it only scans the original databases once and the clustering process can be performed in main memory due to the partitioning scheme and the support vector representative of subclusters.

作者陈宁陈安周龙骧 CHEN Ning

机构地区中国科学院数学与系统科学研究院北京航空航天大学管理学院 Economics and Mathematics Institute

出处《软件学报》 EI CSCD 北大核心 2001年第4期475-484,共10页 Journal of Software

关键词数据挖掘层次聚类大规模交易数据库聚类算法 data mining clustering single linkage

分类号 TP311.132 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Lang S D，Proc SPIE Data Mining Knowledge Discovery:Theory Toolsand Technology …，1999年，31页
2Aggarwal C C，Proc the ACMSIGMOD Int Conference on Management of Data，1999年，407页
3Han E，Bulletin IEEE Computer Society Technical Committee Data Engineering，1998年，21卷，1期，15页
4Zhang T，Proc the ACMSIGMOD Int Conference on Management of Data，1996年，103页
5Cheung D W，Distributed and Parallel Databases

同被引文献155

1王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
2冯兴杰,黄亚楼.增量式CURE聚类算法研究[J].小型微型计算机系统,2004,25(10):1847-1849. 被引量：9
3周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
4崔杰,任家东.分布式关联规则挖掘中的聚类分区算法[J].计算机工程,2004,30(23):67-68. 被引量：2
5袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
6田启明,王丽珍,尹群.基于网格距离的聚类算法的设计、实现和应用[J].计算机应用,2005,25(2):294-296. 被引量：12
7陈云飞,刘玉树,钱越英,赵基海.一种基于密度的启发性群体智能聚类算法[J].北京理工大学学报,2005,25(1):45-48. 被引量：4
8陈梅兰.基于网格和密度聚类算法研究[J].计算机与现代化,2005(2):1-5. 被引量：9
9陈燕,耿国华,郑建国.一种改进的基于密度的聚类算法[J].微机发展,2005,15(3):17-19. 被引量：13
10万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,26(1):177-179. 被引量：16

引证文献17

1Ai-BoSong,Mao-XianZhao,Zuo-PengLiang,Yi-ShengDong,Jun-ZhouLuo.Discovering User Profiles for Web Personalized Recommendation[J].Journal of Computer Science & Technology,2004,19(3):320-328. 被引量：2
2李玉鑑.分层子树合并聚类算法[J].北京工业大学学报,2006,32(5):442-446. 被引量：4
3李玉鑑.基于最小树切割的自适应聚类方法[J].北京工业大学学报,2007,33(3):331-336. 被引量：2
4宋殿霞,王艳,邹光辉.空间数据挖掘聚类算法研究[J].滨州学院学报,2006,22(6):43-48.
5沈洁,赵雷,杨季文,李榕.一种基于划分的层次聚类算法[J].计算机工程与应用,2007,43(31):175-177. 被引量：13
6周迎春,骆嘉伟.基于分层的平衡迭代规约聚类分析算法研究[J].科学技术与工程,2008,8(10):2579-2583. 被引量：1
7胡学钢,张圆圆.基于已发现序列模式的序列聚类研究[J].合肥工业大学学报（自然科学版）,2008,31(1):9-12.
8王晓燕.浅析数据挖掘技术[J].办公自动化（综合月刊）,2009(5):38-39. 被引量：1
9孟建良,程伟想,牛为华.基于网格距离的高精度聚类算法[J].计算机应用与软件,2009,26(6):262-264. 被引量：4
10庞春江,程伟想,牛为华.基于优化网格的最小生成树聚类算法[J].计算机应用与软件,2009,26(8):262-264.

二级引证文献127

1陆杨.浅析数据挖掘技术及应用[J].电脑知识与技术（过刊）,2007(14):511-512. 被引量：2
2李赟.数据挖掘中关联规则和决策树的应用[J].科技信息,2008(24):399-400.
3陈巧云,张乐天,蒋平.管窥城乡统筹背景下的义务教育研究现状[J].教育学术月刊,2014(3):40-47. 被引量：1
4刘晓庆.浅析数据挖掘的研究现状及其应用[J].电脑知识与技术,2006(9):23-24. 被引量：5
5李玉鑑.基于最小树切割的自适应聚类方法[J].北京工业大学学报,2007,33(3):331-336. 被引量：2
6薛祥,孙宏伟,沈滨,于玮,张权益.岩土工程中的数据挖掘和知识发现探讨[J].工程勘察,2007,35(10):11-16. 被引量：5
7冯兴杰,丁怡心.启发式多阈值BIRCH研究[J].中国民航大学学报,2007,25(5):30-32. 被引量：1
8陶翠霞.浅谈数据挖掘及其发展状况[J].科技信息,2008(4):72-72. 被引量：9
9李晓宁,李晓峰.空间聚类在精准施肥中应用的研究[J].长春师范学院学报（自然科学版）,2008,27(5):33-34.
10张志艳,刘万军,迟金成.改进的视频网格结构模型[J].计算机工程与设计,2008,29(21):5638-5640. 被引量：3

1马玉林,姬舒平,李小俚.基于智能技术的计算机辅助公差设计[J].高技术通讯,1999,9(3):57-60.
2樊广佺,马丽平.一种改进的基于Delaunay三角网的聚类算法[J].计算机工程与科学,2016,38(3):585-589. 被引量：3
3吉根林,凌霄汉,杨明.一种基于集成学习的分布式聚类算法[J].东南大学学报（自然科学版）,2007,37(4):585-588. 被引量：1
4李婷,张继周.基于分区的关联规则Apriori算法研究[J].科技视界,2015(28):28-28.
5黄发良.信息网络的社区发现及其应用研究[J].复杂系统与复杂性科学,2010,7(1):64-74. 被引量：19
6朱绘丽,吕春红.计算机辅助公差设计(CATD)中粗糙集理论及应用[J].机械设计与制造,2010(3):87-89. 被引量：2
7张永梅,韩焱,张建华.一种有效聚类算法的研究和实现[J].计算机应用,2005,25(7):1573-1576. 被引量：2
8周伟.Energy efficient clustering algorithm based on neighbors for wireless sensor networks[J].Journal of Shanghai University(English Edition),2011,15(2):150-153. 被引量：2
9侯君,李千目,张宏.分布式拒绝服务的研究综述[J].南京晓庄学院学报,2006,22(6):76-81.
10叶飞跃,王建东,庄毅,吕宗磊.一种挖掘频繁模式的数据库划分新方法[J].系统工程与电子技术,2004,26(11):1666-1668. 被引量：3

软件学报

2001年第4期

浏览历史

内容加载中请稍等...

大规模交易数据库的一种有效聚类算法(英文) 被引量：17

参考文献5

同被引文献155

引证文献17

二级引证文献127

相关作者

相关机构

相关主题

浏览历史