期刊文献+

大规模交易数据库的一种有效聚类算法(英文) 被引量:17

An Effective Clustering Algorithm in Large Transaction Databases
下载PDF
导出
摘要 研究大规模交易数据库的聚类问题 ,提出了一种二次聚类算法—— CATD.该算法首先将数据库划分成若干分区 ,在每个分区内利用层次聚类算法进行局部聚类 ,把交易初步划分成若干亚聚类 ,亚聚类的个数由聚类间的距离参数控制 .然后对所有的亚聚类进行全局聚类 ,同时识别出噪声 .由于采用了分区方法和聚类的支持向量表示法 ,该算法只需扫描一次数据库 ,聚类过程在内存中进行 ,因此能处理大规模的数据库 . Clustering of transactions can find potential useful patterns to improve the product profit. In this paper, a two step clustering algorithm——CATD is proposed, applicable in large transaction databases. First, the database is divided into partitions in which transactions are partially clustered into a number of subclusters. A hierarchical clustering algorithm is used to control the distance between these subclusters. In the global clustering, a k medoids clustering algorithm is performed on the subclusters to get a set of k global clusters and identify noise. The algorithm is feasible for large databases because it only scans the original databases once and the clustering process can be performed in main memory due to the partitioning scheme and the support vector representative of subclusters.
出处 《软件学报》 EI CSCD 北大核心 2001年第4期475-484,共10页 Journal of Software
关键词 数据挖掘 层次聚类 大规模交易数据库 聚类算法 data mining clustering single linkage
  • 相关文献

参考文献5

  • 1Lang S D,Proc SPIE Data Mining Knowledge Discovery:Theory Toolsand Technology …,1999年,31页
  • 2Aggarwal C C,Proc the ACMSIGMOD Int Conference on Management of Data,1999年,407页
  • 3Han E,Bulletin IEEE Computer Society Technical Committee Data Engineering,1998年,21卷,1期,15页
  • 4Zhang T,Proc the ACMSIGMOD Int Conference on Management of Data,1996年,103页
  • 5Cheung D W,Distributed and Parallel Databases

同被引文献155

引证文献17

二级引证文献127

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部