期刊文献+

一种基于Hash函数抽样的数据流聚类算法 被引量:3

A DataStream Clustering Algorithm Based on Hash Sampling
下载PDF
导出
摘要 近几年来由于数据流应用的大量涌现,基于数据流的数据挖掘算法已成为重要的研究课题,而现有的数据流聚类算法CIustream算法存在效率低,对大数据集适应性差等严重不足,本文提出了一种基于Hash函数抽样的数据流聚类算法。算法采用等时间跨度滑动窗口的思想,对每个窗口内的数据首先用Hash函数进行抽样,抽样后的数据先保存在存储池中,然后分析样本数据的变化情况,再利用PAM算法得到最终的聚类结果。从对真实数据集的实验结果上来看,算法具有良好的可行性和有效性,且在大规模数据处理的情况下,效率远高于Clustream算法。
出处 《计算机系统应用》 2009年第3期73-75,共3页 Computer Systems & Applications
  • 相关文献

参考文献5

二级参考文献38

  • 1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量:161
  • 2王伟平,李建中,张冬冬,郭龙江.数据流上周期更新滑动窗口的连接算法[J].哈尔滨工业大学学报,2005,37(6):756-759. 被引量:6
  • 3Golab L,Ozsu MT.Issues in data stream management.SIGMOD Record,2003,32(2):5-14.
  • 4Babcock B,Babu S,Datar M,Motwani R,Widom J.Models and issues in data stream systems.In:Proc.of the 21st ACM SIGMOD-SIGACT-SIGART Symp.on Principles of Database Systems.2002.1-16.
  • 5Barbará D.Requirements for clustering data streams.ACM SIGKDD Explorations Newsletter,2003,3(2):23-27.
  • 6Aggarwal C,Han J,Wang J,Yu PS.A framework for clustering evolving data streams.In:VLDB 2003.2003.81-92.
  • 7Guha S,Mishra N,Motwani R,O'Callaghan L.Clustering data streams.In:FOCS 2000.2000.359-366.
  • 8O'Callaghan L,Mishra N,Meyerson A,Guha S.Streaming-Data algorithms for high-quality clustering.In:ICDE Conf.2002.685-704.
  • 9Zhang T,Ramakrishnan R,Livny M.BIRCH:An efficient data clustering method for very large databases.In:SIGMOD'96.1996.103-114.
  • 10Hah J,Kamber M.Data Mining-Concepts and Techniques.Beijing:Higher Education Press,Morgan Kaufmann Publishers,2001.

共引文献99

同被引文献54

引证文献3

二级引证文献15

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部