-
题名一种基于Hash函数抽样的数据流聚类算法
被引量:3
- 1
-
-
作者
张驹
黄汉永
肖杰
-
机构
中南大学信息科学国内与工程学院
-
出处
《计算机系统应用》
2009年第3期73-75,共3页
-
文摘
近几年来由于数据流应用的大量涌现,基于数据流的数据挖掘算法已成为重要的研究课题,而现有的数据流聚类算法CIustream算法存在效率低,对大数据集适应性差等严重不足,本文提出了一种基于Hash函数抽样的数据流聚类算法。算法采用等时间跨度滑动窗口的思想,对每个窗口内的数据首先用Hash函数进行抽样,抽样后的数据先保存在存储池中,然后分析样本数据的变化情况,再利用PAM算法得到最终的聚类结果。从对真实数据集的实验结果上来看,算法具有良好的可行性和有效性,且在大规模数据处理的情况下,效率远高于Clustream算法。
-
关键词
数据流聚类
抽样
HASH函数
滑动窗口
存储池
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-