摘要
大数据分类算法在处理海量多源异构数据时存在精度差、效率低等问题,为此提出了一种在云计算环境下基于X-means的优化聚类算法。先构建云计算框架体系,包括用户层、应用层、平台层、资源层和后台管理层;基于RF优化算法对多源异构数据集做融合预处理,降低泛化误差的同时也能实现对数据集的粗分类;基于X-means优化聚类算法计算出数据聚类数量上下限值,不但提升数据训练的效率和降低算法的复杂度,还使距离平均误差值得到较好的控制。在实验室搭建了1个master节点和5个slave节点的云框架,实验结果显示,提出的分类算法在处理海量多源异构数据集时具有更强的分类精度和抗漂移性,同时在分类效率方面也具有一定优势。
出处
《北部湾大学学报》
2024年第2期40-46,共7页
Journal of BeiBu Gulf University
基金
安徽省高校科研项目(自科类)重点项目(2022AH052795)。