摘要
在数据挖掘过程中,由于决策树在分析阶段存在单一递进关系,会导致数据的分析效率不高。针对这一问题,文章提出了基于hadoop平台的数据挖掘算法,并展开了相关实证研究。首先,采用广度优先策略对数据集挖掘算法决策树展开设计,将节点之间的最小加权欧氏距离作为划分基准,利用hadoop平台中的MapReduce程序实现对决策树节点分枝操作的并行处理,以此建立决策树的层级关系,实现对待处理数据集的逐层分析。然后,对数据挖掘算法的Map函数展开设计,以待分析数据键值对与分类基准参量之间的关系实现对数据的分类挖掘。测试结果表明,该算法的运算效率和加速比均处于较高的水平,能够满足海量数据的处理需求。
出处
《广西广播电视大学学报》
2022年第6期24-28,共5页
Journal of Guangxi Open University
基金
2022年度广西高校中青年教师科研基础能力提升项目“基于Hadoop的计算机类专业课程云平台设计与实现”(编号:2022KY1436)。