期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于MapReduce和Spark的大数据主动学习比较研究 被引量:6
1
作者 翟俊海 齐家兴 +3 位作者 沈矗 宋丹丹 王谟瀚 田石 《计算机工程与科学》 CSCD 北大核心 2019年第10期1715-1722,共8页
在我们以前的工作中,提出了基于MapReduce的大数据主动学习算法。在本文中,将这一算法移植到Spark环境,提出了基于Spark的大数据主动学习算法,并对基于MapReduce和Spark的2种大数据主动学习算法从运行时间、文件数目、同步数目和内存耗... 在我们以前的工作中,提出了基于MapReduce的大数据主动学习算法。在本文中,将这一算法移植到Spark环境,提出了基于Spark的大数据主动学习算法,并对基于MapReduce和Spark的2种大数据主动学习算法从运行时间、文件数目、同步数目和内存耗费4个方面进行了比较研究,得出了一些有价值的结论,这些结论将为相关研究人员提供很好的帮助。 展开更多
关键词 大数据 机器学习 主动学习 样例选择 开源框架
下载PDF
基于MapReduce和Spark的大数据模糊K-means算法比较 被引量:2
2
作者 翟俊海 田石 +2 位作者 张素芳 王谟瀚 宋丹丹 《河北大学学报(自然科学版)》 CAS 北大核心 2020年第4期433-440,共8页
从原理和实验2方面对基于MapReduce和Spark的大数据模糊K-均值算法进行分析比较,并对2种大数据开源平台的优缺点进行了总结.由于模糊K-均值算法是一种迭代算法,需要对部分数据进行重复操作以得到最终聚类结果,因此主要从算法执行时间、... 从原理和实验2方面对基于MapReduce和Spark的大数据模糊K-均值算法进行分析比较,并对2种大数据开源平台的优缺点进行了总结.由于模糊K-均值算法是一种迭代算法,需要对部分数据进行重复操作以得到最终聚类结果,因此主要从算法执行时间、同步次数、文件数目、容错性能、资源消耗这5方面进行比较,得出的结论对从事大数据研究的人员具有较高的参考价值. 展开更多
关键词 大数据 机器学习 聚类算法 模糊聚类算法 迭代算法
下载PDF
基于MapReduce和Spark的大规模压缩模糊K-近邻算法 被引量:3
3
作者 王谟瀚 翟俊海 齐家兴 《计算机工程》 CAS CSCD 北大核心 2020年第11期139-147,共9页
压缩模糊K-近邻(CFKNN)算法仅适用于中小数据环境,且其样例选择采用静态机制,导致算法不能对阈值进行动态调整从而选出最优样例。为此,对CFKNN算法进行改进,将其扩展到大规模数据环境,提出分别基于MapReduce和Spark的2种大规模压缩模糊K... 压缩模糊K-近邻(CFKNN)算法仅适用于中小数据环境,且其样例选择采用静态机制,导致算法不能对阈值进行动态调整从而选出最优样例。为此,对CFKNN算法进行改进,将其扩展到大规模数据环境,提出分别基于MapReduce和Spark的2种大规模压缩模糊K-近邻算法。在样例选择阈值设置方面,引入动态机制,使得所选样例更具代表性。在具有7个数据节点的大数据平台上进行实验,结果表明,与CFKNN算法相比,所提2种算法具有更高的分类精度和加速比。2个平台相比,MapReduce产生的中间文件数目多于Spark,而Spark在运行时间和同步次数上优于MapReduce。 展开更多
关键词 MapReduce平台 Spark平台 模糊K-近邻 样例选择 动态机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部