期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
最小支持度变化时分布式数据库中频繁项目集更新
1
作者 吉根林 赵斌 《小型微型计算机系统》 CSCD 北大核心 2005年第7期1233-1236,共4页
讨论分布式数据库系统中最小支持度变化时频繁项目集如何高效更新问题,提出了一种基于最小支持度变化的局部频繁项目集的更新算法ULFS和全局频繁项目集的更新算法UGFS.该算法能够充分利用已挖掘的结果,并且产生较少数量的候选频繁项目集... 讨论分布式数据库系统中最小支持度变化时频繁项目集如何高效更新问题,提出了一种基于最小支持度变化的局部频繁项目集的更新算法ULFS和全局频繁项目集的更新算法UGFS.该算法能够充分利用已挖掘的结果,并且产生较少数量的候选频繁项目集,在求解全局频繁项目集过程中,候选局部频繁项目集支持数的通信量为O(n).将文章提出的算法用Java加以实现,并对算法性能进行了研究.实验结果表明这些算法是可行、有效的,并且具有较快的速度. 展开更多
关键词 频繁项目 关联规则 频繁项目更新 分布式数据挖掘 KDD
下载PDF
基于RDDs的分布式聚类集成算法 被引量:2
2
作者 王韬 杨燕 +1 位作者 滕飞 冯晨菲 《小型微型计算机系统》 CSCD 北大核心 2016年第7期1434-1439,共6页
在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resil... 在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDDs)的分布式聚类集成算法(Dis CE).该算法首先设计一个基于RDDs的分布式邻接表,解决关联数据在分布式环境中的表示和存储;其次利用分布式的共识函数模型,综合几个海量基聚类结果并用分布式邻接表表示;最后运用改进的分布式近邻传播算法(MDAP),划分分布式邻;接表为最终的聚类结果.实验结果表明,新提出的算法对数据规模有很好的适应性,在有效提高聚类结果质量的同时可大幅减少运行时间. 展开更多
关键词 聚类 分布式计算 弹性分布式数据集
下载PDF
基于弹性分布数据集的海量空间数据密度聚类 被引量:5
3
作者 李璐明 蒋新华 廖律超 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第8期116-124,共9页
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并... 为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能. 展开更多
关键词 空间数据 聚类算法 弹性分布式数据集 SPARK
下载PDF
Spark环境下基于SMT的分布式限界模型检测
4
作者 任胜兵 张健威 +1 位作者 吴斌 王志健 《计算机工程》 CAS CSCD 北大核心 2017年第6期19-23,29,共6页
在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布... 在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布式限界模型检测方法。将源程序的LLVM中间表示(LLVM-IR)构造为Spark内置的数据结构Pair RDD,利用MapReduce算法将Pair RDD转化为表示验证条件的弹性分布式数据集(VCs RDD),VCs RDD转化为SMT-LIB并输入SMT求解器进行验证。实验结果表明,与传统串行检测方法相比,该方法提高了验证过程中的限界深度和验证结果的正确率,并且对于复杂度较高的程序在限界相同的情况下其验证速度也有所提升。 展开更多
关键词 软件验证 限界模型检测 弹性分布式数据集 可满足性模理论求解器 Spark框架
下载PDF
基于RDD的分布式粒子群优化算法 被引量:4
5
作者 程磊生 吴志健 +3 位作者 彭虎 吴双可 邓长寿 王则林 《小型微型计算机系统》 CSCD 北大核心 2016年第11期2542-2546,共5页
在演化计算领域,粒子群优化算法具有易实现、收敛快、调参少等优点.但是随着问题规模的增大,粒子群优化算法易陷入求解精度不高、耗时过长的窘态,因此本文提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDD)的分布式粒... 在演化计算领域,粒子群优化算法具有易实现、收敛快、调参少等优点.但是随着问题规模的增大,粒子群优化算法易陷入求解精度不高、耗时过长的窘态,因此本文提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDD)的分布式粒子群优化算法.该算法采用岛模型将种群分解为若干个岛屿,即子种群,然后使用RDD并行数据结构将整个种群并行化,使得每个岛屿对应RDD中的一个分区,借助RDD的分区并行,实现了粒子群优化算法在分布式平台上的并行.最后,对包括单峰函数和多峰函数在内的11个标准测试函数,将该算法与多种改进的PSO算法进行了比较实验与分析,结果表明该算法求解精度高且加速效果明显. 展开更多
关键词 粒子群优化 弹性分布式数据集 岛模型 并行计算
下载PDF
大数据处理技术在风电机组齿轮箱故障诊断与预警中的应用 被引量:64
6
作者 张少敏 毛冬 王保义 《电力系统自动化》 EI CSCD 北大核心 2016年第14期129-134,共6页
风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大数据时难以在保证精度情况下进行快速处理,故提出了结合Storm实时流数据处理和Spark内存批处理技术的风电机组在线故障... 风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大数据时难以在保证精度情况下进行快速处理,故提出了结合Storm实时流数据处理和Spark内存批处理技术的风电机组在线故障诊断与预警模型。以齿轮箱故障诊断与预警为例阐释该模型,引入了Storm处理状态监测数据流,设计了流数据处理的Topology结构;引入Spark,利用弹性分布式数据集(RDD)编程模型实现了朴素贝叶斯(NB)算法和反向传播(BP)算法对设备状态信息进行故障诊断与预测。实验结果显示,该故障诊断与预测方法在保证精度的前提下具有较好的加速比,也证明了该故障诊断与预警模型的有效性和可行性。 展开更多
关键词 风电机组 故障诊断 故障预警 弹性分布式数据集 内存批处理 数据处理
下载PDF
Sp-IEclat:一种大数据并行关联规则挖掘算法 被引量:20
7
作者 李成严 辛雪 +1 位作者 赵帅 冯世祥 《哈尔滨理工大学学报》 CAS 北大核心 2021年第4期109-118,共10页
针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计... 针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计算的Spark框架,减少磁盘输入输出降低I/O负载,使用位图运算降低交集的时间代价并减少CPU占用,采用前缀划分的剪枝技术减少求交集运算的数据量,降低运算时间。使用mushroom数据集和webdocs数据集在两种大数据平台下实验,结果表明,Sp-IEclat算法的时间效率优于MapReduce框架下的Eclat算法及Spark框架下的FP-Growth算法和Eclat算法。从对集群的性能监控得到的数值表明,同Spark框架下的FP-Growth算法和Eclat算法相比,Sp-IEclat算法的CPU占用和I/O集群负载都较小。 展开更多
关键词 数据 关联规则挖掘 频繁项 Spark弹性分布式数据集 MAPREDUCE框架
下载PDF
分布式全局最大频繁项集更新挖掘算法 被引量:2
8
作者 杨君锐 杨莉 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第12期85-88,106,共5页
提出了针对数据水平分布的分布式数据集下的全局最大频繁项集更新挖掘算法(UDMFI),用于解决当最小支持度阈值发生变化时全局最大频繁项集的更新挖掘问题.通过提出的带项目头表的频繁模式树(HFP-Tree)来存储数据,然后根据最小支持度阈值... 提出了针对数据水平分布的分布式数据集下的全局最大频繁项集更新挖掘算法(UDMFI),用于解决当最小支持度阈值发生变化时全局最大频繁项集的更新挖掘问题.通过提出的带项目头表的频繁模式树(HFP-Tree)来存储数据,然后根据最小支持度阈值变小时,原最大频繁项集的集合中的元素一定是新最大频繁项集的集合中某些元素的子集的特性,以及最小支持度阈值变大时,原最大频繁项集中的一些最大频繁项集将可能不再是新最大频繁项集的集合中的最大频繁项集的特性,充分利用已挖掘的结果,从而减少挖掘过程中的费用.实验结果表明该算法具有较好的效率. 展开更多
关键词 数据挖掘 分布式数据集 数据存储 最大频繁项 更新挖掘
原文传递
Spark大数据计算平台 被引量:3
9
作者 姜学军 武枫 黄海新 《电子世界》 2018年第15期82-82,84,共2页
随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程... 随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程模型不仅操作单一,抽象层次较低难以上手,而且延时高,难以支持交互式数据处理和实时数据处理,加之其中间结果需存入HDFS对于迭代数据处理性能较差。Spark作为一个新兴的大数据梳理的引擎,除了提供了包括Map Reduce在内的几十个算子,还提供了一个集群的分布式内存抽象,避免频繁使用IO操作并大大提高迭代速度。同时在现实世界大数据应用复杂多样的背景下,Spark丰富的生态圈使得Spark可以轻易的适用于各种场景。 展开更多
关键词 数据 SPARK 弹性分布式数据集 Spark生态圈
下载PDF
盾构隧道监测数据三维可视化研究 被引量:4
10
作者 周钊 赵学亮 +1 位作者 韩天然 陶津 《地下空间与工程学报》 CSCD 北大核心 2021年第S02期892-901,共10页
现阶段,一些新技术如光纤监测技术、DIC技术等在工程结构健康监测上广泛使用,这些新技术可以获得分布式数据,数据量大,包含的信息量也大,但新技术的应用使得传统的数据呈现方式不能充分直观地表达出数据所包含的信息。本文应用科学计算... 现阶段,一些新技术如光纤监测技术、DIC技术等在工程结构健康监测上广泛使用,这些新技术可以获得分布式数据,数据量大,包含的信息量也大,但新技术的应用使得传统的数据呈现方式不能充分直观地表达出数据所包含的信息。本文应用科学计算可视化理念,完成了盾构隧道监测数据的三维可视化研究,使得监测数据与所监测的实体隧道在空间上高度结合。利用数据驱动盾构隧道管片姿态和位置变化实现实际状态的三维可视化呈现;利用实际变形状态结合颜色映射的方式实现监测数据的三维可视化呈现;实现了从不同维度和尺度呈现盾构隧道监测数据所包含的信息。最后,利用南京某地铁隧道的光纤监测数据完成可视化呈现展示,证明了三维可视化研究的可行性和有效性。 展开更多
关键词 分布式数据集 盾构隧道 三维可视化 BIM
原文传递
大数据处理平台比较与分析 被引量:8
11
作者 何海林 皮建勇 《微型机与应用》 2015年第11期7-9,17,共4页
虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念... 虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念与设计思想,然后介绍了Spark的基本概念与思想,并且着重介绍了弹性分布式数据集RDD,并通过实验证明和分析对比了Hadoop与Spark。 展开更多
关键词 HADOOP MAP REDUCE HDFS SPARK 弹性分布式数据集
下载PDF
大数据处理技术在风电机组状态监测中的应用 被引量:12
12
作者 梁涛 许琰 +1 位作者 李燕超 杨改文 《水力发电》 北大核心 2019年第8期107-110,125,共5页
随着风电场规模的不断扩大扩大,风电机组状态监测流数据呈指数增长,而电力系统要求对生产、管理、运营能够实时监控。为保证海量监测流数据处理的实时性,掌握风电机组的运行状态,设计了结合大数据处理技术的风电机组在线状态监测模型。... 随着风电场规模的不断扩大扩大,风电机组状态监测流数据呈指数增长,而电力系统要求对生产、管理、运营能够实时监控。为保证海量监测流数据处理的实时性,掌握风电机组的运行状态,设计了结合大数据处理技术的风电机组在线状态监测模型。根据状态监测数据的特点,引入了大数据处理技术中的Spark和Storm。实验结果显示,该状态监测模型有着较好的数据吞吐能力和加速比,也证明了该模型的有效性和可行性。 展开更多
关键词 内存批处理 数据处理 风电机组 状态监测 弹性分布式数据集
下载PDF
超大规模栅格数据管理系统的设计与实现
13
作者 张江东 朱江 +2 位作者 苏望发 张玉华 李健 《测绘科学与工程》 2021年第3期60-64,共5页
本文基于HDFS分布式文件系统和Spark分布式分析框架,首先,构建了超大规模栅格敎据管理系统,实现了不切片动态渲染分布式栅格地图服务,并采用移动计算到数据的策略和多级缓存机制,极大提高了动态渲染性能;然后,设计了栅格分布式分析数据... 本文基于HDFS分布式文件系统和Spark分布式分析框架,首先,构建了超大规模栅格敎据管理系统,实现了不切片动态渲染分布式栅格地图服务,并采用移动计算到数据的策略和多级缓存机制,极大提高了动态渲染性能;然后,设计了栅格分布式分析数据模型RasterRDD,并利用Spark框架多节点分布式计算能力,大幅提升了栅格分析效率;最后,通过发布全国D0M和DEM栅格分布式地图服务,进行动态渲染和坡度分析性能验证,能够满足超大规模栅格数据的高效浏览、存储和分析。 展开更多
关键词 HDFS SPARK 弹性分布式数据集 动态渲染 分布式栅格分析
下载PDF
并行计算框架Spark的自适应缓存管理策略 被引量:19
14
作者 卞琛 于炯 +1 位作者 英昌甜 修位蓉 《电子学报》 EI CAS CSCD 北大核心 2017年第2期278-284,共7页
并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选... 并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选择算法(Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG(Directed Acyclic Graph)结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明:我们的策略提高了Spark的任务执行效率,并使内存资源得到有效利用. 展开更多
关键词 并行计算 缓存管理策略 SPARK 弹性分布式数据集
下载PDF
SparkDE:一种基于RDD云计算模型的并行差分进化算法 被引量:5
15
作者 谭旭杰 邓长寿 +3 位作者 董小刚 袁斯昊 吴志健 彭虎 《计算机科学》 CSCD 北大核心 2016年第9期116-119,139,共5页
云计算MapReduce并行编程模型广泛应用于数据密集型应用领域,基于该模型的开源平台Hadoop在大数据领域获得了成功应用。然而,对于计算密集型任务,特别是迭代运算,频繁启动Map和Reduce过程将导致负载过大,影响计算效率。弹性分布式数据集... 云计算MapReduce并行编程模型广泛应用于数据密集型应用领域,基于该模型的开源平台Hadoop在大数据领域获得了成功应用。然而,对于计算密集型任务,特别是迭代运算,频繁启动Map和Reduce过程将导致负载过大,影响计算效率。弹性分布式数据集(RDD)是一种基于内存的集群计算模型,有效地支持迭代运算,能够克服负载过大的问题。因此提出基于RDD模型的并行差分进化算法SparkDE。SparkDE首先将整个种群划分为若干个独立岛,然后将一个岛对应RDD中的一个分区,每个岛在RDD的一个分区中独立进化指定代数后,利用迁移算子在岛之间交换信息。利用标准测试问题对SparkDE、基于MapReduce模型的MRDE和基本DE进行对比实验研究。实验结果表明SparkDE求解精度高,计算速度快,加速效果明显,可以作为云计算平台的下一代优化器。 展开更多
关键词 并行差分进化算法 岛模型 弹性分布式数据集 转换操作 控制操作
下载PDF
一种基于内存计算的电力用户聚类分析方法 被引量:7
16
作者 王德文 孙志伟 《智能系统学报》 CSCD 北大核心 2015年第4期569-576,共8页
随着智能电表与采集终端采集的用电数据迅猛增长,传统数据分析方法已经不能满足大数据环境下智能用电行为分析的需要。鉴于K-means算法具有计算效率高、容易并行化等特点,采用弹性分布式数据集与并行内存计算框架对其进行改进与并行化,... 随着智能电表与采集终端采集的用电数据迅猛增长,传统数据分析方法已经不能满足大数据环境下智能用电行为分析的需要。鉴于K-means算法具有计算效率高、容易并行化等特点,采用弹性分布式数据集与并行内存计算框架对其进行改进与并行化,减少作业的运行与输入输出操作时间,提高聚类分析的处理能力。对用电测量数据进行预处理构建实验数据集,实验结果表明本方法对电力用户聚类分析的准确率高于单机K-means方法,其处理速度和能力明显优于单机和基于Map Reduce并行计算框架的聚类方法,并对数据的增长具有较好的适应性。 展开更多
关键词 数据 智能用电 弹性分布式数据集 内存计算 聚类分析
下载PDF
云环境下求解大规模优化问题的协同差分进化算法 被引量:1
17
作者 谭旭杰 邓长寿 +2 位作者 吴志健 彭虎 朱鹊桥 《智能系统学报》 CSCD 北大核心 2018年第2期243-253,共11页
差分进化是一种求解连续优化问题的高效算法。然而差分进化算法求解大规模优化问题时,随着问题维数的增加,算法的性能下降,且搜索时间呈指数上升。针对此问题,本文提出了一种新的基于Spark的合作协同差分进化算法(SparkDECC)。SparkDEC... 差分进化是一种求解连续优化问题的高效算法。然而差分进化算法求解大规模优化问题时,随着问题维数的增加,算法的性能下降,且搜索时间呈指数上升。针对此问题,本文提出了一种新的基于Spark的合作协同差分进化算法(SparkDECC)。SparkDECC采用分治策略,首先通过随机分组方法将高维优化问题分解成多个低维子问题,然后利用Spark的弹性分布式数据模型,对每个子问题并行求解,最后利用协同机制得到高维问题的完整解。通过在13个高维测试函数上进行的对比实验和分析,实验结果表明算法加速明显且可扩展性好,验证了SparkDECC的有效性和适用性。 展开更多
关键词 差分进化 大规模优化 协同进化 弹性分布式数据集 云计算
下载PDF
基于Spark的近地表速度模型快速层析反演 被引量:5
18
作者 陈金焕 《石油物探》 CSCD 北大核心 2022年第1期146-155,共10页
近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近... 近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近地表速度模型层析反演方法,采用分布式内存管理技术将迭代中重复计算的数据持久化至内存中,提高程序运行效率。同时,为了解决共享存储中随着节点规模扩大而产生网络I/O堵塞的瓶颈问题,在分布式存储环境下组织弹性分布式数据集(RDD),设计基本规约单位为深度方向的一维反演数据,基于Spark Shuffle在规约过程中分布并行规约,利用Spark调度器在各个进程中分配任务,实现并行计算。实际数据计算结果表明:在反演结果精度不变的情况下,相对于常规MPI并行技术,该实现方法能够大幅度降低迭代过程中产生的网络I/O;当计算节点较多时,计算效率能够提高4倍以上;并行加速比呈现类线性增长趋势。 展开更多
关键词 近地表层析反演 迭代计算 Spark并行 弹性分布式数据集 规约基本单元
下载PDF
Spark中一种高效RDD自主缓存替换策略研究 被引量:4
19
作者 魏赟 丁宇琛 《计算机应用研究》 CSCD 北大核心 2020年第10期3043-3047,共5页
由于并行计算框架Spark缓存替换算法的粗糙性,LRU(least recently used)算法并未考虑RDD的重复使用导致易把高重用数据块替换出内存且作业执行效率较低等问题。通过优化权重模型和改进替换策略,提出了一种高效RDD自主缓存替换策略(effic... 由于并行计算框架Spark缓存替换算法的粗糙性,LRU(least recently used)算法并未考虑RDD的重复使用导致易把高重用数据块替换出内存且作业执行效率较低等问题。通过优化权重模型和改进替换策略,提出了一种高效RDD自主缓存替换策略(efficient RDD automatic cache,ERAC),包括高重用自主缓存算法和缓存替换分级算法,可实现高效RDD的自主缓存和缓存目标的分级替换。最后利用SNAP(Stanford Network Analysis Project)提供的标准数据集将ERAC和LRU、RA(register allocation)等算法进行了对比实验,结果显示ERAC算法能够有效提高Spark的内存利用率和任务执行效率。 展开更多
关键词 SPARK 弹性分布式数据集 缓存替换 内存资源利用
下载PDF
Spark平台下基于聚类挖掘的影视资源智能推荐 被引量:3
20
作者 张敏 程鹏翔 《信息技术》 2021年第9期30-33,38,共5页
为了从海量的网络影视资源中快速准确地向用户推荐其感兴趣的视频,提出了一种Spark平台下基于邻近传播(AP)聚类的智能推荐方案。数据存储采用了分布式文件系统,并在弹性分布式数据集中采用AP聚类进行资源实时推荐,加快聚类速度。此外,... 为了从海量的网络影视资源中快速准确地向用户推荐其感兴趣的视频,提出了一种Spark平台下基于邻近传播(AP)聚类的智能推荐方案。数据存储采用了分布式文件系统,并在弹性分布式数据集中采用AP聚类进行资源实时推荐,加快聚类速度。此外,将明可夫斯基(Minkowski)相似性度量引入到AP聚类中,替换原有的欧氏距离度量来构建相似度,以提高其聚类精度。在常用电影数据集MovieLens上进行实验验证。结果表明,Spark平台有效提升了聚类计算的效率。同时,相比于AP聚类和K-均值聚类算法,改进AP聚类的推荐准确率更高。 展开更多
关键词 智能推荐 邻近传播聚类 Spark架构 分布式数据集 相似性度量
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部