期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于弹性分布数据集的海量空间数据密度聚类 被引量:5
1
作者 李璐明 蒋新华 廖律超 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第8期116-124,共9页
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并... 为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能. 展开更多
关键词 空间数据 聚类算法 弹性分布式数据 SPARK
下载PDF
基于大数据处理技术的AIS应用研究 被引量:7
2
作者 吕荣 《海军工程大学学报》 CAS 北大核心 2017年第4期98-102,112,共6页
为了能够实时处理海量AIS数据并从中提取所需的信息,以供后续的数据挖掘和规律提取,重点研究了两种海量AIS处理技术:利用分布式存储构架结合Matlab软件的MDCS工具箱进行AIS数据的处理和分析;利用弹性数据集构建分布式数据库进行AIS数据... 为了能够实时处理海量AIS数据并从中提取所需的信息,以供后续的数据挖掘和规律提取,重点研究了两种海量AIS处理技术:利用分布式存储构架结合Matlab软件的MDCS工具箱进行AIS数据的处理和分析;利用弹性数据集构建分布式数据库进行AIS数据的实时查询和分析。在此基础上,通过全球AIS数据分析了全球船舶密度情况,并通过军舰AIS信号分析了军舰的行为特征和规律。以上应用的测试结果验证了海量AIS数据处理技术。 展开更多
关键词 AIS数据 数据 分布式存储结构 弹性数据集
下载PDF
基于Spark的大数据混合计算模型 被引量:56
3
作者 胡俊 胡贤德 程家兴 《计算机系统应用》 2015年第4期214-218,共5页
现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用.混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几... 现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用.混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几乎所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)、以及图计算(Graph X).Spark提供了一个强大的内存计算引擎,实现了优异的计算性能,同时还保持与Hadoop平台的兼容性.因此,随着系统的不断稳定和成熟,Spark有望成为与Hadoop共存的新一代大数据处理系统和平台.本文详细研究和分析了Spark生态系统,建立了基于Spark平台的混合计算模型架构,并说明通过spark生态系统可以有效地满足大数据混合计算模式的应用. 展开更多
关键词 数据 混合计算模式 SPARK 弹性分布数据
下载PDF
大数据处理技术在风电机组齿轮箱故障诊断与预警中的应用 被引量:64
4
作者 张少敏 毛冬 王保义 《电力系统自动化》 EI CSCD 北大核心 2016年第14期129-134,共6页
风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大数据时难以在保证精度情况下进行快速处理,故提出了结合Storm实时流数据处理和Spark内存批处理技术的风电机组在线故障... 风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大数据时难以在保证精度情况下进行快速处理,故提出了结合Storm实时流数据处理和Spark内存批处理技术的风电机组在线故障诊断与预警模型。以齿轮箱故障诊断与预警为例阐释该模型,引入了Storm处理状态监测数据流,设计了流数据处理的Topology结构;引入Spark,利用弹性分布式数据集(RDD)编程模型实现了朴素贝叶斯(NB)算法和反向传播(BP)算法对设备状态信息进行故障诊断与预测。实验结果显示,该故障诊断与预测方法在保证精度的前提下具有较好的加速比,也证明了该故障诊断与预警模型的有效性和可行性。 展开更多
关键词 风电机组 故障诊断 故障预警 弹性分布式数据 内存批处理 数据处理
下载PDF
Sp-IEclat:一种大数据并行关联规则挖掘算法 被引量:20
5
作者 李成严 辛雪 +1 位作者 赵帅 冯世祥 《哈尔滨理工大学学报》 CAS 北大核心 2021年第4期109-118,共10页
针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计... 针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计算的Spark框架,减少磁盘输入输出降低I/O负载,使用位图运算降低交集的时间代价并减少CPU占用,采用前缀划分的剪枝技术减少求交集运算的数据量,降低运算时间。使用mushroom数据集和webdocs数据集在两种大数据平台下实验,结果表明,Sp-IEclat算法的时间效率优于MapReduce框架下的Eclat算法及Spark框架下的FP-Growth算法和Eclat算法。从对集群的性能监控得到的数值表明,同Spark框架下的FP-Growth算法和Eclat算法相比,Sp-IEclat算法的CPU占用和I/O集群负载都较小。 展开更多
关键词 数据 关联规则挖掘 频繁项 Spark弹性分布式数据 MAPREDUCE框架
下载PDF
Spark大数据计算平台 被引量:3
6
作者 姜学军 武枫 黄海新 《电子世界》 2018年第15期82-82,84,共2页
随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程... 随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程模型不仅操作单一,抽象层次较低难以上手,而且延时高,难以支持交互式数据处理和实时数据处理,加之其中间结果需存入HDFS对于迭代数据处理性能较差。Spark作为一个新兴的大数据梳理的引擎,除了提供了包括Map Reduce在内的几十个算子,还提供了一个集群的分布式内存抽象,避免频繁使用IO操作并大大提高迭代速度。同时在现实世界大数据应用复杂多样的背景下,Spark丰富的生态圈使得Spark可以轻易的适用于各种场景。 展开更多
关键词 数据 SPARK 弹性分布式数据 Spark生态圈
下载PDF
基于RDDs的分布式聚类集成算法 被引量:2
7
作者 王韬 杨燕 +1 位作者 滕飞 冯晨菲 《小型微型计算机系统》 CSCD 北大核心 2016年第7期1434-1439,共6页
在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resil... 在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDDs)的分布式聚类集成算法(Dis CE).该算法首先设计一个基于RDDs的分布式邻接表,解决关联数据在分布式环境中的表示和存储;其次利用分布式的共识函数模型,综合几个海量基聚类结果并用分布式邻接表表示;最后运用改进的分布式近邻传播算法(MDAP),划分分布式邻;接表为最终的聚类结果.实验结果表明,新提出的算法对数据规模有很好的适应性,在有效提高聚类结果质量的同时可大幅减少运行时间. 展开更多
关键词 聚类 分布式计算 弹性分布式数据
下载PDF
大数据处理平台比较与分析 被引量:8
8
作者 何海林 皮建勇 《微型机与应用》 2015年第11期7-9,17,共4页
虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念... 虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念与设计思想,然后介绍了Spark的基本概念与思想,并且着重介绍了弹性分布式数据集RDD,并通过实验证明和分析对比了Hadoop与Spark。 展开更多
关键词 HADOOP MAP REDUCE HDFS SPARK 弹性分布式数据
下载PDF
大数据处理技术在风电机组状态监测中的应用 被引量:12
9
作者 梁涛 许琰 +1 位作者 李燕超 杨改文 《水力发电》 北大核心 2019年第8期107-110,125,共5页
随着风电场规模的不断扩大扩大,风电机组状态监测流数据呈指数增长,而电力系统要求对生产、管理、运营能够实时监控。为保证海量监测流数据处理的实时性,掌握风电机组的运行状态,设计了结合大数据处理技术的风电机组在线状态监测模型。... 随着风电场规模的不断扩大扩大,风电机组状态监测流数据呈指数增长,而电力系统要求对生产、管理、运营能够实时监控。为保证海量监测流数据处理的实时性,掌握风电机组的运行状态,设计了结合大数据处理技术的风电机组在线状态监测模型。根据状态监测数据的特点,引入了大数据处理技术中的Spark和Storm。实验结果显示,该状态监测模型有着较好的数据吞吐能力和加速比,也证明了该模型的有效性和可行性。 展开更多
关键词 内存批处理 数据处理 风电机组 状态监测 弹性分布式数据
下载PDF
超大规模栅格数据管理系统的设计与实现
10
作者 张江东 朱江 +2 位作者 苏望发 张玉华 李健 《测绘科学与工程》 2021年第3期60-64,共5页
本文基于HDFS分布式文件系统和Spark分布式分析框架,首先,构建了超大规模栅格敎据管理系统,实现了不切片动态渲染分布式栅格地图服务,并采用移动计算到数据的策略和多级缓存机制,极大提高了动态渲染性能;然后,设计了栅格分布式分析数据... 本文基于HDFS分布式文件系统和Spark分布式分析框架,首先,构建了超大规模栅格敎据管理系统,实现了不切片动态渲染分布式栅格地图服务,并采用移动计算到数据的策略和多级缓存机制,极大提高了动态渲染性能;然后,设计了栅格分布式分析数据模型RasterRDD,并利用Spark框架多节点分布式计算能力,大幅提升了栅格分析效率;最后,通过发布全国D0M和DEM栅格分布式地图服务,进行动态渲染和坡度分析性能验证,能够满足超大规模栅格数据的高效浏览、存储和分析。 展开更多
关键词 HDFS SPARK 弹性分布式数据 动态渲染 分布式栅格分析
下载PDF
并行计算框架Spark的自适应缓存管理策略 被引量:19
11
作者 卞琛 于炯 +1 位作者 英昌甜 修位蓉 《电子学报》 EI CAS CSCD 北大核心 2017年第2期278-284,共7页
并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选... 并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选择算法(Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG(Directed Acyclic Graph)结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明:我们的策略提高了Spark的任务执行效率,并使内存资源得到有效利用. 展开更多
关键词 并行计算 缓存管理策略 SPARK 弹性分布式数据
下载PDF
SparkDE:一种基于RDD云计算模型的并行差分进化算法 被引量:5
12
作者 谭旭杰 邓长寿 +3 位作者 董小刚 袁斯昊 吴志健 彭虎 《计算机科学》 CSCD 北大核心 2016年第9期116-119,139,共5页
云计算MapReduce并行编程模型广泛应用于数据密集型应用领域,基于该模型的开源平台Hadoop在大数据领域获得了成功应用。然而,对于计算密集型任务,特别是迭代运算,频繁启动Map和Reduce过程将导致负载过大,影响计算效率。弹性分布式数据集... 云计算MapReduce并行编程模型广泛应用于数据密集型应用领域,基于该模型的开源平台Hadoop在大数据领域获得了成功应用。然而,对于计算密集型任务,特别是迭代运算,频繁启动Map和Reduce过程将导致负载过大,影响计算效率。弹性分布式数据集(RDD)是一种基于内存的集群计算模型,有效地支持迭代运算,能够克服负载过大的问题。因此提出基于RDD模型的并行差分进化算法SparkDE。SparkDE首先将整个种群划分为若干个独立岛,然后将一个岛对应RDD中的一个分区,每个岛在RDD的一个分区中独立进化指定代数后,利用迁移算子在岛之间交换信息。利用标准测试问题对SparkDE、基于MapReduce模型的MRDE和基本DE进行对比实验研究。实验结果表明SparkDE求解精度高,计算速度快,加速效果明显,可以作为云计算平台的下一代优化器。 展开更多
关键词 并行差分进化算法 岛模型 弹性分布式数据 转换操作 控制操作
下载PDF
一种基于内存计算的电力用户聚类分析方法 被引量:7
13
作者 王德文 孙志伟 《智能系统学报》 CSCD 北大核心 2015年第4期569-576,共8页
随着智能电表与采集终端采集的用电数据迅猛增长,传统数据分析方法已经不能满足大数据环境下智能用电行为分析的需要。鉴于K-means算法具有计算效率高、容易并行化等特点,采用弹性分布式数据集与并行内存计算框架对其进行改进与并行化,... 随着智能电表与采集终端采集的用电数据迅猛增长,传统数据分析方法已经不能满足大数据环境下智能用电行为分析的需要。鉴于K-means算法具有计算效率高、容易并行化等特点,采用弹性分布式数据集与并行内存计算框架对其进行改进与并行化,减少作业的运行与输入输出操作时间,提高聚类分析的处理能力。对用电测量数据进行预处理构建实验数据集,实验结果表明本方法对电力用户聚类分析的准确率高于单机K-means方法,其处理速度和能力明显优于单机和基于Map Reduce并行计算框架的聚类方法,并对数据的增长具有较好的适应性。 展开更多
关键词 数据 智能用电 弹性分布式数据 内存计算 聚类分析
下载PDF
云环境下求解大规模优化问题的协同差分进化算法 被引量:1
14
作者 谭旭杰 邓长寿 +2 位作者 吴志健 彭虎 朱鹊桥 《智能系统学报》 CSCD 北大核心 2018年第2期243-253,共11页
差分进化是一种求解连续优化问题的高效算法。然而差分进化算法求解大规模优化问题时,随着问题维数的增加,算法的性能下降,且搜索时间呈指数上升。针对此问题,本文提出了一种新的基于Spark的合作协同差分进化算法(SparkDECC)。SparkDEC... 差分进化是一种求解连续优化问题的高效算法。然而差分进化算法求解大规模优化问题时,随着问题维数的增加,算法的性能下降,且搜索时间呈指数上升。针对此问题,本文提出了一种新的基于Spark的合作协同差分进化算法(SparkDECC)。SparkDECC采用分治策略,首先通过随机分组方法将高维优化问题分解成多个低维子问题,然后利用Spark的弹性分布式数据模型,对每个子问题并行求解,最后利用协同机制得到高维问题的完整解。通过在13个高维测试函数上进行的对比实验和分析,实验结果表明算法加速明显且可扩展性好,验证了SparkDECC的有效性和适用性。 展开更多
关键词 差分进化 大规模优化 协同进化 弹性分布式数据 云计算
下载PDF
Spark中一种高效RDD自主缓存替换策略研究 被引量:4
15
作者 魏赟 丁宇琛 《计算机应用研究》 CSCD 北大核心 2020年第10期3043-3047,共5页
由于并行计算框架Spark缓存替换算法的粗糙性,LRU(least recently used)算法并未考虑RDD的重复使用导致易把高重用数据块替换出内存且作业执行效率较低等问题。通过优化权重模型和改进替换策略,提出了一种高效RDD自主缓存替换策略(effic... 由于并行计算框架Spark缓存替换算法的粗糙性,LRU(least recently used)算法并未考虑RDD的重复使用导致易把高重用数据块替换出内存且作业执行效率较低等问题。通过优化权重模型和改进替换策略,提出了一种高效RDD自主缓存替换策略(efficient RDD automatic cache,ERAC),包括高重用自主缓存算法和缓存替换分级算法,可实现高效RDD的自主缓存和缓存目标的分级替换。最后利用SNAP(Stanford Network Analysis Project)提供的标准数据集将ERAC和LRU、RA(register allocation)等算法进行了对比实验,结果显示ERAC算法能够有效提高Spark的内存利用率和任务执行效率。 展开更多
关键词 SPARK 弹性分布式数据 缓存替换 内存资源利用
下载PDF
基于Spark的近地表速度模型快速层析反演 被引量:5
16
作者 陈金焕 《石油物探》 CSCD 北大核心 2022年第1期146-155,共10页
近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近... 近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近地表速度模型层析反演方法,采用分布式内存管理技术将迭代中重复计算的数据持久化至内存中,提高程序运行效率。同时,为了解决共享存储中随着节点规模扩大而产生网络I/O堵塞的瓶颈问题,在分布式存储环境下组织弹性分布式数据集(RDD),设计基本规约单位为深度方向的一维反演数据,基于Spark Shuffle在规约过程中分布并行规约,利用Spark调度器在各个进程中分配任务,实现并行计算。实际数据计算结果表明:在反演结果精度不变的情况下,相对于常规MPI并行技术,该实现方法能够大幅度降低迭代过程中产生的网络I/O;当计算节点较多时,计算效率能够提高4倍以上;并行加速比呈现类线性增长趋势。 展开更多
关键词 近地表层析反演 迭代计算 Spark并行 弹性分布式数据 规约基本单元
下载PDF
Spark环境下基于SMT的分布式限界模型检测
17
作者 任胜兵 张健威 +1 位作者 吴斌 王志健 《计算机工程》 CAS CSCD 北大核心 2017年第6期19-23,29,共6页
在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布... 在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布式限界模型检测方法。将源程序的LLVM中间表示(LLVM-IR)构造为Spark内置的数据结构Pair RDD,利用MapReduce算法将Pair RDD转化为表示验证条件的弹性分布式数据集(VCs RDD),VCs RDD转化为SMT-LIB并输入SMT求解器进行验证。实验结果表明,与传统串行检测方法相比,该方法提高了验证过程中的限界深度和验证结果的正确率,并且对于复杂度较高的程序在限界相同的情况下其验证速度也有所提升。 展开更多
关键词 软件验证 限界模型检测 弹性分布式数据 可满足性模理论求解器 Spark框架
下载PDF
基于RDD的分布式粒子群优化算法 被引量:4
18
作者 程磊生 吴志健 +3 位作者 彭虎 吴双可 邓长寿 王则林 《小型微型计算机系统》 CSCD 北大核心 2016年第11期2542-2546,共5页
在演化计算领域,粒子群优化算法具有易实现、收敛快、调参少等优点.但是随着问题规模的增大,粒子群优化算法易陷入求解精度不高、耗时过长的窘态,因此本文提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDD)的分布式粒... 在演化计算领域,粒子群优化算法具有易实现、收敛快、调参少等优点.但是随着问题规模的增大,粒子群优化算法易陷入求解精度不高、耗时过长的窘态,因此本文提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDD)的分布式粒子群优化算法.该算法采用岛模型将种群分解为若干个岛屿,即子种群,然后使用RDD并行数据结构将整个种群并行化,使得每个岛屿对应RDD中的一个分区,借助RDD的分区并行,实现了粒子群优化算法在分布式平台上的并行.最后,对包括单峰函数和多峰函数在内的11个标准测试函数,将该算法与多种改进的PSO算法进行了比较实验与分析,结果表明该算法求解精度高且加速效果明显. 展开更多
关键词 粒子群优化 弹性分布式数据 岛模型 并行计算
下载PDF
Spark平台下关联规则算法的优化实现 被引量:4
19
作者 梁瑷云 袁丁 +1 位作者 严清 刘小久 《计算机工程与设计》 北大核心 2018年第12期3692-3699,共8页
利用Spark平台的高速计算能力,将传统的关联规则算法移植到Spark平台上,虽然一定程度上提高了该算法的运行效率,但该算法本身存在的系统I/O负载量大、存储开销大等问题依然存在。为此,提出一种基于矩阵的并行化优化算法Apriori_MC_SP。... 利用Spark平台的高速计算能力,将传统的关联规则算法移植到Spark平台上,虽然一定程度上提高了该算法的运行效率,但该算法本身存在的系统I/O负载量大、存储开销大等问题依然存在。为此,提出一种基于矩阵的并行化优化算法Apriori_MC_SP。引入矩阵概念减少事务数据库的扫描次数,充分利用Spark内存计算的弹性分布式内存数据集对象,存储事务布尔矩阵以及频繁项集。相较于传统的Apriori算法,该算法减少了事务数据库的访问次数,简化了Apriori算法的"自连接"以及"剪枝"过程。实验结果表明,提出方案在保证输出结果不变的情况下,加快了关联挖掘的执行效率。 展开更多
关键词 Spark平台 APRIORI算法 并行化 布尔矩阵 弹性分布式内存数据
下载PDF
并行计算框架Spark中一种新的RDD分区权重缓存替换算法 被引量:8
20
作者 刘恒 谭良 《小型微型计算机系统》 CSCD 北大核心 2018年第10期2279-2284,共6页
并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重... 并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重值计算不准确,考虑因素不全面,度量方法不够细致,影响了缓存的命中率和作业执行的效率.提出一种新的RDD分区的权重缓存替换算法——WCSRP.为了使RDD分区权重值的计算更加准确,WCSRP不仅综合考虑RDD的计算代价、使用次数、分区的大小和生命周期四大因素对权重的影响,而且还增加考虑了Task执行时Locality Level这个因素,并对以上五个因素进行了量化计算.实验结果表明WCSRP算法让RDD分区权重值的计算更准确,提高了内存资源利用率和作业执行效率. 展开更多
关键词 SPARK 弹性分布式数据 缓存替换策略 并行计算 RDD缓存
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部