期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于Spark计算框架的多目标优化算法实现 被引量:1
1
作者 何昱琪 李德禹 《现代信息科技》 2021年第22期66-70,共5页
为了降低分解型算法求解大规模问题的运行时间成本,结合分解型多目标进化算法(MOEA/D)和Spark分布式计算框架的特点,提出了一个主从分布式分解型多目标进化算法(MODEA/D-RDD)。在新的方案中每个Map保存且进化一个子问题,从而通过多个Ma... 为了降低分解型算法求解大规模问题的运行时间成本,结合分解型多目标进化算法(MOEA/D)和Spark分布式计算框架的特点,提出了一个主从分布式分解型多目标进化算法(MODEA/D-RDD)。在新的方案中每个Map保存且进化一个子问题,从而通过多个Map分布式计算提高效率。测试例上的实验结果表明,在求得解集质量不明显降低的前提下,全局种群进化方案能够有效缩短求解多目标问题的计算时间。 展开更多
关键词 spark计算框架 多目标优化 MOEA/D算法
下载PDF
Spark计算框架在敏感地理信息检测中的应用研究
2
作者 严哲 周斌雄 +1 位作者 张祥燊 吴君雄 《江西测绘》 2021年第1期46-49,共4页
针对互联网地理信息涉密与安全问题,提出一种以Spark技术框架为基础的敏感地理信息检测算法,该算法与现有的检测算法相比,由于Spark算法不仅考虑了特征词与敏感词之间的直接匹配度,而且还考虑了两者之间的相似性敏感信息以及特征词在文... 针对互联网地理信息涉密与安全问题,提出一种以Spark技术框架为基础的敏感地理信息检测算法,该算法与现有的检测算法相比,由于Spark算法不仅考虑了特征词与敏感词之间的直接匹配度,而且还考虑了两者之间的相似性敏感信息以及特征词在文本中的位置属性和权值情况等对种情况,使其具有更高的准确率、召回率以及F度量值,经并行化处理后,其运行效率明显高于单机模式,同时不影响其检测精度,可大大提升数据信息的处理速度和效率,值得在地理信息安全领域推广运用。 展开更多
关键词 spark计算框架 敏感地理信息 检测算法 运行效率
原文传递
基于Spark框架和PSO优化算法的电力通信网络安全态势预测 被引量:19
3
作者 金鑫 李龙威 +2 位作者 苏国华 刘晓蕾 季佳男 《计算机科学》 CSCD 北大核心 2017年第S1期366-371,共6页
随着电力通信网络规模的不断扩大,电力通信网络不间断地产生海量通信数据。同时,对通信网络的攻击手段也在不断进化,给电力通信网络的安全造成极大威胁。针对以上问题,结合Spark大数据计算框架和PSO优化神经网络算法的优点,提出基于Spar... 随着电力通信网络规模的不断扩大,电力通信网络不间断地产生海量通信数据。同时,对通信网络的攻击手段也在不断进化,给电力通信网络的安全造成极大威胁。针对以上问题,结合Spark大数据计算框架和PSO优化神经网络算法的优点,提出基于Spark内存计算框架的并行PSO优化神经网络算法对电力通信网络的安全态势进行预测。本研究首先引入Spark计算框架,Spark框架具有内存计算以及准实时处理的特点,符合电力通信大数据处理的要求。然后提出PSO优化算法对神经网络的权值进行修正,以增加神经网络的学习效率和准确性。之后结合RDD的并行特点,提出了一种并行PSO优化神经网络算法。最后通过实验比较可以看出,基于Spark框架的PSO优化神经网络算法的准确度高,且相较于传统基于Hadoop的预测方法在处理速度上有显著提高。 展开更多
关键词 spark计算框架 粒子群算法 并行PSO优化神经网络 电力通信网络 安全态势预测
下载PDF
Spark框架下分布式K-means算法优化方法 被引量:13
4
作者 王法玉 刘志强 《计算机工程与设计》 北大核心 2019年第6期1595-1600,共6页
针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的... 针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的能力,采用Spark框架对算法进行并行化实现。在集群环境下进行测试,基于Spark框架的改进后算法能有效降低计算的时间复杂度,算法具有良好扩展性,计算效率有显著提高。 展开更多
关键词 K-MEANS算法 spark计算框架 分布式 网格 空间位置
下载PDF
融合Spark与隐性兴趣的用户综合影响力度量 被引量:1
5
作者 童曼琪 黄江升 郭昆 《计算机工程》 CAS CSCD 北大核心 2020年第11期61-69,共9页
为解决传统用户影响力度量算法面向海量数据处理时运行速度下降的问题,提出一种基于隐性兴趣的用户综合影响力度量算法。通过隐含狄利克雷分配模型得到用户隐性兴趣偏好,根据困惑度和平均话题相似度综合确定最优兴趣话题数,并改进PageR... 为解决传统用户影响力度量算法面向海量数据处理时运行速度下降的问题,提出一种基于隐性兴趣的用户综合影响力度量算法。通过隐含狄利克雷分配模型得到用户隐性兴趣偏好,根据困惑度和平均话题相似度综合确定最优兴趣话题数,并改进PageRank算法的用户兴趣传播转移率获得用户隐性兴趣传播影响力。在Spark计算框架的基础上,采用层次分析法且结合用户自身影响力和用户隐性兴趣传播影响力,计算得到最终用户影响力。实验结果表明,该算法综合考虑用户兴趣和用户自身影响因素,能够更客观高效地评估用户的真实影响力。 展开更多
关键词 用户影响力 用户兴趣相似度 PAGERANK算法 spark计算框架 隐含狄利克雷分配模型
下载PDF
基于Spark的FP-Growth伴随车辆发现与应用 被引量:4
6
作者 刘惠惠 张祖平 龙哲 《计算机工程与应用》 CSCD 北大核心 2018年第8期7-13,35,共8页
随着大数据技术在交通管理中的广泛应用,在海量车牌数据中检测伴随车辆,引起了研究者们的关注。但目前大多数方法在庞大的数据量下运行效率低,且停留在理论研究阶段,并未与实际应用相结合。提出了一种针对于此应用的新颖方法。采用Spar... 随着大数据技术在交通管理中的广泛应用,在海量车牌数据中检测伴随车辆,引起了研究者们的关注。但目前大多数方法在庞大的数据量下运行效率低,且停留在理论研究阶段,并未与实际应用相结合。提出了一种针对于此应用的新颖方法。采用Spark分布式并行计算框架提高运行速度,利用负载均衡原理对数据进行均衡化处理,再提出基于改进的FP-Growth的伴随车辆发现算法,利用置信度对结果进行后处理,剔除车辆随机伴随的情况,提高了检测正确率。该方法应用于长沙市交警大联合交管中心系统,其中将海量车牌识别数据存储在Hadoop大数据平台下的Hive数据库中,在交通PGIS(Police Geographic Information System)上可视化分析结果,实验证明了方法的高效性和可行性。 展开更多
关键词 伴随车辆 spark计算框架 FP-GROWTH算法 随机伴随 片伴随
下载PDF
Spark下遥感大数据特征提取的加速策略 被引量:7
7
作者 黄震 钱育蓉 +1 位作者 范迎迎 杜娇 《计算机工程与设计》 北大核心 2017年第12期3279-3283,共5页
提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Sp... 提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Spark处理遥感大数据的速度较单机模式下的处理遥感大数据提升了约2倍,基于Hadoop分布式文件系统(HDFS)处理模式较Spark-standalone处理模式处理速度提升了约1.2倍,基于Spark下的HDFS存储模式下,栅格切分遥感大数据较非栅格切分处理速度提高了约1.5倍。 展开更多
关键词 spark分布式内存计算框架 HADOOP分布式文件系统 遥感大数据 内存计算 栅格切分
下载PDF
基于Spark的变压器局部放电模式识别并行化实现
8
作者 李涛 朱永利 《计算机应用与软件》 北大核心 2023年第1期74-78,145,共6页
快速高效地识别局部放电类型不仅对电力设备的状况评估具有十分重大的意义,而且能够实现智能电网下对电力设施监测数据的快速诊断。因此,在Spark计算框架的基础上提出基于VPMCD(Variable Predictive Model Based Class Discriminate)的... 快速高效地识别局部放电类型不仅对电力设备的状况评估具有十分重大的意义,而且能够实现智能电网下对电力设施监测数据的快速诊断。因此,在Spark计算框架的基础上提出基于VPMCD(Variable Predictive Model Based Class Discriminate)的局部放电模式识别的并行化方法。采取对原始放电信号提取其φ-q-n图谱的PRPD(Phase Resolved Partial Discharge)特征构成相关特征向量作为实验输入,采取并行化VPMCD算法对放电类型进行分类。实验结果和分析表明,在Spark计算框架下的分布式处理的计算效率要优于传统单机环境下的计算效率,加速比随着节点数和数据量的增多而显著提升,可以满足智能电网下大数据快速处理的要求。 展开更多
关键词 spark计算框架 VPMCD 局部放电 模式识别
下载PDF
基于Spark的肿瘤基因混合特征选择方法 被引量:4
9
作者 汪丽丽 邓丽 +1 位作者 余玥 费敏锐 《计算机工程》 CAS CSCD 北大核心 2018年第11期1-6,共6页
为处理随微阵列技术发展而急剧增长的肿瘤基因数据,实现对肿瘤基因数据的特征选择,结合集成特征选择和混合特征选择,提出一种Spark分布式计算框架的混合特征选择方法。利用F-score特征选择方法去除无关特征,进行初步特征选择,结合F-scor... 为处理随微阵列技术发展而急剧增长的肿瘤基因数据,实现对肿瘤基因数据的特征选择,结合集成特征选择和混合特征选择,提出一种Spark分布式计算框架的混合特征选择方法。利用F-score特征选择方法去除无关特征,进行初步特征选择,结合F-score、多分类支持向量机递归消除法、基于随机森林的特征选择3种方法得到最优的特征子集,并采用支持向量机对特征子集进行分类预测。实验结果表明,该方法能通过选择较少的基因达到较高的分类准确率。 展开更多
关键词 肿瘤基因数据 spark分布式计算框架 混合特征选择 集成特征选择 分类
下载PDF
复杂属性条件下基于Spark的clique社区搜索算法
10
作者 佘鑫 何震瀛 《计算机工程》 CAS CSCD 北大核心 2021年第12期54-61,70,共9页
现有的社区搜索算法难以在网络中找到满足给定复杂属性条件的社区。同时,随着网络规模的不断扩大,单机串行的社区搜索算法也已无法有效地处理大规模的网络数据。针对复杂属性条件下的clique社区搜索问题,提出一种基于Spark的搜索算法。... 现有的社区搜索算法难以在网络中找到满足给定复杂属性条件的社区。同时,随着网络规模的不断扩大,单机串行的社区搜索算法也已无法有效地处理大规模的网络数据。针对复杂属性条件下的clique社区搜索问题,提出一种基于Spark的搜索算法。在Spark并行计算框架的基础上,结合图的结构特征和内容属性,根据由布尔表达式定义的复杂属性条件采取不同的搜索策略,搜索时利用属性的搜索成本和扩展成本进行局部优化,从而加快搜索过程。实验结果表明,与结构优先或属性优先的社区搜索算法相比,该算法在不同属性条件、网络规模和节点数目的情况下均能保证搜索准确性并提高搜索效率。 展开更多
关键词 社区搜索 复杂属性条件 布尔表达式 spark并行计算框架 clique结构
下载PDF
基于大数据随机样本划分的分布式观测点分类器
11
作者 李旭 何玉林 +2 位作者 崔来中 黄哲学 PHILIPPE Fournier-Viger 《计算机应用》 CSCD 北大核心 2024年第6期1727-1733,共7页
观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数... 观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数据的随机样本划分(RSP)的分布式OPC(DOPC)。首先,在分布式计算环境下生成大数据的RSP数据块,并将它转换为弹性分布式数据集(RDD);其次,在RSP数据块上协同式地训练一组OPC,由于每个RSP数据块上的OPC独立训练,因此有高效的Spark可实现性;最后,在Spark框架下将在RSP数据块上协同训练的OPC集成为DOPC,对新样本进行类标签预测。在8个大数据集上,对Spark集群环境下实现的DOPC的可行性、合理性和有效性进行实验验证,实验结果显示,DOPC能够以更低的计算消耗获得比单机OPC更高的测试精度,同时相较于Spark框架下实现的基于RSP模型的神经网络(NN)、决策树(DT)、朴素贝叶斯(NB)和K最近邻(KNN),DOPC分类器具有更强的泛化性能。测试结果表明,DOPC是一种高效低耗的处理大数据分类问题的有监督学习算法。 展开更多
关键词 大数据分类 分布式文件系统 随机样本划分 观测点分类器 spark计算框架
下载PDF
基于并行变量预测模型的变压器故障诊断及优化研究 被引量:18
12
作者 马利洁 朱永利 郑艳艳 《电力系统保护与控制》 EI CSCD 北大核心 2019年第6期82-89,共8页
针对传统变压器故障诊断方法存在小样本问题下分类效果差、海量监测数据的识别效率低下等问题,提出基于Spark计算框架的并行化变量预测模型。首先采用HDFS作为内存式存储系统,面向行存储的Row Matrix作为分布式矩阵存储结构,利用广播变... 针对传统变压器故障诊断方法存在小样本问题下分类效果差、海量监测数据的识别效率低下等问题,提出基于Spark计算框架的并行化变量预测模型。首先采用HDFS作为内存式存储系统,面向行存储的Row Matrix作为分布式矩阵存储结构,利用广播变量、调整分区数进行并行度优化。其次训练4种数学模型获取故障类型的最佳模型及相关参数完成故障诊断。实验结果表明,并行变量预测模型识别精度高于支持向量机,计算效率优于单机环境,对高维特征向量有较好的适应性。 展开更多
关键词 故障诊断 小样本 变量预测模型 spark计算框架 内存式存储
下载PDF
基于频繁项集挖掘算法的伴随车应用与实现 被引量:3
13
作者 陈瑶 桂峰 +1 位作者 卢超 王华 《计算机应用与软件》 2017年第4期60-64,共5页
随着大数据技术的发展和交通数据量迅速膨胀的挑战,对海量交通数据进行伴随车挖掘已然成为研究热点。提出一种基于Spark计算框架的频繁项集挖掘算法应用于伴随车挖掘模块当中,对海量的卡口交通数据进行Hadoop分布式文件存储(HDFS),并将... 随着大数据技术的发展和交通数据量迅速膨胀的挑战,对海量交通数据进行伴随车挖掘已然成为研究热点。提出一种基于Spark计算框架的频繁项集挖掘算法应用于伴随车挖掘模块当中,对海量的卡口交通数据进行Hadoop分布式文件存储(HDFS),并将伴随车挖掘结果可视化地展示在集成系统当中。以实际项目为依托,从而验证该伴随车模块的实现具有实际意义,并可为交通管理者提供科学的辅助决策。 展开更多
关键词 HDFS spark计算框架 频繁项集挖掘 伴随车
下载PDF
利用数据变换与并行运算的闭频繁项集挖掘方法 被引量:12
14
作者 党红恩 赵尔平 +1 位作者 刘炜 雒伟群 《湘潭大学自然科学学报》 CAS 2018年第1期119-122,共4页
针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成... 针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成频繁项集.3 000万篇文章的大数据集实验结果表明,提出的DTPC算法可以大幅度提升数据挖掘效率,同时减少计算资源的不必要浪费. 展开更多
关键词 闭频繁项集 大数据挖掘 质数对数变换 spark并行计算框架
下载PDF
串行式混合类型航道船舶交通组织优化 被引量:1
15
作者 王志强 张新宇 +1 位作者 李倍莹 王婧贇 《计算机应用与软件》 北大核心 2023年第2期26-32,39,共8页
随着港口航道类型逐渐向多样化、复杂化的混合类型趋势发展,港口交通问题愈发严峻。调研国内外港口混合类型航道,抽象出一种串行式简单混合类型航道作为研究对象。分析混合航道船舶交通状况,构建以单向/混合通航模式转化、混合航道异类... 随着港口航道类型逐渐向多样化、复杂化的混合类型趋势发展,港口交通问题愈发严峻。调研国内外港口混合类型航道,抽象出一种串行式简单混合类型航道作为研究对象。分析混合航道船舶交通状况,构建以单向/混合通航模式转化、混合航道异类子航道间通航模式切换、港池连接水域船舶交通冲突消解等为约束的串行式简单混合类型航道船舶交通组织优化模型。基于Spark并行计算框架,结合NSGA-II算法遗传操作天然并行性特点,提出一种Spark分布式多目标遗传算法,将全部种群分散在多节点上并行执行算法的遗传操作。实验表明,提出的算法具有较快的收敛速度和较好的稳定性,模型求解出的优化方案合理、有效。 展开更多
关键词 混合类型航道 船舶交通组织优化 分布式多目标遗传算法 spark并行计算框架
下载PDF
基于集成学习的转子部件脱落故障诊断方法
16
作者 周晓 马圣杰 《数字制造科学》 2022年第1期16-22,共7页
针对常规信号处理方法在多传感器数据综合利用中的不足,通过时频域和全息谱等技术进行故障特征提取,构造用于故障诊断的转子部件脱落故障诊断数据集。针对单模型在转子脱落故障诊断中识别准确率不高的问题,提出了一种集成学习模型,并为... 针对常规信号处理方法在多传感器数据综合利用中的不足,通过时频域和全息谱等技术进行故障特征提取,构造用于故障诊断的转子部件脱落故障诊断数据集。针对单模型在转子脱落故障诊断中识别准确率不高的问题,提出了一种集成学习模型,并为了处理海量监控数据,基于Spark框架进行并行化设计。实验证明该方法是一种可行的转子脱落故障诊断方法,相对于单模型能提高故障诊断的准确度,且能通过并行化实现良好的加速效果。 展开更多
关键词 集成学习 转子脱落故障 全息谱 spark计算框架
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部