期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
HiBase:一种基于分层式索引的高效HBase查询技术与系统 被引量:56
1
作者 葛微 罗圣美 +6 位作者 周文辉 赵頔 唐云 周娟 曲文武 袁春风 黄宜华 《计算机学报》 EI CSCD 北大核心 2016年第1期140-153,共14页
大数据时代,众多应用领域的数据量爆炸式增长,迫切需要研究和寻找有效的大数据存储管理方法,提供实时或准实时的大数据查询分析能力.Hadoop HBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台.然而HBase只有主... 大数据时代,众多应用领域的数据量爆炸式增长,迫切需要研究和寻找有效的大数据存储管理方法,提供实时或准实时的大数据查询分析能力.Hadoop HBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台.然而HBase只有主键索引,不支持非主键索引,这导致HBase的数据查询效率较低,难以满足数据实时或准实时查询需求.为此,在HBase基础上提供面向非主键的快速查询能力,是目前Hadoop环境下急需研究和解决的一个重要问题.该文研究提出了一种基于分层式HBase非主键索引的查询模型和方法,该模型和方法首先建立基于HBase的持久性索引.然后,为了利用内存提升查询性能,该文进一步提出了一种索引热点数据缓存技术和一种高效的热度累积缓存替换策略,以降低对HBase索引表的磁盘访问开销.热度累积缓存替换策略克服了最近最少使用(LRU)算法的局限性,考虑数据访问的累积热度和时间局部特性,从而更准确地捕获数据访问的特征.为了使索引热点数据缓存内存层具有良好的可扩展性,HiBase设计了基于一致性哈希的分布式内存缓存,支持高效的基于非主键的单点查询和范围查询.最终,该文设计实现了完整的分层式索引和查询系统HiBase.在千万至十亿条记录规模数据集上的测试结果表明,HiBase冷查询响应时间比标准HBase快65倍(大结果集)到3000多倍(小结果集);而引入基于查询热度累积算法的内存索引缓存方法后,热查询性能可在HiBase冷查询基础上再提升5~15倍,使得总体查询性能比标准HBase快300多倍(大结果集)到1.7万倍(小结果集),比开源的Hindex系统快5~20倍. 展开更多
关键词 HBASE 非主键索引 查询处理 分层式索引 缓存替换策略 大数据
下载PDF
轨迹大数据:数据、应用与技术现状 被引量:54
2
作者 许佳捷 郑凯 +3 位作者 池明旻 朱扬勇 禹晓辉 周晓方 《通信学报》 EI CSCD 北大核心 2015年第12期97-105,共9页
移动互联技术的飞速发展催生了大量的移动对象轨迹数据。这些数据刻画了个体和群体的时空动态性,蕴含着人类、车辆、动物的行为信息,对交通导航、城市规划、车辆监控等应用具有重要的价值。为了实现有效的轨迹数据价值提取,近年来学术... 移动互联技术的飞速发展催生了大量的移动对象轨迹数据。这些数据刻画了个体和群体的时空动态性,蕴含着人类、车辆、动物的行为信息,对交通导航、城市规划、车辆监控等应用具有重要的价值。为了实现有效的轨迹数据价值提取,近年来学术界和工业界针对轨迹管理问题开展了大量研究工作,包括轨迹数据预处理,以解决数据冗余高、精度差、不一致等问题;轨迹数据库技术,以支持有效的数据组织和高效的查询处理;轨迹数据仓库,支持大规模轨迹的统计、理解和分析;最后是知识提取,从数据中挖掘有价值的模式与规律。因此,综述轨迹大数据分析,从企业数据、企业应用、前沿技术这3个角度揭示该领域的现状。 展开更多
关键词 时空数据库 轨迹数据管理 数据索引 查询优化
下载PDF
基于自适应归一化RBF网络的Q-V值函数协同逼近模型 被引量:9
3
作者 刘全 肖飞 +3 位作者 傅启明 伏玉琛 周小科 朱斐 《计算机学报》 EI CSCD 北大核心 2015年第7期1386-1396,共11页
径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络... 径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络逼近模型的"灾难性扰动"问题,文中提出了一种基于自适应归一化RBF(ANRBF)网络的Q-V值函数协同逼近模型及对应的协同逼近算法——QV(λ).该算法对由RBFs提取得到的特征向量进行归一化处理,并在线自适应地调整ANRBF网络隐藏层节点的个数、中心及宽度,可以有效地提高逼近模型的抗干扰性和灵活性.协同逼近模型中利用Q和V值函数协同塑造TD误差,在一定程度上利用了环境模型的先验知识,因此可以有效地提高算法的收敛速度和初始性能.从理论上分析了QV(λ)算法的收敛性,并对比其他的函数逼近算法,通过实验验证了QV(λ)算法具有较优的性能. 展开更多
关键词 强化学习 函数逼近 径向基函数 灾难性扰动 协同逼近
下载PDF
静动态结合的恶意Android应用自动检测技术 被引量:5
4
作者 黄浩华 崔展齐 +2 位作者 潘敏学 王林章 李宣东 《信息安全学报》 CSCD 2017年第4期27-40,共14页
随着移动互联网的快速发展,移动终端及移动应用在人们日常生活中越来越重要,与此同时,恶意移动应用给网络和信息安全带来了严峻的挑战。Android平台由于其开放性和应用市场审查机制不够完善,使其成为了移动互联网时代恶意应用的主要传... 随着移动互联网的快速发展,移动终端及移动应用在人们日常生活中越来越重要,与此同时,恶意移动应用给网络和信息安全带来了严峻的挑战。Android平台由于其开放性和应用市场审查机制不够完善,使其成为了移动互联网时代恶意应用的主要传播平台。现有的恶意应用检测方法主要有静态分析和动态测试两种。一般而言,静态分析方法代码覆盖率高、时间开销小,但存在误报率较高的问题;而动态测试准确度较高,但需要实际运行应用,所需的时间和计算资源开销较大。针对上述情况,本文基于静动态结合的方法,自动检测恶意Android应用。首先,使用静态分析技术获取应用API的调用情况来判定其是否为疑似恶意应用,特别是可有效检测试图通过反射机制调用API躲避静态分析的恶意应用;然后,根据疑似恶意应用UI控件的可疑度进行有针对性的动态测试,来自动确认疑似恶意应用中是否存在恶意行为。基于此方法,我们实现了原型检测工具框架,并针对吸费短信类恶意行为,对由465个恶意应用和1085个正常应用组成的数据集进行了对比实验。实验结果表明,该方法在提高恶意应用检测效率的同时,有效地降低了误报率。 展开更多
关键词 ANDROID应用 静态分析 动态测试 恶意行为
下载PDF
基于目标制导符号执行的静态缓冲区溢出警报自动确认技术 被引量:2
5
作者 鲍铁匀 高凤娟 +3 位作者 周严 李游 王林章 李宣东 《信息安全学报》 2016年第2期46-60,共15页
缓冲区溢出漏洞是一类严重的安全性缺陷。目前存在动态测试和静态分析技术来检测缓冲区溢出缺陷:动态测试技术的有效性取决于测试用例的设计,而且往往会引入执行开销;静态分析技术及自动化工具已经被广泛运用于缓冲区溢出缺陷检测中,然... 缓冲区溢出漏洞是一类严重的安全性缺陷。目前存在动态测试和静态分析技术来检测缓冲区溢出缺陷:动态测试技术的有效性取决于测试用例的设计,而且往往会引入执行开销;静态分析技术及自动化工具已经被广泛运用于缓冲区溢出缺陷检测中,然而静态分析由于采取了保守的策略,其结果往往包含数量巨大的误报,需要通过进一步人工确认来甄别误报,但人工确认静态分析的结果耗时且容易出错,严重限制了静态分析技术的实用性。符号执行技术使用符号代替实际输入,能系统地探索程序的状态空间并生成高覆盖度的测试用例。本文提出一种基于目标制导符号执行的静态缓冲区溢出警报确认方法,使用静态分析工具的输出结果作为目标,制导符号执行确认警报。我们的方法分为3步:首先在过程间控制流图中检测静态分析警报路径片段的可达性,并将可达的警报路径片段集合映射为用于确认的完整确认路径集合;其次在符号执行中通过修剪与溢出缺陷疑似语句无关的路径,指导符号执行沿特定确认路径执行;最后在溢出缺陷疑似语句收集路径约束并加入溢出条件,通过约束求解的结果,对静态分析的警报进行分类。基于上述方法我们实现了原型工具BOVTool,实验结果表明在实际开源程序上BOVTool能够代替人工减少检查59.9%的缓冲区溢出误报。 展开更多
关键词 符号执行 缓冲区溢出 警报确认 目标制导
下载PDF
一种浮动车技术的道路行程时间估计方法 被引量:3
6
作者 宋承波 燕雪峰 《小型微型计算机系统》 CSCD 北大核心 2018年第9期2098-2102,共5页
针对现有基于浮动车技术的道路行程时间估计方法无法满足在不同浮动车占有率情况下对于估计精度要求的不足,利用前一时刻平均速度的稳定性和当前浮动车采集的平均速度精确性的优点,根据浮动车占有率动态分配权重,实现了较为精确的路段... 针对现有基于浮动车技术的道路行程时间估计方法无法满足在不同浮动车占有率情况下对于估计精度要求的不足,利用前一时刻平均速度的稳定性和当前浮动车采集的平均速度精确性的优点,根据浮动车占有率动态分配权重,实现了较为精确的路段平均速度估计,从而实现了对路段行程时间的较为精确的估计.进而,针对在浮动车占有率高于预定值的情境下,提出的方法所存在的因浮动车采集的平均速度波动性导致的估计波动问题,本文提出基于加权融合的估计波动性平滑方法,使用加权平均的融合方法将基于浮动车的估计结果和固定检测器估计结果进行融合,有效降低估计波动.实验表明,本文提出的基于浮动车技术的道路行程时间估计方法在不同的浮动车占有率情况下估计结果的平均相对误差不超过0.7%,具有较高的估计精度,因此可适用于不同浮动车占有率情况下的道路行程时间估计. 展开更多
关键词 行程时间估计 浮动车技术 加权平均融合
下载PDF
基于跳频和同步捕获技术的水下无线通信技术研究 被引量:2
7
作者 朱耘佳 施慧彬 《单片机与嵌入式系统应用》 2017年第5期30-33,共4页
本文所阐述的水下无线技术即基于跳频技术和同步捕获技术的水声通信,由于声波在海水中的传播特性显著优越于电磁波和可见光,使得水声技术成为海洋高技术的主要研究领域之一,在国防领域也具有十分重要的研究意义。本文主要论述了水声通... 本文所阐述的水下无线技术即基于跳频技术和同步捕获技术的水声通信,由于声波在海水中的传播特性显著优越于电磁波和可见光,使得水声技术成为海洋高技术的主要研究领域之一,在国防领域也具有十分重要的研究意义。本文主要论述了水声通信中跳频技术和同步捕获技术的原理、具体算法的实现方案以及部分硬件设施的使用简述,并通过展示实验结果验证算法的可行性。 展开更多
关键词 水声通信 FHSS 同步捕获 STM32F407
下载PDF
基于堆叠降噪稀疏自动编码器的软件缺陷预测 被引量:1
8
作者 薛参观 《计算机与现代化》 2018年第5期65-69,126,共6页
特征提取是软件缺陷预测中的关键步骤,特征提取的质量决定了缺陷预测模型的性能,但传统的特征提取方法难以提取出软件缺陷数据的深层本质特征。深度学习理论中的自动编码器能够从原始数据中自动学习特征,并获得其特征表示,同时为了增强... 特征提取是软件缺陷预测中的关键步骤,特征提取的质量决定了缺陷预测模型的性能,但传统的特征提取方法难以提取出软件缺陷数据的深层本质特征。深度学习理论中的自动编码器能够从原始数据中自动学习特征,并获得其特征表示,同时为了增强自动编码器的鲁棒性,本文提出一种基于堆叠降噪稀疏自动编码器的特征提取方法,通过设置不同的隐藏层数、稀疏性约束和加噪方式,可以直接高效地从软件缺陷数据中提取出分类预测所需的各层次特征表示。利用Eclipse缺陷数据集的实验结果表明,该方法较传统特征提取方法具有更好的性能。 展开更多
关键词 软件缺陷预测 特征提取 深度学习 堆叠降噪稀疏自动编码器
下载PDF
融合用户社会地位和矩阵分解的推荐算法 被引量:33
9
作者 余永红 高阳 +1 位作者 王皓 孙栓柱 《计算机研究与发展》 EI CSCD 北大核心 2018年第1期113-124,共12页
随着社交网络服务的日益流行,社交网络平台为推荐算法提供了丰富的额外信息.假设朋友之间共享更多的共同偏好并且用户往往易于接受来自朋友的推荐,越来越多的推荐系统利用社交网络中用户之间的信任关系来改进传统推荐算法的性能.然而,... 随着社交网络服务的日益流行,社交网络平台为推荐算法提供了丰富的额外信息.假设朋友之间共享更多的共同偏好并且用户往往易于接受来自朋友的推荐,越来越多的推荐系统利用社交网络中用户之间的信任关系来改进传统推荐算法的性能.然而,现有基于社交网络推荐算法忽略了2个问题:1)在不同的领域中,用户信任不同的朋友;2)由于用户在不同的领域内具有不同的社会地位,因此,用户在不同的领域内受朋友的影响程度是不同的.首先利用整体的社交网络结构信息和用户的评分信息推导特定领域社交网络结构,然后利用PageRank算法计算用户在特定领域的社会地位,最后提出了一种融合用户社会地位信息的矩阵分解推荐算法.在真实数据集上的实验结果表明:融合用户地位信息的矩阵分解推荐算法的性能优于传统的基于社交网络推荐算法. 展开更多
关键词 用户社会地位 矩阵分解 推荐算法 PAGERANK算法 社交网络
下载PDF
基于Ranking的泊松矩阵分解兴趣点推荐算法 被引量:17
10
作者 余永红 高阳 王皓 《计算机研究与发展》 EI CSCD 北大核心 2016年第8期1651-1663,共13页
随着基于位置社交网络(location-based social network,LBSN)的发展,兴趣点推荐成为满足用户个性化需求、减轻信息过载问题的重要手段.然而,已有的兴趣点推荐算法存在如下的问题:1)多数已有的兴趣点推荐算法简化用户签到频率数据,仅使... 随着基于位置社交网络(location-based social network,LBSN)的发展,兴趣点推荐成为满足用户个性化需求、减轻信息过载问题的重要手段.然而,已有的兴趣点推荐算法存在如下的问题:1)多数已有的兴趣点推荐算法简化用户签到频率数据,仅使用二进制值来表示用户是否访问一个兴趣点;2)基于矩阵分解的兴趣点推荐算法把签到频率数据和传统推荐系统中的评分数据等同看待,使用高斯分布模型建模用户的签到行为;3)忽视用户签到数据的隐式反馈属性.为解决以上问题,提出一个基于Ranking的泊松矩阵分解兴趣点推荐算法.首先,根据LBSN中用户的签到行为特点,利用泊松分布模型替代高斯分布模型建模用户在兴趣点上签到行为;然后采用BPR(Bayesian personalized ranking)标准优化泊松矩阵分解的损失函数,拟合用户在兴趣点对上的偏序关系;最后,利用包含地域影响力的正则化因子约束泊松矩阵分解的过程.在真实数据集上的实验结果表明:基于Ranking的泊松矩阵分解兴趣点推荐算法的性能优于传统的兴趣点推荐算法. 展开更多
关键词 基于位置社交网络 兴趣点推荐 泊松矩阵分解 BPR标准 地域影响力
下载PDF
基于SparkR的分类算法并行化研究 被引量:14
11
作者 刘志强 顾荣 +1 位作者 袁春风 黄宜华 《计算机科学与探索》 CSCD 北大核心 2015年第11期1281-1294,共14页
近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设... 近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法、支持向量机(support vector machine,SVM)算法和Logistic Regression算法。对于SVM和Logistic Regression算法,在常规的并行化策略的基础上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。实验结果表明,所设计实现的基于Spark R的并行化分类算法与Hadoop Map Reduce的方案相比,速度上提升了8倍左右。 展开更多
关键词 SparkR 分类算法 并行化 局部迭代 内存计算
下载PDF
基于主曲线的遥感图像河岸线提取 被引量:8
12
作者 郭芸 王宜怀 +2 位作者 刘纯平 龚声蓉 季怡 《通信学报》 EI CSCD 北大核心 2016年第11期80-89,共10页
针对遥感图像中河岸线提取存在不光滑、容易发生间断等问题,提出一种基于主曲线的河岸线提取方法。该方法在学习过程中结合多边形线(PL,polygonal line)算法和误差反向传播(BP,back propagation)算法,首先学习河流中心骨架主曲线表达,... 针对遥感图像中河岸线提取存在不光滑、容易发生间断等问题,提出一种基于主曲线的河岸线提取方法。该方法在学习过程中结合多边形线(PL,polygonal line)算法和误差反向传播(BP,back propagation)算法,首先学习河流中心骨架主曲线表达,然后再根据提出的左右河岸点集分割方法获得图像中河流的左岸点集和右岸点集,分别学习左右河岸线主曲线的光滑参数表达,最终实现遥感图像中河流中心骨架和河岸线的矢量化描述。主曲线表达解决了河岸线不光滑问题,而左右河岸线分开学习有效解决了因河道窄而导致河岸线间断的问题。在实际遥感图像河流提取实验中,与现有几种河岸线提取方法的对比分析结果表明:基于主曲线的河岸线提取方法提取的河岸线具有更好的光滑性,可以较好地解决在河流较窄处发生间断的问题,所得的河岸线矢量化描述更便于存储和重建,并可作为河流区域的形状特征用于检测与识别。 展开更多
关键词 遥感图像 河岸线提取 主曲线 PL算法 BP算法
下载PDF
SCoS:基于Spark的并行谱聚类算法设计与实现 被引量:13
13
作者 朱光辉 黄圣彬 +1 位作者 袁春风 黄宜华 《计算机学报》 EI CSCD 北大核心 2018年第4期868-885,共18页
谱聚类是一种比传统聚类算法更为高效的算法,其建立在谱图理论基础上,并将聚类问题转化为图的最优划分问题.与传统k-means算法不同的是,谱聚类算法不仅能够在任意形状的样本空间上实现聚类,而且可以收敛至全局最优解.然而,谱聚类算法的... 谱聚类是一种比传统聚类算法更为高效的算法,其建立在谱图理论基础上,并将聚类问题转化为图的最优划分问题.与传统k-means算法不同的是,谱聚类算法不仅能够在任意形状的样本空间上实现聚类,而且可以收敛至全局最优解.然而,谱聚类算法的计算开销较大,不仅需要计算任意两个样本之间的相似性,而且还需要计算Laplacian矩阵的特征向量.因此,在大规模数据场景下,谱聚类算法存在计算耗时过长甚至无法完成计算的问题.为了解决谱聚类算法在大规模数据场景下的计算性能问题,使得谱聚类算法能够应用在大数据集上,文中基于Apache Spark分布式并行计算框架研究并实现了大规模并行谱聚类算法SCoS,对算法流程中的每个计算步骤进行了并行化.具体的,SCoS主要实现了相似度矩阵构建与稀疏化过程的并行化、Laplacian矩阵构建与正规化过程的并行化、正规化Laplacian矩阵特征向量计算的并行化以及k-means聚类的并行化.为了降低谱聚类算法中大规模样本相似性计算的开销,SCoS采用了基于多轮迭代的并行计算方式实现大规模样本之间的相似性计算.针对大规模谱聚类算法中耗时较长的Laplacian矩阵特征向量求解问题,SCoS基于ScaLAPACK实现了特征向量的并行化求解,同时文中也实现了近似特征向量计算算法,并且对比分析了精确特征向量计算与近似特征向量计算对于谱聚类算法的性能影响.为了进一步提升大规模谱聚类算法的性能,SCoS采取了矩阵稀疏化表示与存储、Laplacian矩阵乘法优化以及k-means聚类中距离计算放缩剪枝等多种优化手段,尽可能地减少计算开销、存储空间开销以及数据传输开销.实验表明,SCoS不仅在聚类效果上要优于传统的聚类算法,而且具有较高的运行效率,特别是在大规模数据集下,仍具有较高的计算性能,并表现出了良好的数据可扩展性和系统可扩展性. 展开更多
关键词 谱聚类 并行化 相似性度量 分布式计算 APACHE SPARK
下载PDF
支持室内障碍空间的DSP-Topk查询优化算法研究 被引量:2
14
作者 李博涵 张潮 +3 位作者 李东静 许建秋 夏斌 秦小麟 《计算机研究与发展》 EI CSCD 北大核心 2017年第3期557-569,共13页
多目标优化查询是目前移动对象数据管理的研究热点.多目标优化查询过程中,用户关心的目标对象属性可能依赖于其他移动对象,因此移动对象之间的相互影响将导致目标对象属性存在不确定性.已有的多目标优化算法需要遍历所有目标对象,且不... 多目标优化查询是目前移动对象数据管理的研究热点.多目标优化查询过程中,用户关心的目标对象属性可能依赖于其他移动对象,因此移动对象之间的相互影响将导致目标对象属性存在不确定性.已有的多目标优化算法需要遍历所有目标对象,且不能有效支持目标对象属性的动态变化.基于以上问题,提出了一种有效的应用于障碍空间的多目标优化算法DSP-Topk(dynamic and support pruning Topk),该算法采用可视区域模型处理障碍空间中移动对象的距离计算,利用基于最大夹角差的可视区域方法,提高了计算距离的效率.进而,利用动态调整机制解决目标对象属性的不确定性,预处理的裁剪策略提高了算法效率.实验结合商场真实商品数据集进行测试,与已有的Topk和DS-Topk算法对比表明:所提算法在查询效率上有显著提高,验证了算法的有效性. 展开更多
关键词 移动对象 多目标优化 不确定性 裁剪 动态调整
下载PDF
Goldfish:基于矩阵分解的大规模RDF数据存储与查询系统 被引量:11
15
作者 顾荣 仇红剑 +3 位作者 杨文家 胡伟 袁春风 黄宜华 《计算机学报》 EI CSCD 北大核心 2017年第10期2212-2230,共19页
随着互联网应用的迅猛发展和语义网技术研究的深入,语义数据呈现出爆炸性增长趋势.一方面,对于语义数据实现高效存储和查询是语义网应用的重要基础,越来越多的语义应用可以依赖于此以提供更好的服务;另一方面,语义数据的爆炸性增长,对... 随着互联网应用的迅猛发展和语义网技术研究的深入,语义数据呈现出爆炸性增长趋势.一方面,对于语义数据实现高效存储和查询是语义网应用的重要基础,越来越多的语义应用可以依赖于此以提供更好的服务;另一方面,语义数据的爆炸性增长,对大数据环境下的语义数据的存储与查询技术提出了新的挑战.传统的基于关系型数据库的语义数据与查询系统已难以满足大规模语义数据的存储与查询需求.该文针对大规模RDF数据的存储与查询问题,以OpenRDF Sesame框架为基础,采用分布式分层式存储架构,提出并实现了属性表存储结构来进行语义数据的存储.在此基础上,针对布尔矩阵分解算法在对大规模语义数据构造属性表较慢的问题,基于Spark分布式计算框架提出并实现了并行化频繁项集挖掘算法求解大规模矩阵分解,以加速属性表的构造过程.并且,在查询层增加了基于哈希转换等查询优化.最后,基于该文所提出的索引结构和优化方法设计实现了原型系统Goldfish,并在大规模合成和真实数据集上进行了实验对比.结果表明,Goldfish原型系统比Rainbow系统查询性能平均提升约6倍,比Jena-HBase查询性能平均提升约500倍,比基于MapReduce的RDF查询系统SHARD性能平均提升约1200倍. 展开更多
关键词 大规模RDF存储 矩阵分解 分层式存储 大数据 语义网 SPARK
下载PDF
基于分布内存的层次短语机器翻译并行化算法 被引量:3
16
作者 赵博 黄书剑 +2 位作者 戴新宇 袁春风 黄宜华 《计算机研究与发展》 EI CSCD 北大核心 2014年第12期2724-2732,共9页
近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联... 近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联机翻译时更为突出.为了克服单机机器翻译算法在这方面的局限性,提高大规模统计机器翻译处理的计算性能,面向一个实际的联机翻译系统,提出了一个分布式和并行化翻译解码算法框架,对整个大规模语言模型和翻译模型同时采用分布式存储和并行化查询机制,在此基础上进一步研究实现完整的翻译解码并行化算法.研究实现了一个基于分布式内存数据库的层次短语并行化机器翻译解码器,该解码器使用分布式内存数据库存储和查询大数据量的翻译模型表和语言模型表,克服了传统的机器翻译系统所面临的内存容量和并发度方面的限制.为了进一步提高并行解码速度,还研究实现了另外3项优化技术:1)将翻译模型表的同步规则和Trie树结构的语言模型表转化为基于内存数据库的"键-值"结构的Hash索引表的方法;2)对Cube-Pruning算法进行了修改使其适用于批量查询;3)采用并优化了批量查询方式减少语言和翻译模型查询时的网络传输开销.所提出的解码算法实现了基于大规模语料统计机器翻译时的快速解码,并具备优异的系统可扩展性.实验结果表明:与单机解码器相比,单句翻译速度可提高2.7倍,批量翻译作业的总体解码性能可提高至少11.7倍,实现了显著的计算性能提升. 展开更多
关键词 统计机器翻译 层次短语 语言模型 翻译模型 并行化解码 分布内存
下载PDF
数据隐私保护的社会化推荐协议 被引量:2
17
作者 刘曙曙 刘安 +4 位作者 赵雷 刘冠峰 李直旭 郑凯 周晓方 《通信学报》 EI CSCD 北大核心 2015年第12期131-138,共8页
基于邻域的社会化推荐需要同时依赖用户的历史行为数据和完善的社交网络拓扑图,但通常这些数据分别属于不同平台,如推荐系统服务提供商和社交网络服务提供商。出于维护自身数据价值及保护用户隐私的考虑,他们并不愿意将数据信息提供给... 基于邻域的社会化推荐需要同时依赖用户的历史行为数据和完善的社交网络拓扑图,但通常这些数据分别属于不同平台,如推荐系统服务提供商和社交网络服务提供商。出于维护自身数据价值及保护用户隐私的考虑,他们并不愿意将数据信息提供给其他方。针对这一现象,提出了2种数据隐私保护的社会化推荐协议,可以在保护推荐系统服务提供商和社交网络服务提供商的数据隐私的同时,为用户提供精准的推荐服务。其中,基于不经意传输的社会化推荐,计算代价较小,适用于对推荐效率要求较高的应用;基于同态加密的社会化推荐,安全程度更高,适用于对数据隐私要求较高的应用。在4组真实数据集上的实验表明,提出的2种方案切实可行,用户可以根据自身需求选择合适的方案。 展开更多
关键词 推荐系统 不经意传输 同态加密 Yao’s协议
下载PDF
Android应用中SQL注入漏洞静态检测方法 被引量:8
18
作者 潘秋红 崔展齐 王林章 《计算机科学与探索》 CSCD 北大核心 2018年第8期1225-1237,共13页
随着移动互联网的迅猛发展,基于Android平台的移动终端以及移动应用数量逐年攀升,极大地改变了人们的生活方式。然而,移动应用具有交互复杂、难于调试、版本更新迭代频繁等特点,很多应用没有经过充分检测就投入了使用,致使Android应用... 随着移动互联网的迅猛发展,基于Android平台的移动终端以及移动应用数量逐年攀升,极大地改变了人们的生活方式。然而,移动应用具有交互复杂、难于调试、版本更新迭代频繁等特点,很多应用没有经过充分检测就投入了使用,致使Android应用中各种漏洞导致的故障频发。其中,SQL注入漏洞是一类常见安全漏洞,会引发用户信息泄露、恶意篡改数据库等严重后果。但现有的通用静态分析工具大多无法有效检测Android应用中的SQL注入漏洞。针对这一问题,分析了SQL注入漏洞的代码特征和数据特征,提出了一种基于污点分析的静态检测方法,并在开源工具FindBugs的基础上,实现了原型工具SQLInj。实验结果表明,该方法能有效检测出Android应用中存在的SQL注入漏洞。 展开更多
关键词 SQL注入 静态检测 污点分析 合法性检查
下载PDF
一种基于改进网格多维TTI索引的动态Top-k查询算法 被引量:2
19
作者 邓丹苹 秦小麟 +3 位作者 李博涵 郑伟 刘亮 李雪 《计算机学报》 EI CSCD 北大核心 2019年第8期1827-1844,共18页
Top-k查询是目前海量数据在动态环境中高效处理的重要方法之一.在许多实际应用中,满足用户偏好的top-k查询一般由两个部分组成:选择条件和排序函数.用户可自行设置排序函数,也可选择对不同数据子集进行查询.在传统数据库领域中已经对to... Top-k查询是目前海量数据在动态环境中高效处理的重要方法之一.在许多实际应用中,满足用户偏好的top-k查询一般由两个部分组成:选择条件和排序函数.用户可自行设置排序函数,也可选择对不同数据子集进行查询.在传统数据库领域中已经对top-k算法进行了深入的研究,但是现有的方法不适用于大量目标对象的属性值发生动态变化的情况.在查询过程中由于目标对象的属性值发生改变可能导致查询结果的改变,从而对算法性能有更高的要求.围绕动态top-k计算问题,在网格索引的基础上提出了TTI索引,通过TTI索引中的概要信息高效计算网格k支配能力并划分影响区和自由区.根据划分的区域裁剪数据集并降低数据动态变化时需重新计算发生的概率.实验中采用多种数据集进行测试,分别与top-k、RankCube和CIA算法进行了比较.实验结果验证了算法的有效性,实验数据表明在静态情况下,该文算法的查询效率可比传统top-k算法最多快至8倍,动态情况下可比传统top-k算法最多快10倍. 展开更多
关键词 TOP-K查询 网格索引 分区 概要 动态
下载PDF
基于Spark的大规模语义规则后向链推理系统 被引量:6
20
作者 顾荣 王善永 +2 位作者 郭晨 袁春风 黄宜华 《中文信息学报》 CSCD 北大核心 2018年第3期120-134,共15页
近年来,语义网数据快速增长,适合于处理静态小规模语义数据的前向链语义推理技术暴露出了需对数据进行频繁更新等问题。面对大规模动态语义网数据,对数据更新不敏感的后向链语义推理开始成为新的研究热点。后向链语义推理由查询目标驱动... 近年来,语义网数据快速增长,适合于处理静态小规模语义数据的前向链语义推理技术暴露出了需对数据进行频繁更新等问题。面对大规模动态语义网数据,对数据更新不敏感的后向链语义推理开始成为新的研究热点。后向链语义推理由查询目标驱动,在查询时根据规则集推理出查询结果。后向链语义推理具有推理过程复杂、规则扩展深度大等特点,在大规模语义数据上推理的效率和可扩展性上有一定的挑战。该文立足于已有的后向链推理技术,详细分析了语义推理规则集的特点,并结合当前主流的大数据处理平台Spark,设计了一套较为高效并且可扩展的大规模并行化语义规则后向链推理系统。该文的主要研究工作分为三个部分:(1)采用预计算本体数据闭包的方法,避免了本体模式在实时推理阶段的重复推理;(2)在后向链语义推理的逆向推理和查询阶段设计了优化措施,进一步提高了推理效率;(3)设计实现了一种基于Spark平台的大规模分布式RDFS/OWL后向链语义推理系统。实验数据显示,该文提出的RDFS/OWL后向链语义推理系统在合成数据集LUBM和真实数据集DBpedia上都表现出了良好的推理性能,在亿条三元组上的推理开销是几秒到几十秒,并且表现出了良好的数据可扩展性和节点可扩展性。 展开更多
关键词 语义推理 后向链推理 并行化
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部