期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
MR-GSpar:一种基于MapReduce的大图稀疏化算法 被引量:5
1
作者 陈德华 周蒙 +1 位作者 孙延青 郑亮亮 《计算机科学》 CSCD 北大核心 2013年第10期190-193,212,共5页
图的稀疏化是图聚类分析中数据预处理的关键操作,已得到广泛的关注。针对图数据日益普及、规模不断增大的现状,提出了一种基于MapReduce的面向大规模图的稀疏化算法,即MR-GSpar算法。该算法在MapReduce并行计算框架的基础上,通过对传统... 图的稀疏化是图聚类分析中数据预处理的关键操作,已得到广泛的关注。针对图数据日益普及、规模不断增大的现状,提出了一种基于MapReduce的面向大规模图的稀疏化算法,即MR-GSpar算法。该算法在MapReduce并行计算框架的基础上,通过对传统的最小哈希(Minhash)算法的并行化改造,使其可在分布式的集群环境中实现对大规模图数据的高效稀疏化处理。真实数据集上的实验表明了该算法的可行性与有效性。 展开更多
关键词 图稀疏化 Minhash MAPREDUCE框架 MR-GSpar算法
下载PDF
一种基于Hadoop的文本相似度仿真检测模型 被引量:3
2
作者 吴云 许抗震 黄瑞章 《新疆大学学报(自然科学版)》 CAS 北大核心 2017年第3期308-315,共8页
随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和... 随着信息时代数据量成倍的增长,传统的文本相似度检测方法已经无法处理大规模的文本数据.为此,提出了一种基于Hadoop集群技术的文本相似度仿真检测模型.该检测模型分为三步:第一步,利用Hadoop工具搭建实验平台,并针对该平台进行硬件和软件的优化;第二步,把文档转化为集合,使用改进的基于Map Reduce编程模型的Shingling算法;第三步,提出一种分布式的New Minhash算法求签名矩阵,然后利用Jaccard系数计算出相似度,选出相似的文档.实验证明:对于相同操作,优化后的性能耗时减少了近5.65%.该仿真模型不仅能够更加精确的求出文本相似度,而且能够更好的适应分布式平台处理大规模的文本数据,同时拥有良好的扩展性. 展开更多
关键词 文本相似 Minhash Shingling HADOOP
下载PDF
基于资源签名的Android应用相似性快速检测方法 被引量:2
3
作者 张鹏 牛少彰 黄如强 《电子学报》 EI CAS CSCD 北大核心 2019年第9期1913-1918,共6页
由于盗版Android应用(Android Application,简称APP)通常保持着与正版APP相似的用户体验,因此本文提出一种基于资源签名的APP相似性快速检测方法.该方法将APP的资源签名视为字符串集合,利用计算任意一对APP资源签名集合的Jaccard系数判... 由于盗版Android应用(Android Application,简称APP)通常保持着与正版APP相似的用户体验,因此本文提出一种基于资源签名的APP相似性快速检测方法.该方法将APP的资源签名视为字符串集合,利用计算任意一对APP资源签名集合的Jaccard系数判断两者的相似性.为了避免遍历全部的APP对,该方法将MinHash和LSH(Locality Sensitive Hashing)[JP2]算法的思路引入其中,通过从APP集合中挑选候选对并对候选对进行检验的方式获得最终的检测结果.由于挑选候选对的方式将大量相似性较低的APP对排除在外,因此该方法可以明显地提高APP相似性的检测速度.实验结果表明,该方法的检测速度比现有方法FSquaDRA提高了大约30倍,而检测结果与FSquaDRA几乎完全相同. 展开更多
关键词 APP相似性 资源签名 MinHash LSH Jaccard系数
下载PDF
安全云环境中基于Minhash函数的多关键字检索方案 被引量:4
4
作者 陆海虹 李欣 《科学技术与工程》 北大核心 2015年第1期89-95,共7页
为了降低硬件购置成本,许多机构倾向于使用稳健快速的云服务将他们的数据转包出去;然而,外包数据可能含有需要防护的敏感数据;而云提供商并不能可靠满足这一要求。因此,必须采取防护措施,以保护敏感数据不受到云服务器和其他未授权机构... 为了降低硬件购置成本,许多机构倾向于使用稳健快速的云服务将他们的数据转包出去;然而,外包数据可能含有需要防护的敏感数据;而云提供商并不能可靠满足这一要求。因此,必须采取防护措施,以保护敏感数据不受到云服务器和其他未授权机构的破坏。提出了一种基于Minhash函数的高效加密云数据隐私保护多关键字检索方法;该方法根据数据所有者生成并外包给云服务器的加密可检索索引进行加密云检索。已知检索内容后,服务器采用tf-idf加权法将检索内容与可检索索引相比较,除了鉴于隐私因素可被泄露的信息外,不需其他信息即可返回结果。基于公开的Enron数据集的仿真实验结果表明,该方法可保证用户只会检索到最相关的条目,不会对用户造成不必要的通信和计算负担。另外,在检索精度方面,也要优于现有的方法。 展开更多
关键词 云服务 Minhash函数 隐私保护 检索 tf-idf加权法 检索精度
下载PDF
分布式平台下MinHash算法研究与实现 被引量:5
5
作者 王洪亚 吴西送 +1 位作者 任建军 赵银龙 《智能计算机与应用》 2014年第6期44-46,共3页
MinHash作为位置敏感哈希(LSH)算法中的一种,可以用来快速估算两个集合的相似度,查找网络上的重复网页或者相似新闻网页,MinHash算法使用Jaccard相似度来度量对象的相似程度。本文针对MinHash算法在分布式平台上的实现和性能表现进行分... MinHash作为位置敏感哈希(LSH)算法中的一种,可以用来快速估算两个集合的相似度,查找网络上的重复网页或者相似新闻网页,MinHash算法使用Jaccard相似度来度量对象的相似程度。本文针对MinHash算法在分布式平台上的实现和性能表现进行分析和研究,给出了MinHash的分布式算法。最后通过具体的实验,验证了提出的MinHash算法在处理实际问题上的正确性和准确性。 展开更多
关键词 MinHash 分布式 算法实现
下载PDF
安全云环境中一种改进的多关键字检索方案
6
作者 郭秋滟 《计算机应用与软件》 CSCD 2016年第4期103-107,168,共6页
为了降低硬件购置成本,许多机构倾向于使用稳健快速的云服务将他们的数据转包出去。然而,外包数据可能含有需要防护的敏感数据,而云提供商并不能可靠地满足这一要求。因此,必须采取防护措施,以保护敏感数据不受到云服务器和其他未授权... 为了降低硬件购置成本,许多机构倾向于使用稳健快速的云服务将他们的数据转包出去。然而,外包数据可能含有需要防护的敏感数据,而云提供商并不能可靠地满足这一要求。因此,必须采取防护措施,以保护敏感数据不受到云服务器和其他未授权机构的破坏。针对该问题,提出一种基于minhash函数的高效加密云数据隐私保护多关键字检索方法。该方法根据数据所有者生成并外包给云服务器的加密可检索索引进行加密云检索。已知检索内容后,服务器采用tf-idf加权法将检索内容与可检索索引相比较,除了鉴于隐私因素可被泄露的信息外,不需其他信息即可返回结果。基于公开的Enron数据集的仿真实验结果表明,该方法可保证用户只会检索到最相关的条目,不会对用户造成不必要的通信和计算负担。另外,在检索精度方面,也要优于现有的方法。 展开更多
关键词 云服务 minhash函数 隐私保护 检索 tf-idf加权法 检索精度
下载PDF
基于Minhash的协同过滤技术在推荐系统中的应用
7
作者 刘艾侠 刘丹丹 《微型电脑应用》 2017年第10期67-70,共4页
传统协同过滤的推荐机制应用在大规模数据上时,如果在要保证推荐质量会导致占用运行时间和存储空间的增加。研究分析了Minhash在大规模数据上的降维原理,论证了将minhash应用到协同过滤,设计并实现基于Minhash算法的协同过滤模型。实验... 传统协同过滤的推荐机制应用在大规模数据上时,如果在要保证推荐质量会导致占用运行时间和存储空间的增加。研究分析了Minhash在大规模数据上的降维原理,论证了将minhash应用到协同过滤,设计并实现基于Minhash算法的协同过滤模型。实验结果表明Minhash能在保证推荐质量的前提下很大程度上缩短计算时间和存储空间,能有效地扩展到大规模数据集。 展开更多
关键词 协同过滤 大规模数据集 Minhash
下载PDF
Probabilistic, Statistical and Algorithmic Aspects of the Similarity of Texts and Application to Gospels Comparison
8
作者 Soumaila Dembele Gane Samb Lo 《Journal of Data Analysis and Information Processing》 2015年第4期112-127,共16页
The fundamental problem of similarity studies, in the frame of data-mining, is to examine and detect similar items in articles, papers, and books with huge sizes. In this paper, we are interested in the probabilistic,... The fundamental problem of similarity studies, in the frame of data-mining, is to examine and detect similar items in articles, papers, and books with huge sizes. In this paper, we are interested in the probabilistic, and the statistical and the algorithmic aspects in studies of texts. We will be using the approach of k-shinglings, a k-shingling being defined as a sequence of k consecutive characters that are extracted from a text (k ≥ 1). The main stake in this field is to find accurate and quick algorithms to compute the similarity in short times. This will be achieved in using approximation methods. The first approximation method is statistical and, is based on the theorem of Glivenko-Cantelli. The second is the banding technique. And the third concerns a modification of the algorithm proposed by Rajaraman et al. ([1]), denoted here as (RUM). The Jaccard index is the one being used in this paper. We finally illustrate these results of the paper on the four Gospels. The results are very conclusive. 展开更多
关键词 SIMILARITY Web MINING Jaccard SIMILARITY RU Algorithm minhashing Data MINING Shingling Bible’s GOSPELS Glivenko-Cantelli EXPECTED SIMILARITY STATISTICAL Estimation
下载PDF
大规模数据的集合相似度估计研究进展 被引量:2
9
作者 何安娜 陈华辉 《无线通信技术》 2017年第4期1-5,共5页
相似度估计是实现近似集合检索的一个重要组成部分。针对于不用的相似度度量方式,主要有使用Jaccard相似度的Min Hash算法和基于海明距离的Sim Hash算法,它们是两种常用的大规模数据相似度度量技术。此外,还有基于集合包含度下的集合相... 相似度估计是实现近似集合检索的一个重要组成部分。针对于不用的相似度度量方式,主要有使用Jaccard相似度的Min Hash算法和基于海明距离的Sim Hash算法,它们是两种常用的大规模数据相似度度量技术。此外,还有基于集合包含度下的集合相似度估计算法。通过总结多篇已发表论文,详细地回顾了不同的相似度度量方式下的集合相似度估计方法。 展开更多
关键词 相似度估计 MinHash 相似性检索 集合 SimHash
原文传递
一种基于MinHash的改进新闻文本聚类算法 被引量:4
10
作者 王安瑾 《计算机技术与发展》 2019年第2期39-42,共4页
信息技术的不断发展,带来的是网络上新闻文本的快速增长,面对大量的新闻文本,对其进行有效聚类就显得十分重要。基于上述需求,提出一种基于MinHash的DBSCAN聚类算法。针对传统向量空间模型文本聚类存在的数据维度高、计算复杂度大、资... 信息技术的不断发展,带来的是网络上新闻文本的快速增长,面对大量的新闻文本,对其进行有效聚类就显得十分重要。基于上述需求,提出一种基于MinHash的DBSCAN聚类算法。针对传统向量空间模型文本聚类存在的数据维度高、计算复杂度大、资源消耗多的问题,该算法使用Min Hash对所有文本的文本特征词集合进行降维,从而有效减少了资源的浪费。对新得到的特征矩阵中的数据任意两两计算Jaccard系数,将每一个结果与DBSCAN聚类中给定的邻域半径Eps进行比较并计算所有距离大于邻域半径Eps的点的周围节点数目是否大于等于形成一个簇所需要的最小点数MinPts,由此可以判断该文本是否为核心点,是否可以形成簇。实验结果表明,该方法对于新闻文本聚类有着很好的效果,可以对网络上错综复杂的新闻文本进行有效的聚类。 展开更多
关键词 MinHash Jaccard系数 DBSCAN 文本聚类
下载PDF
面向Top-k快速查询的层次化LSH索引方法
11
作者 罗雄才 高军 《计算机研究与发展》 EI CSCD 北大核心 2015年第S1期56-63,共8页
局部敏感哈希(locality sensitive hashing,LSH)用于在海量高维数据中检索相似的数据项,它能高效地返回相似度大于用户给定阈值的数据对.但是,由于需要设置固定阈值,LSH无法直接处理Top-k相似查询.传统LSH索引算法需要设置一系列阈值,... 局部敏感哈希(locality sensitive hashing,LSH)用于在海量高维数据中检索相似的数据项,它能高效地返回相似度大于用户给定阈值的数据对.但是,由于需要设置固定阈值,LSH无法直接处理Top-k相似查询.传统LSH索引算法需要设置一系列阈值,分别建立索引,时间和空间代价较大.提出了一种层次化的LSH索引算法,通过动态构建层次化相似度图,充分利用三角不等式,减少不必要的索引构建代价.具体来讲,首先通过高阈值构建相似度图,将高度相似的数据点抽象成"超点",再在"超点"上构建低阈值的相似度图.查询时,首先查询高阈值相似度图;数量不足时再查询低阈值相似度图.实验表明,相比传统LSH算法,本文方法在构建索引的时间和空间代价上减小一个数量级,查询更加高效. 展开更多
关键词 层次化局部敏感哈希 Minhash TOP-K查询 相似度图 三角不等式
下载PDF
基于分布式集群环境的图聚类信息高效处理方案
12
作者 刘娟娟 丁嘉宁 《计算机应用与软件》 CSCD 2016年第2期217-222,共6页
针对人工智能领域图聚类数据分析与处理能力无法适应于日益复杂的分布式集群环境等问题,设计出一种基于并行计算的高效率图聚类信息处理方案。通过对Minhash算法以MapReduce架构理论进行改进,使其实现对数据的并行化分析处理,以确保其... 针对人工智能领域图聚类数据分析与处理能力无法适应于日益复杂的分布式集群环境等问题,设计出一种基于并行计算的高效率图聚类信息处理方案。通过对Minhash算法以MapReduce架构理论进行改进,使其实现对数据的并行化分析处理,以确保其能够在日益复杂的分布式集群计算环境下高效处理图聚类数据信息。通过相关实验表明,该方案不仅可行,而且能够对图聚类数据信息进行快速稀疏化处理,具有一定的高效性。 展开更多
关键词 人工智能 数据挖掘MapReduce 图聚类Minhash
下载PDF
基于并行计算的高效图稀疏化处理算法
13
作者 李融 《四川理工学院学报(自然科学版)》 CAS 2015年第2期45-51,共7页
针对目前的图聚类分析方法存在的不足,在分析研究MapReduce架构理论、最小哈希算法以及图聚类分析中的数据抽样和稀疏化处理机制的基础上,提出了一种基于并行计算的高效的图稀疏化处理算法。该方法以MapReduce架构理论为基础,通过Minhas... 针对目前的图聚类分析方法存在的不足,在分析研究MapReduce架构理论、最小哈希算法以及图聚类分析中的数据抽样和稀疏化处理机制的基础上,提出了一种基于并行计算的高效的图稀疏化处理算法。该方法以MapReduce架构理论为基础,通过Minhash算法进行并行化分析,利用MapReduce框架结构对图聚类分析稀疏化操作过程中的多个任务进行了高效的推算分析与处理,并在Hadoop计算环境下,通过模拟实验对提出的高效图稀疏化处理算法的性能进行了测试。测试结果表明:基于并行计算的高效图稀疏化处理算法可行,能对图聚类数据信息进行快速稀疏化处理。 展开更多
关键词 MAPREDUCE Minhash 图聚类分析 数据抽样 并行计算
下载PDF
Practical and privacy-preserving geo-social-based POI recommendation
14
作者 Qi Xu Hui Zhu +2 位作者 Yandong Zheng Fengwei Wang Le Gao 《Journal of Information and Intelligence》 2024年第2期148-166,共19页
With the rapid development of location-based services and online social networks,POI recommendation services considering geographic and social factors have received extensive attention.Meanwhile,the vigorous developme... With the rapid development of location-based services and online social networks,POI recommendation services considering geographic and social factors have received extensive attention.Meanwhile,the vigorous development of cloud computing has prompted service providers to outsource data to the cloud to provide POI recommendation services.However,there is a degree of distrust of the cloud by service providers.To protect digital assets,service providers encrypt data before outsourcing it.However,encryption reduces data availability,making it more challenging to provide POI recommendation services in outsourcing scenarios.Some privacy-preserving schemes for geo-social-based POI recommendation have been presented,but they have some limitations in supporting group query,considering both geographic and social factors,and query accuracy,making these schemes impractical.To solve this issue,we propose two practical and privacy-preserving geo-social-based POI recommendation schemes for single user and group users,which are named GSPR-S and GSPR-G.Specifically,we first utilize the quad tree to organize geographic data and the MinHash method to index social data.Then,we apply BGV fully homomorphic encryption to design some private algorithms,including a private max/min operation algorithm,a private rectangular set operation algorithm,and a private rectangular overlapping detection algorithm.After that,we use these algorithms as building blocks in our schemes for efficiency improvement.According to security analysis,our schemes are proven to be secure against the honest-but-curious cloud servers,and experimental results show that our schemes have good performance. 展开更多
关键词 Cloud computing Geo-social-based data MinHash POI recommendation Privacy preservation
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部