期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于最小哈希的网络多路虚假数据清洗算法 被引量:1
1
作者 王影 李柯景 《计算机仿真》 北大核心 2023年第5期511-514,519,共5页
传统数据清洗方法未进行数据真实属性相似度衡量,存在网络多路虚假数据清洗效果不佳,于是提出最小哈希的网络多路虚假数据清洗算法。对网络多路数据进行整合并构建先验知识库,根据贝叶斯分类进行相关性模型特征归纳;基于编码所属类型实... 传统数据清洗方法未进行数据真实属性相似度衡量,存在网络多路虚假数据清洗效果不佳,于是提出最小哈希的网络多路虚假数据清洗算法。对网络多路数据进行整合并构建先验知识库,根据贝叶斯分类进行相关性模型特征归纳;基于编码所属类型实现后验概率编码分类,进行多路数据编码转换;将哈希等级较低的集合作为指纹信息,设置两个多路数据集合,使用最小哈希计算数据相似度;通过相似度衡量数据真实属性;构建前馈型神经网络数据清洗模型,推算网络模型样本训练偏差,同时初始化参变量与种群,运用轮盘赌方法获得匀称分布随机值,将各变量引入数据清洗模型反复执行选择、交叉、变异操作,实现高精度虚假数据清洗目标。仿真结果表明:与传统方法相比,所提方法具有更高的查全率,数据清洗效率也得到显著提升,为用户提供更加安全可靠的网络交流环境。 展开更多
关键词 最小哈希 虚假数据 数据清洗 编码转换 遗传神经网络
下载PDF
一种基于最小哈希的二值特征匹配方法 被引量:2
2
作者 郭倩 孙涵 《计算机与现代化》 2016年第6期73-78,共6页
特征匹配是图像识别中一个基本研究问题。常用的匹配方式一般是基于贪婪算法的线性扫描方式,但只适用于低维数据。当数据维数超过一定程度时,这些匹配方法的时间效率将会急剧下降,甚至不强于强力线性扫描方法。本文提出一种基于最小哈... 特征匹配是图像识别中一个基本研究问题。常用的匹配方式一般是基于贪婪算法的线性扫描方式,但只适用于低维数据。当数据维数超过一定程度时,这些匹配方法的时间效率将会急剧下降,甚至不强于强力线性扫描方法。本文提出一种基于最小哈希的二值特征匹配方法。通过最小哈希函数映射变换操作,将原始特征集合分成多个子集合,并将一个在超大集合下内查找相邻元素的问题转化为在一个很小的集合内查找相邻元素的问题,计算量有所下降。使用Jaccard距离度量的最小哈希函数能最大限度地保证原始数据中相似的向量对在哈希变换后依然相似。实验表明这种匹配方法应用在二值特征上时,可以获得比KD-Tree更好的匹配效果。 展开更多
关键词 最小哈希 二值特征 特征匹配
下载PDF
基于最小哈希的重复数据清洗方法 被引量:4
3
作者 张荃 陈晖 《通信技术》 2019年第11期2653-2658,共6页
大数据时代,数据的处理和应用受到了极大关注,重复数据清洗作为数据预处理的一部分,影响着数据预处理的效率和结果。主要针对重复数据进行处理,现有的方法主要采用了datacleaner的基础模块找出重复数据,由于需要对每个属性单独进行编码... 大数据时代,数据的处理和应用受到了极大关注,重复数据清洗作为数据预处理的一部分,影响着数据预处理的效率和结果。主要针对重复数据进行处理,现有的方法主要采用了datacleaner的基础模块找出重复数据,由于需要对每个属性单独进行编码,相对繁琐。我们创新性的将数据转换为一段文字,利用最小哈希(minhash)编码方式对该段文字进行统一的编码,然后计算Jaccard相似度,从而找出重复数据。仿真结果表明,当数据量逐步增大时,minhash算法明显缩短了运算时间,提升了重复数据处理的效率。 展开更多
关键词 重复数据 数据清洗 Jaccard相似度 最小哈希
下载PDF
基于最小完美哈希函数的数据挖掘算法 被引量:6
4
作者 崔玮 刘建伟 张其善 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第2期47-49,共3页
提出了一种基于最小完美哈希函数的关联规则的挖掘算法.这一基于Apriori的算法在综合了传统哈希剪枝技术的同时,充分利用了最小完美哈希函数的优点,从而在保证静态数据库关联规则挖掘的同时,使对关联规则的哈希结构数据进行动态调整成... 提出了一种基于最小完美哈希函数的关联规则的挖掘算法.这一基于Apriori的算法在综合了传统哈希剪枝技术的同时,充分利用了最小完美哈希函数的优点,从而在保证静态数据库关联规则挖掘的同时,使对关联规则的哈希结构数据进行动态调整成为可能.这一算法不仅提高了挖掘效率,而且通过抑制哈希地址冲突提高了算法的稳定性和可用性. 展开更多
关键词 数据挖掘 入侵检测 关联规则 最小完美哈希函数
下载PDF
基于最小完美哈希函数的K-mer计数算法 被引量:3
5
作者 徐菡 于长永 史劼 《中国电子科学研究院学报》 北大核心 2020年第5期435-441,448,共8页
在DNA序列中对长度为k的子序列K-mer进行计数是生物信息学分析的关键环节,为解决传统K-mer计数中出现的耗时长、内存占用量大的问题,文中提出一种基于最小完美哈希函数的K-mer计数算法。该算法能够无哈希冲突地将K-mer映射到尽可能最小... 在DNA序列中对长度为k的子序列K-mer进行计数是生物信息学分析的关键环节,为解决传统K-mer计数中出现的耗时长、内存占用量大的问题,文中提出一种基于最小完美哈希函数的K-mer计数算法。该算法能够无哈希冲突地将K-mer映射到尽可能最小的整数范围内,对最小完美哈希表的查询在常数时间内完成,能够高效处理动态变化的大规模数据集。在处理大肠杆菌基因序列时,本文算法MPH-KMC相对jellyfish2算法,耗时缩短3倍,内存消耗缩小11倍。 展开更多
关键词 最小完美哈希函数 局部敏感哈希函数 K-mer频次统计 计数算法
下载PDF
哈希方法在生物信息学研究中的应用探讨
6
作者 耿彧 白涛 《中国管理信息化》 2018年第12期142-143,共2页
哈希表由于能够实现高效的数据存储和查找,操作时间可达到O(1)级,所以其被广泛应用于信息安全、操作系统、数据挖掘和生物信息等领域。本文对哈希方法在生物信息中的应用进行了探讨,同时介绍了其他特殊的哈希方法在生物信息相关问题中... 哈希表由于能够实现高效的数据存储和查找,操作时间可达到O(1)级,所以其被广泛应用于信息安全、操作系统、数据挖掘和生物信息等领域。本文对哈希方法在生物信息中的应用进行了探讨,同时介绍了其他特殊的哈希方法在生物信息相关问题中的解决策略。哈希方法的引入能更好地提高生物信息大数据的存储与检索性能。 展开更多
关键词 生物信息计算 哈希方法 最小哈希 相似哈希
下载PDF
静态内部表的哈希技术
7
作者 赵信 《计算机工程与设计》 CSCD 北大核心 1992年第2期8-13,共6页
文中阐述了用于静态内部表的哈希(hash)技术,着重以实例说明了理想与最小理想哈希函数的概念,比较分析了几种理想与最小理想哈希函数的优缺点,讨论了合适理想与最小理想哈希函数的选择。
关键词 哈希函数^+ 理想哈希函数^+ 最小理想哈希函数^+
下载PDF
融合MHS与AIM-RT的谱聚类优化推荐算法 被引量:4
8
作者 邱宁佳 王宪勇 +1 位作者 王鹏 杨华民 《计算机应用研究》 CSCD 北大核心 2020年第11期3292-3296,共5页
传统协同过滤推荐算法存在时序性过低以及用户过多时数据稀疏相似用户计算复杂度高等问题。为此,提出融合最小哈希签名(MHS)与时序模型预测(AIM-RT)的谱聚类优化推荐算法。首先使用MHS与Levenshtein距离测度对用户—项目评分矩阵提取相... 传统协同过滤推荐算法存在时序性过低以及用户过多时数据稀疏相似用户计算复杂度高等问题。为此,提出融合最小哈希签名(MHS)与时序模型预测(AIM-RT)的谱聚类优化推荐算法。首先使用MHS与Levenshtein距离测度对用户—项目评分矩阵提取相似用户;然后利用时序模型进行权重拟合的AIM-RT预测算法预测评分补全相似用户稀疏矩阵;最后结合谱聚类进行相似用户优化,找到最优相似用户集合完成最终推荐。通过实验分析验证表明,所提推荐算法能够在计算复杂度、评分预测精度、数据缺失填补等方面提高整体推荐性能。 展开更多
关键词 推荐算法 最小哈希签名 时序模型 权重拟合 谱聚类
下载PDF
基于压缩直方图的劣质数据库上相似连接结果大小估计 被引量:2
9
作者 张岩 杨忠胜 +2 位作者 王宏志 高宏 李建中 《小型微型计算机系统》 CSCD 北大核心 2012年第10期2113-2120,共8页
现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出... 现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出查询结果.鉴于该模型的特点,传统的估计查询代价的优化方法很难再适用,需要新的代价估计技术.本文提出了一种新的估计连接结果大小的方法.使用加权的最小哈希函数获得某一属性的最小哈希签名,这使得属性具有相同维数,便于利用直方图进行快速估计;然后建立其直方图,最后使用改进的离散余弦变换压缩直方图信息,使用压缩信息直接进行代价估计,这使得即使对于高维数据也能保证低错误率和低存储代价.此外,此方法可以很好的支持动态数据更新,消除周期性重建直方图的时间开销. 展开更多
关键词 劣质数据 连接估计 最小哈希签名 压缩直方图
下载PDF
分布式集群环境下基于并行计算的图聚类信息高效处理方案 被引量:2
10
作者 张博 《自动化技术与应用》 2016年第3期29-35,67,共8页
针对人工智能领域图聚类数据分析与处理能力无法适应于日益复杂的分布式集群环境等问题,提出一种基于并行计算的高效率图聚类信息处理方案。在分布式集群计算环境下对超大规模、超大区域范围图数据信息的稀疏化分析与处理机制上,通过对M... 针对人工智能领域图聚类数据分析与处理能力无法适应于日益复杂的分布式集群环境等问题,提出一种基于并行计算的高效率图聚类信息处理方案。在分布式集群计算环境下对超大规模、超大区域范围图数据信息的稀疏化分析与处理机制上,通过对Minhash算法以Map Reduce架构理论进行改进,使其实现对数据的并行化分析处理,确保能够在日益复杂的分布式集群计算环境下高效处理图聚类数据信息。实验表明,改进方案不仅可行,而且能够对图聚类数据信息进行快速稀疏化处理,具有一定的高效性。 展开更多
关键词 人工智能 数据挖掘 映射规约 图聚类 最小哈希算法
下载PDF
空间局部重合图像的快速聚类
11
作者 汪国安 郭昕 《河南教育学院学报(自然科学版)》 2015年第2期23-29,共7页
采用视觉词袋模型表示图像,以快速检测空间上部分重合图像对的最小哈希算法为基础,提出一种对局部重合图像聚类即数据挖掘的方法,能够找到类种子的概率随着类别中图像数目的增长显著增加.对聚类的结果进行空间上的验证,并在大小分别为10... 采用视觉词袋模型表示图像,以快速检测空间上部分重合图像对的最小哈希算法为基础,提出一种对局部重合图像聚类即数据挖掘的方法,能够找到类种子的概率随着类别中图像数目的增长显著增加.对聚类的结果进行空间上的验证,并在大小分别为104、105以及5×106的图像数据集上对该算法的效果进行测试.算法的速度依赖于数据集中图像的数目和数据集中类别的数目,类种子生成的时间复杂度线性相关于数据集大小. 展开更多
关键词 最小哈希 视觉词袋模型 图像聚类 局部重合图像 数据挖掘
下载PDF
一种从多表达谱数据挖掘基因共表达团的新方法 被引量:2
12
作者 陈兰 王世敏 陈润生 《生物化学与生物物理进展》 SCIE CAS CSCD 北大核心 2008年第8期914-920,共7页
随着近年来高通量基因表达谱数据的涌现,集成多个不同实验条件的表达谱数据,并挖掘在多数据源都保守的基因共表达团,成为预测基因功能或者调控关系的方法之一.但是,常用的方法通常仅简单地集成不同表达谱数据并推导保守基因共表达团,这... 随着近年来高通量基因表达谱数据的涌现,集成多个不同实验条件的表达谱数据,并挖掘在多数据源都保守的基因共表达团,成为预测基因功能或者调控关系的方法之一.但是,常用的方法通常仅简单地集成不同表达谱数据并推导保守基因共表达团,这样可能会导致结果中出现并非真正在多数据源保守的共表达团.提出一种结合最小哈希与局部敏感哈希的新方法,可以高效地寻找在多表达谱数据源中真正保守的基因共表达团.结果分析证明,相比过去的方法,现提出的方法可以获得更加功能相关和调控相关的基因共表达团. 展开更多
关键词 表达谱 共表达网络 最小哈希 局部敏感哈希
下载PDF
一种高效的分布式相似短文本聚类算法 被引量:4
13
作者 原默晗 唐晋韬 王挺 《计算机与数字工程》 2016年第5期895-900,943,共7页
近似重复在微博等网络短文本中十分常见,查找和消除近似重复对于网络信息的有效处理具有非常重要的意义。论文针对相似短文本聚类的特点,在改进shingling、最小哈希和局部敏感哈希算法相结合的文件相似检测方法的基础上,设计了一个高效... 近似重复在微博等网络短文本中十分常见,查找和消除近似重复对于网络信息的有效处理具有非常重要的意义。论文针对相似短文本聚类的特点,在改进shingling、最小哈希和局部敏感哈希算法相结合的文件相似检测方法的基础上,设计了一个高效的短文本聚类方法。该方法通过将文本表示成连续短字符串集合,并应用最小哈希将集合简化成一组由数字组成的文本签名,通过局部敏感哈希算法得到符合相似度条件的文本聚类。为了适应网络信息规模大的特点,论文进一步利用Apache Spark集群计算框架对聚类算法进行了并行化,提高了数据处理的效率,并分析了影响算法性能的因素。 展开更多
关键词 文本聚类 最小哈希 局部敏感哈希 shingling SPARK
下载PDF
IDS日志数据挖掘的改进算法 被引量:3
14
作者 崔玮 刘建伟 张其善 《计算机工程》 CAS CSCD 北大核心 2007年第6期53-55,共3页
提出了一个基于最小完美哈希函数的关联规则的挖掘算法。基于Apriori的算法,在综合了传统哈希剪枝技术的同时,利用最小完美哈希函数的优点,保证了静态数据库关联规则挖掘,可以对关联规则的哈希结构数据进行动态的调整。该算法提高了挖... 提出了一个基于最小完美哈希函数的关联规则的挖掘算法。基于Apriori的算法,在综合了传统哈希剪枝技术的同时,利用最小完美哈希函数的优点,保证了静态数据库关联规则挖掘,可以对关联规则的哈希结构数据进行动态的调整。该算法提高了挖掘效率,通过抑制哈希地址冲突提高了算法的稳定性和可用性。 展开更多
关键词 数据挖掘 入侵检测 关联规则 最小完美哈希函数
下载PDF
ES_SSE:一种文本重复检测方法
15
作者 杨荣 李兵 +2 位作者 王电化 吴谋 邓树文 《计算机应用与软件》 北大核心 2018年第7期286-289,333,共5页
对集合的相似性进行高效估计,在计算机的很多应用中都是要解决的一个核心问题。基于原始最小哈希算法,提出一种压缩二进制解决框架ES_SSE(Even Sketch for Set Similarity Estimation)来对集合间的杰卡德相似系数进行估计。对ES_SSE和b-... 对集合的相似性进行高效估计,在计算机的很多应用中都是要解决的一个核心问题。基于原始最小哈希算法,提出一种压缩二进制解决框架ES_SSE(Even Sketch for Set Similarity Estimation)来对集合间的杰卡德相似系数进行估计。对ES_SSE和b-bit进行了模型介绍,并详细描述了ES_SSE的构造原理;分析了Jaccard similarity估计所利用的理论模型基础,并建立了估计量模型;通过实验验证了ES_SSE的高效性能,当J值大于80%时,ES_SSE比b-bit的性能优势更加明显。 展开更多
关键词 相似性 哈希算法 杰卡德相似性 b位最小哈希 估计量
下载PDF
基于区块链的真实世界数据共享系统研究 被引量:1
16
作者 刘尚麟 廖思捷 +1 位作者 杨春霞 范佳 《信息安全研究》 2022年第1期49-54,共6页
针对真实世界大数据应用,以区块链为基础设施,构建支持数据溯源、隐私保护、以患者为中心的数据共享平台,开发了原型系统,进行了关键算法验证.基于最小哈希的局部敏感哈希的非标注数据溯源技术,结合区块链,实现数据来源可追溯可信可验证... 针对真实世界大数据应用,以区块链为基础设施,构建支持数据溯源、隐私保护、以患者为中心的数据共享平台,开发了原型系统,进行了关键算法验证.基于最小哈希的局部敏感哈希的非标注数据溯源技术,结合区块链,实现数据来源可追溯可信可验证;设计专门的隐私保护隔离区,采用容器和虚拟机双层隔离保护机制,程序将加密发布的真实世界数据下载到隔离区内,解密后分析处理,用后解密明文立刻销毁,实现数据隐私保护;同时使用区块链、控制流图、最小哈希、局部敏感哈希等技术登记分析程序指纹,进行计算程序身份安全验证. 展开更多
关键词 区块链 真实世界数据 控制流图 局部敏感哈希 最小哈希
下载PDF
基于数据挖掘的IDS日志算法的改进 被引量:1
17
作者 张砚雪 邓文新 《齐齐哈尔大学学报(自然科学版)》 2008年第6期33-36,共4页
提出了一个基于最小完美哈希函数的关联规则的数据挖掘算法。基于Apriori的算法,在综合了传统哈希剪枝技术的同时,利用最小完美哈希函数的优点,保证了静态数据库关联规则挖掘,可以对关联规则的哈希结构数据进行动态的调整。该算法提高... 提出了一个基于最小完美哈希函数的关联规则的数据挖掘算法。基于Apriori的算法,在综合了传统哈希剪枝技术的同时,利用最小完美哈希函数的优点,保证了静态数据库关联规则挖掘,可以对关联规则的哈希结构数据进行动态的调整。该算法提高了挖掘效率,通过抑制哈希地址冲突提高了算法的稳定性和可用性。 展开更多
关键词 数据挖掘 入侵检测 关联规则 最小完美哈希函数 DHP算法
下载PDF
融合结构与属性相似性的加权图聚集算法
18
作者 邴睿 马慧芳 +1 位作者 刘宇航 余丽 《计算机工程与科学》 CSCD 北大核心 2019年第10期1777-1784,共8页
图聚集技术是将一个大规模图用简洁的小规模图来表示,同时保留原始图的结构和属性信息的技术。现有算法未同时考虑节点的属性信息与边的权重信息,导致图聚集后与原始图存在较大差异。因此,提出一种同时考虑节点属性信息与边权重信息的... 图聚集技术是将一个大规模图用简洁的小规模图来表示,同时保留原始图的结构和属性信息的技术。现有算法未同时考虑节点的属性信息与边的权重信息,导致图聚集后与原始图存在较大差异。因此,提出一种同时考虑节点属性信息与边权重信息的图聚集算法,使得聚集图既保留了节点属性相似度又保留了边权重信息。该算法首先定义了闭邻域结构相似度,通过一种剪枝策略来计算节点之间的结构相似度;其次使用最小哈希(MinHash)技术计算节点之间的属性相似度,并调节结构相似与属性相似所占的比例;最后,根据2方面相似度的大小对加权图进行聚集。实验表明了该算法可行且有效。 展开更多
关键词 图聚集 结构相似度 属性相似度 加权图 最小哈希
下载PDF
一种基于局部敏感哈希的文本数据去重算法及其实现
19
作者 申峻宇 李东闻 +1 位作者 钟震宇 张玉志 《南开大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期29-35,共7页
预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的重复性和相似性,需要经过去重才能更好地被用于模型训练.目前的去重算法可以去除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据... 预训练语言模型的发展激发对网络数据的大规模需求,而网络数据往往具有较高的重复性和相似性,需要经过去重才能更好地被用于模型训练.目前的去重算法可以去除相似和相同的文本数据,但存在运算效率较低的问题,难以用于处理大规模文本数据.本研究提出一种面向大规模文本数据的去重算法,采用先局部后整体的去重策略,极大提高了去重的运算效率.实验结果表明,算法在50 h内完成371 GB数据的去重处理,较已有算法极大地提高了去重效率. 展开更多
关键词 文本去重 最小哈希 局部敏感哈希
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部