期刊文献+
共找到98篇文章
< 1 2 5 >
每页显示 20 50 100
基于Simhash算法的题库查重系统的设计与实现
1
作者 熊良钰 邓伦丹 《科学技术创新》 2024年第9期91-94,共4页
Simhash算法是一种基于局部敏感哈希(LSH)的技术,以其快速的计算速度和高度的查重准确性而知名。该算法通过将文本特征转换为二进制码,进而通过计算这些二进制码之间的汉明距离来评估文本的相似度。在文本去重和重复文档检测等多个领域,... Simhash算法是一种基于局部敏感哈希(LSH)的技术,以其快速的计算速度和高度的查重准确性而知名。该算法通过将文本特征转换为二进制码,进而通过计算这些二进制码之间的汉明距离来评估文本的相似度。在文本去重和重复文档检测等多个领域,Simhash算法已经展现出了显著的效果。鉴于此,将Simhash算法应用于题库查重具有很高的可行性和实际应用价值。 展开更多
关键词 simhash算法 汉明距离 题库查重系统 文本相似度计算 哈希函数
下载PDF
基于SimHash算法的主机网络嗅探攻击自主检测方法 被引量:1
2
作者 何珏 常安 +1 位作者 孙萌 黄怀霖 《电子设计工程》 2023年第13期79-82,88,共5页
目前提出的主机网络嗅探攻击自主检测方法转发包数据过高,导致嗅探攻击成本过低,难以在短时间内实现嗅探攻击检测。为了解决上述问题,以SimHash算法作为检测核心,提出了一种新的主机网络嗅探攻击自主检测方法。嗅探器在捕获主机网络系... 目前提出的主机网络嗅探攻击自主检测方法转发包数据过高,导致嗅探攻击成本过低,难以在短时间内实现嗅探攻击检测。为了解决上述问题,以SimHash算法作为检测核心,提出了一种新的主机网络嗅探攻击自主检测方法。嗅探器在捕获主机网络系统内通信信息时,利用通信链路的特点和算法,建立三个约束条件用于选择最佳通信链路的最佳路径,通过路径剔除确定主机内非法信息的通信路径,确保嗅探器获取通信链路信息的真实性。计算比特流向量序列,检测数据错误包,通过数据信息的切割提高嗅探攻击成本,实现了主机网络嗅探攻击自主检测。实验结果表明,基于SimHash算法的主机网络嗅探攻击自主检测方法能够提高嗅探攻击成本,在短时间内实现主机网络嗅探攻击自主检测。 展开更多
关键词 simhash算法 主机网络 嗅探攻击 自主检测
下载PDF
一种结合TF-IDF和Simhash的科技项目文本相似性度量方法 被引量:5
3
作者 孙北宁 吕维新 +1 位作者 曾俊 肖衡 《电子技术应用》 2023年第6期89-93,共5页
为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高... 为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高权重值的重要词项;其次,使用Simhash把重要词项映射为固定长度的二进制串,并求和得到文本的Simhash签名;最后,使用汉明距离计算两个Simhash签名间的相似性。实验结果表明,所提方法在查准率、召回率和F度量值方面优于传统的Simhash算法和TF-IDF方法。 展开更多
关键词 科技项目文本 文本相似度 TF-IDF simhash算法
下载PDF
改进型SimHash算法用于代码数据相似度检测 被引量:2
4
作者 徐莉 刘威 常兴治 《福建电脑》 2023年第6期41-45,共5页
在程序设计类课程的教学过程中,对学生代码的分析和检测能够有效反映学生的课堂学习行为和知识点掌握情况。学生书写速度的不同会导致相同周期内程序代码长度不一致,对从时间维度提取代码文件的特征会有一定的影响。本文提出了一种用于... 在程序设计类课程的教学过程中,对学生代码的分析和检测能够有效反映学生的课堂学习行为和知识点掌握情况。学生书写速度的不同会导致相同周期内程序代码长度不一致,对从时间维度提取代码文件的特征会有一定的影响。本文提出了一种用于检测代码相似度的改进型SimHash算法。首先,将学生代码以时间序列进行收集,统计代码的有效行数和字符数量,并结合整个课堂讲授周期数据计算代码有效性权重;其次,对学生代码进行动态时间规整,使学生代码在相同的周期内长度一致;随后,提取代码文件的SimHash特征,根据代码有效性权重对特征进行加权处理并降维,得到改进型SimHash特征;最后,根据代码文件的改进型SimHash特征,计算代码相似度。实验表明,本文提出的算法能够有效计算代码的相似度。 展开更多
关键词 程序设计 代码相似度 simhash特征 动态时间规整
下载PDF
基于多SimHash指纹的近似文本检测 被引量:21
5
作者 董博 郑庆华 +2 位作者 宋凯磊 田锋 马瑞 《小型微型计算机系统》 CSCD 北大核心 2011年第11期2152-2157,共6页
近似文本检测已成为当前研究热点.基于SimHash指纹的近似文本检测是主流的检测方法之一.但使用SimHash进行近似文本检测存在如下问题:指纹位数单一,丢失了一定量的信息.针对该问题,为使SimHash指纹尽可能多地代表文档的内容或特征,通过... 近似文本检测已成为当前研究热点.基于SimHash指纹的近似文本检测是主流的检测方法之一.但使用SimHash进行近似文本检测存在如下问题:指纹位数单一,丢失了一定量的信息.针对该问题,为使SimHash指纹尽可能多地代表文档的内容或特征,通过对术语集的统计特征分析,提出基于多SimHash指纹和k维超曲面的近似文本检测算法.实验表明基于多Sim-Hash指纹的近似文本检测算法提高了检测的准确率,而且所增加的时间代价很小. 展开更多
关键词 近似文本检测 simhash simhash指纹 术语统计
下载PDF
基于Simhash算法的重复数据删除技术的研究与改进 被引量:15
6
作者 陈春玲 陈琳 +1 位作者 熊晶 余瀚 《南京邮电大学学报(自然科学版)》 北大核心 2016年第3期85-91,共7页
为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征... 为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征值的词性与词长两大影响因素考虑其中。然后对产生的签名值进行汉明距离的比较,从而精确地判定出待比较者是否为相似数据。实验结果表明:改进的算法性能得到提高,并且总体优于Shingle算法和原Simhash算法。通过提高签名值的精度能够实现大规模文档中相似技术的精确检测,达到理想的去重效果。 展开更多
关键词 相似检测 simhash算法 TF-IDF技术 指纹计算 汉明距离
下载PDF
加密云数据下基于Simhash的模糊排序搜索方案 被引量:28
7
作者 杨旸 杨书略 柯闽 《计算机学报》 EI CSCD 北大核心 2017年第2期431-444,共14页
为了保护数据隐私,数据拥有者会将敏感数据的密文外包到云服务器,这使得传统明文搜索技术难以使用.因此可搜索加密技术被用于对密文数据进行搜索,实现高效的数据利用.然而目前在加密云数据中,关键词模糊搜索方案主要是通过构造关键词模... 为了保护数据隐私,数据拥有者会将敏感数据的密文外包到云服务器,这使得传统明文搜索技术难以使用.因此可搜索加密技术被用于对密文数据进行搜索,实现高效的数据利用.然而目前在加密云数据中,关键词模糊搜索方案主要是通过构造关键词模糊集合来实现,其需要大量的计算和存储开销.本文提出的搜索方案,无需构造关键词模糊集合,而是基于Simhash的降维思想,将文档关键词做n-gram处理并得到Simhash指纹来实现模糊搜索.该文结合汉明距离和关键词相关度分数,设计了双因子排序算法对查询结果进行排序.使用树索引结构和新型遍历方法进一步提高了搜索效率.通过新型遍历方法,即使树的节点值与期望值不相等,也能够对树进行遍历.理论分析和实验结果表明:该方案实现了加密云数据下的关键词模糊搜索,同时极大地节约了时间和空间成本. 展开更多
关键词 云计算 加密云数据 隐私保护 可搜索加密 模糊排序搜索 simhash
下载PDF
基于多层SimHash的Android恶意应用程序检测方法 被引量:3
8
作者 陈波 潘永涛 陈铁明 《通信学报》 EI CSCD 北大核心 2017年第S2期30-36,共7页
提出一个基于多层SimHash的相似度检测方法,通过对APK文件进行分析,最终从5个方面提取分析内容来表征APK,同时在每一层上使用改进的SimHash方法进行相似度检测分析。通过从APK文件中提取的Android Manifest.xml文件、从dex反编译得出的S... 提出一个基于多层SimHash的相似度检测方法,通过对APK文件进行分析,最终从5个方面提取分析内容来表征APK,同时在每一层上使用改进的SimHash方法进行相似度检测分析。通过从APK文件中提取的Android Manifest.xml文件、从dex反编译得出的Smali代码累加和、Smali文件指令提取、Java代码集合、Java指令集提取5个层面进行分析。同时通过学习Voted Perceptron投票算法,将其应用到检测过程中,采用信任值权重的方法,为每一层赋予一个可信值,并在最后得出结果时将每一层结果结合权重分析,实验分析结果表明该方法具有更好的检测效果。 展开更多
关键词 ANDROID 代码检测 simhash Voted PERCEPTRON
下载PDF
网页查重算法Shingling和Simhash研究 被引量:17
9
作者 马成前 毛许光 《计算机与数字工程》 2009年第1期15-17,108,共4页
随着网络信息爆炸式增长,人们对信息检索有了更高的要求。在海量的网页中,有很多重复的网页。网页查重可以节省网络带宽,降低存储成本,提高搜索引擎的性能。在网页查重算法中shingling和simhash是比较重要和经典的算法,文中对两种算法... 随着网络信息爆炸式增长,人们对信息检索有了更高的要求。在海量的网页中,有很多重复的网页。网页查重可以节省网络带宽,降低存储成本,提高搜索引擎的性能。在网页查重算法中shingling和simhash是比较重要和经典的算法,文中对两种算法做了介绍,包括算法的原理,存在的问题及改进等。 展开更多
关键词 网页查重 搜索引擎 shingling simhash
下载PDF
基于Simhash的海量相似文档快速搜索优化方法 被引量:7
10
作者 张广庆 葛唯益 贺成龙 《指挥信息系统与技术》 2015年第2期61-65,共5页
相似文档搜索指检索与给定查询文档相似的文档,在大数据处理中具有广泛的应用,如近似网页检测、新闻报道聚合以及抄袭检测等。为实现海量相似文档的快速搜索,可采用Simhash指纹方法将文档映射成二进制指纹,以海明距离表达文档相似度,并... 相似文档搜索指检索与给定查询文档相似的文档,在大数据处理中具有广泛的应用,如近似网页检测、新闻报道聚合以及抄袭检测等。为实现海量相似文档的快速搜索,可采用Simhash指纹方法将文档映射成二进制指纹,以海明距离表达文档相似度,并通过指纹分段建立索引提高计算效率。针对传统方法在指纹分段过程中大量冗余计算影响到计算效率的问题,提出了基于顺序匹配的候选集筛选方法,以减少指纹相似性计算量和网络带宽消耗,实现快速搜索。试验表明,该方法具有较好的性能和可扩展性。 展开更多
关键词 simhash方法 相似文档搜索 顺序匹配
下载PDF
基于Simhash的大规模文档去重改进算法研究 被引量:9
11
作者 王诚 王宇成 《计算机技术与发展》 2019年第2期115-119,共5页
针对大规模文档去重算法Simhash存在的缺点和不足,提出一种改进的Simhash算法。首先从多个维度综合计算文档的相似度,包括文档内容、文档关键字、文档的标签、文档的引用文献等方面,定义一个新的公式用于计算文档相似度。其次改进Simhas... 针对大规模文档去重算法Simhash存在的缺点和不足,提出一种改进的Simhash算法。首先从多个维度综合计算文档的相似度,包括文档内容、文档关键字、文档的标签、文档的引用文献等方面,定义一个新的公式用于计算文档相似度。其次改进Simhash算法计算文档特征的方法,通过TF-IDF技术和单词的主题相关性综合计算单词的权重,TF-IDF技术用于计算一个关键词在一个文档集中的一篇文档的重要性,将专业术语词汇的长度统计函数作为判断单词主题相关性的依据。最后在检索步骤中采用哈希到桶的思想,此时出现分布不均匀的情况,为此设定一个阈值,当超过阈值时,对桶内的元素进行二次哈希,可以减少候选对的数量并且使分布更加均匀。实验结果表明,改进后的算法可以明显提高原Simhash算法的效率和准确率。 展开更多
关键词 Web大数据 simhash 近似文本检测 多维度 二次哈希
下载PDF
基于Simhash的中文文本去重技术研究 被引量:5
12
作者 彭双和 图尔贡.麦提萨比尔 周巧凤 《计算机技术与发展》 2017年第11期137-140,145,共5页
随着计算机技术的飞速发展,各领域存储系统中的数据存储量迅猛上升,而其中的冗余数据也呈不断增加趋势。以往的研究表明,某些存储系统中的冗余数据已达60%,其存储管理成本较高。处理冗余数据已成为目前存储系统研究的热点。为此,提出了... 随着计算机技术的飞速发展,各领域存储系统中的数据存储量迅猛上升,而其中的冗余数据也呈不断增加趋势。以往的研究表明,某些存储系统中的冗余数据已达60%,其存储管理成本较高。处理冗余数据已成为目前存储系统研究的热点。为此,提出了一种基于Simhash的中文文本去重方案。该方案采用数据块作为粒度对重复数据进行去重处理,主要是将中文文本中的"。?!"等特殊字符作为分割点,对数据进行相应的分块处理,并以Simhash作为唯一标识,通过海明距离(Hamming Distance)来判断其相似性并以此为依据进行数据去重。对比验证实验结果表明,相比于传统的hash去重技术,提出的基于Simhash的去重方案具有更高的去重率和准确率,展现了较好的应用价值和应用前景。 展开更多
关键词 重复数据删除 simhash HASH 数据分块
下载PDF
基于改进的Simhash算法的相似文档识别技术 被引量:3
13
作者 张兴兰 何丹丹 《计算机科学与应用》 2020年第2期371-378,共8页
[目的/意义]:为了实现在海量文本中更加高效准确检测出相似文本。[方法]:本文对基于Simhash算法的相似文档识别技术进行研究改进,对Simhash签名值的计算方法作出改进,分词阶段使用ICTCLAS分词系统,文本特征词的权重计算方法采用TF-IDF技... [目的/意义]:为了实现在海量文本中更加高效准确检测出相似文本。[方法]:本文对基于Simhash算法的相似文档识别技术进行研究改进,对Simhash签名值的计算方法作出改进,分词阶段使用ICTCLAS分词系统,文本特征词的权重计算方法采用TF-IDF技术,同时将特征词的词性、词长、是否为标志词与是否被包含在标题中几大方面作为权重计算的考虑因素。最后使用汉明距离对文档签名值进行比较,从海量文档中精确地找出相似文档。[结论]:通过改进TF-IDF权重,使得改进的Simhash算法在相似文档识别准确率上优于其他算法。 展开更多
关键词 相似文档检测 simhash算法 TF-IDF算法 指纹计算 汉明距离
下载PDF
基于Simhash算法的大规模文档去重技术研究 被引量:12
14
作者 余意 张玉柱 胡自健 《信息通信》 2015年第2期28-29,共2页
随着互联网的发展,重复的网络信息越来越多,所以,大规模的文档去重技术研究逐渐成为热点。文中对基于Simhash算法的大规模文档去重技术进行了研究,并且以Simhash算法为文档去重的核心算法作基础对该算法获取文档特征的过程进行改进,将... 随着互联网的发展,重复的网络信息越来越多,所以,大规模的文档去重技术研究逐渐成为热点。文中对基于Simhash算法的大规模文档去重技术进行了研究,并且以Simhash算法为文档去重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词词义和词长作为衡量单词权重的考量因素。通过理论分析以及相应的实验数据表明,文章提出的改进方法实现了在大规模文档数据基础上对相似文档的快速检测。 展开更多
关键词 相似文本检测 simhash 指纹计算
下载PDF
Simhash算法在试题查重中的应用 被引量:1
15
作者 冉崇善 邵春霞 《软件导刊》 2018年第2期151-153,157,共4页
随着在线教育平台的兴起,为了解决大量试题带来的存储开支问题,试题查重技术应运而生。提出将改进的Simhash算法应用到试题查重中,首先根据结巴分词技术将试题文本进行切分,然后根据TF-IDF技术并结合词语的词性及词长算出关键词权重,以... 随着在线教育平台的兴起,为了解决大量试题带来的存储开支问题,试题查重技术应运而生。提出将改进的Simhash算法应用到试题查重中,首先根据结巴分词技术将试题文本进行切分,然后根据TF-IDF技术并结合词语的词性及词长算出关键词权重,以期达到对Simhash签名值的精确计算,最后通过带有索引功能的海明距离检测出相似试题。实验结果验证了此方案的可行性。 展开更多
关键词 试题查重 simhash算法 海明距离 签名值
下载PDF
基于BM25-IWF特征提取的改进Simhash算法 被引量:1
16
作者 黄迎春 王港 《移动信息》 2021年第5期7-10,共4页
传统的Simhash 网页去重是基于词频文档逆频率(TF-IDF)提取特征词的算法,存在会将部分停用词权重放大、文章长度影响特征词的权重以及同类语料库中特征词的权重被稀释的问题。基于此,文章提出了一种基于惩罚因子词语逆频率(BM25-IWF)的S... 传统的Simhash 网页去重是基于词频文档逆频率(TF-IDF)提取特征词的算法,存在会将部分停用词权重放大、文章长度影响特征词的权重以及同类语料库中特征词的权重被稀释的问题。基于此,文章提出了一种基于惩罚因子词语逆频率(BM25-IWF)的Simhash算法,计算权重时,加入惩罚因子限制词频数值过大,减小文档长度对权重的影响,然后使用词语逆频率来解决同类语料库中特征词的权重被稀释的问题。从哈工大语料库中随机挑选1000篇文档,改进的Simhash算法进行相似度判断的平均精确率达94.82%,平均召回率达90.69%。相较于传统的Simhash算法,改进算法的精确率和召回率更高,更能实现网页的精准去重。 展开更多
关键词 网页去重 simhash算法 BM25-IWF 特征提取
下载PDF
基于SimHash算法的SQL注入攻击检测方法 被引量:6
17
作者 孔德广 蒋朝惠 郭春 《计算机应用研究》 CSCD 北大核心 2020年第7期2117-2122,共6页
针对目前SQL注入攻击检测中存在的问题进行研究,提出一种基于SimHash算法的SQL注入检测方法,首先通过自学习过程将每一条SQL语句经过分词、散列、加权、合并,降维生成初始SimHash指纹库,然后基于SimHash利用初始指纹库构建具有索引结构... 针对目前SQL注入攻击检测中存在的问题进行研究,提出一种基于SimHash算法的SQL注入检测方法,首先通过自学习过程将每一条SQL语句经过分词、散列、加权、合并,降维生成初始SimHash指纹库,然后基于SimHash利用初始指纹库构建具有索引结构的SimHash指纹库,再结合非黑即白的强白名单策略来判断每条SQL语句的合法性,从而降低黑客绕过防御体系的风险。实验结果表明,该检测方法对于SQL注入攻击具有很好的检测性能,并且具有抵御未知SQL注入攻击的能力,特别适用于中小型网站。 展开更多
关键词 SQL注入 simhash 白名单 防御体系
下载PDF
基于Simhash的安全密文排序检索方案 被引量:1
18
作者 李珍 姚寒冰 穆逸诚 《计算机应用》 CSCD 北大核心 2019年第9期2623-2628,共6页
针对密文检索中存在的计算量大、检索效率不高的问题,提出一种基于Simhash的安全密文排序检索方案。该方案基于Simhash的降维思想构建安全多关键词密文排序检索索引(SMRI),将文档处理成指纹和向量,利用分段指纹和加密向量构建B+树,并采... 针对密文检索中存在的计算量大、检索效率不高的问题,提出一种基于Simhash的安全密文排序检索方案。该方案基于Simhash的降维思想构建安全多关键词密文排序检索索引(SMRI),将文档处理成指纹和向量,利用分段指纹和加密向量构建B+树,并采用“过滤精化”策略进行检索和排序,首先通过分段指纹的匹配进行快速检索,得到候选结果集;然后通过计算候选结果集与查询陷门的汉明距离和向量内积进行排序,带密钥的Simhash算法和安全k近邻(S k NN)算法保证了检索过程的安全性。实验结果表明,与基于向量空间模型(VSM)的方案相比,基于SMRI的排序检索方案计算量小,能节约时间和空间成本,检索效率高,适用于海量加密数据的快速安全检索。 展开更多
关键词 密文检索 排序检索 simhash 隐私保护 安全k近邻
下载PDF
基于主成分分析与Simhash的入侵检测方法 被引量:3
19
作者 周龙泉 卫文学 《计算机与数字工程》 2015年第7期1291-1294,1299,共5页
论文提出一种基于主成分分析(PCA)与Simhash的入侵检测技术。利用PCA得到属性的特征值作为权重,再利用Simhash的思想得到每一条数据的指纹。通过对比网络数据指纹之间的Hamming距离可以发现,"正常"数据与"非正常"... 论文提出一种基于主成分分析(PCA)与Simhash的入侵检测技术。利用PCA得到属性的特征值作为权重,再利用Simhash的思想得到每一条数据的指纹。通过对比网络数据指纹之间的Hamming距离可以发现,"正常"数据与"非正常"数据之间存在较为明显的差异。利用KDD99数据集进行模拟实验,使用该方法与目前常见的基于SVM的技术进行比较,可以得出结论:在保证准确率的基础上,该方法在时效性上有显著提高。 展开更多
关键词 主成分分析 simhash 入侵检测 网络数据指纹 HAMMING距离
下载PDF
基于Simhash算法的Webshell检测方法 被引量:1
20
作者 孔德广 蒋朝惠 +1 位作者 郭春 周燕 《通信技术》 2018年第3期666-670,共5页
Webshell后门是我国面临的严重安全威胁之一。由于Webshell隐蔽性强,已成为黑客布置后门的主要方式。传统Webshell检测方法普遍存在检测时间长、检测严重滞后、误报高等问题。因此,提出了一种基于Simhash算法的Webshell检测方法。该方... Webshell后门是我国面临的严重安全威胁之一。由于Webshell隐蔽性强,已成为黑客布置后门的主要方式。传统Webshell检测方法普遍存在检测时间长、检测严重滞后、误报高等问题。因此,提出了一种基于Simhash算法的Webshell检测方法。该方法结合Webshell代码复用思想构建Simhash指纹库,可以做到实时检测、实时告警,可应用于中小型网站。对该检测方法进行实验分析,并与其他检测工具进行比较,证明了该检测方法在低误报情况下,也能较好地检测出Webshell。 展开更多
关键词 WEBSHELL simhash 实时检测 代码复用
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部