基于哈希计算的大数据冗余消除算法设计被引量：6

Design of Big Data Redundancy Elimination Algorithm Based on Hash Function

下载PDF

导出

摘要传统的大数据冗余消除算法无法实现冗余去重率与吞吐量的冲突平衡,为此,设计一种基于哈希计算的大数据冗余消除算法。依据样本数据在数据集中的边缘程度对数据进行分类处理。采用哈希算法计算分类后数据的相似度与熵值,由此判断数据是否为重复数据,实现消除冗余数据的算法设计。实验结果可知,所提算法最高去重率可达到99%,最高吞吐量可达到26 MB/s,验证了所提算法可有效解决冗余去重率与吞吐量之间的冲突问题。 Traditional big data redundancy elimination algorithms cannot achieve the conflict balance between redundancy deduplication rate and throughput.For this reason,a large data redundancy elimination algorithm based on Hash calculation is designed.The data are classified according to the marginal degree of the sample data.The Hash algorithm is used to calculate the similarity and entropy of the classified data,and to calculate the similarity and entropy of the classified data and determine whether the data are duplicate data.The design of algorithm to eliminate redundant data is implemented.The experimental results show that the highest deduplication rate of the proposed algorithm is 99%,and the highest throughput is 26 Mb/s.This proves that the algorithm in this paper has solved the conflict between redundant deduplication rate and throughput.

作者张淑清 ZHANG Shuqing(Traffic Management Engineering College, Guangxi Police College, Nanning 530022, China)

机构地区广西警察学院交通管理工程学院

出处《微型电脑应用》 2021年第12期68-70,共3页 Microcomputer Applications

基金广西科学研究与技术开发计划项目(2015BC17063)。

关键词哈希计算大数据资源冗余消除 Hash calculation big data resources redundancy elimination

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1宋一凡,张鹏,宗立波,马波,刘立波.改进的基于冗余点过滤的3D目标检测方法[J].计算机应用,2020,40(9):2555-2560. 被引量：4
2程艳艳.非对齐分布冗余数据自适应快速去除方法仿真[J].计算机仿真,2019,36(9):389-392. 被引量：3
3陈思佳,温蜜,陈珊.基于重复数据删除技术的雾存储数据去冗余方案[J].计算机应用与软件,2020,37(2):18-24. 被引量：4
4费宁,徐力杰,成小惠.基于软件定义无线网络的协作式路由实现和性能分析[J].计算机研究与发展,2019,56(5):967-976. 被引量：7
5王林景,高志宇,姚鹏帅.基于时空相关性的传感器网络数据压缩算法[J].吉林大学学报（理学版）,2020,58(2):337-342. 被引量：10
6包涵,王意洁,许方亮.基于生成矩阵变换的跨数据中心纠删码写入方法[J].计算机研究与发展,2020,57(2):291-305. 被引量：6
7吴波,柳毅.基于RCE的云存储动态所有权管理数据去重方案[J].计算机工程与应用,2020,56(5):101-108. 被引量：7
8张大伟,叶蓓蓓.面向冗余数据消除的多维异质网络数据传输控制方法[J].中国电子科学研究院学报,2019,14(5):519-523. 被引量：10

二级参考文献51

1罗象宏,舒继武.存储系统中的纠删码研究综述[J].计算机研究与发展,2012,49(1):1-11. 被引量：93
2谷琼,袁磊,宁彬,吴钊,华丽,李文新.一种基于混合重取样策略的非均衡数据集分类算法[J].计算机工程与科学,2012,34(10):128-134. 被引量：22
3孙琳,王慧强,陈晓明.一种无线传感器网络的置信区间时空数据压缩算法[J].小型微型计算机系统,2012,33(11):2453-2456. 被引量：2
4蒋鹏,吴建峰,吴斌,董林玺,王达.基于自适应最优消零的无线传感器网络数据压缩算法研究[J].通信学报,2013,34(2):1-7. 被引量：11
5刘政,狄佳.一种自适应Huffman算法在无线传感器网络数据压缩中的应用[J].重庆理工大学学报（自然科学）,2013,27(2):84-88. 被引量：6
6陈岁生,卢建刚.基于提升小波和自适应多项式拟合的传感器网络多模数据压缩算法(英文)[J].传感技术学报,2013,26(4):550-557. 被引量：2
7费宁,冯伟,陈春玲,杨亮.多跳无线网络跨层协作式路由协议实现和性能分析[J].计算机应用研究,2013,30(9):2839-2842. 被引量：2
8毕朝国,徐小龙.一种云存储系统中重复数据删除机制[J].计算机应用研究,2014,31(10):3052-3055. 被引量：9
9黄庆卿,汤宝平,邓蕾,肖鑫.无线传感器网络子带能量自适应数据压缩方法[J].仪器仪表学报,2014,35(9):1998-2003. 被引量：24
10孙爱玲,冉禄纯.一种基于重复数据删除的网络文件备份系统设计与实现[J].计算机应用与软件,2014,31(10):86-90. 被引量：8

共引文献42

1彭新玉.基于未来网络关键技术的工业互联网平台方案研究及应用[J].通讯世界,2020,27(1):37-38. 被引量：1
2韩佳彤,施烨辉,张宏娜,李召波,石东升,索满红.数据实时转化技术在智能限高监控平台中的应用研究[J].内蒙古大学学报（自然科学版）,2020,51(3):315-321. 被引量：6
3刘思,张德干,刘晓欢,张婷,吴昊.一种基于判定区域的AODV路由的自适应修复算法[J].计算机研究与发展,2020,57(9):1898-1910. 被引量：5
4陈建兵,梁立,叶志霞.有限拓扑的编码算法[J].云南师范大学学报（自然科学版）,2020,40(5):42-46.
5李萍,王昕.控制网络节点可重构无线通讯协议性能仿真[J].计算机仿真,2021,38(4):129-133. 被引量：5
6陈亮,李峰,任保全,杨建喜.软件定义物联网研究综述[J].电子学报,2021,49(5):1019-1032. 被引量：10
7吕世涛,柳毅.一种改进的细粒度云存储安全去重方案[J].现代计算机,2021,27(23):59-66.
8许德斌.云存储环境下数字化档案敏感信息快速加密研究[J].黑龙江工业学院学报（综合版）,2021,21(6):52-57. 被引量：2
9谢可,郭文静,祝文军,张楠,琚贇.面向电力物联网海量终端接入技术研究综述[J].电力信息与通信技术,2021,19(9):57-69. 被引量：18
10李俊,蒋德勇,王文娟,陈舒娅.基于空间稀疏编码的电子通信数据链加密仿真[J].计算机仿真,2021,38(8):190-193. 被引量：7

同被引文献53

1贾晓红,魏巍,杜晖,尚可政,周开鹏.京津冀及周边地区不同路面条件下的交通事故特征分析[J].兰州大学学报（自然科学版）,2019,55(5):673-680. 被引量：2
2胡永红.数据融合方法在小型飞行器高度定位中的应用[J].计算机测量与控制,2006,14(10):1371-1373. 被引量：10
3刘蓉,陆宇平,肖前贵.高适应性低成本大型无人机导航与控制系统[J].南京航空航天大学学报,2009,41(B12):19-23. 被引量：4
4孙琳琳,侯秀萍,朱波,孙士明,高灿.基于多线程归并排序算法设计[J].吉林大学学报（信息科学版）,2015,33(1):105-110. 被引量：4
5李六杏.分治策略在归并排序中的算法设计[J].赤峰学院学报（自然科学版）,2015,31(15):21-23. 被引量：3
6任品毅,唐晓.面向5G的物理层安全技术综述[J].北京邮电大学学报,2018,41(5):69-77. 被引量：17
7欧连军,曾贵明,梁君.一种嵌入式大气数据系统余度设计方案[J].宇航计测技术,2016,36(2):49-52. 被引量：6
8张雷,代红.面向5G的大规模MIMO技术综述[J].电讯技术,2017,57(5):608-614. 被引量：32
9Ming Liu,Bo Lang,Zepeng Gu,Ahmed Zeeshan.Measuring Similarity of Academic Articles with Semantic Profile and Joint Word Embedding[J].Tsinghua Science and Technology,2017,22(6):619-632. 被引量：11
10邢海花,胡丹,贺辉,余先川.一种基于二分查找的快速降型算法[J].北京师范大学学报（自然科学版）,2018,54(2):179-185. 被引量：4

引证文献6

1刘吕亮,石红春,朱彬.基于5G技术的交通事故判别方法[J].微型电脑应用,2022,38(3):30-33. 被引量：1
2段誉,王加刚,孙磊,蒋冬梅,王玲玲,匡姝静.针对无人机自主飞行的大气数据冗余容错设计[J].弹箭与制导学报,2022,42(6):75-78. 被引量：1
3韩璐,陈威宇,张斐,何建锋,苏怀振.差异化需求下的非关系型分布式报送信息大数据分类方法[J].电信科学,2023,39(6):114-121.
4刘学平,韩博林,张欣茹,李有儒.一种基于双指针的差值对查找算法[J].沈阳航空航天大学学报,2023,40(5):56-65.
5李杨,董元龙,林明晖,高明,岳衡,丁靖.AR智能采集装置在电力设备数据检测中的应用[J].微型电脑应用,2024,40(2):197-200.
6王献军,张岚,许国伟,武柯,杨秀梅.基于大数据的客户热词分析系统的架构设计[J].微型电脑应用,2024,40(6):151-155.

二级引证文献5

1刘月,杨伟樱.基于计算机视觉和霍夫变换的车道线检测研究[J].现代科学仪器,2023,40(2):144-148. 被引量：1
2董阳武.基于无人机机载激光雷达的三维地图构建研究[J].电子技术与软件工程,2023(6):135-138. 被引量：1
3同军红.基于B-CNN模型的非平衡大数据智能分类方法研究[J].信息与电脑,2023,35(15):162-164. 被引量：2
4贺曦冉.海量传感数据分类可视化重构算法设计[J].现代计算机,2023,29(22):30-34.
5谷俐娴.基于SVM的多维相似大数据分类系统设计[J].信息与电脑,2024,36(2):100-102.

1方萍,徐宁.基于BERT双向预训练的图模型摘要抽取算法[J].计算机应用研究,2021,38(9):2657-2661. 被引量：4
2王辉,张健,杭伟.基于卷积神经网络的羚羊图像识别模型研究[J].电子技术与软件工程,2021(17):132-133.
3韩子硕,王春平,付强.基于深层次特征增强网络的SAR图像舰船检测[J].北京理工大学学报,2021,41(9):1006-1014. 被引量：10
4邓思佳,佟兴,唐海波,张召,金澈清.面向区块链的数据管理中间件[J].华东师范大学学报（自然科学版）,2021(5):60-73. 被引量：3
5周迪,周晓聪,候婷.基于统计自然语言分析的九宫格输入法最优键盘布局[J].智能计算机与应用,2021,11(7):202-204. 被引量：1
6朱荣军.物联网感知信息采集过程重复数据批量剔除方法[J].齐齐哈尔大学学报（自然科学版）,2022,38(1):21-25. 被引量：2
7李鲲程,刘秋月,范春梅.数据清洗中文本相似度算法的比较与优化[J].通信管理与技术,2021(5):16-18. 被引量：6

微型电脑应用

2021年第12期

浏览历史

内容加载中请稍等...

基于哈希计算的大数据冗余消除算法设计被引量：6

参考文献8

二级参考文献51

共引文献42

同被引文献53

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于哈希计算的大数据冗余消除算法设计 被引量：6

参考文献8

二级参考文献51

共引文献42

同被引文献53

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于哈希计算的大数据冗余消除算法设计被引量：6