基于MapReduce模型的大数据相似重复记录检测算法被引量：41

A Similar Duplicate Record Detection Algorithm for Big Data Based on MapReduce

下载PDF

导出

摘要针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进行实例分析,以验证MP-SYYT算法的高效性和实用性. In view of the characteristics of multi-source,high dimension and large volume of big data,traditional algorithms have been unable to effectively complete the similar duplicate records detection for big data,therefore,a new parallel algorithm MP-SYYT for the detection of similar duplicate records of big data in the cloud environment is put forward.Firstly,Institute of computing technology chinese lexical analysis system(ICTCLAS)word segmentation technology,Delphi method and team frequency Inverse document frequency(TF-IDF)algorithm are used to improve the traditional SimHash algorithm,and these methods effectively solve the insufficiency of the traditional one,such as the low extraction speed,the imprecision of the keywords,and the low accuracy on weight calculation.Secondly,the inversed file retrieval algorithm is used to optimize the traditional SimHash algorithm to improve the matching efficiency of similar duplicate records.Finally,the Map function and the Reduce function based on the improved SimHash algorithm are defined on a cloud platform to realize the parallel detection of big data and the direct output of duplicate records in cloud environment with MapReduce model,and an experimental analysis about the multi-source measured data is made on a Hadoop platform.The results show that MP-SYYT is an efficient and accurate algorithm with good scalability and acceleration ratio,and it is suitable for similar duplicate record detection of big data.

作者宋人杰余通陈宇红陈宇阳夏滨

机构地区东北电力大学信息工程学院国网吉林供电公司

出处《上海交通大学学报》 EI CAS CSCD 北大核心 2018年第2期214-221,共8页 Journal of Shanghai Jiaotong University

基金国家自然科学基金项目(61271115)资助

关键词云环境大数据相似重复记录并行检测冗余识别 cloud environment big data similar duplicate records parallel detection redundant identification

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1曲朝阳,陈帅,杨帆,朱莉.基于云计算技术的电力大数据预处理属性约简方法[J].电力系统自动化,2014,38(8):67-71. 被引量：94
2曲朝阳,孙立擎,许劭庆,蔺树全,尹相爱.基于B+树的电力大数据分布式索引[J].东北电力大学学报,2016,36(5):80-85. 被引量：6
3敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119
4李建中,王宏志,高宏.大数据可用性的研究进展[J].软件学报,2016,27(7):1605-1625. 被引量：65
5池子文,张丰,杜震洪,刘仁义.云环境下基于预分片的遥感数据并行重采样方法[J].上海交通大学学报,2014,48(11):1627-1632. 被引量：4
6崔霞,施光林,沈伟.基于分组数据处理神经网络气动人工肌肉迟滞特性[J].上海交通大学学报,2012,46(6):931-935. 被引量：7
7曲朝阳,朱莉,张士林.基于Hadoop的广域测量系统数据处理[J].电力系统自动化,2013,37(4):92-97. 被引量：56
8陈明.桥梁预警系统的数据预处理[J].上海交通大学学报,2012,46(10):1680-1685. 被引量：1
9李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：260

二级参考文献265

1刘永楠,邹兆年,李建中,王海洁.数据完整性的评估方法[J].计算机研究与发展,2013,50(S1):230-238. 被引量：11
2罗建裕,王小英,鲁庭瑞,刘华伟,徐春雷,谢小荣,肖晋宇,李建,吴京涛,王立鼎,胡炯,张涛.基于广域测量技术的电网实时动态监测系统应用[J].电力系统自动化,2003,27(24):78-80. 被引量：75
3杨钢,李宝仁.基于CMAC的气动人工肌肉变结构位置控制研究[J].机械工程学报,2004,40(10):92-96. 被引量：9
4徐田军,王桂增.GMDH中部分表达式的构成及改进方法[J].自动化学报,1994,20(4):470-475. 被引量：8
5丁幼亮,李爱群,缪长青.基于小波包能量谱的结构损伤预警方法研究[J].工程力学,2006,23(8):42-48. 被引量：80
6姜伟,徐章艳,杨炳儒.基于数据库的属性约简模型的快速求核算法[J].计算机工程与应用,2007,43(16):189-190. 被引量：5
7胡峰,王国胤.属性序下的快速约简算法[J].计算机学报,2007,30(8):1429-1435. 被引量：49
8Bhagwat D,Pollack K,Long DDE,Schwarz T,Miller EL,P-ris JF.Providing high reliability in a minimum redundancy archival storage system.In:Proc.of the 14th Int'l Symp.on Modeling,Analysis,and Simulation of Computer and Telecommunication Systems (MASCOTS 2006).Washington:IEEE Computer Society Press,2006.413-421.
9Zhu B,Li K.Avoiding the disk bottleneck in the data domain deduplication file system.In:Proc.of the 6th Usenix Conf.on File and Storage Technologies (FAST 2008).Berkeley:USENIX Association,2008.269-282.
10Bhagwat D,Eshghi K,Mehra P.Content-Based document routing and index partitioning for scalable similarity-based searches in a large corpus.In:Berkhin P,Caruana R,Wu XD,Gaffney S,eds.Proc.of the 13th ACM SIGKDD Int'l Conf.on Knowledge Discovery and Data Mining (KDD 2007).New York:ACM Press,2007.105-112.

共引文献584

1马捷,葛岩,蒲泓宇.属性约简方法研究综述[J].数据分析与知识发现,2020,4(1):40-50. 被引量：11
2张安珍,李建中,高宏.基于符号语义的不完整数据聚集查询处理算法[J].软件学报,2020,31(2):406-420. 被引量：8
3陈宁,陈孝文,冯世杰,吕志鹏,陈习,张娜,王岩.基于Hadoop的电力客户用电地址存储与结构化管理系统设计[J].微型电脑应用,2020,36(2):97-101. 被引量：4
4杨超,袁翰青,王彬,苗占群,周兴华,石亚欣.基于三次卷积插值的电网负载热力图分析方法[J].科技通报,2020(2):69-73. 被引量：2
5王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147.
6丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：5
7黄乙中.浅谈数据治理建设方案[J].轻工科技,2020(1):65-67. 被引量：3
8张砚波,刘正伟,文中领,王永海.一种高效存储解决方案的分析与研究[J].计算机研究与发展,2012,49(S1):180-184. 被引量：9
9马井玮,王克宾,赵彬,马良,王刚,刘晓光.基于重复数据删除的连续数据保护系统的快速回滚[J].计算机研究与发展,2012,49(S1):196-200.
10陆游游,敖莉,舒继武.一种基于重复数据删除的备份系统[J].计算机研究与发展,2012,49(S1):206-210. 被引量：5

同被引文献358

1张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
2周鑫,田兵,许爱东,张斌,黄伟,魏文潇,于力,董旭柱.基于CYMDIST的配电网运行优化技术及算例分析[J].电网与清洁能源,2015,31(2):91-97. 被引量：21
3曹建军,张培林,王艳霞,任国全,傅建平.一种求解子集问题的基于图的蚂蚁系统[J].系统仿真学报,2008,20(22):6146-6150. 被引量：16
4潘志松,陈斌,缪志敏,倪桂强.One-Class分类器研究[J].电子学报,2009,37(11):2496-2503. 被引量：37
5庞雄文,姚占林,李拥军.大数据量的高效重复记录检测方法[J].华中科技大学学报（自然科学版）,2010,38(2):8-11. 被引量：15
6曹建军,刁兴春,汪挺,王芳潇.领域无关数据清洗研究综述[J].计算机科学,2010,37(5):26-29. 被引量：27
7桂勇哲,张进宇.基于覆盖网络多路径与并行TCP的传输技术[J].计算机应用,2010,30(5):1171-1175. 被引量：4
8肖满生,周浩慧,王宏.基于模糊综合评判的相似重复记录识别方法[J].计算机工程,2010,36(13):51-53. 被引量：14
9叶明全,伍长荣,胡学钢.基于粗糙集的医疗数据挖掘研究与应用[J].计算机工程与应用,2010,46(21):232-234. 被引量：11
10曹建军,刁兴春,杜鹢,王芳潇,张潇毅.基于蚁群特征选择的相似重复记录分类检测[J].兵工学报,2010,31(9):1222-1227. 被引量：8

引证文献41

1李冉.基于语义图模型的跨语言网络信息检索方法研究[J].周口师范学院学报,2020(2):100-103. 被引量：3
2刘刚.断下线故障的原因及排除方法：（以GB1—1型,GC1—2型为例）[J].中外缝制设备,2000(2):42-43.
3陈亮,杜璐,胡康.基于分块和滑窗技术的相似重复记录检测算法研究[J].计算机应用与软件,2019,36(4):262-267. 被引量：7
4李芳菊.基于Hadoop的网络行为大数据安全实体识别系统设计[J].现代电子技术,2019,42(17):75-79. 被引量：15
5胡小琴.基于梯度提升回归树的大数据集离群点挖掘模型构建[J].佳木斯大学学报（自然科学版）,2019,37(5):743-747.
6龙文麟.基于大数据的环境监测与治理对策探究[J].中国资源综合利用,2019,37(10):156-158. 被引量：5
7王艳华.档案数字化保密存储格式控制方法分析[J].太原师范学院学报（自然科学版）,2019,18(4):59-64.
8吕国俊,曹建军,郑奇斌,常宸,翁年凤,彭琮.基于多目标蚁群优化的单类支持向量机相似重复记录检测[J].兵工学报,2020,41(2):324-331. 被引量：12
9李杰,邹慧兰.大数据交叉映射融合的逆向云算法仿真[J].计算机仿真,2020,37(2):284-288. 被引量：2
10张航,盛志伟,张仕斌,杨敏.Simhash算法在文本去重中的应用[J].计算机工程与应用,2020,56(11):246-251. 被引量：7

二级引证文献95

1孙一宁.基于大数据的环境监测与治理研究[J].智能城市,2020,6(22):123-124. 被引量：2
2闵方辰.无线网络的数据加密方法及密钥的数据破解技术研究与实践[J].中国公共安全,2023(6):133-135.
3朱春燕,杨燕艳.基于Hadoop区域智慧教育云平台的教育应用研究[J].科技传播,2019,11(23):100-102.
4沈贤永.环境监测与治理过程中存在的问题与对策[J].中国资源综合利用,2020,38(5):114-116.
5罗琨.ETL技术在提高统一社会信用代码数据质量中的应用研究[J].标准科学,2020(6):103-108. 被引量：1
6龚明明,叶伦强.地震信息网络数据的动态存储方法研究[J].地震工程学报,2020,42(4):1043-1048. 被引量：6
7马歌.基于Stackelberg⁃Markov的网络攻击识别系统设计[J].现代电子技术,2021,44(1):29-33. 被引量：1
8潘云.基于Hadoop技术的疗养中心信息化建设与改进[J].生命科学仪器,2020,18(5):59-65. 被引量：3
9孔庆波.基于Hadoop平台的电力统计不良数据高效识别方法研究[J].电子设计工程,2020,28(24):95-99. 被引量：5
10职晓晓.基于深度学习的大规模数据库重复记录删除研究[J].现代电子技术,2021,44(5):114-116. 被引量：2

1冉德彤,游宏梁.一种基于数据一致性的记录比较方法[J].电子设计工程,2018,26(1):66-69. 被引量：4
2孔德广,蒋朝惠,郭春,周燕.基于Simhash算法的Webshell检测方法[J].通信技术,2018,51(3):666-670. 被引量：1
3张洪,赵平,伍玲,牛新征.基于Spark的分布式车流量检测方法设计与实现[J].计算机测量与控制,2018,26(2):199-202. 被引量：3
4韩涛,兰雨晴,肖利民,刘艳芳.一种增量并行式动态图异常检测算法[J].北京航空航天大学学报,2018,44(1):117-124. 被引量：8
5杨宏宇,王玥.云存储环境下的多关键字密文搜索方法[J].计算机应用,2018,38(2):343-347. 被引量：6
6高阳,李哲,苑司坤,商兵兵,张小斐.电力气象系统数据存储优化方案[J].现代信息科技,2018,2(1):155-157.
7何安娜,陈华辉.大规模数据的集合相似度估计研究进展[J].无线通信技术,2017,26(4):1-5. 被引量：2
8王鸿滨.从古文字构形看汉语的语法信息[J].励耘语言学刊,2017(2):300-315.
9一种从废次烟梗中制备总糖的方法[J].化学分析计量,2018,27(1):38-38.
10秦明有.竹叶多糖超声提取工艺研究[J].皮革与化工,2018,35(1):25-28. 被引量：5

上海交通大学学报

2018年第2期

浏览历史

内容加载中请稍等...

基于MapReduce模型的大数据相似重复记录检测算法被引量：41

参考文献9

二级参考文献265

共引文献584

同被引文献358

引证文献41

二级引证文献95

相关作者

相关机构

相关主题

浏览历史

基于MapReduce模型的大数据相似重复记录检测算法 被引量：41

参考文献9

二级参考文献265

共引文献584

同被引文献358

引证文献41

二级引证文献95

相关作者

相关机构

相关主题

浏览历史

基于MapReduce模型的大数据相似重复记录检测算法被引量：41