基于数据分组匹配的相似重复记录检测被引量：6

Detection of Approximately Duplicated Records Based on Data Grouping Matching

下载PDF

导出

摘要针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数据分组思想选择权值大的属性,将数据集分割成不相交的小数据集,并在各小数据集中用模糊匹配算法进行相似重复记录的识别。理论分析和实验结果表明,该方法识别效率和检测精度较高。 Approximately duplicated records in multi-source data integration is one of the key factors affecting the data quality. A data grouping algorithm based on properties optimization of records is proposed in order to improve identification accuracy and detection efficiency. The method firstly calculates the variance of a property to determine the weight of the property, then chooses the property of larger weight to split the data sets into small data sets according to the thoughts on data grouping and duplicated records are identified based on the algorithm of fuzzy matching. Through theory analysis and experiments, it shows that identification accuracy and detection efficiency of the method are higher and it can effectively solve the problems of identification in approximately duplicate records of the data integration.

作者周丽娟肖满生

机构地区湖南工业大学科技学院

出处《计算机工程》 CAS CSCD 北大核心 2010年第12期104-106,共3页 Computer Engineering

基金湖南省高等学校科学研究基金资助项目(09C339)

关键词多源数据集属性优选数据分组匹配相似重复记录 multi-source data sets properties optimization data grouping matching approximately duplicated records

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Monge A.An Adaptive and Efficient Algorithm for Detecting Approximately Duplicate Database Records[EB/OL].(2007-09-02).http://citeseer.ist.psu.edu/mongeovadaptive.html.
2Khan H M,Maly K,Zubair M.Similarity and Duplicate Detection System for an OAI Compliant Federated Digital Library[C] //Proc.of ECDL'05.Vienna,Austria:[s.n.] ,2005.
3Foulonneau M.Information Redundancy Across Metadata Collections[J].Information Processing and Management,2007,43(3):740-751.
4李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
5时念云,张金明,褚希.基于CURE算法的相似重复记录检测[J].计算机工程,2009,35(5):56-58. 被引量：11
6张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
7王天江,刘芳,卢正鼎.基于聚类汇总的记录匹配算法[J].计算机工程与科学,2004,26(9):62-63. 被引量：2

二级参考文献30

1陈细谦,迟忠先,昃宗亮,苏立强.地理编码在空间数据仓库ETL中的应用[J].小型微型计算机系统,2005,26(4):628-630. 被引量：11
2程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
3倪维健,黄亚楼,李飞,刘赏.一种基于加权多代表点的层次聚类算法[J].计算机科学,2005,32(5):150-154. 被引量：5
4郭俊,樊彦国.一种改进的CURE聚类算法[J].内蒙古石油化工,2005,31(8):12-15. 被引量：4
5李先国,梁涌.一种高效的适用于字词检索的数据结构[J].微电子学与计算机,2006,23(12):157-160. 被引量：2
6张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
7U S Congress, Office of Technology Assessment. Information Technologies for Control of Money Laundering, OTA-ITC-630 [ Z ].Washington, DC: U. S. Government Printing Office, 1995.
8M Hernandez, S Stolfo. The Merge/Purge Problem for Large Databases[A].Proc of the ACM SIGMOD Int'l Conf on Management of Data[C]. 1995. 127-138.
9Fang Liu, Zhengding Lu, Songfeng Lu. Mining Association Rules Using Clustering[J]. Intelligent Data Analysis, 2001, 5(4): 309- 326.
10Lee M L, Lu Hongjun, Ling T W, et al. Cleansing Data for Mining and Warehousing[C]//Proc. of the 10th Int'l Conf. on Database and Expert Systems Applications. Florence, Italy: [s. n.], 1999:751-760.

共引文献39

1李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
2王晓原,吴芳,邢丽.交通流冗余数据识别和约简方法[J].计算机应用,2009,29(4):1110-1113.
3吴诗贤.一种时变对象加权概率辨识模型[J].计算机科学,2009,36(9):246-247.
4肖满生,江力,刘有势.一种识别相似重复记录的模糊匹配方法[J].计算机应用与软件,2009,26(11):183-185. 被引量：2
5曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3
6鲁均云,李星毅,施化吉,马素琴.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874-878. 被引量：8
7戴颖,李兴国,赵启飞.一种相似重复记录检测算法的改进研究[J].计算机技术与发展,2010,20(7):13-16. 被引量：4
8肖满生,周浩慧,王宏.基于模糊综合评判的相似重复记录识别方法[J].计算机工程,2010,36(13):51-53. 被引量：14
9杨家娥,聂道华,周枫,游进国,李勃.一种面向社保领域的数据清洗整合系统架构[J].科学技术与工程,2010,10(29):7290-7294. 被引量：2
10马翔.粒子群优化BP神经网络用于重复记录检测[J].辽宁工程技术大学学报（自然科学版）,2010,29(5):959-962. 被引量：4

同被引文献55

1贾自艳,黄友平,罗平,李嘉佑,秦亮曦,史忠植.面向数据质量的ETL过程建模与实现[J].系统仿真学报,2004,16(5):907-911. 被引量：23
2陈细谦,迟忠先,昃宗亮,苏立强.地理编码在空间数据仓库ETL中的应用[J].小型微型计算机系统,2005,26(4):628-630. 被引量：11
3程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
4鲍洪庆,石冰,王石.一个基于领域知识的数据清洗框架[J].信息技术与信息化,2005(5):100-103. 被引量：5
5韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
6张永,迟忠先,闫德勤.数据仓库ETL中相似重复记录的检测方法及应用[J].计算机应用,2006,26(4):880-882. 被引量：15
7张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
8Mange A. An Adaptive and Efficient Algorithm for Detecting Approximately Duplicate Database Records [ EB/OL]. ( 2007 - 09 - 02). [ 2010 - 11 - 01 ]. http ://citeseer. ist. psu. edu/mon- geovadaptive, html.
9Monge A E, Elkan C P. An Efficient Domain - independent Algorithm for Detecting Approximately Duplicate Database Records [ C ]. In: Proceedings of the SIFMOD Workshop on Data Mining and Knowledge Discovery, Tuscan, Arizona, United States. 1997 : 23 - 29.
10Foulonneau M. Information Redundancy Across Metadata Collections [ J ]. Information Processing and Management, 2007, 43 (3) :740 -751.

引证文献6

1雷孝平,张旭,赵蕴华,郑佳.基于IRPU算法的专利数据相似重复属性及记录检测方法[J].现代图书情报技术,2010(12):46-51. 被引量：2
2邹亚会.一种有效检测汉语相似重复记录的方法[J].科技情报开发与经济,2011,21(21):133-135.
3蒋勇青,杨奕虹,杨贺.论数据清洗对信息检索质量的影响及清洗方法[J].中国索引,2012,10(1):16-20. 被引量：3
4郭文龙,董建怀.基于模糊综合评判的相似重复记录清洗方法[J].北京信息科技大学学报（自然科学版）,2017,32(4):59-63. 被引量：3
5郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1
6殷秀叶.一种基于同级字段的相似重复记录检测方法[J].软件,2014,35(6):12-14.

二级引证文献9

1闫雪,欧阳海鹰,曾首英,葛长水,唐琳,邵萍,陈柏松.文献计量数据准备之数据采集与清洗——以中国水产科学研究院中文期刊论文分析为例[J].农业图书情报学刊,2014,26(4):36-40. 被引量：4
2路霞,吴鹏,王曰芬,张金柱.中文专利数据地址信息清洗框架及实现[J].情报理论与实践,2016,39(4):128-132. 被引量：6
3马瑾,刘尚辉,娄岩.项目带动法在医学数据挖掘教学中的应用[J].医学信息学杂志,2016,37(2):86-89.
4潘玮,牟冬梅,李茵,刘鹏.关键词共现方法识别领域研究热点过程中的数据清洗方法[J].图书情报工作,2017,61(7):111-117. 被引量：42
5马可,郑广海.一种针对关系数据库记录的相似重复记录检测算法[J].电脑知识与技术,2018,14(5):25-28. 被引量：5
6王亚龙,李沁翰,罗荣川,谭鹏.提升数据质量的数据清洗方案[J].通讯世界,2020,27(11):193-194.
7陶姿邑.基于深度学习的数据库重复记录检测算法[J].微型电脑应用,2020,36(12):174-176. 被引量：2
8沈沛,毛海涛,胡文林,芮波.面向时序的相似重复数据清洗算法优化[J].计算机时代,2022(9):68-72. 被引量：2
9欧萍,张子砚.大规模船舶数据库重复记录的智能优化算法[J].舰船科学技术,2019,41(2):184-186. 被引量：3

1肖满生,江力,刘有势.一种识别相似重复记录的模糊匹配方法[J].计算机应用与软件,2009,26(11):183-185. 被引量：2
2陈林,邓大勇,闫电勋.基于属性重要度并行约简算法的优化[J].南京大学学报（自然科学版）,2012,48(4):376-382. 被引量：4
3吴庆辉,蔡海洋,吕精巧.基于改进型遗传神经网络的相似重复记录检测[J].计算机测量与控制,2011,19(5):1021-1023. 被引量：3
4李鑫,李军,丰继林,高方平,李忠.面向相似重复记录检测的特征优选方法[J].传感器与微系统,2011,30(2):37-40. 被引量：1
5曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3
6苏宏升,李群湛,郝文斌.基于粗糙集和贝叶斯分类器的变电站故障诊断[J].计算机工程与设计,2006,27(16):3099-3101. 被引量：4
7苗卿,单立新,裘昱.信息熵在数据集分割中的应用研究[J].电脑知识与技术,2007(3):1193-1194. 被引量：3
8杨家娥.相似重复记录检测的特征优选策略探究[J].无线互联科技,2014,11(5):172-172.
9孟祥逢,鲁汉榕,郭玲.基于遗传神经网络的相似重复记录检测方法[J].计算机工程与设计,2010,31(7):1550-1553. 被引量：13
10王蕾.基于蛙跳算法的人工萤火虫群优化算法[J].信息系统工程,2015,28(7):127-128.

计算机工程

2010年第12期

浏览历史

内容加载中请稍等...

基于数据分组匹配的相似重复记录检测被引量：6

参考文献7

二级参考文献30

共引文献39

同被引文献55

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于数据分组匹配的相似重复记录检测 被引量：6

参考文献7

二级参考文献30

共引文献39

同被引文献55

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于数据分组匹配的相似重复记录检测被引量：6