对基于MPN数据清洗算法的改进被引量：13

IMPROVMENT ON THE ALGORITHM OF DATA CLEANING BASED ON MPN

下载PDF

导出

摘要相似重复记录的清除是数据清洗领域中的一个很重要的方面,它的目的是清除冗余的数据。介绍了该问题的流行算法—多趟近邻排序算法MPN(Multi-Pass Sorted Neighborhood),该算法能较好地对相似重复记录进行清除,但也有其不足:一是在识别中窗口大小固定,窗口的大小选取对结果影响很大。二是采用传递闭包,容易引起误识别。提出了基于MPN算法的一种改进算法,试验结果证明改进算法在记忆率和准确率上优于MPN算法。 Cleaning approximately duplicate records is an important task in data cleaning. MPN, a popular algorithm for this task, is introduced and its deficiencies are analyzed. Firstly, window is fixed in detecting approximately duplicate records. Secondly, transfer closure is used,but it is easy to make errors. An improved algorithm of data cleaning based on MPN is introduced. The experimental results prove that this improved algorithm is better than MPN in the aspects of recall and precision,

作者李坚郑宁

机构地区杭州电子科技大学

出处《计算机应用与软件》 CSCD 北大核心 2008年第2期245-247,共3页 Computer Applications and Software

基金浙江省科技厅重点科研社会发展项目(2006C23060)

关键词数据清洗相似重复记录 MPN Data cleaning Approximately duplicate records MPN

分类号 TP301.6 [自动化与计算机技术—计算机系统结构] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Alvaro E Monge, Charles Elkan. An Effieient Domain-Independent Algorithm for Detecting Approximately Duplicate Database Records. DMKD, 1997.
2Rahm E, Do H H. Data Cleaning:Problems and Current Approaches. IEEE Bulletin on Data Engineering,2000,23 (4) : 3 - 13.
3Mong Li Lee, Wynne Hsu, Vijay Kothari. Cleaning the Spurious Links in Data. in IEEE Intelligent Systems:Special issue on Data and Information Cleaning and Preprocessing,Volume 19,No. 2, March/April 2004.
4Zhu X, Wu X, Chen Q. Eliminating Class Noise in Large Datasets, Proc. 20th int'l conf. Machine Learning AAAIPress,2003.
5Rohit Ananthakrishna, Surajit Chaudhurl. Venkatesh Canti Eliminating Fuzzy Duplicates in Data Warehouses. VLDB ,2002.
6洪圆,孙未未,施伯乐.一种使用双阈值的数据仓库环境下重复记录消除算法[J].计算机工程与应用,2005,41(1):168-170. 被引量：9
7佘春红,许向阳.关系数据库中近似重复记录的识别[J].计算机应用研究,2003,20(9):36-39. 被引量：7

二级参考文献16

1M Hernandez, S Stolfo. The Merge/Purge Problem for Large Databases[C]. Proceedings of the ACM SIGMOD, International Conference on Management of Data, May 1995. 127-138.
2E Rahm, H H Do. Data Cleaning: Problem and Current Approaches[J]. IEEE Data Engineering Bulletin,2000,23(3).
3A E Monge, C P Elkan. An Efficient Domain-independent Algorithm for Detecting Approximately Duplicate Database Records[C]. Proceedings of SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery (Tucson, Arizona), May1997.
4An Adaptive and Efficient Algorithm for Detecting Approximately Duplicate Database Records [EB/OL]. http://research.microsoft. com/resarch/db/debull/AOOdec/monge.ps.
5A E Monge , C P Elkan. The Field Matching Problem: Algorithms and Applications[C]. Proc. 2nd Intl. Conf. Knowledge Discovery and Data Mining, 1996.
6Galhardas H, Florescu D, ShashaD, et al. AJAX: An Extensible Data Cleaning Tool[C]. Proc. ACM SIGMOD, Conf. ,2000.590.
7Rohit Ananthakrishna,Surajit Chaudhuri,Venkatesh Ganti.Eliminating Fuzzy Duplicates in Data Warehouses.VLDB,2002:586-597.
8Luis Gravano,Panagiotis G Ipeirotis,H V Jagadish et al.Divesh Srivastava:Using q--grams in a DBMS for Approximate String Processing[J]. IEEE Data Eng Bull,2001 ;24(4) :28-34.
9Pdcardo A Baeza-Yates,Berthier A Ribeiro-Neto.Modem Information Retrieval[M].ACM Press/Addison-Wesley, 1999.
10Alvaro E Monge,Charles Elkan.An Efficient Domain-Independent Algorithm for Detecting Approximately Duplicate Database Records. DMKD, 1997.

共引文献13

1钟嘉庆,张义芳,卢志刚.数据仓库中重复记录清理算法研究[J].信息化纵横,2009(7):4-6. 被引量：4
2王颖颖,黄杜英,许多顶.向量空间中基于隐私保护的记录链接协议[J].现代电子技术,2009,32(14):138-141. 被引量：1
3曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3
4李鑫,李军,丰继林,高方平,李忠.面向相似重复记录检测的特征优选方法[J].传感器与微系统,2011,30(2):37-40. 被引量：1
5彭璐.基于数据仓库的相似重复记录的识别与检测[J].计算机与数字工程,2011,39(3):30-35.
6廖化生,何利力,王文娟.商务智能在企业营销分析系统中的应用研究[J].工业控制计算机,2011,24(9):71-73.
7石彦华,李蜀瑜.聚类反馈学习的数据清洗研究[J].计算机工程与应用,2011,47(30):127-131. 被引量：6
8蔡钟杰,雷斌,张伟.关于重复记录数据清理算法研究[J].信息技术与信息化,2013(4):32-34. 被引量：3
9郭文龙.基于SNM算法的大数据量中文地址清洗方法[J].计算机工程与应用,2014,50(5):108-111. 被引量：8
10杨家娥.相似重复记录检测的特征优选策略探究[J].无线互联科技,2014,11(5):172-172.

同被引文献167

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
2孔锐,张国宣,施泽生,郭立.基于核的K-均值聚类[J].计算机工程,2004,30(11):12-13. 被引量：46
3菅志刚,金旭.数据挖掘中数据预处理的研究与实现[J].计算机应用研究,2004,21(7):117-118. 被引量：56
4陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
5唐新余,陈海燕,李晓,邹光兴.数据清理中几种解决数据冲突的方法[J].计算机应用研究,2004,21(12):209-211. 被引量：8
6洪圆,孙未未,施伯乐.一种使用双阈值的数据仓库环境下重复记录消除算法[J].计算机工程与应用,2005,41(1):168-170. 被引量：9
7陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：52
8曹忠升,万劲伟.基于语义的数据清理技术[J].华中科技大学学报（自然科学版）,2005,33(2):76-78. 被引量：2
9吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
10张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66

引证文献13

1肖芳.异构系统中实体识别研究[J].自动化与信息工程,2009,30(3):35-37.
2叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
3杨家娥,聂道华,周枫,游进国,李勃.一种面向社保领域的数据清洗整合系统架构[J].科学技术与工程,2010,10(29):7290-7294. 被引量：2
4张建中,方正,熊拥军,袁小一.对基于SNM数据清洗算法的优化[J].中南大学学报（自然科学版）,2010,41(6):2240-2245. 被引量：17
5石彦华,李蜀瑜.聚类反馈学习的数据清洗研究[J].计算机工程与应用,2011,47(30):127-131. 被引量：6
6陈旭辉,王馨,柯铭.一种改进的基于RFID中间件的冗余数据清洗算法[J].微电子学与计算机,2013,30(7):154-158. 被引量：10
7郭文龙.一种改进的相似重复记录检测算法[J].计算机应用与软件,2014,31(1):293-295. 被引量：7
8王继奎,李少波.基于可信度模型的重复主数据检测算法[J].计算机工程,2014,40(5):31-35. 被引量：3
9刘雅思,程力,李晓.基于长度过滤和动态容错的SNM改进算法[J].计算机应用研究,2017,34(1):147-150. 被引量：9
10张建春,李勃,董蓉.基于属性权值多级分类的测试样本数据预处理[J].电视技术,2017,41(3):76-80. 被引量：4

二级引证文献73

1张线媚,颜翠翠,李小绵,柳美平.配电网数据清洗技术研究[J].中国高新科技,2022(24):25-26. 被引量：2
2叶焕倬,吴迪.基于改进编辑距离的相似重复记录清理算法[J].现代图书情报技术,2011(7):82-90. 被引量：7
3刘雪琼,武刚,邓厚平.Web信息整合中的数据去重方法[J].计算机应用,2013,33(9):2493-2496. 被引量：4
4宋金玉,陈爽,郭大鹏,王内蒙.数据质量及数据清洗方法[J].指挥信息系统与技术,2013,4(5):63-70. 被引量：31
5蒋勋,刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报,2013(5):16-21. 被引量：47
6刘喜文,郑昌兴,王文龙,汤刚强.构建数据仓库过程中的数据清洗研究[J].图书与情报,2013(5):22-28. 被引量：18
7郭文龙.一种改进的相似重复记录检测算法[J].计算机应用与软件,2014,31(1):293-295. 被引量：7
8郭文龙.异构数据库集成中相似重复记录清洗方法[J].宜春学院学报,2014,36(3):37-39. 被引量：2
9马晓亭.大数据时代图书馆数据整合系统构建研究[J].图书馆建设,2014(6):83-87. 被引量：15
10徐磊,周喜,马玉鹏,王磊.一种基于NFC手机的RFID中间件的设计与实现[J].计算机与现代化,2014(9):90-94. 被引量：2

1刘伟,曹先彬.对基于MPN的相似重复记录识别算法的改进[J].微计算机信息,2005,21(08X):147-149. 被引量：6
2郭文龙.一种改进的相似重复记录检测算法[J].计算机应用与软件,2014,31(1):293-295. 被引量：7
3彭璐.基于数据仓库的相似重复记录的识别与检测[J].计算机与数字工程,2011,39(3):30-35.
4Starlike.寻找隐藏的游戏[J].计算机应用文摘,2004,20(20):41-41.
5郭继昌,张雪,邱琳耀.一种改进的PNLMS自适应滤波算法[J].天津大学学报（自然科学与工程技术版）,2016,49(9):972-977. 被引量：3
6苏林尤子.让POP IT远程过滤垃圾邮件[J].电脑技术——Hello-IT,1999(6):43-45.
7ZHANG Bin FENG DengGuo.Improved multi-pass fast correlation attacks with applications[J].Science China(Information Sciences),2011,54(8):1635-1644. 被引量：2
8董富森,杨波,马坤,王文华.MapReduce模型下增量重复数据检测方法[J].济南大学学报（自然科学版）,2015,29(4):241-245. 被引量：3
9许向阳,佘春红.近似重复记录的增量式识别算法[J].计算机工程与应用,2003,39(12):191-193. 被引量：4
10Hadi Noorizadeh,Abbas Farmany,Mehrab Noorizadeh.Quantitative Structure-retention Relationship Analysis of Nanoparticle Compounds by GA-PLS,GA-KPLS and L-M ANN[J].Chinese Journal of Structural Chemistry,2012,31(4):569-573. 被引量：1

计算机应用与软件

2008年第2期

浏览历史

内容加载中请稍等...

对基于MPN数据清洗算法的改进被引量：13

参考文献7

二级参考文献16

共引文献13

同被引文献167

引证文献13

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

对基于MPN数据清洗算法的改进 被引量：13

参考文献7

二级参考文献16

共引文献13

同被引文献167

引证文献13

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

对基于MPN数据清洗算法的改进被引量：13