一种在高维空间中聚类检测重复记录的新方法被引量：4

New approach for clustering similar duplicate records based on high dimensions

下载PDF

导出

摘要数据清理是构建数据仓库中的一个重要研究领域。检测相似重复记录是数据清洗中一项非常重要的任务。提出了一种聚类检测相似重复记录的新方法,该方法是基于N-gram将关系表中的记录映射到高维空间中,并且通过可调密度的改进型DB-SCAN算法IDS来聚类检测相似重复记录。并用实验证明了这种方法的有效性。 Data cleaning is an important area of data warehouse.Detecting duplicate records is a critical task in data cleaning.A new duplicate detection methods is proposed in this paper.The approach based on N-gram mappings all records in a relation to a high dimensions and clusters duplicate records through an improved DBSCAN algorithms which named IDS.IDS can cluster approximately duplicate records by usitlg adjustable density.At last the experimental results prove the approach＇s effectiveness. ：

作者曹渠江董明

机构地区上海理工大学计算机与电气工程学院

出处《计算机工程与应用》 CSCD 北大核心 2008年第29期171-173,共3页 Computer Engineering and Applications

关键词相似重复记录 N-GRAM 入侵检测系统 approximately duplicate database N-gram Intrusion Detection System（1DS）

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1Hernandez M,Stolfo S.The merge/purge problem for largedatabases[C]//Proc ACM SIGMOD International Conference on Management of Data, 1995: 127-138.
2Hernandez M A,Stolfo S J.Real-World data is dirty:data cleansing and the merge/purge problem[J].Data Mining and Knowledge Discovery, 1999,2( 1 ) :9237.
3Qiu Y F,Tian Z P,Ji W Y,et al.An efficient approach for detecting approximately duplicate database reeords[J].Chinese J of Computers, 2001,24( 1 ).
4Surajit C,Kris G,Venkatesh G,et al.Robust and efficient fuzzy match for online data cleaning[C]//Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data.New York, USA : ACM Press, 2003 : 313-324.
5韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
6Han Jiawei.Kamber M.Data mining concepts and techniques[M].北京:机械工业出版社,2004:223-263.

二级参考文献16

1Mauricio Hernandez, Salvatore Stolfo. The merge/purge problem for large databases. In: ACM SIGMOD Record. New York:ACM Press, 1995. 127- 138.
2Alvaro Monge, Charles Elkan. An efficient domain-independent algorithm for detecting approximately duplicate database records.Workshop on Research Issues on Data Mining and Knowledge Discovery (DMKD'97), Tucson, AZ, 1997.
3Karen Kukich. Techniques for automatically correcting words in text. ACM Computing Surveys, 1992, 24(4): 377-439.
4Liang Jin, Chen Li, Sharad Mehrotra. Efficient record linkage in large data sets. The 8th Int'l Conf. Database Systems for Advanced Applications, Kyoto, Japan, 2003.
5Surajit Chaudhuri, Kris Ganjam, Venkatesh Ganti, et al. Robust and efficient fuzzy match for online data cleaning. In: Proc. 2003 ACM SIGMOD Int'l Conf. Management of Data. New York:ACM Press, 2003. 313-324.
6Sunita Sarawagi, Anuradha Bhamidipaty. Interactive deduplication using active learning. In: Proc. 8th ACM SIGKDD Int'l Conf.Knowledge Discovery and Data Mining. New York: ACM Press,2002. 269- 278.
7Wai Lup Low, Mong Li Lee, Tok Wang Ling. A knowledgebased approach for duplicate elimination in data cleaning.Information Systems, 2001, 26(8): 585-606.
8Rohit Ananthakrishna, Surajit Chaudhuri, Venkatesh Ganti.Eliminating fuzzy duplicates in data warehouses. In: Proc. 28th VLDB. San Francisco: Morgan Kaufmann, 2002. 586-597.
9Christos Faloutsos, King-Ip Lin. FastMap: A fast algorithm for indexing data-mining and visualization of traditional and multimedia datasets. In: ACM SIGMOD Record. New York: ACM Press,1995. 163-174.
10G li R. Hjaltason, Hanan Samet. Properties of embedding methods for similarity searching in metric spaces. IEEE Trans.Pattern Analysis and Machine Intelligence, 2003, 25 (5), 530-549.

共引文献31

1韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：102
2蒋子龙,高曙.基于向量空间模型的Web服务描述相似度计算的研究与实现[J].咸阳师范学院学报,2007,22(6):52-54. 被引量：1
3王晓原,吴芳,邢丽.交通流冗余数据识别和约简方法[J].计算机应用,2009,29(4):1110-1113.
4王颖颖,黄杜英,许多顶.向量空间中基于隐私保护的记录链接协议[J].现代电子技术,2009,32(14):138-141. 被引量：1
5庞雄文,姚占林,李拥军.大数据量的高效重复记录检测方法[J].华中科技大学学报（自然科学版）,2010,38(2):8-11. 被引量：15
6曹建军,刁兴春,汪挺,王芳潇.领域无关数据清洗研究综述[J].计算机科学,2010,37(5):26-29. 被引量：27
7叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
8马翔.粒子群优化BP神经网络用于重复记录检测[J].辽宁工程技术大学学报（自然科学版）,2010,29(5):959-962. 被引量：4
9吴庆辉,蔡海洋,吕精巧.基于改进型遗传神经网络的相似重复记录检测[J].计算机测量与控制,2011,19(5):1021-1023. 被引量：3
10邹亚会.检测大型数据库中汉语相似重复记录的方法[J].内蒙古科技与经济,2011(14):77-78. 被引量：1

同被引文献39

1葛利.一种基于混合遗传算法学习的过程神经网络[J].哈尔滨工业大学学报,2005,37(7):986-988. 被引量：21
2韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
3朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
4程菲,汪建海,罗键.基于重复检测的多摘要消重方法[J].计算机工程与设计,2006,27(23):4521-4524. 被引量：1
5Imagarmid A K, Ipeirotis P G, Verykios V S. Duplicate record detec- tion:a survey [ J ]. IEEE Transactions on Knowledge and Data Engi- neering,2007,19 ( 1 ) : 1 - 16.
6Li Huang, Hai Jin, Pingpeng Yuan, et al. Duplicate records cleansing with length filtering and dynamic weighting [ C ]. Fourth International Conference on Semantics, Knowledge and Grid. Beijing: IEEE Press, 2008:95 - 102.
7Coelho L S. Gaussian quantum behaved particle swarm optimization ap- proaches for constrained engineering design problems [ J ]. Expert Sys- tems with Applications,2010,37 (2) : 1676 - 1683.
8Sun J, Fang W, Xu X J, et al. Quantum-Behaved Particle Swarm Opti- mization: Analysis of the Individual Particle' s Behavior and Parameter Selection [ J ]. Evolutionary Computation,2012,20 ( 3 ) : 349 - 393.
9Liang Jin,,Chen Li,Mehrotra S.Efficient record linkage in large data sets. Proc.of the8th Int’l Conf on Database.Systems for Advanced Applications . 2003
10Ahmed K,Elmagarmid,Panagiotis G,et al.Duplicate record detection:a survey. IEEE Transactions on Knowledge and Data Engineering . 2007

引证文献4

1马翔.粒子群优化BP神经网络用于重复记录检测[J].辽宁工程技术大学学报（自然科学版）,2010,29(5):959-962. 被引量：4
2辛义定,丁君辉,徐远兵.面向ESB的重复消息检测方法研究[J].计算机应用与软件,2013,30(1):126-128.
3陈芬.改进量子粒子群算法优化神经网络的数据库重复记录检测[J].计算机应用与软件,2014,31(3):20-21. 被引量：10
4黄建琼.基于二次模糊评判的相似重复记录检测方法[J].江苏师范大学学报（自然科学版）,2016,34(1):39-42. 被引量：3

二级引证文献17

1梁雪,任剑锋,景丽.基于QPSO-LSSVM的数据库相似重复记录检测算法[J].计算机科学,2012,39(11):157-159. 被引量：6
2聂琼.浅谈粒子群算法与BP神经网络[J].轻纺工业与技术,2013,42(1):68-70. 被引量：2
3毛婷,杨敬辉,杨晶东.基于模糊聚类的自然语言语义特征[J].辽宁工程技术大学学报（自然科学版）,2013,32(1):81-84. 被引量：2
4陈芬.改进量子粒子群算法优化神经网络的数据库重复记录检测[J].计算机应用与软件,2014,31(3):20-21. 被引量：10
5邓文佶.基于Lbest PSO和NNs的电液伺服系统输出力PID控制研究[J].计算机应用与软件,2015,32(8):102-105.
6黄日胜,黄锡波.基于加速参数自调整粒子群算法的物流配送优化模型[J].计算机应用与软件,2015,32(10):328-333. 被引量：3
7刘东明.一种面向效率和安全性同时提高的数据库优化方法[J].软件工程,2016,19(3):1-5.
8韩逢庆,宋志坚,余锐.海量图片快速去重技术[J].计算机应用,2016,36(7):1797-1800. 被引量：3
9邹向坤.检验信息系统SQL数据库优化的研究[J].中国医疗设备,2017,32(6):142-143. 被引量：1
10郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1

1朱瑞.基于模糊聚类的网络入侵检测[J].办公自动化（综合月刊）,2008(8):37-39.
2黄莉.一种基于协议分析和聚类的入侵检测方法[J].科技信息,2009(30):83-84. 被引量：1
3林成虎,李晓东,金键,尉迟学彪,吴军.基于W-Kmeans算法的DNS流量异常检测[J].计算机工程与设计,2013,34(6):2104-2108. 被引量：5
4吴有晓.基于改进混沌粒子群的聚类检测算法研究[J].电脑与电信,2016(10):73-78.
5李鹏飞.一种改进的模糊C均值算法在入侵检测中的应用[J].计算机应用与软件,2012,29(2):289-290. 被引量：5
6陈蓉,李艳萍.一种基于离群点的聚类迭代检测算法[J].科学技术与工程,2012,20(35):9725-9729. 被引量：1
7杨德刚.基于模糊C均值聚类的网络入侵检测算法[J].计算机科学,2005,32(1):86-87. 被引量：26
8付立东.核k-means聚类检测复杂网络社团算法[J].计算机科学,2010,37(9):212-213. 被引量：2
9王振亚,曾黄麟.一种运动车辆阴影去除的新算法[J].四川理工学院学报（自然科学版）,2011,24(2):210-213.
10张纹华,贾智平,李新.利用蚁群聚类检测应用层DDoS攻击的方法[J].计算机工程与应用,2011,47(14):99-102. 被引量：2

计算机工程与应用

2008年第29期

浏览历史

内容加载中请稍等...

一种在高维空间中聚类检测重复记录的新方法被引量：4

参考文献6

二级参考文献16

共引文献31

同被引文献39

引证文献4

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

一种在高维空间中聚类检测重复记录的新方法 被引量：4

参考文献6

二级参考文献16

共引文献31

同被引文献39

引证文献4

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

一种在高维空间中聚类检测重复记录的新方法被引量：4