相似重复记录检测的特征优选策略探究

下载PDF

导出

摘要信息时代的来临,对大数据的检测和识别提出更高的要求,如检测精度更高和检测代价低廉。而传统的重复记录检测方法其特征属性繁多,数据源组成更为繁琐,导致检测精度不足和检测代价高昂问题的出现。为此,本文探索分析了相似重复记录检测的特征优选方案,从分组模糊聚类的原理出发,对相似重复几率的组内计算方法进行剖析,探究其在大数据集中检测精度和识别认识方面的优势。

作者杨家娥

机构地区云南机电职业技术学院

出处《无线互联科技》 2014年第5期172-172,共1页 Wireless Internet Technology

关键词特征优选相似重复记录模糊聚类相似度策略

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
2洪圆,孙未未,施伯乐.一种使用双阈值的数据仓库环境下重复记录消除算法[J].计算机工程与应用,2005,41(1):168-170. 被引量：9

二级参考文献20

1程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
2李先国,梁涌.一种高效的适用于字词检索的数据结构[J].微电子学与计算机,2006,23(12):157-160. 被引量：2
3张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
4Rohit Ananthakrishna,Surajit Chaudhuri,Venkatesh Ganti.Eliminating Fuzzy Duplicates in Data Warehouses.VLDB,2002:586-597.
5Luis Gravano,Panagiotis G Ipeirotis,H V Jagadish et al.Divesh Srivastava:Using q--grams in a DBMS for Approximate String Processing[J]. IEEE Data Eng Bull,2001 ;24(4) :28-34.
6Pdcardo A Baeza-Yates,Berthier A Ribeiro-Neto.Modem Information Retrieval[M].ACM Press/Addison-Wesley, 1999.
7Alvaro E Monge,Charles Elkan.An Efficient Domain-Independent Algorithm for Detecting Approximately Duplicate Database Records. DMKD, 1997.
8M Hemandez,S Stolfo.Real-world data is dirty:Data cleansing and the merge/purge problem[J].Data Mining and Knowledge Discovery, 1997,2(1).
9Erhard Rahm, Hong Hai Do.Data Cleaning :Problems and Current Approaches[J].IEEE Data Eng Bull,2000;23(4):3-13.
10Mauricio A Hemández ,Salvatore J Stolfo.The Merge/Purge Problem for Large Databases[C].in :SIGMOD Conference, 1995 : 127-138.

共引文献30

1李坚,郑宁.对基于MPN数据清洗算法的改进[J].计算机应用与软件,2008,25(2):245-247. 被引量：13
2王晓原,吴芳,邢丽.交通流冗余数据识别和约简方法[J].计算机应用,2009,29(4):1110-1113.
3钟嘉庆,张义芳,卢志刚.数据仓库中重复记录清理算法研究[J].信息化纵横,2009(7):4-6. 被引量：4
4吴诗贤.一种时变对象加权概率辨识模型[J].计算机科学,2009,36(9):246-247.
5肖满生,江力,刘有势.一种识别相似重复记录的模糊匹配方法[J].计算机应用与软件,2009,26(11):183-185. 被引量：2
6曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3
7周丽娟,肖满生.基于数据分组匹配的相似重复记录检测[J].计算机工程,2010,36(12):104-106. 被引量：6
8戴颖,李兴国,赵启飞.一种相似重复记录检测算法的改进研究[J].计算机技术与发展,2010,20(7):13-16. 被引量：4
9肖满生,周浩慧,王宏.基于模糊综合评判的相似重复记录识别方法[J].计算机工程,2010,36(13):51-53. 被引量：14
10杨家娥,聂道华,周枫,游进国,李勃.一种面向社保领域的数据清洗整合系统架构[J].科学技术与工程,2010,10(29):7290-7294. 被引量：2

1吴庆辉,蔡海洋,吕精巧.基于改进型遗传神经网络的相似重复记录检测[J].计算机测量与控制,2011,19(5):1021-1023. 被引量：3
2李鑫,李军,丰继林,高方平,李忠.面向相似重复记录检测的特征优选方法[J].传感器与微系统,2011,30(2):37-40. 被引量：1
3曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3
4孟祥逢,鲁汉榕,郭玲.基于遗传神经网络的相似重复记录检测方法[J].计算机工程与设计,2010,31(7):1550-1553. 被引量：13
5殷秀叶.大数据环境下一种高效的重复记录检测方法[J].洛阳师范学院学报,2014,33(11):52-54. 被引量：2
6殷秀叶.大数据环境下的相似重复记录检测方法[J].武汉工程大学学报,2014,36(9):66-69. 被引量：6
7侯筱婷,鲁萍.SQL存储过程实现相似重复记录检测[J].软件导刊,2011,10(7):28-29. 被引量：3
8胡嘉琪,陈群,刘海龙,杜晶,徐曜,李战怀.基于Web的重复属性自动识别方法[J].计算机工程与应用,2015,51(9):125-128.
9鲁均云,李星毅,施化吉,马素琴.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874-878. 被引量：8
10张昌年.一种基于VSM的检测相似重复记录的方法[J].微电子学与计算机,2008,25(8):184-187. 被引量：10

无线互联科技

2014年第5期

浏览历史

内容加载中请稍等...

相似重复记录检测的特征优选策略探究

参考文献2

二级参考文献20

共引文献30

相关作者

相关机构

相关主题

浏览历史