期刊文献+

相似重复记录检测的特征优选策略探究

下载PDF
导出
摘要 信息时代的来临,对大数据的检测和识别提出更高的要求,如检测精度更高和检测代价低廉。而传统的重复记录检测方法其特征属性繁多,数据源组成更为繁琐,导致检测精度不足和检测代价高昂问题的出现。为此,本文探索分析了相似重复记录检测的特征优选方案,从分组模糊聚类的原理出发,对相似重复几率的组内计算方法进行剖析,探究其在大数据集中检测精度和识别认识方面的优势。
作者 杨家娥
出处 《无线互联科技》 2014年第5期172-172,共1页 Wireless Internet Technology
  • 相关文献

参考文献2

二级参考文献20

  • 1程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量:8
  • 2李先国,梁涌.一种高效的适用于字词检索的数据结构[J].微电子学与计算机,2006,23(12):157-160. 被引量:2
  • 3张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量:12
  • 4Rohit Ananthakrishna,Surajit Chaudhuri,Venkatesh Ganti.Eliminating Fuzzy Duplicates in Data Warehouses.VLDB,2002:586-597.
  • 5Luis Gravano,Panagiotis G Ipeirotis,H V Jagadish et al.Divesh Srivastava:Using q--grams in a DBMS for Approximate String Processing[J]. IEEE Data Eng Bull,2001 ;24(4) :28-34.
  • 6Pdcardo A Baeza-Yates,Berthier A Ribeiro-Neto.Modem Information Retrieval[M].ACM Press/Addison-Wesley, 1999.
  • 7Alvaro E Monge,Charles Elkan.An Efficient Domain-Independent Algorithm for Detecting Approximately Duplicate Database Records. DMKD, 1997.
  • 8M Hemandez,S Stolfo.Real-world data is dirty:Data cleansing and the merge/purge problem[J].Data Mining and Knowledge Discovery, 1997,2(1).
  • 9Erhard Rahm, Hong Hai Do.Data Cleaning :Problems and Current Approaches[J].IEEE Data Eng Bull,2000;23(4):3-13.
  • 10Mauricio A Hemández ,Salvatore J Stolfo.The Merge/Purge Problem for Large Databases[C].in :SIGMOD Conference, 1995 : 127-138.

共引文献30

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部