Web信息整合中的数据去重方法被引量：4

Data deduplication in Web information integration

下载PDF

导出

摘要针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE)。首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模糊实体匹配策略,采用动态权重赋值,降低属性缺失对记录相似度计算带来的影响,并对名称的特殊性进行处理,提高匹配准确率。实验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中准确率提高12.6%。该方法已应用于林业黄页系统中,取得了较好的应用效果。 Since traditional data dedupliation methods are of low time efficiency and detection accuracy, a Stepwise Clustering Data Elimination （SCI）E） method was presented based on the features of Web information integration. Firstly the whole record set was divided into sub-sets using both key attributes division and the Canopy clustering technique, and then the similar records in each sub-set were accurately eliminated. A fuzzy entity matching strategy based on dynamic weight was proposed to accurately eliminate the duplicate records, which reduced the influence of missing attribute on record similarity calculation, and the name of company was especially treated to improve the matching accuracy. The results show that the method is superior to traditional algorithms in time efficiency and detection accuracy, and the precision is improved by 12. 6%. The method is applied in forestry yellow page system and performs well.

作者刘雪琼武刚邓厚平

机构地区北京林业大学信息学院

出处《计算机应用》 CSCD 北大核心 2013年第9期2493-2496,共4页 journal of Computer Applications

基金中央高校基本科研业务费专项基金资助项目(BLYX200928)

关键词 Web信息整合相似重复记录动态权重模糊实体匹配 Web information integration approximately duplicate record dynamic weight fuzzy entity matching

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1李广建.整合研究的几个理论问题[J].图书情报工作,2005,49(10):5-10. 被引量：16
2叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
3PANSE F, van KEULEN M, de KEUZER A, et al. Duplicate de- tection in probabilistic data[ C]// Proceedings of the 26th Interna- tional Conference on Data Engineering Workshop. Washington, DC: IEEE Computer Society, 2010:179 - 182.
4夏骄雄,徐俊,吴耿锋.数据清理中同体不同源数据的数化算法研究[J].计算机工程,2007,33(1):71-73. 被引量：5
5HERNANDEZ M A, STOLFO S J. The merge/purge problem for large databases[ C]//SIGMOD 1995: Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data. New York: ACM Press, 1995.
6张平,党选举,陈皓,杨文雷.基于熵特征优选分组聚类的相似重复记录检测[J].传感器与微系统,2011,30(11):135-137. 被引量：4
7韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
8SITAS A, KAPIDAKIS S. Duplicate detection algorithms of biblio- graphic descriptions[J]. Library Hi-Tech, 2008, 26(2): 287- 301.
9唐懿芳,钟达夫,严小卫.基于聚类模式的多数据源记录匹配算法[J].小型微型计算机系统,2005,26(9):1546-1550. 被引量：5
10邓攀,刘功申.一种高效的倒排索引存储结构[J].计算机工程与应用,2008,44(31):149-152. 被引量：22

二级参考文献140

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
2陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
3曹忠升,万劲伟.基于语义的数据清理技术[J].华中科技大学学报（自然科学版）,2005,33(2):76-78. 被引量：2
4彭波,李晓明.搜索引擎倒排文件的一种分块组织技术[J].电子学报,2005,33(2):358-362. 被引量：9
5刘芳,何飞.基于聚类分析技术的数据清洗研究[J].计算机工程与科学,2005,27(6):70-71. 被引量：11
6韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
7陈伟,丁秋林.可扩展数据清理软件平台的研究[J].电子科技大学学报,2006,35(1):100-103. 被引量：10
8朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
9陆凤霞,王静秋,王宁生.一种开放式数据清理框架[J].南京航空航天大学学报,2006,38(4):459-463. 被引量：3
10陈卓,贺明霞,刘相双.基于扩展凝聚点和网格的增量聚类算法[J].哈尔滨工业大学学报,2006,38(8):1382-1385. 被引量：5

共引文献96

1王育红.基于实例的语义相似属性识别方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(B06):203-205.
2张玉珍,张红萱.构筑国家知识创新的信息保障体系研究[J].现代情报,2006,26(9):7-9. 被引量：4
3马文峰,杜小勇.数字资源整合的发展趋势[J].图书情报工作,2007,51(7):66-70. 被引量：40
4王翠萍,窦玉萌.基于信息整合的网络信息检索系统研究[J].情报学报,2007,26(6):821-826. 被引量：2
5韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：102
6羊照生.图书馆数字资源整合研究[J].科技情报开发与经济,2008,18(1):1-3. 被引量：5
7蒋子龙,高曙.基于向量空间模型的Web服务描述相似度计算的研究与实现[J].咸阳师范学院学报,2007,22(6):52-54. 被引量：1
8张燕萍.我国信息资源整合研究综述[J].情报探索,2008(2):47-49. 被引量：8
9刘波,杨路明,雷刚跃,邓云龙.面向XML数据库的智能数据清洗策略[J].计算机工程,2008,34(16):16-18. 被引量：4
10刘晓娟.信息集成中的数据源访问机制分析[J].图书情报工作,2008,52(10):41-44. 被引量：1

同被引文献30

1林子雨,杨冬青,宋国杰,王腾蛟.实时主动数据仓库中的变化数据捕捉研究综述[J].计算机研究与发展,2007,44(z3):447-451. 被引量：7
2章晓芳,徐宝文,聂长海,史亮.一种基于测试需求约简的测试用例集优化方法[J].软件学报,2007,18(4):821-831. 被引量：59
3李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,8(9):8-15.
4周晓方,陆嘉恒,李翠平,等.从数据管理视角看大数据挑战[J].中国计算机学会通讯,2012,8(9):16-20.
5Weber L. Marketing to the Social Web: How Digital Customer Communities Build Your Business[M].John Wiley & Sons,2007.
62012年IBM软件技术峰会专题[EB/OL].[2013-05-01].http://tech.sina.tom.cn/it/2012-08-23/11387538429.shtml.
7Lee K P,Hu J K.XMLSchema Representation of DICOM StructuredReporting[J].Journal of the American Medical Informatics Association,2003,10(2) :213-223.
8IBM展示业界最完整大数据解决方案[EB/OL].[2013-05-01].http://server.zdnet.corn.cn/server/2013/0317/2148815.shtml.
9Heterogeneous Database System[EB/OL].[2013-03-14].http://en. wikipedia.org/wiki/Heterogeneous Database_System.
10程学旗.大数据的应用与科学问题探讨[R].数学与大数据科学论坛.北京:中国科学院,2013:43-52.

引证文献4

1马晓亭.大数据时代图书馆数据整合系统构建研究[J].图书馆建设,2014(6):83-87. 被引量：15
2张建春,李勃,董蓉.基于属性权值多级分类的测试样本数据预处理[J].电视技术,2017,41(3):76-80. 被引量：4
3刘璐玲.动态数据安全审计云存储系统研究[J].现代电子技术,2017,40(9):96-98. 被引量：2
4刘杰,王桂玲,左小将.基于可变时间窗口的增量数据抽取模型[J].计算机科学,2018,45(11):204-209. 被引量：4

二级引证文献25

1李伟华,郑彦宁,刘志辉.国内外数据整合研究进展分析[J].数字图书馆论坛,2015(6):54-61. 被引量：4
2何胜,熊太纯,周冰,柳益君,武群辉.高校图书馆大数据服务现实困境与应用模式分析[J].图书情报工作,2015,59(22):50-55. 被引量：74
3杨维利.《图书馆工作与研究》大数据主题研究热点分析[J].图书馆工作与研究,2016(3):107-110. 被引量：5
4王硕.大数据环境下图书馆信息服务研究[J].科技创新导报,2015,12(31):192-193.
5杨振力.大数据时代图书馆学科服务模式探析[J].图书馆学刊,2016,38(6):73-75. 被引量：6
6王玮,王耀辉.基于馆社合作的高校图书采访工作研究[J].情报探索,2016(11):62-64. 被引量：3
7郑丽娟,高文华,关萍.大数据时代图书馆数字资源整合研究[J].绥化学院学报,2016,36(12):136-138.
8朱荣,高瑞.“大数据”时代科学数据整合研究[J].网络安全技术与应用,2017(1):70-71. 被引量：2
9高群.大数据技术在数字图书馆管理与服务中的应用[J].兰台世界,2017(4):81-84. 被引量：9
10刘巍.Web应用的网络与数据库安全威胁、策略设计与审计[J].数码世界,2017,0(9):182-182. 被引量：1

1李春旺.Web信息整合机制研究[J].图书情报工作,2005,49(10):15-19. 被引量：6
2杨抒,武刚,王欢,彭恩强.林产品本体的构建方法研究[J].黑龙江农业科学,2010(7):147-151.
3刘驰,闫宏飞.基于元信息的云盘资源检索结果去重[J].山东大学学报（理学版）,2016,51(7):11-17.
4付彬,王志海,王中锋.Boosting算法中基分类器权重的动态赋值[J].广西师范大学学报（自然科学版）,2009,27(3):85-88. 被引量：9
5黄恩博.基于布隆过滤器的网页搜索去重方法[J].现代计算机,2013,19(14):7-10. 被引量：4
6周董.一种基于机器学习的属性缺失值模糊填补方法[J].计算机与现代化,2008(12):91-93.
7谢蕙,秦杰,胡双双.基于用户查询关键词的网页去重方法研究[J].现代图书情报技术,2008(7):43-46. 被引量：6
8李林,刘桂峰,赵朋朋,崔志明.结构化信息的去重方法[J].计算机工程,2009,35(3):23-25. 被引量：3
9樊勇,郑家恒.基于主题的网页去重[J].电脑开发与应用,2008,21(4):4-6. 被引量：2
10赵晓永,杨扬,王宁.基于声学指纹的海量MP3文件近似去重方法[J].计算机工程,2013,39(7):73-75. 被引量：2

计算机应用

2013年第9期

浏览历史

内容加载中请稍等...

Web信息整合中的数据去重方法被引量：4

参考文献11

二级参考文献140

共引文献96

同被引文献30

引证文献4

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

Web信息整合中的数据去重方法 被引量：4

参考文献11

二级参考文献140

共引文献96

同被引文献30

引证文献4

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

Web信息整合中的数据去重方法被引量：4