摘要
互联网上存在着大量可访问的Web数据库,不同web数据库之间存在着内容上的重叠.来自不同web数据库的记录虽然在网页上的表现形式不同,但是可能描述的是同一实体.因此实体识别是Deep web数据集成中数据合并过程里一个必不可少的环节,而且是一个很具有挑战性的工作.对该问题进行了深入的探讨,提出了一种新颖的方法自动完成实体识别,该方法克服了传统的实体识别工作以模式匹配为前提的弊端,并且与领域无关.实验表明,该方法在Deep web环境下可以达到相当高的准确性.
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第z3期46-53,共8页
Journal of Computer Research and Development
基金
国家自然科学基金项目(60573091,60273018)
国家自然科学基金面上项目(60573091)
国家"九七三"重点基础研究发展规划基金项目(2003CB317000)
教育部科学技术重点基金项目(03044)
教育部新世纪优秀人才支持计划基金项目