问答题
【正确答案】 数据仓库集成是把多种来源的数据集中在一起,建立数据仓库,所有数据都驻留在单个数据库服务器上,配置大型处理器和存储容量。数据仓库主要用于决策支持,在数据处理过程中强调分析。其特点是: (1)集成的数据。 (2)面向主题。 (3)数据相对稳定。 (4)包含历史信息。 联邦数据库集成是把多个数据库系统联合在一起,构成“联邦数据库系统”,数据库之间通过接口查询,互相通信,数据分布在不同地方的计算机或数据库服务器上,通过网络连接。 其特点是: (1)联邦数据库提供集成的数据格式,对用户提供统一的访问,屏蔽了各个数据库的复杂性和分布情况,简化了开发数据库查询和对数据统一理解的工作。这种分布式的数据集成,更加符合应用系统的实际情况。 (2)异构数据源不仅仅是数据库系统,通过中间件,可以扩展到传感器、文件和应用程序等。
【答案解析】
【正确答案】 此类数据往往是非结构化或者半结构化的,但同一个数据源往往有统一的页面模式,因此应该采用Web 内容提取(挖掘/文本挖掘)的集成方法来获取对应供应商的产品信息。 其基本步骤为: (1)分析页面,确定其页面中的数据模式。 (2)抓取页面,通过爬虫技术获取对应的网页。 (3)特征提取与处理,获取相应数据。 (4)数据清洗,根据规则进行判断,抛弃异常数据。 (5)数据转换,根据预先定义好的语义映射关系,将数据转换为统一格式。
【答案解析】
【正确答案】 数据集成系统依靠模式映射来指明数据源中的数据和中介所用数据之间的语义关系,但映射过程中可能发生不确定性,其原因有: (1)数据源与中介模式之间的语义映射可能是近似的。 (2)用户不熟悉模式或系统的域太宽,不能提供基于表单式的查询接口,需要使用关键字查询,但将关键字查询转换成一组候选的结构化查询时,会带来不确定性。 (3)数据常常是使用信息获取技术从非结构化数据源获取的,而这些获取技术一般只是“大致可用”,所取得的数据可能是不确定的。
【答案解析】