中国战略性新兴产业研究与发展:智慧工业
上QQ阅读APP看书,第一时间看更新

3.1.1 数据集成

数据集成是把不同来源、格式、特点性质的数据在逻辑上和物理上有机地集中,从而为用户提供全面的数据共享。实现数据集成的系统称作数据集成系统,它为用户提供统一的数据源访问接口,执行用户对数据源的访问请求。

目前,开发信息集成系统可采用多种方法,但其基本方法可分为两类:物化方法(Materialized,也称数据仓库法)和虚拟方法(Virtual,也称中间件法)。

物化方法指在客户端与数据源(服务器)之间增加一层,称为数据仓库,用来存储来自各数据源的待集成数据,系统提供对这个数据仓库的查询机制。这种方法存在的问题是当信息源的数据发生变化时,数据仓库中的数据也要做相应的修改。因此,这种间接访问方式的最大缺点是数据更新不及时、数据重复存储。物化方法通常需要一些新的技术,如有效地数据加载和增量更新维护等。

虚拟方法使用与数据仓库法完全不同的结构。在该方法中数据仍保存在各数据源上,集成系统仅提供一个虚拟的集成视图(即全局模式)和对该集成视图查询的处理机制。系统能自动地将用户对全局模式的查询请求转换成对各异构数据源的查询,它依赖于两类软件组件:封装器(Wrappers)和中间件(Mediators)。封装器包装数据源,把底层的数据对象转换为统一的数据模型;在某种程度上,中间件是信息源中数据的一个视图,其中并没有数据。用户可以对中间件进行查询,对于每一个用户的查询模式需要一个中间件,不同中间件结果之间一般没有一致性约束。中间件从包装器或其他中间件获取信息,通过集成不同数据源信息,并解决它们之间的冲突来提炼信息,然后把信息或者提供给用户,或者提供给其他的中间件。由于该方法不需要重复存储大量数据,并能保证查询到最新的数据,因此比较适合高度自治、集成数量多且更新变化快的异构信息源集成。虚拟方法中的技术涉及更多的查询上的代数操作。首先,中间件应当确定出哪个信息源对给定的查询有用,当需要集成的信息源巨大时,这一问题是非常重要的;其次,一旦确定了有关的信息源,中间件应当执行源到源的查询变换,该过程有时称为查询重写(Query Rewriting)。当从两个或多个信息源抽取数据时,中间件还需要生成一个全局的执行计划,以确定用何种顺序对信息源进行查询。