此场景描述了如何利用 IBM® InfoSphere® Information Server 组悠扬来解决数据仓库环境中的数据质量。
在以下三种典型的用例中,需要同数据仓库关联以评估或监控数据质量。
在每个用例中,都存在一系列促成整个解决方案的活动。每个活动在组成计划的更广泛的方法论和过程中利用一个或多个产品模块。在每个活动和阶段中,都存在一些过程输入,一些在产品内外执行的任务以及一些在以后活动或阶段会用到的来自过程的输出。数据质量也是这些活动之一。
这些用例的活动不一定是严格的事件顺序。通常它们是迭代活动并经常会同时出现,一个活动的发现会影响另一个活动,从而需要额外的工作。
例如,一个数据仓库包括客户和帐户数据。但是,更需要关注的是销售和市场营销对顾客及其购物习惯的影响。一组销售管理源会另作为现有数据仓库的目标。开始的发现工作中,共找到并映射了四个销售管理系统。但是在所有四个系统中验证域时,数据质量复审发现了重大的问题,很多字段没有填充或包含注释,而不是可用数据。对业务术语的复审时发现,系统使用存在错误理解并且还需要两个其他系统。在发现过程中引入了业务术语,以将关系映射到前四个系统。然后在数据质量复审中验证它们确实是需要的表。然后向数据架构设计师提供自数据质量复审的推断,以改进新数据仓库表的建模。
以下是您可能会在这些用例中遇到的公共难点。包括:
在此场景中,数据仓库(可能是 IBM 数据仓库或任何其他主流的数据仓库供应商,例如,Teradata 或 Oracle)正在扩展或升级。 这一特定数据仓库已经包含了各种财务信息,可以进行有效报告,但是现在需要添加客户数据以提供更广的分析信息。就大多数组织而言,其数据仓库已经成为一个重要场所,用于维护和管理财务、客户和销售信息的组合以供分析。