列分析概述

列分析是用于评估各个数据列的 IBM® InfoSphere® Information Analyzer 组件。通过一次选择要分析的数据库、表和列来控制要进行列分析的数据的范围。

系统通过访问基于用户选择的数据的数据源并为每一列构造频率分布来启动过程。频率分布对列中的每个不同数据值包含一个条目。

然后系统分析每个频率分布中的不同数据值以形成关于每一列的一般观察。

用户通过复查列分析系统数据来驱动列分析的剩余过程。该过程包含下列三个部分中的任何一个或全部:

数据分类分析
数据分类分析允许您按类别对列进行分隔和组织。这样的组织方式通过注重核心注意事项(例如,数字列通常属于特定有效范围)来帮助进行进一步复查。
列属性分析
列属性分析允许您针对定义的元数据评估数据内容,验证在其他系统中使用的元数据的完整性,或者识别未使用或未正确定义的列。
数据质量控制分析
数据质量控制分析允许您评估数据内容以获取完整性的基本原子条件(例如完全性和有效性)。这些是数据质量的基本评估,为数据中信任或置信度的断言提供了基础。