数据分类分析

数据分类分析功能是将列指定到有意义的类别中的过程,该类别可以用来组织并关注后续分析工作。

功能

IBM® InfoSphere® Information Analyzer 中的以下属性可用于数据分类:

  • 数据类(系统推断的)- 列的系统定义的语义业务使用类别
  • 数据子类(可选)- 数据类中用户定义的语义业务使用类别

对于系统推断的数据类,将列分类为以下某一系统定义的数据分类指定:

IDENTIFIER
通常包含引用特定实体类型(例如客户编号)的非智能数据值的列。
CODE
包含来自特定域集的有限数据值的列,其中每个数据值都有特定含义(例如产品状态码)。
INDICATOR
与 CODE 相似,唯一的不同是在域集中仅存在两个允许的二进制值(例如,yes/no 指示符)。
DATE
包含表示特定日期、时间或持续时间(例如,产品订单日期)的数据值的列。
QUANTITY
包含计算中可使用的数字数据(例如,产品价格)的列。
TEXT
包含来自无限域集的自由格式字母数字数据值(例如,产品描述)的列。
LARGE OBJECT
包含大对象数据(例如,产品图像)的列。
UNKNOWN
通过系统算法无法归类为以上类的列。

有多个系统报告可以显示列及其数据类指定。

方法

在创建列频率分布后的列分析处理期间,系统推断了对列的初始数据分类指定。系统使用将列数据值的基数、数据类型、唯一性和长度作为因子的算法,以推断其可能的数据类。在某些情况下,该算法可能无法生成特定数据类指定,此时系统将分配 UNKNOWN 指定。

列分析复审期间,将显示用于复审的列的系统推断的数据分类。可以接受该推断为 true,或根据列及其数据的知识或研究覆盖该推断。

系统功能

系统每当执行列分析处理时,就自动将数据分类算法应用于每一列。通过使用系统算法,InfoSphere Information Analyzer 分析关于列的关键信息以推断列所属的最可能的数据类。此系统推断的数据分类指定随后将作为推断的选择记录到存储库中,并在缺省情况下成为已选的选择,如以下示例中所示。

图 1. 推断的数据分类指定的示例
显示推断的数据分类指定的示例

用户职责

在列的列分析复审期间,查看系统推断的数据分类指定。在详细列视图中,数据分类有其自身的选项卡用于查看结果。在此面板上,您可以接受系统推断的数据类,或通过选择其他数据分类指定来覆盖系统的推断。如果覆盖了系统推断的数据类选择,那么新选择将作为已选的选择记录到存储库中。将列的数据分类功能标记为已复审后就完成了该过程。

解释结果

通常,您可按名称或别名区分每一列,因此可以直接决定是接受还是覆盖系统推断的数据分类。但是,如果几乎不熟悉或完全不熟悉列,那么对频率分布值和已定义数据类型的细致检查将帮助您确认系统推断的数据类或选择其他更合适的数据类。

例如,常见的情况是:列为数字数据类型,并且要在 CODE 或 QUANTITY 数据类之间作出选择。一般来说,相比于 QUANTITY,CODE 往往具有较低的基数,而每个数据值的频率分布计数较高,但也会有例外情况(例如,“订购数量”字段)。

常常将明显为 INDICATOR 的列(列名通常包含单词/字符串“Flag”)推断为 CODE,因为在频率分布中存在第三个或第四个值(例如,“Y”、“N”和空值)。在这些情况下,建议将列的数据类设置为 INDICATOR,并从“域分析”屏幕将额外值标记为“不完全”或“无效”,或者甚至在源中更正或除去这些值(例如,将空值转换为“N”)。

同样,在 CODE 和 IDENTIFIER 之间进行选择有时会是一个难题。一般来说,如果列具有较高的唯一值百分比(例如,频率分布计数等于 1),那么它很有可能是 IDENTIFIER 数据类。

另一个数据分类问题是数据环境中列间的数据分类指定需要保持一致性。常见的问题是:列(例如,客户编号)为表的主键,因此具有 IDENTIFIER 的所有特征。但是,该列还可能作为外键出现在其他表中,并具有 CODE 的所有特征(虽然其本质上仍是 IDENTIFIER 列)。有效代码的集合存在于“引用表”中,并且代码同时是值和标识时尤其如此。

对于使用 UNKNOWN 数据分类标记的数据,最常见的情况是:值为空值、空白或空格,并且无法作出任何其他推断。在这种情况下,该列最有可能不被使用,并应该相应地使用注释或用户定义的分类(例如 EXCLUDED 或 NOT USED)标记该字段。在某些场景中,这可能表示有机会从数据库除去多余列;当进行数据集成工作时,这些字段是装入目标系统时要忽略的字段。

决策和操作

您只对数据分类中的每一列作出一个决策。接受系统推断的数据类,或通过选择其他数据类来覆盖推断的数据类。

作出该决策后,可以标记已针对数据分类进行复审的列;或者,也可以在将复审状态标记为完成之前,添加可选的数据子类指定。

但是,数据分类为后续分析(尤其是数据质量控制分析)提供自然的组织模式。下表根据每个系统推断的数据类指示所需的公共评估和分析。可以根据用户定义的数据类建立分析的特定条件。

表 1. 数据分类分析注意事项和操作
数据类 属性分析 域分析 有效性和格式分析
标识 对数据类型、长度、空值和唯一基数进行评估
  • 确认最大值和最小值
  • 验证格式(如为文本)
  • 查找超出范围的条件(如果适用)
  • 不一致或无效的格式(如为文本/如果适用)
指示符 对长度、空值和常量基数进行评估
  • 确认有效值
  • 评估偏差和缺省值
标记无效值
代码 对长度、空值和常量基数进行评估
  • 确认有效值
  • 评估偏差和缺省值
标记无效值
日期/时间 对数据类型、空值和常量基数进行评估
  • 确认有效值
  • 评估偏差和缺省值
  • 查找超出范围(如果适用)
  • 标记不一致或无效的格式(如果为文本或数字)
数量 对数据类型、精度和小数位进行评估
  • 确认有效值
  • 评估偏差和缺省值
  • 查找超出范围(如果适用)
  • 标记不一致或无效的格式(如果为文本或数字)
文本 对数据类型、长度、空值、唯一或常量基数进行评估 对缺省值、格式需求和特殊字符进行评估
  • 标记无效的特殊字符
  • 标记无效的格式(如果适用)

性能注意事项

数据分类功能没有系统性能注意事项。