汇总数据
“汇总数据”将活动数据集中的个案组汇总为单个个案并创建新的汇总文件,或在活动数据集中创建包含汇总数据的新变量。基于零个或多个中断(分组)变量的值汇总个案。如果未指定分组变量,则整个数据集将成为单个分类组。
- 如果创建新的汇总数据文件,则新数据文件对由分组变量定义的每个组都包含一个个案。例如,如果分组变量有两个值,则新的数据文件将仅包含两个个案。如果未指定分组变量,则新数据文件将包含一个个案。
- 如果将汇总变量添加到活动数据集,则不汇总数据文件本身。分组变量值相同的每个个案对新汇总变量都得到相同的值。例如,如果性别是唯一的分组变量,则所有男性对于表示平均年龄的新汇总变量将得到相同的值。如果未指定分组变量,则对于代表平均年龄的新汇总变量,所有个案将收到相同值。
分组变量。 根据分组变量的值,将个案分在一组。分组变量的每个唯一组合定义一个组。创建新的汇总数据文件时,所有分组变量保存在新文件中,同时保留其现有名称和字典信息。分组变量(如果已指定)可以是数值型或字符串型。
汇总变量。 源变量用于汇总函数,以创建新的汇总变量。汇总变量名称紧跟一个可选的变量标签、汇总函数的名称和源变量名称(用括号括起来)。
您可使用新的变量名称覆盖缺省汇总变量名称,提供描述性变量标签,以及更改用于计算汇总数据值的函数。您还可以创建包含每个分类组中的个案数的变量。
汇总数据文件
- 从菜单中选择:
- 根据需要,选择分组变量,以定义如何对个案分组以创建汇总数据。如果未指定分组变量,则整个数据集将成为单个分类组。
- 选择一个或多个汇总变量。
- 为每个汇总变量选择一个汇总函数。
(可选)您可使用新的变量名称覆盖缺省汇总变量名称,提供描述性的变量标签,并创建包含每个分类组中的个案数的变量。
保存汇总结果
可以将汇总变量添加到活动数据集,或创建新的汇总数据文件。
- 将汇总变量添加到活动数据集 (Add aggregated variables to active dataset). 基于汇总函数的新变量添加到活动数据集中。数据文件本身并不汇总。分组变量值相同的每个个案对新汇总变量都得到相同的值。
- 创建仅包含汇总变量的新数据集。在当前会话中将汇总数据保存到新的数据集。该文件包含定义汇总个案的分组变量以及由汇总函数定义的所有汇总变量。活动数据集不受影响。
- 写入仅包含汇总变量的新数据文件。将汇总数据保存到外部数据文件。该文件包含定义汇总个案的分组变量以及由汇总函数定义的所有汇总变量。活动数据集不受影响。
用于大数据文件的排序选项
对于非常大的数据文件,汇总已预先排序的数据可能更有效。
文件已经按分组变量排序 (File is already sorted on break variable(s)). 如果已按分组变量的值对数据进行了排序,那么该选项可以使过程更快速地运行,并且占用更少的内存。应谨慎使用该选项。
- 数据必须按照分组变量的值进行排序,且分组变量的顺序必须与为“汇总数据”过程指定的分组变量的顺序相同。
- 如果要将变量添加到活动数据集,则只有在按照分组变量的升序值对数据进行了排序的情况下才选择此选项。
在汇总之前排序文件 (Sort file before aggregating). 在使用大数据文件时(这种情况很少见),您可能发现有必要在进行汇总之前按照分组变量的值对数据文件进行排序。建议不要使用该选项,除非您遇到了内存或性能问题。