多重插补

多重插补的目的是为缺失值生成可能的值,因而创建一些“完整”的数据集。 多重插补数据集对应的分析过程为每个“完整”数据集生成输出,并生成包含当原始数据集无缺失值时的结果估计的汇聚输出。 这些汇聚结果通常比单一插补方法所提供的结果更准确。

多重插补数据注意事项

分析变量。 分析变量可为:

  • 名义当变量值表示不具有内在等级的类别时,该变量可以作为名义变量;例如,雇员任职的公司部门。 名义变量的示例包括地区、邮政编码和宗教信仰。
  • 有序当变量值表示带有某种内在等级的类别时,该变量可以作为有序变量;例如,从十分不满意到十分满意的服务满意度水平。 有序变量的示例包括表示满意度或可信度的态度分数和优先选择评分。
  • 标度当变量值表示带有有意义的度规的已排序类别时,该变量可以作为刻度(连续)变量对待,以便在值之间进行合适的距离比较。 刻度变量的示例包括以年为单位的年龄和以千美元为单位的收入。

    该过程假设已经将适当的测量级别分配给所有变量,但您可以通过在源变量列表中右键单击该变量并从弹出菜单中选择测量级别暂时更改变量的测量级别。 要永久更改变量的测量级别, 请参阅 变量测量级别

变量列表中每个变量旁的图标标识测量级别和数据类型:

表 1. 测量级别图标
  数值 字符串 日期 时间
刻度(连续)
刻度图标
不适用
"刻度日期" 图标
"刻度时间" 图标
有序
有序图标
有序字符串图标
有序日期图标
"有序时间" 图标
名义
名义图标
名义字符串图标
名义日期图标
名义时间图标

频率权重。 此过程接受频率(重复)权重。 忽略重复权重为负值或零值的个案。 非整数权重被四舍五入为最接近的整数。

分析权重。 分析(回归或抽样)权重被包含进缺失值摘要和拟合插补模型中。 排除分析权重为负值或零值的个案。

复杂样本。 多重插补过程不显式处理层次、聚类或其他复杂抽样结构,尽管可以接受以分析权重变量形式的最终抽样权重。 同时注意“复杂抽样”过程目前不自动分析多重插补数据集。 有关支持池的完整过程列表,请参阅 分析多重插补数据

缺失值。 用户缺失值和系统缺失值视为无效值;即两种缺失值在插补值时被替换,且两种缺失值被视为插补模型中用作预测变量的无效值。 用户缺失值和系统缺失值在缺失值分析中也被视为缺失。

复制结果 (插补缺失数据值)。 如果您想准确复制您的插补结果,除了使用相同过程设置以外,还可以使用针对随机数字生成器的相同初始化值、相同数据顺序和相同变量顺序。

  • 随机数生成。 该过程在插补值计算期间使用随机数字生成器。 想要以后再次生成相同的随机结果,在每次运行“插补缺失数据值”过程之前使用随机数字生成器的相同初始化值。 请参阅主题 随机数生成器 以获取更多信息。
  • 个案顺序。 以个案顺序插补值。
  • 变量顺序。 完全条件指定(FCS)插补方法以“分析变量”列表中所指定的顺序插补值。

有两个对话框专门用于多重插补。

  • 分析模式 提供数据中缺失值的模式的描述性度量,并且在插补之前作为探索性步骤很有用。
  • 插补缺失数据值 用于生成多个插补。 可使用支持多重插补数据集的过程分析完整数据集。 请参阅 随机数生成器 ,以获取有关分析多个插补数据集的信息以及支持这些数据的过程的列表。

这些对话框粘贴 MULTIPLE IMPUTATION 命令语法。