二阶聚类节点模型选项

模型名称。用户可根据目标或标识字段自动生成模型名称(未指定此类字段时自动生成模型类型)或指定一个定制名称。

使用分区数据。如果定义了分区字段,那么此选项可确保仅训练分区的数据用于构建模型。 

标准化数字字段。缺省情况下,“二阶聚类”会对所有数值输入字段进行标准化,使它们具有相同的尺度,即均值为 0 且方差为 1。要保留数字字段的原始尺度,可取消选中此选项。符号字段不受影响。

排除离群值。如果选中此选项,那么那些与主要聚类似乎格格不入的记录将自动排除在分析之外。这样可以防止此类情况歪曲结果。

离群值检测在预聚类步骤进行。选中此选项时,会将相对于其他子聚类具有较少记录的子聚类视为潜在离群值,且重新构建不包括这些记录的子聚类树。子聚类被视为包含潜在离群值的下限大小由百分比选项控制。如果其中某些潜在离群值记录与任何新子聚类配置足够相似,那么可将其添加到重新构建的子聚类中。将其余无法合并的潜在离群值视为离群值添加到“噪声”聚类中并排除在分层聚类步骤之外。

使用经过离群值处理的“二阶”模型对数据进行评分时,会将与最近主要聚类的距离大于特定阈值距离(基于对数似然)的新观测值视为离群值分配到“噪声”聚类中,名称为 -1。

聚类标签。为生成的聚类成员资格字段指定格式。聚类成员资格可表示为具有指定标签前缀字符串(例如, "Cluster 1" "Cluster 2" 等),也可以表示为数值

自动计算聚类数。“二阶聚类”可以非常迅速地对大量聚类解进行分析并为训练数据选择最佳聚类数。通过设置最大最小聚类数来指定要尝试的解决方案的范围。

指定聚类数。如果知道模型中要包含的聚类的数目,请选中此选项并输入聚类数。

距离测量。此选项确定如何计算两个聚类之间的相似性。

  • 对数似然。该似然度量假设变量服从某种概率分布。假设连续变量是正态分布,而假设分类变量是多项式分布。假设所有变量均是独立的。
  • 欧几里德。欧几里德距离测量是两个聚类之间的“直线”距离。它只能用于所有变量连续的情况。

聚类条件。此选项确定自动聚类算法如何确定聚类数。可以指定贝叶斯信息准则 (BIC) 或赤池信息准则 (AIC)。